Текст
                    ПРИКЛАДНАЯ
СТАТИСТИКА
СА.Айвазяв
* В.МБухшгабер
Т И.С.Енююв
Л.Д.Мешалкив
КЛАССИФИКАЦИЯ
И СНИЖЕНИЕ
РАЗМЕРНОСТИ


S.A.Aivazyan V M.Buchstaber I.S.Yenyukov L.D.Meshalkin APPLIED STATISTICS ¦ CLASSIFICATION AND REDUCTION OF DIMENSIONALITY Reference edition Edited by prof. S.A.Aivazyan Finansy i statistika Moscow 1989
С.А.Айвазян В. М. Бухштабер И.С.Енюков Л. Д. Мешалкин ПРИКЛАДНАЯ СТАТИСТИКА КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ Справочное издание I Год редакцией проф. С.А.Айвазяна МОСКВА "ФИНАНСЫ И СТАТИСТИКА" 1989
ББК 22.172' П75§ Рецензенты: Б. Г. Миркин, Е. Г. Ясин Прикладная статистика: Классификации и сни- П75 жение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин; Под ред. С. А. Айвазяна.— М.: Финансы и статисти- статистика, 1989.— 607 с: ил. ISBN 5—279—00054—X. Книга логически завершает справочные издания «При- «Прикладная статистика: Основы моделирования и первичная об- обработка данных» A983 г.) и «Прикладная статистика: Иссле- Исследование зависимостей» A985 г.). Рассматриваются задачи классификации объектов, снижения размерности Большое внимание уделяется разведочному статистическому аиализ>. Для специалистов, применяющих методы анализа данных 1702060000—036 П 100—88 010@1)—89 ISBN 5—279—00054—X ББК 22.172 © Издательство сФинансы и статистика», 1989
ПРЕДИСЛОВИЕ Данная книга является третьей в трехтомном справоч- справочном издании, задуманном и реализуемом нашим автор- авторским коллективом. В первом томе (Айвазян С. А., Еню- ковИ. С, Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: финансы и статистика, 1983. — 472 с.) дается, в частности, определение прикладной статистики (см. с. 19) как само- самостоятельной научной дисциплины, разрабатывающей и си- систематизирующей понятия, приемы, математические мето- методы и модели, предназначенные для организации сбора, стан- стандартной записи, систематизации и обработки статистиче- статистических данных с целью их удобного представления, интерпре- интерпретации и получения научных и практических выводов. Вто- Второй том (Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. — М.: Финансы и статистика, 1985.—488 с.) посвящен описанию методов анализа структуры, тесноты и конкретного вида статистических связей между исследуемыми признаками разной природы — количественными, ординальными, но- номинальными (категоризованными), а также обзору програм- программного обеспечения этих методов. В числе описанных мето- методов — корреляционный, регрессионный, дисперсионный, ковариационный анализ, элементы анализа временных ря- рядов и систем одновременных эконометрических уравнений. При минимальной вероятностно-статистической подго- подготовке читателя, обеспечиваемой, например, обычным веро- вероятностно-статистическим курсом экономического или техни- технического вуза, данный (третий) том пригоден для полностью автономного чтения (т.е. ег'о понимание не требует знания каких-либо специальных сведений, содержащихся в первых двух томах). Он посвящен актуальнейшим аспектам общей проблемы статистического анализа данных — задачам клас- классификации объектов, снижения размерности исследуемого признакового пространства и статистическим методам их
решения. Лишь в последние два-три десятилетия, когда оп- определенного уровня достигли вычислительная база иссле- исследований и теоретические разработки многомерного статис- статистического анализа, главной проблемой теории и практики классификации и снижения размерности стало развитие достаточно изощренного и эффективного в приложениях математического аппарата. На этом пути уже имеются серь- серьезные достижения, однако до сих пор в отечественной, да пожалуй, и в мировой специальной литературе не было из- издания, в котором эти достижения были бы достаточно пол- полно просистематизированы, выстроены в общую методологи- методологическую схему, снабжены необходимыми практическими ре- рекомендациями (включая вопросы преодоления вычислитель- вычислительных трудностей и использования подходящего типового программного обеспечения). Авторы предлагаемой вниманию читателей книги стави- ставили перед собой именно такую целевую установку. При этом изложение построено таким образом, что уже знакомство с «Введением» должно позволить читателю составить доста- достаточно ясное представление о сущности, роли и назначении статистических методов классификации и снижения размер- размерности, понять их разноаспектную типологизацию, узнать о содержании и логических связях всех частей книги (вклю- (включая основные постановки задач и «адреса» их решений в кни- книге). Следует отметить в общем замысле и в содержании кни- книги один аспект, который выдел яет ее среди другой литерату- литературы данного профиля. Речь идет о том специальном и не- неослабном внимании, которое уделяется в книге реализации важнейшего, узлового этапа всякого прикладного исследова- исследования, использующего математические методы и модели, — этапа разведочного статистического анализа. Как извест- известно, назначение этого этапа — тщательный предварительный анализ, своеобразное «прощупывание» исходных статистиче- статистических данных с целью выявления их вероятностной и геомет- геометрической природы, формирования и верификации тех или иных рабочих гипотез, касающихся этого аспекта проб- проблемы. Принятые на этом этапе рабочие исходные допуще- допущения о математической модели реального механизма генери- генерирования анализируемых данных являются определяющими в выборе необходимого математического инструментария, а значит, — ив успехе всего статистического исследования. Однако, к сожалению, в существующей практике приклад- прикладных статистических исследований этот важнейший этап ча- чаще всего либо полностью игнорируется, либо реализуется весьма поверхностно. И одна из главных причин этого — почти полное отсутствие необходимой научно-методологи-
ческой литературы (изданный много лет назад перевод кни- книги Дж. Тьюки «Разведочный анализ», в свое время весьма полезный, ныне приходится отнести к устаревшим источни- источникам информации). В данной же книге эти вопросы занимают центральное место: так или иначе с ними связано большин- большинство глав (кроме гл. 1—4), а непосредственно этой пробле- проблематике посвящен специальный раздел IV (гл. 18—21). Авто- Авторы старались сопровождать изложение этих важных вопро- вопросов подробным описанием существа, роли и научно-приклад- научно-прикладного значения результатов, полученных отечественными специалистами (в сравнении с результатами зарубежных исследователей). Книга состоит из 4 разделов и 21 главы. Раздел I (гл. 1—4) посвящен задачам классификации в ситуации, когда исследователь обладает так называемыми обучающими выборками (т. е. «классификации с учителем»). Математический аппарат, используемый при решении по- подобных задач, объединяется в разделе многомерного стати- статистического анализа, именуемого дискриминантный анализ. Раздел II (гл. 5—12) посвящен задачам «классификации без учителя» (исследователь не располагает обучающими вы- выборками). Математический аппарат решения таких задач включает в себя методы кластер-анализа, или автоматиче- автоматической классификации (в том числе иерархические процедуры классификации), а также статистические методы расщепле- расщепления смесей вероятностных распределений. Раздел III (гл. 13—17) содержит описание наиболее раз- разработанных и эффективных методов снижения размерности исследуемого признакового пространства и отбора наиболее информативных показателей. Среди представленных здесь методов — главные компоненты, факторный анализ, метод экстремальной группировки параметров, многомерное шка- шкалирование, экспертно-статистический метод построения ин- интегрального (латентного) показателя, методы нелинейного отображения многомерных данных в пространства низкой размерности по различным критериям, анализ соответ- соответствий в случае неколичественных переменных. Раздел IV (гл. 18—21) объединяет в себе описание мето- методов так называемого разведочного статистического анализа и одновременно вопросов вычислительной и программной реализации представленных в книге методов, включая обзор по соответствующему программному обеспечению ЭВМ (в том числе персональных ЭВМ) и краткое освещение проблем интеллектуализации статистического программного обес- обеспечения. Методы разведочного (предмодельного) статнстй-
ческого анализа данных (и, в частности, методы целенаправ- целенаправленного проецирования многомерных наблюдений) направ- направлены на «прощупывание» геометрической и вероятностной природы обрабатываемых данных с целью формирования адекватных реальности рабочих исходных допущений, на которых строится дальнейшее исследование. Эти методы как один из инструментов разведочного анализа являются естественным и необходимым дополнением к методам пер- первичной статистической обработки, описанным в гл. 10, 11 первого тома данного издания. Сделанный в книге особый акцент на этих методах обусловлен тем обстоятельством, что в существовавшей до последнего времени практике ста- статистических исследований этапу предмодельного анализа, методам выявления геометрической и вероятностной при- природы обрабатываемых данных, различным приемам тести- тестирования гипотетических структур используемых моделей, как правило, не уделялось должного внимания. В книгу включен ряд оригинальных результатов иссле- исследований авторов, а также результаты, ранее не публиковав- публиковавшиеся в отечественной литературе: общая теория автомати- автоматической классификации (гл. 10), экспертно-статистический метод построения единого сводного показателя эффектив- эффективности (гл. 15), некоторые приемы томографического анализа и целенаправленного проецирования многомерных данных (гл. 18—20), методы классификации при наличии элементов обучения (гл. 11), методы оцифровки неколичественных пере- переменных (гл. 17). Книга написана: С. А. Айвазяном — предисловие, вве- введение, гл. 5 (без п. 5.4.7), 6, 13 (без § 13.6), 14, 15 и § 21.2; В. М. Бухштабером — гл. 7, 8, 10, 20, а также гл. 9, 19 (совместно с И. С. Енюковым); И. С. Енюковым—гл. 11, 12, 16, 17, 18,а также гл. 9, 19 (совместно с В. М. Бухштабе- Бухштабером), §13.6 и §21.1; Л. Д. Мешалкиным — гл. 1,2,3,4; п. 5.4.7 написан Б. Г. Миркиным. Поскольку книга завершает труд коллектива авторов, посвященный кругу проблем, обозначенному как приклад- прикладная статистика, попробуем обсудить положение дел в этой области. Подавляющее большинство исследователей и целых на- научных коллективов, работающих в области теории и прак- практики статистического анализа данных, понимают и призна- признают, что эффективность прикладной реализации математико- статистических методов, успешное развитие конкретных проблемно- и методо-ориентированных систем автоматизи- автоматизированной статистической обработки данных (представляю- 8
щих важную составную часть разнообразных автоматизиро- автоматизированных систем поддержки принятия решений в различных отраслях человеческой деятельности) зависят не только от уровня теоретических вероятностно-статистических раз- разработок (в этом плане отечественная школа традиционно от- относится к передовым), но и от степени продвинутое™ в раз- разработке ряда смежных теоретических и прикладных проб- проблем, остающихся, по существу, вне традиционных рамок математической статистики. И дело, разумеется, не в том, как именно назвать статистическую дисциплину, занимаю- занимающуюся комплексной разработкой всех необходимых инстру- инструментальных и методологических проблем: в некоторых стра- странах (во Франции, например) ее чаще называют «анали- «анализом данны х». Мы считаем, что термин «прикладная статистика» вполне приемлем, тем более что он уже давно в обиходе в целом ря- ряде стран (США, ФРГ и др.), в которых имеются специализа- специализации студентов, институты и журналы такого названия. Хоте- Хотелось бы обратить внимание читателя на наиболее актуаль- актуальные направления исследований этой научной дисциплины. а) Развитие методов анализа данных, не апеллирующих к их вероятностной природе, а также методов, нацеленных на выявление вероятностной и геометрической природы обраба- обрабатываемых данных в условиях отсутствия соответствующей априорной информации. Именно таким методам уделено большое внимание в данной книге (кластер-анализ, много- многомерное шкалирование, томографические методы, целенап- целенаправленное проецирование многомерных данных и т. п., см. разделы II—IV книги) и именно они, как правило, оказыва- оказываются вне поля зрения монографий и руководств по матема- математической статистике. б) Формализация (математическая постановка) реаль- реальных задач статистического анализа данных в различных предметных областях (экономике, социологии, медицине и т. д.) и на базе этого опыта выработка типовых математи- математических постановок задач, выходящих за стеснительные рам- рамки жестких канонических моделей. Этот самый важный и самый трудный этап математико-статистического исследова- исследования является и самым неблагодарным, поскольку de facto оказался как бы «незаконнорожденным дитем» теории и практики статистического анализа данных. Искусство реа- реалистического моделирования формально не предусмотрено ни в одном из разделов инструментальной статистической науки, его развитие никак и ничем не стимулируется. Раз- Разрозненный положительный опыт такого рода, однако, при- 9
вел в последние полтора-два десятилетия к возникновению ряда интересных типовых постановок математических за- задач, связанных в основном с развитием подходов к получе- получению устойчивых статистических выводов и к построению и обоснованию различных критериев качества метода, исполь- используемых в оптимизационных формулиров- формулировках статистических задач (см. «Введе- «Введение», а также § 2.4, 2.6, 3.1, 5.4, гл. 10, 15, 18 и др.). в) Вычислительные вопросы компьютерной реализации методов статистического анализа данных. Это особенно ак- актуально для сложных и подчас громоздких процедур много- многомерного статистического анализа. В книге этим вопросам посвящена (помимо отдельных пунктов) гл. 21. г) Теория и практика генерирования на ЭВМ данных заданной природы и развитие на этой основе методов ста- статистического анализа малых выборок. Этот подход предо- предоставляет статистику эффективное (а иногда единствен- единственно возможное) средство исследования свойств обсуждае- обсуждаемых процедур многомерного статистического анализа, многие из которых не поддаются строгому аналитическому изучению. д) Развитие прикладного программного обеспечения по методам статистического анализа данных с акцентом на создание интеллектуализированных проблемно- и методо- ориентированных программных комплексов, способных обес- обеспечить исследователя развитой системой машинного асси- ассистирования. В книге этим вопросам посвящена гл. 21. Содержание и основные акценты теоретико-методоло- теоретико-методологических и алгоритмических разработок прикладной стати- статистики гораздо динамичнее, чем в традиционных математиче- математических дисциплинах, в том числе в математической статисти- статистике. Так, например, превалирующий удельный вес практиче- практической работы с существенно ограниченными выборками и воз- возможности исследования свойств статистических процедур с помощью имитационного статистического моделирования на ЭВМ (см., например, г)) обусловливают исключение из категории актуальных (для прикладной статистики) значи- значительной части асимптотической теории математической ста- статистики. Равно как и теоретические разработки, основанные на понятии достаточности статистики или на принципе мак- максимального правдоподобия, в той форме, как они формули- формулируются сегодня: пока верили, что для распределений, близ- близких к нормальному, целесообразно использовать рекомен- рекомендации, гарантирующие оптимальность правил статистиче- статистической обработки в рамках статистики нормального закона, 10
упомянутые понятия и подходы казались актуальными для приложений. В свете сказанного нам представляется вполне оправдан- оправданной и объективно назревшей необходимость специальных изданий по прикладной статистике. Данное справочное издание адресовано как статистикам, экономистам, социологам, медикам и специалистам в дру- других областях, использующим статистические методы клас- классификации и снижения размерности в ходе решения задач, так и математикам, профессионалам-разработчикам описы- описываемого математического аппарата (включая математиков- программистов). Специалист не математик может ограничить- ограничиться «потребительским» стилем пользования данной книгой, при котором внимание сосредотачивается на постановках задач и рекомендациях по реализации предложенных ре- решений (алгоритмах, описании диапазона их применимости, практических приемах анализа данных, программах), а усвоение обоснований этих рекомендаций и свойств исполь- используемых процедур не является необходимым. В заключение одно важное, с нашей точки зрения, наблюдение. Все мы в настоящее время являемся свиде- свидетелями и в той или иной мере участниками набирающе- набирающего все большую силу глобального процесса информати- информатизации общества. В проекции на проблематику данного издания это означает, в частности, что через сравни- сравнительно небольшое время персональный компьютер, а с ним и широкие возможности анализа данных станут неотъемлемой частью не только учрежденческого, но и домашнего уклада жизни. А следовательно, в повестке дня — бурная динамика роста спроса на методы и про- программы прикладной статистики. Научный и научно-методический багаж, послуживший основой для написания данного издания, наработан автора- авторами в основном в рамках их деятельности в Московском го- государственном университете им. М. В. Ломоносова, в Цент- Центральном экономико-математическом институте АН СССР, в Главном научно-исследовательском вычислительном центре 4-го Главного управления при Министерстве здравоохране- здравоохранения СССР и во Всесоюзном научно-исследовательском инсти- институте физико-технических и радиотехнических измерений Госстандарта СССР. Бесспорное влияние на замысел и содержание книги ока- оказали постоянные контакты авторов со своими коллегами по научному семинару «Многомерный статистический анализ и вероятностное моделирование реальных процессов», дейст- 11
вующему с 1969 г. в рамках Научного совета АН СССР по комплексной проблеме «Оптимальное планирование и управ- управление народным хозяйством» и Совета по автоматизации на- научных исследований при Президиуме АН СССР, а также по Всесоюзному научно-методическому семинару «Вычисли- «Вычислительные вопросы математической статистики», функциони- функционирующему в Московском государственном университете им. М. В. Ломоносова под руководством акад. Ю. В. Прохо- Прохорова. Авторы признательны Е. Г. Ясину к Б. Г. Миркину, взявшим на себя труд прочесть рукопись настоящего изда- издания и сделавшим ряд ценных замечаний. С. А. Айвазян
ВВЕДЕНИЕ. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ. СУЩНОСТЬ И ТИПОЛОГИЗАЦИЯ ЗАДАЧ, ОБЛАСТИ ПРИМЕНЕНИЯ В.1. Сущность задач классификации и снижения размерности и некоторые базовые идеи аппарата многомерного статистического анализа Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали ученые да- далекого прошлого. «Его (Аристотеля) величайшим и в то же время чреватым наиболее опасными последствиями вкладом в науку была идея классификации, которая проходит через все его работы ... Аристотель ввел или, по крайней мере, кодифицировал способ классификации предметов, основан- основанный на сходстве и различии ...», — писал Дж. Берналл в «Науке истории общества» (М.: Изд-во иностр. лит., 1956.— С. 117). После Аристотеля с его «деревом вещей жизни» имеется еще в докомпьютерной эре ряд интереснейших при- примеров прекрасно построенных классификаций как в естест- естественных, так и в общественных науках. Упомянем здесь (в хронологическом порядке) три из них: а) иерархическая классификация (основанная на понятии сходства) растений и видов М. Адансона A757 г., [170]); б) знаменитая периоди- периодическая система элементов Д. И. Менделеева A869 г.), пред- представляющая собой, по существу, классификацию многомер- многомерных наблюдений (каждый химический элемент может быть представлен в виде вектора характеризующих его разнотип- разнотипных признаков, включая характеристики конфигурации внешних электронных оболочек атомов) с выявленным еди- единым классифицирующим фактором (зарядом атомного ядра) и с упорядочением элементов внутри каждого класса; в) классификация крестьянских хозяйств, уездов и губерний России по характеру и уровню развития капитализма, по- полученная В. И. Лениным на основе анализа земско-стати- стических подворных переписей A899 г., [1]). Надо сказать, что, хотя аьторы упомянутых выдающихся классификаций и не располагали современным математи- математическим аппаратом многомерного статистического анализа, основные идеи и методологические принципы этого аппарата явно или неявно пронизывают логику их конструкций, а 13
подчас (в частности, в работе В.И. Ленина «Развитие капи- капитализма в России») и прямо формулируются. Остановимся на четырех генеральных идеях и методоло- методологических принципах многомерного статистического анализа, на которых базируются, по существу, все основные разделы и подходы математического аппарата классификации и сни- снижения размерности. 1. Эффект существенной многомерности. Сущность этого принципа в том, что выводы, получаемые в результате ана- анализа и классификации множества статистически обследо- обследованных (по ряду свойств) объектов, должны опираться одно- одновременно на совокупность этих взаимосвязанных свойств с обязательным учетом структуры и характера их связей. В [5] природа эффекта существенной многомерности по- поясняется на таком примере: попытка различить два типа потребительского поведения семей, основанная на последо- последовательном применении критерия однородности Стьюдента 112, п. 11.2.81 сначала по одному признаку (удельные расхо- расходы на питание), потом по другому (удельные расходы на про- промышленные товары и услуги) не дала результата, в то время как многомерный аналог этого критерия [12, п. 11.2.9], ос- основанный на так называемом расстоянии Махаланобиса и учитывающий одновременно значения обоих упомянутых признаков и характер статистической связи между ними, дает правильный результат (т. е. обнаруживает статисти- статистически значимое различие между двумя анализируемыми совокупностями семей). Формулировку существа этого принципа мы находим уже в упомянутой работе В. И. Ле- Ленина [1]. Возражая против классификации крестьянских хозяйств изолированно по каждому из анализируемых при- признаков с ориентацией на их средние значения, он пишет [1, с. 96]: «Признаки для различения этих типов должны быть взяты сообразно с местными условиями и формами земледе- земледелия; если при экстенсивном зерновом хозяйстве можно ог- ограничиться группировкой по посеву (или по рабочему скоту), то при других условиях необходимо принять в расчет посев промышленных растений, техническую обработку сельско- сельскохозяйственных продуктов, посев корнеплодов или кормовых трав, молочное хозяйство, огородничество и т. д. Когда крестьянство соединяет в широких размерах и земледель- земледельческие и промысловые занятия, — необходима комбинация двух указанных систем группировки (курсив наш. — С. А.), т. е. группировки по размерам и типам земледелия и груп- группировки по размерам и типам «промыслов». Вопрос о при- приемах сводки подворных записей о крестьянском хозяй- хозяйстве вовсе не такой узко специальный и второстепенный 14
вопрос ¦•¦ Вследствие неудовлетворительной сводки масса драгоценнейших сведений прямо-таки теряется, и иссле- исследователь получает в свое распоряжение только «средние» цифры (по общинам, волостям, разрядам крестьян, по ве- величине надела и т. д.). А эти «средние» ... зачастую совер- совершенно фиктивны». Итак, статистический анализ множества объектов, даже если по каждому из них зарегистрированы значения набора признаков, будет неполным, ущербным, если ограничиваться при этом только средними значениями признаков и не использовать разнообразные характеристи- характеристики тесноты и структуры связей между ними. 2. Возможность лаконичного объяснения природы ана- анализируемых многомерных структур. Определим вначале, что понимается (здесь и в дальнейшем изложении) под много- многомерной структурой. Речь идет о множестве статистически обследованных объектов {Оь О2, ..., О„}. Результаты стати- статистического обследования представляются, как правило (но не всегда), в одной из двух форм; таблицы (матрицы) «объект — свойство» вида Х = (Х1, Х2, ..„ Хп), (В.1) в которой Хг — {х\1), х,B), ..., х\р))' — вектор значений1 ана- анализируемых признаков (свойств) х*1*, х<2), ..., х<р), заре- зарегистрированных на i-u обследованном объекте; или матрицы (таблицы) попарных сравнений вида (В.Г) где элемент а^ определяет результат сопоставления объек- объектов О, и Oj в смысле некоторого заданного отношения: ац может выражать меру сходства или различия объектов О, и Oj, меру их связи или взаимодействия в каком-либо процессе (например, поток продукции отрасли i в отрасль/), геомет- геометрическое расстояние между объектами, отношение предпоч- предпочтения (atj — 1, если объект О, не хуже объекта О;, иа.;= О в противном случае) и т. д. Под возможностью лаконичного объяснения природы анализируемой многомерной струк- 1 Штрих как верхний индекс матрицы или вектора означает операцию их транспонирования. 15
туры подразумевается априорное допущение, в соответствии с которым существует небольшое (в сравнении с р) число оп- определяющих (типообразующих) факторов, с помощью кото- которых могут быть достаточно точно описаны как наблюдае- наблюдаемые характеристики анализируемых объектов (т. е. все эле- элементы х\ и а1} соответственно матриц X и А) и характер -связей межд\ ними, так и искомая классификация самих объектов. При этом упомянутые определяющие факторы мо- могут находиться среди статистически обследованных характе- характеристик, а могут быть латентными, т.е. непосредственно ста- статистически не наблюдаемыми, но восстанавливаемыми по исходным данным вида (В.1) или (В. Г). Гениальный пример практической реализации этого принципа дает нам периоди- периодическая система элементов Менделеева: в этом случае роль идеально информативного единственного определяющего фактора играет, как известно, заряд атомного ядра элемента. Отметим, что на данном принципе многомерного статисти- статистического анализа построены такие важнейшие разделы мате- математического аппарата классификации и снижения размер- размерности, как метод главных компонент и факторный анализ (см. гл. 13, 14), многомерное шкалирование (см. гл. 16), це- целенаправленное проецирование в разведочном статистиче- статистическом анализе данных (см. гл. 18—21) и др. 3. Максимальное использование «обучения» в настройке математических моделей классификации и снижения раз- размерности. Для пояснения этого принципа представим за- задачи классификации и снижения размерности по схеме «на входе задачи — на выходе задачи» (табл. В.1). Таблица В.1 Объект На «входе» за- задачи классифика- классификации и снижения размерности На «выходе» задачи классификации На «выходе» задачи снижения размер- размерности («-1,2, .... п) A) х или (p)\ (ап, .., а1п) (см. ф-лы (В 1) и (В 1')) Номер класса, к которому отнесен О,, или перечень статистически представленных в форме (В 1) или (В Г) объектов, ВХОДЯЩИХ В ТОТ же класс, что и объект Oi Значения иско- искомых определяю- определяющих (типообра- (типообразующих) факто- факторов, характеризу- характеризующих объект Oi 16
Если исследователь располагает и «входами» и «выхода- «выходами» задачи, то исходную информацию называют обучающей и целью исследования является описание процедур, с по- помощью которых при поступлении только входных данных нового объекта его можно было бы с наибольшей (в опреде- определенном смысле) точностью отнести к одному из классов (в задаче классификации) или снабдить значениями определяю- определяющих факторов (в задаче снижения размерности). Именно к таким ситуациям относятся типичные задачи медицинской диагностики, когда в клинических условиях в качестве ис- исходных данных исследователь располагает как «входами»— результатами инструментальных обследований пациен- пациентов, так и «выходами» — уже установленным диагнозом («болен»— «здоров») по каждому из них. Цель исследований такого типа — использование имеющегося «обучения» для отбора из множества результатов обследований небольшо- небольшого числа наиболее информативных (с точки зрения диаг- диагностической силы) показателей и для построения на их ос- основе формального диагностирующего правила (см., напри- например, [115]). Однако в задачах социально-экономического профиля ис- исследователь, как правило, располагает в качестве исходных ) данных лишь «входной» информацией (второй столбец табл. В.1) и в лучшем случае отдельными элементами «обучения»: например, известно, что определенная группа (из числа ста- ¦ тистически обследованных) объектов относится к одному и тому же классу, но какие есть другие классы и как между ' ними распределены остальные статистически обследованные ^ объекты, неизвестно. Сущность обсуждаемого принципа как раз и состоит в том, что даже такая урезанная и обеднен- обедненная обучающая информация оказывается весьма полезной в решении узловых задач «настройки» используемых мате- математических моделей, как, например, выбор метрики в иссле- исследуемом признаковом пространстве, оценка общего числа классов, выбор критерия качества классификации и т. д. 4. Оптимизационная формулировка задач классифика- классификации и снижения размерности. Среди множества возможных методов, реализующих поставленную цель статистической обработки данных (разбиение совокупности статистически обследованных объектов на однородные классы, переход от заданного широкого набора признаков хA),..., х(р) к неболь- небольшому числу определяющих факторов), нужно уметь найти наилучший метод с помощью оптимизации некоторого экзо- генно заданного критерия (фхвдщионала) качества метода. Выбор конкретного вида этого, кратЦ^Я^лснован либо на ап- априорном знании вероятностной и геометрической природы
обрабатываемых данных, либо на соображениях содержа- содержательного (экономического, медицинского, технического н т. п.) плана. В сочетании с некоторыми другими (более спе- специфицированными) базовыми идеями * этот подход дает воз- возможность построить достаточно общую математическую кон- конструкцию, в рамках которой удается «навести порядок» в огромном множестве существующих алгоритмов классифи- классификации и снижения размерности, подчас стихийно (и эврис- эвристически) возникающих из нужд разнообразных приложе- приложений. В.2. Типовые задачи практики и конечные прикладные цели исследований, использующих методы классификации и снижения размерности До разработки аппарата многомерного статистического анализа и, главное, до появления и развития достаточно мощной электронно-вычислительной базы главные пробле- проблемы теории и практики классификации и снижения размер- размерности относились не к разработке методов и алгоритмов, а к полноте и тщательности отбора и теоретического анализа изучаемых объектов, характеризующих их признаков, смысла и числа градаций по каждому из этих признаков. Все методы классификации сводились, по существу, к ме- методу так называемой комбинационной группировки, когда все характеризующие объект признаки носят дискретный характер или сводятся к таковым (пол или мотив миграции индивидуума, уровень жилищных условий или число детей в семье и т.п.), а два объекта относятся к одной группе толь- только при точном совпадении зарегистрированных на них гра- градаций одновременно по всем характеризующим их призна- признакам (одинаковый пол, мотив миграции и т. д.). Методы сни- снижения размерности ограничивались простым агрегировани- агрегированием однотипных признаков (например, переход от фиксации семейных расходов отдельно на молоко, сыр, сметану и т.п. к общим семейным расходам на молочные продукты) и от- отбором (на уровне содержательного анализа) некоторой на- 1 Например, идея расширительного толкования понятия ядра класса ядром класса может быть точка, группа точек, ось, поверх- поверхность, случайная переменная и т д На этом, в частности, построен весьма общий подход к решению задач анализа данных, названный авторами «методом динамических сгущении^» [106] Эта же идея ис- использована нами и при построении общей теории автоматической классификации (гл 10). 18
иболее информативной части из исходного набора призна- признаков. Однако по мере роста объемов перерабатываемой инфор- информации и, в частности, числа классифицируемых объектов и характеризующих их признаков возможность эффективной реализации подобной логики исследования становилась все менее реальной (так, например, число k групп или классов, подсчитываемое при комбинационной группировке по фор- формуле k = тх-т2 ... тр, где/п, — число градаций по призна- признаку xiJ), ар — общее число анализируемых признаков, уже при т} = 3 и р = 5 оказывается равным 243). Именно электронно-вычислительная техника стала тем главным ин- инструментом, который позволил по-новому подойти к реше- решению этой важной проблемы и, в частности, конструктивно воспользоваться разработанным к этому времени мощным аппаратом многомерного статистического анализа: метода- методами распознавания образов «с учителем» (дискриминантный анализ) и «без учителя» (автоматическая классификация, или кластер-анализ), методами и моделями факторного анализа, многомерного шкалирования и т. д Развитие электронно-вычислительной техники как сред- средства обработки больших массивов данных стимулировало проведение в последние годы широких комплексных иссле- исследований сложных социально-экономических, технических, медицинских и других процессов и систем, таких, как об- образ и уровень жизни населения, совершенствование орга- организационных систем, региональная дифференциация соци- социально-экономического развития, планирование и прогно- прогнозирование отраслевых систем, закономерности возникно- возникновения сбоев (в технике) или заболеваний (в медицине) и т п. В связи с многоплановостью и сложностью этих объектов и процессов данные о них по необходимости носят много- многомерный и разнотипный характер, так как до их анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели. В этих условиях выходят на первый план проблемы построения группировок и класси- классификации по многомерным данным (т е. проблемы классифи- классификации многомерных наблюдений), причем появляется воз- возможность оптимизации этого построения с точки зрения на- наибольшего соответствия получаемого результата поставлен- поставленной конечной цели классификации. Цели классификации существенно расширяются, и одно- одновременно содержание самого процесса классификации ста- становится неизмеримо богаче и сложнее. Оно, в частности, до- дополняется проблемой построения самой процедуры класси- классификации, ранее носившей чисто технический характер. 19
Для пояснения сущности основных типов задач класси- классификации и конечных прикладных целей, которые ставит при этом перед собой исследователь, рассмотрим примеры. Пример В.1. Выявление типологии потребительско- потребительского поведения населения, анализ сущности дифференциации этого поведения, прогноз структуры потребления [154]. В качестве исходной информационной базы используют- используются данные бюджетных обследований семей [105]. Поясним логическую схему исследования. Многомерная статистика рассматривает совокупность изучаемых многомерных объ- объектов (В.1) как совокупность точек или векторов в прост- пространстве описывающих их признаков. Применительно к схе- схеме потребления совокупностью объектов, подлежащих изу- изучению, является множество элементарных потребительских ячеек —семей. Каждая семья характеризуется, с одной стороны, некоторым набором X факторов-детерминантов (социально-демографические и другие признаки, описываю- описывающие условия жизнедеятельности семьи), а с другой — на- набором Y параметров поведения («переменных поведения»), в которых отражаются ее фактические потребности. В качестве социально-демографических факторов, име- имеющих существенное значение для изучения потребитель- потребительских аспектов социальной жизни, целесообразно использо- использовать, например, общественную и национальную принад- принадлежность, уровень образования и квалификацию, характер труда, демографический тип и возраст семьи, тип населен- населенного пункта и характер жилища, размер и структуру имуще- имущества, уровень доходов. Имеется некоторое сомнение относительно включения последнего показателя (уровень доходов), так как принци- принципиально он может быть выражен через другие социально- демографические характеристики. Величина доходов явля- является производной от уровня образования, квалификации, характера трудовой деятельности (через заработки работни- работников семьи), половозрастного и численного состава семьи 1. Поэтому доход остается в нашей конструкции как один из вспомогательных компонентов, в концентрированном виде выражающий разницу в основных факторах-детерми- факторах-детерминантах. Различия в потребностях, складывающиеся под влияни- влиянием социально-демографических и природно-климатических 1 Рассматривая в дифференцированном балансе доходов и по- потребления населения структуру потребления семей только по признаку различий в доходе, мы фактически абстрагируемся от всех других социально-демографических факторов. 20
условий, являются объективно существующими; они фор- формируют весь строй поведения потребителя в конкретно- исторических условиях, а в конечном счете порождают своеобразные типы потребителей, ориентированные на су- существенно разное потребление. Весь комплекс социально-демографических и других факторов, существенно воздействующих на структуру по- потребления, будем называть типообразующим. Они име- имеют определяющее значение, в то время как все другие дают лишь случайную вариацию в пределах одной группы (типа) потребительского поведения. В качестве признаков поведения Y можно рассматривать три группы параметров: а) уровень и структуру потребле- потребления; б) характер (объем и содержание) использования сво- свободного времени; в) интенсивность изменения социального, трудового, демографического статуса (в [154] рассмотрена только первая группа признаков). Итак, в задаче даны числовые характеристики и града- градации типообразующих и одновременно поведенческих при- признаков каждой семьи из анализируемой совокупности. Решение общей проблемы, связанной с выявлением и прогнозом структуры и дифференциации потребностей на- населения, распадается в соответствии с принятой в [154] ло- логической схемой исследования на следующие этапы. 1. Сбор и первичная статистическая обработка исход- исходных данных. Исследуемые объекты (семьи) выступают в ка- качестве многомерных наблюдений или' точек в двух много- многомерных пространствах признаков. Фиксируя в качестве ко- координат этих точек значения (или градации) типообразую- типообразующих переменных X (т. е факторов-детерминантов), рассмат- рассматриваем их в «пространстве состояния» П (X), т. е. в прост- пространстве, координатами которого служат основные показате- показатели жизнедеятельности семей. Фиксируя же в качестве ко- координат тех же самых объектов значения показателей Y их потребительского поведения, рассматриваем их в «прост- «пространстве поведения» П (Y). Очевидно, при надлежащем выбо- выборе метрики в пространствах П (X) и П (Y) геометрическая близость двух точек в П (X) будет означать сходство усло- условий жизнедеятельности соответствующих двух семей, так же как и геометрическая близость точек в П (Y) будет оз- означать сходство их потребительского поведения. Среди ме- методов первичной статистической обработки анализируемых данных, обычно используемых на этой стадии исследования (см., например, [12, гл. 10—11]), широко распространенны- распространенными и весьма полезными являются методы изучения различ- различных одно-, двух- и трехмерных эмпирических распределе- 21
ний, которые сводятся к построению и различным представ- представлениям (графическим, табличным) упомянутых выше ком- комбинационных группировок. Пример табличного представле- представления одной из таких двумерных комбинационных группиро- группировок приведен в табл. В.2. Таблица Ъ2 Градации признака *Ч) (доход) «Низкий» «Средний» «Высокий» Сумма Градации признака *W (жилищные условия) «низкоо 24 20 4 48 «удовлет- воритель- ворительное» 12 100 8 120 «хорошее» 4 140 28 172 «очень хорошее» 0 20 40 60 Сумма 40 280 80 400 Эта комбинационная группировка построена на основе статистического обследования 400 семей по двум признакам из пространства П (X): по *A) (руб.) — величине среднеду- среднедушевого семейного дохода (с тремя градациями: «низкий», «средний» и «высокий»), и по *B) — качеству жилищных условий (с четырьмя градациями: «низкое», «удовлетвори- «удовлетворительное», «хорошее» и «очень хорошее»). Каждая клетка таблицы соответствует классу, полученному в результате проведенной комбинационной группировки; внутри клетки обозначено число семей, имеющих данное сочетание града- градаций анализируемых признаков (подобные таблицы называ- называют также «таблицами сопряженности», см., например, [12, п. 10.3.5], а также [11, 3.1]). Для более полного представления результатов подобной классификации можно было бы ввести в программу компью- компьютера требование выпечатывать номера семей, попавших в каждую из двадцати клеточек таблицы. Заметим, что непрерывным аналогом комбинационной группировки является обычный переход от исходных наб- наблюдений непрерывной случайной величины к «группиро- «группированным» выборочным данным [12, п. 5.4.2]. Результат тако- такого перехода представляется либо в виде таблицы, подобной табл. В.2, либо в виде графика {гистограммы). 2. Выявление основных типов потребления с помощью разбиения исследуемого множества точек-семей на классы в «пространстве поведения» ЩУ). Гипотеза существова- 22
ния «естественных», объективно обусловленных типов по- поведения, т. е. какого-то небольшого количества классов се- семей, таких, что семьи одного класса характеризуются срав- сравнительно сходным, однотипным потребительским поведе- поведением, геометрически означает распадение исследуемой в «пространстве поведения» совокупности точек-семей на со- соответствующее число «сгустков» или «скоплений» точек. Выявив с помощью подходящих методов многомерного статистического анализа (кластер-анализа, таксономии) эти классы-сгустки, тем самым определим основные типы потребительского поведения. Попутно в качестве «побочно- «побочного результата» решения главной задачи этого этапа конст- конструктивно реализуется метод построения целевых функций предпочтения, являющийся развитием и некоторой модифи- модификацией метода, предложенного в [47]. По существу, при этом решается одна и та же задача регрессионного анализа [11], но функция регрессии строится отдельно только по одно- однородным данным, попавшим в один какой-то класс. 3. Отбор наиболее информативных типообразующих признаков (факторов-детерминантов) и выбор метрики в пространстве типообразующих признаков. Очевидно, не- неправомерно рассчитывать на то, что диапазоны возможных значений каждого из кандидатов в типообразующие при- признаки окажутся непересекающимися для семей с разным типом потребительского поведения. Другими словами, зна- значения каждого из признаков х^ в отдельности и их набора в совокупности подвержены некоторому неконтролируемому разбросу при анализе семей внутри каждого из типов по- потребления. Естественно считать наиболее информативными те факторы-детерминанты или те их наборы, разница в за- законах распределения которых оказывается наибольшей при переходе от одного класса потребительского поведения к другому. Эта идея и положена в основу метода отбора на- наиболее информативных (типообразующих) признаков-де- признаков-детерминантов. Наконец, отобрав небольшое число наиболее информативных признаков-детерминантов, мы можем попы- попытаться снова разбить исследуемую совокупность семей на классы-сгустки, но уже в пространстве выявленных типооб- типообразующих признаков. При этом результат разбиения будет существенно зависеть не только от состава группы на- наиболее информативных типообразующих признаков, но и от способа вычисления расстояния между двумя точками- семьями в этом пространстве и, в частности, от того, с ка- какими весами участвуют в этом расстоянии отобранные ти- типообразующие признаки. Поэтому веса подбираются таким образом, чтобы результат разбиения семей на классы в про- 23
странстве наиболее информативных факторов-детерминан- факторов-детерминантов в некотором смысле наименее отличался бы от разбие- разбиения тех же точек-семей, которое было получено в «простран- «пространстве поведения». Таким образом, добиваемся наибольшего совпадения, наибольшей связности в результатах классифи- классификации одного и того же множества семей в двух разных признаковых пространствах — «пространстве поведения» П (Y) и пространстве типообразующих признаков ЩХ). 4. Анализ динамики структуры исследуемой совокупно- совокупности семей в пространстве наиболее информативных типо- типообразующих признаков. Конечной целью этого этапа являет- является прогноз тех постепенных преобразований классификаци- классификационной структуры совокупности потребителей (семей, рас- рассматриваемых в пространстве типообразующих признаков), которые должны произойти с течением времени. Реализация этапа может быть осуществлена с использованием резуль- результатов и подходов, описанных в [50], а также с помощью прив- привлечения математического аппарата марковских цепей (ана- (аналогично тому, как используется этот аппарат при анализе динамики структуры трудовых ресурсов; см., например, [17]) и многомерных временных рядов [146]. При этом, ко- конечно, должны быть учтены существующие методы прогно- прогноза социально-демографической структуры населения [31], [145]. 5. Прогноз структуры потребления. На этом этапе ис- исследования опираемся на результаты, полученные в итоге проведения предыдущего этапа, т. е. исходим из заданной классификационной структуры потребителей в интересую- интересующий нас период времени в будущем. Восстанавливая клас- классификационную структуру потребления (классификацион- (классификационную структуру совокупности семей в пространстве призна- признаков П (К), характеризующих потребительское поведение семьи) по классификационной структуре потребителей "(по классификационной структуре той же совокупности, но в пространстве типообразующих признаков), будем относить каждую конкретную семью к тому типу потребления, для которого значения характеризующих ее типообразующих признаков являются, грубо говоря, наиболее типичными. П р и м е р В. 2. Классификация как необходимый пред- предварительный этап статистической обработки многомерных данных [9]. Пусть исследуется зависимость интенсивности миграции населения х^ (профессиональной или террито- территориальной) от ряда социально-экономических и географиче- географических факторов jcA>, Jt<2>, ...,jc(p~1), таких, как средний зара- заработок, обеспеченность жилой площадью, детскими учрежде- учреждениями, уровень образования, возможности профессиональ- 24
ного роста, климатические условия и т. п. Естественно пред- предположить (и результаты исследования это подтверждают), что Для различных однородных групп индивидуумов одни и те же факторы влияют на х^ в разной степени, а иногда и в противоположных направлениях. Поэтому до применения аппарата регрессионно-корреляционного анализа следует разбить все имеющиеся в нашем распоряжении данные Х\ — = (jcj-1', х\2), ..., х\р)) (г — 1, 2, ..., п) на однородные классы и решать далее поставленную задачу отдельно для каждого такого класса. Только в этом случае можно ожидать, что полученные коэффициенты регрессии х(р> по хA), хB), ..., ..., х(р~]) будут допускать содержательную интерпретацию, а мера тесноты связи между х(р) и (jcA>, jc<2>, ..., jc'''-1') ока- окажется достаточно высокой. Подобные задачи можно найти в [130, с. 77]. Другой вариант такого рода примера получим, если в ка- качестве объектов исследования рассмотрим предприятия оп- определенной отрасли, а в качестве вектора наблюдений Xi — совокупность объективных (нерегулируемых) условий рабо- работы t-ro обследованного предприятия (сырье, энергия, ос- оснащенность техникой и рабочей силой и т. п.). Классифика- Классификация предприятий по X производится как необходимый пред- предварительный этап для возможности последующей объектив- объективной оценки работы коллективов и разработки обоснованных дифференцированных нормативов: очевидно, лишь к пред- предприятиям, попавшим в один класс по X, может быть примене- применена одинаковая система нормативов и стимулирующих пока- показателей (см. описание подобной задачи в [53]). Далее можно рассматривать задачу, аналогичную сформулированной вы- выше, а именно: если Y — (г/A\ ..., y(q))' — вектор показате- показателей качества работы предприятия (объем и качество выпус- выпускаемой продукции, ее себестоимость, рентабельность и т.п.), a U — (и*1), ..., и<т>)' — вектор регулируемых факторов, от которых зависят условия производства (число основных под- подразделений, уровень автоматизации и т. д.), то задачу описа- описания интересующей нас зависимости вида Y = f (U) естест- естественно решать отдельно для каждого класса по X. Пример В.З. Классификация в задачах планирова- планирования выборочных обследований [91. Здесь речь пойдет о пла- планировании выборочных экономико-социологических обсле- обследований городов. Предположим, что необходимо достаточно детально проанализировать подробные статистические дан- данные о городах с целью выявления наиболее характерных черт в экономико-социологическом облике типичного сред- среднерусского города. Производить подробный, кропотливый 25
анализ по каждому из городов РСФСР, очевидно, слишком трудоемко, да и нецелесообразно. По-видимому, разумнее попытаться предварительно выявить число и состав различ- различных типов в совокупности обследованных городов по набо- набору достаточно агрегированных признаков (jc<1), jc<2), ..., jc<p>), характеризующих каждый город (например, понимать под х</> число жителей города, приходящееся на каждую тысячу жителей, обладающих заданным у'-м признаком, скажем, высшим образованием, специальностью металлурга и т.п.). А затем, отметив наиболее типичные города в каждом клас- классе (наблюдения-точки Xit наиболее близко располагаю- располагающиеся к «центрам тяжести» своих классов), отобрать их для дальнейшего (более детализованного) социально-экономи- социально-экономического анализа. При этом, очевидно, мера представитель- представительности отобранных «типичных городов» определится удель- удельным весом количественного состава точек данного класса среди всех рассматриваемых точек (городов). Подробнее об этой задаче см. в [9, гл. 5]. Похожие задачи планирования выборочных обследований с использованием методов клас- классификации рассмотрены в [130, с. 34]. Анализ рассмотренных примеров с учетом, конечно, и другого накопившегося к настоящему времени опыта ре- решения практических задач классификации в экономике, со- социологии, психологии, технике, медицине, геологии, архео- археологии и других сферах практической и научной деятельности человека позволяет произвести определенную систематиза- систематизацию этих задач в соответствии с их основными типами и ко- конечными прикладными целями исследования (табл. В.З). В качестве комментария к табл. В.З поясним методологи- методологическую общность задач 3.1—3.3: прогноза экономико-социо- экономико-социологических ситуаций, диагностики и автоматического рас- распознавания зрительных и слуховых образов. Для этого ле- лежащую в основе их решения методологическую схему связ- связной неупорядоченной типологизации представим следующим образом. Пусть в качестве исходных данных об объекте О,- (i = 1, 2, ..., п) имеем вектор описательных (объясняющих) признаков Xt = {х\г\ ..., х\р))' (это, в частности, характе- характеристики условий жизнедеятельности i-й обследованной се- семьи в примере В.1, значения параметров исследуемого тех- технологического процесса, геофизических характеристик грунта или результаты обследований i-ro пациента в зада- задачах диагностики, геометрические, или частотные характе- характеристики распознаваемого образа в п. 3.3) и некоторую ин- информацию Y{ о том результирующем свойстве, по которому производится классификация объектов (специфика соци- социально-экономического поведения t-й семьи в примере В.1; 26
Таблица В.З -в— а g 1 2 3 Тип задачи кдассификацви Комбинационные группи- группировки и их непрерывные обобщения Простая типологизация: выявление «стратификаци- «стратификационной структуры» множест- множества статистически обследо- обследованных объектов, «нащупы- «нащупывание» и описание четко вы- выраженных скоплений («сгу- («сгустков», «кластеров», «обра- «образов», классов) этих объек- объектов в анализируемом много- многомерном пространстве и по- построение правила отнесения каждого нового объекта к одному из выявленных классов Связная неупорядоченная типологизация: исследова- исследование зависимостей между не поддающимися упорядоче- упорядочению классификациями од- одного и того же множества объектов в разных призна- признаковых пространствах, одно из которых построено на результирующих (поведен- (поведенческих) признаках (отра- (отражающих специфику функ- Варианты (примеры) конечных прикладных целей исследования для данного типа задачи классификации Составление частотных таблиц и графиков, характеризующих распределение статистически обследованных объектов по градациям или интервалам группирования характеризую- характеризующих их признаков (см. п. 1 в примере В.1) 2.1. Классификация как необ- необходимый предварительный этап исследования, когда до проведения основной статисти- статистической обработки множества анализируемых данных (по- (построения регрессионных мо- моделей, оценки параметров ге- генеральной совокупности и т д.) добиваются расслоения этого множества на однород- однородные (в смысле проводимого за- затем статистического анализа) порции данных (см. примеры В.1 и В.2) 2.2. Выявление и описание рас- расслоенной природы анализируе- анализируемой совокупности статистиче- статистически обследованных объектов с целью формирования плана выборочных (например, эконо- экономико-социологических) обсле- обследований этой совокупности (см. пример В.З) 2.3. Первый шаг в построении связных типологий (см. п. 3 таблицы и пример В.1) 3.1. Прогноз экономико-социо- экономико-социологических ситуаций или от- отдельных социально-экономи- социально-экономических показателей, включая задачу выявления так называ- называемых типообразующих призна- признаков, в том числе латентных, т. е. иепосредсгвенно не наб- наблюдаемых (см. пример В.1) 3.2. Диагностика в промыш- промышленности, технике, георазведке, медицине [94, 156, 83, 115] 27
Продолжение с с ¦к 4 5 Тип задачи классификации ционирования объекта, его социально-экономическое поведение, состояние здо- здоровья и т п), а другое — на описательных (отража- (отражающих условия функциониро- функционирования и другие характери- характеристики, от которых могут зависеть значения результи- результирующих признаков) Связная упорядоченная ти- пологизация: модификация связной неупорядоченной типологизации (см п 3 табшцы), обусловленная донО шительным допуще- допущением, что классы, получа- получаемые в пространстве ре- результирующих (поведен- (поведенческих) признаков, подда- поддаются экспертному упорядо- упорядочению по некоторому свод- сводному (как правило, латент- латентному, непосредственно не наблюдаемому) свойству эффективности функцио- функционирования, качеству, степе- степени прогрессивности (опти- (оптимальности) поведения и т. п Структурная типологиза- ция дополнение и развитие простой типологизации (см. п 2 таблицы) в направле- направлении изучения и описания структуры взаимосвязей полученных классов, вклю чая построение соответст- соответствующих иерархических си- систем (на классифицируемых элементах и на классах эле- элементов), анализ роли и ме- места каждого элемента и класса в общей структурной Варианты (примеры) конечных прикладных целей исследования для данного типа задачи классификации 3 3 Автоматическое (машин- (машинное) распознавание образов — зрительных, слуховых [59, 74, 83] Построение и интерпретация единого (сводного) латентного признака-классификатора в ви- виде функции от исходных опи- описательных признаков класси- классификация химических элемен- элементов по заряду их атомного яд- ядра (периодическая система Д И Менделеева), классифи- классификация сельских поселений по уровню их социально-экономи- социально-экономического развития Г128], по- построение фактора общей ода- одаренности в педагогике и пси- психологии [9], построение свод- сводного показателя эффективности функционирования предприя- предприятия [87]; построение интег- интегральной характеристики уров- уровня мастерства спортсменов в игровых видах спорта [6]; оценка тяжести заболевания пациента и т д 5 1 Классификация задач мно- многоцелевого комплекса (круп- (крупной программы, научного на- направления производственного комплекса и т. п.) 5 2 Классификация элементов и подсистем по их функцио- функциональному назначению (произ- (производств — в территориально- производственном комплексе, территориальных единиц — в народнохозяйственном разде- разделении труда и потребления, элементов организационных структур и т. п.)
Продолжение и с % 6 Тип задачи классификации классификационной схеме При этом структурная клас- классификационная схема опре- определяется составляющими ее классами (подсистемами) и характеристиками (прави- (правилами) их взаимодействия Классификация динамиче- динамических траекторий развития систем тнпологнзацня тра- траекторий многомерных вре- временных рядов X (t) = = (х<'>@, • , х(р)@)', среди компонент х^'* (t) которых могут быть как ко- количественные, так н качест- качественные переменные Варианты (примеры) конечных прикладных целей исследования для данного типа задачи классификации 5 3 Классификация лиц, при- принимающих решение, по нх ро- роли н близости позиций в пони- понимании ситуации и способе ре- решения задачи 5 4 Классификация исследу- исследуемых признаков и анализ структуры связей между ними Примеры по всем подпунк- подпунктам данного пункта таблицы можно найгн в [11, гл. 4; 111, гл 5—8, 34, 1581 Задачи биологической система- систематики fill], анализа типов Дн- намнкн семейной структуры [50], анализа типов динамики потребительского поведения семей [154] н др. наличие или отсутствие сбоев в i-м анализируемом техноло- технологическом процессе, месторождений полезных ископаемых на г-м обследованном участке, заболевания у г'-го обследуе- обследуемого пациента в задачах диагностики; конкретный содержа- содержательный смысл распознаваемого зрительного или слухового образа в задачах п. 3.3). Разница между задачами типа3.1 и задачами 3.2 и 3.3 заключается в том, что в задачах прогно- прогноза экономико-социологических ситуаций информация Yt об исследуемом результирующем свойстве объекта не является окончательной, т. е. не задает однозначно, как это делается в задачах 3.2 и 3.3, образа (класса, типа), к которому отно- относится этот объект. Эта информация в задачах типа 3.1 носит лишь промежуточный характер и представляется, как пра- правило, в виде вектора результирующих показателей Yt — = (y\l) y\q))'¦ Поэтому в отличие от задач 3.2 и 3.3 (в которых уже «на входе» задачи имеем распределение ана- анализируемых объектов-векторов Xt по классам, что и состав- составляет так называемую «обучающую выборку») в задачах типа 3.1 нужно предварительно осуществить простую типологи- зацию множества объектов {Ог} (/ = 1, ..., п) в пространа стве результирующих показателей и лишь затем исполь- 29
зовать полученные в результате этой типологизации клас- классы в качестве обучающих выборок для построения класси- классифицирующего правила в пространстве описательных при- признаков П (X). «На выходе» же всех задач типа 3.1 — 3.3 должны быть 1) набор наиболее информативных объясняющих перемен- переменных (так называемых типообразующих признаков) г'1* (X), г<2> (X), ..., г(р'> (X), которые либо отбираются по опреде- определенному правилу из числа исходных описательных призна- признаков x(l), Jt<2>, ..., х(р), либо строятся в качестве некоторых их комбинаций; 2) правило отнесения (дискриминантная функция, классификатор) каждого нового объекта О*, задан- заданного значениями своих описательных признаков X*, к одно- одному из заданных (или выявленных в процессе предваритель- предварительной простой типологизации) в пространстве П (Y) классов или образов. При этом типообразующие признаки Z = =(z^ (X), ..., z<p*> (X))' и искомое правило классификации должны быть подобраны таким образом, чтобы обеспечивать наивысшую (в определенном смысле) точность решения за- задачи отнесения объекта к одному из анализируемых классов по заданным значениям его описательных признаков X. Из сформулированных выше конечных целей классифи- классификации видно, что тематику разбиения многомерных данных на однородные (в определенном смысле) группы подчас труд- трудно отделить от задачей ижен ия размерности исследуемых дан- данных. Однако прикладные цели методов снижения размер- размерности не исчерпываются сформулированной выше задачей перехода от исходного набора описательных признаков *A), ..., *(р> к существенно более скромному (по численному со- составу) набору так называемых типообразующих признаков 2^> (X), ..., 2(р'> (X), которые являются наиболее характер- характерными, наиболее определяющими с точки зрения полноты и точности разбиения исследуемых объектов на классы. Выделим в качестве основных следующие типовые при- прикладные задачи снижения размерности анализируемого признакового пространства, обслуживаемые соответствую- соответствующими разделами многомерного статистического анализа. I. Отбор наиболее информативных показателей (включая выявление латентных факторов). Речь идет об отборе из ис- исходного (априорного) множества признаков X = (*A\ •.., ..., х^)' или построении в качестве некоторых комбинаций исходных признаков относительно небольшого числа р' переменных Z (X) = (г*1) (X), ..., 2<р'> (X))', которые обла- обладали бы свойством наибольшей информативности в смысле, определенном, как правило, некоторым специально подоб- подобранным для каждого конкретного типа задач критерием 30
информативное/т. 1Р- (Z). Так, например, если критерий Ip- (Z) «настроен» на достижение максимальной точности регрессионного прогноза некоторого результирующего ко- количественного показателя у по известным значениям предик- торных переменных х*1', х<2>, ..., х(р\ то речь идет о наилуч- наилучшем подборе наиболее существенных предикторов в модели регрессии f 11, § 8.7]. Если же критерий I p> (Z) устроен таким образом, что его оптимизация обеспечивает наивысшую точ- точность решения задачи отнесения объекта к одному из клас- классов по значениям X его описательных признаков, то речь идет о построении системы типообразующих признаков в задаче классификации (см. § 1.4, 2.5, 2.6, гл. 11) или о выяв- выявлении и интерпретации некоторой сводной (латентной) ха- характеристики изучаемого свойства (см. гл. 15). Наконец, критерий IP'(Z) может быть нацелен на максимальную авто- автоинформативность новой системы показателей Z, т. е. на максимально точное воспроизведение всех исходные призна- признаков jc'1', Jt<2), ..., х<р> по сравнительно небольшому числу вспомогательных переменных z'1', ..., z<p'> (p' <^ р). В этом случае говорят о наилучшем автопрогнозе и обращаются к моделям и методам факторного анализа и его разновидно- разновидностей (см. гл. 13 и 14). П. Сжатие массивов обрабатываемой и хранимой инфор- информации. Этот тип задач тесно связан с предыдущим и, в частности, требует в качестве одного из основных приемов решения построения экономной системы вспомогательных признаков, обладающих наивысшей автоинформативно- автоинформативностью, т. е. свойством наилучшего автопрогноза (см. выше). В действительности при решении достаточно серьезных за- задач сжатия больших массивов информации (подобные зада- задачи весьма актуальны и в плане необходимости минимиза- минимизации емкостей носителей, на которых хранится архивная информация, и в плане экономии памяти ЭВМ при обработке текущей информации) используется сочетание методов классификации и снижения размерности. Методы класси- классификации позволяют подчас перейти от массива, содержаще- содержащего информацию по всем я статистически обследованным объ- объектам, к соответствующей информации только по k эталон- эталонным образцам (ft ^ л), где в качестве эталонных образцов берутся специальным образом отобранные наиболее типич- типичные представители классов, полученных в результате операции разбиения исходного множества объектов на од- однородные группы. Методы же снижения размерности позво- позволяют заменить исходную систему показателей X = (х*1», ..., х(р>У набором вспомогательных (наиболее автоинфор- автоинформативных) переменных Z (X) = (г*1) (X), ..., z<"'> (X))'. 31
Таким образом, размерность информационного массива понижается от рхп до р'Xk, т.е. во многие десятки раз, если учесть, что р' и k обычно на порядки меньше соответ- соответственно pun. III. Визуализация (наглядное представление) данных. Вернемся к примеру В.1. При проведении простой типоло- гизации семей в «пространстве поведения» приходится иметь дело с множеством точек (семей) в 98-мерном прост- пространстве1. А для формирования рабочих гипотез, исходных допущений о геометрической и вероятностной природе со- совокупности анализируемых данных Ylt ..., Yn важно было бы суметь «подсмотреть», как эти данные точки располага- располагаются в анализируемом пространстве П (Y). В частности, уже на предварительной стадии исследования хотелось бы знать, распадается ли исследуемая совокупность точек на четко выраженные сгустки в этом пространстве, каково при- примерное число этих сгустков и т.д.? Но максимальная размер- размерность «фактически осязаемого» пространства, как известно, равна трем Поэтому, естественно, возникает проблема: нельзя ли спроецировать анализируемые многомерные дан- данные из исходного пространства на прямую, на плоскость, в крайнем случае — в трехмерное пространство, но так, чтобы интересующие нас специфические особенности ис- исследуемой совокупности (например, ее расслоенность на кластеры), если они присутствуют в исходном пространстве, сохранились бы и после проецирования. Следовательно, и здесь речь идет о снижении размерности анализируемого признакового пространства, но снижении, во-первых, под- подчиненном некоторым специальным критериям и, во-вторых, оговоренном условием, что размерность редуцированного пространства не должна превышать трех. Аппарат для ре- решения подобных задач называется в книге «целенаправлен- «целенаправленным проецированием1» многомерных данных и излагается в гл. 18—20. IV. Построение условных координатных осей (многомер- (многомерное шкалирование, латентно-структурный анализ). В данном типе задач снижение размерности понимается иначе, чем прежде. До сих пор речь шла о подчиненном некоторым спе- специальным целям переходе от заданной координатной систе- системы X (т. е. от исходных переменных л:*1), л:<2\ ..., х(р)) к но- новой координатной системе Z (X), размерность которой р' су- существенно меньше размерности р и оси которой 0z<x\ ..., 0г(р') конструируются с помощью соответствующих преобра- 1 Размерность вектора Y, т. е. число статей, по которым фикси- фиксируются удельные семейные расходы в бюджетных обследованиях, равна 98. 32
зований осей Ох*1), ..., 0х(р). Теперь же рассматриваем си- ситуацию, когда исходной содержательно заданной координат- координатной системы не существует вовсе, а подлежащие статисти- статистическому анализу данные представлены в виде (ВЛ'), т. е. в виде матрицы А попарных отношений al} (i, / = 1, 2,...,п) между объектами (см. (В.Г)). Ставится задача: для задан- заданной, сравнительно невысокой, размерности р' определить вспомогательные условные координатные оси 02<х\ ..., Qz(p"> и способ сопоставления каждому объекту 0t его координат z\1\ ..., z\p ') в этой системе таким образом, чтобы попарные отношения аг] (Z) (например, попарные взаимные расстоя- расстояния) между объектами, вычисленные исходя из их содер- содержательного смысла на базе этих условных координат, в оп- определенном смысле минимально бы отличались от заданных величин a,,(i, j — 1, 2, ..., п). В определенных условиях (в первую очередь в задачах педагогики, психологии, по- построения различных рейтингов1 и т. п ) построенные та- таким образом условные переменные поддаются содержатель- содержательной интерпретации и могут тогда рассматриваться в качест- качестве латентных характеристик определенных свойств анали- анализируемых объектов (такого типа задачи называют часто задачами латентно-структурного анализа). Снижение размерности происходит здесь в том смысле, что от исход- исходного массива информации размерности п кп переходим к матрице типа «объект —• свойство» (см. (В.1)) размерности р'Хл, где р' <^ п Аппарат для решения подобных задач состоит из методов так называемого многомерного шкалиро- шкалирования и представлен в гл. 16. В.З. Типологизация математических постановок задач классификации и снижения размерности Целесообразность и эффективность применения тех или иных методов классификации и снижения размерности так же, как их предмегная осмысленность, обусловлены кон- конкретизацией базовой математической модели, т. е. матема- математической постановкой задачи. Определяющим моментом в выборе математической постановки задачи является ответ на вопрос, на какой исходной информации строится модель. При этом исходная информация складывается из двух час- 1 В подобных ситуациях элементы матрицы (В Г) отражают обычно результаты попарных сравнений объектов 0г и Oj по анали- анализируемому результирующему свойству и, следовательно, представ- представляют одну из возможных форм обучающей информации (см. В.З). 2 Заказ № 291 33
тей: 1) из априорных сведений об исследуемых классах', 2) из информации статистической, выборочной, т. е. так на- называемых обучающих или частично обучающих выборок (точные определения см. в § 2.1 и 9.1). Априорные сведения об исследуемых генеральных сово- совокупностях относятся обычно к виду или некоторым общим свойствам закона распределения исследуемого случайного вектора X в соответствующем пространстве и получаются либо из теоретических, предметно-профессиональных сооб- соображений о природе исследуемого объекта, либо как резуль- результат предварительных исследований. Получение выбороч- выборочной исходной информации в экономике и социологии, как правило, связано с организацией системы экспертных оце- оценок1 или с проведением специального предварительного этапа, посвященного решению задачи простой типологи- зации анализируемых объектов в пространстве результиру- результирующих показателей (см. выше пример В.1). Классификация задач разбиения объектов на однород- однородные группы (в зависимости от наличия априорной и предва- предварительной выборочной информации) и соответствующее рас- распределение описания аппарата решения этих задач по гла- главам и параграфам данной книги представлены в табл. В.4. Математическая модель, лежащая в основе построения того или иного метода снижения размерности, включает в себя обычно три основных компонента 1. Форма задания исходной информации. Речь идет об ответе на следующие вопросы: а) в каком виде (т. е. в виде (В.1), (В.Г) или еще каком-либо) задана описательная ин- информация об объектах? б) имеется ли среди исходных стати- статистических данных обучающая информация, т. е. какие- либо сведения об анализируемом результирующем свой- свойстве? в) если обучающая информация присутствует в исход- исходных статистических данных, то в какой именно форме она представлена? Это могут быть, в частности, в привязке к объекту 0{ (i = 1, 2, ..., я): значения «зависимой» ко- количественной переменной («отклика») yt в моделях регрес- 1 Меднко-бнологнческие н фнзнко-техннческне задачи имеют в этом смысле определенное преимущество там обучающие выборки можно получить с помощью специально организованного контроль- контрольного экспериментального исследования. Специфика же социально- экономических исследовании до последнего времени практически исключала возможность использования идей и методов контролиру- контролируемого и планируемого эксперимента До последнего времени потому, что проводящиеся сейчас в стране работы по созданию средств ма- машинного эксперимента в экономике [100] дают надежду на возмож- возможность осуществления подходов, основанных на активном экспери- эксперименте в экономике, уже в ближайшем будущем. 34
Таблица В.4 Априорные сведения о классах (генераль- (генеральных совокупностях) Некоторые самые общие предполо- предположения о законе распределения ис- исследуемого векто- вектора' гладкость, со- сосредоточенность внутрн ограничен- ограниченной области и т. п. Различаемые ге- генеральные сово- совокупности заданы в виде параметри- параметрического семейства законов распре- распределения вероят- вероятностей (парамет- (параметры неизвестны) Различаемые ге- генеральные сово- совокупности заданы однозначным опи- описанием соответ- соответствующих законов распределения Предварительная выборочная информация нет информации Классификация без обучения кла- кластер-анализ, так. сономня, распоз- распознавание образов «без учителя», иерархические процедуры класси- классификации (гл. 5, 7, 8, 10—12) Интерпретация ис- исследуемой гене- генеральной совокуп- совокупности как смеси нескольких гене- генеральных совокуп- ностей «Расщеп- «Расщепление» этой смеси с помощью мето- методов оценивания неизвестных пара- параметров (гл. 6) Классификация при полностью описанных клас- классах различение статистических ги- гипотез (гл 1) есть частично обучающие выборки Методы кластер- анализа, дополнен- дополненные осно- основанным на частично обучающих выборках выбором начальных приближе- приближений числа и центров классов, их ковариаци- ковариационных матриц (§ 7 3, гл. 9) Методы расщепле- расщепления смеси, дополнен- дополненные оцен- оценками, полу- полученными из частично обучающих выборок Модифика- Модификация мето- методов кла- стер-анали- стер-анализа (гл 9) есть обучающие выборки Непара мет- метрические методы д искр ими- нантного анализа (§ 3.2) Параметри- Параметрические ме* тоды днс- крнмннант- ного ана- анализа (гл. 2-4) Обучающие выборки не нужны 2* 35
сии; номер однородного по анализируемому свойству класса, к которому относится объект 0t в задаче классифи- классификации; порядковый номер (ранг) объекта 0t в ряду всех объектов, упорядоченных по степени проявления рассмат- рассматриваемого свойства, в задачах анализа предпочтений и по- построения упорядоченных типологизаций; наконец, значения Yi ~ (yi1^ •••> у\ч))' набора результирующих призна- признаков, характеризующих анализируемое в классификацион- классификационной задаче свойство (см. пример В.1I. 2. Тип оптимизируемого критерия /P'(Z) информатив- информативности искомого набора признаков Z = (г^1), ..., г^'))'. Как уже отмечалось, критерий информативности может быть ориентирован на достижение разных целей. Следует выделить целый класс критериев автоинформа- автоинформативности, т. е. критериев, оптимизация которых приводит к набору вспомогательных переменных Z = (zA>, ..., 2(p'>)', позволяющих максимально точно воспроизводить (в том или ином смысле, в зависимости от конкретного вида кри- критерия) информацию, содержащуюся в описательном массиве данных типа (В.1) или (В. Г). Если описательная инфор- информация представлена в виде матрицы «объект — свойство» (В.1), то речь идет о максимально точном восстановлении рхп значений исходных переменных х\1], х\2), ..., х\р) по значениям существенно меньшего числа (р'хя) вспомога- вспомогательных переменных г,A), ..., z\pK Если же описательная информация представлена в виде матрицы попарных срав- сравнений объектов (В. Г), то речь идет о максимально точном воспроизведении пг элементов этой матрицы atl (i, / = 1, ..., п) по значениям существенно меньшего числа (р'хя) вспомогательных переменных г,A),..., г\р) (i = 1, ..., п). Будем называть критериями внешней информативности (имеется в виду информативность, внешняя по отноше- отношению к информации, содержащейся в описательном мас- массиве (В.1) или (В. Г)), такие критерии lp> (Z), которые наце- нацелены на поиск экономных наборов вспомогательных пере- переменных Z (X) = (zW(X), ... z(P">(X))', обеспечивающих максимально точное воспроизведение (по значениям Z, а значит в конечном счете по значениям X) информа- 1 Перечисленные варианты не исчерпывают всех возможных форм представления обучающей информации. Так, например, при надлежащей интерпретации элементов atj матрицы (В.Г) она мо- может быть также отнесена к разновидностям обучающей информации (если, скажем, atj понимать как результат сравнения по анализиру- анализируемому результирующему свойству объектов 0t и 0}). 36
ции, относящейся к результирующему признаку (варианты ее задания перечислены выше, в п.1)). 3. Класс L (X) допустимых преобразований исходных признаков X. Вспомогательные признаки Z = (z'1', ..., ..., z(p'')' B случае представления исходной описательной информации в форме матрицы «объект — свойство» (т. е. в виде (В.1)) конструируются в виде функций от X, т. е. Z -- = Z (X). Как обычно в таких ситуациях, чтобы обеспечить содержательность и конструктивную реализуемость реше- решения оптимизационной задачи следует предварительно договориться об ограниченном клас- классе допустимых решений L (X), в рамках которого эта оптимизационная задача будет решаться. Очевидно, от вы- выбора L (X) будет существенно зависеть и получаемое ре- решение 7. (X) = (z^X), ..., z(p'> (X)) упомянутой оптими- оптимизационной задачи. Итак, следуя предложенной выше логике, мы должны были бы произвести типологизацию задач снижения раз- размерности по трем «входам» (или «срезам»): форме задания исходной информации, типу (смыслу) оптимизируемого критерия информативности и классу допустимых преобра- преобразований исходных переменных. Однако в предлагаемой ни- ниже форме представления результатов типологизации задач снижения размерности (табл. В.5) эти принципы реализо- реализованы в упрощенном виде за счет следующих двух практиче- практических соображений: 1) подавляющее большинство методов снижения размерности базируется на линейных моделях, т. е. класс допустимых преобразований L (X) — это класс ли- линейных (как правило, подходящим образом нормирован- нормированных) преобразований исходных признаков я'1', ..., *<р) (в книге нелинейным преобразованиям посвящены лишь § 13.6 и 17.3); 2) спецификация формы задания исходной информации связана со спецификацией смысловой нацелен- нацеленности критерия информативности, а поэтому их удобнее да- давать в общей графе. Данная в табл. В.5 типологизация, как и всякая иная классификация, не претендует на исчерпывающую полноту. Заметим, что пункт 9 этой таблицы повторяет, по существу, 1 Речь идет о нахождении (в виде функции от X) такого вектора Z (X) = (г(,1) (X), ..., г<р> (X)), который обращает в максимум или ми- минимум (в зависимости от конкретного содержательного смысла оп- оптимизируемого критерия информативности) значение 1р. (?). Поэто- Поэтому справа в данном соотношении записано extr («экстремум»). 37
Таблица В.5 Jfcn/п 1 2 3 4 Класс и смысловая нацеленность критерия информативности, форма задания исходной информации АИ: максимизация содержащейся в г*1», .., z(p') доли суммарной вариа- вариабельности исходных признаков *<•>, .... х(р>. Описательная информация: в фор- форме (В.1). Обучающая информация: нет АИ: максимизация точности воспро- воспроизведения корреляционных связей между исходными признаками по их аппроксимациям с помощью вспомога- вспомогательных переменных г'1), .., г(р'>, Описательная информация: в фор- форме (В.1) Обучающая информация: нет АИ: разбиение исходных признаков на группы высококоррелнрованных (внутри группы) переменных и от- отбор от каждой группы фактора, име- имеющего максимальную интегральную характеристику корреляционных связей со всеми признаками данной группы Описательная информация: в фор- форме (В.1) Обучающая информация: нет АИ: приписывание каждому объекту О( значений условных координат BA(', . . , г'^^такнм образом, что- чтобы по ним максимально точно вос- восстанавливалась заданная структура попарных описательных отношении между объектами. Описательная информация: в фор- форме (В Г). Обучающая информация: нет Название соответст- соответствующих моделей и методов, главы и параграфы книги Метод главных компонент, гл. 13 Модели и методы факторного ана- анализа, гл. 14 Метод экстре- экстремальной группи- группировки парамет- параметров, п. 14.2.1 Многомерное шка- шкалирование, гл. 16
Продолжение Л п/п 5 6 7 8 Класс и смысловая нацеленность критерия информативности, форма задания исходной информации АИ: максимальное сохранение задан- заданных описательным массивом (В.1) анализируемых структурно-геомет- рнческнх н вероятностных свойств после его проецирования в простран- пространство меньшей размерности (в прост- пространство, натянутое иа z(I», ..., z*p'', Р'<Р). Описательная информация: в фор- форме (В.1). Обучающая информация: нет "ВИ: минимизация ошибки прогноза (восстановления) значения результи- результирующей количественной переменной по значениям описательных перемен- переменных (предикторов). Описательная информация: в фор- форме (В1). Обучающая информация: в фор- форме зарегистрированных на объек- объектах 0\, ..., 0„ значений соответ- соответственно у\, ..., уп результирующего количественного показателя у ВИ: минимизация вероятностей ошибочного отнесения объекта к од- одному нз заданных классов по значе- значениям его описательных переменных Описательная информация: в фор- форме (В.1). Обучающая информация: для каждого описанного с помощью (В.1) объекта указан номер клас- класса, к которому он относится ВИ: максимизация точности воспро- воспроизведения (по значениям вспомога- вспомогательных признаков) заданных в «обучении» отношений объектов по анализируемому результирующему свойству. Описательная информация: в фор- форме (В.1). Название соответст- соответствующих моделей и методов, главы и параграфы книги Методы целена- целенаправленного про- проецирования н от- отбор тнпообразу- ющнх признаков в кластер-анализе, гл. 11, 18—21 Отбор сущест- существенных преднкто- ров в регрессион- регрессионном анализе, см. [11, §8.7] Отбор тнпообра- зующнх признаков в дискримниаит- ном анализе, § 1.4, 2.5, 2.6 Методы латеитно- структурного ана- анализа, в том числе построение неко- некоторой сводной ла- латентной характе- 39
Продолжение № п/п 9 Класс и смысловая нацеленность критерия информативности, форма задания исходной информации Обучающая информация, в фор- форме попарных сравнений нлн упорядочений объектов по анали- анализируемому результирующему свойству (см сноску к с. 36 о воз- возможности использования формы (В.1') для представления обуча- обучающей информации) ВИ: максимизация точности воспро- воспроизведения (по значениям условных вспомогательных переменных) за- заданных в «обучающей информации» попарных отношений объектов по анализируемому результирующему свойству. Описательная информация: нет. Обучающая информация: в фор- форме (В Г) (см. сноску к с. 36) Название соответст- соответствующих моделей и методов, главы и параграфы книги ристики изучаемо- изучаемого результирую- результирующего свойства, гл. 15 Многомерное шка- шкалирование как средство латент- но-структурного анализа, гл. 16 Примечание. АИ — автоинформативность, ВИ — внешняя ин- информативность. пункт 4, они отличаются только интерпретацией исходных данных вида (В.Г) и соответственно конечными приклад- прикладными целями исследования. В.4. Основные этапы в решении задач классификации и снижения размерности Целью данного параграфа является конкретизация сфор- сформулированных в [12, п. 1.1.3] общих рекомендаций по мето- методике проведения всякого статистического анализа данных. В этой конкретизации будем опираться на описанную вы- выше специфику задач классификации и снижения размерно- размерности, и в частности на имеющуюся теперь возможность вы- выбора подходящего типа практической задачи и соответствую- соответствующих ему конечных прикладных целей исследования (см. § В.2), а также подбора необходимого математического ин- инструментария (см. § В.З). Представим весь процесс решения задач классификации и снижения размерности в виде следующей схемы (рис. В.1) и прокомментируем ее. 40
Этап 1 Этап 2 Этап 3 Основные типы конечных прикладных целей исследования: см. задачи 1—6 табл. С.Зи п. I-IV§ B.2 Этап 4 \' Этап 5 Этап 6 Основные типы базовых математических моделей, используемых в задачах классификации и снижения размерности, и соответствующий матема- математический инструментарий: см табл. В 3 и В 4 Этап 7 М Этап 8 Прикладное про- программное обеспече- обеспечение методов клас- классификации и сниже- снижение размерности- см. гл. 21 Рнс. В.1. Схема поэтапного процесса решения задач классификации и снижения раз- размерности ~
Этап 1 (установочный). На этом этапе главную роль играет «заказчик», т е специалист той предметной области (экономики, социологии, i еоло! ии, медицины и т д ), к ко- которой относится решаемая задача На предметно-содержа- предметно-содержательном уровне должна быть сформулирована постановка задачи, включающая в себя характер научных или практи- практических выводов, которые требуется получить «на выходе» задачи (диагностический, прогнозный, аналитически!! и т. п.), описание предмета исследования, объектов статисти- статистического обследования, выделяемые для решения задачи ре- ресурсы (время, трудозатраты) и т. д. Этап 2 (постановочный) На этом этапе необходимо тес- тесное сотрудничество «заказчика» и «инструментальщика», т. е специалиста по прикладной статистике Отправляясь от выработанной на этапе 1 предметно-содержательной ус- установки на главные цели исследования, они должны сфор- сформулировать эти цели в терминах основных типов приклад- прикладных задач, рассматриваемых в теории статистических мето- методов классификации и снижения размерности (см. § В 2). Необходимым условием успешной реализации этого этапа (и соответственно всего последующего статистического ана- анализа) является полное взаимопонимание и согласие «заказ- «заказчика» и «инструментальщика» в принятом решении (что до- достигается далеко не просто). Этап 3 (информационный) Состоит в выработке и реа- реализации плана сбора исходной статистической информации (если ее не представил «заказчик» уже на этапе 1), в подроб- подробной аттестации этой информации (объяснение способа сбо- сбора, формы представления и т. п.), в вводе исходных данных в ЭВМ, их выверке и редактировании Этап 4 (априорный математико-постановочный). На базе выводов и информации, полученных в результате ре- реализации этапов 1—3, требуется осуществить предвари- предварительный (априорный, т. е. до проведения каких-либо рас- расчетов) выбор базовых математических моделей, которые це- целесообразно использовать в математической постановке данной конкретной задачи (см. § В 3). При этом факторами, от которых решающим образом зависит выбор, являются, как уже знаем, характер конечных прикладных целей ис- исследования, природа и форма исходных статистических дан- данных. Этап 5 (разведочный анализ). Этот этап составляют все- всевозможные методы предварительной статистической обра- обработки, «прощупывания» исходных данных с целью выяв- выявления специфики их вероятностной и геометрической природы ([12, гл. 10 и 111, а также гл. 18—21 данной книги). 42
«На выходе» этапа должны быть уточненные сведения о физическом механизме генерирования наших исходных данных, а значит, о базовой математической модели этого механизма. Этап 6 (апостериорный математико-постановочный). На этом этапе уточняется математическая постановка ре- решаемой задачи с учетом выводов, полученных на предыду- предыдущем этапе. Этап 7 [вычислительный). Производится вычислитель- вычислительная реализация намеченного использования выбранного на предыдущем этапе математического инструментария в решении задачи. При этом желательно воспользоваться ти- типовым программным обеспечением (см. гл 21). Этап 8 (итоговый). Анализируются и интерпретируются результаты проведенной статистической обработки (классы, факторы и т.п.). В зависимости от результатов этого анали- анализа (достигнуты ли все намеченные на этапе 2 прикладные цели исследования, насколько естественно интерпретируе- интерпретируемы полученные результаты, степень их достоверности и т. п.) либо формулируются окончательные научные или при- прикладные выводы, либо даются уточнения и дополнения к за- заданию и возвращаются к одному из предыдущих этапов обычно к этапу 3, 4 или 5). ВЫВОДЫ 1. Разделение рассматриваемой совокупности объектов или явлений на однородные (в определенном смысле) груп- группы называется классификацией. При этом термин «класси- «классификация» используют, в зависимости от контекста, для обо- обозначения как самого процесса разделения, так и его резуль- результата. Это понятие тесно связано с такими терминами, как группировка, типологизация, систематизация, дискри- дискриминация, кластеризация, и является одним из основопо- основополагающих в практической и научной деятельности чело- человека. 2. Переход от характеризующего состояние или функцио- функционирование некоторой совокупности объектов исходного массива данных к существенно более лаконичному набору показателей, отобранных из числа исходных или по- построенных с помощью некоторого их преобразования та- таким образом, чтобы минимизировать связанные с этим поте- потери в информации (содержавшейся в исходном массиве дан- данных относительно рассматриваемой совокупности объек- объектов), составляет сущность процесса снижения размерности. 43
Этот процесс использует, в частности, логику и приемы классификации, и сам в свою очередь используется в классификационных процедурах. 3. В ситуациях, когда каждый из исследуемых объектов или явлений характеризуется большим числом разнотип- разнотипных и стохастически взаимосвязанных параметров, и ис- исследователь имеет возможность получить, или уже полу- получил, результаты статистического обследования по этим па- параметрам целой совокупности таких объектов или явлений, для решения задач классификации и снижения размерности следует привлекать специальный математический инстру- инструментарий многомерного статистического анализа: дискри- минантный и кластер-анализ, методы расщепления сме- смесей распределений, методы иерархической классифика- классификации, многомерное шкалирование, главные компоненты, факторный анализ, целенаправленное проецирование мно- многомерных данных и т. п. Практическая реализация этих методов требует весьма сложных и трудоемких расчетов и стала возможной приблизительно лишь к середине нашего столетия, когда была создана необходимая вычислительная' база. 4. К числу основных методологических принципов, которые лежат в основе большинства конструкций многомерного статистического анализа, следует отнести: а) необходимость- учета эффекта существенной многомерности анализируе- анализируемых данных (используемые в конструкциях характеристики должны учитывать структуру и характер статистических взаимосвязей исследуемых признаков); б) возможность ла- лаконичного объяснения природы анализируемых многомерных структур (допущение, в соответствии с которым сущест- существует сравнительно небольшое число определяющих, подчас латентных, т. е. непосредственно не наблюдаемых, факто- факторов, с помощью которых могут быть достаточно точно описа- описаны все наблюдаемые исходные данные, структура и характер связей между ними); в) максимальное использование «.обу- «.обучения» в настройке математических моделей классификации и снижения размерности (под «обучением» понимается та часть исходных данных, в которой представлены «статис- «статистические фотографии» соотношений «входов» и «выходов» анализируемой системы); г) возможность оптимизационной формулировки задач многомерного статистического анализа (в том числе задач классификации и снижения размерно- размерности), т. е. нахождение наилучшей процедуры статистической обработки данных с помощью оптимизации некоторого эк- зогенно заданного критерия качества метода. 44
Первые два принципа относятся к природе обрабатывае- обрабатываемых данных, а следующие два — к логике построения со- соответствующих аппаратных средств. 5. Среди типов прикладных задач (конечных прикладных це- целей) классификации следует выделить: 1) комбинационные группировки и их непрерывные обобщения — разбиение совокупности на интервалы (области) группирования; 2) простая типологизация: выявление естественного рас- расслоения анализируемых данных (объектов) на четко выра- выраженные «сгустки» (кластеры), лежащие друг от друга на не- некотором расстоянии, но не разбивающиеся на столь же уда- удаленные друг от друга части; 3) связная неупорядоченная ти- типологизация: использование реализованной в пространстве результирующих показателей простой типологизации в ка- качестве обучающих выборок при классификации той же со- совокупности объектов в пространстве описательных призна- признаков; 4) связная упорядоченная типологизация, которая от- отличается от связной неупорядоченной возможностью экс- экспертного упорядочения классов, полученных в пространстве результирующих показателей, и использованием этого упо- упорядочения для построения сводного латентного результи- результирующего показателя как функции от описательных пере- переменных; 5) структурная типологизация дает на «выходе» задачи дополнительно к описанию классов еще и описание существующих между ними и их элементами структурных (в том числе иерархических) связей; 6) типологизация дина- динамических траекторий системы: в качестве классифицируе- классифицируемых объектов выступают характеристики динамики исследу- исследуемых систем, например дискретные или непрерывные вре- временные ряды или траектории систем, которые в каждый мо- момент времени могут находиться в одном из заданных со- состояний. 6. Основные типы прикладных задач снижения размерно- размерности: 1) отбор наиболее информативной системы показателей (в задачах регрессии, классификации и т.п.); 2) сжатие больших массивов информации; 3) визуализация (наглядное представление многомерных данных); 4) построение услов- условного координатного пространства, в терминах переменных которого в некотором смысле наилучшим образом описыва- описываются и интерпретируются анализируемые свойства объек- объектов рассматриваемой совокупности. 7. При выборе подходящего математического инструмента- инструментария для решения конкретной задачи классификации следует исходить из согласованного с «заказчиком» типа конечных прикладных целей исследования и характера априорной и выборочной информации (см. табл. В.4); при определении 45
математической модели, лежащей в основе выбора метода решения задачи снижения размерности, следует идти от ти- типа прикладной задачи (см. предыдущий пункт выводов) к характеристике состава и формы исходных данных, а за- затем — к смысловой нацеленности и конкретному виду под- подходящего критерия информативности (см. табл. В.5). 8. Вся процедура статистического исследования, нацелен- нацеленного на решение задачи классификации или снижения размерности, может быть условно разбита на восемь эта- этапов (см. рис. В.1): 1) установочный (предметно-содержатель- (предметно-содержательное определение целей исследования); 2) постановочный (определение типа прикладной задачи в терминах теории классификации и снижения размерности); 3) информа- информационный (составление плана сбора исходной информации и его реализация, если ее не было уже на этапе 1, затем пред- предварительный анализ исходной информации, ее ввод в ЭВМ, сверка, редактирование); 4) априорный математике-по- математике-постановочный (осуществляемый до каких бы то ни было рас- расчетов выбор базовой математической модели механизма генерации исходных данных); 5) разведочный (специаль- (специальные методы статистической обработки исходных данных, на- например целенаправленное проецирование, нацеленные на выявление их вероятностной и геометрической природы); 6) апостериорный математико-постановочный (уточнение выбора базовой математической модели с учетом резуль- результатов предыдущего этапа); 7) вычислительный (реализация на ЭВМ уточненного на предыдущем этапе плана матема- тико-статистического анализа данных); 8) итоговый ( под- подведение итогов исследования, формулировка научных или практических выводов).
Раздел I. ОТНЕСЕНИЕ К ОДНОМУ ИЗ НЕСКОЛЬКИХ КЛАССОВ, ЗАДАННЫХ ПРЕДПОЛОЖЕНИЯМИ И ОБУЧАЮЩИМИ ВЫБОРКАМИ Глава 1. КЛАССИФИКАЦИЯ В СЛУЧАЕ, КОГДА РАСПРЕДЕЛЕНИЯ КЛАССОВ ОПРЕДЕЛЕНЫ ПОЛНОСТЬЮ 1.1. Два класса, заданные функциями распределения 1.1.1. Критерий отношения правдоподобия как правило классификации. В настоящей главе наблюдение X' — = (хA), ..., х(р)) всегда является упорядоченным набором из р признаков-координат. Событие, что наблюдение извле- извлечено из /'-го класса, а также соответствующая гипотеза обо- обозначаются Hf, распределение вектора X, принадлежащего /-му классу (/ = 1, ..., k), обозначается Fj (...) == F (... \Hj), плотности вероятностей (вероятности) —соответствен- но /,(...) = /(-|Н,). Задача построения классификационных правил рассмат- рассматривается при двух способах задания распределений X в классах: аналитическом, когда непосредственно задаются Fj с помощью подходящей математической формулы, и вы- выборочном, когда распределения в классах задаются с по- помощью указания соответствующих генеральных совокупно- совокупностей. Сюда в принципе можно было бы отнести и случаи дискриминантного анализа с выборками настолько боль- большого объема, что выборочными флуктуациями используе- используемых статистик можно пренебречь (§ 1.3). Задача отнесения наблюдения X в один из двух ранее Известных классов / = 1,2 тесно связана с классической статистической задачей проверки простой гипотезы против простой альтернативы [11, § 9.3]. Например, гипотезы Ну: X ? F1 против гипотезы Я2: X 6 F2. Известно (лемма Ней- Неймана — Пирсона), что в достаточно широком классе си- ситуаций [88] среди всех возможных критериев с ошибкой первого рода а наиболее мощным, т. е. имеющим наимень- наименьшую ошибку второгорода р\ является критерий отношения правдоподобия, основанный на статистике M где L — функция правдоподобия [11, с. 269]. 47
При этом при у (X) < са принимается гипотеза Ни а при у (X) > са принимается гипотеза Н2. Таким образом, R — пространство возможных значений X — с помощью у (X) разбивается на две непересекающиеся области: Кг ==- {Х:у(Х) < са, X 6#}— область принятия Я, и /B = {X : v (X) > са, X ?/?} — область принятия Н.2, или, как принято говорить в статистической теории про- проверки гипотез, критическую область для гипотезы Нг. Пусть tcj = P {Hj} означает априорные вероятности ги- гипотез. Правило классификации *.MX) >1^(Яз A,2) называется байесовским. Очевидно, оио является частным случаем критерия отношения правдоподобия. Рассмотрим произвольный критерий проверки гипотезы Нг с критической областью (областью принятия гипотезы Я2) — К- Тогда по формуле полной вероятности 111, фор- формула D.14)] вероятность принять ошибочное решение Р {ошибка} = щР {ошибка |//х} + п2Р {ошибка |Я2}= -яЛМХ)<1Х + щ J f,(X)dX = щ f/1(X)dX + К к К + »Ч A - f /. (X) dX) = л2 + J (я,Л - Я2/2) dX. A.3) Интеграл в правой части A.3) принимает наименьшее зна- значение в случае, когда область К состоит из всех точек, где подынтегральная функция отрицательна, т. е. zt1f1 (X) < < я2/2 (X), но это и есть определение байесовского клас- классификатора. Таким образом, байесовский классификатор минимизирует вероятность принятия ошибочного решения. Как будет видно из последующего материала, большин- большинство используемых на практике алгоритмов классификации строится исходя из формулы A.1). При этом либо оценивают- оцениваются неизвестные параметры в предполагаемых теоретических распределений и вместо в в плотности подставляются оцен- оценки в и далее вычисляется оценка у (X) как 9 МХ'ва) . A.4) ) Л(Х, в,) Это так называемые параметрические методы построения алгоритмов классификации. Либо для данной точки X сра- сразу, мииуя оценку параметров в, строится оценка отноше- отношения f2 (X)/f1 (X). Это так называемые непараметрические методы. 48
Введем несколько моделей, используемых в теоретиче- теоретических исследованиях задачи классификации, и применим к ним критерий отношения правдоподобия для получения со- соответствующих критических областей. При этом удобно вме- вместо y (^0 использовать h (X) — In у (X). 1.1.2. Основные математические модели. Ниже, там, где это не вызывает недоразумений, для случайной величины и ее конкретного значения будет использоваться одно и то же обозначение X. Это позволит сделать формулы более обозримыми. При этом запись / (X) в случае непрерывного распределения X будет означать плотность распределения случайной величины X в точке X, а в случае дискретного распределения X — соответственно вероятность того, что случайная величина X примет конкретное значение X. Рассмотрим четыре основные модели. Модель двух дискретных распределений с независимыми координатами. В этом случае для /=1,2 L(X\Hj) - П Р(*<*>|Я,) =-- П Ы**>), A-5) *=1 а=1 и области принятия гипотез К] (} — 1, 2) имеют вид А(Я) = 2 а*(*(А))>с, A.6) где с — некоторая постоянная и = In (М**))//! (*<*>)). A-7) Естественно трактовать ak (jc(*>) как балл в пользу Н2 про- против Нх, приписанный соответствующему значению k-й координаты. Алгоритмы вида A.5) из-за их простоты и на- наглядности часто используют в практической работе, хотя служащая их основанием модель весьма искусственна. Что- Чтобы уменьшить влияние на результаты классификации несо- несоответствия модели данным, в формуле A.5) берут не все ко- координаты X, а только их подмножество jcAi>, ..., jc( '** (k <Z p), подбирая х 1 так, чтобы вместе взятые они оставались до- достаточно информативными в отношении различения Н1 и Н2 и зависимость между ними (при фиксации гипотезы Н} (j — 1, 2) была небольшой. Кроме того, для уменьшения эффекта зависимости при определении баллов ак (л;(*>) (оцифровке значений jc(*>) для зависимых координат отступают от формулы A.7), подбирая ak (jc(*>) так, чтобы оптимизировать выбранный показатель качества классифи- классификации среди всех правил вида A.6). 49
Разность ожидаемых значений ah (x(/'>) при Я2 и Я,: Л -Е(ah (*<*>)| Я2)-Е(а„ (xW)| Я,) = где суммирование проводится по всем возможным значениям jt<*>, рассматривают в качестве параметра, характеризую- характеризующего среднюю информативность k-ik координаты в различе- различении гипотез Нх и Я2- Основание для этого обсуждается в п. 1.2.4. Модель двух дискретных распределений с одной и той же древообразной структурой зависимостей координат (ДСЗ- распределеиий). функция правдоподобия для ДСЗ-распре- делений имеет вид [12, § 4.2] L(X\Hj)^ ft =-- П Ы*(/I*D(/))). U-9) где a = (a A), ..., а{р)) — некоторая перестановка коорди- координат вектора X, 6 (а(/)) Е {0, аA), .... a(t —1)} и k(...)=0 соответствует фиктивной координате дг<0) = 1. Применение критерия отношения правдоподобия дает области /^ (/ =1, 2) вида *(*)= I ЬЛх<!\ *<*<'») ^«, A.10) где 6, (И, ») = ln/,tJ((n(tt|jK<*(/))-.= t,)_ -In/1( 40 И *<*<!» «о). A.11) Если координаты X (при фиксированной гипотезе Ях или Я2) независимы, то оцифровки A.7) и A.11) совпадают. В ли- литераторе встречаются указания на большую практическую эффективность правил классификации, основанных на фор- формулах A.10) и A.11), по сравнению с классификацией с по- помощью формул A.6) и A.7) 1127]. Модель двух нормальных распределений с общей ковари- ковариационной матрицей (модель Фишера). Теоретические рас- распределения в этом случае суть N (Mi, 2) и N (М2, 2), при- причем |2| > 0. Правило классификации, соответственно /(i и /С2. определяется с помощью неравенств ^-1(M2-M1)^c. A.12) 50
Особенность модели Фишера состоит в том, что это простей- простейшая математическая модель, допускающая произвольную ковариационную матрицу координат 2, лишь бы только она не была вырожденной. Необычайно просто выглядит в мо- модели и граница между областями принятия гипотез Нх и #2. Это гиперплоскость в уо-мерном пространстве, касатель- касательная в одной и той же точке к одной из линий постоянного уровня плотности N (М,, 2) и одной из линий постоянного уровня плотности N (М2, 2) (рис. 1.1). „B) Рис. 1.1. Классификация плоскостью двух нормальных распределений с общей ковариационной матрицей Модель двух нормальных распределений с разными кова- ковариационными матрицами. Распределения в этом случае суть Области /С, и > 0, / = 1, 2. определяются выражением A.13) + ln(|21|/|22|)Jc. A.14) Здесь h (X) — полином второго порядка от координат X. 1.1.3. Классификация посредством задания границы кри- критической области. Как показано в предыдущем пункте, для основных статистических моделей граница, разделяю- разделяющая Ki и /С2 — области принятия соответственно Нх и Н2, выглядит достаточно просто. На практике в случаях, когда исходные распределения отличаются от базовых моделей, рассмотренных в предыдущем пункте, пренебрегают возмож- возможностью повышения эффективности классификации за счет точного следования критерию отношения правдоподобия A.1) и ограничиваются областями принятия гипотез с гра- 51
ницами, принадлежащими какому-либо простому малопара- малопараметрическому семейству. При этом по-прежнему остается за- задача поиска критерия, наилучшего в заданном смысле (см. п. 1.1.4) среди допустимых (предположениями о границе) об- областей. Классификация посредством линейной гиперплоскости. Рассмотрим модель A.13) двух нормальных распределений с различными средними и ковариационными матрицами и по- попытаемся найти гиперплоскость h (X) = V'X + v0 = О та- такую, чтобы критерий вида A.15) минимизировал ошибку классификации второго рода р* при заданной ошибке классификации первого рода а [178]. Вве- Введем необходимые обозначения. Пусть для /==1,2 aj=E(h(X)\Hj)=V' E(X[Hj)+vo = V M} + v0, A.16) о?= E{lh(Х)-а,)* | Hj}= V ЕЦХ-Mt) (X-M,)' | H,) V= = V'2jV. A.17) Поскольку линейная комбинация нормально распределен- распределенных случайных величин распределена нормально, из A.15) — A-17) следует, что A.18) A.19) t где Ф«) = Bл)-'/2 С exp{—u2/2}du. — а» Для отыскания V и v0 воспользуемся методом множителей Лагранжа. Пусть ф = Ф (—a2la2) + I A — Ф(— ах1ох)— jr-a), тогда ¦|L= Ф (-0,70.) S- (-ajoj -ЯФ i-aJoJ-L- (-e./o,)= = Ф (—аъ/ог) (М2 — а2 02* 22 V)/a2 — АФ (—OiM) X x(A«1-a1<rriS1V)/o1=0; A.20) = 0; A.21) A.22) OK 52
Исключив из уравнения A.20) с помощью уравнения A.21) множитель к, получаем Ma~^i=[o2aF2S2—fljOr'SJF. A.23) Предположим для простоты, что хотя бы одна из матриц 2у Q = 1, 2) положительно определена и что аир меньше 0,5. Тогда, как нетрудно видеть, ах <С 0, а2 > 0, матрица, стоя- стоящая в квадратных скобках в правой части A.23), положи- положительно определена и имеет обратную. Воспользуемся послед- последним обстоятельством для решения системы A.20) — A-22). Обозначим Ъ = a2a^2 — axa72, s = — а^2/Ь. В сделанных выше предположениях 6>0 и 0<s<l. Из A.23) сле- следует, что V = b-1 [s\ + A — S) Sj-i (М2- MJ. A.24) Далее, заменив а?(/ = 1, 2) по формулам A.16) в опреде- определении s, получаем г>0 = —(sa? V M2+(l — s)a! V AfJ/f»? + A— s)ol). A.25) Вычислительная процедура теперь может быть следующей: 1) для каждого 0<С s<C I при Ъ = 1 вычисляется зна- значение V (s) по формуле A.24) и далее последовательно по формулам A.17), A.25), A.16), A.18), A.19) находятся a} (s), Щ (s), aj (s), a (s), p (s); 2) на двумерной плоскости (и, v) строится график кри- кривой и = a (s), v = р (s) @ < s< 1); 3) пусть этот график пересекается с прямой и = а при s = s0. Тогда ^искомый критерий )(So) и P = p(s0). A.26) Достоинство этой процедуры состоит в том, что для на- настройки используется только один параметр s, а не р + 1 параметров, как при поиске решения напрямую в простран- пространстве (У, v0). Одновременное приведение к диагональному виду матриц 2Х и 22 в начале работы дает дальнейшую эко- экономию общего объема вычислений. Кусочно-линейные классификаторы. Пусть пространство наблюдений Rp разбито на k взаимно непересекающихся подобластей Rt (i = 1, ..., k): Ri[)Rj= 0 для 1ф\ и U Rt = RP; ht (X) = V'iX + vi0, i = 1, .... k, — уравне- уравнения линейных плоскостей. Классификатор вида t X)^ O^f2, где t=t:X?Rh A.27) будем называть кусочно-линейным [44, с. 94—95]. 53
Один из приемов приближенного малопараметрического описания многомерных распределений заключается в том, что их представляют в виде конечной смеси однотипных нор- нормальных законов, отличающихся только параметрами сдви- сдвига 1> A.28) илн Р(и)хЪщЫ(и, Аи S) Bш,= 1). A.29) При применении преобразования Y = 2~1/2ХA.29) сво- сводится к A.28). В практической работе наиболее часто исполь- используется представление A.28) [166, 168, 1691, при этом векто- векторы называют центрами или эталонами. Рассмотрим задачу классификации распределений F (U) = 2ш„ N (U, Аи 1р) (гипотеза Нг) н G(U) = Zwj2N(U, Bjt lp) (гипотеза Я2). Оптимальный критерий согласно A.1) должен задаваться с помощью у (X) = 2шу,ехр{-(Х-В7)'(Х-В7J) A щ 2wexp{ (XA)' (XAJjZ) ' На практике часто оставляют в суммах в числителе и знаме- знаменателе A.30) по одному слагаемому, для которого соответст- соответствующий эталон наиболее близок к X, пренебрегают разли- различиями в весах wt. При этом наблюдение X относится к той популяции, к наиближайшему эталону которой оно ближе. Полученный классификатор называется кусочно-линейным классификатором по минимуму расстояния. Разделяющая поверхность в этом случае является кусочно-линейной, со- состоящей из кусков гиперплоскостей. Вид разделяющей по- поверхности может быть разнообразным и зависит от взаим- взаимного расположения классифицируемых совокупностей (рис. 1.2). Статистические вопросы, связанные с применением к мо- моделям A.28) описанного выше кусочно-линейного класси- классификатора, исследовались в [168, 169]. 1.1.4. Функция потерь. В предшествующих томах справоч- справочного издания [11, 12] уже неоднократно сталкивались с ме- методическим приемом, когда для характеристики решения не- некоторой статистической задачи вводится подходящая функ- функция потерь Q, а наилучшее (в смысле Q) решение определяет- определяется как решение, на котором при заданных ограничениях до- достигается минимум Q. Укажем основные функции потерь, ис- 54
# Эталон Граница критических областей J"\ . Рис. 1.2. Разделяющая поверхность кусочно-линейного классифика- классификатора по минимуму расстояния для трех случаев расположения классов 55
иользуемые в задаче классификации двух статистических распределений. Вероятность ошибочной классификации (б). Пусть, как в п. 1.1.1, nt ¦— априорная вероятность гипотезы Н} (/ = = 1,2), тогда 2 б =Р{ошибка} = ^ луР{ошибка|Я/} = л1а+я2р. A.31) Ввиду важности введенного понятия дадим его параллель- параллельное определение. Пусть у = j в случае, когда верна гипотеза Hj (/ = 1, 2), и у (X) — решающая функция, которая тоже принимает два значения: у (X) = /, когда принимается ги- гипотеза Н}, тогда б может быть определена так же, как где математическое ожидание берется с учетом априорного распределения гипотез. Частный случай формулы A.31), получаемый при л} = — 0,5, дает полусумму ошибок (а + р")/2. Как увидим в сле- следующем параграфе, эта величина является удобной мерой разделения статистических совокупностей в случае модели Фишера. На практике ошибки первого и второго рода не всегда эквивалентны. Так, например, при диспансеризации на- населения пропуск возможного заболевания более опасен, чем ложная тревога. Так возникает взвешенная ошибка класси- классификации A.32) где cj — штраф за ошибку, когда верна гипотеза Hj (j = = 1,2). Пусть у и у (X) определены как выше и пусть тогда по аналогии с A.31') Q = Efc,.e,(X). (Ь32') С точностью до постоянного множителя A.32) эквивалентно A.31), но с другим априорным распределением n't = 2 56
На практике используются также функции потерь, за- зависящие не только от у и его оценки у (X), но и от условной вероятности Р {у =• у\Х) [238]. Потому что одно дело — до- допустить ошибку там, где сомневаешься в ответе, другое — там, где уверен. Простейшая функция потерь, завися- зависящая от условной вероятности, имеет вид: q(y, y(X),h(X)) = )<-а, если _Л(Х ~а,у=1, .*ИЬ?. а-Д<Л«)<а, у = 2, I 0 в остальных случаях, где О <С а < А — некоторые постоянные, а Л(Х) - = In (n2P{j} = 2\ХIщР$ = \\Х}). 1.1.5. Другие многомерные распределения. В теоретиче- теоретических и прикладных работах по классификации использует- используется ряд многомерных распределений, в различных направле- направлениях обобщающих многомерное нормальное распределение и его частные случаи. Укажем наиболее важные из них. Эллипсоидальные распределения. Пусть \ ? Rp равно- равномерно распределено на /7-мерной сфере Ср = {X : ХтХ=р}; т] — неотрицательная случайная величина, не зависящая от | и имеющая строго возрастающую функцию распределения F (и) такую, что J u2F (du) =1; А ? Rp; В — матрица невырожденного линейного преобразования Rp и S = = В В'. Будем говорить, что случайная величина С = т|.В| + Л A.33) имеет эллипсоидальное распределение El (А, 2, F). Осно- Основанием для названия служит то, что, как и для нормального распределения, на концентрических эллипсоидах вида (X—АуЪ-ЦХ—Л) = const, A.34) где А = Е?и2= Е (? — А)(? — А)', плотность распреде- распределения ? постоянна. В частном случае, когда рц2 имеет ^-распределение с р степенями свободы, распределение ? совпадает с нормальным Af (A, 2). Это обстоятельство ис- используется при статистическом моделировании случайных величин |. Так, если ? ? JV (О, 1Р), то | = Ур ?/(?'?I/2 равномерно распределено на Ср 57
В модели независимых выборок из El (Mlt 2, FJ и El {M2, 2, F2) при дополнительном предположении сущест- существования плотностей fj (и) = dFj (u)/du отношение правдопо- правдоподобия имеет вид: где (j^iX-MjYZ-^X-Mj), / = 1, 2. Откуда при /2 (и) = /х (и) = / (и) в случае, когда Ы7Р х X f(ua)f(u^'pf(u1)) — монотонная функция разности и\ —и\, общий вид классификатора максимального правдоподобия такой же, что ив A.12). Сохраняется также и способ нахож- нахождения наилучшей разделяющей плоскости в модели незави- независимых выборок из El (Mlt 2Х, FJ и El (M2, 22, F2), МхфМ2, 2Х ф 22 (см. п. 1.1.3 и [25]). Распределения, трансформируемые к нормальному. Пусть координаты вектора ? = (?A), ..., t(p))' имеют непре- непрерывные одномерные функции распределения F} (и) — = P{^i"> <С и} с плотностями соответственно fj (и) — = dF} (u)/du (j — 1, ..., р). Будем говорить, что ? имеет трансформируемое к нормальному (короче, Т-нормальноё) распределение NT(X, 2, F), где 2 — (рх/^-неотрицательно определенная матрица, a F' (Х)==(/='1 (хA)), ..., Рр ( вектор-функция одномерных распределений X, если 2), и где Ф — функция, обратная Ф (и) = Bл)~1/2 | ехр {— о2/ —-оо /2} dv. Введем р одномерных функций tj (и) = Fj1 (Ф (и)), тогда Т-нормальное распределение можно также опреде- определить как распределение вектора Z, — (<х (|A)), ..., fp (?<р)))', | (?A> Е(р)) € # @, 2). Обозначим плотность Т-нормального распределения (X, 2, F). Предположим, что |2| ф 0, и пусть /<"> (Х)= 2 Ч (X, 2, F)= |2|-'/2 ехр {- (Ф-HF (Х)))' X -1 - 1Р) (Ф-1 (F (Х)))/2), тогда <рТ(Х, 2, F) = 9(X, 2, F)./W(X). A.35) Пусть |lf .... |„ — независимая выборка объема п из JVT (S, F), lil) — t'-я координата fc-ro наблюдения, гг (Л) — 58
ее ранг в вариационном ряду i-x координат |<г>A)«<... .. < 6@ (/)< ... < ЦП („). R (п) = |1 гг (k) У—(р х п)-матрица рангов и B(n) = j|?(f) (/)|j — (рхп)-матрица вариационных рядов. Замечательная особенность Т-нормальных распределений заключается в том, что для оценки F надо использовать толь- только матрицу S (п), а для оценки 2 — только матрицу R(n) [194]. Сформулированные выше модели выборок из нормаль- нормальных распределений обобщаются на случай Т-нормальных распределений. Так, аналог модели Фишера (см. п. 1.1.2) формулируется: даны две независимых выборки из NT B, Fi) и NT B, F2), при этом известно, что для всех X где L = GA> /(р))' — некоторый ненулевой вектор, и матрица 2 положительно определена. Распределения с простой структурой связей между при- признаками. С простейшей моделью дискретных распределений с признаками, имеющими древообразную структуру зависи- зависимостей, познакомились в п. 1.1.2. Эта модель, естественно, может быть усилена предположением, что признаки имеют R (^-распределение [12, § 4.4]. Однако без дополнительных предположений общий вид у (X) для k > 1 слишком сло- сложен. Вместе с тем предположение о R (&)-зависимости при- признаков для нормальных распределений позволяет заметно уменьшить число параметров, от которых зависит ковариа- ковариационная матрица, и это дает существенный выигрыш в ряде задач (см. пп. 1.4.1, 2.3.1 и 2.3.3). Другое обобщение моделей с независимыми признака- признаками—это параметрические модели, в которых вектор парамет- параметров 0 и вектор наблюдений X могут быть так разбиты на k взаимно непересекающихся подмножеств 0' = {б*1)',..., и X'-JXW' X<*>'}, что плотность /(X, 0)=Д/г(х«>,е«>). A.36) Распределения, удовлетворяющие A.36), будем называть распределениями с независимыми блоками. Они широко ис- используются в теоретических исследованиях (см. пп. 2.3.2 и 2.5.3). 59
1.2. Характеристики качества классификации Как уже выше сказано, с математической точки зрения зада- задача классификации наблюдения X в одно из двух известных распределений Fj (/ = 1, 2) сводится к проверке простой гипотезы «X принадлежит Fx» (или, короче, «X ? Fx») против простой альтернативы «X принадлежит F2». Известно 111, § 9.2—9.4], что качество решения в этом случае описы- описывается ошибками первого и второго рода. Однако ввиду вы- высокой содержательной важности рассматриваемой задачи на практике используются более сложные формы заключений, такие, например, как трехградационное решение «X ? /ч». «отказ от классификаций», «X ? F2* или указание условной вероятности PIXGFjIX}. Соответственно видоизменя- видоизменяются и показатели качества классификации. В общем слу- случае статистический критерий классификации может быть представлен в форме у (X) g= с, где у — известная функция X, ас — порог критерия. При изложении материала этого параграфа наряду с нейтральной математической терминоло- терминологией будет использоваться терминология, «окрашенная» спе- спецификой конкретных приложений. 1.2.1. Случай простого правила. Будем для удобства назы- называть объекты первой совокупности «случаями» (случай бра- брака, случай заболевания и т. п.), а объекты второй совокупно- совокупности—«не-случаями». Пусть далее принимается гипотеза, что объект с характеристикой X является случаем, если у (X) <С < с, и гипотеза, что объект является не-случаем, если У (X) > с Результаты классификации изучаемой группы объек- объектов удобно представить в виде табл. 1.1, в которой ука- указано число объектов, удовлетворяющих условиям, наложен- наложенным на соответствующие строки и столбцы. Таблица 1.1 Результат применения критерия Принимается гипотеза «случай» у(Х)<с Отвергается гипотеза «случай» у(Х)^с Всего Стат>с объема «случай» №) а е а+е «не-случай» №) Ь f Всего а+Ь e+f л 60
В практической (особенно медицинской) работе широко используют следующие характеристики, получаемые с по- помощью чисел, определенных в табл. 1.1. Частота случаев — (а + еIп. Чувствительность критерия в обнаружении (предска- (предсказании) случая а/(а + е), т. е. доля случаев, для которых у (X) <с. С чувствительностью связано введенное ранее понятие ошибки первого рода (а) в проверке гипотезы, что изучаемый объект есть случай. Чувствительность = 1—а. Специфичность критерия — fl(b + /), т. е. доля не-слу- чаев, для которых у (X) > с. Специфичность равна 1 — р*, где р" — ошибка второго рода в проверке гипотезы, что изучаемый объект случай. Относительный риск — отношение вероятности быть случаем при условии, что гипотеза «случай» принята, к ве- вероятности быть случаем при условии, что эта гипотеза от- отвергнута Д = ±^ Доля ложноположительных — Ы{а + Ь), т. е. доля не- неслучаев среди объектов, признанных случаями. Доля лож неотрицательных — е/(е + /), т. е. доля слу- случаев среди объектов, признанных не-случаями. Среди введенных характеристик только три независи- независимых, остальные могут быть получены из них простым пере- пересчетом. Представляется целесообразным выбрать в качестве ведущих частоту случаев (как параметр, связанный с выбо- выборочной схемой) чувствительность и специфичность (как параметры, связанные с разделимостью распределений слу- случаев и не-случаев) или, что то же самое, частоту случаев и ошибки первого и второго рода. Никакие две из указанных характеристик не дают полного представления о ситуации. В прикладных исследованиях об этом часто забывают и со- сообщают только общий процент ошибочных диагностических заключений. При этом близость к нулю этого процента при низкой частоте случаев вообще не гарантирует высокую чувствительность критерия. Неполные наборы характери- характеристик встречаются даже в высшей степени интересных рабо- работах [49, с. 262]. 1.2.2. Изменение порога критерия. Часто в приложениях возникает необходимость описать качество классификации, достигаемое с помощью заданной функции у (X) при раз- различных значениях с. Для этой цели достаточно привести одно число — частоту случаев и одну кривую — график «чувствительность — специфичность». Предположим теперь дополнительно, что имеет место классическая модель Фишера (см. п. 1.1.2), в качестве у(Х) 61
используется логарифм отношения правдоподобия. В этом случае у (X) является линейной функцией X и, следователь- следовательно, для случаев и не-случаев у (X) имеет нормальное рас- распределение с одной и той же дисперсией. Обозначим ее а2 и пусть »/о. A.37) жкю 70 80 90 100 Чувствительность, % Рис. 1.3. Кривые «чувствительность — специфичность» для различных значений d (модель Фишера) Тогда кривая «чувствительность — специфичность» (рис. 1.3) в параметрической форме имеет вид A.38) ~O«_d), Ф@), где Ф (t) — функция распределения стандартизованной нормальной величины. Если изменить масштабы по оси абсцисс и ординат по формулам и — ty (x), v = г|) (у), где 62
tp— функция, обратная к Ф, то кривая A.38) перейдет в прямую (d—t, t), -oo<t<oo. A.38') В самом деле, и = грA-Ф<*—d))=— tp(O(/ — d))= — (t—d); Существует специальная бумага, называемая двойной нор- нормальной, на которой описанное выше преобразование выпол- выполнено. Кривые на ней распрямляются (рис. 1.4). Когда рас- распределения у (X) для случаев и не-случаев по-прежнему нормальны, но имеют разные стандартные отклонения, кривая «чувствительность — специфичность» на двойной нормальной бумаге будет опять прямой, причем если ср — угол ее наклона к оси абсцисс, то отношение стандартного отклонения случаев к стандартному отклонению не-случа- не-случаев равно |tg ф| Опыт показывает, что кривые «чувствительность — спе- специфичность», построенные по реальным данным, при нане- нанесении их на двойную нормальную бумагу часто распрямля- распрямляются хотя бы в своей центральной части. Это дает возмож- возможность в интересующем исследователя диапазоне чувстви- чувствительности (специфичности) характеризовать приближенно разделяющую силу используемого критерия у (X) одним числом d. 1.2.3. Условная вероятность быть случаем. В исследовани- исследованиях, направленных на выявление риск-факторов стать за фиксированное время случаем, принято разбивать исход- исходные объекты на несколько частей равного объема согласно увеличивающемуся риску стать случаем и для каждой части указывать соответствующую долю случаев [277, 322]. Если дополнительно предположить, что распределения для слу- случаев и не-случаев приближенно нормальны с общей диспер- дисперсией, то по заданному значению d и частоте случаев легко найти распределение доли случаев для разбиения изучаемой популяции согласно риску быть случаем. В табл. 1.2 часто- частота случаев указана для квартилей риска. Подобные таблицы можно использовать и в обратном направлении: по данной частоте случаев и долям случаев в квартилях (или децилях) найти соответствующее d. Аналогично, если при классифи- классификации используется трехградационное правило («объект является случаем», «отказ от классификации», «объект явля- является не-случаем»), известны частоты принятия каждого из решений и соответствующие частоты ошибочных заключе- 63
в тасч о <о о — та -ч< о о о та оооо о" о" о" о" юоо<- . О — Ю СЧ о оо та оооо СО Ю СО ¦"* о сч со о о о о та оооо оооо" СЧ -ЧЧЛ 00 — та t~- f- OOOIN ОООО Г-- CM CO CO ююол oooo oooo о о Ю f- -Ч< -Ч< — СОСЧ О) о о о — oooo сч о со о оопю о о о — сч г^ сч t-~ ¦ч< та ¦¦* <т> О — СО -ч< о о о — ! ¦¦* О О ! СО ОЮ ! — ¦* ео ) ОО — ^- СО СЧ о та ю — сч -ч<сч о оо — со t^ сч сч — СЧ Tj< О ооо — оооо SSS8 о* о" о" о эсо - . . )S оооо }СЧ СО О > о ота сч -ч< та — о та f~ со оо осч * ото — ¦* СО Ю ооосч — 010И сч ю С71 та ооо сч о о —сч о о" о о о 9 Tj« CD О ) СО О1Я 4J-O (ОО Q0 55 •*•¦ sgooi с?" о о о о о г- -ч<ю •* со сч та ю СЧ 00 —00 ^ ^ •""¦ СО о о •—¦ ю -JOtOO сч f- со — оо —ш та оо со <Ю 00 — о о ^ — СО ОСЧ OlOSCO lO — О СЧ О •—' СЧ Tj< ю сч со t^ о — <м та о со coo ю ю ю сч аил — та о —сч та —ai оо тата со — — сч сч оооо" — СЧСО-* ON(J со о ота о со со ai Кс оос Ос ^ сч оо та ^5 со CD Ol сч со та t^ — та со со оооо г~ сосч та О!И?» Оэ сч со — О — со <у> СЧ т*« 1Л Г~ ю о о ю t^ со со сч СС*Ю(О cgtco со со «э СО 00— « оооо — ечсо •* S о 64
ний, то опять, зная общую частоту случаев в тех же пред- предположениях о распределениях у (X) для случаев и не-слу- чаев, можно оценить d. Верны и обратные утверждения для известных d и частоты случаев: 1) для заданных частот каж- каждого из трех решений можно рассчитать соответствующие 97 95 90 С 80 \ \ \ \ \ \\ 70- 60- \ \ 60 70 80 90 Чувствительность, % 4.0 3,8 3.6 3.4 3,2 3,0 2,8 2.6 Рис. 1.4. Прямые «чувствительность — специфичность» различных значений d (модель Фишера) на двойной wальной бумаге ДЛЯ нор- вероятности ошибок или 2) для заданных вероятностей оши- ошибок найти частоты соответствующих решений. Таким образом, при известной доле случаев и дополни- дополнительных предположениях о распределении у (X) величина d является очень удобной характеристикой разделения, позво- позволяющей придать результатам классификации самую разно- разнообразную форму: от графиков «чувствительность— спе- специфичность» до доли случаев в квартилях риска и доли оши- 3 Заказ № 291 65
бочных заключений при заданном числе отказов от решения. Желательна определенная стандартизация представления результатов классификации. Величина d, определенная гра- графически с помощью двойной нормальной бумаги, может служить универсальным эмпирическим параметром, харак- характеризующим разделимость распределений. 1.2.4. Аналитические меры разделимости распределений. Пусть в модели Фишера (см. п. 1.1.2) d определено как в A.37), тогда с учетом A.16) и A.17) из A.12) получаем di^(M2-M1)'I,-1(M2 — M,). A.39) Для невырожденных многомерных нормальных распределе- распределений с общим 2 величина d2, определенная формулой A.39), называется расстоянием Махаланобиса между распреде- распределениями [16J. Она обладает следующими важными свойст- свойствами: в задаче Фишера d однозначно определяет кривую «чув- «чувствительность — специфичность». При этом минимаксная ошибка классификации с помощью критерия отношения правдоподобия выражается формулой min max (а, р\) = Ф ( — d/2), а т. е. чем d больше, тем минимаксная ошибка меньше. При d = 0 ошибка равна 0,5 и соответствующие распределения совпадают; если в задаче Фишера случайные векторы Z,' — (Х\, Y\) (t = 1, 2) состоят из двух взаимно независимых векторов Xt, Y,, то сР(гъ Zt) d*(Xv Xj+cPiY^YJ. A.40) Свойство A.40) называют аддитивностью по отношению к независимым компонентам; если X г t N (М,, S) (i = 1, 2, 3) |S|#0, то й(Хъ X,)<d(Xlt X2) + d(X2, X,) A.41) (неравенство треугольника). В качестве обобщения расстояния Махаланобиса на про- произвольные распределения в теоретических работах широко используется дивергенция (в [91J расхождение) или, как еще иногда говорят, расстояние Кульбака между распределе- распределениями с плотностями fi (i = I, 2) J = J (h (X) -h (X)) In (h (X)fft W) dX. A.42) В модели Фишера J = d2. Аналогично расстоянию Махала- Махаланобиса: У — 0 только тогда, когда распределения совпа- 66
дают; / также аддитивно по отношению к независимым ком- компонентам и инвариантно относительно любого взаимно однозначного отображения координат. Какого-либо прос- простого аналога A.40) в литературе не приводится. Другой мерой разделимости распределений является расстояние Бхатачария [160, гл. 91 B=-ln$(fL{X)-ft{X))WdX. A.43) Оно также инвариантно по отношению к взаимно одно- однозначным отображениям координат, аддитивно по отноше- отношению к независимым компонентам, обращается в ноль при /х = /2. В случае модели Фишера A.44) и в общем случае двух нормальных распределений A.13) A.45) С помощью расстояния Бхатачария удается оценить сверху среднюю ошибку классификации при использовании крите- критерия отношения правдоподобия Более подробно эти вопросы обсуждаются в I189J и [160, гл. 3 и 9]. 1.3. Два класса, заданные генеральными совокупностями В параграфе рассматривается случай, когда классы описаны путем указания всех входящих в них наблюдений. Введен- Введенные ранее понятия — такие, как отношение правдоподобия, различные характеристики качества классификации, могут быть определены и в этом случае. Для описываемых ниже правил классификации подход с явным указанием возмож- возможных наблюдений более естествен. Эти правила (см. п. 1.3.2 — 1.3.5) не опираются прямо на отношение правдоподобия, но в простых случаях дают хорошее приближение к реша- решающему правилу, построенному на его основе. Интерпрети- Интерпретируемость полученных формул классификации часто служит з* 67
залогом их успешною применения. В этом смысле выделя- выделяются древообразные алгоритмы (см. п. 1.3.2), методы поиска характерных закономерностей (см. п. 1.3.4) и определение областей компетентности нескольких правил (см. п. 1.3.5). 1.3.1. Вычисление основных показателей. С целью боль- шеи преемственности обозначении с последующими главами зададим классы с помощью последовательности пар (Х„, у„), k=\, 2, ..., л}, A.46) где Xh — вектор возможного значения наблюдения, а ук — 1, если Xk принадлежит первому классу, и yh — 2, если второму. Будем считать также, что новые наблюдения извлекаются наудачу и независимо друг от друга из ряда A.46). Таким образом, априорная вероятность гипотезы Hj (j —1, 2) Я; = P{y = j} = 2 1/л; функция распределе- ния X при гипотезе Hj будет F {Z | #,-)= 2 ^nJ> k-yk=i. xk<z где П) — 2 1- Использованная при суммировании запись Xh<d Z означает, что для всех 1 < i < p имеем x[l) < z(/). Отношение правдоподобия в точке X 2 1'пЛ О-1') ) Ряд излагаемых ниже методов опирается на функции по- потерь, введенные в п. 1.1.4. Они легко могут быть оценены по ряду A.46). Так, например, определенная с помощью фор- формул A.31) и A.3Г) вероятность ошибочной классификации запишется k= 1 В дальнейшем будем широко оперировать понятием услов- условного математического ожидания, каждый раз подразумевая, что читатель самостоятельно может перейти от формулы ти- типа A.31') к A.31"). 1.3.2. Древообразные классификаторы. В основе описывае- описываемой ниже группы методов лежит понятие бинарного дере- дерева— графа. Эти деревья принято изображать в переверну- перевернутом виде: корень — сверху, листья — внизу (рис.1.5), при этом Под словом «корень» понимаем самый верхний узел (вершину) графа, а под словом «лист» — узел, из которого т
вниз не выходят стрелки к расположенным ниже узлам. С каждым узлом / дерева связаны следующие объекты: Rt — подмножество пространства наблюдения (R); Vt — подмножество генеральной совокупности A.46) с XktRr, At—правило классификации из разрешенного набора правил для X 6 Rt- Кроме того, для узлов «не-листьев» вводится правило разбиения Rt на два подмножества Rl(t) и Rrw таких, что Rut) U Rrw = Rt и Rm П R,(t) = 0. "КОРЕНЬ" Рис. 1.5. Пример графа древообразного классификатора: О — промежуточный узел; ? — концевой узел — «лист> Древообразные классификаторы определяются рекурсив- рекурсивно. Для этого задаются: 1) критерий качества классифика- классификации на Rt; 2) разрешенный класс правил для построения At; 3) способ построения /?;(() и Rr(t)'> 4) правило объяв- объявления узла листом, т. е. правило прекращения последую- последующих делений. В качестве корневого (нулевого) узла принимается узел с Ra, совпадающим со всем пространством возможных зна- значений X, и Vn — {(Хк, Ук), k 1, ..., л}. Критерий качества классификации. Пусть с,—¦ штраф за ошибочную классификацию, когда верна гипотеза Я,- и функция потерь Q классификатора определена согласно A.32'). Возьмем в качестве меры качества классификации на Rt классификатора At Q(Rt, At) = E(qAt(X)\X?Rt). A.47) При этом чем Q меньше, тем классификатор лучше. Разрешенный класс правил. Используются максимально простые классификаторы: линейные, линейные с дополни- дополнительными предположениями, например о структуре зависи- зависимостей признаков; простейшие, относящие все наблюдения 69
X 6 Rt K одной из классифицируемых совокупностей. Среди всех допустимых правил в качестве At выбирается правило, минимизирующее выбранную функцию риска. При этом ог- ограничимся классами правил, на которых минимум достига- достигается. Простота разрешенного класса правил компенсирует- компенсируется структурой дерева. Правило разделения. Рассмотрим шкалу, в которой из- измерена /-я координата X (/ — 1, ..., р). Если шкала номи- номинальная, то элементарными событиями Т будем называть события вида х(/) — а или *<'> Ф а, где а — одно из воз- возможных значений *</>. Если же шкала порядковая или ин- интервальная, то элементарными событиями будем называть события вида х<" =? а. Рассмотрим теперь всевозможные разбиения Rt с помощью элементарных событий (Rt Г) Т, Rt П Т), таких, что min (Р{Х 6 Rt Л Т), Р{Х ERt П Т}) > еи A.48) где 6j — некоторое заданное число. Тогда по определению критерия качества классификации A.47) Q(Rt, Al) = P{X?T\X?Rt}E(qAt(X)\X?Rt()T) + + P{X?T\X?Rt}E(qAt(X)\X?Rt Л7)> + Р{Х ?f\X?Rt}inlE(qA(X)\X?Rt()T)- A.49) Нижняя грань в правой части A.49) берется по всем допу- допустимым классификаторам. Пусть Tt — одно из элементар- элементарных событий, удовлетворяющих A.48), на котором достигает- достигается максимальная разность между левой и правой частями A.49); положим тогда Rm ¦= Rt f] Tt и Rr(t) = Rt f] Tt. Правило объявления узла листом. Узел t объявляется лис- листом, если не существует элементарного события, удовлетво- удовлетворяющего условию A.48), или такое событие существует, но Q(Rt, At)~P{X?Tt\X?Rt)Q(Rlit), Al(t))- A.50) Наглядный смысл условий A.48), A.50) очевиден: от услож- усложнения классификатора должен быть заметный выигрыш и не следует слишком мельчить разбиения. Древообразные классификаторы обладают рядом прив- привлекательных свойств. Они относительно просты: при умень- уменьшении ех и еа и соответствующем росте числа ветвей сходят- сходятся к классификатору, минимизирующему выбранную функ- функцию потерь; инвариантны относительно монотонных преоб- 70
разований координат; легко интерпретируемы; при выборе в качестве допустимого класса простейших правил допуска- допускают наличие в классифицируемом векторе X ненаблюдаемых, так называемых «стертых», координат, если, конечно, эти координаты не используются в качестве аргументов ветвле- ветвления. В отечественной литературе древообразные правила на- называют также логическим методом классификации [94]. 1.3.3. Метод потенциальных функций. Это — исторически один из первых достаточно универсальных методов построе- построения классификационных правил в условиях хорошей разде- разделимости классов 113, 131]. Он представляет собою пример результата научного направления, центр тяжести которого лежит не в оптимальном решении задачи классификации при дефиците выборочной информации, а в разработке рекур- рекуррентной процедуры, удобной для ЭВМ и дающей решение в условиях большой выборки. Метод основан на предположе- предположении, что объекты с близкими значениями X принадлежат одному классу. Поэтому при классификации нового объекта X надо лишь подсчитать «относительные потенциалы» в X, порожденные объектами первого и второго классов, и отне- отнести объект к тому классу, чей относительный потенциал вы- выше. Более точно." пусть в пространстве наблюдений опреде- определено расстояние р, например евклидово. Относительный по- потенциал в X, созданный объектами /-го класса, подсчиты- вается как %(Х)= V Ф(р(Х, Xh))lnj, A.51) kwk=f где ф («) — некоторая известная положительная функция положительного аргумента, стремящаяся к нулю при и-*- оо, например ехр {—арр} или A + арР)-1, где а > 0, р" > 0. Правило классификации записывается: \ A.52) i Изложенный алгоритм близок с описываемым в § 3.3 непа- непараметрическим методом классификации. Различие заключа- заключается в том, что статистическому подходу более соответство- соответствовало бы использование: 1) вместо относительного потенциа- потенциала в X абсолютного, как лучше учитывающего априорные вероятности классов и 2) вместо разности A.52) отношения Ф*{Х) ^с^Р2 A.53) 71
1.3.4. Поиск характерных закономерностей. Ниже описы- описывается общая логическая схема одного из наиболее извест- известных алгоритмов, возникшего из эвристических соображений о деятельности человека при распознавании образов — ал- алгоритма «Кора» [28, 43]. В нем рассматриваются все воз- возможные конъюнкции вида ThnThf)...f)Ttl(L<l0), A.54) где Т —• события, определенные в п. 1.3.2 при введении пра- правил разделения, а /0 — некоторое наперед заданное число ¦(в алгоритме «Кора» /0 = 3). Среди конъюнкций выделяются те, которые характерны (верны на обучающей выборке чаще, чем некоторый порог 1 — et) для одного из классов и не ха- характерны для другого (верны реже, чем в доле случаев е2 (в алгоритме «Кора» е2 = 0)). Если коэффициент корреляции между какими-либо двумя выделенными конъюнкциями по модулю более 1 —• е3, то оставляется «наилучшая» с точки зрения различения классов из них, а если конъюнкции экви- эквивалентны, то более короткая (имеющая в представлении A.54) меньшее /) или просто отобранная ранее. Параметры е1? е2, е3 подбираются так, чтобы общее число отобранных (информативных) конъюнкций не превосходило некото- некоторого числа т. Для нового наблюдения X подсчитываете я mi — число характерных для f-ro класса отобранных конъ- конъюнкций, которые верны в точке X. Если m1 > т2, то при- принимается решение, что верна гипотеза Нх, в противном слу- случае — что верна гипотеза Я2. Поскольку при отборе конъ- конъюнкций в принципе возможен полный перебор, вычисли- вычислительный процесс должен быть организован эффективно, чтобы не рассматривать бесперспективные ветви. Алгоритм «Кора» зарекомендовал себя удачным в ряде прикладных об- областей 128, 82]. Идея поиска закономерностей, характерных для одного из классов, положена в основу алгоритма авто- автоматизированного поиска гипотез [49]. 1.3.5. Коллективы решающих правил. В прикладных иссле- исследованиях для классификации наблюдений' иногда одновре- одновременно используется не одно, а несколько решающих правил. При этом, естественно, встает вопрос о выборе правила объ- объединения частных заключений и как ответ на него возникает двухуровневая схема принятия решения (рис. 1.6). На ри- рисунке первый уровень—-блоки Аг — Ас, второй — блок синтеза. В изложенном выше алгоритме «Кора», если счи- считать отдельными правилами отобранные конъюнкции, реше- решение принимается большинством «голосов», осуществившихся при X конъюнкциях. В системах, в которых используются высокоспецифические (см. п. 1.2.1) правила риска, объеди- 72
нение возможно по принципу «максимум предсказанного риска». В [131] предложен третий подход — выделение об- областей компетентности каждого из использованных алго- алгоритмов. Пусть функция потерь Q {R, А) правила А на мно- множестве R определена по формуле A.47). Правило Л/* A < < /* <L) считается на R компетентным среди правил < L), если AL A Q(R, = minQ(R, Л,). * 1 J A I—LJ A2 Ш * AL 1 %! К \ г Блок синтеза / \ Рис. 1.6. Двухуровневая схема принятия решения При классификации сна- сначала выбирается наиболее компетентный алгоритм, за- затем с его помощью прини- принимается решение (рис. 1.7, где F — блок выбора наибо- наиболее компетентного алгоритма). Пусть пространство наблюдений R разбито на L обла- областей Rh таких, что R = (J Rt и R, П Rr = 0 при / ф V и для каждого R\ указан компетентный на нем алгоритм А^. Тогда на первом шаге по значению X находится Rt : X 6 Ri Рис. 1.7. Схема классификации с использованием обла- областей компетентности и по R\ — номер компетентного на нем алгоритма /*. На втором шаге правило А^ применяется к X. В качестве при- примера изложенного подхода можно указать древообразные классификаторы (см. п. 1.3.3), где механизм нахождения R, — ветви дерева (без листьев), правило решения At* — правило соответствующего листа. Опишем два простейших правила нахождения областей компетентности. Метод априорного разбиения пространства наблюдения R на подобласти основан на профессиональных соображениях конкретной науки. Для каждой из введенных подобластей находят компетентное на ней правило классифи- классификации. Этот метод удобен тем, что введенные области легко строить и интерпретировать. Во втором методе области ком- 73
петентности {Rt} строятся локально путем построения алго- алгоритма, с помощью которого для каждого наблюдения можно вычислить, какой области Rt оно принадлежит. Пусть для каждого Хо можно ввести семейство вложенных друг в дру- друга расширяющихся окрестностей. Фиксируем какое-либо число k и для Хо найдем наименьшую окрестность О (Хо). которая включает в себя не менее k точек последовательно- последовательности A.46). Пусть далее си — 1, если i-e наблюдение по- последовательности классифицировано At алгоритмом пра- правильно, и Сц = О в противном случае; сг = 2cim, где суммирование проводится по всем точкам, принадлежащим О (Хо), и ci' = max ci. A.55) Тогда точка Хо объявляется принадлежащей области ком- компетентности правила Ai*. Чтобы обойти случаи, когда мак- максимум в A.55) достигается не на одном, а на нескольких зна- значениях 1п, ...,/, , положим /* равным наименьшему из них. Если на R определено расстояние между точками р, то ок- окрестности можно задавать с помощью расстояний и в опре- определении си вместо 1 брать g (р (X,, Хо)), где g— некото- некоторая убывающая функция от положительного аргумента. Например, g (р) = \/(а + р), где а > 0. В [ 131] предлага- предлагается для выделения областей компетентности использо- использовать также метод потенциальных функций. 1.4. Отбор информативных переменных Любое практическое исследование с применением методов статистической классификации включает в себя в виде спе- специального этапа отбор информативных для классификации переменных. Дело здесь заключается не столько в экономии затрат на сбор не- или малоинформативных признаков, сколько в том, как увидим в следующей главе, что включение в решающее правило в условиях дефицита выборочной инфор- информации малоинформативных признаков ухудшает (!) среднюю эффективность классификации. В этом параграфе рассмат- рассматриваются два принципиально отличных подхода к отбору переменных. В первом из них делаются сильные математичес- математические предположения о характере классифицируемых распре- распределений и это позволяет четко и однозначно ответить на во- вопросы, следует или нет включать рассматриваемую перемен- переменную в решающее правило и если нет, то почему. Во втором подходе специальных предположений не делается, предла- 74
гаются некоторые эвристические итеративные процедуры, каждый шаг которых разумен, но общий результат их при- применения осмыслить и изучить трудно. 1.4.1. Модель Фишера с дополнительными предположения- предположениями о структуре зависимостей признаков. Рассмотрим снача- сначала простейшую математическую модель двух нормальных распределений с независимыми переменными of 0 . "a? 0 ...0 .. a ... 0 ы, = Решающее правило и расстояние Махаланобиса между Nt и N2 согласно A.12), A.39) имеют вид h (Х)=Ъ (х<1> — (/п'« + М°)/2) (т<*> — т[»)ог* ^с; A.56) cPiN» NJ = 2(mP — mi4)aor'. П-57) Естественно считать неинформативными переменные, у ко- которых не отличаются средние, т. е. соответствующие т[1> — — mW = 0, и малоинформативными переменные, у которых (mW — m^faj2 < е, где е — некоторое число. Таким об- образом, в простейшей математической модели об информа- информативности переменной можно судить по ее одномерным рас- распределениям при Нг и Н2. В общем случае это неверно, так как даже переменные, имеющие идентичные одномерные рас- распределения при Н1 и Н2, могут нести существенную инфор- информацию о проверяемых гипотезах в силу взаимозависимости переменных. В качестве примера вернемся к рис. 1.1. Распределения д:<2) при обеих гипотезах совпадают, однако эта переменная в совокупности с ж*1' существенна для клас- классификации. Рассмотрим теперь модель Фишера с древообразной структурой зависимостей (ДСЗ) переменных [12, п. 4.2.3] N1 = N (Мъ S) и Л/2 - N (М2, S), где S имеет ДСЗ. Внеди- агональные элементы S = ||crJ/|| отличны от нуля тогда, когда они принадлежат G — графу структуры зависимостей распределений. На основании A.12) h (X) = 2 75
В последнюю сумму наряду с парой (С, /) входит и (/, i). Таким образом, в h (X) входят только те переменные, для которых или 1) их индивидуальный вклад в разделение от- отличен от нуля, т. е. т(,1> — m{1) ф О, или 2) индивидуаль- индивидуальный вклад равен нулю, но они непосредственно связаны на графе структуры зависимостей с переменными /, для кото- которых т(р — т{'> ф 0. Этот результат остается верным и для распределений с R (б)-зависимостью [12, 4.4|. 1.4.2. Функции потерь. Пусть S S {1, ..., р} — некоторое подмножество координат X. Обозначим Х<6' входящие в него компоненты X. Для того чтобы произвести отбор инфор- информативного подмножества координат, вводится функция по- потерь Q (S), обладающая следующими свойствами: для S,s5 Q(St)>Q(S); A.58) для Q Ej) = Q (S) наборы признаков Sx и S считаются эквивалентными, для Q (Sj) > Q (S) набор признаков S считается пред- предпочтительнее набора Sv В качестве Q (S) можно взять, например, ожидаемую ошиб- ошибку байесовского классификатора QB (S) = Е (l -max щ (Х^)\ A.59) где л, (X(s)) — условная вероятность i ипотезы Ht при наб- наблюдении X(s>, а математическое ожидание берется по мере Р (X) = Ел,Р (X | Нг). Нетрудно показать, что для Qfi условие A.58) выполняется. Это условие помогает эффектив- эффективно организовать процесс отбора признаков. Пусть, напри- например, исследованы два подмножества признаков S, и S2 и пусть Q (Sj) <ZQ (Sz), тогда нет необходимости исследовать любое из подмножеств S2, так как в силу A.58) заранее из- известно, что они менее предпочтительны, чем Sx. Это сообра- соображение легло в основу многих высокоэффективных вычисли- вычислительных алгоритмов. Заметим, что для определения Q можно использовать любую из мер разделимости распределений, введенных в п. 1.1.5. Для этого достаточно положить где т — соответствующая мера, a F, (Х^) — функция рас- распределения X(S> при условии, что верна гипотеза Я, (i — = 1, 2). Взаимоотношения между различными функциями потерь систематизированы в [189]. Для нас только важно, что нет функции потерь, которая отбирала бы признаки 76
в том же порядке, что и Qfi. Вместе с тем многочисленные примеры показывают, что корреляция между наборами, отобранными с помощью различных функций Q, высокая. В заключение отметим, что только в сильных предполо- предположениях п,4,5.1 удается надежно оценивать групповую ин- информативность признаков по индивидуальной. В общем слу- случае неожиданности возможны даже в модели Фишера. В [325] утверждается, что для любого набора чисел {Q (S): ?сг{1, ,,,, р}}, удовлетворяющего условиям согласова- согласования A.58), можно подобрать задачу Фишера, в которой чис- числу / соответствует вектор ХМ и при этом для всех 5 имеем Qb (S) = Q (S), В частности, возможна, например, такая неожиданная комбинация информативностей, когда при трех группах признаков индивидуально наиболее информатив- информативна третья группа, а попарно — совокупность первых двух групп. 1.4.3. Схемы последовательного испытания наборов приз- признаков. Общая логическая схема рассуждения здесь тради- ционна: выбирается функция потерь Q (S); для каждого набора переменных, порождаемого с по- помощью какой-либо пошаговой процедуры, строится наилуч- наилучший (в смысле Q) критерий классификации; среди всех построенных наборов отбирается тот (те), в ко- который входит наименьшее число переменных и при котором Q минимально. Схемы генерации наборов переменных, по существу, аналогичны схемам, используемым при отборе переменных в регрессионном анализе [12, п. 8.7.41 и опираются на эври- эвристическое предположение, что наилучший набор из k + 1 переменных часто содержит в себе наилучший набор из k переменных. Однако в общем случае так же, как и в регрес- регрессии, это предположение неверно, и пошаговые процедуры не гарантируют получения оптимального набора переменных, т. е. в общем случае без дополнительных предположений полный перебор неизбежен (см. п. 1.4.2). Практические ас- аспекты отбора переменных в условиях дефицита выборочной информации обсуждаются во второй и третьей главах. 1.5. Три и более полностью определенных класса 1.5.1. Общая постановка задачи. Пусть имеется k генераль- генеральных совокупностей (классов) с плотностями распределения вероятностей /7- (X), 77
где / = 1, ..., k; Hj — гипотеза, состоящая в том, что наблю- наблюдение X извлечено из /-и совокупности; п} — априорные ве- вероятности гипотез; с (/ | i) — цена ошибочной классифика- классификации наблюдения из i-й совокупности как наблюдения из /-й совокупности. Задача в том, чтобы разбить пространство наблюдений R на k попарно непересекающихся областей Ru ..., Rk, таких, что если X 6 Rj, то принимается гипотеза Hj (/ = 1, ..., k), и при этом минимизировать потери. Вероят- Вероятность принять гипотезу Hj, когда X извлечено из i-й сово- совокупности, составит P (Hj I Hi) = J ft (X) <iX A.60) и функция потерь f\ ^1 ». v^ /t/t i л Если значение вектора X фиксировано, то яг (X) — апо- апостериорная вероятность Ht — равна A.62) а ожидаемые потери при решении, что X извлечен из /-й совокупности, составят A63) i* i ' Очевидно, что потери будут минимальными, если iU(X)c(j\i) = min S щ ft (X)с(I| i). A.64) Поэтому определим Rj как множество точек, для которых верно A.64). Если минимум для некоторого X достигается при нескольких значениях /, то относим X к любому из со- соответствующих Rj. Сформулированное правило при с(/|0=1 A-65) очевидно сводится к отнесению X к тому Rj, для которого nifi (X) наибольшее. Это правило классификации называют байесовским. В случае, когда распределения генеральных совокупно- совокупностей непрерывны с точностью до значений X, попадание в 78
которые имеет нулевую вероятность, Rj для байесовского классификатора могут быть также определены как Rj = {X: hn = In (fj (ВД (X)) > —In (я,./я,) для всех A.66) т. е. построение байесовского классификатора в случае k классов сводится к последовательному пбстроению байесов- байесовских классификаторов для двух классов,т. е. к методам, ко- которые уже рассмотрены в предшествующих параграфах. 1.5.2. Модель нескольких многомерных нормальных рас- распределений с общей ковариационной матрицей. Эту модель иногда называют также моделью Фишера для k классов. Пусть ./V (Mt, 2) — распределение X в j-m классе (i = 1, ..., k). Тогда согласно A.64) и A.66) области Rt определяются условиями R, = {X : hu = (Х-Шг+'М})/2)' 2-i (М}- Mt) > >1п(я,/я,), 1-1, .... k; »#/}. A.67) Поскольку каждая из функций Нц линейна по X, то об- область Rj ограничена гиперплоскостями. Покажем теперь, как оценить вероятности правильной классификации. Для этого рассмотрим случайную величи- величину htj (X). При гипотезе Нг она как линейная функция нормально распределенных величин имеет распределение ( ) р N(jdw где A.68) Ковариации между hff (X) и hih (X) при гипотезе Я,- равны [16, § 6.7] dJiA=(Af,-Af/S-4Ali-Mfc). A-69) Таким образом, распределение векторов Г? (X) = (И.ц(Х), ..., Ы, i-x (X), hi,i+l (X), ..., кц (X))' является много- многомерным нормальным с вектором средних Мт — -^ (diu ..., dbj-i. dt,i+1, ..., dih)' и ковариационной матрицей 2Г. = = \\dt, ji\t; i = \- Для нахождения вероятности правильной классификации вектора Г,- (X) надо найти вероятность по- попадания его в область A.67). 1.5.3. Упорядоченные классы. Иногда между введенными в п. 1.3.1 классами можно ввести отношение предшествова- предшествования ( -< ). Если это отношение транзитивно, т. е. если для любых классов i, /, k из i -< / и / -< k следует, что i -< k, 7Э
то классы будем называть упорядоченными. Упорядочение может быть связано с содержательным истолкованием клас- классов и с их геометрическим расположением вдоль какой-ли- какой-либо гладкой кривой в выборочном пространстве. В случае, когда классы соответствуют последовательным стадиям не- некоторого процесса, содержательное и геометрическое упо- упорядочения часто совпадают. При работе с упорядоченными классами используется ¦следующий методический прием. С каждым классом i свя- связывают волевым путем выбранное число 8,- так, чтобы раз- разности 6,- — 6; соответствовали интуитивному представле- представлению исследователя о «расстоянии» между классами i и /, и находят функцию от наблюдения t (X), такую, чтобы раз- разность 6 — t (X) была бы в некотором смысле наименьшей. Классификацию далее осуществляют в зависимости от зна- значения t (X). В одной из конкретных реализаций этого приема [24] на распределение t (X) в классах накладывается ограниче- ограничение E(t(X)\Hi) = Qi. A.70) Качество классификации измеряется как где wt > 0, 2ш,- = 1. Функция t, минимизирующая A.71) при условиях A.70), имеет вид f'(X)B-ie w' f (X) где w = К, .... wh)'; в = (в1; .... вк)'; f (X) = ft (X),..., ft, (X))', где fi (X) — плотность распределения X при Ht; В = \\bij\\, где Ьи — \ w'i(x\" dX. Если рассматривать wt как априорную вероятность того, что наблюдение выбра- выбрано из 1-го класса (Я,-), то v (t) — среднее квадратическое от- отклонение / (X) от соответствующего 6, a t (X) — линейная функция от апостериорных вероятностей классов w-jjiX)! /w'f (X). Если классы не пересекаются, т. е. при (ф]~ ft (X)-fj (X) =¦ 0, то v (t) -=¦ 0 и функция на каждбм из клас- классов равна соответствующему значению 9. В ус.ювиях дефицита выборочной информации о рас- распределениях к предположениям типа A.70), A.71) иногда добавляют предположения, что ft (X) нормальны и их сред- средние лежат на одной прямой. 80
выводы 1. Среди критериев классификации в одно из двух извест- известных распределений с заданной ошибкой первого рода а на- наименьшую ошибку второго рода Р имеет критерий отноше- отношения правдоподобия вида A.1). Байесовский классификатор определяется с помощью формулы A.2), Он минимизирует вероятность ошибочной классификации. При выборе между двумя многомерными нормальными распределениями с об- общей ковариационной матрицей {модель Фишера) i раница критической области критерия является гиперплоскостью в пространстве наблюдений, зависящей от параметров рас- распределений по формуле A,12 ). Наряду с критерием отноше- отношения правдоподобия на практике широко используются пра- правила классификации, критические области которых находят- находятся путем минимизации заданной функции потерь при дан- данных ограничениях на границу критической области. При этом функцию потерь и ограничения на границу критиче- критической области обычно выбирают так, чтобы в случае, когда верна одна из базовых теоретических моделей классифика- классификации, построенный критерий совпадал с критерием отноше- отношения правдоподобия. ' 2. Для характеристики простого правила классификации при двух классах в условиях полностью известных распре- распределений необходимо использовать не менее двух чисел- вероятностей ошибок а и р. К ним часто добавляют третье число — вероятность того, что наблюдение извлечено из одного из классов. Все остальные характеристики прави- правила получаются простым пересчетом из указанных трех базо- базовых. На практике широко используется прием, когда класси- классификация проводится с переменным порогом и для каждого диапазона значений отношения правдоподобия указывается условная вероятность, что наблюдение принадлежит одному из классов при условии, что оно попало в данный диапазон, В этом случае в качестве базовой характеристики критерия рассматривается кривая A — а (с), 1 — р (с)), где с— по- порог критерия. Ее называют кривой «чувствительность — специфичность». В модели Фишера при специальном выборе масштаба на координатных осях все кривые «чувствитель- «чувствительность — специфичность» превращаются в параллельные прямые, идущие под углом 135° к оси абсцисс и отстоящие от прямой (и, 1 — и) на расстояние, пропорциональное d, где d2 — расстояние Махаланобиса, определенное формулой A.39). 81
3. Наряду с аналитическим описанием распределений в классах используется также прием задания распреде- распределений путем указания соответствующих генеральных сово- совокупностей. Его можно рассматривать как теоретическое представление большой выборки. Все основные показатели распределений могут быть оценены и в этом случае. Вместе с тем прямое задание генеральных совокупностей позволяет использовать при классификации методы, осуществление которых невозможно или крайне затруднительно при ана- аналитическом задании распределений. Одним из примеров здесь являются древообразные или логические классифи- классификаторы. Они обладают рядом привлекательных свойств: просты, легко интерпретируемы, при увеличении числа ветвей сво- сводятся к классификатору, минимизирующему заданную функцию потерь. 4. При построении классификационного правила часто про- производится отбор информативных для разделения классов ко- координат. При этом используются два методических подхода. В первом из них на взаимозависимость переменных накла- накладываются сильные упрощающие предположения, но сам от- отбор не требует чрезмерных вычислений, и всегда можно от- ответить на вопрос, почему берется или отвергается перемен- переменная. Второй подход связан с минимизацией некоторой функ- функции потерь и проводится путем последовательного испыта- испытания наборов признаков. При этом широко используются различные эвристические соображения, направленные на то, чтобы уменьшить перебор. Они часто хорошо оправды- оправдываются на практике, однако встречают серьезные теорети- теоретические возражения. Четкого ответа на вопрос, почему вклю- включена или отвергнута переменная, при втором подходе дать нельзя. 5. В случае k~>2 классов построение байесовского класси- классификатора сводится к построению байесовских классифика- классификаторов для всех пар классов. Наиболее распространенная мо- модель в этом случае — это предположение, что Ft ¦=- N (Mt, 2), где матрица 2 одна и та же для всех классов. Особый интерес представляет случай, когда можно предположить, что классы упорядочены по какому-либо признаку. В этом случае каждому классу приписывается некоторое число в так, чтобы расстояние между последовательными числами отвечало интуитивной идее исследователя о расстоянии между классами. Далее строится / (X) оценка Э для наблюдения X, и классификация проводится по величине /. 82
Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ) В предыдущей главе распределения векторов X внутри классов предполагались известными: они задавались ана- аналитически или с помощью перечисления всех возможных значений X. С использованием этой информации строилось правило (критерий) классификации. В этой и последую- последующих двух главах распределения X внутри классов опреде- определяются лишь частично. При этом используются два вида ин- информации: предположения о свойствах распределений (глад- (гладкость, принадлежность к некоторому известному параметри- параметрическому классу) и обучающая выборка. Совокупность алго- алгоритмов, порождающих на основании предположений и вы- выборки конкретное правило классификации, называют дис- криминантным анализом (ДА). Построенное правило клас- классификации как функция от случайной выборки отражает ее особенности и тоже в определенной степени случайно. Это затрудняет сравнение алгоритмов ДА. Цель главы — познакомить с основными понятиями ДА, методами сравнения алгоритмов и результатами теоретиче- теоретического исследования свойств алгоритмов в условиях дефици- дефицита выборочной информации. 2.1. Базовые понятия дискримииаитного анализа 2.1.1. Выборка, предположения, алгоритм, оценка качества дискриминации. В дальнейшем предполагается, что слу- случайная выборка представляет собой последовательность независимых, пар наблюдений вида A.46) Wn={(Xt, yt), f=l л}, B.1) где Р {tfi — /} = ttj, j = 1, ,.., k; yt трактуется как номер класса, которому принадлежит наблюдение Xf, n} — неиз- неизвестная вероятность, что X будет извлечено из /-го класса; число классов k известно исследователю, 2Л,--=1; все Xt принадлежат одному и тому же пространству наблюдений; X; — такие, что yt = /, одинаково распределены с не- неизвестной исследователю функцией распределения Fj. Чи- 83
ело у, - /в выборке будем обозначать я7- и называть объе- объемом выборки из /-го класса. Предположения о характере рас- распределений Fj (/ - 1, .... k) в наиболее информативном слу- случае утверждают, что Fj принадлежат некоторому известно- известному семейств} распределений, зависящему от неизвестного векторного параметра в. В модели Фишера предполагается, что X ? Rp. Имеются всего два класса (к - 2), Fj(j—l, 2) имеют многомерные нормальные распределения с общей невырожденной кова- ковариационной матрицей. В этом случае каждое из F} опреде- определяют одним /7-мерным вектором средних, своим для каждого распределения, и р (р + 1)/2 — параметрами ковариацион-» ной матрицы, общими для обоих распределений. Иногда предполагается с точностью до неизвестных пара- параметров аналитический вид отношения правдоподобия и, на- наконец, самый слабый вид предположений — постулирова- постулирование непрерывности F}. Формальная процедура, использую- использующая часть информации предположений и выборку для полу- получения конкретного классификационного правила, называ- называется алгоритмом. Приведем примеры описания алгоритмов. Пример 2.1. Имя: Подстановочный алгоритм с не- независимой оценкой параметров (k = 2). Применяется: вслу- чаях, когда предполагается, что 1) Fj (X) - F (X, 67), j ¦=- 1, 2; 2) 6j и в2 не имеют общих значений координат. Вычисления над выборкой: независимо для каждого из 6^ строятся оценки максимального правдоподобия в, [12, гл. 8]. При этом при оценке вх используются пх наблюдений из первого класса, при оценке 02 — п2 наблюдений из вто- второго. Прогностическое правило: где fj — плотности соответственно распределений Fj (j = = 1, 2) и Н) — гипотеза о том, что новое наблюдение извле- извлечено из /-го класса. „ Пример 2.2. Имя: Подстановочный алгоритм в за- задаче Фишера. Применяется: в случаях, когда предполагает- предполагается, что Fj = N(M}, 2), у=1, 2, |2}>0, Mj и 2 неизвестны. В отличие от предшествующего примера матрица 2 — общая для обоих распределений. 84
Вычисления над выборкой: строятся оценки максимального правдоподобия для Мъ Мг, 2: Х)^ 2 Xt/n,(j=l, 2); B.2) S= i 2 №-^)(Xi-X7O(ni + n»-2). B.3) Прогностическое правило: /(X, X2, S) gg^}^» B.4) /(-v, a:,, S) [Я/ где/(Х, X, S)-BK)-P/->|S|-1 Оценка качества построенного правила классифика- классификации— завершающая операция ДА В ней используются оценки определенных в гл. i показателей качества разде- разделения. Оценка качества дискриминации — это не только оценка конкретного правила классификации, но в более широком смысле и проверка удачности сделанных предпо- предположений и выбора алгоритма ДА. В гл. i объектом изучения были различные правила классификации. В настоящей главе — алгоритмы, порож- порождающие конкретные правила. В приведенных выше описа- описаниях в; (/ = 1, 2) случайны, следовательно, случайны и правила. 2.1.2. Основные виды ошибок. Базовым понятием, как и в гл. 1, остается вероятность ошибочной классификации конк- конкретного правила. Теперь, однако, это уже случайная вели- величина, зависящая от выборки, алгоритма, объема обучающей выборки. Итак, пусть для i=fi.\ Р^, (г, /) — условная вероят- вероятность ошибочной классификации (УОК) нового (не входяще- входящего в обучающую выборку) наблюдения из г-го класса в /-Й при данной обучающей выборке объема п = {пЛ, ..., nk) и алгоритме Л. Пусть Е — символ математического ожидания по обучающим выборкам объема п, тогда ЕРп называют ожи- ожидаемой ошибкой классификации (ООК) алгоритма на выбор- выборке объема п. Естественно также ввести предел ООК при рос- росте числа наблюдений: Pt = lim EP^. Pt называют асимп- тотической ожидаемой ошибкой классификации (АОК)- 85
Часто оказывается, что при я-> оо и УОК сходится по ве- вероятности к неслучайному пределу. В этом случае этот пре- предел совпадает с />„. Тем самым пропуск второй буквы «О» в сокращении АОК оправдан. Обычно ООК больше АОК, и отношение <-=ZP*/Pt B.5) характеризует относительное качество обучения алгоритма на выборке объема я. Это очень важный показатель, широко используемый в теоретических и прикладных исследова- исследованиях, ввел егоШ. Ю. Раудис, внесший весомый вклад в и лу- лучение свойств алгоритмов в условиях дефицита выборочной информации. Для того чтобы проиллюстрировать масштаб возникаю- возникающих проблем, в табл. 2.1 приведены значения х2п для одного из основных алгоритмов дискриминантного анализа — ли- линейной дискриминантной функции, используемой, когда k = 2, распределения в классах предполагаются многомер- многомерными нормальными (см. п. 2.1.1). При этом предполагается также, что в обучающей выборке имеется ровно по я наблю- наблюдений из каждого класса. Параметр d в таблице — это ко- корень из расстояния Махаланобиса между классами (см. п. 1.2.4). 2.1.3. Функции потерь. Ограничимся случаем двух классов. Пусть у определено, как в B.1); у „ (X) — решение, при- принятое в точке X при использовании решающего правила, построенного с помощью алгоритма А на данной выборке объема я; q (и, v) — функция потерь, такая, что q (и, и) —О и q (и, и) > 0 при и ф v. Величину Е19 (У, Й W) I ^«1 ~ Q (A> Wn), B.6) где математическое ожидание берется по всем возможным парам (X, у) при выбранной модели данных, естественно на- назвать функцией средних потерь алгоритма А при обучаю- обучающей выборке Wn. Если q (и, v) = (и — иJ и у ? {1, 2}, то Q (Л, Wn) — это средняя ошибка классификации правила, построенного с помощью А на выборка Wn. Взяв математи- математическое ожидание по всем обучающим выборкам объема я, по- получаем Qn(A) = EQ(A, Wn)~ B.7) функцию ожидаемых потерь алгоритма А на обучающей выборке объема я. 86
IN та vo СЗ О 00 О -о СО и -08 1Л° СОо -»• II II 8 ¦в а, СО—¦ "".о II " -«У О II а. 00 и о. щ II о. со 11 а. о с* || о. со О. щ II СО || а. о II о. с© II О. ю II о. СО О. та 00 00 "¦-< CN СО CN С* 33 CN СО 00 о CN та о CN 00 СО in 3 о та 00 та та та S та о II in in о CN та CN S _^ со ж та CN CN СО S СО та t~- о о оо to CN CN CN CN CN CN CN Cl. || II С CN 1П СО —' СО о in CN in CN СО CM in —' — in —* s —' CN || II С о 00 S3 — CO ОС _ 00 ™— ^* ¦^ _^ in _ in —' in —* —' 00 — 00 —' —' о. in II II й та in та — in та та ™- о CN „ч О CN _ — 8 — — S — о — 8 ~ S3. с? II с СО _ СО —' СО „ч сО о о _ о — S — g — S — S —' О CN II С (^ о _ о — СО о СО о - О S —' о — S —' CN о — CN О "• CN О —' О 1П II 87
Поскольку теоретические распределения не всегда из- известны, в качестве оценки Q (A, Wn) рассматривают <Ээмп (Л, Wn) = 2<7 (уи Й (Хд/п B.8) и называют его эмпирической функцией средних потерь ал- алгоритма А на выборке Wn. 2.2. Методы изучения алгоритмов ДА 2.2.1. Базовые асимптотики. В математической статистике принято доверительные интервалы и дисперсии оценок для конечного объема выборки п приближенно представлять через асимптотические (при п~*- оо) распределения соответ- соответствующих оценок [11, § 8.4]. Это позволяет не только полу- получать хорошие приближения, но и делает теорию более на- наглядной. Аналогичный прием используется и в дискрими- нантном анализе. Однако здесь в зависимости от особенно- особенностей реальной задачи используются разные асимптотики. Остановимся на этом вопросе более подробно. Каждый естествоиспытатель знает, что чем больше наб- наблюдений (п) каких-либо статистических объектов он имеет, тем на большее число вопросов относительно характеристик этих объектов он может ответить. Другими словами, чем больше информации, тем более сложная математическая мо- модель может рассматриваться. Если ввести некоторый пока- показатель «сложности» математической модели (С), то различ- различные варианты связи между С и объемом выборки могут быть представлены графически (рис. 2.1). Горизонтальная прямая A) на рисунке отвечает тради- традиционной асимптотике математической статистики, исполь- используемой главным образом при оценке параметров распределе- распределений. Здесь сложность модели — число параметров — фик- фиксирована, а объем выборки п растет [11, § 8.11. Для регрес- регрессионных задач, в которых с ростом числа наблюдений уве- увеличивается число параметров, используемых для описания регрессионной кривой [12, § 6.3, 10.2], более характерна кри- кривая B), у которой рост С пропорционален па, где а < 1. В задачах статистической классификации широкое распро- распространение получила асимптотика Колмогорова — Деева 112, п. 4.3.3], в которой сложность модели — размерность пространства наблюдений р — растет прямо пропорцио- пропорционально числу наблюдений (кривая 3). Кривые на рис. 2.1 пересекаются в одной точке с абсциссой п0. Эта точка соот- соответствует вероятностной модели, которую строит исследо- 88
ватель, имеющий данное число наблюдений, параметров и т. п. Для всех кривых на рис. 2.1 при п—п0 вероятностная модель одна и та же, однако асимптотические (при п -*¦ оо) свойства изучаемого метода классификации существенно зависят от того, какую модель усложнения вероятностной модели с ростом п, или, другими словами, какую модель развития вероятностной модели выберет исследователь. В [26] предлагается объединение вероятностной модели и мо- ch Рис. 2.1. Основные асимптотики: A) — р фиксировано, п-*-оо (традиционная); B) — р=па (а<1); л->-оо; C) — р, п-^оо, pfn-+k<oo (Колмогорова — Деева); D) — р-*-°°, п фиксировано дели ее развития называть статистической моделью. Прав- Правда, само понятие модели развития в [26] тракт>ется шире, чем здесь. Рассмотрим асимптотики, используемые в теории статис- статистической классификации. В традиционной асимптотике математическая модель не меняется, только объем выборки га->оо. Эксперименты с моделированием выборок из нор- нормальных распределений показывают, что асимптотические (по га-> оо) разложения для ошибок классификации, полу- полученные в традиционной асимптотике [132, 135], близки к ре- результатам моделирования только при пг ^> р. Используется также схема серий выборок с моделью рас- растущей (одновременно с ростом объема выборки) размерно- размерности пространства наблюдений (асимптотика Колмогорова — Деева). Рассматривается последовательность задач класси- классификации (по параметру т —*- оо), при переходе от одной зада- задачи к другой одновременно растут р = р (т) — размер- размерность пространства наблюдений и п} = tij (т) — число наб- 89
людений в обучающей выборке из /-го класса, / = 1, ..., k. В асимптотике предполагается, что rij, /?->-oo; р1п}^>-Х}< оо (т^-оо). B.9) Для изучения статистической задачи классификации эта асимптотика была предложена в 1968 г. А. Н. Колмогоро- Колмогоровым, первым обратившим внимание на то, что классифика- классификация в задаче Фишера существенно конечномерна. А. Д. Деев [55] исследовал задачу Фишера (см. п. 2.3.1). Хорошее сов- совпадение полученных асимптотических формул для асимпто- асимптотических ошибок классификации с результатами моделиро- моделирования [1351 привлекло к этой асимптотике внимание теоре- теоретиков. Несколько раньше при изучении распределений слу- случайных матриц, связанных с физическими задачами, асим- асимптотика растущей размерности использовалась в работе [1031. Асимптотика растущей размерности при фиксирован- фиксированном числе наблюдений [3041 пока носит чисто теоретический характер. 2.2.2. Инвариантность и подобие алгоритмов. В дискрими- нантном анализе при небольшом числе принципов построе- построения правил классификации предложено очень много конк- конкретных алгоритмов. Поэтому весьма настоятельной явля- является задача выделения алгоритмов в чем-то похожих. Введем необходимые обозначения. Пусть Wn означает выборку B.1) объема я; Fj— распределение X, принадле- принадлежащих /-му классу; (X, у) — новое наблюдение, не завися- зависящее от Wn; А — алгоритм, A (W) — правило классифика- классификации, построенное с помощью алгоритма А на выборке W; yA(W) (X) — результат применения к наблюдению X правила классификации A (W); G = {g (X)} — группа преобразова- преобразований пространства Rp; g (Wn) -=- {{g (X,), yt), i = 1 n}. Будем говорить, что алгоритм А инвариантен относительно G, если Два алгоритма А и В будем называть асимптотически (в традиционной асимптотике) подобными для семейства рас- распределений М, если для любого е > 0 и любых Fj ? М (/ = 1, .... k), таких, что Fj =fiFy (j ф ']'), найдется п„, такое, что для п> пв Р \уА (wn) {Х) = ун iwn) {Х)) > 1 -». B.11) Для асимптотики Колмогорова — Деева в вышеприве- вышеприведенном определении слова «любых Fj ? Mi> надо заменить 90
на «любой последовательности (по т) F}? M, удовлетворя- удовлетворяющей условиям асимптотики». Причем в условия асимптоти- асимптотики должно обязательно включаться требование стремления расстояний между распределениями к конечным и отлич- отличным от нуля пределам. Пусть у (с) — правило классификации по отношению правдоподобия A.2), алгоритм А будем называть состоятель- состоятельным в традиционной асимптотике над М, если для любого г > 0 и любых Fj е М (/ = 1, 2), F, ф F2> найдется п0, такое, что для п> п0 Р \уА (v«) (X) = Уу м (Х)\ > 1 -е. B.12) Для асимптотики Колмогорова— Деева понятие состоя- состоятельности алгоритма не вводится, поскольку в ней даже для многомерных нормальных распределений sup х fix, <Г.) f(x, e2) B.13) Приведем несколько примеров использования введенных выше понятий. В п. 1.2.3 описан класс алгоритмов построения древо- древообразных правил классификации в условиях полного зна- знания распределений в классах. Если в формулах A.48), A.50) заменить функцию потерь Q и вероятности событий на соответствующие оценки типа B.8) и частоты, оцененные по выборке Wn, то получим класс древообразных классификато- классификаторов. Древообразные классификаторы, очевидно, инвариант- инвариантны относительно произвольных монотонных преобразований координат и не инвариантны относительно группы общих линейных преобразований R". Более того, если в традицион- традиционной асимптотике с ростом объема выборки п ег ->- 0, но так, что ег/г-^оо, то для достаточно гладких распределений Pi Ф Ft древообразные классификаторы асимптотически минимизируют используемую функцию потерь и, в частно- частности, при выборе в A.47) q (u,v) = (и — dJ асимптотически подобны байесовскому классификатору и, следовательно, у (я1/я2) состоятельны. Подстановочный алгоритм, использующий классифици- классифицируемое наблюдение (X, у) при оценке неизвестных парамет- параметров распределений в модели Фишера. Обозначим МЛ, Mj2, 2; оценки параметров модели Мъ М2, S по объединенной выборке {Wn, (X, у)}, где х — наблюдение, которое пред- предстоит классифицировать, и у положено равным /. 91
Тогда критерий отношения правдоподобия может быть представлен в виде отношения ~ LJwn, X, М21, М22, %) b{wn, х, ми, мы, %) Нетрудно найти новые оценки (в них Хи Х2, S — традици- традиционные оценки B.2) и B.3).) Г, = Г(л —2) S + —^— (Х—ХЛ (X—X,)'] I (п — \). Итак, в силу очевидных сокращений •^ | \(п+1)/2 Из-за того, что матрицы добавок к S в определении 2Х и 22 имеют ранг 1, формула для у может быть упрощена: Можно доказать, что подстановочные алгоритмы с исполь- использованием пары (X, у) и без нее при оценке параметров асимп- асимптотически подобны и в традиционной асимптотике, и в асим- асимптотике растущей размерности. 2.2.3. Методы выработки рекомендаций. Опыт показывает, что статистические феномены, с которыми сталкивается ис- 92
следователь, работающий в области классификации, слож- сложны и не всегда предсказуемы. Законченных теоретических результатов, которые могли бы выполнять роль ориенти- ориентиров для практики, по сравнению с другими областями при- прикладной статистики, здесь заметно меньше. В связи с этим заслуживает специального обсуждения сложившаяся прак- практика осмысления происходящего и выработки соответствую- соответствующих рекомендаций. Возникшее у исследователя первоначальное наблюде- наблюдение или предположение-гипотеза (об источнике ошибок, пу- 1ях улучшения используемого правила классификации и т. п.) проверяется методом статистического моделирования с известной 1еоретической моделью на предмет существова- существования. Когда существование феномена установлено, прово- проводится теоретическое исследование, чтобы на простейших ма- математических моделях как в обычной асимптотике, так и в асимптотике растущей размерности Колмогорова — Деева попять его действующие механизмы и дать их асимптотиче- асимптотическое количественное описание. На этой стадии обычно не удается получить ни оценок скорости достижения асимптоти- асимптотических утверждений в изучаемых крайне идеализирован- идеализированных моделях, ни границ их применимости. Поэтому необхо- необходимо повторное применение метода статистического модели- моделирования, но на этот раз уже с учетом качественного и коли- количественного понимания, достигнутого на простейших моде- моделях. Окончательная проверка полученных рекомендаций проводится на реальных данных. Состояние теоретических исследований в различных зада- задачах статистической классификации описывается в последу- последующих параграфах настоящей главы. Однако, прежде чем пе- переходить к ним, необходимо отметить, что главное неизвест- неизвестное любой статистической модели — это состояние природы. Поэтому для конкретных областей применения классифика- классификации, с точки зрения прикладной статистики, задачей номер один является накопление примеров эффективного примене- применения конкретных моделей, методов, упрощающих предполо- предположений. 2.3. Подстановочные алгоритмы в асимптотике растущей размерности Как уже сказано в п. 2.1.1, подстановочным (plug-in) алго- алгоритмом называют метод построения правила классификации, при котором неизвестные в отношении правдоподобия пара- параметры распределений в заменяют их оценками максималь- 93
ного правдоподобия в. При минимальных требованиях к плотности распределений подстановочные алгоритмы в тра- традиционной асимптотике асимптотически подобны и у (с) состоятельны. Как следует из формулы B.13), положение в случае асимптотики растущей размерности сложнее. Здесь уже многое зависит от того, как оцениваются параметры и насколько эффективно используются упрощающие пред- предположения. 2.3.1. Модель Фишера в асимптотике B.9). Базовое пред- предположение B.9) дополним условием, что т. е. что расстояние Махаланобиса между распределениями стремится к конечному пределу. Рассмотрим сначала случай, когда 2 известно (см. п. 1.1.2). Согласно A.12) подстановочное правило класси- классификации имеет вид: h{X) = (*-(*!+ Х~М' S-1 (Хъ-Х^с, B.15) где Хг, X2 — обычные выборочные средние для обучаю- обучающих выборок из первой и второй совокупностей. Предполо- Предположим для определенности, что X извлечено из первой сово- совокупности, и найдем условную вероятность ошибки классифи- классификации по правилу B.15) при фиксированной обучающей вы- выборке P{Ht\Hlt Wn}= 1 -Ф((с-аМо), B.16) где а, = <МХ - {Хг + ХМ' Е-* (Xt-XJ. B.17) а* = D[X' 2-1 QCt-Xd I Hu Wn] = (Xt - — Xty 2-1 (Хъ—%). B.18) Аналогично P{H1\Ht,Wn) = <S>((c-a^la), B.16') где ^ 2-i (X,-Ai). B.19) В предположениях B.9), B.14) с ростом объема обучающей выборки а-у, а2, а2 сближаются со своими математическими ожиданиями и стремятся соответственно к пределам О!-*— У/2 + (-Я1 + Х2)/2, B.20) 94
2)/2, B.21) М-А-.- B.22) Из B.20) — B.22) видно, что асимптотическое значение а- минимаксной опшбки классификации достигается при рав- равных асимптотических ошибках первого и второго рода, т. е. при с->- (к2 — ^i)/2, и а^.ф( — J/2yJ +к1 + к2). B.23) В проведенном выше рассуждении сразу от условной ошибки классификации перешли к асимптотической ошибке, не вычисляя в качестве промежуточного этапа ожидаемую ошибку классификации. Общая модель с матрицей S, оцениваемой по выборочным данным, была изучена А. Д. Деевым [551. В предположении, что к^1 + к%1 > 1, он показал, что для подстановочного правила минимаксная ошибка классификации (—J (l — B.24) Как видно из сравнения формул B.23) и B.24), цена (в тер- терминах а), которую приходится платить за р (р -\- 1)/2 не- неизвестных параметров общей ковариационной матрицы, до- достаточно высока. Как уже сказано в п. 2.2.1, формулы Деева дают хорошую аппроксимацию даже при умеренных объе- объемах обучающих выборок В этом можно убедиться непосред- непосредственно, сравнив данные табл. 2.1 и 2.2. В табл. 2.2 приведе- приведены асимптотические значения х2п= ЕРгп/Рх для линейной дискриминантной функции, полученные по формуле B.23), когда матрица известна, и B.24) — в общем случае при Л1 = Л2 ~ 0,5. ге = 0,6р п = р гс = 2р п = 5р л— Юр л-=-20р Матрица <г=2,5б 1,49 1,31 1, '7 1,07 1,04 1,02 1,01 d Рос 2 известна = 4,65 = 0,01 ,52 ,30 ,15 ,06 ,03 ,02 ,01 d = 6 18 /^=0,001 1,52 1,30 1,14 1,06 1,03 1,01 1,00 Та б л ица 2.2 Матрица 2 неизвестна <i=2,56 3,35 2,10 1,51 1,19 1,09 1,05 1,02 <г=4,б5 Роо = 0,01 18,85 5,78 2,45 1,44 1,20 1,10 1,04 <г = б,18 Poc^O.OOl 113,14 16,59 4,12 1,77 1,30 1,16 1,06 2.3.2. Распределения с независимыми блоками. Эти рас- распределения введены в п. 1.1.5. Они служат простейшей мо- 95
делью негауссовских распределений. Добавим к базовым предположениям B.9) предположения, что размерность век- векторов Х(!) и в(/> в блоках ограничена pj, mj<c <oo; B.25) что значения соответствующих параметров в классифицируе- классифицируемых распределениях сближаются друг с другом: U^—е(/М<с/КлГ B.26) и что суммарное расстояние между распределениями стре- стремится к конечному пределу 2/;-»-/<с<оо, B.27) где J} = 2 (в« — 9(<>) »м <e1)(B(f> - 8<s>) и суммирова- ние проводится по всем t, s, принадлежащим j-му блоку; I с dinf(X, в) dinf(X, в) формационная матрица Фишера 112, § 8.2—8.31. При вы- выполнении условий B.9), B.25) — B.27) и некоторых до- дополнительных условий регулярности в [109] показано, что для подстановочного алгоритма справедлива формула B.23). Более того, если в j-м блоке имеются trij различающих и /7- неизвестных, но общих обоим распределениям парамет- параметров, причем Ij < с <С оо, и одна и та же оценка общих па- параметров подставляется в обе плотности, то B.23) также име- имеет место. Другими словами, О (р) общих параметров не ухуд- ухудшают асимптотические свойства подстановочного алгорит- алгоритма. Можно надеяться, что и в задаче Фишера в случае, ког- когда 2 зависит только от ср параметров и при оценке этот факт учитывается, B.23) также будет справедлива. Эту гипоте- гипотезу удалось доказать в случае древообразных распределений. 2.3.3. Модель Фишера в случае древообразных распределе- распределений. Если при древообразных (ДСЗ) распределениях с из- известной структурой зависимостей оценку 2 проводить не по общей схеме, а с учетом структуры зависимостей, как ука- указано в [12, п. 4.2.3], то согласно [77, 78] асимптотическая минимаксная ошибка модернизированного классификатора будет не B.24), а B.23), т. е. существенно меньше. Более того, известно, что при минимальных дополнительных предположениях древообразная структура зависимостей восстанавливается в асимптотике Колмогорова — Деева с точностью до несущественных связей с вероятностью 1 [12, п. 4.3.3 и 4.3.4]. 2.3.4. Оцифровка градаций качественных переменных. Если в исследовании встречаются качественные переменные, 96
то для применения к ним общих линейных моделей ди- скриминантного анализа их градациям часто приписывают численные значения-метки и далее работают с этими оци- оцифрованными переменными как с обычными числами. При этом используются две стратегии: первая (универсальная) состоит в том, что каждая градация качественной перемен- переменной выделяется в новую двоичную переменную, принимаю- принимающую два значения: 0, если градация не осуществилась, и 1, если осуществилась [11, п. 10.2.4]; вторая стратегия приме- применяется тогда, когда качественные градации можно рассмат- '/з Рис. 2.2. Границы квантования и плотности рас- распределений в задаче об оцифровке качественных переменных ривать как результат квантования некоторой непрерывной случайной величины (ее математическая техника описа- описана ниже). Наша ближайшая цель — сравнить на простей- простейшей математической модели эффективность этих подходов в асимптотике растущей размерности. Математическая модель: рассматриваются два класса с независимыми переменными в каждом из классов. Пусть Ри (Яи) — вероятность того, что t-я переменная в первом классе (соответственно во втором) принимает свое /-е зна- значение, j = 1, ..., kt <Z с <z оо, и рц (qu) — оценки этих ве- вероятностей по частотам на основании обучающих выборок. Предположим, что существует такая известная функция G (г) с непрерывной первой производной; такие числа At— расстояния между функциями G для первого и второго клас- классов; границы квантования dtj, i = 1, ..., р; j = 0, 1, ..., kt— —оо = di0 < dtl <Z ... <Z d(ki = oo, такие, что ptj = G (dti + AJ2)-G (dt^ B.28) B.29) Это наглядно показано на рис. 2.2. 4 Заказ № 291 97
Пусть далее выполняются следующие асимптотические (в асимптотике растущей размерности) предположения: kt<cl<oo; B.30) р, k, nlt «2-»-оо; р/п.!-*-)^, р/пг-+-'кг; 2*Я4; B.31) B.32) &ц = Ри~qtj = 6tjlmm(nu nt), 0<c3 < \Ь,}\ < с4< оо; B.33) 4 = 2S А?//@,5(Рц + qu))-+ J< оо, B.34) Подготовительные вычисления по второй схеме rtj = ? ? ft,, - G (/?„) - 6 В данных предположениях: при оцифровке по первой схеме, когда градации оцифровываются независимо друг от друга так, что /-й градации t-й переменной приписывается зна- чение ztJ = In (pljlq-,i) и классификация проводится по пра- правилу 22j ^ с, где порог с подбирается из условия миними- минимизации максимальной вероятности ошибки а, B.35) при оцифровке по второй схеме, когда /-й градации t-й переменной приписывается значение гц = atJAt и класси- классификация проводится по тому же правилу, выполняется со- соотношение B.23). Формулы B.35) и B.23) совпадают только в случае, когда у переменных имеются всего по две града- градации kt = 2. Уже при kt = 3 формула B.35) дает заметно большую ошибку. Таким образом, независимой оцифровки градаций признаков следует избегать. 2.4. Статистическая регуляризация оценки обратной ковариационной матрицы в линейной дискриминантной функции для модели Фишера 2.4.1. Качественный анализ трудностей линейного дискри- минантного анализа в асимптотике растущей размерности. Как показано в п. 2.3.1, замена неизвестной обратной кова- ковариационной матрицы 2 ее оценкой S в общем случае
приводит к заметному росту ООК. Это отчасти можно объ- объяснить плохой обусловленностью матрицы S при р ~ п и тем, что оценка S не является состоятельной в асимпто- асимптотике растущей размерности, так как где fS|>0, p<.n, симметричная (рхр)-матрица О имеет максимальное собственное число О /- ). Для того чтобы по- понять, в чем дело, зафиксировав обучающую выборку, по- попытаемся построить наилучшее при данной выборке решаю- решающее правило, а затем сравним его с правилом, получаемым при использовании подстановочного алгоритма. При этом оп- оптимальное для УОК правило выведем при использовании до- дополнительной информации, которой нельзя воспользовать- воспользоваться в обычной практике. Тем не менее сравнение двух правил покажет направления для возможного улучшения подста- подстановочного алгоритма. Произведем два последовательных преобразования про- пространства наблюдений: линейное, превращающее обычную ковариационную матрицу в единичную и ортогональное, ориентирующее координатные оси вдоль направлений собственных векторов выборочной ковариа- ковариационной матрицы в пространстве Y; Sy= i 2 {Yi Z = CyY, где Су (р X р)-матрица, составленная из собствен- собственных векторов матрицы Sy. В пространстве Z выборочная ковариационная матрица диагонадьна и дискриминантная функция имеет простой вид 2 S' W> - (z\i] + zBi])/2) (itf>-"*«). B.36) Рассмотрим теперь функцию h (Z) вида h(Z) = V а, (*(«> -(?</> + 4")/2) Й'>-*«), B.37) где аг — постоянные, подобранные так, чтобы d = |E(/T(Z)|tf2, Sy)- -Е(h(Z)|Hlt SY)\/VD(h(Z)\H~ Sy),
а следовательно, и УОК были оптимальны. Находим а ° B.38) здесь <*<«> = Е (г« |Я2, Sy) - Е (г«> |ЯЪ Sy); ?<•'» = = г}° + (-1у+Ы«>/2еЫ@, nj1) (/= 1, 2; j = 1, ...,/>) и независимы между собой. В рассуждении использовано то обстоятельство, что (Y~u Y2) и Sy независимы между собой и ковариационная матрица Y единичная. Сравним теперь формулы B.36)—B.38): 1) в традиционной асимптотике при d(l) Ф 0 аг ->- 1, ана- аналогично бг ->- 1, поэтому обычный линейный дискри- дискриминантныи анализ и алгоритм оптимизации УОК асимптотически подобны; 2) теоретически [51, 103, 142] и путем моделирования показано, что в асимптотике растущей размерности 6г не стремятся к пределу, а имеют предельное распре- распределение с размахом, зависящим от Яг, t= 1, 2; распре- распределение 6г- не зависит от d('> и \I), поэтому взвешива- взвешивание не оптимально и линейный дискриминантныи ана- анализ ведет к большим по сравнению с алгоритмом B.37)—B.38) ошибкам (напомним, что последний алгоритм использует информацию об истиняых пара- параметрах модели); 3) из-за нормализующего преобразования X ->- Y алгоритм евклидова расстояния в пространстве Y, относящий наблюдение к той совокупности, к выбо- выборочному центру которой оно ближе, может иметь меньшую ООК по сравнению с линейной дискри- минантной функцией; 4) алгоритмы, уменьшающие вклад в дискриминант- ную функцию экстремальных значений бг как источ- источника больших погрешностей и учитывающие при выборе весов в B.37) величину d(l), могут в асимп- асимптотике растущей размерности вести к уменьшению ООК по сравнению с традиционным дискрими- нантным анализом. Особенно опасны б;, близкие к нулю. 2.4.2. Регуляризованные оценки S. Специальные меры, направленные на улучшение обусловленности матрицы S и уменьшение случайных колебаний корней обратной мат- матрицы S-1, принято называть регуляризацией. Пусть X — 100
собственный вектор матрицы S, соответствующий собствен- собственному числу б, т. е. SX = 6Х. B.39) Тогда X являетсй собственным вектором матрицы 1Р + + с& (а > 0), соответствующим собственному числу 1 + + аб, так как (lp + aS)X = X + a8X = (l+ab)X. B.40) Заменим теперь в линейной дискриминантной функции пре- предыдущего пункта Sy1 на AР + aSy), тогда в силу сохра- сохранения собственных векторов представление B.36) имеет место, и в нем величины бг1 заменяются на A + aS^)-1. Раз- Разброс последних заведомо меньше разброса б7\ они ближе к предельному взвешиванию слагаемых и, следовательно, обес- обеспечивают меньшую ООК, чем B.36). При а = 0 получаем алгоритм евклидова расстояния. К сожалению, невозможно воспользоваться только что проведенным рассуждением непосредственно, так как ис- исходная матрица 2 неизвестна. Однако на практике регуля- регуляризация рассмотренного вида часто применяется к исход- исходной выборочной ковариационной матрице (без предваритель- предварительного перехода в пространство Y). При этом, так же как в рас- рассмотренном выше случае, направления собственных векто- векторов не меняются, а собственные числа матрицы отодвига- отодвигаются от нуля. Это так называемые ридж-оценки S. В ра- работе [23] теоретически и в [217] путем моделирования пока- показано, что ридж-оценки действительно уменьшают ООК. В [167] подобный результат достигается при замене S на (S + а А), где А — некоторая симметричная положи- положительно определенная матрица. В частности, в качестве А можно взять матрицу, составленную из диагональных эле- элементов S. Другой вид регуляризации, с успехом используемый на практике [148] и называемый оценкой главных ком- компонент (ОГК-оценкой) — это замена S на Sf' = = С diag (бГ1 7 (б! - V) Sp1 V (бр - v)) €\ где С—ортогональная (р X р)-матрица, составленная из соб- собственных векторов матрицы S; (б1( ..., бр) — собственные чи- числа матрицы S, а V (и) = 0 для и •< 0 и V (и) = 1 для ы> 0. Простая геометрическая иллюстрация рассмотренных выше правил дана на рис. 2.3 посредством функций взвеши- взвешивания собственных значений матрицы S. Пусть Си {б:, ..., бр} определены как выше и пусть ?/= СХ, тогда в тер- 101
минах U линейная дискриминантиая функция представля- представляется в виде y G7,— B.41) Введем в B.41) формально в виде сомножителя функцию взвешивания v\ (8t). Это позволяет единообразно предста- . вить основные орто- а / 9.6 1 гонально- инвариантные методы регуляризации: а — Ц (б) з= 1 для ли- линейной дискриминант- ной функции Фишера; б~ ч(б)= Г0для6<т 1 1 >у для ОГК-оценки S~l; в—Tj (б) =6 для метода ^Т евклидова расстояния; 4 Рис. 2.3. Весовые коэффициенты различных методах регуляризации ридж-оценок вида (alp+ + S)-1. 2.4.3. Обобщенная ридж-оценка В. И. Сердобольского [142, 145]. Представляет собой линейную комбинацию простых рндж-оценок (I + ^S)-1 с функцией взвешивания a(t), где a (t) — функция ограниченной вариации B.42) Для того чтобы для заданной функции a (t) при использова- использовании Sir1 вместо S-1 в линейной днскримннантной функции существовало в асимптотике растущей размерности предель- предельное распределение для УОК, предположения B.9) должны быть дополнены следующими: 1) обе совокупности нормальны N (М}, S), / = 1,2; 2) собственные числа матриц 2 лежат на отрезке [сг, С2Ь где С]. > 0 и с2 от т не зависят; 3) при каждом т сумма пг + п2 ^ р + 4, 0< Я = я2)< 1. Введем функцию распределения неслучайных собствен- собственных значений матрицы 2: Fm (и) = р~х 2 !• Обозначим компоненты г * = М2 — Mlt и пусть ниже ц,<"> означают вектора fi в системе координат, в которой 102
матрица 2 диагональна. Введем функцию Rm (и) = I 6; <Н. 1= 1 Р 4) при и > 0 существуют пределы 5) выборки из совокупностей независимы. Матрица S вы числяется обычным образом согласно B.3). В сделанных предположениях существуют пределы в сред- среднем квадратическом: AB) = l.i.m. p^Spilp—zS)~1= J(l— zs(z)u)-1dF(u), B.43) где a(z)=l-~k+)Ji(zy, b (z) = 1. i. m. ц' (Ip — zS)-1 |A =» J A — zs (z) u)-1 udR (u); B.44) k B) -1. i. m. (Хг-%)' (I- 2S)-i (X2-;Q = -6B) + (Я1+^)(ЛB)-1)/(г8B)). B.45) Предельная минимаксная ошибка (а) классификации по правилу h{X) ^ 90, где в0 = l.i.m. 90m = ~ {К2 — Ях)х т-*<» 2 X | (te (—f))-1 (I — А (— t)) Aa (t), выражается через них: B.46) где ^ B.47) = l.i.m. (ц' SaM G 7)p *<^*(Ц fl^. B.48) В [142] доказывается, что функция a0 @. минимизирую- минимизирующая а, может быть найдена при некоторых дополнительных предположениях в явном виде. Переход от предельных реко- рекомендаций [142] к построению практического алгоритма для конечных выборок является довольно сложной задачей и выполнен в [145]. Соответствующая программа, названная ЭЛДА — экстремальный линейный дискриминантныи ана- анализ — хорошо работает начиная с р > 5. Ее сравнение с 103
алгоритмами Фишер и Парзен (см. § 3.2) на ряде реальных коллекций данных ср~и, выполненное с помощью паке- пакета СОРРА-2 [125], показало явное преимущество ЭЛДА перед алгоритмом Фишер и заметный выигрыш по сравне- сравнению с универсальным алгоритмом Парзен при использо- использовании в последнем стандартных значений параметра сгла- сглаживания, предусмотренных в СОРРА-2. 2.5. Отбор переменных 2.5.1. Увеличение ООК малоинформативными признаками. Один из очевидных выводов из формул § 2.3 состоит в том, что включение в прогностическое правило малоинформатив- малоинформативных переменных может заметно ухудшить его качество. Рис. 2.4 показывает это наглядно. Каждый признак наряду * ш ¦ щ * •* ¦ •* и ¦ 12 3 I сигнал 7 8 переменные шум Рис. 2.4. Зависимость отношения сиг- сигнал/шум от числа отобранных параметров: * — отношение сигнал/шум для k первых переменных с положительным вкладом в разделение несет в себе в силу ограниченности выборки и шумовую (случайную) состав- составляющую. Если много малоинформативных признаков, то от- отношение сигнал/шум значительно лучше для группы высо- высокоинформативных признаков, чем для всей выборки. Тот же вывод подтверждают и числовые данные. Из анализа данных табл. 2.2 видно, что при известной ковариационной матрице 2 обучаемость подстановочного алгоритма заметно лучше, чем в общем случае, когда 2 не- неизвестна. Однако и при известном 2 роль отношения pin 104
существенна. Поэтому при относительно небольшом объеме выборки малоинформативные признаки в прогностическое правило лучше не включать. Однако заранее информатив- информативность признаков обычно не известна и отбор наилучших сре- среди них производится по выборке, но здесь мы сталкиваемся с новым явлением — отбор признаков может заметно ухуд- ухудшить обучаемость алгоритма. 2.5.2. Влияние выборочных флуктуации на результаты от- отбора признаков. Задача формирования наилучшей системы признаков трудна сама по себе как с технической, так и с ме- методологической стороны даже в случае полностью опреде- определенных распределений (см. § 1.4). В дискриминантном ана- анализе она усугубляется еще и выборочными флуктуациями. Для представления масштаба возникающей проблемы снова обратимся к модельному примеру. Пусть в модели Фишера с известной единичной ковариационной матрицей Fj = N(Mj, !„)(/= 1, 2) B.49) средние случайны: М1= — М2 и Мг?Ы@, о21р/4). B.50) При моделировании сначала получают значения Мх и М2, далее моделируются независимые выборки объема п каждая из Fx и F2, и по ним с помощью изучаемого алгорит- алгоритма А строится правило классификации. Поскольку значе- значения Мх и М2 известны, нетрудно оценить Pf, „, — асимпто- асимптотическую ошибку классификации, которая, естественно, за- зависит от Мг и М2. Подбирая величину а2, можно добиться того, что значение EPPi „ будет достаточно близко к любо- любому числу 0 < е < 0,5. Пусть А — подстановочный алгоритм, действующий в Rp и порождающий правило вида h{X) = {X-(X1 + X2l2))' (ffs-Xi)S=c, B.51) где с подбирается в каждой серии так, чтобы УОК была ми- минимаксной. Пусть далее В — аналогичный подстановочный, алгоритм, но с предварительным отбором г признаков из р. При этом отбор переменных проводится по величине мо- модуля разности 1^2° — х\1) | так, что переменные с разно- разностью, большей некоторого порога, включаются как «ин- «информативные», а с меньшей— нет. В табл. 2.3 показаны три отношения хА = EP?2jEP$iX, xB = ЕРЦ,2П/ЕР?.» и у = (хв — 1) / (ил — 1), полученные методом статисти- статистического моделирования. Общий вывод, который можно сделать из табл. 2.3, следующий: в рассматриваемой моде- 105
Рае 0,10 0,10 0,10 0,10 0,01 0,01 0,01 0,01 г 5 8 12 20 5 8 12 20 Щг 0,5 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 0 5 1 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 Р к» 1,78 1,40 1 19 1,08 1,04 1,74 1,38 1,19 1,08 1,04 1,73 1,35 1 18 1,07 1,04 1,63 1,35 1,18 1,07 1,03 2 36 1,58 1,29 1,11 1,05 2,21 1,51 1,25 1,09 1,04 1 ,99 1 43 1,21 1,08 1,04 1,85 1,38 1,19 1,07 1,04 = 0,125 кв 2,73 2,15 1,64 1,25 1,13 2,67 2,05 1,59 1,28 1,15 2,52 2,03 1,58 1,25 1,13 2,52 2,02 1,59 1,24 1,13 5,94 2,97 1,83 1,30 1,13 5,14 2,61 1,84 1,31 1,14 4,42 2,61 1,72 1,27 1,14 4,25 2,43 1,70 1,28 1,12 V 2,2 2,9 3,4 3,3 3,3 2,2 2,8 3,2 3,5 4,2 2,1 2,9 3,3 3,6 3,5 2,4 2,9 3,4 3,4 3,8 3,6 3,4 2,9 2,64 2,62 3,4 3,2 3,4 3,3 3,2 3,4 3,7 3,4 3,4 3,7 3,8 3,8 3,7 3,8 3,5 Таблица 2.3 р = 0,25 *А 1,73 1,39 1,31 1,08 1,04 1,76 1,37 1,20 1,07 1,04 1,58 1,35 1,17 1,07 1,04 1,63 1,33 1 17 1,07 1,04 2,44 1,63 1,25 1,10 1,06 2,19 1,48 1,23 1,08 1,04 2,03 1,42 1 20 1,09 1,04 1,78 1,40 1,13 1,07 1,04 'х- 2,45 1,86 1,57 1,20 1,10 2,41 1,82 1,50 1,20 1,10 2,23 1,79 1,45 1,19 1,10 1,2 1,77 1,45 1,19 1,10 3,96 2,57 1,66 1,22 1,13 3,88 2,30 1,54 1,19 1,10 3,34 2,29 1,52 1,21 1,10 3,20 2,01 1,38 1,19 1,09 V 1,9 2,19 2,8 2,6 2,5 1,9 2,2 2,5 2,8 2,7 2,1 2,3 2,6 2,6 2,9 1,9 2,4 2,6 2,7 2,7 2,1 2,5 2,7 2,10 2,27 2,4 2,7 2,3 2,3 2,4 2,3 2,8 2,5 2,4 2,3 2,9 2,5 1,6 2,73 2,61 Г 1,74 1,39 1,17 1,08 1,04 1,66 1,35 1,19 1,08 1,04 1,66 1,35 1,17 1,07 1,04 1,65 1,34 1,18 1,07 1,04 2 09 1,60 1,23 1,08 1,05 2,07 1,46 1,25 1,08 1,04 1,93 1,45 1,22 1,09 1,04 1,84 1,37 1,17 1,07 1,03 = 0,5 „в 1,98 1,6 1,30 1,14 1,06 2,00 1,56 1,33 1,13 1,07 1,96 1,55 1,30 1,13 1,07 1,96 1,59 1,32 1,13 1,07 2,73 1,93 1,38 1,13 ,08 2,80 1,78 1,41 1,12 1,07 2,53 1,75 1,35 3,13 1,06 2,53 1,64 1,29 1,11 1,05 11331 V 1,3 ,5 g ,7 1,6 ,5 ,6 1,7 1,7 1,7 1,5 1,57 1,8 1,9 1,8 1,5 1,7 1,8 1,8 1,9 1,6 1,6 1,7 1,6 1,6 1,7 1,7 1,68 1,5 1,6 1,6 1,7 1,6 1,5 1,5 1,8 1,7 1,7 1,6 1,56 106
ли, когда объем обучающей выборки ограничен и число ото- отобранных признаков в 4—8 раз меньше числа исходных пере- переменных, ожидаемая ошибка алгоритма с отбором призна- признаков по обучающей выборке заметно больше ожидаемой ошиб- ошибки алгоритма без отбора. Правда, в качестве примера взя- взята модель ситуации, весьма трудной для отбора. 2.5.3. Изучение эффекта отбора признаков в асимптотике растущей размерности. Основное добавление к предположе- предположению B.9) асимптотики растущей размерности при изучении эффекта отбора состоит в том, что г — число отбираемых признаков — пропорционально р, т. е. что г/р-+р>0. B.52) Естественно также потребовать, чтобы расстояние между классифицируемыми распределениями оставалось ограни- ограниченным при росте р и п, т. е. чтобы oi = Q(p~1). B.53) Поскольку априори известно, что признаки независимы и нормально распределены с единичной дисперсией, перемен- переменную i включаем в число отобранных, когда 14<> — *</> | > Т W + 2/п, B.54) где Т = Т (р) определяется из условия 1 — Ф (Т) = р/2. Условие B.52) выполняется, так как *B° —х['> 6 N @, ст2 + + 21 п). Пусть B.55) где для i, He удовлетворяющих условию суммирования, по- положено dt = 0. Согласно B.3) АОК Рр, «. = Ф (—Hmrf/2). Найдем математическое ожидание одного, отличного от нуля, слагаемого в B.55): -re B.56) Число отличных от нуля слагаемых асимптотически равно рр, поэтому для больших р « 2ст2р/ф(—Т) +-^г ехр{—Г/2)У B.57) 107
Обозначим Е, (i = 1, 2) условное математическое ожида- ожидание по наблюдению X при условии, что I) X ? Ft и 2) обу- обучающая выборка фиксирована Пусть далее в соответствии с предположением B.53) а2-р-+[г2<оо, B.58) тогда согласно B.57) для р = 0,125; 0,25; 0,5 (соответствую- (соответствующие значения Г равны 1,53; 1,15; 0,674) для получения Pf = = 0,01 fi2 должно быть соответственно равным 43,1; 29,9; 23,3 и для Pi = 0,10 ц2= 13,08; 9,08; 7,08. Для подсчета асимптотического значения УОК по конечной выборке при отборе и обучении надо найти в изучаемой асимптотике B.9), B.52), B.49), B.50), B.58) предел отношения Он существует, так как в силу закона больших чисел суще- существуют конечные пределы числителя и знаменателя. Обозна- Обозначим его d2, тогда = Ф (—2/2). B.60) Теперь для значений р, Я, Р^,, указанных в табл. 2.3, можно найти соответствующие предельные значения Xs (табл. 2.4). Таблица 2.4 Роо 0,10 0,01 lim л/г 0,5 1 2 5 10 ад 1 2 5 10 р=0,125 3,18 2,56 1,96 1,48 1,23 7,3 3,8 2,3 1,4 1,2 р=0,25 2,78 2,19 1,69 1,30 1,18 4,9 2,7 1,79 1,29 1,14 Р=0.5 2,22 1.75 1.41 1,18 1,13 2,9 - 1,9 1,42 1.16 1,07 Качественное соответствие данным табл. 2.3 полное. Од- Однако численно изучаемый эффект более сильно выражен в асимптотической теории. В близкой постановке ошибку классификации при от- отборе переменных изучал В. И. Сердобольский [140]. Отличие 108
от рассмотренной выше задачи состояло в том, что он рассматривал модель блочно-независимых распределений (см. п. 1.1.5 и 2.3.2) с одинаковым числом оцениваемых в блоках параметров (аналог матрицы 1Р в предположении B.49)) и вместо предположения B.50) на Jt -расстояния Кульбака между г-ми блоками (i = 1, ..., k) накладыва- накладывалось в асимптотике B.9) условие к-1 2 \-+F(v), B.61) Jt<v/k где F (v) известно. Соответственно отбор переменных про- проводился по условию Jt S с (т), где с (т) подбиралось так, чтобы выполнялось условие B.52). 2.6. Метод структурной минимизации риска Одна из основных трудностей традиционных алгоритмов дискриминантного анализа состоит в том, что они сущест- существенно зависят от субъективных предположений (см. п.2.1.1), которые трудно и не всегда можно проверить по имеющимся данным. Более того, исследователь порой знает, что предпо- предположения не верны, а продолжает ими пользоваться, так как они, существенно ограничивая класс возможных решаю- решающих правил, успешно работают в данной предметной обла- области. Таким образом, результат применения дискриминант- дискриминантного анализа существенно субъективен, хотя сами алгорит- алгоритмы полностью формализованы. Поэтому возникло направ- направление исследований, рассчитанное на тех, кто не хотел бы начинать исследование с субъективных предположений. Цель его — не столько предложить эффективные рабочие формулы, сколько развить общую теорию оценивания и на ее основании доказать, что в принципе при п —*- оо можно найти решение и без априорных предположений. В основе нового подхода лежит известное понятие функции потерь. Для простоты изложения ограничимся случаем двух клас- классов, для которого функция потерь Q(a) = $(t,-J(X, a)LF(X, у), B.62) где {J (X, а)} — некоторый класс функций, принимающих значения / = 1, 2 и зависящих от абстрактного параметра a; F (X, у) — неизвестная функция распределения (X, у). При вычислениях Q (а) заменяют на ее выборочную оценку Зэмп(а) = ? tot-J(Xt, *)?ln. B.63) 1= 1 109
Обозначим класс функций {/ (X, а)} через S, обычно его выбирают заметно шире, чем класс функций, используемый в статистическом дискриминантом анализе. Это позволя- позволяет, с одной стороны, отказаться от априорных предположе- предположений, а с другой — служит источником трудностей, о кото- которых речь ниже. В классе S ищут минимум по a QaMa(a). Пусть он до- достигается при а=а0. Далее строится оценка, показываю- показывающая, насколько могут отличаться Q (а0) и Q3Mn (а0). Эта оценка зависит от доверительной вероятности е и имеет вид p{|Q(ao)-Q3MnK)|<Q(At -JiLLJ^i-e, B.64) где Q (и, v) — известная непрерывная функция своих ар- аргументов Q @,0) = 0; п — объем выборки; h — новое фун- фундаментальное понятие, называемое емкостью класса S [44, с. 195—196]. Оно характеризует число способов разделе- разделения выборки Хъ .... Хп с помощью функций класса S. По- Поскольку это понятие не используется в дальнейшем, не будем его здесь определять, а отошлем читателя к ориги- оригинальным работам [44, 45]. Отметим только, что емкость Л= = р в случае линейных от функций X правил вида / (X, а)» U { ^ а, ф| (X)) + U B.65) где (/(d)'= J -"' ' q>t(X) —-известные функции X. ]0 и<0, Если бы были сделаны априорные предположения о классифицируемых распределениях, то можно было бы за- заранее сузить класс функций S, среди которых ищут минимум <2эмш и формула B.64) давала бы оценку точности реше- решения. Однако исходная целевая установка заключалась в от- отказе от априорных предположений и рассмотрении макси- максимально широкого класса S. Для того чтобы соединить по- потенциальную широту S и ограниченность объема выборки, на S выделяется некоторая структура вложенных друг в друга подмножеств {/ (X, а)} растущей емкости и минимизация проводится внутри подходящего S4 так, чтобы сбалансировать оцениваемые по обучающей выборке потери от использования не самого широкого класса функ- функций с потерями при переходе от Q0KC к Q, оцениваемыми но 110
формуле B.64). Этот подход к построению алгоритмов клас- классификации получил название структурной минимизации риска. Достоинства метода структурной минимизации: 1) отказ от априорных предположений; 2) решение прямой задачи — поиск а0, а не оценка пара- параметров гипотетических распределений; 3) построение универсальных оценок B.64); 4) наличие рекомендаций по сочетанию объема выборки п и сложности используемого класса функций; 5) существенное развитие общей теории минимизации эмпирического риска, введение новых понятий, что не мо- может не сказаться на будущем развитии дискриминантного анализа. Недостатки этого метода: 1) сильно завышены оценки погрешности, делающие ме- метод неконкурентно способным по сравнению с современ- современными алгоритмами дискриминантного анализа; 2) перенос трудностей, связанных с выбором предполо- предположений, на этап введения последовательности структур B.66); 3) отсутствие рекомендаций по выбору структур в зави- зависимости от геометрии расположения классов. Одна из возможных программных реализаций метода структурной минимизации риска названа алгоритмом «обоб- «обобщенный портрет» [44]. Алгоритм начинается с отображе- отображения исходного пространства переменных в бинарное прост- пространство В, каждая координата которого принимает лишь два значения: 0 и 1. Пространство В имеет размерность р Рнов =2 kt, где kt — число градаций, на которые раз- разбивается i-й признак. Это обеспечивает универсальность по- последующей трактовки, а с другой стороны, как показано в п. 2. 3. 4, порой ведет к очень большим потерям информа- информации. Интерпретация формул, получаемых с помощью алго- алгоритма «обобщенный портрет», часто бывает затруднительна из-за большой зашумленности используемых оцифровок. ВЫВОДЫ 1. В дискриминантном анализе (ДА) распределения X в классах известны не полностью. Они задаются предполо- предположениями и выборкой. Обычно предполагается, что либо fi (X) (j — I, ..., k), либо их отношения принадлежат из- 1П
вестному параметрическому классу функций с неизвестными значениями параметров. Выборка имеет вид {(Хь Dt), i =1, ..., /г}, где уг показывает, из какого класса взято наблюде- наблюдение /. 2. Алгоритмом ДА называют метод, с помощью которого на основании обучающей выборки и предположений стро- строится конкретное правило классификации. Поскольку вы- выборка случайна, случайно и построенное на ее основе прави- правило. Поэтому наряду с характеристиками конкретного пра- правила часто рассматривают и средние (ожидаемые) значения этих характеристик, полученные путем усреднения по всем выборкам данного объема п. Это уже характеристика алго- алгоритма. Наиболее часто используются Ррг „ — УОК — услов- условная ошибка классификации правила, построенного с помо- помощью алгоритма Л приданной обучающей выборке, ЕРр, „ — — ООК — ожидаемая ошибка классификации алгоритма А и Рр, „ = lim ЕРр, „ — АОК — асимптотическая (при П —> оо л—*- оо) ошибка классификации алгоритма А, а также хА = называемое коэффициентом обучаемости алгорит- алгоритма А на выборке объема и, или, проще, коэффициентом Раудиса. 3. Для изучения свойств алгоритмов классификации в условиях, когда р ~ /г;, удачной оказалась ассимптоти- ка растущей размерности Колмогорова — Деева, в кото- которой рассматривается последовательность задач классифика- классификации (по параметру т), такая, что р = р (т), п} = п} (т) -> -> оо и p/tij -*¦ kj <Z оо. Для получения в этой асимптотике содержательных результатов в конкретных задачах на рас- распределения обычно накладываются дополнительные усло- условия. 4. В ДА наиболее часто используются так называемые подстановочные алгоритмы, в которых неизвестные в отно- отношении правдоподобия параметры модели заменяются их оценками, построенными по выборке. Пусть а — предельная в асимптотике Колмогорова — Деева минимаксная ошибка классификации. Тогда для подстановочного алгоритма в мо- модели Фишера с известной ковариационной матрицей а = = Ф (— cP-I2~V(P + Xj + Х2), где d — предельное расстоя- расстояние между центрами классов: в той же модели, но с неиз- вестной матрицей S а = Ф (— сР A — A^/fti + ^I/3/ ,j +X2), т. е. заметно больше. 5. Теоретические исследования показывают, что послед- последняя ошибка может быть заметно уменьшена в частных слу- 112
чаях, когда 2 имеет простую структуру зависимостей Ошибку можно уменьшить также, заменив в линейной дис- криминантной функции S на специальным образом подоб- ранную регуляризованную оценку S-1. 6 В условиях дефицита выборочной информации часто бывает целесообразным для улучшения свойств алгоритма использовать не все переменные, а только часть из них. Вместе с тем задача отбора переменных сопряжена со значи- значительными как техническими, так и чисто статистическими трудностями. Глава 3. ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫИ АНАЛИЗ) 3.1. Предварительный анализ данных Это один из наиболее ответственных этапов дискриминант- ного анализа, направленный на формирование математиче- математической модели данных, которая в свою очередь служит осно- основой для выбора конкретного алгоритма. Редко исследование с применением ДА осуществляется изолированно. Поэтому при предварительном анализе обязательно надо использо- использовать опыт других близких работ, а не полагаться всецело на данную конкретную обучающую выборку. Кроме того, следует различать условия, при которых метод классифи- классификации выводится, и условия, при которых он может быть ус- успешно применен. Анализ обычно начинается с общего осмотра данных, проводимого с помощью метода главных компонент [11, 10.5]. Ниже описываются более специфические приемы. 3.1.1. Проверка применимости линейной дискриминантной функции (ЛДФ) В п. 1.12 ЛДФ выведена как логарифм отношения правдоподобия в задаче Фишера. Соответствую- Соответствующая математическая модель— два многомерных нормальных распределения с общей ковариационной матрицей. Постро- Построим графический тест для проверки этого базового предполо- предположения. Но прежде, чем описывать тест, обратим внимание на качественное смысловое различие классов, часто встре- встречающееся в приложениях. Это поможет понять интуитив- интуитивную идею, лежащую в основе теста. Один из классов обычно соответствует или стабильному состоянию, или устойчивому течению какого-либо процесса. Он относительно одноро- однороден. Для него, как правило, я > 0,5 и нет основания ожидать слишком большого отклонения от многомерной ИЗ
нормальности распределения X. Назовем объекты этого класса не-случаями С другой стороны, объекты другого класса — случаи — представляют собой отклонения от рав- равновесия, устойчивости Отклонения могут происходить в разных направлениях Можно ожидать, что разброс век- вектора X для случаев больше, чем для не-случаев Случаи хуже изучены по сравнению с не-случаями Спроектируем случаи на двумерную плоскость Для этого нормализуем выборочные векторы случаев Ххн сог- ласно выборочным оценкам среднего и ковариационной мат» рицы не-случаев *i.« hoPm = S-1/2(X1!-X2), C 1) где X и S определены как обычно Найдем теперь двумерную плоскость, проходящую через начало координат (центр не-случаев после нормализации), такую, что сумма квадратов расстояний Xli!jHOpM от нее минимальна Нетрудно видеть, что эта плоскость должна быть натянута на первые два собственных вектора, соответствующих наибольшим корням матрицы В =¦ = 2Х1, г HopMXi, г норм Далее спроектируем каждый вектор на эту плоскость и построим отдельно гистограмму, показы- показывающую распределение расстояний случаев от этой плоско- плоскости Если пх и п2 достаточно велики по сравнению с р и верны базовые предположения, то линии постоянного уровня плотности случаев должны быть концентрическими окружностями с центром в точке, соответствующей Мх Распределение расстояний точек Х1гнорм от плоскости должно соответствовать примерно х2"Распределению с р — 2 степенями свободы Визуальный анализ расположения проекций случаев на плоскости позволяет ответить на следующие вопросы 1 Возможна ли вообще эффективная классификация с помощью плоскости? 2 Насколько геометрия расположения случаев соответ- соответствует гипотезе о равенстве ковариационных матриц? 3 Насколько однородны случаи? Не распадается ли их распределение на отдельные кластеры? 4 Нет ли среди случаев слишком удаленных от плоско- плоскости? и т п Пример применения предложенного анализа к конкрет- конкретным данным показан на рис 3 1, а, б Из рисунка видно, что: 1) эффективная классификация (в данном случае речь идет о прогнозе события стать случаем) возможна, 2) распределе- распределение случаев имеет разброс больше ожидаемого согласно мо- 114
Квартили не случаев I II III IV * . * Центр случаев -3.0 -2.0 -1.0 10 2,0 3,0 4.0 5 6 Квадрат расстояния Рис 3 1 Геометрическая проверка условий применимости ли- линейного дискримииаитного анализа а) проекции случаев на плоскость, б) распределение квадратов расстояний случаев от плоско- плоскости, О — два случая в той же точке 115
дели двух нормальных распределений с общей ковариаци- ковариационной матрицей; 3) случаи не распадаются на отдельные кластеры. Совпадение распределения расстояний с распре- распределением %2р-2 вполне удовлетворительно. 3.1.2. «Главные компоненты» одного из классов как новые ин- информативные координаты. Пусть, как и в предыдущем пунк- пункте, один из классов из содержательных соображений может быть выделен в качестве стабильного устойчивого состояния и принадлежащие ему объекты названы не-случаями. Объ- Объекты других классов будем называть случаями типа / (/ =2, ..., k). Интуитивная идея, лежащая в основе предложения перейти к «главным компонентам» не-случаев, следующая: класс не-случаев не вполне однороден и в него наряду с ти- типичными не-случаями входят объекты, которые все еще ос- остаются не-случаями, но вместе с тем уже сдвинуты в направ- направлениях случаев. Ковариационная матрица не-случаев долж- должна нести следы этих сдвигов. При надлежащей обработке, расположении сдвигов и удаче в выборе параметра К (см. ниже) эти следы можно выявить и воспользоваться ими при выборе информативных для различения классов координат. Введем теперь более точные определения. Пусть М%, S*,— экспоненциально взвешенные оценки среднего и ковариа- ковариационной матрицы не-случаев [11, п. 10.4.6], причем параметр к подобран так, чтобы е (к)—средний вес наблюдения обу- обучающей выборки — был бы равен, например, 0,5. Положим V*= 2 №-M>.)ST(X—МьOл„е-сл. C.2) Собственные векторы матрицы V&, будем называть глав- главными компонентами не-случаев. Для нас принципиально важно, что эти компоненты не зависят от векторов других классов. Если при проверке на обучающей выборке окажет- окажется, что векторы Мсп, типа t — M% (i =2, ..., k) достаточно хо- хорошо описываются первыми главными компонентами, то переход к новым координатам на базе первых главных ком- компонент целесообразен. При проверке удобно построить гра- график «(отношение квадрата проекции вектора на первые / главных компонент к квадрату длины вектора) х /» (рис. 3.2) с нанесенным ожидаемым значением квадрата длины проек- проекции единичного равномерно распределенного случайного вектора, равным Ир, с учетом соответствующих стандарт- стандартных отклонений, примерно равных p~l~V2l A — 1/р). Как видно из рисунка, проекции на первые три главные компо- компоненты значимо отличаются от ожидаемого значения. 116
3.1.3. Устойчивые оценки параметров распределений в классах. Когда распределения X в классах можно считать приближенно многомерными нормальными, для оценки сред- средних и ковариационных матриц рекомендуется использовать устойчивые к отклонениям от нормальности оценки, напри- например ЭВ-оценки [11, п. 10.4.6]. При этом наблюдения, полу- 0,8 0,6 0,4 0,2 i w X У 0 1 // / / / / 1 1 X / / i X ^ tf / / / / 1 1 1 1 1 6 8 10 t Рис. З.2. Отклонения квадрата длины проекции вектора на I первых главных компонент от ожи- ожидаемого значения при полностью случайной ори- ориентации вектора (р=10): ф — отношение квадрата проекции вектора на / первых главных компонент к квадрату длины векгора, О — математическое ожидание отношения; X — математическое ожидание отношения плюс два асимптотических (р->-оо) стандартных откло- отклонения чившие аномально низкий вес, должны быть внимательно проэкзаменованы: не вкралась ли в их запись (X, у) ошибка. ЭВ-оценки помогают эффективно определять параметры классов при возможных ошибках в отнесении наблюдений к классам. 3.1.4. Проверка гипотез о простой структуре 2. В § 2.3 по- показано, что информация о простой структуре ковариацион- ковариационной матрицы S дает возможность существенно улучшить ре- результаты классификации. Поэтому всякий раз перед при- 117
менением ЛДф следует проверить, имеет ли ковариацион- ковариационная матрица 2 древообразную структуру зависимостей 112, 4.2—4.3]. Для этого с помощью алгоритма Крускала оценивается структура зависимостей, а далее с учетом струк- структуры строится SAc3- Пусть S—обычная оценка 2. Для оцен- оценки значимости различия S и вдсз в условиях, когда X внут- внутри класса распределены нормально, можно воспользовать- воспользоваться критерием максимального правдоподобия для проверки сложной гипотезы [11, п. 9.3.3]. При этом если предполо- предположение о ДСЗ верно, то величина У = 2 (Xt~X)' (S^-S-1) №-X) +nln (| SW i C.3) где суммирование производится по всем объектам класса, должна иметь асимптотически при п -+¦ оо ^-распределение с г = р (р -}. i)/2 — Bр — 1) степенями свободы, а если гипотеза не верна, то Y должно быть в среднем больше. 3.2. Оценивание отношения правдоподобия 3.2.1. Параметрическое и полупараметрическое оценива- оценивание неизвестных плотностей. В том случае, когда на основа- основании априорной информации или предварительного анализа данных можно предположить аналитический вид плотностей распределений в классах, надо использовать обычные под- подстановочные алгоритмы, следя при этом за тем, чтобы там, где неизвестные параметры в распределениях предполага- предполагаются равными, подставлялись одни и те же оценки (см. § 2.3). Ниже разбирается случай полупараметрического оценива- оценивания. Предположим, что имеются два класса с законами рас- распределения Fj {X) = NT B;-, ?j), / = 1, 2, где NT (...,...) означает класс распределений, трансформируемых к много- многомерным нормальным (см. п. 1.1.5), для / = 1,2 F;- (X) — ~ (^i(*A)),..., Fjp(x(p)))' — вектор-функция непрерывных одномерных распределений координат^, 2У- — положитель- положительно определенная матрица. Общая стратегия решения задачи классификации следующая: для каждого класса построить гладкие оценки плотностей fn, оценить 2;-, далее с помощью формулы A.35) оценить fj и рассмотреть критерий отношения правдоподобия вида /2 //i S с. Если при поста- постановке задачи сделаны дополнительные предположения, то использовать их при оценке /^ и 2у. 118
Оценивание/^; и Fjt. Там, где это ясно из контекста, ин- индексы i и j будем в дальнейшем опускать. Назовем а-кван- тилем (—- < а< ^ту) вариационного ряда |х< |г< < ... <?„ эмпирического распределения г-й координаты в выборке из /-й совокупности величины где [и] — целая часть и и б = и — [и]. Выберем теперь число __ , __ f[log2 п] + 2 при п < 64 ||Уп] при п>64 и построим последовательность (</0, qlt ..., ^8+1)цгде длят— Положим теперь О для t<q9, ((s + 0 Wm+i—Ят))~х Для </те < г < qm+1, (ЗА) О для t> qs+l; О для f<?e, —г + (t-Ят) hit) ДЛЯ qm<t<qm+1, C.4') 1 для f>qs+v В качестве оценок S^¦ = \\Oj, 1кЦ возьмем Oj.ik = 2 ф-1 (Ог (тI(Щ + 1)) X C-5) где для tn:ym = / Гц (т)—ранговый номер х(т в вариаци- вариационном ряду значений г-й координаты в выборке из /-го клас- класса. Заменим в формуле A.35) неизвестные параметры их оценками и построим оценку отношения правдоподобия. Если дополнительно предположить, что 2Х — Е2, то при оценке плотностей надо использовать объединенную оценку C.6) Если дополнительно предположить еще, что Ф-1 (F, (X)) = Ф-1 (Fj-^) + L, C.7) 119
где L = {№, ..., /<р>) — неизвестный вектор (см. п. 1.1.5), то после преобразования координат получаем модель Фишера. В этом случае Т (Х)-объединенную функцию преобразова- преобразования к нормально распределенным величинам можно найти путем итерационного решения системы уравнений Г(Х) = —b_O-i(F1(X)) + —5—(O-MFiWJ+L); C.8) L= 2 Т{ХпIщ- 2 Т(Хт)/П1. C.9) 1 3.2.2. Непараметрическое оценивание плотностей. В слу- случае, когда сделать предположение об аналитическом виде f, (X) нельзя, делают предположение о гладкости f} (X) и оценивают у (X) как отношение непараметрических оценок плотностей nV 2 k{nXt-X\\4*lb) ^ , (зло) пT^ 1-уг=\ где ||Z|| — норма элемента Z; b — малый параметр; k (и)— функция, удовлетворяющая следующим условиям: k(u) ^ >0, Ik («)d« = l, Л(и)-*-0(|«|-*-оо), *(«)=*(—«). В качестве & («) обычно берут плотность нормального закона с параметрами @,1). Наряду с формулой C.10) широко ис- используется оценка "г1 2 П ft ((*J/>-*</>)/*</>) 9ldll=l 1 C.11) «Г1 2 П получившая название оценки Парзена. Часто для упроще- упрощения проводится предварительная покоординатная нормали- нормализация переменных, чтобы они имели одну и ту же меру раз- разброса, и Ь выбираются равными [132]. Для оценок C.10) и C.11) ключевым является выбор параметров Ы'К Его естественно связать с какой-либо ме- мерой качества классификации (см. п. 1.3.4) аналогично тому, как для задачи регрессии это сделано в [12, § 10.1]. На прак- практике оценки Парзена работают хорошо. Их существенные не- недостатки: необходимость запоминания всей обучающей по- последовательности и высокая чувствительность метода к не- непредставительности обучающей выборки. 120
В [198] для распределений, несколько похожих на мно- многомерные нормальные, рекомендуется следующая эвристи- эвристическая приближенная процедура, основанная на рангах. Для каждой из координат / = 1, ..., р строится вариацион- вариационный ряд из п значений х\1) [11, п. 5.6.4]. Исходная величи- величина х\1) заменяется на z\l) — ее номер в вариационном ряду. Если в вариационном ряду были связи, т. е. ...< х\1? = = х\1? = ... - х[1) < ..., то z'f = ... = z[1^ и равня- равняется среднему рангу х\[\ ..., х\1) в вариационном ря- ряду. Далее {Zk:yk — 1} и {Zh : yk = 2} рассматриваются как выборки из многомерных нормальных совокупностей и классификация проводится по одному из правил для много- многомерных нормальных распределений. Сравнения этой реко- рекомендации с изложенным в предыдущем пункте подходом с Т-нормальными распределениями не проводилось. Одна- Однако последний нам кажется более логичным. 3.2.3. Прямое оценивание отношения правдоподобия. Час- Часто аналитический вид плотностей f} неизвестен, но известен с точностью до неизвестных параметров аналитический вид отношения правдоподобия. Так, в частности, будет, если в модели Фишера каждое из наблюдений обучающей выбор- выборки удаляется или остается в выборке независимо от других наблюдений с вероятностью, зависящей только от значения X. В этом частном случае /, (X) = g(X)-y(X, Mi, 2) (/ = 1, 2), C.12)' где ф — плотность многомерного нормального закона; g (X) — некоторая неизвестная положительная функция, вообще говоря, зависящая от яу, М}, 2. Несмотря на то что C.12) может заметно отличаться от плотности нормаль- нормального закона, отношение правдоподобия по-прежнему ос- остается линейной функцией X: C.13) Условная вероятность гипотезы Ни когда дано наблюде- наблюдение X, легко выражается через h (X): Уп}Ь (X) Wl + J^ = A + exp {In (щ/щ) + h (X)})-1 ^ p (X). C.14) 121
В частном случае, когда h (X) — линейная, как в C.13), функция от X /3(Х) = (] + ехр{е<(" + Х'в})-1, C.15) где 0<О) = 0 + In (Jtj/ni). Функция, стоящая в правой части C.15), называется логистической. Предполагая, что имеет место C.15), можно воспользо- воспользоваться соотношением C.14) для того, чтобы найти неизвест- неизвестные параметры 6<°> и в. Для этого воспользуемся методом условного максимального правдоподобия: (в, ?((VargsuplnL({^H6, 0'", {Xk}), C.16) в,в @) где L = Ylp2-yHXk, в, е<")A-р(Хь, в, 1 При условии, что имеет место модель Фишера, метод ус- условного максимального правдоподобия использует не всю информацию, содержащуюся в обучающей выборке. Однако, как показывает теоретическое исследование [220J, проигрыш. в эффективности для близких совокупностей незначителен. В случае, если на обучающей выборке совокупности мо- могут быть отделены друг от друга некоторой плоскостью, мак- максимальное значение In L равно бесконечности и решение уравнения C.16) не единственно. Тогда надо просто найти соответствующую плоскость, например с помощью метода потенциальных функций (см. п. 1.3.3). Рекомендации, как действовать в случаях, когда при некоторых значениях ар- аргумента In L-*- оо, можно найти в [175]. 3.2.4. Непараметрическое оценивание отношения правдо- правдоподобия. Наиболее известен здесь метод «^-ближайших со- соседей», предложенный в работе [225]. Он состоит в следую- следующем: 1) в пространстве наблюдений вводится расстояние меж- между произвольными точками р (Хи Х2); 2) в зависимости от объема обучающей выборки п и пред- предположений о гладкости плотностей распределения класси- классифицируемых совокупностей выбирается нечетное k; 3) вокруг классифицируемой точки Z строится сфера Oft (Z) наименьшего радиуса р, содержащая не менее k то- точек из обучающей последовательности; 4) точка Z относится к той совокупности, к которой при- принадлежит большинство точек из обучающей выборки, по- попавших в 0^ (Z). Конечно^ вместо сфер можно было бы брать области бо- более общего вида. Например, фиксировать какую-либо 122
окрестность нуля (J ограниченного диаметра и рассматри- рассматривать системы окрестностей вида Up (Z) — {X : Z — X = = rV, где V 6 ?/ и г < р}, р — произвольное положитель- положительное число. Некоторые теоретические вопросы, связанные с изло- изложенным методом, обсуждаются в [108]. 3.2.5. Локальная линейная аппроксимация отношения правдоподобия. В [12, п. 10.1.4 и§ 10.2] видим, что в регрес- регрессионных задачах эффективным оказывается использование локальных параметрических описаний регрессии. По срав- сравнению с традиционным непараметрическим подходом оно в меньшей степени зависит от особенностей обучающих выбо- выборок и позволяет получить более полное описание регрессион- регрессионной поверхности. Аналогично и в задаче классификации. Пусть Хо — произвольная точка, тогда правдоподобно, что в достаточно широкой ее окрестности О (Хо) прибли- приближенно выполняется соотношение **.(*>« е+в'(х-*о). C.17) Оценка параметров этой модели на Xt ? О (Хо) позволяет не только провести классификацию нового наблюдения в точке X = Хо по значениям 9, Э и отношению я2/я1? где яу — доля наблюдений в обучающей выборке из ;-й сово- совокупности в окрестности О (Хо), но и получить описание от- отношения правдоподобия в окрестности Хо. 3.3. Сводка рекомендаций по линейному дискриминантному анализу Линейным дискриминантным анализом (ЛДА) называют совокупность алгоритмов, связанных с общей моделью Фишера (см. п. 1.1.2) и некоторыми ее обобщениями, сохра- сохраняющими общий линейный (по X) вид решающего правила A.12), B.15), п. 2.4.3, C.15). 3.3.1. Проверка базовых предположений. Заметим сначала, что выраженная негауссовость одномерных распределений xW (k—l, ..., р) при гипотезах Hj (j -= 1, 2) (например, дискретность распределений) обычно не рассматривается в качестве серьезной помехи к применению линейной дис- криминантной функции (ЛДФ). Более важны другие свой- свойства модели: существование постоянных аг, таких, чтобы /х (*<'> + аг) » /2 (х<1)) и fj были бы примерно симметрич- симметричны. Или даже просто выполнение условий Е (xir>\ Нг) Ф Ф Е (*<«>| Н2) и D (х«>| Нг) « D (х«>| Яг). 123
Описанный в п. 3.1.1 визуально-графический метод дает комплексную проверку условий применимости ЛДА. Если распределения ни одного из классов не распадаются на от- отдельные кластеры, то можно попытаться добиться больше- большего совпадения с моделью Фишера с помощью параметричес- параметрического преобразования координат [11, п. 10.3.4] или перехода к Т-нормальным распределениям (см. пп. 1.1.5 и 3.2.1). 3.3.2. Гипотеза о простой структуре зависимостей между признаками. Примеры распределений с простой структу- структурой связей даны в пп. 1.1.2 и 1.1.5. Независимость приз- признаков, наличие ДСЗ или R (к) позволяют путем использо- использования оценок S~\ учитывающих структуру зависимостей, заметно уменьшить ООК(см. § 2.3). Кроме того, в этом слу- случае отбор информативных признаков носит неитеративный характер и всегда можно сказать, почему включен или не включен в число отобранных тот или иной признак (см. п. 1.4.1). Метод проверки гипотезы о наличии ДСЗ описан в п. 3.1.4. Эту проверку целесообразно проводить всегда. 3.3.3. Методы выделения информативных комбинаций ко- координат. Линейные комбинации — это главные компоненты общей ковариационной матрицы данных или главные ком- компоненты, связанные с ковариационной матрицей одного из классов (см. п. 3.1.2). Последние легче интерпретировать, так как в них направления компонент статистически не за- зависят от средних второй совокупности. Иногда бывает целе- целесообразным выделить, исходя из содержательных соображе- соображений, подгруппу X(i) координат, направленных на оценку только одного прямо не измеримого свойства объекта, и спроектировать Х<г) на направление первой главной ком- компоненты этой подгруппы для наибольшего класса. Обозна- Обозначим проекцию z(i). Замена ХA) на z(i) позволяет сущест- существенно сократить размерность пространства переменных, учи- учитываемых в асимптотических формулах § 2.3. 3.3.4. Методы вычислений. Если min п.; ^> р, то в случае, /=1,2 когда распределения X близки к многомерным нормальным законам, можно использовать подстановочный алгоритм (см. п. 2.1.1), в остальных случаях лучше подгонять логи- логистическую функцию (см. п. 3.2.3), как менее зависящую от гауссовости распределений. В случае min nj ~ p, когда /==1.2 нельзя сделать упрощающих предположений о зависимо- зависимости координат (см. 3.3.2), целесообразно для уменьшения 00 К использовать регуляризованные оценки S (см. § 2.4). 3.3.5. Альтернативные алгоритмы. Если исходные предпо- предположения ЛДА не выполняются (см. п. 3.3.1) и их выполне- 124
ния нельзя добиться преобразованием координат или пере- переходом к Т-нормальному варианту модели Фишера (п.3.2.1), можно рекомендовать либо малопараметрические пред- представления распределений в виде смесей (см. п. 1.1.3), либо использовать непараметрические методы пп.3.2.2 и 3.2.4. 3.3.6. Другие вопросы. В случае, когда предположения о простой структуре зависимостей не верны, отбор информа- информативных переменных проводится с помощью общего подхода, изложенного в п. 1.4.3. Полученный результат контроли- контролируется при этом обычно с помощью оценки расстояния Ма- халанобиса (см. п. 3.4.3) и с учетом эффектов, описанных в §2.5. В случае, когда есть подозрение, что некоторые наблю- наблюдения в обучающей выборке (Хь yt) могут быть определены с ошибкой (засоренные выборки), надо использовать устойчи- устойчивые оценки параметров распределений, как это рекоменду- рекомендуется в п. 3.1.3. 3.4. Оценка качества дискриминации Как сказано в § 2.1, оценка качества построенного пра- правила классификации является завершающей операцией ДА. Выбор конкретных показателей и методов их оценивания зависит от целей построения правила классификации, от начальных предположений и степени уверенности в них, от выбранного алгоритма и, наконец, от доступного програм- программного обеспечения. 3.4.1. Показатели качества разделения. В табл. 3.1 дана сводка основных показателей качества дискриминации, там же указано, где в книге можно найти соответствующие раз- разделы. Средняя ошибка входит в две группы показателей A.2 и 2.1). Показатели A.3 и 3.1) так же связаны друг с дру- другом. Их сопоставление может быть использовано для прямой проверки применимости модели Фишера. Особое место за- занимают показатели, требующие численной оценки отноше- отношения правдоподобия в каждой точке выборочного простран- пространства B.2 и 3.2). Если умеем его оценивать, то «первичная» оценка расстояния Бхатачария по обучающей выборке мо- может выглядеть, например, следующим образом: /\ 125
Таблица 3.1 №n/n 1 2 3 Класс показателей Ошибка классифи- классификации Функция потерь Расстояние между распреде- распределениями Показатели 1.1. Минимаксная ошиб- ошибка 1.2. Средняя ошибка 1.3. Кривая «чувстви- «чувствительность — специфич- специфичность» и расчетные зна- значения d 2.1. Средняя ошибка 2 2 То же, но с взве- взвешенным учетом проме- промежуточных значений от- отношения правдоподобия 3 1. Расстояние Махала- нобиса d2 3.2. Расстояния, опреде- определяемые через отношение правдоподобия Где описаны п. 1.2.4, ф-ла A.40) п. 1.1.4, ф-ла A.31) п. 1.2.2 п. 1.1.4, ф-ла A.31') п. 1.1.4 п. 1.2 4, ф-ла A.39) п 1.2 4, ф-лы A 42) я A.43) Смысл слова «первичная» будет ясен из материала сле- следующего пункта. 3.4.2. Методы оценивания. Хорошо известно, что если при- применить построенное правило классификации к обучающей выборке, то оценка качества классификации будет в среднем завышена по сравнению с той же оценкой качества по не за- зависимым от обучения данным. Это означает, что регистри- регистрируемые на обучающей выборке значения ошибок и функции потерь будут ниже ожидаемых, а значения расстояний— больше. Укажем основные приемы борьбы с этим завыше- завышением качества. Разбиение имеющихся данных на две части: обучающую и экзаменующую выборки. Это самый простой и убедительный метод. Им следует широко пользоваться, если данных до- достаточно. Тем более что, если разбиение данных произведе- произведено по какому-либо моменту времени, метод позволяет оце- оценивать качество правила, построенного по прошлым данным, в применении к сегодняшним данным. С чисто статистиче- статистической точки зрения метод разбиения данных на две части расточителен. Поэтому предложен ряд других, более слож- сложных методов, которые полнее используют выборочную ин- информацию. Метод скользящего экзамена. При этом методе одно из наблюдений отделяется от выборки и рассматривается в ка- 126
честве экзаменующего наблюдения. По оставшимся п — 1 наблюдениям строится правило классификации, которое применяется к выделенному наблюдению. Результат при- применения регистрируется и оценивается. Наблюдение возв- возвращается в выборку, выделяется следующее наблюдение и т. д. Процесс прекращается через п шагов, когда будет перебрана вся выборка. Последовательные оценки, получае- получаемые с помощью скользящего экзамена, несмещены, однако зависимы между собой. Существенная особенность метода— л-кратное построение правила классификации. В случае непараметрических оценок пп. 3.2.2 и 3.2.4 это сделать лег- легко — достаточно просто не включать выделенное наблюде- наблюдение в суммы в формулах C.10), C.11) или не учитывать его в окрестности О (X). В случае использования линейной дискриминантной функции, оцениваемой через Хи Х2, S, при коррекции S используется формула Бартлетта для обратных симметричных матриц А \C 18 I * L" A-1K ' которая существенно упрощает расчеты. В общем случае, особенно при отборе переменных, метод скользящего экза- экзамена слишком трудоемок. Использование обучающей выборки в качестве экзаме- экзаменационной с последующей поправкой на смещение. Идея метода достаточно проста. Пусть оценивается некоторый параметр г. Обозначим его оценку на обучающей выборке гоб и оценку на новой выборке гэкз. Пусть далее А = — Е (гэкз — гоб), а А — некоторая оценка А. Тогда ?=?об+А. C.19) Предложены различные способы оценки А: аналитические, опирающиеся на предельные соотношения гл. 2, и эмпири- эмпирические, использующие специальные вычислительные про- процедуры. Оба подхода описываются ниже. 3.4.3. Аналитические поправки. Они наиболее просты в вы- вычислительном плане, но существенно опираются на мате- математические предположения проверяемых моделей. Поэтому их следует рассматривать только в качестве первых при- приближений. Поправка для оценки расстояния Махаланобиса в модели Фишера. Пусть DS-^-X^'S-MXj-X,). C.20) 127
Оценка D2 смещена. Несмещенная оценка расстояния Ма- халанобиса [264] C.21) Поправка для 00К- На основании теоретического рас- рассмотрения модели Фишера и ряда результатов моделирова- моделирования с различными алгоритмами РаудисШ. [132] рекомендует при конструировании поправки использовать параметр х (см. гл. 2); если х< 1,5и ац — оценка ошибки классифи- классификации, полученная на обучающей выборке, то а — оценка ООК может быть приближенно оценена с помощью a = xa-a*. C.22) 3.4.4. Метод статистического моделирования (bootstrap method). Предложен В. Эфроном [219]. В нем рекоменду- рекомендуется принять обучающую выборку за генеральную совокуп- совокупность. Из нее производить повторные по параметру i набо- наборы обучающих и экзаменующих выборок и для каждой i-й пары выборок оценивать разность Аг = ггэкз— rii06. Среднее арифметическое А, принимается за А. Далее нс- пользуется формула C.19). 3.5. Рекомендации для к~^Ъ классов Условимся говорить, что объем (обучающей) выборки до- достаточен, если min п} > р\ объем выборки относительно ограничен, если min щ ~ р. Знаки ^> (много больше) и ~ (одного порядка) здесь надо трактовать с учетом геометрии расположения классов: при пересечении центральных час- частей распределений X в разных классах наблюдений должно быть больше, а при упорядоченности центральных частей распределений вдоль какой-либо гладкой кривой — мень- меньше. В первом случае выборочные оценки параметров рас- распределений при аналитических предположениях о форме распределений (см. п. 3.2.1) и прямые описания распреде- распределений при использовании полупараметрических и непара- непараметрических методов (см. пп. 1.3.2 и 3.2.2) дают довольно хорошие совпадения реальных распределений и их оценок, поэтому в этом случае полностью можно использовать мате- материал п. 1.5. 128
Во втором случае, когда объем выборки относительно ог- ограничен, надо использовать упрощающие предположения, но только такие, которые не выводят за рамки распределе- распределений. В частности, следует опасаться использовать попра- поправочные члены, возникающие из предельных теорем в тра- традиционной асимптотике теории вероятностей, хотя такие предложения порой и вносятся [184]. Описываемые ниже предположения упорядочены по степени ограничений, на- накладываемых на распределения в классах: сначала идут на- наиболее сильные предположения, затем они ослабляются. Конечно, полной упорядоченности достичь не удается, так как ограничения существенно не одномерны. Независимость одномерных распределении координат в классах. Это предположение довольно часто и успешно ис- использовалось при диагностике в случае большого числа классов. Но сегодня его следует заменить на более реалистическое предположение, что переменные в классах имеют древооб- древообразную структуру зависимостей (см. пп. 1.2.2, 1.1.5, 2.3.3). При этом в случае предположений о нормальных распре- распределениях в классах можно требовать совпадения соответст- соответствующих ковариационных или (что не то же самое) корреля- корреляционных матриц или вообще ограничиться требованием, что- чтобы одинаковым в классах был только граф структуры зави- зависимостей [12, § 4.2—4.3], а ковариационные матрицы раз- различны. Наконец, можно потребовать равенства ковариаци- ковариационных матриц, не предполагая ДСЗ. Предположения о средних: 1) средние лежат в простран- пространстве первых главных компонент одного из классов (см. п. 3.1.2); 2) средние классов лежат на прямой; 3) классы могут быть упорядочены (см. п. 1.5.3). ВЫВОДЫ 1. Предварительный анализ данных — один из наиболее ответственных этапов дискриминантного анализа. При его проведении следует различать условия, при которых конк- конкретное правило классификации выводится, и условия, при которых оно применяется. Так, теоретическим основанием для линейной дискриминантной функции служит модель Фишера, применяется же ЛДФ в значительно более широких условиях. 2. Основные методы ДА основаны на параметрических, по- полупараметрических и непараметрических оценках плотно- 5 Заказ № 291 129
стей распределений или на непосредственной оценке отно- отношения правдоподобия. 3 В настоящее время еще не решена задача создания едино- единого дерева рекомендаций по проведению ДА, полностью ис- исключающего субъективный фактор. Поэтому рекомендации приходится группировать по разделам: проверка базовых предположений, упрощающих условий, методы вычисле- вычислений, альтернативные решения и т.п. с неформализованным выбором между альтернативами. 4. Оценки качества конкретного правила классификации проводятся либо на новой выборке, либо на обучающей вы- выборке Первый метод дорог, но наиболее убедителен. Во втором случае, чтобы избежать искусственного улучшения результатов, либо к параметру качества, оцененному пу- путем реклассификации обучающей выборки, применяется по- поправка, полученная аналитически или с помощью метода математического моделирования, либо используется метод скользящего экзамена. Последний состоит в том, что одно из наблюдений исключается из выборки, по оставшимся стро- строится правило классификации, которое применяется к пер- первому наблюдению, затем первое наблюдение возвращается в выборку и исключается второе, по оставшимся наблюде- наблюдениям строится новое правило классификации и применяется ко второму выделенному и так далее до тех пор, пока не бу- будут по очереди классифицированы все наблюдения. По итогам классификации строится оценка качества. Глава 4. ПРИМЕНЕНИЯ ДИСКРИМИНАНТНОГО АНАЛИЗА Статистические методы классификации применяются при распознавании сигналов, диагностике состояний сложных технических систем и человека, а также при прогнозирова- прогнозировании будущих отказов, неисправностей, заболеваний. Ис- Использование статистических методов для решения принци- принципиально новых для конкретной области знания задач всегда носит творческий характер и часто требует приспособления и развития соответствующего математического аппарата. Поэтому при изложении материала большое внимание уде- уделяется как методическим особенностям применения опи- описанных в предшествующих главах методов, так и изложе- изложению математического инструментария, направленного на решение тех же задач, что и классификация, с обязатель- обязательным указанием связи между методами. 130
4.1. Группы риска и сравнительные испытания 4.1.1. Группы риска. Пусть группа объектов периодически подвергается осмотру с целью обнаружения неисправных объектов, а также выделения объектов, которые исправны в момент осмотра, но могут выйти из строя до следующего ос- осмотра Для решения поставленной задачи, если, конечно, нет прямых надежных индикаторов возникновения в буду- будущем неисправности, можно воспользоваться методом статис- статистической классификации. Пусть X — результат осмотра ис- исправного объекта. Тогда на основании значения X можно попытаться принять одно из двух решений (гипотез): Нх— «объект останется исправным до следующего осмотра» или Нг — «объект выйдет из строя до следующего осмотра». Ес- Если условные распределения Р (X | Ht) и Р (X | Н2) основа- основательно пересекаются, а это типичный случай, то ошибки классификации (см. § 1 2) будут высокими и такой подход индивидуального предсказания судьбы объекта малопродук- малопродуктивен. Вместе с тем можно оценить Р {Н2 \ X) и тем самым отнести соответствующий объект к одной из групп риска Н2. Такой прогноз, в отличие от первого, иногда называют груп- групповым (не путать с групповой классификацией). Оба метода прогноза почти не отличаются по используемому математи- математическому аппарату, различны лишь формы представления результатов (см. § 1.2). Однако с точки зрения приложения они принципиально различны. Нечетким предсказанием ин- индивидуальной судьбы объекта (в терминах Нх и Н2) восполь- воспользоваться трудно. В то же время указание группы риска весьма информативно. В самом деле, если есть ограниченный дополнительный ресурс для более полного обследования объ- объектов, то его, видимо, целесообразно применить к объектам, принадлежащим к группам более высокого риска. Так, на- например, поступают при диспансеризации населения. При лечении профилактические средства с заметным побочным действием также стоит давать только тем больным, у кото- которых ожидаемый основной эффект лекарства будет выше ожи- ожидаемого ущерба от побочных действий, т. е. и здесь учет Р {#2 | X} крайне существен В разобранной выше задаче лишь немного отклонились от традиционной формы представления результатов и сразу же получили очень интересные варианты практического ис- использования ДА. 4.1.2. Индикаторы и факторы риска. Предположим, что в разобранной в предыдущем пункте задаче хотим найти ком- компоненты X, наиболее тесно связанные с осуществлением события Нг. С помощью описанных в предыдущих главах 5* 131
методов (см. § 1.4, 2.5) можем выделить группу переменных X = (x<li), ...,xilh))', такую, что сила прогноза при расши- расширении набора Л до исходного X на имеющемся в распоряже- распоряжении материале статистически значимо не увеличивается. Переменные, входящие в X, называют риск-индикаторами Н2. При этом в слове индикатор выделяются два смысловых оттенка: 1) на индикатор не всегда можно воздействовать, например, как на возраст объекта и 2) индикатор не обяза- обязательно причинно обусловливает возникновение Нг. Он, на- например, может быть только связан с внутренним механиз- механизмом, порождающим Нг. Перевод части индикаторов в факторы риска. Предполо- Предположим, что можно воздействовать на часть риск-индикаторов, например x(li\ ..., л:('т) (т <; k), изменяя их значение на новые Лн'1', ..., хп т , в то время как остальные риск-индика- риск-индикаторы остаются без изменения. Обозначим X,,H вектор риск- индикаторов для i-ro объекта после изменения. Если после различных воздействий частота события Нг останется сопо- сопоставимой с 1>Р {Н2 | Х?тН}/2 1, где условная вероятность подсчитывается по установленным ранее для X формулам и профессиональный анализ показывает, что переменные *<'»>, ..., л:('т) можно рассматривать как непосредственные состав- составляющие механизма возникновения Н2, то эти переменные называют риск-факторами Нг. На этом пути были, в част- частности, установлены риск-факторы развития ишемической болезни сердца, послужившие основой развертывания широ- широкой программы профилактики сердечно-сосудистых заболе- заболеваний [277, 322]. 4.1.3. Сравнительные испытания. Предположим, что к опи- описанным в п.4.1.1 объектам, признанным исправными при осмотре, применяются определенные воздействия с целью предотвратить их выход из строя за определенный промежу- промежуток времени. Для того чтобы эмпирически отобрать наибо- наиболее эффективное воздействие, проводятся так называемые сравнительные испытания. В простейшем случае они за- заключаются в следующем. Пусть требуется сравнить два воз- воздействия: А — старое и В — новое. Из объектов образуют- образуются две по возможности близкие по свойствам {Хг} группы: О — основная и К,— контрольная. К объектам основной группы применяется воздействие В, а к объектам контроль- контрольной группы — воздействие А. Об эффективности воздейст- воздействий судят по альтернативному признаку: остался ли объ- объект исправным (событие Нх) или вышел из строя (собы- 132
тие Нг). Вопросам формирования сравниваемых групп посвя- посвящена обширная статистическая литература [85, 102]. Тем не менее добиться полного сходства групп даже при умерен- умеренной размерности X удается редко. Это обстоятельство меша- мешает интерпретации результатов испытаний, поскольку априо- априори известно, что Р{Нг\Х) зависит от X. В случае, когда заранее известны риск-группы при ста- старом воздействии А, поправку на неоднородность основной и контрольной i рупп сделать не трудно. Для этого достато- достаточно оценить разность ) D.1) и далее проверять гипотезу, что Но P{Ht\B, Х?О) = Р{Нг\А, Хе/С} + 8. D2) Частным, но практически важным случаем «испытаний» является анализ эффективности разных воздействий на рет- ретроспективных данных Возможность такого анализа обус- обусловлена тем, что четкие однозначные правила назначения воздействия в зависимости от X обычно или отсутствуют, или в силу разных причин не соблюдаются и поэтому в бан- банках данных накапливается довольно обширная информация о различных сочетаниях нар (X, воздействие) и соответст- соответствующих исходах. Многочисленные примеры проведенных исследований показывают, что на основании априорных про- профессиональных соображений исследователь может разде- разделить объекты на относительно однородные группы риска — страгы и проводить анализ эффективности внутри соот- соответствующих групп [85, 1791 Видимо, целесообразно вклю- включать проведение подобного анализа в качестве специальной задачи информационных технологических систем с целью автоматизированного подбора гипотез для дальнейшего их анализа исследователем. В случае, когда риск-группы априори не известны и не могут быть убедительно назначены исследователем, прихо- приходится рассматривать полную математическую модель ситу- ситуации. Простейшая модель влияния X и воздействия V 6 {А,В} на условную вероятность Н2 имеет вид: Р{Н2\Х, V}-A+ ехр{е<"> + в' X + q(V)})~\ D.3) где q (А) = — q (В) = q, 8<0), в — неизвестные парамет- параметры. Проверяемая в испытании гипотеза заключается в том, что эффект сравниваемых воздействий тождествен, т. е. что H0:q = 0. D.4) 133
Очевидно, при q <z О более эффективно новое воздействие, а при q > О — старое. Предположения D.3) и D.4) надо до- дополнить предположениями, что при заданных X и V резуль- результаты испытаний независимы и что распределения X в основ- основной и контрольной группах независимы между собой, и за- задать эти распределения. Например, положив, что в основной группе X?N(M0, 2), D.5) а в контрольной X?N(MK, 2), D.6) где Мо, М/с, 2 — неизвестные параметры, причем det 2 Базовые предположения D.3) —¦ D.6) погрузим в одну из асимптотик: традиционную или растущей размерности (см. п.2.2.1). Можно также пополнить модель упрощающими предположениями о взаимной близости векторов Мо и к и о структуре S. Сводку практических рекомендаций по методам интер- интерпретации результатов сравнительных испытаний с учетом возможного несовпадения распределений в контрольной и основной группах можно найти в [179]. 4.2. Методы описания риска развития события 4.2.1. Мгновенный риск и факторизация Кокса. В предыду- предыдущем параграфе для описания вероятности возникновения неисправности за время от одного осмотра до другого ис- использовалось понятие риск-группы. Но для той же цели можно использовать понятие мгновенного риска (или про- просто риска) г (f) = lim 6rlP {объект неисправен в t+ 4- Д| объект исправен в t}. D.7) Риск и вероятность события Н = {появление неисправно- неисправности за интервал s <C t <C s + Т} связаны соотношением s + T Р{Н | объект исправен до s} == 1 —ехр { — J r(t) dt}. D.8) s По аналогии с D.7) можно ввести условный риск в момент t при условии, что в момент осмотра s <z t объект имел век- вектор показателей X(s) r (t \ X (s)) = lim Д-1 Р {неиспра- д-*о вен в / + А| исправен в t, X (s)}. J34
Понятие условного риска — более тонкий инструмент для описания закономерностей возникновения неисправно- неисправности, чем Р{Нг | X (s)} — понятие условной вероятности. Однако г (t \ X (s)), вообще говоря, требует для своей оцен- оценки заметно большего числа наблюдении. С целью частичного преодоления этой трудности в 1972 г. Д. Кокс [206] предложил факторизовать г (t \ X (s)) путем представления D.9) или r(t\X(s)) = 8(X(s)).h(ts), D.9'} где h (t) в D.9) — функция «возраста» объекта, а в D.9')— функция времени, прошедшего после осмотра; g (...) — функция изучаемых признаков. В зависимости от сооб- соображений предметной области выбирается одна из указанных моделей. Поскольку обе модели трактуются одинаково, в дальнейшем будет рассмотрена только первая из них. При предположении, что g (X) = / (X, в), где / — из- известная функция, а в — вектор неизвестных параметров, факторизация D.9) позволяет оценивать g (X) независимо от функции h. Для этого на шкалу возраста наносятся точки ttl<z ...<z tu, соответствующие возрасту ij объек- объекта в момент наступления неисправности, и для каждой точки tt выписывается Р {i \ tt} — условная вероятность, что среди всех объектов возраста t, в исследовании неис- неисправность наступит только у /-го объекта при условии, что она действительно наступила у объекта возраста tt где суммирование проводится по всем объектам /, в возрас- возрасте tt находившимся в исследовании. Полученные вероятно- вероятности объединяются в общую функцию условного правдоподо- правдоподобия lnL= 2 In Параметры в оцениваются из условия максимиза- максимизации lnL. Наиболее часто используется функция g (X) — = ехр {в'Х}. Процедуры оценки в входят во многие стати- статистические пакеты. Асимптотические свойства в изучены по- пока только в традиционной асимптотике. 4.2.2. Связь между риском и линейной дискримииаитиой функцией. Формула D.8) показывает, что всегда возможен 135
переход от риска события (возникновение неисправности) к вероятности его осуществления за заданный промежуток времени. Проанализируем с эюй точки зрения риск r(t, X) = g(X)h(t) = exp{&' X}.exp{e0J-ef}. D11) Эта формула важна для медицинских приложений, так как h (t) = exp {e0 + еОдостаточно хорошо описывает средний риск кардиоваскулярной смерти для лиц старше 30 лет, а g (X) = exp {в'Х} — наиболее часто используемое предпо- предположение о g (X). Пусть Ни — как прежде, гипотеза, что неисправность не наступила. Если объект был обследован в возрасте s, имел при этом вектор показателей X и пробыл в исследовании Т лет, то -| r(X,t)dt\ = \п((ехр{еТ}—\)/е)}}. D.12) С другой стороны, в классической модели Фишера дискри- минантного анализа для описания той же вероятности ис- используется логистическая функция, в которой s — возраст объекта — в момент обследования рассматривается в каче- качестве одной из переменных Р{Я,|Х. s}=(l-bexp{-ci.»)-Ci.X-4''+1>s}ri. D-13) Формулы D.12) и D.13) похожи в том смысле, что в обеих в качестве аргумента используются линейные комбинации ко- координат X и s, но они различны аналитически. Если положить с[0> = — @,3665+е0 + In ((exp {eT}—1) le) у1; cf = - e<oy-i (i = 1 р); <#+1) = - еу~\ to для у « 0,80ч-0,90 оба выражения для вероятности чис- численно близки. Это видно из табл. 4.1, в которой приведены значения функций A + ехр{ — х})-1 и ехр{ —ехр{ —у#— 0,3665}} для у^= = 0,80 -г- 0,95. Это позволяет связать оба метода и, в частности, использо- использовать оценки, полученные с помощью дискриминантного ана- анализа, в качестве первого приближения в итеративных про- процедурах оценки г (X, t). При работе с риском события информация, содержащаяся в исходных данных, используется более полно, чем при ра- работе с вероятностью осуществления события за время Т, 136
Таблица 4.1 X 0 0,5 1,0 1,25 1,50 1,75 2,0 2,25 2,5 3,0 3,5 4,0 С h +ехр{-л.)Г ' 0,5000 0,6225 0,7311 0,7773 0,8176 0,8520 0,8808 0,9047 0.9241 0,9526 0,9707 0 9820 exp (—ехр {-ух— 0,366г)>> у — 0,80 0,5000 0,6284 0,7324 0,7749 0,8116 0,8429 0,8694 0,8917 0,9105 0 9391 0.9587 0.9721 V = 0,85 0,5000 0,6356 0,7436 0,7870 0,8239 0,8550 0,8811 0,9027 0.9205 0,9473 0,9652 0,9771 у- 0 У0 0,5000 0,6428 0,7544 0,7985 0,8355 0,8663 0,8917 0,9126 0,9295 0,9545 0,9707 0,9812 у = 0,95 0,5000 0,6498 0,7649 0,8095 0,8464 0,8768 0,4015 0,9215 0,4376 0,4607 0,9754 0,9846 описывается ли она формулой D.12) или D.13) Если в фак- факторизации D.9) g (X) ограничено снизу, a h (t) не убывает с ростом t, то при Т-э-оо «разрешающая» сила любого метода ДА стремится к нулю, поскольку все объекты становятся случаями При использовании функций риска это не страш- страшно, так как при оценке параметров используется информа- информация о том, когда объекты становятся случаями. 4.2,3. Измерение динамики силы влияния факторов. Рстест- венно думать, что влияние того или иного фактора или груп- группы факторов различно в ближайшем и отдаленном периодах. Несмотря на высокую практическую важность количест- количественного изучения динамики силы фактора или интенсивно- интенсивности событий, строго документированные сведения в ряде об- областей знания практически отсутствуют. Немалую роль в этом сыграло отсутствие до последнего времени подходящего математического аппарата, позволяющего проводить ис- исследование при сравнительно умеренных затратах. В [271] показано, что повышенное систолическое арте- артериальное давание у мужчины в возрасте 45—60 лет весьма информативно в отношении коронарной смерти в ближай- ближайшие 20 месяцев, что со временем информативность падает и что она весьма мала через 90 месяцев после первоначаль- первоначального измерения. Ниже приводятся результаты этой работы с целью демонстрации возможностей, открываемых соответст- соответствующим математическим аппаратом. Пусть s — возраст в момент включения субъекта в ис- исследование, когда проводилось начальное измерение систо- систолического артериального давления, х — величина систоли- систолического артериального давления (в мм Hg); Л1/4 и яз/4 — 137
нижний и верхний квартили распределения х; t — текущий возраст; г (t, s, х) — условный риск коронарной смерти для субъекта возраста t при условии, что в возрасте s он имел систолическое артериальное давление х. В исследовании ис- использованы данные из London Busmen Study, эпидемиоло- эпидемиологического исследования, направленного на выявление риск- <*- — — Доверительный интервал B стандартных отклонения) 0.1 10 20 30 40 50 60 70 80 90 100 110 120 Время, месяцы Рис. 4.1. Сила предсказания для двух математических моде- моделей [27IJ факторов, ведущих к развитию ишемической болезни серд- сердца. В исследование были включены 684 мужчины в возрасте от 39 до 65 лет. Здоровье каждого из них прослеживалось в течение десяти и более лет. За это время случилось 66 карди- оваскулярных смертей. Если бы имеющиеся данные были разделены на несколько групп согласно возрасту и величи- величине артериального давления, то численность наблюдений в каждой из получившихся групп была бы недостаточной для каких-либо выводов. Только комплексное использование всего материала на базе предположений о форме зависимо- 1Э8
сти риска смерти от х, s и t делает анализ возможным. В ка- качестве показателя прогностической силы использовано g=\oglO<r(t> s. X3/A)/r(t, S, Модельные предположения о г (t, s, х): ri(t, s, x) = exp{(a + «)(l-fr)-}-AW; D.14) r,{t. s, x) = exp{(a + cx)/[l-rbu)}-h(t), D.15) где a, b, с — неизвестные постоянные; и — t — s, a h (t) = = exp {eg + e*}, где е0 и ex — постоянные. Анализ можно бы- было бы провести и без конкретизации вида h (t), но при этом на 25 % возросла бы длина доверительных интервалов. На рис. 4 1 показатель прогностической силы, опреде- определенный в предположении D.14), обозначен g,, в предполо- предположении D.15) — g2. Как видим, качественного различия при использовании моделей D.14) и D.15) нет. Предсказующая сила убывает очень быстро, уменьшаясь в два раза к концу второго года. Общая математическая модель для изучения динамики влияния нескольких факторов строится [107] из геометриче- геометрических соображений модели Фишера классического дискрими- нантного анализа (см. § 2.3). Пусть t, s, X определены как выше, М — вектор средних, а 2 — ковариационная матри- матрица X, тогда r(t; s, X) = exp{(X—My где A - bj» ... 0 ....; «=/—s, в, ьх ьр— D.17) неизвестные параметры модели. Асимптотические свойства модели D.16) в асимптотике растущей размерности пока не исследованы. 4.3. Другие применения ДА 4.3.1. Распознавание сигналов. До сих пор рассматривали задачи, в которых ресурсы, используемые на выработку ре- решающего правила и на саму классификацию нового объекта, не учитывались. При распознавании сигналов картина, как правило, другая: и выработка решающего правила должна быть доступна используемому микропроцессору и классифи- классификация (идентификация) объекта должна произойти за конеч- 139 d(«) =
ное время (часто доли секунды). В качестве примера подоб- подобной задачи рассмотрим речевое общение с ЭВМ. Сначала диктор начитывает ЭВМ используемый им сло- словарный фонд (задает «эталоны»), а затем в ходе общения ма- машина должна правильно идентифицировать произносимые им слова и принимать соответствующие, заранее предусмот- предусмотренные действия. В работе [1441 образ слова в ЭВМ состоит из (/х/?)-мат- рицы чисел, столбцы которой соответствуют полосам частот в диапазоне от 200 до 5000 Гц и их число фиксировано, стро- строки — последовательным отсчетам времени через 5—15 мил- миллисекунд и их число зависит от длительности произнесения слова, а элементы соответствуют спектральной плотности сигнала на выходе фильтра соответствующей полосы, оце- оцененной за соответствующий интервал времени, и отдельно числа п, показывающею, сколько пересечений нулевого уровня сделано сигналом при произнесении слова. На повторное произнесение одного и того же слова дик- диктор, вообще говоря, тратит разное время. Поэтому при иден- идентификации слов обязательно производится выравнивание времен так, чтобы допустить небольшие колебания в дли- длительности произношения отдельных звуков. Отложим по оси абсцисс точки i - 1, ..., т., соответствую- соответствующие последовательным отсчетам первого слова, а по оси ор- ординат— точки / - 1, ..., п, соответствующие отсчетам второго. Рассмотрим далее прямоугольник с вершинами A, 1), A, п), (т, п), (/л, 1) (рис. 4.2). Точки прямоугольника с целочисленными координатами назовем узлами. Каждой ломаной, выходящей из узла A,1) и идущей в узел (т, п) по правилу, что из узла (k, l) ломаная может попасть только в один из узлов (k + 1, /), (к + 1, / + 1), (k, I + 1), соответ- соответствует вариант сопоставления последовательных отсчетов двух слов. Ограничения на колебания длительности произ- произнесения отдельных звуков можно задать в виде прямых, па- параллельных диагонали прямоугольника. Расстояние между двумя словами берется как минимум по разрешенным колебаниям суммы (по столбцам и строкам) квадратов разностей соответствующих элементов матриц, т. е. берется простейшее расстояние. Новое слово идентифи- идентифицируется с тем эталоном, к которому оно оказывается ближе. В настоящее время на распознавание одного слова при сло- словаре в 100—200 слов и одном дикторе коммерческие системы тратят до 1—2 с времени и обеспечивают среднюю правиль- правильность результатов опознания 98—99 %. Один из путей повышения надежности распознавания — это сопоставление с одним словом нескольких эталонов, как НО
эго предложено в п. 1.1.3. При этом возникает чисто статис- статистическая задача выделения Небольшого числа представи- представительных вариантов произнесения слова. 4.3.2. Групповая классификация. В технической и реже медицинскон диагностике иногда априори известно, что по- поступившая на диагностику партия из / объектов X — (X,, ..., X,) извлечена из одного из классов. При этом наб- наблюдения Xi W — 1, ..., /) при условии, что класс фиксиро- ш п ш о / / / У s / / у / у / у / у / / у / У У у ЭТАЛОН Рис. 4.2. Схема сопоставления координат двух вариантов произнесения одного н то- того же слова (эталон и образец): — траектория сопоставления (ТС); границы отклонения ТС ван, независимы между собой. Предположим сначала, что нам известны л} — априорные плотности классов и/7- (X) — плотности распределения X в классах / = 1, ..., к. Тогда байесовское правило классификации должно быть по анало- аналогии с A.66) следующим: принимается гипотеза Ht, если X 6 ? Ri, где Rt = |Х : у„ = S In (fi (Xm)lf3 (Xm))> - In <я,/я,) m*= 1 для всех j=?i\. D.18) Очевидно, что если исследователь не знает я} и f}, но может оценить их по выборочным данным, то целесообразно в D.18) заменить л} и f} на их оценки. Частный случай, когда f}$N (M,, S), изучен в работах [97, 98]. 141
выводы 1. Одним из основных инструментов применения статисти- статистических методов классификации является понятие условной вероятности попадания в один из классов при заданном наб- наблюдении Р {случай \Х) или, как принято говорить, поня- понятие группы риска. Оно позволяет эффективно выделять объ- объекты, требующие наибольшего внимания, и производить по- поправку на состав основной и контрольной групп при сравни- сравнительных испытаниях. 2. При предсказании будущих событий эффективно введе- введение понятия г (t, X) —¦ мгновенного риска (или интенсивно- интенсивности) стать случаем в момент t при условии, что объект с ха- характеристикой X оставался не-случаем до момента време- времени t (см. формулу D.7)). Для того чтобы уменьшить число наблюдений, необходимых для оценки г (t, X), и для более легкой интерпретации г (/, X), Д. Кокс предложил фактори- зовать риск на два сомножителя г (/, X) — g (X)- h{t) и оценивать параметры, входящие в g (X), независимо от функции h (t). В случае, когда g (X) — ехр {Х'Щ и h (/) = — ехр {е0 + et}, удается установить связь между подхо- подходом с использованием понятия мгновенного риска и подхо- подходом с условной вероятностью стать случаем, оцененной с по- помощью дискриминантного анализа. 3. Понятие мгновенного риска при надлежащей параметри- параметризации позволяет изучать динамику изменения (убывания) прогностической силы результатов прошлого обследования объекта с целью определения оптимального интервала меж- между периодическими обследованиями. 4. При распознавании сигналов часто используются про- простейшие классификационные правила, в которых каждый класс задается набором эталонов, а новый объект приписы- приписывается к тому классу, к одному из эталонов которого он ока- оказывается ближе. 5. Если априори известно, что поступившие на классифика- классификацию I наблюдений X = (Хх, ..., Xt) являются независимой выборкой из одного из классов, то общее правило класси- классификации строится исходя из плотностей = пыхи (/==1 щ.
Раздел II. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ: МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ (КЛАСТЕР-АНАЛИЗА) И РАСЩЕПЛЕНИЕ СМЕСЕЙ РАСПРЕДЕЛЕНИЙ В этом разделе описаны методы классификации объектов (индивидуумов,семей, предприятий, городов, стран,техни- стран,технических систем, признаков и т. д.) Ох, О2, ..., Оп в ситуа- ситуации, когда отсутствуют так называемые обучающие выбор- выборки, а исходная информация о классифицируемых объектах представлена либо в форме матрицы X «объект — свойство» ¦*, Aj ... Лп где л;''* —значение/-го признака на i-u статистически обсле- обследованном объекте (так что г'-й столбец этой матрицы X г = = (х[1), Х{2), ..., х1Р))' характеризует объект Oh т. е. пред- представляет результат его статистического обследования по всем р анализируемым переменным), либо в форме матрицы ft попарных взаимных расстояний (близостей) объектов 'Pll Pl2 ••• Pin' р =: | Pai Рп 1 Рп2 •¦• PnnJ где величина Pij характеризует взаимную отдаленность (или близость) объектов О, и Oj. Переход от формы исходных данных типа «объект — свойство» к форме матрицы попарных расстояний осуществ- осуществляется посредством задания способа вычисления расстоя- расстояния (близости) между парой объектов, когда известны коор- координаты (значения признаков) каждого из них (вопросам вы- выбора метрики в исследуемом признаковом пространстве по- посвящена гл. 11; см. также § 5.2, 7.6). Обратный переход — от формы записи исходных, данных в виде матрицы попарных расстояний (близостей) между объ- 143
ектами к форме, представленной матрицей «объект •— свой- свойство», осуществляется с помощью специального инструмен- инструментария многомерного статистического анализа, называемого многомерным метрическим шкалированием (см. гл 16). В зависимости от наличия и характера априорных сведе- сведений о природе искомых классов и от конечных прикладных целей исследования следует обратиться либо к гл. 6, где описаны методы расщепления смесей вероятностных распре- распределений, которые оказываются полезными в том случае, ког- когда каждый (/-и) класс интерпретируется как параметриче- параметрически заданная одномодальная генеральная совокупность fj (X; Qj) (/ — 1,2, ..., k) при неизвестном значении опреде- определяющею ее векторного значения параметра 9, и соответст- соответственно каждое из классифицируемых наблюдений Xi считает- считается извлеченным из одной из этих (но не известно, из какой именно) генеральных совокупностей; либо к гл. 7, где опи- описаны методы автоматической классификации (кластер-ана- (кластер-анализа) многомерных наблюдений, которыми исследователь вынужден пользоваться, когда не имеет оснований для па- параметрического представления искомых классов, а подчас даже просто для интерпретации классифицируемых наблюде- наблюдений в качестве выборки из какой-либо вероятностной гене- генеральной совокупности; либо, наконец, к гл. 8, в которой излагаются основные классификационные процедуры иерар- иерархического типа, используемые в ситуациях, когда «на выходе» исследователь хочет иметь не столько окончатель- окончательный вариант разбиения анализируемой совокупности объ- объектов на классы, сколько общее наглядное представление о стратификационной структуре этой совокупности (например, в виде специально устроенного графа — дендрограммы). Глава 5. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ, ИСПОЛЬЗУЕМЫЕ В МЕТОДАХ КЛАССИФИКАЦИИ БЕЗ ОБУЧЕНИЯ 5.1. Общая (нестрогая) постановка задачи классификации объектов или признаков в условиях отсутствия обучающих выборок Говоря о классификации совокупности объектов, подразу- подразумеваем, что каждый из них задан соответствующим столб- столбцом матрицы X либо геометрическая структура их попар- попарных расстояний (близостей) задана матрицей р. Аналогич- 144
но интерпретируется исходная информация в задаче класси- классификации совокупности признаков, с той лишь разницей, что каждый из признаков задается соответствующей строкой матрицы X. В дальнейшем, если это специально не оговоре- оговорено, не будем разделять изложение этой проблемы на «объ- «объекты» и «признаки», поскольку все постановки задач и ос- основная методологическая схема исследования здесь общие. В общей (нестрогой) постановке проблема классификации объектов заключается в том, чтобы всю анализируемую со- совокупность объектов О = {Ог} (L - 1, п), статистически представленную в виде матриц X или р, разбить на сравни- сравнительно небольшое число (заранее известное или нет) однород- однородных, в определенном смысле, групп или классов. Для формализации этой проблемы удобно интерпретиро- интерпретировать анализируемые объекты в качестве точек в соответст- соответствующем признаковом пространстве. Если исходные дан- данные представлены в форме матрицы (X), то эти точки явля- являются непосредственным геометрическим изображением мно- многомерных наблюдений Хъ Х2, ..., Хп в р-мерном простран- пространстве Пр (X) с координатными осями Ох*1*, 0х<2> 0х(р). Если же исходные данные представлены в форме матрицы попарных взаимных расстояний р, то исследователю не из- известны непосредственно координаты этих точек, но зато задана структура попарных расстояний (близостей) между объектами. Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность. Тогда проблема классификации состоит в разбиении анализируемой совокупности точек — наблюдений на сравнительно небольшое число (заранее известное или нет) классов таким образом, чтобы объекты, принадлежащие одному классу, находились бы на сравни- сравнительно небольших расстояниях друг от друга. Полученные в результате разбиения классы часто называют кластерами (таксонами, образами) 1, а методы их нахождения соответст- соответственно кластер-анализом, численной таксономией/ распоз- распознаванием образов с самообучением. Однако, берясь за решение задачи классификации, ис- исследователь с самого начала должен четко представлять, 1 Cluster (англ.)—гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством. Тахоп (англ.) — систематизированная группа любой категории (термин биологи- биологического происхождения). Название «кластер-анализ» для совокуп- совокупности методов решения задач такого типа было впервые введено, по-видимому, Трайоном в 1939 г. (см.: Tryon R. С. Cluster Analysis// Ann. Arb., Edw. Brothers. — 1939). 145
какую именно из двух задач он решает. Рассматривает ли он обычную задачу разбиения статистически обследованно- обследованного (р-мерного) диапазона изменения значений анализируе- анализируемых признаков на интервалы (гиперобласти) группирова- группирования, в результате решения которой исследуемая совокуп- совокупность объектов разбивается на некоторое число групп так, что объекты такой одной группы находятся друг от друга на сравнительно небольшом расстоянии (многомерный аналог задачи построения интервалов группирования при обработ- обработке одномерных наблюдений). Либо он пытается определить естественное расслоение исходных наблюдений на четко вы- выраженные кластеры, сгустки, лежащие друг от друга на не- некотором расстоянии, но не разбивающиеся на столь же уда- удаленные части. В вероятностной интерпретации (т. е. если ин- интерпретировать классифицируемые наблюдения Хъ Х2, ..., Хп как выборку из некоторой многомерной генеральной со- совокупности, описываемой функцией плотности или полиго- полигоном распределения / (X), как правило, не известными ис- исследователю) вторая задача может быть сформулирована как задача выявления областей повышенной плотности наб- наблюдений, т. е. таких областей возможных значений анали- анализируемого многомерного признака X, которые соответст- соответствуют локальным максимумам функции f (X). Если первая задача — задача построения областей груп- группирования — всегда имеет решение, то при второй поста- постановке результат может быть и отрицательным: может ока- оказаться, что множество исходных наблюдений не обнаружи- обнаруживает естественного расслоения на кластеры (например, об- образует один общий кластер). Из методологических соображений (в частности, для уп- упрощения понимания читателем некоторых основных идей теории автоматической классификации и для создания удоб- удобной схемы исследования свойств различных классифика- классификационных процедур) будем иногда вводить в рассмотрение теоретические вероятностные характеристики анализируе- анализируемой совокупности: генеральную совокупность, плотность (полигон) распределения или соответствующую вероят- вероятностную меру Р (dX), теоретические средние значения, дис- дисперсии, ковариации и т. п. Очевидно, если мысленно «про- «продолжить» множество классифицируемых наблюдений до всей генеральной совокупности (методологический прием, уже ис- использованный в гл. 1), задача классификации заключает- заключается в разбиении анализируемого признакового пространства Пя (X) на некоторое число непересекающихся областей. Ус- Условимся в дальнейшем называть такую схему теоретико- вероятностной модификацией задачи кластер-анализа. 146
5.2. Расстояния между отдельными объектами и меры близости объектов друг к другу Наиболее трудным и наименее формализованным в задаче автоматической классификации является момент, связанный с определением понятия однородности объектов. В общем случае понятие однородности объектов опреде- определяется заданием правила вычисления величины рц, характе- характеризующей либо расстояние d (Ot, Oj) между объектами Ot и Oj из исследуемой совокупности O(i, j = 1,2,..., и), либо степень близости (сходства) г (Оь Oj) тех же объектов. Если задана функция d (Ot, ОД то близкие в смысле этой метрики объекты считаются однородными, принадлежащими к одно- одному классу. Естественно, при этом необходимо сопоставление d (Ot, Oj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему. Аналогично используется для формирования однород- однородных классов и упомянутая выше мера близости г [О,, Oj), при задании которой нужно помнить о необходимости соб- соблюдения следующих естественных требований: требования симметрии (г (Oj, Oj) = r (Oj, Ot)); требования макси- максимального сходства объекта с самим собой (г (Ot, Ot) — = max r (Ot, Oj)) и требования при заданной метрике моно- монотонного убывания r(Ot, Oj) по d (Oit Oj), т. е. из d (Oh, O()> > d (Ot, Oj) должно с необходимостью следовать выполне- выполнение неравенства г (Oh, О() < г (Oi; Oj). Конечно, выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим об- образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по- своему. При этом решение данного вопроса зависит в основ- основном от главных целей исследования, физической и статисти- статистической природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Так, например, если из конечных целей исследования и из природы вектора X следует, что понятие однородной группы естественно интерпретировать как генеральную совокуп- совокупность с одновершинной плотностью (полигоном частот) рас- распределения, и если к тому же известен общий вид этой плотности, то следует воспользоваться общим подходом, описанным в гл. 6. Если, кроме того, известно, что наблюде- наблюдения Xi извлекаются из нормальных генеральных совокуп- совокупностей с одной и той же матрицей ковариаций, то естествен- естественной мерой отдаленности двух объектов друг от друга явля- является расстояние махаланобисского типа (см. ниже). 147
В качестве примеров расстояний и мер близости, сравни- сравнительно широко используемых в задачах кластер-анализа, приведем здесь следующие. Общий вид метрики махаланобисского типа. В общем случае зависимых компонент jc*1), jc<2\ ...,*<''> вектора наб- наблюдении X и их различной значимости в решении вопроса об отнесении объекта (наблюдения) к тому или иному классу обычно пользуются обобщенным («взвешенным») расстоянием махаланобисского типа, задаваемым формулой г =У(Х,~Х})'\' Ъ-*АМ-Х,). Здесь 2 — ковариационная матрица генеральной совокуп- совокупности, из которой извлекаются наблюдения Xt, а Л — не- некоторая симметричная неотрицательно-определенная мат- матрица «весовых» коэффициентов Ат(/, которая чаще всего вы- выбирается диагональной Г195, 279J. Следующие три вида расстояний, хотя и являются част- частными случаями метрики da, все же заслуживают специаль- специального описания. Обычное евклидово расстояние dE(xn x,)= К ситуациям, в которых использование этого расстояния можно признать оправданным, прежде всего относят следу- следующие: наблюдения X извлекаются из генеральных совокупнос- совокупностей, описываемых многомерным нормальным законом с ко- ковариационной матрицей вида о2-!, т е. компоненты X вза- взаимно независимы и имеют одну и ту же дисперсию; компоненты х<Л\ х<-\ ..., х{^ вектора наблюдении X од- однородны по своему физическому смыслу, причем установле- установлено, например с помощью опроса экспертов, что все они оди- одинаково важны с точки зрения решения вопроса об отнесе- отнесении объекта к тому или иному классу; признаковое пространство совпадает с геометрическим пространством нашего бытия, что может быть лишь в слу- случаях р 1, 2, 3, и понятие близости объектов соответствен- соответственно совпадает с понятием геометрической близости в этом пространстве, например классификация попаданий при стрельбе по цели. 1 В случаях, когда каждый объект Oj представлен вектором признаков Х{ (т. е. в случае исходных данных, представленных в форме X), часто удобнее в формулах и различных соотношениях вместо О, писать сразу Xt. Например, d(Xi,Xj) bmpcto d{Ol,Oj). 148
«Взвешенное» евклидово расстояние Обычно применяется в ситуациях, в которых так или иначе удается приписать каждой из компонент х<*> вектора наблю- наблюдений X некоторый неотрицательный «вес» <ой, пропорцио- пропорциональный степени его важности с точки зрения решения во- вопроса об отнесении заданного объекта к тому или иному классу. Удобно полагать при этом 0 < <oft < 1, & - \, р. Определение весов о>,, связано, как правило, с дополни- дополнительным исследованием, например получением и использо- использованием обучающих выборок, организацией опроса экспер- экспертов и обработкой их мнений, использованием некоторых спе- специальных моделей. Попытки определения весов ш,, только по информации, содержащейся в исходных данных [72, 3301, как правило, не дают желаемого эффекта, а иногда могут лишь отдалить от истинного решения. Достаточно заме- заметить, что в зависимости от весьма тонких и незначительных вариаций физической и статистической природы исходных данных можно привести одинаково убедительные доводы в пользу двух диаметрально противоположных решений это- этого вопроса^ выбирать o>j, пропорционально величине средне- квадрэтической ошибки признака х<*> [1381 либо пропорцио- пропорционально обратной величине среднеквадратической ошибки этого же признака [332, 72, 3301. Хеммингово расстояние. Используется как мера разли- различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы йн(Хь Х,)= \] \^-xf\ s— 1 и, следовательно, равно числу v^ несовпадений значений соответствующих признаков в рассматриваемых i-м и ;-м объектах. Другие меры близости для дихотомических признаков. Меры близости объектов, описываемых набором дихотоми- дихотомических признаков, обычно основаны на характеристиках vj?', vtf> и vy - v'j» -f v<;\ где v<?> (vj,1')- число нулевых (единичных) компонент, совпавших в объектах X, и Xj. Так, например, если из каких-либо профессиональных сооб- соображений или априорных сведений следует, что все р приз- признаков исследуемых объектов можно считать равноправны- равноправными, а эффект от совпадения или несовпадения нулей такой 149
же, что и от совпадения или несовпадения единиц, то В ка- качестве меры близости объектов Xi и Xj используют вели- величину г (Xt, Xj) = ^-. Весьма полный обзор различных мер близости объектов, описываемых дихотомическими признаками, читатель най- найдет в [136, 29]. Меры близости и расстояния, задаваемые с помощью по- потенциальной функции. Во многих задачах математической статистики, теории вероятностей, физической теории по- потенциала и теории распознавания образов, или классифика- классификации многомерных наблюдений, оказываются полезными не- некоторые специально устроенные функции К(Х, Y) от двух векторных переменных X и Y, а чаще всего просто от рас- расстояния d {X, Y) между этими переменными, которые будем называть потенциальными х. Так, например, если пространство Пр(Х) всех мыслимых значений исследуемого вектора X разбито на полную систе- систему непересекающихся односвязных компактных множеств- или однородных классов Slt ..., Sh и потенциальная функ- функция К (X, Y) определена для X ? П" (X) и Y б П" (X) следующим образом: к(х У)=A> если X€S;' Y^Ss (/= *• 2> -' k)' [О в противном случае, то с помощью этой функции удобно строить обычные эмпи- эмпирические гистограммы (оценки плотности распределения fn (?/)) по имеющимся наблюдениям ХЛ, Х2, ¦¦-, Хп. Дейст- Действительно, легко видеть, что где v ((/) — число наблюдений, попавших в класс содержащий точку U, a W(Snu)) — объем области (геометрическая интерпретация для одномерного случая по- показана на рис. 5.1). Если в исследуемом факторном пространстве Пр(Х) задана метрика d (U, V), то можно не связывать себя за- 1 В некоторых работах можно встретить, по существу, те же функции, но под другим названием, например window — «окно» [280, 290]. Определение «потенциальные функции» обосновывается1 тем, что примером подобных зависимостей в физике является по- потенциал, определенный для любой точки пространства, но завися- зависящий от того, где расположен источник потенциала. 150
ранее зафиксированным разбиением ЩХ) на классы, а за- задавать К (U V) как монотонно убывающую функцию расстояния d (U, V). Например, K(U, V) = K(U, V) = a>0; V)]-\ а>0. E.2) Приведем здесь еще лишь одну достаточно общую форму связи между d (U, V) и К (?/, у), в которой расстояние d '„(fit S1 S2 S3 V ¦*.- Рис 5.1. Гистограмма 7^A/), построенная с помощью разбиения на группы выборочной одномерной совоку ™ ЯОСТИ Ль ..., An J выступает как функция некоторых значений потенциаль- потенциальной функции К: d(U, V) = V)-2K(U, V). E.3) В частности, выбрав в качестве К (U, V) скалярное про- произведение векторов и и V, т. е. положив к(и, v)=(t/, v)=2 «U)y(f), получим по формуле E.3) обычное евклидово расстояние dP Легко понять, что и в случае задания потенциальной функции в виде соотношений E.2) формулы E.1) позволяют строить статистические оценки плотности распределения E.1), хотя график функции?» (Ц) будет уже не ступенчатым, а сглаженным. При отсутствии метрики в поостпангтве ЩХ) функции К (U, V) могут быть^спользоГн^вТкаче- быть^спользоГн^вТкачестве меры близости объектов f/и V, а также объектов и це- 151
лых классов и классов между собой. В первом случае эта мера позволяла получить лишь качественный ответ: объек- объекты близки, если U и V принадлежат одному классу, и объ- объекты далеки — в противном случае; в двух других случаях мера близости является количественной характеристикой. О физически содержательных мерах близости объектов. В некоторых задачах классификации объектов, не обяза- обязательно описываемых количественно, естественнее использо- использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содержательные число- числовые параметры, так или иначе характеризующие взаимоот- взаимоотношения между объектами. Примером может служить зада- задача классификации с целью агрегирования отраслей народ- народного хозяйства, решаемая на основе матрицы межот- межотраслевого баланса [97]. Таким образом, классифицируе- классифицируемым объектом в данном примере является отрасль народно- народного хозяйства, а матрица межотраслевого баланса представ- представлена элементами s,;-, где под s^ подразумевается сумма го- годовых поставок в денежном выражении t-й отрасли в j-ю. В качестве матрицы близости {гц} в этом случае естествен- естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормиров- нормировкой понимается преобразование, при котором денежное вы- выражение поставок из t-й отрасли в j-ю заменяется долей этих поставок по отношению ко всем поставкам i-й отрасли. Сим- Симметризацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, на- например, в [97| близость между i-й и/-й отраслями выража- выражается либо через среднее значение их взаимных нормирован- нормированных поставок, либо через комбинацию из их взаимных нор- нормированных поставок. О мерах близости числовых признаков (отдельных фак- факторов). Решение задач классификации многомерных данных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих су- существенно сократить размерность исходного факторного пространства, выбрать из компонент х<1}, ..., jc(p) наблюда- наблюдаемых векторов X сравнительно небольшое число наиболее существенных, наиболее информативных. Для этих целей бывает полезно рассмотреть каждую из компонент х*1), ..., *с> в качестве объекта, подлежащего классификации. Дело в том, что разбиение признаков jcA), ..., jc(p> на небольшое число однородных в некотором смысле групп позволит ис- исследователю сделать вывод, что компоненты, входящие в од- одну группу, в определенном смысле сильно связаны друг с другом и несут информацию о каком-то одном свойстве ис- 132
следуемого объекта. Следовательно, можно надеяться, что не будет большого ущерба в информации, если для дальней- дальнейшего исследования оставим лишь по одному представителю от каждой такой группы. Чаще всего в подобных ситуациях в качестве мер близо- близости между отдельными признаками jc<() и jc</>, так же как и между наборами таких признаков, используются различные характеристики степени их коррелированное™ и в первую очередь коэффициенты корреляции. Проблеме сокращения размерности анализируемого признакового пространства специально посвящен раздел III книги. Более подробно вопросы построения и использования расстояний и мер бли- близости между отдельными объектами рассмотрены в [136, 288, 296, 29]. 5.3. Расстояние между классами и мера близости классов При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесооб- целесообразным введение понятия расстояния между целыми груп- группами объектов, так же как и понятия меры близости двух групп объектов. Приведем примеры наиболее распростра- распространенных расстояний и мер близости, характеризующих взаим- взаимное расположение отдельных групп объектов. Пусть St — i-я группа (класс, кластер) объектов, tij — число объектов, образующих группу Si, вектор X(i) — среднее арифметиче- арифметическое векторных наблюдений, входящих в St (другими слова- словами, X (i) — «центр тяжести» t-й группы), а р (Sb Sm) — рас- расстояние между группами St и Sm. Ниже приводятся наиболее употребительные и наиболее общие расстояния и меры близости между классами объек- объектов. Расстояние, измеряемое по принципу «ближнего соседа» («nearest neighbour») Pmm (S,,Sm)= rnin d(Xt, X,). E.4) Расстояние, измеряемое по принципу «дальнего соседа» («furthest neighbour») [262, 224] Ртах (S^ Sm)= max d(Xt, X,). E.5) X#S X*S Расстояние, измеряемое по «центрам тяжести» групп [262, 224] p(S,, Sm)^d{X(l)f X(m)). F.6) 153
Мера близости групп, основанная на потенциальной функции [57] ± K(Xt,Xj). 1 т Расстояние, измеряемое по принципу «средней связи». Определяется [262, 2241 как арифметическое среднее все- всевозможных попарных расстояний между представителями рассматриваемых групп, т. е. У yd(Xi,Xj). E.7) Естественно задать вопрос: нельзя ли получить достаточ- достаточно общую формулу, определяющую расстояние между клас- классами по заданному расстоянию между отдельными элемен- элементами (наблюдениями), которая включила бы в себя в каче- качестве частных случаев все рассмотренные выше виды расстоя- расстояний? Изящное обобщение такого рода, основанное на понятии так называемого «обобщенного среднего», а точнее, степенно- степенного среднего, было предложено А. Н. Колмогоровым. Под обобщенным средним величин с19 с2, ..., cN понимается вы- 1 N ражение вида MF (cu с2, ..., cN) = F~x (— 2 F (ci)), в кото- ром F (и) — некоторая функция и соответственно F~x — преобразование, обратное к F. Частным случаем обоб- обобщенного среднего является степенное среднее, определяемое как 1 A N \г — 2 ci I • Нетрудно показать, что (при С/ > 0, i — 1, 2, ..., N) М_»(с!, с%, .... cN)— min (a); )= max (ct); f N \\!N , сг, ..., Cn)= I |~I ct I —геометрическое среднее; l N Ml(cu c3, ..., cn) — — У Ct—арифметическое среднее. Л" уЫ 454
Обобщенное (по Колмогорову) расстояние между класса- классами, или обобщенное /(-расстояние, вычисляется по формуле у V rft {Хи Х})] т . E.8) $? J В частности, при т-> оо и при т-> — оо имеем p<*>(S,, Sm) = Pmax(S/, Sm); p<*>(S,, Sm) = PmIn(S,, Sm). Очевидно также p<*>(S,, Sm) = Pcp(S,, Sm). Из E.8) следует, что если 5 (т, q) = Sm [j Sq — группа элементов, полученная путем объединения кластеров Sm и Sq, то обобщенное /(-расстояние между кластерами S; и 5 (т, q) определяется формулой ; Понятие расстояния между группами элементов особен- особенно важно в так называемых агломеративных иерархических кластер-процедурах, поскольку принцип работы таких ал- алгоритмов состоит в последовательном объединении эле- элементов, а затем и целых групп, сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. в гл. 8. Учитывая специфику подобных процедур, для задания расстояния между классами оказывается достаточ- достаточным определить порядок пересчета расстояния между клас- классом 51 и классом 5 (т, q) = Sm [j Sq, являющимся объеди- объединением двух других классов Sm и Sq, по расстояниям pim~ = р (S;, Sm), piq = р (Si, Sq) и pmq = p (Sm, Sq) между этими классами. В [255] предлагается следующая общая формула для вычисления расстояния между некоторым классом Si и классом S (m, q): 9i (m, q) = P (Si, Sim, q)) = apim + $plq -f ypmq + + б|ргт-ргд|, E.9) где a, p, у и б — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на ре- решение той или иной экстремальной задачи. Так, например, полагая а = р*= — 5 = у и v = 0, приходим к расстоя- расстоянию, измеряемому по принципу «ближайшего соседа». Если 155
же положить а = р = б = уИ7 = 0, то расстояние между двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу «дальнего соседа». И наконец, выбор коэффициентов соот- соотношения E.9) по формулам «= -!ha—, р=^—^ = 6 0 , р, ^ 6 0 1 nm-\-tlq приводит к расстоянию рср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого. То, что формула для рцт, q) и, в частности, выбор коэф- коэффициентов а, р, у и б в этой формуле зачастую определяют нацеленность соответствующей агломеративной иерархиче- иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийную установку, поясняет, например, следующий результат [331]. Оказывается, если для вычисления рг <„,, д) воспользоваться следующей модификацией формулы E.9): E-10) Р/ (т. q) =—; ; Pirn i ; f P/«— « + Я + Я ni-j-nm-\-nq то соответствующий агломеративный иерархический алго- алгоритм обладает тем свойством, что на каждом шаге объеди- объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внут- внутри классов. Отметим сразу, что такая пошаговая оптималь- оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле Для любого на- наперед заданного числа классов, на которые требуется раз- разбить исходную совокупность элементов. 5.4. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оценивания параметров Естественно попытаться определить сравнительное качест- качество различных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть од- 156
но разбиение другому. С этой целью в постановку задачи кластер-анализа часто вводится понятие так называемого функционала качества разбиения Q (S), определенного на множестве всех возможных разбиений. Функционалом он называется потому, что чаще всего разбиение 5 задается, вообще говоря, набором дискриминантных функций бх (X), б2 (X), .... Тогда под наилучшим разбиением S* понимается то разбиение, на котором достигается экстремум выбранно- выбранного функционала качества. Выбор того или иного функцио- функционала качества, как правило, осуществляется весьма произ- произвольно и опирается скорее на эмпирические и профессио- профессионально-интуитивные соображения, чем на какую-либо стро- строгую формализованную систему. Приведем примеры наиболее распространенных функцио- функционалов качества разбиения и попытаемся обосновать выбор некоторых из них в рамках одной из моделей статистического оценивания параметров. 5.4.1. Функционалы качества разбиения при заданном чис- числе классов. Пусть исследователем уже выбрана метрика d в пространстве Пр (X) и пусть 5 = E1; S2, ..., Sk) — неко- некоторое фиксированное разбиение наблюдений Хг, Х2, ..., Х„ на заданное число k классов Slt S.2, ..., Sk. За функционалы качества часто берутся следующие ха- характеристики: сумма («взвешенная») внутриклассовых дисперсий Qi(S)= S 2 d*(XitX(l)), E.11) весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [268]; сумма попарных внутриклассовых расстояний между элементами либо 2 ' xi,xJesl в большинстве ситуаций приводит к тем же наилучшим раз- разбиениям, что и Qj E), и тоже используется для сравнения кластер-процедур [228]; обобщенная внутриклассовая дисперсия Q3 (S) является, как известно [16, с. 231], одной из характеристик степени 157
рассеивания многомерных наблюдений одного класса (гене- (генеральной совокупности) около своего «центра тяжести». Следуя обычным правилам вычисления выборочной кова- ковариационной матрицы Wj, отдельно по наблюдениям, попав- попавшим в какой-то один класс Si, получаем /= 1 где под det А понимается «определитель матрицы А», а эле- элементы wqm (I) выборочной ковариационной матрицы Wj класса St подсчитываются по формуле «wo=™ 2 H«)-*<')(Q)Wm)-*<m)(Q), ч>т= = 1, 2 р, E.13) где jc'-v) — v-я компонента многомерного наблюдения Xit a a:(v)/(/) — среднее значение v-й компоненты, подсчи- подсчитанное по наблюдениям 1-го класса. Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества раз- разбиения, в котором операция суммирования Wj по классам заменена операцией умножения Q«(S)= ft (detW,)"'. Как видно из формул E.12) и E.13), функционал Q3 (S) является средней арифметической (по всем классам) характе- характеристикой обобщенной внутриклассовой дисперсии, в то вре- время как функционал Q4 E) пропорционален средней геомет- геометрической характеристике тех же величин. Использование функционалов Q3 (S) я Qt (S) является особенно уместным в ситуациях, при которых исследова- исследователь в первую очередь задается вопросом: не сосредоточены ли наблюдения, разбитые на классы Slf Sit ..., S&, в про- пространстве размерности, меньшей, чем р? Замечание. При теоретико-вероятностной моди- модификации схем кластер-анализа соответственно видоизме- видоизменится запись приведенных выше функционалов. Так, на- например, d(X,X(l))P(UX), 158
где или k EЛ4) 5.4.2. Функционалы качества разбиения при неизвестном числе классов. В ситуациях, когда исследователю зарапее не известно, на какое число классов подразделяются исход- исходные многомерные наблюдения Xlt Х2, ..., Хп, функционалы качества разбиения Q(S) выбирают чаще всего в виде про- простой алгебраической комбинации (суммы, разности, произ- произведения, отношения) двух функционалов lx (S) и /2 E), один из которых /j является убывающей (невозрастающей) функцией числа классов k и характеризует, как правило, внутриклассовый разброс наблюдений, а второй /2 — воз- возрастающей (неубывающей) функцией числа классов k. При этом интерпретация функционала /2 может быть различной. Под /2 понимается иногда и некоторая мера взаимной уда- удаленности (близости) классов, и мера тех потерь, которые приходится нести исследователю при излишней детализации рассматриваемого массива исходных наблюдений, и величи- величина, обратная так называемой «мере концентрации» всей структуры точек, полученной при разбиении исследуемого множества наблюдений на k классов. В [218], например, предлагается брать где k (S) — число классов, получающихся при разбиении S, ас — некоторая положительная постоянная, характери- характеризующая потери исследователя при увеличении числа клас- классов на единицу. 159
Другой вариант функционалов качества такого типа можно найти, например, в [57], где полагают 2 /= 1= 1 / > 1 Здесь К (X, Y) — упомянутая выше потенциальная функ- функция, а гE„ Sj) — мера близости t-ro и /-го классов, осно- основанная на потенциальной функции E.6). Очевидно, в первом случае будем искать разбиение S*, минимизирующее значение функционала S), E.15) в то время как во втором случае требуется найти разбие- разбиение S0, которое максимизировало бы значение функционала S). E.16) Весьма i ибким и достаточно общим подходом, реализу- реализующим идею одновременного учета двух функционалов, яв- является подход, основанный на схеме, предложенной А.Н. Колмогоровым. Эта схема опирается на понятия меры кон- концентрации Zx (S) точек, соответствующей разбиению S, и средней меры внутриклассового рассеяния ItK)(S), характери- характеризующей то же разбиение S. Под мерой концентрации Zt (S) предлагается понимать степенное среднее (см. § 5.3) вида 7 /<Л— М I v (Х»> у<*г) v (Xn) \ _ \ л л п } где v (Хг) — число элементов-в кластере, содержащем точку Хг, а выбор числового параметра т находится в распоряже- распоряжении исследователя и зависит от конкретных целей разбие- разбиения. При выборе т полезно иметь в виду следующие частные случаи Zx (S): 160
где k — число различных кластеров в разбиении S; logZo(S) = 2 — log — — естественная информационная <= 1 Я Я мера концентрации; Z» (S) = max f-SLV 1<?<*\ Л / -„(8±= min f-b Заметим, что при любом т предложенная мера концентра- концентрации имеет минимальное значение, равное 1/л, при разбие- разбиении исследуемого множества на п одноточечных кластеров, и максимальное значение, равное 1, при объединении всех исходных наблюдений в один общий кластер. При конструировании и сравнении различных кластер- процедур полезно иметь в виду, что объединение двух клас- кластеров Si и Sm в один дает прирост меры концентрации Zx (S), равный А 7 _! Чп _1_я \2 „2 „2 1 ^П1Пт AZ1 = —7^1\п1 + Пт) rt/—Пт\= Я* Я* Определение средней меры внутриклассового рассеяния (S) также опирается на понятие степенного среднего. В частности, полагают 1 E.18) где под понимается обобщенная средняя мера рассеяния, характе- характеризующая класс St. Числовой параметр т здесь, как и преж- прежде, выбирается по усмотрению исследователя. Полагая 6 Заказ № 291 161
где, как и прежде, S (X)— кластер, в который входит наб- наблюдение X, a v (X) — число элементов в кластере S (X), формулу E.18) можно переписать в виде E.19) При конструировании и сравнении различных кластер- процедур полезно иметь в виду, что объединение двух клас- кластеров Si и Sm в один дает прирост величины п [IXK) (S)]x, непосредственно характеризующей среднюю меру внутри- внутриклассового рассеяния, равный {2 [p(K>(SIf sm)y- «г Очевидно, если ориентироваться на сокращение числа кластеров при наименьших потерях в отношении внутри- внутриклассового рассеивания, не обращая внимания на меру кон- концентрации, то естественно объединять два кластера, для ко- которых минимальна величина А (п [l[K)]x). Если же одно- одновременно ориентироваться и на рост взвешенной концентра- концентрации Zx (S), то объединение кластеров следует подчинить тре- требованию минимизации величины {2 К*» (Si, 5.4.3. Формулировка экстремальных задач разбиения ис- исходного множества объектов на классы при неизвестном чис- числе классов. Возможно множество вариантов таких формули- формулировок. Рассмотрим два из них, относящиеся к наиболее ес- естественным и часто используемым. В а р и а н т 1: комбинирование функционалов качества. Требуется найти такое разбиение S*, для которого некото- некоторая алгебраическая комбинация функционала, характери- характеризующего среднее внутриклассовое рассеяние E.19), и функ- функционала, характеризующего меру концентрации получен- полученной структуры E.17), достигала бы своего экстремума. В ка- качестве примеров можно привести комбинации Q (S) и Q' (S), 162
задаваемые формулами E.15) и E.16), а также более общие выражения вида о -Л (S) + р72 (S) и [Д (S)J-.[/, (S)}P, E.20) где /г (S) = 1<К) (S); /2 (S) - yijy a и P ~ некоторые положительные константы, например а = E = 1. Вариант 2: двойственная формулировка. Требуется найти разбиение S*, которое, обладая концентрацией ZX(S*), не меньшей заданного порогового значения Zo, да- давало бы наименьшее внутриклассовое рассеяние l[K)(S*), или, в двойственной подстановке: при заданном пороговом значении /0 найти разбиение S* с внутриклассовым рассе- рассеянием l[K) (S*) < /0 и наибольшей концентрацией ZT (S*). 5.4.4. Общий вид функционала качества разбиения как функции ряда параметров, характеризующих межклассовую и внутриклассовую структуру наблюдений. Зададимся вопросом, нельзя ли выделить такой достаточно полный на- набор величин их (S), и2 (S), ..., характеризующих как меж- межклассовую, так и внутриклассовую структуру наблюдений при каждом фиксированном разбиении на классы S, чтобы существовала некоторая функция Q(u1; u2, ...) от этих вели- величин, которую мы могли бы считать в каком-то смысле уни- универсальной характеристикой качества разбиения. В част- частности, в качестве таких величин иг — ur (S), ы2 =- и2 (S),... можно рассмотреть, например, некоторые числовые характе- характеристики: степени близости элементов внутри классов (uj); степени удаленности классов друг от друга (и2);степени «одинаковости» распределения многомерных наблюдений внутри классов (и3); степени равномерности распределения общего числа классифицируемых наблюдений п по классам Что касается установления общего вида функции Q (и1У «2> "з. "J» то без введения дополнительной априорной ин- информации о наблюдениях Хг (характере и общем виде их закона распределения внутри классов и т п ) единственным возможным подходом в решении этой задачи, как нам пред- представляется, является экспертно-экспериментальное иссле- исследование Именно с этих позиций в [63] сделана попытка оп- определения общего вида функции Q. Чтобы определить рас- рассмотренные в этой работе величины иъ и2, и3 и и4, введем понятие кратчайшего незамкнутого пути (КНП), соединя- соединяющего все п точек исходной совокупности в связный неори- неориентированный граф с минимальной суммарной длиной ре- 6* 163 i
бер 1. Под длиной ребра понимается расстояние между соот- соответствующими точками совокупности в смысле выбранной метрики. Построение такого графа можно начать с пары на- наиболее близких точек. Если таких пар несколько, то выби- выбирается любая из этих пар. Пусть это будут наблюдения с номерами i0 и /„. Затем с помощью сравнения расстояний d (X[o, Xj) (/=1,2, ..., п; j ф i'o» / Ф /о) и d (Х/о, Xq), где q = 1, 2, ..., я; q ф jQ и q Ф iQ, определяются точки Xm(h) и Хт(,о), наименее уда- удаленные соответственно от то- точек Хг„ и Х/о, и выбирается ближайшая из них Хт<1, т. е. Хте — ХтDо), если d(Xi,, Хто — Хт{/о), если d (Xlt, тем точка Хт<) «пристраивает- «пристраивается» к той из точек X,, и Х,„, к которой она ближе. Да- Далее сравниваются расстояния d (Х,о, ХД d (X/o, Xq) и v=^/o и /, <?, v =^m0) и т. д. Очевидно, «разрубая» $ ребер такого графа, будем делить со- совокупность на s + 1 классов. Пусть р, (/) — /-е ребро части графа, отнесенной к 1-щ классу. Всего таких ребер, как легко видеть, будет пг —1. И пусть pmln (p) — минимальное из ребер, непосредствен- непосредственно примыкающих к ребру р и относящихся к l-щ классу, если таковое имеется. Пронумеруем в определенном порядке граничные, («разрубленные») ребра кик2, ...Дй^ таким об- образом, чтобы имелось взаимно однозначное соответствие между номерами граничных ребер и номерами примыкаю- примыкающих к ним классов, за исключением одного, геометрически представленного одним из «хвостов» графа. Выбрасывая реб- ребра I, II, III (рис. 5.2), получаем четыре связных графа, что 1 Методы классификации, основанные на КНП, используются для решения задач в области антропологии, биологии, сельского хо- хозяйства, лингвистики (см , например: Czekanowski J. Zur Differen- tialdiagnose der Neandertalgruppe//Kor — blatt Deutsch. Qes. Ant- гор. — 1909.— XL — S. 44—47; Florek K., Lukaszew icz J., Perkal H., Zubzucki S. Sur la liaison et la division des points d'un ensemble fini//Coll. Math. — 1951. — 2. — P. 282—285). 2 Если d (XH, Xm{U)) = d (Xfo - можно выбрать любую из точек Хт^ 164 Рис. 5.2. Графическое изо- изображение кратчайшего не- незамкнутого пути Хт(,0))'> то в качестве Хт>
соответствует разбиению совокупности на четыре группы. Обозначим с помощью Xt одно из таких ребер 1-го класса. Теперь, следуя I 63 ], определим величины ut таким об- образом: 1 где р (/) = B рг A)I(Щ — 1) — средняя длина ребер /-го класса; 1-1 П Эмпирический перебор различных вариантов общего ви- вида функции в сочетании с анализом результатов экспертных оценок качества всевозможных разбиений привели авторов [63] к следующей формуле для функционала: Q(S)=ln где а, Ь, с и d — некоторые неотрицательные параметры, ос- оставляющие исследователю определенную свободу выбора в каждом конкретном случае. Авторы [63] отмечали хорошее согласие своих экспериментов с экспертными оценками при Из смысла величин щ (t = l, 2, 3, 4) следует, что луч- лучшим разбиениям соответствуют большие численные значения функционала Q, так что в данном случае требуется найти такое разбиение S*, при котором Q (S*) — max Q (S). s Конечно, данный выбор количественного и качественного состава величин иг и, в еще большей степени, их точное оп- определение являются чисто эвристическими и подчас просто спорными. Это относится в первую очередь к величине и3. Поэтому читатель должен принимать описанную здесь схему не как рекомендацию к универсальному использованию функционалов типа E.21) в задачах кластер-анализа, а 165
лишь как описание конкретного примера одного из возмож- возможных подходов при выборе функционалов качества разбиения. 5.4.5. Функционалы качества и необходимые условия оп- оптимальности разбиения. Естественно попытаться просле- проследить, в какой мере выбор того или иного вида функционала качества определяет класс разбиений, в котором следует ис- искать оптимальное. Приведем здесь некоторые результаты, устанавливающие такого рода соответствие. Будем предполагать используемую метрику евклидовой. Обозначим через е = (еъ .... ек) группу из k р-мерных век- векторов е, (у = 1 k), а через S (е) = (S1 (е) Sh (e)) — так называемое минимальное дистанционное разбиение, порождаемое точками е = {ех, ..., eh), а именно' е,), / = 2, .... к); 52(е) =S1 r\~Sk-i(e)C\{X:d(X, eh) (Здесь и в дальнейшем S, означает дополнение множества 5г- до всего пространства Пр (X), т. е. совокупность всех наблюдений (элементов пространства Пр (X), не входящих в состав S,.) Таким образом, класс S7 (e) состоит из тех точек пространства Пр (X), которые ближе к е,-, чем ко всем ос- остальным ег (i =76/). Если для некоторых точек из ПР(Х) самыми близкими являются сразу несколько векторов е/ (j = 1, ..., к), то эти точки относим к классу с минималь- минимальным индексом. Разбиение S = (St, ..., Sh) называется несмещенным, если это разбиение с точностью до множеств меры нуль совпадает с минимальным дистанционным разбиением,, по- порождаемым векторами средних Xt = -g- J XP (dX), где/^ — Р' *i = I P {AX). si Утверждение 1 (для функционалов типа Qt (см. E.11))). Минимальное значение функционала Qx (S) = k — 2! J P2 (X> Xi) Р @Х) достигается только на несме- щенных разбиениях. Это означает, что оптимальное разбие- разбиение обязательно должно быть несмещенным [166]. Следующий результат относится к довольно широкому классу функционалов качества разбиения совокупности 166
на два класса. Разбиение на два класса может быть задано с помощью так называемой разделяющей функции. А именно точки пространства ПР(Х), на которых разделяющая функ- функция принимает неотрицательное значение, относятся к од- одному классу, а остальные— к другому. Поэтому поиск клас- класса оптимальных разбиений в этом случае эквивалентен по- поиску класса оптимальных разделяющих функций. Для иллюстрации дальнейшего изложения будем рас- рассматривать вероятностную модификацию функционала Q2' <см. E.14)). Пусть расстояние d (X, Y) задается с помощью соотно- соотношения E.3) потенциальной функцией вида где фг (X) (i = 1, ..., М) — некоторая система функций на П" (X). Функционал Q'z через потенциальную функцию К (X,Y) выражается следующим образом: i(S) = 2 J K(X, X)P(AX)~2-~ J J/C(*. У) ПР (X) s> s> xP(dX)P(dY) — 2 — Г Г/С(Х, Y)P(dX)P(dY). Поскольку в правой части этого равенства первый интеграл не зависит от разбиения, то минимум функционала Q2' (S) достигается на тех разбиениях, на которых функционал О2E)=— С {К(Х, Y)P(dX)P(dY) + Si St достигает максимума. Введем в рассмотрение спрямляющее пространство HN(Z), координаты г('> векторов Z ? IlN (Z) которого опре- определяются соотношениями В спрямляющем пространстве ГР (Z) вероятностной мерой Р, заданной в исходном пространстве Пр (X), индуцируется 167
своя вероятностная мера /><*>. Однако в целях упрощения обозначений будем опускать верхний индекс Z у этой новой меры. Функционал Q2 (S) в спрямляющем пространстве примет вид Пусть M(,v)= |Z*P(dZ) (v = 0, 1, .... r; t = l, 2). Здесь Z2/ = [ (Z, Z)V — числа, ZV+1 = [(Z, Z)]/ Z — векто- векторы. В работе [32] формулируется утверждение, устанавлива- устанавливающее класс функций в спрямляющем пространстве YlN (Z), среди которых следует искать разделяющую функцию, доставляющую экстремум функционалу качества разбие- разбиения. Показано, что если функционал качества Ф является дифференцируемой функцией от М) (v = 1, ..., г), а вероят- вероятностное распределение Pz сосредоточено на ограниченном множестве и обладает непрерывной плотностью, то в случае достижения функционалом Ф своего экстремума на некото- некоторой разделяющей функции, этот же экстремум достигается на разделяющей функции, являющейся полиномом г-й степени вида: /(Z)= 2 (с», Zy)t где дФ дФ a (cv, Zv) означает при четном v произведение чисел cv и Zv, а при нечетном v — скалярное произведение векторов cv и Zv Утверждение 2 (для функционалов типа Qi (S) и разбиений на два класса). Для функционала Q2' утвержде- утверждение 1 означает, что класс разделяющих функций, среди ко- которых надо искать наилучшее в спрямляющем пространстве разбиение, имеет вид f(Z) = {c, Z)-a, 168
где С=Ш ЭД«_ = 2№—^М; E.22) дМг дМ% \ Р, Р2 ) v Класс разделяющих функций в спрямляющем пространстве очевидным образом определяет класс разделяющих функ- функций в исходном пространстве Пр (X). Если К (X, Y) — (X, Y) является скалярным произведе- произведением векторов X и Y, то спрямляющее пространство tlN (Z) совпадает с исходным пространством Пр (X), а метрика, задаваемая потенциальной функцией К (X, Y), совпадает с обычной евклидовой метрикой. Функционалы Q2 и Q2, рас- рассматриваемые относительно этой метрики, совпадают с точ- точностью до константы. В этом случае, как нетрудно видеть, разбиение, задаваемое разделяющей функцией / (Z), являет- является несмещенным разбиением. 5.4.6. Функционалы качества разбиения как результат применения метода максимального правдоподобия к задаче статистического оценивания неизвестных параметров. Приведем пример, иллюстрирующий возможность обоснова- обоснования выбора общего вида функционала качества разбиения на классы в ситуациях, в которых исследователю удается опи- описать механизм генерирования анализируемых данных одной из классических моделей. Пусть априорные сведения позволяют определить t-й однородный класс (кластер) как нормальную генеральную совокупность наблюдений с вектором средних аг и ковари- ковариационной матрицей 2г. При этом аг и 2,, вообще говоря, не- неизвестны. Известно лишь, что каждое из наблюдений Xit ' Х2 Хп извлекается из одной из k нормальных генераль- генеральных совокупностей N (аг, 2г) (i =- 1,2, ..., k). Задача ис- исследователя — определить, какие я, из п исходных наблюде- наблюдений извлечены из класса N (а1г 2Х), какие л3 наблюдений извлечены из класса N (а2, 22) и т. д. Очевидно, числа лх, п2, ..., пк, вообще говоря, также неизвестны. Если ввести в рассмотрение вспомогательный вектор «параметр разбиения» у =- (ух, у2, ..., у„), в котором компо- компонента определяет номер класса, к которому относится наб- наблюдение Xh т. е. у,- = /, если Х^ N (аг, 2г) (I — 1,2, ..,, п), то задачу разбиения на классы можно формулировать как задачу оценивания неизвестных параметров у1( у2,..., у„ при «мешающих» неизвестных параметрах аг и 2г 169
(/ -1,2,..., k). Обозначив весь набор неизвестных пара- параметров с помощью 6, т. е. 9 — (у; а.х, ..., ah; 2Ь ..., Sh), и пользуясь известной [16] техникой, получаем логарифми- логарифмическую функцию правдоподобия для наблюдений X,, Х2> .... X.„: Ч- л, (y) log | Sf I j. E.23) Как известно, оценка 9 параметра 0 по методу максимально- максимального правдоподобия находится из условия / (9) — max / (9). Поэтому естественно было бы попытаться найти такое значение «параметра разбиения» у, а также такие векторы средних а; и ковариационные матрицы 2,, при которых ве- величина — 2/ @) достигла бы своего абсолютного минимума1. При известном разбиении у оценками максимального правдоподобия для а( будут «центры тяжести» классов X<v){/)=_!_ V Xi (/-1,2 k). Подставляя их в E.23) вместо аг и воспользовавшись оче- очевидными тождественными преобразованиями, приходим к эквивалентности задачи поиска минимума функции - -2/(9), определенной соотношением E.23), и задачи поиска мини- минимума выражения (r()) n,log 12,1], E.24) или, что то же, выражения 2 iSp(*,«?,24-*)+л,/log|S,Ц. E.25) i= i В последнем выражении W; — выборочная ковариацион- ковариационная матрица, вычисленная по наблюдениям, входящим в со- состав /-го класса (см. E.13)). 1 Оговоримся сразу, что длжефлю сосюятельноои полученных при этом оценок Э остается под сомнением, поскольку размерность неизвестного векторного параметра Э превосходит в данном случае общее число наблюдений, которыми располагаем. 170
Анализ выражений E.24) и E.25) в некоторых частных случаях немедленно приводит к следующим интересным вы- выводам: если ковариационные матрицы исследуемых генеральных совокупностей равны между собой и известны, то задача оценивания неизвестного параметра 0 по методу макси- максимального правдоподобия равносильна задаче разбиения наблюдений X, на классы, подчиненной функционалу каче- качества разбиения вида Q, (S), в котором под расстоянием d подразумевается расстояние Махаланобиса; если ковариационные матрицы исследуемых гене- генеральных совокупностей равны между собой, но неизвестны, то, подставляя в E.25) вместо 2, — 2 ее оценку макси- максимального правдоподобия убеждаемся в эквивалентности задачи оценивания (по мето- методу максимального правдоподобия) параметра 6 и задачи по- поиска разбиения наблюдений X, на классы, наилучшего в смысле функционала качества Q3 (S); если ковариационные матрицы исследуемых генераль- генеральных совокупностей не равны между собой и не известны, то, подставляя в E.25) вместо 21; их оценки максимального правдоподобия W;, убеждаемся в эквивалентности задачи оценивания по методу максимального правдоподобия пара- параметра 6 и задачи поиска разбиения наблюдений Хг на клас- классы, наилучшего в смысле функционала качества Qt (S). В [303] авторы пытаются конструировать алгоритмы, ре- реализующие идею получения оценок максимального правдо- правдоподобия для параметра 6. Однако, нам представляется, глав- главная ценность подобного подхода лишь в его методологиче- методологической, качественной стороне, в том, что он позволяет строго осмыслить и формализовать некоторые функционалы каче- качества разбиения, введенные ранее чисто эвристически. Кон- Конструктивная же сторона подобного подхода упирается в трудно преодолимые препятствия вычислительного плана, связанные с колоссальным количеством переборов вариан- вариантов уже при сравнительно небольших размерностях р и объ- объемах выборки. Роль функционалов качества разбиения в построении об- общей теории автоматической классификации и разнообраз- разнообразные примеры функционалов качества, используемых в кон- конкретных (распространенных в статистической практике) ал- алгоритмах автоматической классификации, описаны в гл. 10. 171
5.4.7. Функционалы качества классификации как показате- показатели степени аппроксимации данных. Поскольку формируе- формируемая классификационная структура является приближен- приближенным представлением имеющихся данных, естественно воз- возникает идея формализации задачи классификации как зада- задачи аппроксимации матрицы данных матрицей, характеризу- характеризующей искомую классификацию. Для реализации этой идеи необходимо тем или иным образом выбрать, во-первых, мат- матричный способ представления классификации и, во-вторых, меру близости между матрицами, соответствующими ис- исходным данным и искомым классификациям. Рассмотрим некоторые' возникающие при этом задачи для ситуаций, когда классификация рассматривается как а) иерархия классов, б) разбиение, в) совокупность непустых (возможно, пересекающихся) подмножеств, а в качестве меры бли- близости матриц используется обычная евклидова метрика — сумма квадратов разностей их соответствующих элементов. В одной из первых версий аппроксимационная постанов- постановка задачи была рассмотрена для классификации, представ- представленной иерархической системой кластеров, т. е. совокуп- совокупностью разбиений S1, S2,..., Sm множества объектов О, такой, что каждое последующее разбиение S* получается из предыдущего разбиения S' объединением некоторых его классов (t = 1,2, .... т), причем последнее разбиение Sm состоит из единственного класса, совпадающего со всем множеством О1. Разбиение S1 соответствует t-му уровню ие- иерархии, характеризуемому также индексом уровня ut, мо- монотонно зависящим от t (обычно полагают ut = t). Такая иерархическая система порождает, в частности, матрицу рас- расстояний между объектами О,, О,- по следующему правилу: расстояние d (i, /) между ними равно индексу уровня ut того разбиения S1, в котором они впервые попадают в один и тот же класс. Мера близости d (i, j) является ультра- ультраметрикой, т. е. удовлетворяет усиленному неравенству треугольника: d (i, j) ^ max (d (i, k), d (/, k)) для любых i, j, k = 1, ..., п. Имеет место и обратное утверждение: всякая ультраметрика порождает иерархическую систему кластеров, индексами уровня которой служат различающие- различающиеся значения ультраметрики. Таким образом, иерархические системы кластеров эквивалентно представимы ультрамет- ультраметрическими матрицами близости. Это позволяет формули- формулировать задачу построения иерархической системы класте- кластеров как задачу аппроксимации заданной матрицы расстоя- расстояний ptj с помощью ультраметрических матриц [250]. Ока- 1 Иерархическим процедурам классификации посвящена гл. 8. 172
залось, что если искомая ультраметрика удовлетворяет ап- априорному ограничению d (i, j) < ptj, а критерий аппрокси- аппроксимации — сумма квадратов (или других монотонных функ- функций) от разностей d (/, /) — ри-, то оптимальной будет сис- система кластеров, получаемая по методу «ближайшего соседа». Иными словами, ультраметрическое расстояние d (/,/) есть не что иное, как минимальное значение р, при кото- котором /?-граф Тр — {(/, jY-Ptj <; р) содержит последователь- последовательность ребер, соединяющую объекты 0г и О; (или, что то же самое, максимальное ребро на той части кратчайшего незамкнутого пути, которая соединяет эти объекты). Из сказанного вытекает следующее свойство «компакт- «компактности» оптимальных кластеров: любое «внутреннее» расстоя- расстояние рц для объектов Oit О, принадлежащих одному и тому же кластеру S, меньше любого расстояния d (к, I) «во вне», т. е. при любых 0k из S и 0и не принадлежащих S. Задача аппроксимации с противоположным ограниче- ограничением d (f, /) > ptj приводит к методу «дальнего соседа» с аналогичными свойствами. Задача аппроксимации матрицы близости с помощью ие- иерархической системы кластеров без ограничений не рассмат- рассматривалась практически в литературе, в отличие от задач ап- аппроксимации с помощью разбиений и подмножеств (задавае- (задаваемых, впрочем, специальными типами ультраметрик). Рас- Рассмотрим некоторые результаты, полученные в [92] примени- применительно к ситуации, когда элементы матрицы характеризуют не расстояние, а сходство (связь) между объектами. Разбиение S = {Slt ..., Sh} множества объектов О пред- представим матрицей связи вида {^stj}, где s^ •= 1, если Оь О} содержатся в одном и том же классе разбиения S, и Sij—Q в противном случае, а К — вещественное число, характе- характеризующее уровень связи между объектами «внутри» классов S. Нетрудно видеть, минимизация суммы квадратов разно- разностей величин Ри — Xstj при заданном К > 0 эквивалентна задаче отыскания такого разбиения S, которое максимизи- максимизирует суммарные внутренние связи /E, я)= f S <Ри-*>= 2 2 p«-*2n?- <5-26) t= i i,/est t= l i./est t Величина я = %12 играет здесь, с одной стороны, роль порога существенности связей р1}, поскольку при ри > я выгодно поместить О,- и О, в один и тот же класс (рг, —я > 0), а при pij < л, напротив, это невыгодно, и, с другой стороны, роль параметра компромисса двух противоречивых 173
критериев—максимума суммы внутренних связей 2 2>рц t nes net = 1 (S) и минимума меры концентрации — Snf = Zt (S). n2 ( Оптимальное по данному критерию разбиение S = {Su ..., Sk} компактно в том смысле, что средняя связь р (St)= -- 2 Pijln't в каждом из его классов St не меньше, чем сред- няя связь р (St, St) BO вне и чем средняя связь между лю- любыми классами р (Si, St). Точнее, для любых t, q, I справед- справедливо неравенство р (Sh §,), р (Sq, S() < я < р (St). Разбиение, удовлетворяющее данному свойству, может быть найдено с помощью локально-оптимального агломера- тивного алгоритма, на каждом шаге которого объединяются те классы St, Sq, для которых сумма связей 2 2 (ри — я) максимальна и положительна. Процесс объединений пре- прекращается, когда такие суммы для всех t ^A ц становятся неположительными. Таким образом, данная задача приво- приводит к сумме всех связей (за вычетом порога) как мере бли- близости классов. В том случае, когда величина К не фиксирована заранее, а подбирается в соответствии с квадратичным критерием ап- аппроксимации, ее оптимальное значение (при данном S) рав- равно среднему значению внутренних связей t= I i-/est I t=. i В этой ситуации необходимое условие оптимальности S может быть уточнено следующим образом: средняя внут- внутренняя связь к (S) по крайней мере вдвое превышает сред- средние связи между любыми двумя классами (р (St, S q)) или во вне (р (St, St)). Данное условие также может исполь- использоваться в качестве критерия оптимизации и остановки в агломеративном методе последовательного объединения классов. К достоинствам рассмотренной аппроксимационной за- задачи классификации относится то, что, во-первых, она до- допускает интерпретацию в терминах порога существенности (он же показатель компромисса) я; во-вторых, приводит к «компактным» в указанном смысле кластерам, число кото- которых не задается заранее, и, в-третьих, при некоторых кон- конкретных способах расчета связей ptJ эквивалентна другим аппроксимационным критериям многомерной классифика- классификации по матрице «объект — свойство», содержащей как коли- количественные, так и номинальные признаки [111]. Особенно- 174
стью данного критерия является наличие единого порога существенности для всех классов, что неудобно в тех не- нередких ситуациях, когда структура данных отражает нали- наличие кластеров различных «диаметров». Этот недостаток в значительной мере преодолевается в методике последовательной аппроксимации матрицы связи с помощью отдельных подмножеств множества объектов О. Подмножество S ^ О характеризуется (пхя)-матрицей {KstJ}, где su 1 при 0it Oj (i S и s^ - О в противном слу- случае. При фиксированном значении X > О задача квадратич- квадратичной аппроксимации матрицы {p,j} B множестве матриц тако- такого вида эквивалентна задаче максимизации суммы внутрен- внутренних связей f(S, П)= ^ (/?,•;--Л) = ^ Pu — WlS, i./(s ijes что представляет собой часть критерия E.26), соответст- соответствующую одному классу. Здесь я - У2, a /is — число объектов в S. Необходимое условие оптимальности здесь принимает следующий вид. Оптимальное множество S является я- кластером в том смысле, что для всякого объекта О,- ? S его средняя связь р (i, S) - 2 рц/ns с S не меньше, чем л, тогда как для О,- §t S p (i, 5)< я. Это свойство позволяет формировать локально-оптимальный я-кластер путем пос- последовательного присоединения к S, начиная с S=0, объ- объектов, имеющих с «текущим» S максимальную среднюю связь р (/. S), если р (/, S) > я. - В том случае, когда величина К или я - К/2 заранее не задана, ее выбор можно также подчинить аппроксимацион- ному критерию, который, как нетрудно убедиться, равен в этом случае g* {S), где g(S)= S Pn/ns = nsp(S), E.27) ies причем р (S) - 2 Pij/nj — не что иное, как оитималь- ное значение Я, равное средней внутренней связи. Оптимальное по данному критерию множество S являет- является «сильным» кластером в том смысле, что его средняя внут- внутренняя связь р (S) по крайней мере вдвое превышает сред- среднюю связь р (/', S) с S любого объекта О, ф S. Отсюда выте- вытекает алгоритм построения локально-оптимального сильно- сильного кластера S с помощью последовательных присоединений к «текущему» S тех 0;, для которых р (/, S) максимально (по i 63= S), если р (i, S)> p {S)f2. Подобные алгоритмы формирования отдельных кластеров развиваются в литера- 175
туре довольно давно, правда, из чисто эвристических сооб- соображений, например метод р-коэффициентов [161], алгоритм Спектр [34] и др. В случае, когда часть связей ptj может быть отрицательна (если, например, матрица {ри\ предварительно центриро- центрирована), аппроксимационный критерий g2 (S) допускает ре- решение, при котором g (S), а значит, и порог л, отрицатель- отрицательны. В этом случае оптимальное множество S является «ан- «антикластером», так как состоит из наиболее непохожих друг на друга объектов. До последнего времени задачи по- построения антикластеров в приложениях рассматривались редко. Описанный подход допускает естественное развитие, со- состоящее в многократном повторении аппроксимации приме- применительно к «остаточным» матрицам связей, получаемым вы- вычитанием из ри «объясненных» на данном шаге связей ^si7. Очевидно, на разных этапах процесса аппроксимируемые матрицы связи будут разными, так что конструируемые кла- кластеры и их средние внутренние связи будут, вообще говоря, разными. Указанный метод последовательного исчерпания связей pij (качественный факторный анализ 1110]) может рассматриваться как пошаговая процедура идентификации модели аддитивных кластеров, согласно которой заданная матрица связи {рц} представляется (с некоторой погреш- погрешностью) в виде суммы матриц {kts[f}, отвечающих искомым кластерам S,: Pij = K + h si/ + h s'b +--+K ski/+ ?ij, E.28) где Щ) — минимизируемые невязки модели. Согласно методу последовательного исчерпания сначала определяется и вычитается из р1} оптимальное Хо, равное среднему значению pi3, затем матрица ри — Хо аппроксими- аппроксимируется матрицей вида {A,xs/j}; после этого остаточная мат- матрица pij—^0 — Kslu аппроксимируется матрицей {X2s,-/} и т. д. Особенностью метода является декомпозиция «"./ t i.i где справедливая независимо от того, пересекаются класте- кластеры S, друг с другом или нет. -176
Разложение E.29) позволяет трактовать величины vt как характеристики значимости вклада отдельных класте- кластеров в дисперсию исходных связей и на этой основе оцени- оценивать доли объясненной и необъясненной дисперсии данных, что включает кластер-анализ в традиционную методологию многомерного статистического анализа. Указанные свойст- свойства метода последовательного исчерпания (декомпозиция E.29), «сильная компактность» кластеров, вычислительная эффективность) дают ему определенные преимущества по сравнению с другими подходами к оценке параметров модели E.28) [111]. Рассмотрим некоторые критерии классификации, воз- возникающие в задачах аппроксимации таблиц «объект — свойство». В этих задачах подмножества объектов S задают- задаются л-мерными A, 0)-векторами z ~ (zt), где г,- = 1, если хг 6 S и z,i = О в противном случае. Разбиение S = {S,, ..., Sk} множества объектов задается (пX^-матрицей Z = = (zit) со столбцами гъ г2, гк, характеризующими классы разбиения S. Очевидно, (яХ")-матрица ZZ' совпадает с ра- ранее определенной матрицей {s,-7-}, a k X ^-матрица Z' Z — диа- диагональная матрица величин nt. Линейное пространство L (Z) = {г/г = Za при подходящем а} является адекватным представлением разбиения S, поскольку всякий вектор г = Za выражает возможную кодировку классов St величи- величинами at. Аппроксимационные построения в терминах линейных пространств, ассоциированных с номинальными и количе- количественными признаками, приводят к критериям вида E.1), E.11) и E.26) при подходящих способах вычисления харак- характеристик близости объектов [111]. Здесь рассмотрим только наиболее прозрачную схему метода главных кластеров [112]. Согласно этой схеме матрица данных X =- (хц)A— номера объектов, / — номера признаков) аппроксимируется каким- либо элементом г 6 L (Z), где Z — (п X ^-матрица искомой классификации (с не обязательно непересекающимися клас- классами), так что справедливо представление х,} = avztl + cibj zl2 + ... + ah} zth + ги E.30) с «невязками» ef;-. Смысл равенств E.30): значения признаков / на объектах О, 6 St с точностью до невязок гц совпадают с величинами atj, которые задают, таким образом, «эталон» кластера St в признаковом пространстве. Модель E.30) является линейной моделью факторного анализа (см. гл. 14) с той особенностью, что величины zit принимают не любые значения, а только нулеединичные. 177
Аппроксимационная задача отыскания произвольных а,] и нулеединичных г,-, по заданным xti в модели E.30) с целью минимизации суммы квадратов невязок как нетрудно показать, эквивалентна задаче построения классификации 5 = {Slt ..., S,,} (при непересекающихся классах), минимизирующей критерий E.11) с atJ- = х3 (t), или, что то же самое, максимизирующей критерии вида 8E) = ? -i- 2 Ьи, E.32) /=i я< i.lts , где связи между объектами — их скалярные произведения Вид критерия E.31) позволяет в какой-то мере уточнить характер предварительного преобразования данных, необ- необходимого для адекватного применения критериев, эквива- эквивалентных E.11) и E.32). Действительно, в сумму E.32) все невязки ?и входят равноправно, что подразумевает равно- равноправие всех элементов матрицы данных Скажем, измене- изменение масштаба /-го признака в а раз вызовет а--кратное из- изменение «веса» соответствующих невязок в критерии E.31) и соответствующее изменение решения. По-видимому, кри- критерию E.31) соответствует предварительное уравновешива- уравновешивание матрицы данных, приводящее к выполнению равенств 2х2г, — п, Ъхгч - р. Формулировка задачи классификации как задачи оцен- оценки параметров модели E.30) позволяет распространить на нее принцип пошаговой аппроксимации. На первом шаге отыскиваются параметры первого кластера путем миними- минимизации критерия 2 (xtj — а,] г,) 2 по произвольным а3- и нулеединичным г,-. Полученное решение определяет эталон- эталонный вектор первого кластера а, = (а13) и его состав гг = ¦= (гг1). На общем (/ + 1)-м шаге исходя из полученного решения at, zt и «текущей» остаточной матрицы х*ц осуществляется переход к матрице следующего шага Метод назван методом главных кластеров из-за аналогии с методом главных компонент, «простирающейся» вплоть до декомпозиции 2*?/= ? v,+2e?/. E.33) C.J t=\ i.f 178
где vt = g (St) = nt b (S) — вклад г'-го кластера St в суммарный разброс данных, справедливой даже при пересе- пересекающихся главных кластерах. Ситуация здесь похожа на ту, которая обсуждалась применительно к модели аддитив- аддитивных кластеров E.28) с декомпозицией E.29). На каждом ^-м шаге аппроксимация сводится к максимизации величины g (St) и соответственно каждый главный кластер является сильным кластером (относительно матрицы связей {&,/}). Локально-оптимальный алгоритм последовательного при- присоединения объектов к кластеру 5 начиная с .S = 0, по мак- максимуму средней связи b (i, S) (О, t? S), имеет здесь простой геометрический смысл: к S присоединяется тот объект 0г, длина проекции которого на радиус-вектор центра тяжести S превышает половину длины радиус-вектора. С точки зрения интерпретации главных кластеров и от- отбора «значимых» компонент решения особый интерес пред- представляют разложения = У b(i, Sf) = 2fl?/"" которые характеризуют относительный вклад (значимость) отдельных объектов (b (i, St)) и признаков (a't,nt) примени- применительно к данному конкретному кластеру. Таким образом, обращение к модели E.30) расширяет возможности традиционного дисперсионного критерия E.11) и дает решения, обладающие определенными преимущест- преимуществами («шлейф» интерпретирующих характеристик, «силь- «сильная компактность» кластеров, возможность пересечений и т.п.). ВЫВОДЫ 1. Общая постановка задачи классификации совокупности объектов 0и 02, ..., Оп в условиях отсутствия обучающих выборок состоит в требовании разбиения этой совокупно- совокупности на некоторое число (заранее известное или нет) однород- однородных в определенном смысле классов. При этом исходная информация о классифицируемых объектах представлена либо значениями многомерного признака (по каждому объек- объекту в отдельности), либо матрицей попарных расстояний (или близостей) между объектами, а понятие однородности осно- основано на предположении, что геометрическая близость двух или нескольких объектов означает близость их «физических» состояний, их сходство. 179
2. Математическая постановка задачи автоматической классификации требует формализации понятия «качество разбиения». С этой целью в рассмотрение вводится понятие критерия (функционала) качества разбиения Q (S), кото- который задает способ сопоставления с каждым возможным разбиением S заданного множества объектов на классы не- некоторого числа Q (S), оценивающего (в определенной шкале) степень оптимальности данного разбиения. Тогда задача по- поиска наилучшего разбиения S* сводится к решению оптими- оптимизационной задачи вида Q[S) — extr, E.34) S6 A где А — множество всех допустимых разбиений. 3. В зависимости от наличия и характера априорных сведе- сведений о природе искомых классов и от конечных прикладных целей исследователь обращается к одной из трех основных составных частей математического аппарата классификации в условиях отсутствия обучающих выборок1 1) методам расщепления смесей вероятностных распределений (каждый класс интерпретируется как параметрически заданная одно- модальная генеральная совокупность при неизвестном зна- значении определяющего ее параметра, а классифицируемые наблюдения —как выборка из смеси таких генеральных со- совокупностей), 2) методам собственно автоматической классификации или кластер-анализу (исследователь не имеет оснований для параметризации модели, а иногда и для ин- интерпретации последовательности классифицируемых наблю- наблюдений в качестве выборки из генеральной совокупности); 3) классификационным процедурам иерархического типа (главная цель—получение наглядного представления о стратификационной структуре всей классифицируемой со- совокупности, например в виде дендрограммы). 4. Выбор метрики (или меры близости) между объектами, каждый из которых представлен значениями характеризу- характеризующего его многомерного признака, является узловым мо- моментом исследования, от которого решающим образом зави- зависит окончательный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения. В каждой конкретной задаче этот выбор должен произво- производиться по-своему, в зависимости от главных целей исследо- исследования, физической и статистической природы анализируе- анализируемого многомерного признака, априорных сведений о его вероятностной природе и т.п. В этом смысле схемы, осно- основанные на анализе смесей распределений, а также класси- 180
фикация по исходным данным, уже представленным в виде матрицы попарных расстояний (близостей), находятся в вы- выгодном положении, поскольку не требуют решения вопро- вопроса о выборе метрики. 5 Важное место в построении классификационных проце- процедур, в первую очередь иерархических, занимает проблема выбора способа вычисления расстояния между подмножества- подмножествами объектов Изящное обобщение большинства используе- используемых в статистической практике вариантов вычисления рас- расстояний межд} двумя группами объектов дает расстояние, подсчитываемое как обобщенное степенное среднее всевоз- всевозможных попарных расстояний между представителями рас- рассматриваемых двух групп (см. E.8)). 6. В статистической практике выбор функционала качества разбиения Q (S) обычно осуществляется весьма произволь- произвольно, опирается скорее на эмпирические и профессионально- интуитивные соображения, чем на какую-либо точную фор- формализованную схему (см., например, способ вывода функ- функционала качества E.21)). Однако ряд распространенных в статистической практике функционалов качества удается постфактум обосновать и осмыслить в рамках строгих мате- математических моделей. Возможность этого появляется при на- наличии дополнительных априорных сведений о классах, по- позволяющих, например, представлять каждый класс в каче- качестве параметрически заданной одномодальной генеральной совокупности (см. основанный на смеси нормальных сово- совокупностей математико-статистический анализ функциона- функционалов Q1 (S), Q, (S) и Q4 (S) в п. 5.4.6) 7. Еще один подход к осмыслению и обоснованию методов автоматическои классификации представлен аппроксимаци- онными моделями, когда искомая классификация характе- характеризуется матрицей определенной структуры (например, ультраметрической матрицей близости или аддитивными кластерами E 28)), а задача состоит в том, чтобы оценить па- параметры этой структуры таким образом, чтобы она мини- минимально отличалась от матрицы исходных данных. В такой постановке проблема классификации сближается с пробле- проблемами факторного анализа (см., в частности, модель главных кластеров E.30), которая является реализацией для дан- данного случая соотношений линейной модели факторного ана- анализа — см. гл. 14). Поэтому данный подход в определенной мере интегрирует традиционные методы кластер-анализа («компактность» кластеров в признаковом пространстве) и многомерной статистики (декомпозиция разброса исход- исходных данных на «вклады» отдельных кластеров и других эле- элементов решения). 181
Главаб. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ (ПАРАМЕТРИЧЕСКИЙ СЛУЧАИ). РАСЩЕПЛЕНИЕ СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИИ 6.1. Понятие смеси вероятностных распределений 6.1.1. Примеры. Начнем пояснение понятия смеси распреде- распределений с рассмотрения ряда конкретных примеров. Пример 6.1. Контроль (по количественному призна- признаку) изделий (полуфабрикатов) совокупности, составленной из продукции двух разных станков. В отдел технического контроля (ОТК) поступают партии изделий, составленные с помощью случайного извлечения из объединенной продук- продукции двух станков (станка А и станка В). Изделия контроли- контролируются по некоторому количественному параметру (линей- (линейному размеру) | мм, так что результатом контроля г-го изде- изделия партии является число xt мм (изделия на станках не маркируются, так что в ОТК не известно, на каком именно станке произведено каждое из них). Производительность станка Л в 1,5 раза выше производительности станка В. Задано номинальное значение контролируемого параметра а -= 65 мм и известно, что точность работы станков характе- характеризуется одинаковой величиной среднеквадратических от- отклонений аА = ]^D?,a и ов = [/"Din, равной 1,0 мм1. Поз- Позже выяснилось, что станок А был настроен правильно (про- (производил изделие со средним значением Е|« — 65 мм, рав- равным номиналу), в то время как настройка станка В была сбита в направлении завышения номинала (а именно ЕЕВ= = 67 мм). Известно также, что распределение размеров изделий, произведенных на каком-то определенном станке, описыва- описывается нормальным законом с параметрами av =~ E|v и а| = = D|T (у ¦= А или у — В). Очевидно, анализируемая в ОТК по наблюдениям xlt х.г, ..., хп ... генеральная совокупность будет состоять из смеси двух нормальных генеральных совокупностей, одна из 1 Случайная величина ? будет снабжаться нижним индексом (А или В) в тех случаях", когда речь идет о продукции какого-то оп- определенного станка (соответственно стайка А или станка В). 182
которых представляет продукцию станка А и описывается в соответствии с вышесказанным плотностью а другая — продукцию станка В и описывается плотностыа aB, ah)= -е 2о Обозначая 9Т - (ау, о$), а удельный вес изделий стан- станка у через Ру (у = А, В), можем записать уравнение функ- функции плотности f(x), описывающей закон распределения ана- анализируемого признака ? во всей (объединенной) генеральной совокупности, в виде: ' (х) = pa ф (х; 9.4) + рв Ф (х; 9В). F.1) Учитывая, что в объединенной генеральной совокупно- совокупности продукции станка А в 1,5 раза больше, чем продукции станка В (поскольку производительность станка А в 1,5- раза выше), а также то, что ал = 65 мм, ав = 67 мм, о% ~ = ав = 1 мм2, имеем: , _J*-65J (X-67)* -I=e ^ . FЛ'> Правыми частями уравнений F.1) и F. Г) и представлен частный случай того, что принято называть смесью вероят- вероятностных распределений х. На рис. 6.1 представлены графики функций плотности fA (х), /в (х) и f(x). В соотношениях F.1) и F.Г) величины рл =0,6 и рв~ •=* 0,4 представляют удельные веса соответствующих компо- компонентов смеси (их еще называют априорными вероятностями появления наблюдений именно из данного компонента сме- смеси), а 9д = (па, о\) и 9в^ (ав, ав) — векторные пара- параметры, от значений которых зависят законы распределения компонентов смеси. 1 Речь идет о частном случае, поскольку в общей модели смесн распределений, во-первых, могут участвовать более чем два (и даже континуум) составляющих смесь распределения, а во-вторых, ана- анализируемые распределения могут быть многомерными и не обяза- обязаны быть однотипными (в данном примере оба компонента — нор- нормальные). 183
Если сотрудники ОТК или потребители изделий-полу- изделий-полуфабрикатов захотят по наблюдениям хъ хг, ... определить, на каком именно станке произведено каждое из них, то как раз и возникает одна из типичных задач классификации наб- наблюдений в условиях отсутствия обучающих выборок (ко- (конечно, в данном примере можно представить себе специаль- специально организованное производство этих изделий, в результате 0,6 f, M X, ММ Рис. 6.1. Графики функции плотности от- отдельных компонентов и самой смеси из примера 6.1 для/(х) которого можно получить отдельно изделия от станка А и отдельно — от станка В и использовать их в дальнейшем в качестве обучающих выборок). Пример 6.2. Выявление и анализ типов потреби- потребительского поведения по данным обследований семейных бюд- бюджетов [154, с. 47—48, 68—69]. Здесь представлен один из фрагментов исследования, проведенного с целью изучения (на базе семейных бюджетов) дифференциации потребностей, выявления основных типов потребительского поведения и определения главных типообразующих признаков (социаль- (социально-демографической, региональной, экономической приро- природы).Исследуемым многомерным признаком является вектор Y показателей уA), у(г\ ..., г/(р) потребительского поведения семьи, т. е. каждой (t-й) обследованной семье ставится в со- соответствие многомерное наблюдение , t=l, 2, .... n, где yffi — удельное (т. е. рассчитанное в среднем на одного члена семьи) количество m-го вида благ (товаров или услуг, 184
включая сбережения), потребляемое г-й обследованной се- семьей в базовый период (за год) и выраженное в натуральных или денежных единицах. В соответствии с одним из принятых в исследовании ба- базовых исходных допущений постулируется существование в анализируемом пространстве Tlp(Y) (Y ? ПР(У)) сравнитель- сравнительно небольшого (и неизвестного) числа k типов потребитель- потребительского поведения, таких, что различия в структуре потребле- потребления Y семей одного типа носят случайный характер (т. е. обусловлены влиянием множества случайных, не поддаю- поддающихся управлению и учету факторов) и незначительны по сравнению с различиями в потребительском поведении се- семей, представляющих разные типы. При этом предполага- предполагается, что случайный разброс структур потребительских поведений Y (j) внутри любого (/-го) типа описывается мно- многомерным (в нашем случае р-мерным) нормальным законом распределения с некоторым вектором средних (ив то же вре- время— наиболее характерных, наиболее часто наблюдаемых) значении и с ковариационной матрицей (см. сведения о многомерном нормальном законе в [11, п. 6.1.51). Однако в начале исследования нет сведений об упомяну- упомянутых гипотетических типах потребительского поведения: неизвестно ни их число k, ни значения определяющих эти типы многомерных параметров Q} — (а (/), S (/)). Поэтому вынуждены рассматривать имеющиеся в нашем распоряже- распоряжении результаты бюджетных обследований семей Yy, Y, Yn F.2) как выборку из генеральной совокупности, являющейся смесью многомерных нормальных законов распределения. Другими словами, функция плотности / (У), описывающая распреде- 185
ление вектора Y в этой объединенной генеральной совокуп- совокупности, имеет вид /00 - ? РШ>(У: а(/); 20")), F.3) /= 1 где pj (/ = 1, 2, ..., k) — не известный нам удельный вес (априорная вероятность) семей /-го типа потребительского поведения в общей совокупности семей; аО); 2 (/)) = G' -^-(К-а(Л)' 2G)' (К-а(/)) _?- -L (In) 2 |S(/)j 2 многомерная нормальная плотность, описывающая закон распределения исследуемого признака Y (/) внутри совокуп- совокупности семей /-го типа потребительского поведения (/ — 1, 2, ... *). Далее необходимо но выборке F.2) оценить неизвестные значения параметров k, ръ р2, ..., рк-ъ а0) и 2 (/) (/ = 1, ..., k) модели F.3), чтобы в конечном счете суметь расклассифицировать (в определенном смысле наилучшим образом) семьи F.2) по искомым типам потребительского по- поведения. Общая схема действий, увязывающая задачу ста- статистическою оценивания параметров смеси типа F.3) с за- задачей автоматической классификации, изложена в п.6.2. 6.1.2. Общая математическая модель смеси распределений. Рассмотренные в примерах смеси F.1) и F.3) представляют собой частные случаи общей модели смеси, определение ко- которой дадим здесь. Обобщение рассмотренных в примерах смесей может быть произведено в направлении: 1) отказа от конечности и даже дискретности компонентов, составля- составляющих смесь, распространения понятия смеси на непрерыв- непрерывную смешивающую функцию; 2) отказа от однотипности участвующих в смеси компонентов (под однотипностью ком- компонентов-распределений понимается их принадлежность к общему параметрическому семейству распределений, на- например к нормальному). Итак, пусть имеется двухпараметрическое семейство р- мерных плотностей (полигонов вероятностей) распределе- распределения F = {fM(X; е(ш))}, F.4) где одномерный (целочисленный или непрерывный) пара- параметр а» в качестве нижнего индекса функции / определяет 186
специфику общего вида каждого компонента — распределе- распределения смеси, а в качестве аргумента при многомерном, вообще говоря, параметре б определяет зависимость значений хотя бы части компонентов этого параметра от того, в каком именно составляющем распределении Д, он присутствует. И пусть Р = {Р(ш)} • F.5) — семейство смешивающих функций распределения. Функция плотности (полигон вероятностей) распреде- распределения ) F.6) называется Р-смесью (или просто смесью) распределений се- семейства F (интеграл в F.6) понимается в смысле Лебега— Стильтьеса; см., например, [86]). Нас интересует использование моделей смесей в теории и практике автоматической классификации, поэтому сузим данное выше определение смеси и будем рассматривать в дальнейшем лишь случай конечного числа k возможных зна- значений параметра ш, что соответствует конечному числу скач- скачков смешивающих функций Р ((о). Величины этих скачков как раз и будут играть роль удельных весов (априорных ве- вероятностей) Pj компонентов смеси (/= 1, 2, ..., k), так что F.6) в этом случае может быть записано в виде Если же дополнительно постулировать однотипность компонентов-распределений ft (X; 9 (/)), т. е. принадлеж- принадлежность всех fj(X; 9(/)) к одному общему семейству {f(X; 9)}, то модель смеси может быть представлена в виде i 9(/)). F.6") -/=1 Интерпретация в задачах автоматической классификации /-го компонента смеси (/-й генеральной совокупности) в ка- качестве /-го искомого класса (сгустка, скопления) обуслов- обусловливает естественность дополнительного ограничения усло- условия, накладываемого на плотности (полигоны вероятно- вероятностей) fj (X; 9(/)) и заключающегося в их одномодальности. 6.1.3. Задача расщепления смеси распределений. Решить 187
эту задачу в выборочном варианте — значит по выборке классифицируемых наблюдений Xlt Хг, ..., Хп, F.7) извлеченной из генеральной совокупности, являющейся смесью F.6) генеральных совокупностей типа F.4) (при за- заданном общем виде составляющих смесь функций fa (X. 0(со)), построить статистические оценки для числа компонентов смеси k, их удельных весов (априорных вероятностей) рх, р2, ..., ри н, главное, для каждого из компонентов /(р) (X; 0((о)) анализируемой смеси F.6). В некоторых частных случаях имеющиеся априорные сведения дают исследователю точное знание числа компонентов смеси k, а иногда и апри- априорных вероятностей ps, p2, ..., pk. Тогда задача расщепле- расщепления смеси сводится лишь к оцениванию функций /щ (X; б((о)). Однако не следует ставить знак тождества между задачей расщепления смеси и задачей статистического оценивания параметров в модели F.6) по выборке F.7), поскольку зада- задача расщепления сохраняет смысл и применительно к гене- генеральным совокупностям, т. е. в теоретическом варианте. В этом случае она заключается в восстановлении компонен- компонентов /ш (X; 9 (со)) и смешивающей функции Р (со) по задан- заданной левой части / (X) соотношения F.6) и называется зада- задачей идентификации компонентов смеси. В п. 6.3 показано, что эта задача не всегда имеет единственное решение. 6.2. Общая схема решения задачи автоматической классификации в рамках модели смеси распределений (сведение к схеме дискриминантного анализа) Базовая идея, лежащая в основе принятия решения, к какой из k анализируемых генеральных совокупностей отнести данное классифицируемое наблюдение Xг, состоит в том, что наблюдение следует отнести к той генеральной совокупно- совокупности, в рамках которой оно выглядит наиболее правдоподоб- правдоподобным. Другими словами, если дано точное описание (напри- (например, в виде функций Д (X), ..., / k (X) плотности в непре- непрерывном случае или полигонов вероятностей в дискретном) конкурирующих генеральных совокупностей, то следует поочередно вычислить значения функций правдоподобия для данного наблюдения Xi в рамках каждой из рассматри- рассматриваемых генеральных совокупностей (т. е. вычислить зна- значения fx (Xi), U (Xt), ..., fh (Xt)) и отнести Xt к тому классу, 188
функция правдоподобия Которого максимальна1. Если же известен лишь общий вид функций fl (X; 6;), f2 (X; 62), ..., fh № 9fc)> описывающих анализируемые классы, но не из- известны значения, вообще говоря, многомерных параметров 0j, 02, ..., 6fe, и если при этом располагают так называемыми обучающими выборками, то данный случай лежит в рамках параметрической схемы дискриминантного анализа и поря- порядок действий будет следующим (см. гл. 2 и 3): сначала по у'-й обучающей выборке оцениваем параметр 6;- (/= 1,2,..., k), а затем производим классификацию наблюдений, руководст- руководствуясь тем же самым принципом максимального правдоподо- правдоподобия, что и в случае полностью известных функций /у (X). В схеме автоматической классификации, опирающейся на модель смеси распределений, как и в схеме параметриче- параметрического ДА, задающие искомые классы функции Д (X; 6^, f-i(X; 62),... также известны лишь с точностью до значений параметров. Но в схеме автоматической классификации не- неизвестные значения параметров 6Х, 02, ..., так же, впрочем, как и параметров k, pv p.z, ..., ph, оцениваются не по обуча- обучающим выборкам (их нет в распоряжении исследователя), а по классифицируемым наблюдениям Хъ Х2, ..., Х„ с помощью одного из известных методов статистического оценивания параметров (метода максимального правдоподобия, метода моментов или какого-либо другого; см. о процедурах стати- статистического оценивания параметров смеси в § 6.4). Начиная с момента, когда по выборке F.7) сумели получить оценки k, plt р2, ..., ph, Qu ..., 6fc неизвестных параметров k, pu p2, ..., ph, 6Х, 62, ..., 6fe модели F.6') или F.6"), снова имеем схему дискриминантного анализа и собственно процесс клас- классификации наблюдений F.7) производим точно так же, как и в схеме параметрического ДА (т. е. относим наблюдение Xt к классу с номером у0, если pfJJo (Хй 6/о) = max {pjX ^-~ 1 </< "k XfjiXr, в,)}). Итак, главное отличие схемы параметрического ДА от схемы автоматической классификации, производимой в рам- рамках модели смеси распределений,—в способе оценивания не- неизвестных параметров, от которых зависят функции, описы- описывающие классы. Но оценивание параметров в модели смеси— процесс неизмеримо более сложный, чем оценивание пара- параметров по обучающим выборкам. 1 Для большей ясности здесь подразумевается простой случай равных априорных вероятностей н равных потерь от неправнльного отнесения наблюдения Х( к любому из классов. Более общая схема и более подробно представлена в гл.1. 189
6.3. Идентифицируемость (различимость) смесей распределений Семейство смесей F.6) (Я(соNР, см. F.5)) называется иден- идентифицируемым (различимым), если из равенства f L (X; 6 (со)) dP (со) = j fa (X; в (to)) dP* (со) следует, что Р (со) s Р* (со) для всех Р (со) 6 Р- Поскольку нас интересуют в первую очередь конечные смеси типа F.6'), переформулируем понятие идентифициру- идентифицируемости (различимости) смесей специально применительно к ним. Конечная смесь F.6') называется идентифицируемой (различимой), если из равенства 2 следует: k = k* и для любого / A < / < k) найдется гакое / A < / < k% что Pj = pi и U (X; 9(/)) е /, (X; 6*(i)). В работах 1320, 321, 327] сформулированы необходимые и достаточные условия различимости для непрерывных и ко- конечных смесей. Из них, в частности, следует, что различными являются конечные смеси из распределений: 1) нормальных (в том числе многомерных); 2) экспоненциальных; 3) -нуас- соновских; 4) Коши. Описание и свойства перечисленных распределений см., например, в 111, гл. 6]. В то же время конечные смеси биномиальных, равномерных распределений в общем случае не являются идентифицируемыми. При оп- определенном классе смешивающих распределений не явля- являются идентифицируемыми и непрерывные смеси нормаль- нормальных распределений. Поясним это на примерах. Пример 6.3. Пусть семейство компонентов смеси со- состоит из равномерных распределений с неизвестными пара- параметрами, т. е. 6 = (а, о) и плотность f(X; Q) = f(X; a, a) = 0 при Х>а+а, при а~а < X 0 при X<Za—о. Рассмотрим класс конечных смесей, когда функция Я (со) = Р (а) имеет лишь два скачка, что соответствует 190
смешиванию двух различных однородных классов. Легко проверить, что для любого X (О < X < 1) /(А'; а, o) = Xf(X; а -аA-Х), aX) + (l-X)f(X; a+ + аХ, а A-Х)). Это означает, что смешивающая функция Р% (а) делает два скачка величины X и A — X) и если Х1 Ф Х2 , то /\, (а) ф ф Р%г (а). Аналогично можно произвести разбиение для любого числа классов. На рис. 6.2 представлен частный слу- 2 1 1 - Класс 1 i  -v 1 3 i ^ 0,33 0,5 0,33 0,5 Ы) Смесь классов I и II (Г и 1Г) 0,5 \ftl.M Класс II' 0.5 1,0 ¦'», Р2 х) - 1 1 ¦¦*! Класс II i 1 1 1 1 ^ 1-Q Класс Г 0,5 1 1 1 1 i 1,0 i -, 1,0 1,0 Рис. 6.2. Пример неразличимых смесей- произвольное разбиение точек, равномерно распределенных на отрез- отрезке прямой, на два класса 191
чай разбиения на два класса, когда два разных варианта смешивающих функций A-й вариант: Я,х = т, 2-й вариант: ^г = к) приводят к одному и тому же выражению для плот- плотности смеси распределений. Другими словами, однородная группа представителей, которые могут появиться равнове- равновероятно в любой точке неопределенной области, может трак- трактоваться как смесь (даже конечная) групп представителей, однородных в том же смысле. Но если об области, где могут появляться представители, кое-что известно, например в данном случае а = -^, то равномерное распределение уже нельзя разбить на смесь двух равномерных распределений с Пример 6.4. Рассмотрим семейство двумерных рав- равномерных распределений на секторах круга единичного радиуса с центром в точке @,0). Сектор задается начальным направлением <р и углом при вершине Р > 0, т. е. F = = {f(X; в)}, где Х= (tf1), *<2>), a 6 =• (ц>, |J). Таким обра- образом, для любых ф, р\, P2 (Pi + Р2 < 2я) выполняется равен- равенство т Pi4-P2 P1 + P2 = /(*; cp, I^ + Ps), что означает, что семейство смесей F неразличимо. Следова- Следовательно, равномерное распределение на круге с плотностью / (X; 0, 2я) ? F можно представить в виде — f(X; ф, n)+—f(X; ф + я, я). Это означает, что возможно любое разделение точек на два класса прямой, проходящей через центр. 6.4. Процедуры оценивания параметров модели смеси распределений Итак, из § 6.2 известно, что задача автоматической клас- классификации многомерных наблюдений F.7), решаемая в рамках модели смеси распределений вида F.6"), может быть сведена к обычной схеме дискриминантного анализа: не- необходимым предварительным этапом этой редукции явля- является процесс статистического оценивания по выборке F.7) (которую будем полагать в дальнейшем случайной, состоя- 192
щей из п независимых наблюдений многомерного признака X с законом распределения F.6")) неизвестных параметров k, pt, p2, ..., Ph-ъ ^i, 92, •••> 9fc- Во всем дальнейшем изло- изложении материала данной главы предполагается, что анали- анализируемая смесь идентифицируема (различима). И в теоретико-методическом, и в вычислительном плане проблема построения и анализа свойств процедур оценива- оценивания параметров смесей вида F.6") по выборке F.7) является весьма сложной. Одна из главных трудностей связана с оцениванием целочисленного параметра k — числа компо- компонентов (или числа классов) анализируемой смеси. Во всех описываемых ниже процедурах (кроме процедуры SEM) схема оценивания строится таким образом, что вначале за- заготавливаются оценки параметров р} и 8; (у — 1, 2,..., k) для последовательности фиксированных значений k (k — 1, 2, ..., К, где К — некоторая гарантированная мажоранта для возможного числа классов), а затем с помощью того или ино- иного приема подбирается «наилучшее» значение k в качестве оценки для не известного нам истинного числа классов k0. 6.4.1. Процедуры, базирующиеся на методе максималь- максимального правдоподобия. В данном пункте речь идет о процеду- процедурах, позволяющих находить максимум (по параметрам ри рг, ..., pk-u Gj, 62 8fe при фиксированном k) опреде- определяемой с помощью соотношения F.6) логарифмической функции правдоподобия (о функции правдоподобия см. [11, § 8.2]), т. е. о решении оптимизационной задачи вида B^/№^) F.8) /=l I Pj-ej Наиболее работоспособная общая схема построения про- процедур, позволяющих находить решения задачи F.8), была впервые, по-видимому, предложена в работах [166, 209, 2101, а затем развита в [333, 212, 254, 295] и др. Конкретные алго- алгоритмы, построенные по этой схеме, часто называют алгорит- алгоритмами типа ЕМ, поскольку в каждом из них можно выделить два этапа, находящихся по отношению друг к другу в после- последовательности итерационного взаимодействия: оценивание (Estimation) и максимизация (Maximisation). Общая схема построения процедур и их некоторые свой- свойства. Введем в рассмотрение так называемые апостериор- апостериорные вероятности gtj принадлежности наблюдения Xt к у-му классу: g,7- kPff{Xi;6j) (i= 1, 2, ..., л; /= 1, 2, .,., k). F.9) 7 заказ № 291 193
k Очевидно, gfj >0 и % gtj=l для всех i = 1, 2, .... п. За- тем обозначим в=(р1, /?2, ..., pft; 9^ 92, .... 8ft) и предста- представим анализируемую логарифмическую функцию правдопо- правдоподобия ЬЦВ)= 2 lnf 2 />./(*i5 в,)) в виде i \ i ' lnLF)= 2 ? ft/In ft + 2 2 4ts^f(Xt; Q,)- -2 2 g«ingu (ело) /= i «¦= i (справедливость этого тождества легко проверяется с уче- k том F.9) и того, что 2 йа — 0- Далее идея построения итерационного алгоритма вычис- вычисления оценок в = (/?!, р2, ..., рк\ 0!, 92 9fe) для пара- параметров в = (Pl, р2, ..., Ph; Qt, 92, ..., 0ft) состоит в том, что, отправляясь от некоторого начального приближения 6°, вычисляют (по формулам F.9)) начальные приближения gfj для апостериорных вероятностей gl} (этап оценивания), а затем, возвращаясь к F.10), при вычисленных значениях gij определяют значения в1 из условия максимизации от- отдельно каждого из первых двух слагаемых правой части F.10) (этап максимизации), поскольку первое слагаемое k Bi SgolnPj) зависит только от параметров pj(j — k п = 1, 2, ..., k), а второе слагаемое B 2 gt7- In / (Xt; 0Л) зависит только от параметров 97 (/ = 1,2,..., k). Очевидно, решение оптимизационной задачи 2 2 «!J)lnft-> max <6-n> /= 1 f=* I Vi.Pi, ¦ , Ph k дается выражением (с учетом v Pj = 1) здесь < — номер итерации, t = 0, 1, 2, ... 194
Решение оптимизационной задачи g\? inflX* Qj)-+ max F.13) получить намного проще решения задачи F.8): выражение для 9('+п записывается с учетом знания конкретного вида функций f (X; 9). Ниже приведены выражения для 9('+!> (при заданных g,y) для случая нормальных плотностей f(X; 9). В той же работе М. И. Шлезингера, где эта схема (позд- (позднее названная ЕМ-схемой) впервые предложена [166], уста- установлены и основные свойства реализующих ее алгоритмов (позднее в работах [334, 197, 295, 222] эти свойства были передоказаны и частично развиты). В частности, было дока- доказано, что при достаточно широких предположениях (на- (наиболее неприятным, жестким из них является требование ограниченности логарифмической функции правдоподобия, которое, правда, было неправомерно опущено в формули- формулировках [166]) предельные точки всякой последовательности, порожденной итерациями ЕМ-алгоритма, являются стацио- стационарными точками оптимизируемой логарифмической функ- функции правдоподобия In L (в) и что найдется неподвижная точ- точка алгоритма, к которой будет сходиться каждая из таких последовательностей. Если дополнительно потребовать поло- положительной определенности информационной матрицы Фи- Фишера для In L (в) при истинных значениях параметра в Ц1, § 8.2], то можно показать [295], что асимптотически по п -> оо (т. е. при больших выборках F.7)) существует един- единственное сходящееся (по вероятности) решение в (п) урав- уравнений метода максимального правдоподобия и, кроме того, существует в пространстве параметров в норма, в которой последовательность 8<'> (п), порожденная ЕМ-алгоритмом, сходится к в (п), если только начальная аппроксимация в0 не была слишком далека от 9 (п). Таким образом, результаты исследования свойств ЕМ-ал- горитмов метода максимального правдоподобия расщепле- расщепления смеси и их практическое использование показали, что они являются достаточно работоспособными (при известном числе компонентов смеси) даже при большом числе k ком- компонентов и при высоких размерностях р анализируемого признака X. Основными «узкими местами» этого подхода являются: необходимость предъявления требования ограниченности 7* 195
к анализируемой функции правдоподобия L (в), высокая слож- сложность и трудоемкость процесса вычислительной реализации соответствующих процедур и медленная сходимость по- порождаемых ими итерационных процессов. Смеси нормальных классов. Продолжим исследование за- задачи статистического оценивания параметров в смеси F.6"), состоящей из известного числа k классов. Дополнительно постулируем при этом, что каждый объект X класса / пред- представляет собой элемент нормальной генеральной совокуп- совокупности N (&}, 2), где векторы средних а; различны для раз- разных классов, а ковариационные параметры S совпадают, но неизвестны компоненты ни a.j (/ = 1, 2, ..., k), ни S. Кроме того, неизвестны априорные вероятности классов pj (j -¦= - 1, 2, ...,*). Легко проверить [210], что в этом случае 8и = -т - где I <Xj=ii Bj И pj = 2 Учитывая описанную выше схему ЕМ-алгоритма, следу- следует определить процедуру, которая максимизировала бы 1 хе -—(*«-•>)' по а^ и 2, или, учитывая, что в данном случае в7- = ( определить процедуру, которая максимизировала бы при условии, что g(V каким-либо способом уже получены. Эта процедура даст величины 6f+u = а(.'+1) для (t + 1)-го шага и б*^1» = 2f<+u по данным в}/* и в^. Два последую- 196
щих утверждения определяют точку максимума для In L} k и X 'п L) в итерационной процедуре, построенной по схеме /=i ЕМ-алгоритма. Для простоты их формулировки будем опускать индекс /, подчеркивающий связь с шагом процедуры. Напомним, что последовательность gu (/= 1, 2 k; г = 1, 2, ..., п) тако- такова, что 8и>Ь 2 Sij = g.i>0, 2 2, 8ti = n. j= i j= i i= i Утверждение 1. Пусть gJ7- — определенная вы- выше последовательность и / (X | 87) — р-мерные нормальные плотности, такие, что 9/ = (а7-, 2;). Тогда для любых век- вектор-столбцов Xlt Х2, ..., Хп величины In L} (j = 1,2, . ,, /?) достигают максимума при e> . 3 • i Утверждение 2. Пусть g;;- — определенная вы- выше последовательность и / (X | Э7) — р-мерные нормальные плотности, такие, что 9; = (а7, 2). Тогда для любых вектор- к столбцов Хь Х2,..., Хк величина 2 In L, достигает макси- максимума при п . к п а;= J- 2 gyX,, 2 = -!- 2 2 8,ЛХ1 ё' /= 1 ,= 1 (•= 1 и max У lnL;= — -^- |1п Bя)| - — In |?|. aj-s fT\ 2 2 Доказательство этих утверждений опирается на леммы 3.2.1 и 3.2.2 из 1161. Таким образом, при заданных (/) е*Р [«/«)*<+ P/WI 197
где величины ft п ,1/-!"' максимизируют 2 1° L}. Далее легко получить, что И «#'+»> = (/><< + «», *)'+«), »' + »»; /=1, 2, .... А). Если существуют пределы lira/rt') = ft, lima}4=aj, /= 1, 2, ..., k, limS<'>=S, то точка в=(/?ь /?2, ..., /?ft, aj, a2t ..., aft, S) является точ- точкой максимума функции правдоподобия (возможно, правда, что этот максимум является локальным). Легко видеть, что в качестве начальных данных можно- задать не точку 8<»> = (р{0), .... pi0), a|0), .... а1*0», ^<°>), а набор величин а;- @), E^ @), с помощью которых можно по- получить g',"' и т. д. Именно такая итерационная процедура предлагается в работе [210]. Замечание. Точки, для которыхgtj = \!k, явля- являются неподвижными точками итерационной процедуры, но представляют собой посторонние точки, так как в этом слу- случае а7- = а(/ = 1,2, ..., k). В случае двух классов (k ==? 2), как показано в B031, процедура сильно упрощается. Для произвольных а' @)= = (ах @), ..., а„ @)) и р @), имеем 198
я Далее определяются уточнения аир следующим образом: где Подставляя а A) и р* A) вместо а @) и р* @), можно итера- итерационную процедуру продолжить до тех пор, пока значения а и р не перестанут изменяться. Далее, после того как зна- значения а и р* установятся, можно определить оценку ковариа- ковариационной матрицы Естественно точку Xj отнести к классу 1, если gn >¦ gj2, т. е. если gfl > 1/2. Отсюда следует, что Xt будет отнесена к классу 1, если a'Xt -\- р <С 0, или к классу 2, если a'Xt-\- + Р > 0. Следовательно, а'Х + р* — 0 будет оценкой раз- разделяющей поверхности классов 1 и 2, а а и р* — оценками па- параметров разделяющей поверхности (см. гл. 2,3). Основные трудности этого метода классификации состо- состоят в том, что скорость сходимости итерационного процесса зависит от расстояния Махаланобиса р (аь а2) между класса- классами (см. гл. 1) и от начальных значений искомых парамет- параметров. Более того, может быть несколько локальных макси- 199
мумов и требуется, изменяя начальные данные, определить абсолютный максимум. Грубо говоря, итерационный про- цесс сходится к абсолютному максимуму а, (} (при k — 2) из точек а @), E @), если угол между а и а @) менее 45°. Это ясно показывает возрастание трудностей при росте раз- размерности. Если точка а @) выбрана случайно, то вероят- вероятность выполнения этого условия при р = 5 равна 0,076, при /?-=10 — 0,01, при /?= 15 —0,001, при р^= 20 — 0,0002. Поэтому при больших размерностях наблюдений (р > 10) желательно предварительно эту размерность снизить (на- (например, методом главных компонент; см. раздел III). Пример 6.5. Неограниченная функция правдоподо- правдоподобия. Рассмотрим простейший случай, когда число классов k = 2 и наблюдаемые величины X, (/ = 1,2,..., п) являются одномерными (р — 1). Плотность распределения смеси где в = (/?!, р2, аъ а2, аъ а2) являются неизвестными пара- параметрами (р1 + р2 = 1). В этом случае функция правдоподобия запишется ч П f(Xi)=L(pu р2, а^, а2, ах, а2). Рассмотрим поведение / (X) как функции от в. Если а) Ф Хи то / (Xt) является ограниченной функцией, так как 1 2О? 1 [ / о п е / < е~1''! ^/^Я*0у |/ ^Я | Л j — fly | для любых pj и о;. Если же pj > 0 и а> = Хи то / (Хг) стремится к бесконечности как A/ох) при ах -> 0. Однако, учитывая конечность предела / (Хг) при I Ф i, получаем, что при ах = Xt и о -> оо функция L (р^ р2, а, = Хг, а2, G[, а2) стремится к бесконечности, как 11а1 для любого р1 ф\ и любых а2 и а2, чего не происходит при а2 = alt так как при а2 = Gi = о lim Z. (рх, р2, ах = Хг, а2, а, а) = 0. Таким образом, любой набор plt p2, a, — Xit а2, ах = 0, а2 = 0, Р1+Рг= 1 и 0< рх< 1 обращает в бесконечность функцию правдоподобия. 200
Обобщение примера на многомерные смеси нормальных классов не представляет труда. Для этого достаточно рас- рассмотреть случай, когда компоненты наблюдений X,- какого- либо класса / линейно зависимы, т. е. |2| —>- 0 при а7- = Л'г. Пример показывает, что возможны ситуации, когда не выполняются условия сходимости итерационной процеду- процедуры ЕМ-алгоритма к оценкам максимального правдоподобия. Оценивание числа компонентов (классов) в модели смеси распределений. До сих пор, описывая процедуру статисш- ческого оценивания неизвестных значений параметров в мо- модели смеси, предполагали число k компонентов (классов) в правой части модели F.6") заданным. Однако в реальных задачах часто общее число искомых классов неизвестно, и, следовательно, параметр k приходится также оценивать по тем же исходным данным F.7). С этой целью воспользуемся тем, что для ряда последова- последовательных значений k = 1, 2, ... выше уже решены оптимиза- оптимизационные задачи вида F.8), т. е. вычислены такие значения параметров в (k) (k = \, 2, ...), при которых соответствую- соответствующие логарифмические функции правдоподобия In L (в (k)\ достигают максимума, т. е. при каждом фиксированном зна- значении k имеем Воспользуемся известным асимптотическим результатом (см., например, 1157, § 13.81), в соответствии с которым ста- статистика критерия отношения правдоподобия - 1)) — \nL(Q(k))] F.14) при условии справедливости гипотезы Hk: «истинное число компонентов смеси равно />» и при некоторых условиях ре- регулярности функции L (8) имеет распределение, сходящее- сходящееся (при /i-> оо) к распределению %2 с числом степеней сво- свободы, равным а + 1 (q — размерность параметра Э, от ко- которого зависит функция, задающая компонент смеси, а q + 1 — разность размерностей параметров в (k + 1) и 0 (k)). Процедуру построения оценки k для неизвестного числа классов k определим следующим образом: задавшись некоторой величиной а уровня значимости критерия, про- производим последовательную (по & —1, 2, ...) проверку гипо- гипотезы Hh при альтернативе #ft+1 с помощью статистики F.14) (гипотеза Нк отвергается, если величина F.14) оказывается большей 100 а — процентной точки х2"РаспРеДеленИя с (q + 1)-й степенью свободы); величину k, при которой гипо- 201
1еза Нk впервые оказалась неотвергнутой, принимаем за оценку истинного числа классов. В 1119] приводится результат, в соответствии с которым построенная таким образом оценка k (ti) дает при постоян- постоянных значениях уровня значимости а несколько завышенные величины числа классов, а именно имеет распределение (при истинном числе классов k0): lim P{k(n)<.k0} = 0; П~*оо lim P (k(n)=k0 4- т} = A — а) а"', т -0, 1, 2,... Нетрудно подсчитать асимптотическую (по п —*- оо) вели- величину среднего значения оценки k: lim E%(n) = k0 + —2—. Поэтому, если несколько модифицировать вышеописан- вышеописанную процедуру, выбирая в качестве уровней значимости критериев проверки гипотез Hh последовательности а (п), ч 1ены которых зависят от объема классифицируемых выбо- выборок и стремятся к нулю при п —>- оо,то можно добиться асим- асимптотической несмещенности и состоятельности оценок k (n). Другие полезные приемы подбора подходящих значений неизвестного числа классов k основаны на различных мето- методах разведочного статистического анализа, в частности на предварительной визуализации классифицируемых много- многомерных данных, например, с помощью процедур целенаправ- целенаправленного проецирования (см раздел IV). 6.4.2. Процедуры, базирующиеся на методе моментов. Речь идет о процедурах решения системы уравнений метода моментов [11, соотношения (8.25)] применительно к рассмат- рассматриваемой в данной главе модели смеси распределений. При составлении системы уравнений метода моментов реализуется следующая схема: 1) используя знание общего вида функции плотности (полигона вероятностей) смеси / (X) (см. формулу F.6")), вычисляют, в терминах неизвестных параметров /?-,, ..., рк, 0j, ..., 9;4, всевозможные теоретические моменты компонен- компонентов х<'> исследуемого многомерного признака X — (х<1>, *<2>, .... х<р>): первые моменты m'/J — Ex(l>, вторые мо- моменты т*,'1'^ = Е (x<li> ¦ хA*>) и т. д. в количестве, равном общей размерности оцениваемого параметра в (если размер- размерность параметра 0, определяющего распределение внутри класса, равна ц, то общая размерность оцениваемого пара- 202
метра в при заданном числе компонентов смеси k составит к — 1 + kq)\ 2) по выборке классифицируемых наблюдений F.7) нод- считываются соответствующие выборочные моменты m(hi^) и т. д.; 3) составляется система вида I тО) (в) = т</> i ,1, k,h,...-^\, 2, ...,/>, где левые части уравнений суть известные функции от неиз- неизвестных значений параметров в — (plt р1у . ., р^-ъ 8ц 82» .. , 9Л), а правые части уравнений — известные числа. Дальнейшие усилия направлены на решение системы {6 15), которое в каждом конкретном случае (при конкрети- конкретизации общего вида компонентов / (X, 8;) в F.6")) имеет свои специфические вычислительные трудности. «Узкими местами» данного подхода являются- чрезмерная громоздкость (а подчас практическая невозможность) его вычислительной реализации в случае многомерных анали- анализируемых распределений / (X, 9;) и большого числа k сме- смешиваемых классов, весьма скромное качество статистиче- статистических свойств получаемых при этом оценок 0 (в частности, дисперсия оценок тъ для s > 2, а соответственно и диспер- сия получаемых решений в остается слишком большой даже при возрастании объема выборки и). В работах [312, 178, 205, 291] содержатся примеры использования этого подхо- подхода для решения задачи расщепления смеси распределений, предпринимаются попытки преодолеть отмеченные выше трудности. Пример 6.6 Исследование весового распределения хлопкового волокна по длине [1591. При решении некоторых задач из области технологии текстильной промышленности и, в частности, в задачах о вытягивании, смешивании, рас- расчетах прочности пряжи, оценки неровности полуфабрикатов и т. п. необходимо исследовать весовое распределение хлопка по длине волокна. Предпринимавшиеся ранее специалиста- специалистами попытки описать это распределение с помощью кривых Гаусса, Шарлье, Пирсона, закона %2 «работали» лишь как формальная аппроксимация данной (обрабатываемой) вы- выборки волокон и теряли свою работоспособность при пере- переходе к другим выборкам, поскольку не отражали самого ме- механизма образования анализируемого распределения. 203
Визуальный анализ эмпирических плотностей весового распределения хлопкового волокна по длине, построенных по различным выборкам, позволил выявить некоторые об- общие (присущие всем экспериментальным кривым) законо- закономерности (см. пунктирную кривую на рис. 6.3): каждая кри- кривая имеет в зоне коротких волокон (в диапазоне от 15,5 до 21,5) небольшое, но устойчиво выраженное «плато» (близкое 7.5 11,5 15,5 19,5 23,5 27,5 31,5 35,5 39,5 43,5 47,5 51 Рис. 6.3 Графики плотностей весового распределения хлопкового волокна по длине (LM=38,1; LCp = 35,2; a — = 7,89) — экспериментального, —О — О модельного %2, —— — модельного, представленного смесью двух нормальных законов к локальному максимуму) и, кроме того, четко выраженный глобальный максимум в диапазоне от 30 до 40,5 мм с формой кривой в этом диапазоне, близкой к нормальной. Это при- привело нас к гипотезе, что каждое из анализируемых распреде- распределений может быть представлено смесью двух нормальных распределений: первое из них (коротковолокнистое) /х (х) с относительно малым удельным весом рх, небольшим сред- средним значением щ и относительно большим коэффициентом вариации определяет закон распределения волокон в их ко- короткой зоне, а второе (основное) /2 (х) с преобладающим удельным весом р2 = 1—plt средним значением а2> а^ и относительно малым коэффициентом вариации v2 = а2/а.г определяет закон распределения волокон в их основной («длинной») зоне. 204
Итак, модель смеси F.6") имеет здесь вид f(x)=p1(f1(x; alt о*) + ргщ{х; аг, а\), где (f>j(x; a,, a}) = -— е Т/2я а,- Поскольку нужно оценить пять неизвестных параметров ри alt of, аг, o%, то для построения системы уравнений метода моментов вида F.15) необходимо, с одной стороны, вычис- вычислить в терминах этих параметров первые пять теоретиче- теоретических моментов исследуемой случайной величины mq (в) (q= 1, 2, ..., 5), а с другой — подсчитать те же самые мо- моменты, но по имеющимся экспериментальным данным, т. е. вычислить выборочные моменты м та= q м Здесь М — число интервалов группирования по длине волокон; шч — вес волокон, отнесенных к s-му интервалу группирования; xs — длина волокна, соответствующая се- середине s-ro интервала группирования. Переходя для удобства от моментов к семиинвариантам1, получаем следующую систему уравнений относительно не- неизвестных plt p2, а,, а2, of и а\: k, k2 {к\ — Щкг+ k\) (a2-ai)*+ 6*! hfa-ks) (a,— -OlJ(°;-o?) + 3kx k2{o\-o\) = K, k1k2(kii—\\k\ki+Uklk\--k\){ai-alf+\0kxk2(k\— 1 Семиинварианты — некоторые вспомогательные характерис- характеристики распределения, определенным образом связанные с его мо- моментами. В частности, для первых пяти семиинвариантов X.,,..., Х5 имею! место следующие соотношения' X] = mj. Х2 = щ, ^з ^ ^з- Х4 = 1*4 — 3|'| н '«в — (*¦» — '0 ИгЦз- гДе I1; — <?-й центральный мо- момент анализируемой случайной величины. 205
В дальнейшем, правда, система была несколько модифи- модифицирована: в последнем пятом уравнении вместо Х5 использо- использовалась связь теоретических и экспериментальных модаль- модальных значений (xmod). При численном решении этой системы мы воспользова- воспользовались методикой, номограммами и таблицами, предложен- предложенными в [312]. В табл. 6.1 приведены результаты 30-кратной численной «прогонки» этой системы: решалась задача расщепления 30 разных выборок. Таблица 6.1 Р« Ю И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 25, 25,1 26 26, 0 23 23,9 0 24,6 2 24 5 24 26,2 24,9 24 26, 26, 26 27 27 30 30 30 30 31 31 31 32 32 32 36 36 36,7 6 25, 8 25, 25, 2 25. 725; 528 628 7 26 8 28 9 29. 9 29 9 29 3 29 5 30 30 32 33 33 34 34 34 35 34 9 35 38, ,70 26,63 30,47 25,30 ,50 22,65 19,62 ,55 ,52 .73 ,44 ,90 ,10 ,45 ,19 41,90 ,60 ,10 ,40 45 70 56,80 50,69 56,2. 63,68 51,80 ,10 62,25 66,26 ,89 59,00 5 27 6 26 9 26 2 39 2 33 6 49 3 40 9 39 1 6 42 0 44 5 67 9 78 9 69 — 80, — 78 — 137 — 87 —ПО —107 — 99 — 133 — 128, — 128, —228, —163, —223, —254, —249, —255, — 169, —295, —184, —319, —404, —403, —404, —515, —360, —559, —539, —572, -660, —598, 2136, 2248, 3428, 2192, 2346, 2232, 2088, 3191, 2921, 3012,8 5864,1 0,86 0,82 ,86 ,85 ,87 865 26 0,82 0,81 0,82 0,80 0,86 16 4420 6740 5760 6592 6390 6012 7248 11829,2 ,0 0,84 ,0 0,70 ,8 0,856 0,88 ,5 0,83 20,75 ,50,79 8375. 10923 11539. 11639. 15699. 10383. 20922 16307 16833 18780 18148 0,70 0.85 7 0,82 0 0,89 0,85 0,86 7 0,86 0,83 7 0,87 50,83 0,85 0,90 24,8 25,2 26,0 26,2 26,2 ,5 27,0 27,0 27,5 27,5 30,55 30,1 30,5 30,2 31,5 31,4 32,0 31,5 33,0 32,5 35,1 35,34 3,72 09 0 4 4 3 3 3 2 3 3 3,54 4,0 3 4 4 4 4 5 3,96 6,81 4 54 95 1 .0 0 86 0 190 190 31 03 0 06 0 35 36,6 36,5 37,5 37,5 36,9 38,4 40,2 ,150 ,86 0 ,84 0 ,79 ,14 ,62 ,20 0 ,.1-вО 07 350 4 4 4 5 4 6 5 5 5 5,17 ,13 ,135 ,18 ,19 ,18 0,20 0,14 ,16 ,30 ,144 0,12 ,17 ,25 0,21 0,30 15 18 И 0,15 0,14 0,14 17 13 0,17 15 0,10 16 15 16 19 19 19 19 16 18 18, 17,0 18 18 23 19 25 17, 21,-2 19 19 19 21 22 20 21 21 5 3 94 06 56 65 94 34 54 05 0 5 04 56 56 08 84 .8 5 06 2 о 21,97 ,16 ,36 ,62 ,58 ,16 ,85 ,28 ,0 ,75 ,81 ,84 ,20 ,68 ,29 ,44 ,45 6,21 ,11 ,41 ,86 6,84 6,62 52 95 6,14 8,20 18 76 6,07 ,76 Для всех 30 выборок независимо от селекционного сорта и модальной длины хлопкового волокна эксперименталь- экспериментальные и теоретические (модельные) кривые плотностей графи- 206
чески хорошо совпадают как в центре диапазона, так и по краям. Более того, выведенная таким образом модель смеси распределений получила «задним числом» и содержательное обоснование, исходящее из механизма роста волокон хлоп- хлопка. Данный пример показывает, как статистическое исследо- исследование может «натолкнуть» специалистов на некоторые содержательные выводы о физической природе изучаемого явления. Построенная модель смеси позволила вывести важные новые и уточнить имевшиеся ранее соотношения между ба- базовыми характеристиками распределения хлопкового во- волокна по длине, используемые в технологии текстильной промышленности. 6.4.3. Другие методы оценивания параметров смеси распре- распределений. Практически каждую из существующих процедур статистического оценивания параметров смеси распределе- распределений можно отнести к одному из двух подходов. В первом из них (подход «от оценивания к классификации»)- исследова- исследователь начинает с решения задачи оценивания параметров смеси F.6"), а затем переходит к собственно задаче клас- классификации (если таковая стоит перед ним), причем решает ее, уже располагая оценками Bj параметров В} каждого из компонентов смеси (/=1, 2, ..., k), т. е., по существу, в рамках схемы ДА. К этому подходу относятся, в частности, представленные в п. 6.4.1 и 6.4.2 процедуры, базирующиеся на методе максимального правдоподобия и методе моментов. Практикуется также диаметрально противоположный по своей логической схеме подход (подход «от классификации к оцениванию»), при котором исследователь начинает с разби- разбиения совокупности классифицируемых наблюдений на k под- выборок, а затем использует каждую (/-ю) из полученных подвыборок в качестве выборки из соответствующей (у-й) генеральной совокупности для оценивания ее параметров 6^, после чего уточняет разбиение, и т. д. К этому подходу можно отнести, в частности, описанный ниже алгоритм адаптивного вероятностного обучения (или «алгоритм SEM: Stochastique—Estimation—Maximisation» 1202]), а также процедуры, базирующиеся на так называе- называемом методе динамических сгущений [303, 302, 316, 1061. Алгоритм адаптивного вероятностного обучения (алго- (алгоритм SEM). Впервые предложен и проанализирован в [2021. По существу, авторы используют описанную в п. 6.4.1 схему ЕМ-алгоритмов, дополняя ее байесовской идеологией и эта- этапом вероятностного обучения, которое реализуется в виде специальной процедуры генерирования на ЭВМ случайных 207
последовательностей. Прием вероятностного обучения с вве- введением априорного распределения оцениваемых парамет- параметров использовался и ранее в задачах статистического оцени- оценивания, см., например. [314, 172, 310]. Использование алго- алгоритма SEM позволяет в определенном (достаточно широком) классе идентифицируемых смесей решать (в рамках основной процедуры) задачу оценивания неизвестного числа k компо- компонентов смеси F.6") и добиваться существенного снижения эффекта зависимости получаемого решения от исходной по- позиции начального приближения параметров алгоритма. На исходной позиции алгоритма SEM фиксируются: начальное значениеfc<0> = kmAX для неизвестного числа ком- компонентов смеси k (оно должно «с запасом» мажорировать ис- истинное число классов k); некоторое пороговое значение с (п, р), зависящее от объема п классифицируемой совокуп- совокупности и от размерности р наблюдений X, таким образом, что с (п, р) -> 0 при п -*¦ оо (в [202J рекомендуется брать с (п, р) = pin) и величины апостериорных вероятностей g\p, ё&'> •- gJLax (S\V + ... + я|?тах = 1) принадлежности случайно извлеченного из смеси наблюдения Xt соответст- соответственно к классу 1, 2, ...,Amai(i =¦ 1,2, ...,п). Далее в следующей хронологической последовательно- последовательности итерационного взаимодействия реализуются составляю- составляющие алгоритм SEM этапы «Stochastique» (статистическое моделирование), «Maximisation» (максимизация функционала метода максимального правдоподобия) и «Estimation» (оце- (оценивание параметров смеси). Статистическое моделирование (v-я итерация, v = 0, 1,2, ...). Последовательно для каждого i — \, 2, ..., л с помощью метода статистического моделирования Монте-Карло Ш, § 3.3, 6.3] генерируются («разыгрываются») значения {1 с вероятностью М?> 0 с вероятностью l—g\]' </=1, 2, .... Г<4 t = l, 2, .... п) полиномиально распределенных (с параметрами gW, g<.^), • •¦, gik<v)) случайных величин е\у) (Xt). При этом про- производится по одному испытанию для каждой фиксированной пары (i, j). Полученные реализации ( () ?) ч)) t= I, 2, .... n, 208
определяют разбиение S<v> — (S\v\ S^, ..., S?(v)) анализи- анализируемой выборки X,, X2,.... Х„ на классы по следующему правилу: S<v) = [Xt: e<v) (X,) - 1 1, / = 1, 2, .... ?<Л F.17) причем если в какой-либо класс попало в соответствии с этим правилом наблюдений меньше, чем п с (п, р) (т. е. мень- меньше, чем п- pin - p), то этот класс изымается (аннулируется) из нашего дальнейшего рассмотрения, а общее число клас- классов соответственно уменьшается (переходят от оценки об- общего числа классов fe<v) к fe<4+1> = fe<v)—/, где / — чисто таких «малонаселенных» классов). При этом апостериорные вероятности пересчитываются по формулам О, если /—«малонаселенный» класс; , если /—«достаточно представительный» g'J* класс, t где /v — множество номеров «достаточно представительных» (на v-й итерации) классов и оставшиеся «непристроенными» наблюдения (попавшие в «малонаселенные» классы) снова «разыгрываются» по правилу F.16), F.17) с вероятностями gif* и ими таким образом доукомплектовываются fe<v+1> = = fe<v) — / достаточно представительных классов. Максимизация (v-я итерация). По сущесгву, этот этап так же, как и последующий, посвящен оцениванию парамет- параметров: его название обусловлено тем, что для реализации ос- основной части процедуры оценивания приходится максими- максимизировать (по искомому параметру) соответствующие функ- функции правдоподобия. На этом этапе (в рамках v-й итерации) вычисляются оцен- оценки e(v+1> = (piv+1\ 6<.V+J^) параметров компонентов смеси F.6") по выборкам {Хг- 6 S<v>}, / = 1, 2, ...,"" Оценки 6<v+1> определяются как решения оптимизационных задач вида 2 In/(Xt; Qj)-* sup, / = l] 2, .... fti*+ '> es/v> e; 209
I (некоторые вспомогательные приемы в случае, когда урав-; пения метода максимального правдоподобия не дают реше-1 ния, рассмотрены в [302, 2121). Отметим, что если математические ожидания а^ — (а*/*, .... a(tp))' и (пли) ковариационные матрицы 2^ = — (°qr (/'))> q,r=u г. '••> i> полностью определяют распределе- распределения внутри /-го класса, / = 1,2, ..., k (случай смесей нор- мальных, пуассоновских, экспоненциальных и других рас- распределений), то очередная итерация оценок максимального правдоподобия aiv+1) и 2<v+l> имеет вид ' а Оценивание (v-итерацня). Отправляясь от найденных на предыдущем этапе оценок ^ , /- I, 2, ..., A«v+i)t определяем значения оценок апостериорных вероятностей \+i) по формулам после чего переходим к следующей (v -f- 1)-й итерации этапа «статистическое моделирование». Свойства алгоритма SEM исследованы в 1202] аналити- аналитически в простейшем (представляющем лишь методический итерес) случае смеси, состоящей из двух полностью извест- известных распределений f1 (X) и f2 (X), так что неизвестным па- параметром задачи является лишь единственное число рг — удельный вес первого компонента смеси (априорная вероят- вероятность принадлежности наблюдения, случайно извлеченного 210
из смеси, к классу 1). Правда, с помощью метода статисти- статистического моделирования авторы [202] рассмотрели большое число модельных примеров смеси ' и пришли к выводу, что алгоритм SEM расщепления смеси распределений типа F.6") обладает следующими преимуществами в сравнении с другими алгоритмами: а) он работает относительно быстро и его результаты практически не зависят от «исходной точ- точки»; б) позволяет избегать выхода на неустойчивые локаль- локальные максимумы анализируемой функции правдоподобия и, более того, дает, как правило, глобальный экстремум этой функции; в) получаемые при этом оценки параметров смеси являются асимптотически несмещенными; г) позволяет оце- оценивать (в рамках самой процедуры) неизвестное число клас- классов (компонентов смеси). Пример 6.7. Расщепление смеси пятимерных нор- нормальных распределений с помощью алгоритма SEM ([202], метод статистического моделирования). Зададимся в каче- качестве компонентов смеси тремя (k = 3) пятимерными (р =^5) нормальными распределениями с удельными весами (апри- (априорными вероятностями) рг — 0,5, р2 = Рг = 0,25, с векто- векторами средних значений о о ая= о 4 О/ и с ковариационными матрицами 1 0 0 0 0\ 0 2 0 0 0 0 0 10 0 0 0 0 10 0 0 0 0 1/ /40000 0 4 0 0 0 i=| 0 0 1 0 0 0 0 0 3 0 ,00004 1 Напомним схему рассмотрения модельных примеров с по- помощью метода статистического моделирования. Задаются полным описанием анализируемого закона распределения вероятностей / (х) (в нашем случае—величинами k, pj и функциями / (X; Qj), /= 1, 2,..., к); в соответствии с этим законом генерируют на ЭВМ выборку Xlt Х2, .... Хп; затем, «забывая» знание закона / (X), используют для об- обработки этой выборки анализируемый алгоритм, после чего сравни- сравнивают полученные результаты с тем, что было задано «на входе» (т. е. с / (X)).
16 0 0 0 0 0 16 0 0 0 0 0 4 0 0 0 0 0 1 0 0 0 0 0 16 Генерируем на ЭВМ с помощью метода статистического моделирования [11, п. 6.3.3] выборку Xlt X2, ..., Хп из 400 наблюдений (п — 400), извлеченную из генеральной сово- совокупности с плотностью распределения вероятностей /(Х) = 0,5ф(Х; аь 2Х) -f 0,25ф (X; а2, 2«j) + + 0,25ф1Х; а3, 23), где ф (X; &j, 2j) — плотность пятимерного нормального распределения с вектором средних значений а; и ковариа- ковариационной матрицей 2^(«значения» а^и 2^ для /'= 1, 2, 3 зада- заданы выше). Заметим, что оценка векторов средних а/ и ковариацион- ковариационных матриц 2ij по той части сгенерированных наблюдений, которая принадлежит /-Й генеральной совокупности, дает (в качестве эмпирических аналогов aJ9 и 27-э заданных тео- теоретических значений а7 и 2^: 0,032 0,962 0,049 0,066 — 0,108 » а2э — — 0,016 \ — 0,122 2,923 0,012 — 0,175/ > азэ — / 0,272 — 0,290 0,197 3,787 \ 0,143 0,827 0,020 0,127 0,087 0,069 3,990 0,560 0,057 0,488 0,350 0,020 1,779 0,085 — 0,082 0,113 0,560 3,660 0,494 0,236 — 0,724 0,127 0,085 1,136 0,102 — 0,087 — 0,057 0,494 1,062 0,226 — 0,242 0,087 — 0,082 0,102 0,970 — 0,084 0,488 0,236 0,226 2,871 — 0,512 — 0,069 \ 0,113 — 0,087 — 0,084 0,948/ — 0,355 — 0,724 — 0,242 -0,512 3,413] 212
16,850 0,594 0,474 0,093 1,085 0,594 17,818 1,252 — 0,032 0,963 0,474 1,252 3,514 0,463 — 0,244 0,093 — 0,032 0,463 1,088 — 0,462 1,085 0,963 — 0,244 — 0,462 18,444 Применение к «перемешанной» (сгенерированной на ЭВМ) выборке объема п — 400 алгоритма SEM (при k° = 6 и g,(,0) = 1/&@>-= 1/в для всех i= 1, 2, ..., 400) дает следующие оценки параметров смеси: k — 3; рх = 0,508; р2 — 0,245; р3 = = 0,247; 0,232 \ — 0,361 а, = П.887 , а,= 2 947 , ая~ 0,153 3,822 / 0,214/ s, = 0,035 \ " 0,886 0,887 0,085 \-0,157/ 0,772 0,060 0,145 0,012 — 0,032 4,205 0,582 — 0,021 0,720 — 0,491 а2 = 0,060 1,802 - — 0,028 — 0,115 0,206 - 0,021 0,074 2,947 — 2,027 — 0,144 0,145 -0,028 - 1,212 0,128 -0,124 - 0,582 —0,021 3,997 0,280 0,491 — 0,551 - 0,280 1,125 0,363 -0,538 - 0,012 0,115 0,128 0,950 - 0,074 0,720 0,491 0,363 2,831 - 0,609 0,506 17,807^ 0,033 0,741 0,306 1,068 3,329 0,549 0,100 0,171 0,033 0,549 1,044 — 0,655 — 0,032 \ 0,206 — 0,154 — 0,074 0,869 — 0,491 — 0,551 — 0,538 — 0,609 3,368 / 0,158 \ 0,741 0,100 - 0,655 18,792 / Наконец, классификация анализируемых 400 наблюде- наблюдений, произведенная на последней итерации этапа «Статисти- «Статистическое моделирование» (доставляющей, кстати, наиболь- наибольшее значение исследуемой функции правдоподобия), дает следующую картину «перекрестной» классификации в срав- 213
нении с исходным (правильным) отнесением сгенерирован- сгенерированных наблюдений по составляющим генеральным совокуп- совокупностям (табл. 6.2): Таблица 62 Классы полученные с помощью алгоритма SEW 5, f Исчодная (правильная) классификация класс 1 200 191 9 0 класс 2 100 11 86 3 класс 3 100 1 3 96 Распределе- Распределение наблю- наблюдений по классам SEM 203 98 49 Таким образом, в данном примере доля неправильно рас- расклассифицированных с помощью алгоритма SEM наблюде- наблюдений составила 6,75% B7 наблюдений из 400). Этот результат так же, как и точность оценивания параметров смеси, мож- можно признать вполне удовлетворительным. 6.5. Рекомендации по определению «исходных позиций» алгоритмов расщепления смесей распределений Из предыдущего материала главы следует, что эффектив ность используемых для расщепления смесей алгоритмов (скорость их сходимости, опасность стабилизации итера- итерационной процедуры алгоритма на стационарной точке функ- функции правдоподобия, не дающей ее глобального экстремума, статистические свойства получаемых оценок) существенно зависит отвыбора идходной позиции алгоритма, т. е. от конк- конкретных начальных приближений для числа классов, апри- априорных или апостериорных вероятностей и т. п., которые ис- используют на нулевой итерации алгоритма. Поэтому обычно настоятельно рекомендуется предпо- предпослать каждому из таких алгоритмов этап так называемого разведочного статистического анализа классифицируемых данных (техника разведочного статистического анализа опи- описана в разделе IV). Он предназначен для предварительного «прощупывания» геометрической и вероятностной природы совокупности анализируемых данных и, в частности, позво- позволяет формировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей принадлежности наблю- наблюдения каждому из классов и т. п. Одним из основных прие- 214
мов такого типа анализа является проецирование анализи- анализируемых многомерных наблюдений на плоскость таким об- образом, чтобы максимально сохранить при этом интересую- интересующие исследователя специфические особенности рассматрива- рассматриваемой совокупности данных, например наличие и общее число четко выраженных «сгустков» (классов) или эффект концент- концентрации данных этой совокупности вдоль некоторой гиперпо- гиперповерхности размерности меньшей, чем размерность исходного признакового пространства (такие процедуры носят назва- название методов целенаправленного проецирования; см раздел IV). Производимый затем визуальный анализ спроецирован- спроецированных на плоскость исходных данных позволяет генерировать рабочие тпотезы по поводу требуемых начальных прибли- приближений алгоритмов. ВЫВОДЫ 1. В задачах классификации без обучения одной из распро- распространенных математических моделей, используемых при описании механизма генерирования классифицируемых дан- данных, является модель смеси вероятностных распределений, koi да каждып класс интерпретируется как параметриче- параметрически заданная одномодальная генеральная совокупность (при неизвестном значении определяющего ее параметра), а классифицируемые наблюдения — как выборка из смеси таких генеральных совокупностеи 2 Решить задачу расщепления смеси распределений (в вы- выборочном варианте) — это значит по имеющейся выборке классифицируемых наблюдении, извлеченной из генераль- нои совокупности, являющейся смесью генеральных одно- модальных совокупностеи известного параметрического ви- вида, построить статистические оценки для числа компонен- компонентов смеси, их удельных весов и параметров, их определяю- определяющих В теоретическом варианте задача расщепления смеси заключается в восстановлении компонентов смеси и смеши- смешивающей функции (удельных весов) но заданному распреде- распределению всей (т е смешанной) генеральной совокупности и называется задачей идентификации компонентов смеси. Эта задача не всегда имеет решение. 3. Базовая идея, лежащая в основе принятия решения, к ка- какой из k анализируемых 1енеральных совокупностей сле- следует отнести классифицируемое наблюдение, является од- одной и той же как для модели дискриминантного анализа (классификация при наличии обучения, см. гл 1—4), так и 2Г>
для модели смеси: и в том и в другом случае наблюдение приписывают к той генеральной совокупности (к тому ком- компоненту смеси), в рамках которой (которого) оно выглядит наиболее правдоподобным. Однако главное отличие схемы параметрического ДА от схемы автоматической классифика- классификации, построенной на модели смеси распределений, — в спо- способе оценивания неизвестных параметров, от которых зави- зависят функции, описывающие классы (в первом случае — по обучающим выборкам, а во втором неизмеримо сложнее — в рамках одного из методов оценки параметров смеси распределений). 4. Основными «узкими местами» подхода, основанного на ме- методе максимального правдоподобия статистического оцени- оценивания параметров смеси распределений, являются (помимо необходимости «угадать» общий параметрический вид рас- распределения, задающего каждый из классов) требование ог- ограниченности анализируемой функции правдоподобия, вы- высокая сложность и трудоемкость процесса вычислительной реализации соответствующих процедур и медленная сходи- сходимость порождаемых ими итерационных алгоритмов. 5. «Узкими местами» подхода, основанного на методе мо- моментов статистического оценивания параметров смеси рас- распределений, являются громоздкость его вычислительной ре- реализации (особенно в случае высоких размерностей анали- анализируемых распределений и большого числа смешиваемых классов) и относительно невысокое качество статистических свойств получаемых при этом оценок. 6. Статистический анализ смесей распределений проводит- проводится обычно в рамках одной из двух логических схем. В пер- первой из них реализуется логика mm оценивания параметров смеси к классификации» (ЕМ-алгоритмы, основанные на методе максимального правдоподобия, методе моментов и т.д.). Во второй, напротив, идут «от классификации к оце- оцениванию», затем, имея оценки параметров распределений внутри классов, уточняют классификацию и т.д. (алгоритм SEM адаптивного вероятностного обучения). 7. Исследование свойств алгоритмов SEM, в которых схема ЕМ-алгоритмов дополнена байесовской идеологией и этапом вероятностного обучения (реализованным в виде специаль- специальной процедуры генерирования на ЭВМ случайных последо- последовательностей), показало следующие их достоинства: а) они работают относительно быстро и их результаты слабо зави- зависят от выбора «начальных приближений»; б) SEM позволя- позволяют практически избегать выхода (в процессе итераций) на неустойчивые локальные максимумы анализируемой функ- функции правдоподобия; в) позволяют в рамках самой процеду- 216
ры оценивать неизвестное число классов (компонентов сме- смеси). 8. Поскольку эффективность используемых для расщепле- расщепления смесей алгоритмов в большинстве случаев существенно зависит от выбора их «исходной позиции», целесообразно каждому из таких алгоритмов предпослать этап так называ- называемого разведочного статистического анализа (см. раздел IV), который позволяет сформировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей и т. п. Глава 7. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ, ОСНОВАННАЯ НА ОПИСАНИИ КЛАССОВ «ЯДРАМИ» 7.1. Эвристические алгоритмы Рассмотрим сначала методы автоматической классифика ции (АК), непосредственно опирающиеся на постановку задачи выделения в многомерном пространстве компактных групп точек.Такие методы и отвечающие им алгоритмы на- называются эвристическими, так как само понятие «компакт- «компактная группа (облако) точек» не поддается строгой формализа- формализации. В прикладных задачах автоматической классификации они стали применяться одними из первых и до сих пор со- сохраняют большое значение в разведочном анализе данных благодаря наглядности интерпретации полученных резуль- результатов и, как правило, простоте реализации. Для ряда эври- эвристических процедур с развитием теории АК были найдены функционалы качества разбиения на группы и тем самым формализовано соответствующее им понятие «компактно- «компактности». 7.1.1. Параллельные процедуры. Процедуры, в которых вы- выборка вся сразу поступает на классификацию, называются параллельными. Алгоритм k эталонов. Следуя [561, приведем типичный пример эвристического алгоритма, основная идея которо- которого заключается в том, что совокупность объектов, находя- находящихся на одинаковом расстоянии от каждого из k эталонов (ядер), образует компактную группу. Пусть для классификации имеется выборка 0ъ ..., 0„, причем t'-й объект О,- характеризуется вектором признаков Xi = (х{;1), ..., х<р}). Рассмотримр-мерное признаковое про- 217
странство Хр вместе с функцией d (Xi, Xj), задающей в Хр расстояние (либо степень близости). Схема алгоритма 1. Выберем k эталонов XI, ..., Х% и порог d0. 2. Поставим в соответствие объекту О,- код из k двоич- двоичных символов et = (е|", ..., е\к)), где е[1) — 1, если d (Xt, Xi) < d0 и ej'> = 0 в противном случае. 3. Разобьем выборку на классы, относя к одному клас- классу объекты с одинаковым кодом. В зависимости от порога dn и геометрии выборки число классов может варьироваться от 1 до 2к. Анализируя полу- полученное разбиение выборки на классы, исследователь может уточнить выбор эталонов и перейти к следующей итерации алгоритма. Если в качестве эталонов взять векторы призна- признаков объектов из данной выборки, то на вход алгоритма до- достаточно подать матрицу взаимных попарных расстояний {pij = d (Хг, Xj)}. В [56] рекомендуется набор этало- эталонов составлять из k случайно выбранных точек. Укажем на- наиболее важные модификации алгоритма, связанные со спо- способом выбора эталонов: а) эталоны строятся на основе представлений экспертов (или какой-либо другой априорной информации о типичных представителях классов); б) эталоны берутся из векторов, соответствующих пред- представителям заведомо разных классов, но не обязательно типичных в своем классе. При этом достоинством алгорит- алгоритма является то, что число эталонов не обязано равняться числу классов; в) эталоны могут пониматься в расширенном смысле, как ядра в методе динамических сгущений (см. п. 7.4). Следующая модификация рассматриваемой процедуры связана с возможностью варьировать порог сходства. Алгоритм взаимного поглощения. Рассмотрим процеду- процедуру автоматической классификации, целесообразность кото- которой обосновывается в [58] правилом формирования сплочен- сплоченных коллективов людей по принципу взаимного интереса и симпатии. Ключевым словом здесь является «взаимный», т. е. подразумевается, что отношение «объект О, близок (интересен) объекту Oj» не симметрично и объекты О,- и Oj объединяются, если не только О, близок к Oj, но и на- наоборот. Схема алгоритма в предыдущих обозначениях алгоритма k эталонов; 218
1. Объекту Oi поставим в соответствие порог di !> О, на- называемый его радиусом влияния, т. е. объект 0} считается близким к 0t (находится в сфере влияния объекта 0г), если d(Xi,Xj) ^dt. 2. Объекту Ot поставим в соответствие код ег = (efl), ..., е<">), где е/'> = 1, если d (Xt, Xi)<dh »й=О-в про- противном случае. 3. Выделим в выборке классы, относя набор объек- объектов Oi , ..., 0,т, т. < я, к одному классу, если у их кодов Ег1, ..., e,m все координаты с номерами /= ilt ..., im равны I. 4. Выделим в выборке минимальное число классов, объ- объединение которых дает всю выборку. Ясно, что алгоритм дает в общем случае нечеткую классификацию выборки. Геометрически каждому объекту 0{ в признаковом пространстве Хр отвечает шар tt радиуса dt с центром в точке X,. Классу {0^, ..., 0im) отвечает пере- т сечение П X,ix шаров & v содержащее все центры Х^, ..., Х}т и называемое областью взаимного поглощения данного класса [58]. В ряде задач основной целью классификации яв- является покрытие признакового пространства областями вза- взаимного поглощения классов. Ясно, что настройка рассматриваемого алгоритма на специфику решаемой задачи осуществляется выбором поро- порогов d,, I < i ^ п. Приведем примеры такого выбора, взя- взятые из [58]: a) б) di dt 1 = max d(Xu Xj i j? mijd(Xi, n >-в; S Здесь б — некоторая константа; mt} > 0 — весовые мно- множители. Они задаются либо эвристически, либо на этапе раз- разведочного анализа служат управляющими параметрами. 7.1.2. Последовательные процедуры. Процедуры, в которых элементы выборки поступают на классификацию по одному или малыми порциями, называются последовательными. Приведем простой последовательный алгоритм класси- классификации, в основе которого лежит предположение, что пред- 219
ставители одного класса не могут быть удалены друг от дру- друга более чем на заданную пороговую величину. Пусть на классификацию объекты поступают последова- последовательно, например по одному. Если исходная информация представлена в форме матрицы «объект — свойство», то параметрами алгоритма являются функция близости (рас- (расстояние) d (О,-, О/) между объектами и пороговое значение d0; если исходная информация представлена матрицей вза- взаимных расстояний, то единственным параметром является пороговое значение d0. Схема алгоритма 1. Первый объект 01 объявляется ядром ег первого клас- класса. 2. Пусть на т-ы шаге выделено k классов с ядрами ех,..., ..., eh. Для поступившего объекта 0т: если d @т, еа) < d0, то 0т относим к первому классу; если d@m, ei-t) > d0 и d @т, ег) ^ d0, 2< / < к, то 0т относим к 1-му классу; если d @т, е,) > d0, 1 < / < k, то 0т объявляется ядром eh+1 нового (k + 1)-го класса. Если функция d @t, Oj) удовлетворяет неравенству тре- треугольника, как, например, когда d @h Oj) — метрика, то объекты, отнесенные алгоритмом к одному классу, удалены друг от друга не более чем на 2 d0. . 7.2. Алгоритмы, использующие понятие центра тяжести При решении практических задач полезно иметь набор про- простых быстродействующих алгоритмов классификации для выработки первых представлений о структуре данных в при- признаковом пространстве. Таким алгоритмам посвящен этот параграф. Модификации алгоритмов, приведшие к ряду важных многопараметрических семейств их, ориентирован- ориентированных на проверку более сложных гипотез, возникающих уже в ходе исследования, описаны ниже в этой главе и в гл. 10. Пусть исходная информация о классифицируемых объ- объектах представлена матрицей «объект—свойство», столбцы которой задают точки р-мерного евклидова пространства. 7.2.1. Параллельные процедуры. Опишем один из наиболее известных алгоритмов, модификациями которого являются 220
многие важнейшие алгоритмы, приведенные далее (общая схема таких модификаций дана в гл. 10). Алгоритм А-средних. Единственным управляющим пара- параметром является число классов, на которые проводится раз- разбиение S = (S], ..., Sk) выборки X. В результате получа- получается несмещенное разбиение (см. п. 5.4.5) 5* = (Si ,..., Si). Схема алгоритма 1. Выберем начальное разбиение S° — (Si, ..., S%), где S? ={*?,, .... XUt\. U5? = X, 5?П5?.= 0, 1Ф1'. 2. Пусть построено лг-е разбиение Sm = (Sf, ..., S™). Вычислим набор средних em = (ef, ..., е™), где е™ = 1 ni — v У" = „, ДХ<г 3. Построим минимальное дистанционное разбиение, порождаемое набором ет и возьмем его в качестве Sm+1 = = (Sf+S .... S^1), т. е. (ср. п. 5.4.5): S?+x={X?X:d(X, e?)= min d(X, ef\\ = min d(X, e?,)\, 2 < / < k. где d (X, e) = ||X — e|| — расстояние в Rp. 4. Если 5m+1 Ф Sm, то переходим к п. 2, заменив да на т + 1, если 5m+1 = 5m, то полагаем Sm = S* и заканчиваем работу алгоритма. Введем расстояние d (X, е) от точки X € /?р до множества е = (еа, ..., ek), где ег 6 R" по формуле , e)= min d(X, ег). Тогда можно рассмотреть статистический разброс выборки X относительно множества е = (еи ..., вь): ; е)= 2 d(X, ef. Х6Х 221
Определим статистический разброс разбиения S = (Sj,..., Sfe) выборки X как разброс этой выборки относительно мно- множества е (S)=(e1(S), ..., ek (S)), где ег (S) — средний век- вектор класса Su т. е. положим F(S) = F(\; e(S». Непосредствен»» из построения минимального дистанцион- дистанционного разбиения следует формула = ? 2 |U-^E)|2. G.1) Так как на последовательности разбиений S°, S1, ..., Sm, ..., которая строится в алгоритме ^-средних, функцио- функционал F (S) не возрастает, причем F (Sm) = F (Sm+1), только если Sm = Sm+1, то для любого начального разбиения S0 алгоритм через конечное число шагов заканчивает работу (см. гл. 10). Содержательно процедура алгоритма ^-средних направ- направлена на поиск разбиения S* выборки X с минимальным раз- разбросом. В ряде случаев начальное разбиение S0 задается как ми- минимальное дистанционное разбиение, порожденное некото- некоторым набором точек е° = (е\, ..., е%). Результат классифи- классификации зависит от выбора е°. Обычно для проверки устой- устойчивости результата рекомендуется варьировать выбор е°. В тех случаях, когда из априорных соображений нельзя сразу выбрать число классов k, его находят либо перебо- перебором, либо вместо алгоритма ^-средних используется алго- алгоритм ИСОМАД (Isodata), в котором k является параметром, настраиваемым в ходе классификации (см. §. 7.4). Алгоритм Форель *. Единственным управляющим пара- параметром является порог г — радиус шаров, которыми покры- покрывается выборка X. Пусть Dr (е) с Rp — шар радиуса г с центром в точке е. Подвыборка X1 = X fl DT (e) называется несмещенной в Dr (e), если ее средний вектор совпадает с е. Классификация при помощи алгоритма Форель разбивает- разбивается на несколько последовательных этапов. На первом в вы- выборке X выделяется несмещенная подвыборка \1 в неко- некотором Dr (ex), которая объявляется первым таксоном. На втором этапе та же процедура применяется к выборке Х\Х2. Таким образом, достаточно описать алгоритм только для первого этапа. 1 Первоначальное название ФОРЭЛ — ФОРмальный ЭЛемент. 222
Схема алгоритма 1. Выберем начальное разбиение S° = (S?, S§) выборки X. 2. Пусть построено т-е разбиение Sm = (S™, S%). Вычислим средний вектор е™ класса Sf. 3. Построим разбиение Sm+1 -¦= (S?+\ Sf+1), где 4. Если S"'+t Ф Sm, то переходим к п. 2, заменив т на m + 1, если Sm+1 — Sm, то полагаем Sm = Хг и за- заканчиваем работу первого этапа алгоритма. Пополним пространство Rp «точкой» *, такой, что d (X, *) = г для всех X 6 Rp- Тогда статистиче- статистический разброс выборки X относительно множества е = = (е, *), где е 6/?р, запишется в виде F(X; e)= 2 d(X, e)*= 2 Ц А-г||а + га| Sj, G.2) хх xs где 5j = {X 6 Х- d (X, е) = \\Х — е\\ < г}, [Si| — число элементов в множестве X\S!- При помощи функционала G.2) в гл. 10 показано, что последовательность разбиений S0,..., Sm,.. , которая строится на первом этапе алгоритма Форель, стабилизируется и алгоритм через конечное число шагов заканчивает работу. Применение алгоритма Форель для ряда последователь- последовательных значений гЛ — г0 — vA, где А = ^, v= 1, 2, ..., W —1, позволяет оценить наиболее предпочтительное число классов для данной выборки. При этом основанием для выбора числа классов может служить многократное повто- повторение одного и того же числа классов для нескольких после- последовательных значений /\ и его резкое возрастание для сле- следующего шага по v На основе алгоритма первого этапа Форели строится целое семейство алгоритмов, целью которых является раз- разбиение выборки на заданное число классов, покрытие вы- выборки X областями более сложной формы, чем шары, и т. п. Подробное описание этого семейства см. в f75]. Имеется мо- модификация алгоритма первого этапа Форели, в которой по- порог г является параметром, настраиваемым в ходе поиска первого сгустка Xj (см. алгоритм П\льсар в п. 7.3 1) 7.2.2. Последовательные процедуры. Пусть Xlf ..., Х„, ¦¦¦— последовательность точек пространства Rp, описываю- описывающая последовательно поступающие на классификацию объ- 223
¦екты Ox, • •-, Оп, ... . Предполагается, что последователь- последовательность сколь угодно длинная. В тех случаях, когда число классифицируемых объектов конечно, применяется стан- стандартный прием зацикливания конечной последовательности Xlt ..., Хт, по правилу Xn+q = Xч, q = 1, 2, .... 1 п Положим X (п) = - v Xt. Тождество X (п + 1) = = X (п) Н—-г-у (Xn+i — X («)) позволяет параллельные процедуры, использующие понятие центра тяжести, моди- модифицировать в последовательные процедуры. В качестве ос- основного примера рассмотрим алгоритм ^-средних. Схема алгоритма 1. Выберем набор центров е° — {е\, ..., е?),где е? 6 Rp, и набор весов Q0 = (со?, ..., со*), где cof > 0. 2. Пусть на т-и шаге построены набор центров еш = = (е?, ..., е™) и набор весов Qm = (со™, ..., со^). Для вновь поступившей точки Хт вычислим dm= min d(Xm, е?) и построим новые наборы еот+1 и QOT+1: если d (Xm, ef) = dm, то положим ^¦«--^ k\ если d (Xm, ef_x) >dmn d (Xm, ef) = dm, где 1 < / < k, то положим: =em 3. Критерием сходимости алгоритма ^-средних является получение набора центров еэ = (е,, ..., eh), для которого ми- минимальное дистанционное разбиение последовательности, порождаема набором еэ, является несмещенным. В связи с этим алгоритм останавливается, если в течение N rnai ов подряд практически не происходит пересчет центров. На- Например, если последовательность точек получена зацикли- зацикливанием выборки объема п, то в качестве N достаточно взять 224
я. В общем случае число N задается априори или оценива- оценивается в ходе работы алгоритма исходя из модели всей сово- совокупности точек Пусть es = (elt .., eh) — набор центров, полученный на последнем шаге алгоритма. Итоюм классификации являет- является минимальное дистанционное разбиение последователь- последовательности, порождаемое набором еэ Более подробный анализ этого алгоритма можно найти в I9J Модификация этого алгоритма, в которой число классов k является параметром, настраиваемым в ходе классифика- классификации, приведена в п 7 3.2. 7.3. Алгоритмы с управляющими параметрами, настраиваемыми в ходе классификации 7.3.1. Параллельные процедуры. Рассматриваемые ниже алгоритмы ИСОМАД и Пульсар являются модификациями соответственно алгоритмов ^-средних параллельного типа и Форель Алгоритм ИСОМАД (Isodata) *. Основной процедурой в этом алюритме, как и в алгоритме ^-средних, является ми- минимальное дистанционное разбиение, порожденное набором центров. Число классов заранее не фиксируется, а опреде- определяется в ходе классификации Для этого используется ряд вспомогательных эвристических процедур, параметрами которых регулируются характеристики межклассовой и внутриклассовой структуры выборки на этапах классифи- классификации Конфигурация (схема) ИСОМАД не является фик- фиксированной, ее развитие отражает богатый опыт практиче- практического применения этого алгоритма Опишем наиболее распространенный вариант (ср. с [21, 156]). Параметры, определяющие процедуру классификации: k — предполагаемое число классов; k0 — начальное (разведочное) число классов; 6„ — минимально допустимое число элементов в классе (функция от п, где п — число элементов во всей выборке); 8S — порог внутриклассового разброса; 6С — порог межклассового разброса; Q — максимально допустимое количество пар центров классов, которые можно объединить; / — допустимое число циклов итерации. 1 Isodata — Iterative Self-Organizing Data Analysis Techni- Techniques (ИСОМАД — Итеративный Самоорганизующийся Метод Ана- Анализа Данных). 8 Заказ № 291 225
Конкретные значения параметров задаются на основе априорной информации либо на этапе разведочного анализа выбираются из общих соображений, а затем корректируются от итерации к итерации. П>сть на классификацию поступила выборка X — {Хи ..., X,,}, где Xt 6 Rp- Выберем начальный набор центров с I'll •••> е*л/' Схема алгоритма 1. Выбираются значения параметров. 2. Строится минимальное дистанционное разбиение 5 — (Si, ..., Sft0) выборки X, порожденное набором центров. 3. Пусть tii — число элементов в классе St. Составляет- Составляется S==rSi, ..., Sftm) из классов S; разбиения S, у которых П; > 0„, где km— полученное (текущее) число классов. S присваивается обозначение S = (Sb ..., S>,m). 4. Вычисляется набор центров е — (еи ..., eft/n) из сред- средних векторов классов, входящих в разбиение S. 5. Вычисляется вектор D — (Du ..., Dhm), где 1 Ж-1 и у II / 1 U I ~~ ~~~ У. || Л Ci ||, i ¦— I, ..., кт. Ill ¦*¦" 6. Вычисляется D- -L ymDi. п /f. 7. а) Если текущий цикл итерации последний, то пере- переход к 11; б) если km < k/2, то переход к 8; в) если текущий цикл итерации имеет четный порядковый номер или km ^ ^ 2 k, то переход к 11; в противном случае переход к 8. 8. Для каждого класса Si вычисляется вектор at = = (<т/ аР), где —е\П)% . /=1. -. Р> 1= 9. В каждом векторе а, отыскивается координата в'«= max 1 226
10. Если oJti > 6S для некоторого /, причем a)D, > D ипг>2(вп + 1) или б) km < k/2, то класс Si с центром е, расщепляется на два новых класса Sf, St с центрами ej nef, где соответственно ef = e, ±?ь е, = (е,1,..., ef) и е{ = 0, если /#=/,, к^-=уа^, 0<?< 1. Если расщепление класса на этом шаге происходит, то пере- переход к 2с набором центров (еи ..., ег_3, ej, ef, el+1, ..., ekjn), в противном случае переход к 11. 11. Вычисляется матрица (dl}) взаимных расстояний между центрами классов кц — \\ег — е}\\. 12. Расстояния &ц, где i < /, сравниваются с порогом 6С. Пусть d;j, <dtj2 < ¦•¦<diQjQi — упорядоченная по- последовательность тех из них, которые меньше 6С. Вычерк- Вычеркнем из этой последовательности d;Qi jQi, если и только если в наборе Ци i2, ..., /<?,_]) встречается индекс Iq1 либо в наборе (у,, у2, ..., y'o,_i) встречается индекс /q,. Проде- Проделаем аналогичную операцию с diQ _з ^0 _ и так далее До d,Jt. Пусть d,ltl <dt2t2 < ¦¦¦ <d;QjQ —полученная в ре- результате последовательность. Заметим, что по построению h ~ h, h = h- Положим q = min (Q, Q2). 13. Слияние классов. Для каждой пары (/,-, tt), I < i <q классы Si. и Stl сливаются в класс Si. (J St{. Непосредст- Непосредственно из 12 следует, что, если на предыдущем шаге было km классов, то теперь остается km — q классов совокупности, которым переиндексацией присваивается обозначение S = = (Si, ..., Skjn_?n). Вычисляется набор центров е = (е1г ..., ..., eftm_g) средних векторов классов, входящих в S. 14. Если текущий цикл итерации последний, то алго- алгоритм заканчивает работу. В противном случае переход к 1, если пользователь решил изменить какой-либо из пара- параметров алгоритма, либо переход к 2, если в очередном цикле итерации параметры не меняются. Завершением цикла ите- итерации считается каждый переход к 1 либо к 2. Алгоритм Пульсар. Этот алгоритм, как и алгоритм Фо- Форель, состоит из последовательности одинаковых этапов, на каждом из которых выделяется один компактный класс (сгусток). Но радиус шара (величина окна просмотра) не фиксируется, а меняется (пульсирует) в ходе класси- классификации. Для этого в алгоритм включены управляющие параметры, позволяющие поиск окончательного радиуса 8* 227
реализовать в виде процедуры стохастической аппроксима- аппроксимации. Опишем этап выделения одного сгустка [42]. Параметры, определяющие процедуру классификации: rmin, гЛ1йХ — минимальный и максимальный радиусы; яш1п, nmdX — минимальное и максимальное число эле- элементов в классе; удоп — допустимое число колебаний радиуса. (Говорят, что произошло колебание радиуса, если Armx X Arm+1< 0, где Агт = гт — гт_ь гт — значение радиу- радиуса на т-м шаге); б - - порог, регулирующий скорость изменения радиу- радиуса. Схема алгоритма 1. Выберем начальный центр е° и значения параметров. 2. Для радиуса г„ = mi" ^ построим класс S0 = {X 6 Х:||.Х—е°|| < г„}, вычислим число элементов п0 в классе S0 и присвоим v (числу колебаний радиуса) значе- значение v0 — 0. 3. Пусть на т-и шаге для центра ет выбран радиус гт, построен класс Sm — {X 6 X: ||Х — в || < гт}, подсчи- подсчитано число его элементов пт и значение v = vm. Положим r = т 1 , rmax), если пт i max(r—yb, rmin), если пт>птах, причем vm<vJion или ет+1 фет; гт—в остальных случаях. Здесь у = A + vj-1, Порог удоп учитывается при выборе радиуса гт+1 только тогда, когда ет+1 = ет и одновре- одновременно пт > nmax. Далее положим Vl = vo= 0 и для т ^ 1 m+1 Wm + 1, Arm • Дгт+1 < 0. 228
4. Если ет+1 = ет, гт+1 = гт, то алгоритм заканчива- заканчивает работу, в противном случае переходим к 3, заменив т на т ¦+- 1. 7.3.2. Последовательные процедуры. В качестве основного примера, следуя [58], опишем вариант последовательного алгоритма ^-средних (см. п. 7.2.2), в котором число классов не фиксировано, а меняется от итерации к итерации, настра- настраиваясь под влиянием управляющих параметров на структу- структуру выборки. Параметры, определяющие процедуру классификации: k%— начальное число классов; Ф — минимально допустимое расстояние между центра- центрами разных классов; ¦ф — максимально допустимое удаление элемента от центра его класса; / — допустимое число циклов итерации. Пусть на классификацию поступает последовательность точек {Хи ..., Хп, ...}. Первые k0 точек возьмем в качестве начального набора центров е° = (е\, ..., е?о), присвоим центрам веса со' = 1. Схема алгоритма 1. Выберем значения параметров ф и if. 2. Проведем огрубление центров е°. Расстояние между двумя ближайшими центрами срав- сравнивается с ср. Если оно меньше ф, то эта пара центров заме- заменяется их взвешенным центром, которому присваивается вес, равный сумме соответствующих двух весов. К получен- полученному набору из (k0 — 1) центров опять применяется проце- процедура огрубления и так далее до тех пор, пока расстояние между любыми двумя центрами будет не меньше, чем ф. Пусть в результате получается набор центров е° = (е\, ..., е%~)> ^« < ^о с набором весов Q — (со", ..., со?о). 3. Для вновь поступившей точки Xh,+i вычислим мини- минимальное расстояние до центра: Если d1 > ¦$, то Xkt+i объявляется центром е^+1 с весом со~+1 = 1 Если d, < i|), то самый близкий к Xka+1 центр заменяется взвешенным центром этого старого центра и точ- точки Xkll+i- Вес нового центра считается равным сумме соот- соответствующих весов. Все остальные центры и их веса не пере- 229
считываются. Полученные в итоге наборы центров я весов обозначаются через Е1 = (е\, .., e\t) и й'= (о»}, ..., ш1,). Заметим, что k0 < k± < k0 + 1. 4. Цикл итерации состоит из шагов п. 1—3. Если поль- пользователь решил изменить значение параметров ф или ¦$, то переход к п. 1, если ср и ¦$ не меняется, то переход к 2. 5. После прохождения / циклов полученный набор цент- центров е7 = (е[, ..., e'kl) объявляется набором эталонов клас- классов и используется для классификации последующих наблю- наблюдений по методу минимального дистанционного разбиения. Выбор значений параметров признается удачным (удов- (удовлетворительным), если получаемая в результате классифи- классификация оптимальна или с точки зрения экспертов, или в смыс- смысле принятых функционалов качества разбиения. 7.4. Алгоритмы метода динамических сгущений Изложим, следуя в основном [106], один общий подход к статистической обработке данных, предложенный Э. Диде и его сотрудниками и названный «методом динамических сгущений» — МДС (Methode des Nuees Dinamiques — MND). Этот подход хотя и формулируется в терминах общей задачи классификации, но, по существу, при соответствую- соответствующем подборе управляющих параметров индуцирует разнооб- разнообразные методы решения следующего широкого класса задач: 1) разбиение данной совокупности объектов или призна- признаков на некоторое число (известное заранее или нет) одно- однородных классов — собственно проблема автоматической классификации; 2) снижение размерности (числа анализируемых показа- показателей) массива исходных данных, отбор наиболее информа- информативных показателей; 3) статистический анализ предпочтений, задача их типо- логизации и агрегирования; 4) статистический анализ линейных моделей регрессион- регрессионного типа; 5) оптимальная (в рамках решаемой конкретной задачи) оцифровка анализируемых переменных; 6) статистический анализ «двухвходовых» таблиц сопря- сопряженности. Основная идея МДС, являющаяся далеким обобщением идеи метода ^-средних (см. п. 7.2.1, 7.2.2), достаточно отчет- отчетливо выражена словами Э. Диде: «Среди всех разбиений на k классов следует найти разбиение, относительно каждого 230
класса которого заданное «ядро» оказалось бы наиболее представительным. Понятие ядра ... имеет самый широкий смысл: ядро класса (т. е. группы точек) может быть подгруп- подгруппой точек, центром тяжести, осью, случайной переменной и т. д.» [106, с. 25] (курсив наш. — В. Б.). 7.4.1. Основные понятия и общая схема метода. Пусть X = = {Хь ..., Х„} — исследуемое множество объектов, каж- каждый из которых характеризуется /7-мерным вектором приз- признаков, т. е. Xi = (лг,П), ..., х\р)). Пространством k покрытий S1' называется множество, каждый элемент которого S — (Si, ..., Sh) представляет со- бои систему подмножеств (классов) элементов X, удовлет- удовлетворяющих заданной структуре классов. На практике встре- встречаются обычно следующие типы структур классов: разбие- разбиения, покрытия,иерархии. Пространством представителей L называется множест- множество, каждый элемент которого может служить представите- представителем (ядром) класса элементов X. Выбирается мера сходства D (X, I) между объектом X 6 X и представителем / ? L. Например: a) L = Rp, тогда / ? Rp и D (X, I) = 2 № — '')а — рат стандартного евклидова расстояния; б) L =- Ri>xM, где М — некоторое семейство расстояний (см. § 5.2). Тогда / = (е, d), е ? Rp, d 6 М и D (X, I) = = d (X, е). Семейство М обычно задается в параметриче- параметрическом виде, например: 1) М == {М} : d (X, е) = (X — е)'Х ХМ (X — е) — семейство махаланобисского типа, где М — положительно определенная, симметрическая матрица; 2) М = {К = (к1, ...,kp)?RpAl>0, П Х'= 1} :d(X, e) = < = 1 р = Ъ\1\х1 — е*\ — семейство «сити блок» (City BIock) 1. Пространством k представительств Lk для простран- пространства покрытий Sk называется множество наборов f = tfi, .... iklhtL. Для построения представительства / покрытия 5 = = (Slt ..., Sh): 1) выбирается пространство представителей L и мера сходства D (X, I); 2) выбирается функция представительства g, относя- 1 В литературе иногда метрики этого семейства называются маи- хэттенскими. 231
щая к классу S, представителя /,-, т. е. g (S,) = lt. Напри- Например, g (Si) = arg min v d (X, I). XS:S. Для построения покрытия S = (Slt ..., Sj,), отвечающего представительству /= (/x, ..., lh): 1) выбирается пространство покрытий Sk; 2) выбирается функция назначения f, с помощью которой каждый объект X получает «назначение» в тот или инои класс, т. е. / (/) = S. Например, / (/) — минимальное ди- дистанционное разбиение выборки X, порожденное набором / = (/,, ..., lh) относительно меры сходства D (X, /). Метод динамических сгущений состоит из следующих частей (этапов): 1. Выбор пространства покрытий S*. 2. Выбор пространства представителей L и меры сходст- сходства D (X, /). 3. Выбор оптимизируемого критерия W (S, /), позволя- позволяющего, используя D (X, /), измерить «степень адекватности» между" всяким покрытием S 6 5* и всяким представитель- представительством этого покрытия / 6 L. Критерий W строится обычно так, чтобы он принимал только неотрицательные значения. 4. Постановка задачи минимизации критерия W; вы- выбор функции представительства g и функции назначения /, позволяющих решать эту задачу. 5. Построение алгоритма динамических сгущений (ADC), состоящего в последовательном итеративном использовании функций f и g, начиная с некоторого покрытия Sw 6 Sk или представительства /@) 6 Lk. 6. Изучение свойств сходимости алгоритма динамиче- динамических сгущений. 7.4.2. Алгоритмы классификации. Основная цель настоя- настоящего раздела — изложить подход МДС к построению алго- алгоритмов автоматической классификации. Подробное описа- описание, практические рекомендации и примеры применения этих алгоритмов содержатся в [106]. У всех рассматриваемых ниже алгоритмов одинаковыми являются: пространство k покрытий Sk — множество всех разби- разбиений S = (S1,..., Sft)совокупности X наkнепересекающихся классов; вид оптимизируемого критерия W (S, I): W(S,t)= 2 D(Sif Id, rAeS=(Slt .... Sk), l=(llt ..., lk),D(Sh /,)= S D (XJt) 232
разброс i-ro класса St относительно представителя (яд- (ядра) U и D (X, /;) — некоторая мера сходства между объек- объектом X и представителем lt; способ построения функции назначения f. При выбран- выбранных ядрах классов (/ь ..., lh) и мерах сходства D (X, /,) объект X относится к i-му классу по правилу минимальнога дистанционного разбиения: f(li, .... lk) = (Si, .... Sh), где й = {*€Х:О(Х, /х) = min D(X, /,)} u Sr- D(X, /,) = min D(X, способ построения функции представительства g. При выбранном пространстве представителей L задается прост- пространство представительств V' как подмножество наборов (/ц •••. /ft) 6 L х ... х L = (L)*, выделяемое в (L)* некото- некоторыми условиями. Тогда для заданного разбиения S = = (Sj, ..., 5h) его представительство g (S) находится как решение задачи условной минимизации критерия W (S, I), т. е. g(S)=arg min W(S, I). В наиболее важном частном случае, когда Lk— (L)h, пред- представительство я (S) находится'как решение задачи безуслов- безусловной минимизации на L: S(S) = (g(S1), ..., g(Sh)), где g(St) = arg min D(Sh I). ieL Схема алгоритма 1. Выберем начальное разбиение S° ~ (Si S%). 2. Пусть построено т-е разбиение Sm — (S™, ..., Sf). Найдем т-е представительство (набор ядер) /"' — g (Sm). 3. Найдем (т + 1)-е разбиение Sm+1 — f (lm). 4. Если Sm+1 Ф Sm, то переходим к 2, заменив т на tn -f- 1. Если Sm+1 = Sm, то полагаем Sm = S* и заканчи- заканчиваем работу алгоритма. 233
Для получения конкретного варианта алгоритма клас- классификации по приведенной схеме достаточно описать только следующие его компоненты: а) пространство представителей L; б) меру сходства D (X, I), X_ 6 X, / 6 L; в) условия, выделяющие пространство представительств Lk в (L)". В приведенных ниже алгоритмах будем использовать терминологию и, по возможности, обозначения из [106]. Пусть П (X) — множество подмножеств исследуемой со- совокупности объектов X = {Хъ ..., Хп}. Для Р 6 П (X) обо- обозначим через \Р | число элементов (мощность) множества Р. Предположим, что на X задана положительная норми- нормированная мера (распределение массы) \i, т. е. функция (х (X) > 0, X 6 X, такая, что ? ц (X) = 1. е Опишем сначала компоненты а, б, в алгоритмов, в кото- которых представителями классов являются подмножества то- точек классифицируемой совокупности X, т. е. L Е П (X). 1. Метод ядерного разбиения а) ? = П(Х); б) D(X, />)= ? li(X)ii(Y)d(X, Y), где d (X, Y) — некоторая мера близости между объектами из X; в) Lk = (L)k. 2. Метод, использующий ядра фиксированной мощности в) Lk^(L{m))k. 3. Метод, использующий ядра переменной мощности a) L-LM = {/>e П(Х):(х(/>) < ио>> где и. (Р) — 2 И (У) и М'О — фиксированный уровень У6Я массы ядра; в) L*-(L0i))*. Следующая группа алгоритмов использует в качестве ядер точки пространства признаков (формальные объекты). 234
Будем считать, что пространством признаков является Rp, т. е. X с Rp. 1. Метод центра тяжести а) L = ДР; б) D (X, I) = (х (X) d (X, /), где d (X, I) = (X — /)' М (X — /) — квадрат расстояния махаланобисского типа и М — фиксированная симметри- симметрическая положительно определенная матрица. Разброс i-ro класса 5' относительно ядра lt ? Rp в этом слу- случае имеет вид 2 xes1 в) L* =(/?')*• Когда (х (X) = Мп, где п = |Х| и М — единичная матрица, то этот алгоритм представляет собой алгоритм ^-средних параллельного типа. 2. Метод адаптивных расстояний а) L = -RPxDist, где Dist — некоторое семейство мер сходства в RP; б) D (X, l) = d (X, е), где I = (е, d), е 6 Я", d € Dist; в) Lk cz (L)k. В [106] исследуются отдельно варианты с квадратичны- квадратичными и неквадратичными расстояниями. Квадратичные расстояния. В этом случае Dist — {М}: г d (X, е) = (X — е)' М (X — е) — семейство махалано- махаланобисского типа. 1. Независимый выбор меры сходства для каждого клас- класса, т. е. Lk = (L)k, и представитель (еь Мг) ?-го класса S* находится как решение задачи: (е?, M?)=arg min 2 (Х—е)'М(Х—е), евЯр X6S; где Distr — подмножество в Dist, составленное из матриц с определителем, равным 1. Решая эту задачу, получаем (см. гл. 11) et = X (St) — центр класса 5,, М, = ISjP/pS-J, где 2г — ковариацион- ковариационная матрица элементов /-го класса. Теоретико-вероятностная модель, в рамках которой этот алгоритм оптимален, описана в п. 5.4.6. Каждое из наблю- наблюдений X 6 X = {Xiy ..., Хп} извлекается из одной из k нор- нормальных генеральных совокупностей N (et, )?,•), i = 1, ...,k. При этом ег и 2, неизвестны. Модели, в которой каждое наблюдение извлекается из одной из k нормальных генеральных совокупностей N (еь 235
2), i — 1, .... k, с общей ковариационной матрицей 2, где ег, ..., eh и 2 неизвестны, соответствует алгоритм: 2. Мера сходства, общая для всех классов, т. е. Lk cr (L)* и состоит из наборов (с,, ..., eft, M). В этом случае для заданного разбиения S = (Slt ...,Sh) представительство g (S) = (elt ..., eft, M) находится как решение задачи: g(S) = arg min у у (X-e,)' M(X-e,), которую нельзя расщепить на & задач поиска представите- представителей каждого класса в отдельности. Решая эту задачу, полу- получаем (см. гл. 11): в( = X (Si) — центр класса S1; М = |W| Vp W-1, где W = 2 2 (X—X(St)) (X—X(S ))'= 2 2,, 2«—ко- вариационная матрица i-го класса. Неквадратичные расстояния. В качеств основного при- примера рассматривается Dfst = {X = (К1, ..., А,р), А,' > О, р П А,/ = 1}, семейство «сити блок», которое приводит к мето- /=! ду, использующему медианную оцищу центра класса. Представитель (eudi (X, е)) t-ro класса St, гдее,-—центр класса, a d; (X, е) = 2 %{\ х'—е>\ — мера сходства, /=1 ассоциированная с этим классом, находится как решение задачи: (et, d() = Так как Б ? %J\xf—ef\ = получаем е{ = (e}( .... ef), где e{ = arg min 2l*y— e/l eJ XeS. т. e. e' — медиана значений /-го признака по всем элемен- элементам j-ro класса Si. Положим а = (а1, ..., ар), где aJ = = 2 И — е{|. Тогда 236
т.е. 7.4.3. Автоматическая классификация неполных данных. На практике встречаются ситуации, когда исходная инфор- информация о классифицируемых объектах представлена матри- матрицей «объект — свойство» с пропущенными значениями. Например, в социологических обследованиях некоторые индивидуумы могут отказаться ответить на те или иные во- вопросы, отдельные данные могут оказаться «стертыми» и т.п. Опишем алгоритм МДС автоматической классификации совокупности объектов 0г, ..., 0„, характеризуемой непол- неполной матрицей данных. Большим достоинством подхода МДС к этой задаче является то, что он не требует предваритель- предварительного восстановления пропущенных значений и максималь- максимально использует специфику разбиения совокупности объек- объектов на классы по принципу минимального дистанционного разбиения, порожденного набором ядер. Выберем некоторое число (неважно какое) в качестве метки пропущенного значения. Поставим в соответствие объекту О,, / = 1, ..., п, пару (А,, Хс), где А, — диаго- диагональная (р х р)-матрица, a Xt 6 Rp- Диагональный эле- элемент Щ' матрицы А; равен 1, если у 0t известно значение/-го признака, а аи = 0 в противном случае. Координата xl вектора Xt = (я,1, ..., xf) равна значению /-го признака, если а*/ = 1 и равна метке в противном случае. Введем в Rp евклидову метрику при помощи некоторой положительно определенной симметрической матрицы М (М-метрику). Квадратом псевдорасстояния от пары (Аг, Xt) до про- произвольной точки е ? Rp называется dM ((A,, Xi), e) = (Xi-e)' А/ МА< (Х4-е,). Непосредственно из определения следует, что значение псевдорасстояния ^м ((А;, Xi), e) не зависит от выбранно- выбранного значения метки, поэтому можно говорить о псевдорас- псевдорасстоянии ^м @г, е) от объекта О, до точки е 6 Rp- Пусть (х @г) — некоторая весовая функция (положи- (положительная нормированная мера) на исследуемой совокупно- совокупности объектов {Ог, ..., Оп). 237
Выберем некоторый класс St = (О,,, .... О* ). Выраже- Выражение 2 ц (Of) d/л (Oj, ё) естественно назвать псевдоразбросом o^st класса St относительно точки е € Rp, а точку е* = arg min ^ у. (О,) (Х}—е)' — псевдоцентром тяжести класса St. Пусть М — 1Р — единичная матрща и Si совпадает со всей совокупностью объектов {0lt ..., 0п}. Положим \it — = \i @(). Тогда псевдоцентр тяжести вычисляется по фор- формуле: i = В общем случае нетрудно показать [106], что если каждый из р признаков наблюдается по крайней мере на одном из объектов класса S[y то матрица является положительно определенной и псевдоцентр тяже- тяжести е^ класса Si однозначно вычисляется по формуле: \ojesl Возвращаясь к общей схеме алгоритмов классификации МДС, получаем, что если в качестве меры сходства взять псев- псевдорасстояние, а в качестве центра класса — псевдоцентр, то можно непосредственно перенести на случай неполных данных алгоритмы метода центра тяжести и метода адап- адаптивных квадратичных расстояний, изложенные в п. 7.4.2. При реализации этих алгоритмов необходимо только пре- предусмотреть коррекцию на тех шагах алгоритма, когда встре- встречается класс, для которого существует хотя бы один при- признак, ненаблюдаемый у всех элементов этого класса. Про- Продемонстрируем такую коррекцию на примере алгоритма k-средних параллельного типа для неполных данных. Поставим в соответствие исследуемой совокупности объ- объектов {0ъ ...,.0п} набор {(аи XJ, ..., (ап, Хп)}, где at = = (aj, ..., аР) — вектор диагональных элементов матрицы Aj (см. выше). В Rp для простоты фиксируем стандартное 238
евклидово расстояние и будем считать, что точки имеют оди- одинаковые веса. Тогда меру сходства между объектом О,- и точкой е 6 Rp можно записать в виде Схема алгоритма 1. Выберем начальный набор центров {е\, ..., е%), е) ?Rp. 2. Пусть на т-и шаге построен набор центров (е™,..., е™). Построим минимальное дистанционное разбиение Sm = = (Sf, ..., Sg) совокупности объектов, используя псев- псевдорасстояние D (Oi, е). 3. Для каждого класса Si = {Ot , ..., 0jnf} вычислим вектор bt = (b\ bp), где *?=2 of . Построим набор центров (ey+I, ..., e™+1), где d 4 t d 4 А^ если = em./, если ft/ = 0. 4. Если ef+1 Ф ef хотя бы для одного i, то переходим к 2, заменив m на т+1, в противном случае заканчиваем работу алгоритма. 7.5. Алгоритмы метода размытых множеств При анализе социально-экономических и биологических си- систем, в ряде задач технической и медицинской диагностики встречаются ситуации, когда вопрос не в том, принадлежит ли данный объект 0t, 1 < i < п классу S,, 1 < / < k, а в том, до какой степени 0t принадлежит Sh В связи с этим большое развитие получили методы не- нечеткой классификации, в основе которых лежит представ- представление о классе как о размытом (нечетком) множестве объ- объектов, для которых переход от принадлежности к данному классу к непринадлежности постепенен, а не скачкообразен. 7.5.1. Основные понятия, функционалы качества разбие- 239
кия, постановка задач. Пусть {Ох О,,} = О — исследу- исследуемая совокупность объектов. Размытое подмножество объ- объектов задается при помощи функции S, сопоставляющей с объектом О, число 5 (О,), называемое степенью принадлеж- принадлежности объекта Ог этому подмножеству. Предполагается, что О <S (Ог) < 1 для всех г'= 1,..., п. Ясно, что подмножество в обычном смысле задается функцией, принимающей значе- значение 1 на элементах этого подмножества и 0 — на остальных элементах. Размытые подмножества Sly ..., Sk совокупности О об- k разуют разбиение на нечеткие классы, если 2^1 (О,-) = 1 для всех i. В случае когда ^S\ (О,) > 1 для всех /, говорят, что размытые подмножества образуют покрытие нечеткими клас- классами. Таким образом, разбиение 5 = (Si, ..., Sk) на нечет- нечеткие классы задает отображение S:O-+R*:S(Ot) = (S1(Ol), .... Sk(Ot)), -сопоставляющее с объектом О, ^-мерный вектор S (О,) его принадлежностей к классам этого разбиения. Рассмотрим сначала случай, когда исходная информа- информация о классифицируемых объектах представлена матрицей р = (рг/) попарных взаимных расстояний (близостей) объ- объектов. Тогда качество разбиения S оценивается тем, на- насколько соответствующее ему отображение S : О->- Rk ис- искажает «геометрическую» конфигурацию совокупности О, описываемую матрицей р. Например, [193]: где s't = St (О,) и о — параметр. Задача классификации — найти S* = argmin (<2(S): о € Я1, S = (Slt ...,Sh), S,= (S I ) k В такой постановке задача нечеткой классификации представляет собой вариант задачи многомерного метриче- метрического шкалирования (см. гл. 16), в котором экстремум функ- функционала Q (S) ищут на подмножестве отображений S = (Sit 240
k ..., Sft), выделяемом условиями {sl. > О, У sl. = 1, i = 1,..., n}. Ясно, что функционалы качества ^-мерного метрическо- метрического шкалирования мог>т служить функционалами качества разбиения на k нечетких классов. Среди таких функциона- функционалов отметим (см. [66]) Q(S)= 2 2 («фм-рЛ'р?/, который является частным случаем функционалов Qj (Z) (формула A6.8)) и Q2 (Z) (формула A6.8')). Здесь рн = (У (sl — s'JI/2> о — параметр, а = alt если ~ / = 1 _ Ри > Рг;> и а =- а2, если р!у < р^-. Пусть теперь исходная информация представлена мат- матрицей «объект — свойство», т. е. совокупность объектов можно отождествить с набором р-мерных точек X = {Xt, .... *»},*, = (х], ...,хр). Предположим, что Х( 6 Rp- Опишем критерии качества разбиения, аналогичные критериям, использующим поня- понятие усредненного внутриклассового разброса. Выберем мо- монотонную функцию ср на отрезке [0, 11, такую, что ср @) =0 ИфA) = 1. Для размытого подмножества S в X и точки е ? Rp по- положим D(S, e; Ф)= 2 фЫН^-е||8, где s( = S (Xt)- Для обычного подмножества S (когда s,=0 либо 1) выражение для D (S, е; ц>) не зависит от выбора ц> и называется разбросом этого подмножества относительно точки е. По аналогии общее выражение для D (S, е; ц>) на- назовем у-взвешенным разбросом размытого множества S. Центр размытого множества S определим, естественно, как решение задачи e(S; <pj=argmin D(S, e; ф). Имеем «Р («Л 241
Внутриклассовый разброс размытого множества 5 опре- определим как разброс этого множества относительно его центра, т. е. D (S; q>) = D (S, е (S, q>); q>). Теперь пусть S = (Slr ..., 5Й) — некоторое разбиение на нечеткие классы. Положим Q(S)= V D(St; Ф(). В задаче классификации, отвечающей этому критерию, ве- весовые функции ф1; ..., фй являются параметрами, которые можно фиксировать либо подбирать в ходе классификации. Широкий класс критериев качества разбиения на нечет- нечеткие множества получается, если использовать подход мето- метода динамических сгущений (см. п. 7.4). Выберем некоторую меру сходства D (X, ё). Тогда, как и выше, для монотонной функции ф (s), s 6 [О, И, ф @) = 0, ф A) = 1 вводится раз- разброс размытого подмножества S относительно представите- представителя I по формуле: D(S, /; Ф)-2 4>&H(*ь 0- Пусть теперь S=(Si, ..., Sk)—некоторое разбиение на нечеткие классы и /=(/1( ..., /*) 6 Lk cz (L)k—некоторое представительство (см. 7.4.1). Положим W(S, /)= 2 DlS*> l'' Ш- i= i Критерий качества разбиения, соответствующий W (S, I) в МДС, имеет вид Q (S) = W (S, g (S)), где g (S) — функция представительства. В рассматриваемом случае, при L* = = (!)*, г (S) = (/i, ...,/*). где 7.5.2. Алгоритмы нечеткой классификации. Специфику этих алгоритмов покажем на алгоритме ^-средних [192,193]. Пусть X = {Xlf ...,Хп), где Xt б Rp. Управляющие параметры: k — число классов; М — симметрическая положительно определенная мат- матрица, задающая расстояние в R" р|(Х, К)-(Х — Y)'M(X—Y) 242
(далее для простоты будем предполагать, что М = 1Р — единичная матрица); а — число, 1 < а < оо, определяющее весовую функ- функцию ф (s) = sa (см. п. 7.5.1). Схема алгоритма 1. Выберем начальное разбиение S@> = (S\9), ..., Si0)) на k нечетких классов, т. е. массив s<0) из п fc-мерных векто- векторов s(,e>, ..., s«»,sle) = (s<ei>, .... s}°*>), s<°*> > 0, S s}°*> = 1 для всех / = 1, ..., п. 2. Пусть построено m-e разбиение 5(т) в виде массива s<m> из « ^-мерных векторов s{m>, ..., s^">. Вычислим набор центров e(jm>,..., e?m>, где 2 3. Построим (т + 1)-е разбиение 5(т+1> в виде массива {s<m+1>, ..., s{nm+1)}, порождаемое центрами е^"\ ... ?> где 2 т.е. если/« = {/| 1 < t <, k :\\Xi—e«|| = 0}, to <)== 0, *? /J" и 'е/Г 4. Если 5|m+1) # S[m) для некоторого i, 1 < i < /t, то переходим к 2; если S<m+1> — 5<m>, то полагаем 5"") = --=5* и заканчиваем работу алгоритма. 243
При фиксированных k и М описанный алгоритм ?-сред- них представляет собой параметрическое семейство по а, где 1 < а <; оо. Построение нечеткого разбиения, порож- порождаемого набором центров (см. 3), определено при а->- 1 и а—*- оо. Пусть а-> 1. Положим 7™ = {/, 1 < t < k : || X,- — — е^|| = min || Xt ~^||}. Тогда О, t t Т«, s((m+I)O = С Другой стороны, непосредственно из определения нечет- нечеткого класса s("'+1) следует, что при а = 1 он имеет вид: j—е?\\\ s")= Решением этой задачи линейного программирования явля- является любой ^-мерный вектор, лежащий на грани симплекса {s 6 Rk '¦ s@ > 0, 2 2 выделяемого условиями S(O = 0, если t(? I'p. В частности, любая из вершин этого симплекса, у которой все координаты, кроме одной с номе- номером из множества /(т, равны 0. Таким образом получается, что минимальное дистанционное разбиение, порождаемое набором центров е'{\ ..., е™—это одна из допустимых клас- классификации в алгоритме Беждека при а = 1. Пусть а-> оо. Тогда sj('"+1)') = т, т. е. классификация вырождается. Таким образом, в алгоритме Беждека брать слишком большие значения параметра а не имеет смысла. Точно так же, как расписан алгоритм нечеткой класси- классификации по методу ^-средних, можно расписать соответст- соответствующие алгоритмы по всем методам, основанным на описа- описании классов «ядрами», рассмотренным в § 7.2 и 7.4. Напри- Например, полностью сохраняется общая схема алгоритмов клас- классификации по методу динамических сгущений (см. 7.4.2). В случае нечеткой классификации необходимо только ис- использовать следующий способ построения функции назна- назначения / при выбранных ядрах классов (/х, .... lh) и мерах сходства D (X, /<): с объектом Xt сопоставляется /г-мерный 244
вектор s* = (st1, ..., s*fe) принадлежности к классам, такой, что st = argmin 1 2 <Pt И D (Xit /t): s = u= i (= l Например, в качестве весовых функций <р (s) можно, как и выше, взять функции s", 1 < ос < оо. Тогда такие алго- алгоритмы нечеткой классификации по МДС при а —у 1 перей- перейдут в алгоритмы, вариантами которых являются алгоритмы, описанные в § 7.4. Детальное описание алгоритмов нечеткой классификации и исследование их можно найти в [193]. 7.6. Алгоритмы, основанные на методе просеивания (решета) Общим для всего этого семейства алгоритмов является нали- наличие следующих трех блоков [35]: 1) парное сравнение объектов 0lt ..., Оп и составление для каждого объекта О, кортежа {0A, ..., 0in.) «похожих» на него объектов; 2) упорядочение (оцифровка) выборки в соответствии с целью классификации; 3) классификация, моделирующая принцип решета Эратосфена х: на вход классификатора поступает выборка, упорядоченная в блоке 2. Первый объект объявляется ти- типичным представителем первого таксона, в который включа- включается кортеж похожих на него объектов, составленный в блоке 1, после чего этот кортеж удаляется (вычеркивается) из выборки 1 ипичным представителем следующего таксона объявляется первый из оставшихся объектов упорядочен- упорядоченной выборки, а кортеж похожих на него объектов включа- включается во второй таксон, те же из них, которые не были удале- удалены на предыдущем шаге, удаляются из выборки. Такая процедура классификации продолжается до тех пор, пока 1 Одна из формулировок решета Эратосфена (III в. до н. э.): если в множестве натуральных чисел 2. 3, 4,. зачеркнуть числа, кратные первым г простым числам 2,3,5 .., рг, то первое (наимень- (наименьшее) незачеркнутое число будет простым 245
вся выборка или наперед заданная доля ее не будет расклас- расклассифицирована. Классификация, проведенная алгоритмами семейства, в общем случае приводит к покрытию классами, а не разбие- разбиению, так как таксоны могут пересекаться. Это связано с тем, что хотя элементы выборки на этапе 3 последовательно ис- исключаются из рассмотрения, тем не менее они оказывают су- существенное влияние на последующую классификацию, по- поскольку на этапе 2 они участвовали в упорядочении выбор- выборки и порядок этот после их исключения не пересматривает- пересматривается. Переход внутри семейства от одного алгоритма к друго- другому осуществляется настройкой управляющих параметров. В блоке 1 такие параметры определяются видом входной информации. Так, если выборка характеризуется матрицей «объект — свойство», то оценка похожести происходит с по- помощью той или иной меры близости, которая тем самым ста- становится параметром алгоритма. Если же входная информа- информация представлена в виде матрицы попарных взаимных рас- расстояний, то кортеж похожих объектов рассчитывается с ис- использованием пороговых значений, которые либо задаются, либо оцениваются на основе анализа матрицы взаимосвя- взаимосвязей. В блоке 2 упорядочение элементов выборки, как правило, проводится при помощи функционала, который сопостав- сопоставляет с каждым объектом Ог выборки число, характеризую- характеризующее, насколько этот объект типичен для совокупности по- похожих на него {О1у, ..., Oljn} сточки зрения целей класси- классификации. Для выбранного функционала F (Ог) = F (О,; Otl, ..., Oljn) полагаем О, < Oj, если F (Ог) > F (О;); в слу- случае F (О,) — F(Oj), если нет дополнительной ин- информации, то полагаем Ог <С Oj при i <С /. Блок 3 не содер- содержит управляющих параметров, поэтому далее при описа- описании конкретных алгоритмов классификации методом Эра- тосфена (АКМЭ) опускаем его. Рассмотрим более детально алгоритмы семейства, реали- реализующие выделение таксонов при помощи поиска локальных максимумов функции плотности распределения объектов в признаковом пространстве X. Алгоритм на основе модельной локальной плотности. Выберем в качестве модельной некоторую плотность рас- распределения Д, (X), имеющую единственный максимум в ну- нуле, и пусть Хя с \р — такая область, что Р!о {X 6 Х?} =А.. Будем считать, что Хх является носителем плотности U (X), т. е. \р - {X € X" : /0 (X) > 0}. Возьмем 246
оценку плотности распределения / (X) по выборке {Xlt ..,*„} в виде 2> i *= 1 1=1 где {ц;} — веса точек {Х*}. Тогда первые два блока алго- алгоритма можно описать следующим образом: 1. Для каждого Xt выделим подвыборку X (t) = {Xix, ..., Xtmi}, составленную из всех элементов Xj, для которых Х( - X; € Хх. 2. Упорядочим выборку {Хх Хп} при помощи плот* ности /" (X), т. е. считая, что Х( < Хи если J (Xt) >~f (Xj). Например, возьмем модельную локальную плотность в R? вида где ср,а = Г У+*) г2 = Bа + р) а2 и а2 - дис- |B+)]р^2Г()Р персия случайного вектора в /?р с плотностью распределения /0 (X) (см. § 20.2). Рассмотрим семейство алгоритмов для области X.J = = {X 6 Rp, \\X\\ < г}. Это семейство имеет два управляю- управляющих параметра: г и а. Похожими на элемент X; считаются все элементы выборки, отстоящие от него не более чем на г, т. е. X @ = {Xj : II Xi — X; || < г }. При фиксированном г с ростом а в модельной плотности fp,a (X) а2 убывает и в упорядочении выборки все большее значение начинает иметь разброс кортежа X (i) относительно Xlt т. е. на первые мес- места выходят Xj с меньшим разбросом кортежа Х(г) относи- относительно Xj. Для модельной плотности fp, 2 (X) и одинаковых весов Hi, I < i <. п, классификация проводится при помощи плотности распределения j 247
которая с точностью до константы —- совпадает с функцио- функционалом качества в алгоритме Форель. Ясно, что выделение первого таксона в алгоритме Фо- Форель представляет собой градиентный поиск локального максим} ма плотности / (X). Таким образом, если выборка представляет собой объе- объединение сгустков, каждый из которых полностью помеща- помещается в шар радиуса г, то алгоритм Форель даст практиче- практически тот же результат, что и алгоритм классификации мето- методом Эратосфена (АКМЭ) для плотности/,,,2 (X). Следующий таксон алгоритмом Форель выделяется после того, как из выборки удалены точки первоготаксона, и т.д., что в ряде случаев (например, не угадан порог г) приводит к сильной зависимости результата классификации от выбора началь- начальной точки, в то время как в АКМЭ вообще отсутствует необ- необходимость выбора начальной точки. Алгоритм на основе ближайших соседей. В этом алго- алгоритме классификация проводится, по существу, при помо- помощи оценки плотности распределения, получаемой по методу «ближайших соседей». Выберем параметр Л., 0 < Я. <; 1, и возьмем в качестве т целую часть числа Ял, где п — объем выборки, поступившей на классификацию. Первые два блока этого алгоритма будут следующими. 1. Для каждого Xt составим кортеж X (t) = {Xix = — Xt, ..., Xt j) из т ближайших к нему элементов. 2. Пусть S (X (L), Xt) — разброс кортежа X (t) относи- относительно Xt. Упорядочим выборку {Х%, ..., Хп}, считая, что Xt < XJt если S (X (i), Xt) < S (X </), X,). В блоке 2 можно использовать также следующий спо- способ упорядочения выборки {Xlt ..., Хп}: 2'. Пусть rt (т) — расстояние от Xi до самого дальнего из т ближайших к нему соседей {Xi1 = Xi, ..., Xtm+1). Упорядочим выборку {Хи ..., Хп}, считая Xt ^Xj, если U (m) ^ rj (т). Описанные здесь блоки 1 и 2' вместе с блоком 3, общим для всех алгоритмов метода просеивания, составляют алго- алгоритм Уишарта [332], предложенный им в качестве альтер- альтернативы агломеративной процедуры иерархической класси- классификации по методу «ближайшего соседа» в тех случаях, ког- когда она приводит к нехарактерным для исследуемого явле- явления объединениям типа «цепочного эффекта». 248
выводы 1. Описаны наиболее известные и хорошо зарекомендовав- зарекомендовавшие себя при решении прикладных задач ал! оритмы разби- разбиения исследуемой совокупности объектов на классы как при известном, так и при неизвестном заранее числе классов. 2. Общим для всех рассмотренных алгоритмов является то, что в них распределение объектов по классам (классифика- (классификация) осуществляется при помощи сформированного в ходе классификации набора «ядер» классов. Понятие ядра клас- класса в широком смысле обсуждается в п. 7.4. 3. Алгоритмы различаются правилами распределения объ- объектов по классам, типом ядер, тем, является ли класс чет- четким или нечетким (см. § 7.5) подмножеством исследуемой со- совокупности объектов, является ли набор управляющих па- параметров фиксированным или настраиваемым в ходе класси- классификации (см. § 7.3), а также тем, как пост\ пают объекты на классификацию: вся совокупность сразу (параллельные ал- алгоритмы) или порциями по одному, по нескольку (последо- (последовательные алгоритмы). Глава 8. ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ 8.1. Основные определения Пусть X = {Хх, ..., X,,} — конечное множество. Определение 8.1. Иерархией s на X называет- называется система подмножеств (классов) {S:S cr X}, такая, что 1) X6s; 2) {Xt}?s,i= I, .... я; 3) если классы S и S' из s имеют не пустое пересечение, то S' cr S либо S cr S'. Пример 8.1. Пусть X = {Хи ..., Х:}. Тогда систе- система подмножеств s — {{Хг}, i = 1, ..., 7, {Xlt Х2}, {Х3, Xt, Х5}, {Хъ Х2, Х6}, X} является иерархией на X. Исследование структуры иерархий удобно вести в терминах теории графов [831. Определение 8.2. Графом G = G (s) иерархии s на X называется ориентированный граф (V, Е), вершины v 6 V которого соответствуют множествам 5 6 s, а ребра е ? Е—па- Е—парам E', S), таким, что: 5'=^= S, S' с S и в s не существует S" ?= S', для которого 5' с= 5" с= 5. Ребро е = E', 5) изображается стрелкой с началом S' и концом S. 249
Пример 8.2. Граф G = (V, Е) иерархии s из примера 8.1 имеет множество вершин: V = {vt = {X,}, i = 1, ..., 7, i's = {Xt, X?}, v4 — {Х3, X4, Хъ}, v10 = {X,, X2, X6}, vn = X} (рис 8 1). В графе иерархии вершина может быть концом нескольких стрелок, но, как следует из 3 ) опреде- определения 8 1, она является началом только одной стрелки. Определение 8.3. Иерархия называется бинар- бинарной, если любое множество S 6 s, содержащее более одного элемента, является объединением множеств S' и S" из s, где S' П S" = 0. Рис. 8.1. Граф G=(V, E) иерархии s из примера 8.1 Иерархия s из примера 8.1 не является бинарной, так как множество {X j, X4, Х5} нельзя представить в виде объеди- объединения двух множеств изв. Нетрудно показать, что в любой бинарной иерархии s разбиение множества S 6 s на подмно- подмножества S' и S" из s, т. е. представление S = S' (J S", од- однозначно. Иерархия является бинарной тогда и только тог- тогда, когда в ее графе каждая вершина, соответствующая мно- множеству, содержащему более одного элемента, является кон- концом двух стрелок. Определение 8 4. Иерархической классификаци- классификацией данного множества объектов X — {Хи ., Хп) называ- называется построение иерархии s на X, отражающей наличие одно- однородных, в определенном смысле, классов X и взаимосвязи между классами. Алгоритмы иерархической классификации бывают: ди- визимные, в которых множество X постепенно разделяется на все более мелкие подмножества, и агломеративные, в которых точки множества X постепенно объединяются во все более крупные подмножества. 250
Графы иерархий, полученных при помощи этих алгорит- алгоритмов, называются соответственно дивизимными и агломера- тивными Если их изобразить на плоскости так, как на рис 8.2, то видно, что они описывают процедуру классифи- классификации при движении вверх по оси ординат Поэтому дивизим- ные алгоритмы называют также нисходящими (движение про- против стрелок), а агломеративные — восходящими (движение вдоль стрелок). 8.2. Методы и алгоритмы иерархической классификации В основе алгоритмов иерархической классификации лежит тот или иной критерии качества Q (St, ..., Sk) разбиения множества S на подмножества Slt ..., S)t (см. § 5.4). Обычно используются бинарные алгоритмы, ко1Да k = 2 В этом случае Q {Sx, S2) имеет смысл близости р (St, S2) между мно- множествами Sx и S2 (см § 5 3). Далее, говоря об алгоритмах иерархической классификации, будем иметь в виду только бинарные алгоритмы. 8.2.1. Дивизимные алгоритмы. Дивизимные алгоритмы строятся на принципе разделения множества 5 на подмно- подмножества (S*, Sz), такие, что (S], S!) = arg max 9E,, SJ. (8 1) SUSs В реально используемых алгоритмах берется некоторое приближенное решение задачи (8.1), так как точное решение ее фудоемко даже при относительно небольшом объеме эле- элементов в S Вид меры близости р (Slt S2) может меняться в ходе алгоритма. Изложим на важном примере основные приемы разделе- разделения класса S на подклассы Sx и Sa в дивизимных алгорит- алгоритмах. Пусть X = {Хг, ..., Хп), где X, = <х«\ .... х<«) б R» В качестве критерия однородности класса S с X возьмем статистический разброс QE)= ^ II*-ZIP, (8-2) где Z=— 2 *—центр класса S и \\Х — Z\f—квад- \S\ xes X Z рат евклидова расстояния между X и Z. Положим , S, П S,= 0, (8.3) 251
т. е. мерой близости между классами считаем приращение статистическо1 о разброса при объединении классов. Пусть F (Si,52) = Q (Si)-t- Q {Sj}. Для фиксированного класса 5 имеем: р (Su 52) + F (Slt S2) = const. Следова- Следовательно, для решения задачи (8.1) разделения класса 5 до- достаточно найти <Si, SS)=arg min F(Slt 52). (8.4) •S,US2=S Функционал F (Slt S2) является функционалом качест- качества разбиения 5 на подклассы S, и 52 в методе 2-средних, по- поэтому для получения классов S} и S% можно использовать алгоритмы 2-средних (см. п. 7.2.1). Опишем теперь распространенный способ разделения множества 5 на подмножества при помощи линейного клас- классификатора: S: v'X>a}, { где v?Rp, ||i>f=l. Для данного вектора v 6 Rp, |M| = 1, рассмотрим проек- проекцию v: Rp -v R1: X -*- у — v'X и обозначим через 5 образ множества 5. Положим р (Su 52) = Q Eа U^a) ~ Q (Si) — — Q (S2), где Q (•) — как и выше, статистический разброс. Пусть Тогда имеет место формула: p(Sl5 S,) = Fx $х, Ы где т, ш, и nt2 — число элементов в множествах 5, Sx и 52 соответственно. Следовательно, для фиксированного S достаточно найти: E1, SS) = arg max F^sl, ?). (8.5) SUSS Пустьух > yt > ¦¦¦> ym—упорядоченная числовая по- следовательность элементов множества S cz R1. Так как ищем на прямой точку а, разделяющую эту последователь- последовательность на две части, то 5i = S1(m,) = {^j, .... ymt}, S2=?2(mi) = {i/m1+i, ... Ут) (8.6) 252
для некоторого т1г т. е. в этом случае вместо метода 2-сред- них можно применить для решения задачи (8.5) метод по- последовательного перебора. Вычислив числовую последова- последовательность {ф (/na) = Fx Ej (trij), 52 {nij)), m1 = 1, ..., т— 1}, получим пару "EJ =-\ (т\), SI =% (т\), где m* = arg max и, следовательно, Таким образом описан алгоритм нахождения порогового значения а для линейного классификатора, задаваемого век- вектором v 6 R", \\v\\ — 1. В качестве v обычно берется какой- либо координатный вектор либо собственный вектор кор- корреляционной матрицы множества 5 cz R". Вектор v можно получить также как решение задачи целенаправленного про- проецирования (см. гл. 19), дающее проекцию Rp—^-R1, для которой 5 = {у1г ..., ут} — наиболее неоднородная число- числовая выборка в смысле некоторого критерия. Алгоритм иерархической классификации множества X из п элементов состоит из (п— I) шагов. На вход дивизимного алгоритма подается все множество X. На &-м шаге получа- получается разбиение Sw множества X на (k -f 1) непересекаю- непересекающихся множеств (классов) S\k), ..., Si%, называемое раз- разбиением &-го уровня. Итоговая иерархия s представляет собой систему s = = U 5<*>, образованную вложенными разбиениями 5<0> zd А = 1 zd 5*1» zd ... zd S*"-1). Здесь 5@> = X. (Говорят, что раз- разбиение 5A) = (S{i\ ..., SjtV) вложено в разбиение 5(^> = = Ei2), -.., Si*?), если каждый класс из 5A> является под- подклассом некоторого класса из 5<2>.) Если на &-м шаге полу- получается разбиение 5(ft), все классы которого удовлетворяют выбранному критерию однородности, то алгоритм обычно останавливается. 8.2.2. Агломеративные алгоритмы. На вход агломератив- иого алгоритма подается разбиение 5@) = El0), ..., S(n0)), где 5'0) = {Х{}. Разбиение ft-го уровня имеет вид 5(i> = = E<*>, ..., 5^fcJ_ft) и строится из разбиения 5<*-1), k > 1, путем объединения пары классов (S\, 5г), где E?, S*2)=arg min рE„ 52). (8.7) 25Н
Итоговую иерархию s образует система вложенных разбие- разбиений S<°> с 5(J» <=...<= 5С-1) Здесь S^-1» = X Отметим, что иерархическая классификация при помо- помощи бинарного алгоритма всегда дает бинарную иерархию. Замечание. Иногда (см , например, [9]) иерархи- иерархической классификацией множества X называют построение системы вложенных разбиений 5@> id SA) ^э . . zd 5("-г\ где S<°) = X или S<°> с S<]> c= ... с S("~l\ где S*"-1) = = X. Предыдущие рассуждения показывают эквивалент- эквивалентность такого определения иерархической классификации и данного выше определения 8.4. Напомним, что наиболее употребительные в агломератив- ных алгоритмах меры близости р (Su S2) приведены в § 5.3 Свойства этих мер йлизости и методы эффективного решения задачи (8.7) обсуждаются ниже. Здесь же только отметим, что мера близости (8.3) удовлетворяет рекуррентному соот- соотношению E.10). Как будет видно далее, она обладает рядом важных свойств, которые обеспечивают широкое использо- использование ее при решении задач классификации В то же время ниже показано, что «Расстояние по центрам тяжести» E.6) не обладает такими свойствами. 8.3. Графические представления результатов иерархической классификации Алгоритмы иерархической классификации по сравнению, на- например, с алгоритмами, описанными в гл. 7, применимы для классификации множеств X относительно небольшого объ- объема1, но зато позволяют в ряде случаев получить более пол- полный анализ структуры исследуемого множества объектов Так, граф классификации дает представление о взаимосвя- взаимосвязи между разбиениями 5(fti) и S(**' на разных уровнях, и если принято решение остановиться на разбиении S(ft) множества X, то для каждого элемента X 6 X можно оце- оценить степень его принадлежности к классу Sf> для некото- некоторого / при помощи пути (простой цепи, см. 112, с. 147]), соединяющего вершины графа, соответствующие X и клас- классу S<*>. Существенным преимуществом алгоритмов иерархиче- иерархической классификации является возможность наглядной интер- интерпретации проведенного анализа. Имеется большая свобода 1 При программной реализации алгоритмов иерархической клас- классификации требования к объему оперативной памяти ЭВМ и время счета быстро растут с ростом числа элементов в множестве X. 254
в построении на плоскости данного графа иерархии. Изучая различные изображения, согласованные с его структурой, можно получить ряд нетривиальных результатов об исследу- исследуемом множестве объектов, которые и рассмотрены ниже. 8.3.1. Индексации иерархии. Методы построения на плос- плоскости графа иерархической классификации. Опишем об- общую схему построения на плоскости i рафа агломеративной классификации Для получения изображения графа дивизим- ной классификации применимы те же методы, только во всех построениях надо поменять на противоположное на- направление оси ординат (см. рис. 8.2). Определение 8.5 Индексацией v иерархии назы- называется отображение v: s-*- /?\ ставящее в соответствие мно- множеству 5 6 s число v E) таким образом, что: 1) \ {S) = О тогда и только тогда, когда 5 состоит из одно- одного элемента; 2) v (S') «С v E) для каждой пары E', 5) из s, такой, что S' с S. Определение 86 Grpoi oil индексацией v иерар- иерархии s называется ее индексация, удовлетворяющая условию: 2') v E') < v E) для каждой пары (S1, S) из s, такой, что S' <= 5 и S' Ф S. Пусть (s, v) — некоторая индексированная агломератив- ная иерархия s на множестве X = {Xlt ..., Хп}, построен- построенная при помощи меры близости р E,, S2). Вершины графа этой иерархии, соответствующие множествам {Xt}, i — 1, ..., п, обозначим через vt, а вершины, соответствующие мно- множествам S 6 s, \S\ > 1, — через vs. Допустим, что верши- вершины vst и vss нанесены на плоскость, т. е. можно записать в координатах: vSt = (vSt, vSt) и vs,_ = (vs,, vs2). Тогда, если 5X U 52 = 5 g ?, то положим — (ОS, "f" ySs)« v E) м соединим точки vsx и vs, с vs. Далее будем использовать соединение, показанное на рис. 8 3. Начальный шаг пост- построения обеспечивается тем, что, по предположению, верши- вершины vt располагаются на оси абсцисс. На этой оси они упоря- упорядочиваются так, чтобы в итоговом изображении графа мини- минимизировать число пересечений ребер графа Например, если v — строгая индексация, то можно так упорядочить верши- вершины уг, 1 < i < п, что ребра будут соединяться только в вер- вершинах. Таким образом каждая индексация задает изобра- изображение графа. До последнего времени в пакетах программ реализовы- валось графическое представление агломеративной иерар- 255
Рис. 8.2. Графы иерархий, описывающие процедуры классификации: а) дивизимная (нисходя- (нисходящая) процедура; б) агломеративная (восходящая) процедура
хии, основанное на строгой индексации v, ставящей в соот- соответствие множеству S?s номер шага, на котором это множе- множество было включено в иерархию. В этом случае индексация v любой иерархии s принимает значения 0, 1, ..., (п— II. Важные исследования по индексациям иерархий проведены в [248], на результаты [248] опирается изложение этих вопросов в книге. 8.3.2. Оцифровка изображения графа иерархической клас- классификации. При наглядной интерпретации результатов vis) vis2) vis,) - - " V t 1 J 1 .^ • 1 -2 X4 *3 •2 1 -1 I5 1 e 4 1 i 1 - I' X7 > i 2 • Рис. 8.З. Правило соединения вершин при изображении иа плоскости графа иерархиче- ской классификации с исполь- использованием индексирующего ото- отображения v Рис. 8.4. Конфигурация точек множества X={xt, ..., х\о) из примера 8.3 классификации большое значение имеет то, какую допол- дополнительную информацию о структуре исследуемой совокуп- совокупности объектов несет распределение на отрезке [0,1] число- числовой последовательности {v E)/v (X), |5| > 1, S (zs) для выбранной индексации v. Пример 8.3. Пусть X = {Xv .... Хго} — множество точек на плоскости, изображенное на рис. 8.4, и s — его агломеративная иерархия, построенная по мере близости E.6): р (Sj, 52) = \\ZX — Z2\\\ где Zt — центр класса St, i= 1,2. Здесь Х3 = (— 1,5,е)иХ, = A,5, е), где 0< е < < 0,125. Поэтому Из рис. 8.5 видна роль выбора индексирующего отобра- отображения v. В случае а) наглядна последовательность вхожде- вхождения классов Si в иерархию; в случае б) это невозможно уви- 1 На распечатках графа иерархии, изображенного с помощью такой индексации, обычно вместо номера уровня выводят значения меры близости р {St, S2) между классами St и S2, которые иа этом уровне образовали новый класс S = Si U S2. 9 Заказ № 291 2&7
СИ 00 v 9 8 7 6 5 4 3 2 1 О h б) I | 89 10 Рис 8 5 Изображение графа иерархии 5 множества Х={хи ..., Х\0) из примера 8.3 a) v(S)=&, где й —номер шага, на котором 5 включается в s; б) vE) = |5| — 1
деть, но очень наглядно распределение тех же классов 5,- ло числу элементов в них, хотя речь идет об одной и той же иерархии s. Большое значение для визуального анализа иерархии s имеет такое построение ее графа, при котором множество 5 g s изображается точкой с ординатой v (S), соответствую- соответствующей значению р (Su S2) для множеств S^ и 52, из объедине- объединения которых оно получено. Такие изображения графа на- называются оцифрованными. Возникает задача: пусть s—бинарная иерар- иерархия множества X, получен- полученная агломеративным алгорит- *, v2 v3 мом при помощи меры бли- близости р (Sj, S2). Найти индек- Рис 8 6. Инверсия в изо- сацИЮ V ЭТОЙ иерархии, та- бражении графа иерархиче- r r скои классификации мно- кую, что жества точек из примера ,, /с 11 с \ п /с с \ /о о» 8 3 Здесь v, = {хЛ, /= 1, 2, 3, v Pi U ¦Jj) - Р W li -Jy- (&¦&) „ _ry Y\ v _/v v У5' —V*l» **2f» " $"—\*11 *2» Так как любое множество *з} 5 6s однозначно представи- мо в виде S' U S", S' (] S" = 0 для некоторых S' и S" из s, то формула (8.8) вместе с условием v ({X,}) = =0, X, 6 X, i = 1, .... п, однозначно задает отображение v на s. Таким образом, сформулированная задача эквива- эквивалентна следующей: для каких мер близости р (Su S2) отображение v, зада- задаваемое формулой (8.8), является индексацией. Пример 8.4. Пусть X = {Хи ..., Х„} — набор то- точек в евклидовом пространстве Rp и р (Su S2) = \\ZX — — Z2||2, rfleZ, — центр класса S, cz X, i — 1,2. Тогда ото- отображение v, задаваемое формулой (8.8), не является индек- индексацией. Действительно, для точек {Х^ ..., Xj0} из примера 8.3 имеем в случае Sx = {Xlt Х2} и 52 = {Х3}: Z, = (- 1,5, 1), Z2 = Х3 и р (Slt St) = A - еJ, где е > 0. Таким образом, для v (S) = р (Slt 52) получаем: S, с S = S,U S2> но vE) = (l— e — противоречие с определением индексации. Если же мыс- мысленно для такого отображения v изобразим граф иерархии по правилу, описанному выше, то на этом изображении полу- получим следующий фрагмент (рис. 8.6), где вершина, соответст- соответствующая объединению двух подмножеств, лежит по оси ор- 9* 259
динат ниже, чем вершина, соответствующая одному из этих подмножеств. В этом случае говорят, что мера близости име- имеет инверсии. В § 8.4 приведены условия на меру близости, обеспечивающие отсутствие инверсий у нее. Ряд важнейших мер близости р (Su S2) этим условиям удовлетворяет (см. теорему 8.1). 8.4. Приложения общей рекуррентной формулы для мер близости между классами 8.4.1. Расчет матрицы взаимных близостей классов данного уровня иерархии. Рассмотрим более подробно переход от разбиения S**-1) к разбиению Slk), k<.n — 1, на k-u шаге агломеративного алгоритма. Имеем 5<*-х> = (Sf-1) S1*-^)- Вычислим матрицу взаимных расстояний р**) между классами разбиения 5**-1) и найдем пару классов E', 5"), такую, что 'E', 5")=arg min pfSJ*-1», S<*-") Пусть S' = Sf-1) и 5" = S)*-1), где i < /. Тогда по- положим 5^ = 5Ги, 1Ф1, i, n-k+l. Sj*> = Следовательно, для получения матрицы взаимных расстоя- расстояний р<*> можно воспользоваться матрицей р**), вычислив дополнительно только расстояния рE1*), 5^'), / Ф- i при фиксированном L Так как S[k) = S[k~1'> {] 5**"), то для этого оказывается полезной рекуррентная формула Жамбю [248]: рE, S'{jS")=a1p(S, S') + a2p(S, S") + обобщающая формулу Ланса и Вильямса E.9). 8.4.2. Условия на меру близости, обеспечивающие отсут- отсутствие инверсий. Эти условия дает результат, полученный Г. Миллиганом [248]. Теорема 8.1. Пусть s — иерархия на множестве X, полученная при помощи меры близости р (Sx, 52), для кото- которой верна формула (8.9). Тогда, если ах + а2 + а3 > 1, a.j > 0 для j = 1, 2, 4, 5, 6 и а, > — min (а^ а2), то ото- отображение v: s-y-R1, задаваемое формулой v EX U 52)= 260
= p (Slt S2) и условием v ({Xt}) = 0, t= 1, ..., n, являет- является индексацией. Пример 8.5. Пусть X = {Хи ..., Хп] — набор то- точек в евклидовом пространстве R" и \x-zf- 2 \x-zlf- s2 X6S, (8.10) где Z, Zx и Z2 — центры классов 5t U S2, 5j и 5г. Тогда верна формула p(S, 5'U 5") = —pi^__p(S, S')+ *"?' . X х рE, S') -4—гРE', S") (ср. с формулой E.10), где п = \S\, n' = \S'\ и п" = = \S"\. В обозначениях формулы (8.9) имеем: п~\-п' п-\-п" п а*~ п + п' + п" в*~ п + п' + п" ' "*-- п + п'+п"' flft = = 0, ft = 4 7. Имеем % -f a2 + аз = 1, т. е. все условия теоремы Г. Мили- гана выполняются и поэтому мера близости (8.10) не имеет инверсий. Замечание. Из (8.10) следует, где пх = |5Х|, п2 = |52|. Таким образом, введение множите- множителя ¦ * * позволяет исправить инверсию меры близости р (Slf is2) = || Zx—Z2||2 из примера 8.4, которая удовлет- удовлетворяет формуле (8.9) с параметрами: , at= П\П* Здесь 0x4-^ + 03= 1 - , П\П*,. < 1. 8.4.3. Алгоритм гибкой стратегии иерархической классифи- классификации. Формула Жамбю (8.9) позволяет обобщить гибкую стратегию Ланса и Вильямса [150]. Пусть исходная информация о классифицируемых объек- объектах представлена в форме матрицы взаимных расстояний 261
P — (Pjv)i 1 ^= (> / <i л- В алгоритмах гибкой стратегии рас- расстояние между классами р (S1; S2), где |Si|-|S2| > 1, за- заранее не фиксируется, как это делается обычно, а настраива- настраивается в ходе классификации. Положим р@> = р. Пусть, по индуктивному предположению, известны матрица взаим- взаимных расстояний р**-1) между классами разбиения Sik~l\ k= 1, ..., п — 2, и индексирующее отображение v: S**-1) -> ->- jf?1. Напомним, что v на S<0)— нулевое отображение. Тогда, подобрав любым способом параметры аъ ..., а7, удов- удовлетворяющие теореме 8.1, получаем возможность при помо- помощи формулы Жамбю вычислить матрицу взаимных расстоя- расстояний р**' между классами разбиения S(K), а при помощи фор- формулы v (S1 U S2) = p (Slt S2) — индексирующее отображе- отображение v: 5<й> -у R1. 8.4.4. Процедуры иерархической классификации, использу- использующие пороговые значения. Как уже отмечалось выше, трудности реализации классических алгоритмов иерархи- иерархической классификации (см. п. 8.2.2) быстро растут с ростом числа п классифицируемых объектов. Это объясняется тем, что на k-м шаге алгоритма для каждого k = 1, ..., п — 1 приходится искать минимальный элемент в матрице взаим- взаимных расстояний pf*-1), т. е. находить минимальный элемент в массиве из Nk^x = (п — k + 1) (n — k)l2 чисел. Ясно, что минимальный элемент в матрице р<*~1) достаточно ис- искать среди ее элементов, не превосходящих некоторый по- порог с, а массив таких элементов при соответствующем выбо- выборе порога с содержит элементов намного меньше, чем Nh-X. В связи с этим разрабатываются процедуры иерархической классификации, использующие пороговые значения. Об- Общая схема подобных процедур следующая: задается или фор- формируется в процессе классификации последовательность порогов сг<С Съ<С ... < ct. На первом этапе алгоритма по- попарно объединяются элементы, а затем и классы, меры бли- близости которых не превосходят сх. На втором этапе — с2 и т. д., пока все элементы не объединятся в один класс. Эффек- Эффективность таких процедур существенно зависит от внутренней структуры исследуемого множества объектов, от выбора по- последовательности пороговых значений съ ..., ct и меры бли- близости р (Si, S2) между классами. Сравнительно недавно было показано, что если мера близости р (Slf S2) обладает свойст- свойством редуктивности (см. определение 8.7), то процедуры ие- иерархической классификации, использующие пороговые значения, позволяют построить точно такую иерархию, что и классические агломеративные процедуры, но рабо- работают они существенно быстрее последних [249f. Этим вопросам посвящен § 8.5. 262
Опишем свойство редуктивности мер близости и способ его проверки. Пусть s = {S<°> с: ... с: S^-1) с: S<*> с: ... } — бинар- бинарная иерархия, полученная агломеративным алгоритмом при помощи меры близости р (Slf S2) и SJ*-1), Sj*-1)— пара классов, которая объединяется в один класс на k-м уровне иерархии. Определение 8.7. Мера близости р (Slt S2) обла- обладает свойством редуктивности (является редуктивной), если для любого класса S/? S<*-1> , k = 1, ..., n—1, и по- порога с > О, такого, что р (S}*~1\ S}*~n) <C с, из условий Р (Si, Sg~l)) > с и р (Si, S/*-!)) > с вытекает, что р (Sh sikr1' \js?-ir)>c. Для мер близости р (Slt S2), удовлетворяющих формуле Жамбю (8.9), свойство редуктивности проверяется при по- помощи следующего теоретического результата: Теорема 8.2 (Диде). Если параметры at,..., а, меры близости р (Slt S2) удовлетворяют условиям аг -\- а2 + ^| >{ар1>__ min (flii aa)i a. > о, / = 1, 2, 4, 5, 6, то мера близости р (Slt S2) является редуктивной. Сравнивая утверждения теорем 8,1 и 8.2, получаем, что для каждой редуктивной меры близости р (Slf S2) ото- отображение v :s -»¦ 7?1 : v (St U 52) =¦ p (Slt S2) является ин- индексацией соответствующей ей иерархии s. Пример 8.6. Для меры близости р (Slt S2) из примера 8.5 имеем: аг + аг + —^— = 1, т. е. приращение внут- внутриклассового разброса при объединении классов является редуктивной мерой близости между классами. Другие важ- важные примеры рассмотрены в § 8.5. 8.5. Быстрый алгоритм иерархической классификации Опишем сначала основной блок алгоритма. Пусть X = {Xlt ..., Хп) и р (Slt S2) — некоторая мера близости между подмножествами из X. Выберем порог с. Из матрицы взаимных расстояний рх = (pjj = р (Хг, Xj)) выберем массив Wc = (р^ : р^<Сс). Допустим, что Шаг А. Найдем р*./, = пш1рц. 263
Объединим точки Хи и X и в один класс {Хи, X}t), которому присвоим обозначение Хп+1. Положим * X ={Xi, ..., Xit, ..., Xlt, ..., Хп, Хп+1}, где . — символ удаления элементов. Сформируем массив WI из матрицы взаимных расстоя- расстояний множества рхь включив в него: ри, если ptj?Wc и {i, /}П0*, /*}= 0; Pi,n+i=P(Xh Xn+i), если p7i^Wc или р{/.€^с» причем рг,п+1<с. Таким образом получаем пару (X1, Wi). Если W] Ф 0, то описанный шаг А можно повторить. Итогом работы рассматриваемого блока алгоритма явля- является последовательность пар (X, We), (X1, Wi), ..., (X't Wi), 1«?/<л—1, где Xft — множество, полученное из X*-1, k ^ 1, объеди- объединением двух каких-либо элементов, №* — массив, сформи- сформированный из матрицы взаимных расстояний множества X* и W'c — пустой массив. Схема алгоритма 1. Задаем множество X = {Xlt .... Хп} и меру близости Р (Si, S2). 2. Выбираем значение порога с0 и формируем массив Wc. Например, с0 выбирается так, чтобы qx |X| ^ \We\ < ^^2|Х|, где qu ц.г — числовые параметры. 3. Применяем к (X, Wc) процедуру основного блока алго- алгоритма. В результате находим множество X', для которого Wlc= 0. По построению элементам множества X' соответ- соответствуют непересекающиеся классы из Х,т. е. X' — разби- разбиение множества X. 4. Если |Х'| > 1, то возвращаемся к шагу 1, заменив X на X'. (В алгоритмах гибкой стратегии заменяется и мера близости.) Если |Х'} = 1, то заканчиваем, работу алгоритма. Итогом работы алгоритма является бинарная иерархия на X, но в общем случае эта иерархия не совпадает с иерар- иерархией, получаемой классической агломеративной процедурой при помощи меры близости р (S1( S«)..Соответствующий при- 264
мер нетрудно привести для меры близости р (Slt Sa) = | |Zj — — Z2||2, где Zu Z2 — центры классов. В то же время, как уже отмечалось, для редуктивных мер близости (см. определение 8.7) описанная процедура представляет собой ускоренный вариант классической аг- ломеративной процедуры. Приведем важнейшие редуктивные меры близости. Про- Проверка опирается на теорему 8.2 и проводится в терминах параметров ах, ..., а, общей рекуррентной формулы для мер близости. /Оз — | Оз I \ Положим ах + аг + I I = 6 и min (аь а2) =—d. Тогда, по теореме 8.2, если параметры аъ ..., а7 таковы, что b>\, aj^O, \— 1, 2, 4, 5, 6 и d < а,, то определяемая ими мера близости р (Sx, S2) редуктивна. Для краткости указываем только наименование меры близости: 1) «ближайший сосед» E.4): а 0 3 6=1, d=—L = a7; 2) «дальний сосед» E.5): al = a1 = fl7 = -i-' ^ = 0« 6=1, d=—i-<fl7; 3) средней связи E.7): 4) приращение статистического разброса при объединении классов (см. примеры (8.5 и 8.6)). ВЫВОДЫ 1. Введены понятия иерархии s на множестве объектов Х= = {Хи ..., Х„} и графа иерархии. 2. Общая постановка задачи иерархической классификации состоит в требовании построить иерархию s на исследуе- 265
мой совокупности объектов, отражающую наличие одно- однородных, в определенном смысле, классов и взаимосвязи между этими классами. 3. В основе алгоритмов иерархической классификации ле- лежит тот или иной критерий качества Q (St,..., Sk) разбие- разбиения множества S на подмножества Su ... ,Sk. Обычно ис- используются бинарные алгоритмы (fc= 2). В этом случае Q (Slt S2) имеет смысл близости р (Slt S2) между множест- множествами Sj и S2. Мера близости р (Slt S2) либо фиксирована, либо меняется (настраивается) в ходе алгоритма. В по- последнем случае говорят о гибкой (адаптивной) стратегии классификации. 4. Алгоритмы иерархической классификации бывают: а) дивизимные, результатом которых является система вложенных разбиений S<°> гэ S*1' гэ ... гэ S'"-1* множе- множества X, где S<°> = X и S<*> = (S<*>, .... Si%i)— раз- разбиение X на непересекающиеся классы, называемое разбие- разбиением &-го уровня. Переход с &-го уровня на (к + 1) осу- осуществляется разбиением некоторого класса S\k) на подклас- подклассы S\, S%, где (S7, S|) = arg max p(Slf S,); б) агломеративные, результатом которых является система вложенных разбиений S(O)c:SA) c= ... с: S<"~i> множества X, где S<°> = (Хи ..., Хп) и S<fc) = (SJ*> S?L») — раз- разбиение й-го уровня. Переход с й-го уровня на (k + 1)-й осуществляется объединением пары классов (S*, SI), где min p(S1, S2). ss ^. Существенным преимуществом алгоритмов иерархиче- иерархической классификации является возможность изображения на плоскости графа полученной иерархии, называемого графом классификации. Имеется большая свобода в по- построении на плоскости данного графа классификации. Изучая различные изображения, согласованные со струк- структурой этого графа, можно получить ряд тонких резуль- результатов об исследуемом множестве объектов. 6. Описана общая схема построения на плоскости графа классификации. В основе построения лежит понятие ин- индексации иерархии, которая представляет собой отобра- отображение, ставящее в соответствие каждому классу S число v (S) таким образом, что v (S) = 0 тогда и только тогда, 266
когда 5 состоит из одного элемента, и v (Sr) < v(S), как только S'czS. 7. Для визуального анализа иерархии s большое значение имеет построение на плоскости такого изображения ее графа, при котором классу S (: s соответствует точка с ординатой v (S) = р (Slt S2), где Sx и S2 — классы, из объединения которых получен класс S. Такие изображе- изображения называются оцифрованными. 8. Важнейшие меры близости р (Slt Sa) описываются общей рекуррентной формулой (8.9). В терминах параметров ах, ..., а7 из (8.9) а) даны условия, достаточные для существования оциф- оцифрованного изображения графа классификации, соответст- соответствующего мере близости с этими параметрами; б) описана общая схема построения алгоритмов гибкой стратегии иерархической классификации; в) описана общая схема процедур иерархической клас- классификации, использующих пороговые значения, но дающих тот же результат, что и классические агломеративные про- процедуры. В рамках этой схемы описан быстрый алгоритм ие- иерархической классификации, позволяющий получать иерархическую классификацию больших массивов данных на ЭВМ средней мощности, в частности на персональных компьютерах. Глава 9. ПРОЦЕДУРЫ КЛАСТЕР-АНАЛИЗА И РАЗДЕЛЕНИЯ СМЕСЕЙ ПРИ НАЛИЧИИ АПРИОРНЫХ ОГРАНИЧЕНИИ 9.1. Разделение смесей при наличии неполных обучающих выборок Здесь и далее в главе рассматриваются процедуры кластер- анализа и разделения смесей распределений, когда у ис- исследователя имеется некоторая априорная информация от- относительно желаемой классификации, задаваемая в виде тех или иных ограничений. Иногда возникает ситуация, когда исследователю извест- известна принадлежность некоторых объектов из матрицы данных X к некоторым компонентам смеси или кластерам (классам). Дальше будем считать без ограничения общности, что имеют- имеются обучающие выборки (ОВ) {Х}^/ =A, /) для /первых клас- классов и объем такой выборки vj. Суммарный объем таких выбо- 267
рок v = Sv^ <^ n и не позволяет воспользоваться процеду- процедурами дискриминантного анализа. Количество ОВ (/) может быть меньше количества выделяемых классов k. 9.1.1. Модификация ЕМ-алгоритма. ЕМ-алгоритм для оцен- оценки параметров смеси распределений описан в § 6.4. Этот алго- алгоритм носит итерационный характер, на каждом шаге /, в частности, пересчитываются вероятности принадлежности /-го объекта X,- к /-му классу по формуле F.9) 6У-") / 2 Pif[Xt; в}'»). (9.1) Модификация алгоритма при наличии неполных ОВ состо- состоит в том, что для объектов, которые в них содержатся, значе- значения g\P корректируются следующим образом [66]: если объ- объект Xj принадлежит ОВ для r-го класса, то $} = 0 (/ Ф г, 1=ТГЩи &= 1. Эффективность использования неполных ОВ весьма ве- велика. Имеются примеры, когда использование ОВ, состав- составляющих примерно 10 % исходной выборки, приводило к резкому улучшению результата разделения смеси 1. 9.1.2. Разделение смеси с неизвестным числом классов. Рассмотрим случай смеси нормальных распределений с рав- равными матрицами ковариаций, число компонентов k которой неизвестно. Кроме того, имеются неполные ОВ, так же как и в п. 9.1.1. Вычислительная'процедура состоит из следующих ша- шагов [66]. Шаг 1. Вычисляются оценки векторов средних значений Xj (/ = 1, /) и общей матрицы ковариаций 2V_/ по непол- неполным ОВ. Нижний индекс указывает число степеней свобо- свободы, соответствующее оценке матрицы ковариаций. Далее для измерения расстояния между объектами Xi и Хт ис- используется расстояние Махаланобиса * (Xit Хт) = (X, - Хт)' 2>1/ (Xt -Хг). (9.2) Пусть теперь h — вектор размерности п, у которого /-я компонента равна номеру класса для объекта Xi. Прирав- Приравниваем к нулю компоненты h, а объектам из ОВ присваива- присваиваем соответствующие номера. Текущее значение числа клас- 1 Hosmer D. W. Jr. A compargsion of Iterative Maximum Like- hood Estimates of the Parameters of a Mixture of Two Normal Distribu- Distribution under Three Different Types of Sample //Biometrics. — 1973. — Vol. 29.— P. 761—760. 268
сов т полагается равным /. Значение счетчика числа клас- классифицированных объектов v = 2 vi> гДе vi — объемы ОВ. / Шаг 2. Обнуляются счетчики числа классификаций объ- объектов т] и числа случаев образования новых классов \. Проведем последовательный просмотр неклассифици- неклассифицированных объектов, т. е. объектов Xt, для которых /г,- = 0. Пусть Xt — такой объект. Тогда вычисляются расстоя- расстояния от Xt до центров уже образованных классов d? (Xt, величины tj = ^I7Ov-m) * {Xi' *'> И значения F (t)) функции ^-распределения с р и v — т — р + 1 сте- степенями свободы от /*. Вычисляется fj= 1 — F (t)). При сде- сделанных допущениях (нормальность, равные матрицы кова- риаций) величина fj равна вероятности реализации расстоя- расстояния от Xt до Xj, большего или равного t) при условии, чта X, действительно принадлежит /-му классу. Пусть теперь /max= max fh /max=argmax fjy т.е. fmBX = fjmtLX. Относительно объекта Xi принимается одно из трех реше- решений: 1) если /max > clf то объект Xt относится к классу с номером /тах и проводится корреляция оценки Х^тах и S: . (9-4) Используя формулу Бартлетта 1129], получаем скорректи- скорректированную обратную матрицу (9.5) /„,„; 269
2) если /max< С2. то считается, что объект Xt принад- принадлежит некоторому новому (т + 1)-му классу; счетчик чис- числа классов т увеличивается на 1 (т = т + 1) и полагает- полагается, Хт = Xit к, — m; I = I + 1; v = v + 1; 3) если выполняются неравенства ~сг < /max < Clt то никаких действий не проводится. Если просмотр объектов не окончен, то переходим к про- просмотру следующего объекта. Шаг 3. Проверяется, все ли объекты расклассифициро- расклассифицированы, т. е. равенство v = п. Если оно выполняется, то про- производится переход на шаг 5, в противном случае на шаг 4. Шаг 4. Проверяются значения счетчиков ц и ?. Если хо- хотя бы один из счетчиков не равен нулю, то переходят на шаг 2. Если одновременно т) = 0 и I = 0, то, следовательно, на шаге 2 не было образовано ни одного нового класса и не бы- было классификации объектов. Поэтому проводится умень- уменьшение порога сх на величину 6^ и увеличение порога с2 на величину бс2, т. е. сг = сг — 6clt с2 = с2 + бс2. Таким обра- образом, увеличиваются возможности классификации объектов и образования новых классов (принятые при реализации ал- алгоритма значения бсх = 0,01 и бс2 = 0,001). Производит- Производится переход на шаг 2. Шаг 5. Проводится реклассификация исходной совокуп- совокупности объектов X так же, как на шаге 2, но при сг = 0 и без пересчета оценок статистических характеристик Xj, S. Полученная классификация считается окончательной. 9.2. Классификация при ограничениях на связи между объектами Довольно типичной является ситуация, когда исследова тель желает получить разбиение совокупности объектов Ои ..., Оп на классы, согласованное с матрицей ограниче- ограничений В = (Ьи), 1 < /,/ < п, где bij = Ьи, Ьц = 1 и bu = Q, I Ф j, если объекты Ot и Oj, по априорным сведениям, являются разнородными, и btj = 1, если таких сведе- сведений об объектах Ог- и Oj нет. Например, в задачах формиро- формирования нескольких экспертных комиссий для анализа неко- некоторой производственно-экономической системы объектами группировки являются эксперты, описываемые их профес- профессиональными показателями, но при формировании комис- комиссий желательно учитывать особенности взаимоотношений между экспертами. В ряде задач, где объекты описываются 270
данными измерений, проб и т. п., при классификации часто необходимо учитывать качественную однородность этих объектов. Приведем примеры построения матриц ограничений В= = (btJ), 1 < i, / < п. Пример 9.1. Пусть (У cz О = @^ ..., 0„) — под- подмножество объектов, объединенных общностью какого-либо показателя щ, скажем, в задачах социологии, демографии и т. п. Допустим, что набор показателей nt, I < t < Т поз- т воляет представить О в виде объединения U О', вообще го- говоря, пересекающихся подмножеств О'. Тогда для пары объ- объектов Ot и Oj положим btj = 0, если не существует ни од- одного показателя ль объединяющего их, и btj = 1, если {О,-, Oj} а О1 для некоторого t. Пример 9.2. Пусть исследуемый объект Ot описыва- описывается точкой Xt — (л;,-1', ..., х\р)) 6 Rp, причем набор при- признаков х\ х(р), таков, что для некоторого порогового значения с можно, априори, сделать вывод: если \\Xi — — Х]\\ > с, то объекты О,- и Oj не являются однородными. Тогда положим Ьи = 0, если \\Х[ — Х}\\ > с, и bi}- = 1, если \\X, — Xj\\ <c. Пример 9.3. Пусть объект О,- описывается парой (X,,Zi), где X; =¦ (х\1), ..., х\р))—вектор признаков, под- поддающихся измерению, a Z; = (Zf'\ ..., zf?)) —вектор при- признаков, для которых не существует объективно обусловлен- обусловленной шкалы, скажем, г\ч) — выраженное в баллах мнение ^-го эксперта об i-u объекте. Допустим, что существует ме- мера близости р' (Z,-, Zj), такая, что для некоторого порогово- порогового значения с из условия р' (Zt, Zj) > с вытекает, что объек- объекты О, и Oj заведомо не являются однородными. Тогда поло- положим bij = O, если р' (Zt,Zj) > с, и btj= 1, если р' (Zb Z) Итак, пусть имеется совокупность объектов О = (Ог, ..., 0„), исходная информация о которых представлена либо в форме матрицы объект — свойство X = (х[п), 1 < i < < п, 1 < / < р, и матрицы ограничений В = (btj), 1 < /, / < п, где Ьц = 0 или 1, либо в форме матрицы р = (р^), 1 < i, j < n взаимных близостей между объектами, причем в этой матрице пропущены элементы р^, где (i, /) — пары ин- индексов, для которых btj = 0. Опишем схему соответствующего агломеративного ал- алгоритма иерархической классификации. 271
Схема алгоритма 1. Выберем меру близости р (Slt 52) между подмножест- подмножествами исследуемой совокупности. Подадим на вход алгорит- алгоритма разбиение 5° = E?, ..., 5*) на одноточечные классы 5* = {Xf} и матрицу ограничений В = (Ьг/}. 2. Допустим, что на т-и шаге имеется разбиение S" ==¦ = (S"~\ ..., Sn-m+i), 1 <т <л— 1, и матрица ограни- ограничений В"»-1 = ФТГ1), 1 < i, J < п — m + 1. Найдем Объединим классы S?-1 и S™ в одни класс и получим раз- разбиение Sm ~ (S™ 5^_'т), где Sjt = 5^-1, если /=т^'*> /*» п—т+ 1; Далее, получим матрицу ограничений Вт = (Ь^), где bi}=b?rl>если ГО, если 6fy1-f-b^-1 = 0; '•' [1, если b^-l+bfjl^0, /#/*; {О, если б!" 1, если б,".Гп—+ bTlt = b"-Jm+l, если iФ^. 3. Если Вт — единичная матрица, то объявляем раз- разбиение 5т итоговой классификацией. Если вне диагонали матрицы Вт имеются ненулевые элементы, то возвращаем- возвращаемся к шагу 2, заменив m на m + 1. Результатом работы алгоритма является последователь- последовательность разбиений S°cz...cz Sk. где 0 <& <я— 1, при- причем каждое разбиение 5е = (Sf, ..., 5*_,) согласовано с матрицей ограничений В в следующем смысле: если объекты Ot и Oj попадают в один класс, скажем 5?, 1 < / < п — 1, то в этом классе обязательно содержится цепь объектов Ои Oit Oljn_v О,, m ^ 1, такая, что bitti ... bim_l} = 1. Все результаты об агломеративных алгоритмах иерар- иерархической классификации (см. гл. 8) естественным образом распространяются на описанный выше алгоритм классифи- классификации при ограничениях на связи между объектами. 272
9.3. Классификация иа графах Опишем методы и алгоритмы классификации, основанные на представлении исходной информации о классифицируемых объектах в виде графа близости G = (V, E), вершины »i,..., оп 6 V которого соответствуют объектам 0±,..., 0п, а ребра вц 6 Е, с Ф j, соединяющие вершины vt и Vj — неупорядо- неупорядоченным парам @г, Oj), 1ф j, т. е. вц = вц. Длина ребра etj считается равной рг]- для выбранной меры близости меж- между объектами О, и О/. В изложении будем существенно опираться на работу Д. В. Матулы из [83, с. 83—111]. 9.3.1. Основные понятия и определения. Предварительные сведения из теории графов приведены в [12, п. 4.2.1]. Определение 9.1. Граф G = (V, Е), где V = = {»!,..., vn}, Е = (ец), называется полным, если любые его две вершины о,- и v}- соединены ребром etJ ? Е. Например, граф близости G = G (О) совокупности объек- объектов О является полным. В задачах классификации при нали- наличии ограничений на связи между объектами (см. § 9.2) ис- используются неполные графы (В-графы близости, где В = = (Ьи)), полученные из полного графа близости удалением ребер etj при условии, что Ьц — 0. Определение 9.2. Пусть G = (V, Е) — некото- некоторый граф. Вектором инцидентности вершины vt называет- называется вектор a>i = (ша, ..., win), где Wij = 1, если вц 6 Е, и Wij — 0, если ei} | E1. Степенью вершины vt в графе G называется число dt (G) — п — dt = 2 wij- Ясно, что граф G полный тогда и только тогда, когда степень любой его вершины равна п — 1. Определение 9.3. Подграф G' ? G называется максимальным по отношению к некоторому свойству F (F-максимальным), если G' обладает свойством F и в G не существует подграфа G", обладающего свойством F, такого, что G' cz G cz G, G' ф G" Ф G. Пример 9.4. Пусть О' cz О = {Olt ..., Оп) и V cz cz V — соответствующее подмножество вершин графа бли- близости G (О) = (V, Е). Тогда среди всех подграфов с множе- множеством вершин V максимальным является граф близости G (О'). 1 Обратим внимание, что Шц = 0 для всех i, т. е., как и в [12], рассматриваем только простые графы, у которых ребра, соединяю- соединяющие вершину с собой, отсутствуют. 273
Напомним, что граф G — (V, Е) называется связанным, если любые две его вершины v(, v} можно соединить последо- последовательностью ребер {et , tq+lt q = О, ..., т—1, т ^ 1}, где et<>ti = ?;,«.> ae*TO-i'm — e*m-i" т- е- связать вершины vt и v, путем» Определение 9.4. Максимальный связанный под- подграф G' = (V, Е') графа G = (V, Е) называется компо- компонентой. Пусть G' = (V, Е') и G" = (У", Е") — две компонен- компоненты данного графа G = (V, Е). Тогда непосредственно из оп- определений вытекает, что V' и V, как подмножества в У. имеют пустое пересечение. 9.3.2. Алгоритм выделения компонент графа. В рамках общего подхода, изложенного в [83, с. 83—1111, каждый метод классификации на графах опирается на процедуру выделения соответствующих F-максимальных подграфов. Более подробно рассмотрим это в п. 9.3.4. Здесь же опишем процедуру, лежащую в основе ряда известных методов, свя- связанных с выделением компонент графа. Исходя из некоторой модели класса, описываемой в тер- терминах теории графов (см. п. 9.3.3 и 9.3.4), строится подграф G' графа близости G (О) = (V, Е) с тем же множеством вер- вершин V, т. е. G' = (V, ?"). гДе Е' получается из Е удалением ребер, не отвечающих модели класса. Затем применяется алгоритм выделения компонент G[ = (V{, E{), ..., G'k = = (V'k, E'k) графа G' = (V, ?") и тем самым находится раз- разбиение множества V на подмножества Vlt ..., Vh, т. е. клас- классификация множества объектов О. Указанная процедура, примененная к В-графу близо- близости, позволяет провести классификацию при наличии мат- матрицы ограничений В на связи между объектами. Определение 9.5. Подграф G' = (V, ?") неко- некоторого графа G — (V, Е) называется G-полным подграфом (короче, G-подграфом), если любое ребро из G, соединяющее какие-либо вершины из G'', принадлежит G', т. е. Е' = {е,-/ 6 EV'} Непосредственно из определения получаем: 1) существует взаимно-однозначное соответствие между подмножествами множества вершин V и G-подграфами гра- графа G = (V, Е); 2) каждая компонента G' графа G является его G-подгра- G-подграфом. Опираясь на эти утверждения, опишем основной этап алгоритма. 274
Шаг А. Пусть G1 = (V1, Е^-связанный подграф графа G = (У, Е) и V1 = К, ..., vtj с V = {v,, ..., vn}, m < < л. Положим У2 = {vj 6 V : eHt ? Е, t = 1, ..., т), т.е. введем множество вершин в G, связанных с вершинами из G' хотя бы одним ребром. Тогда G-подграф G2 = (У2, ?2) графа G, соответствующий множеству вершин У2, будет связанным. Если У2 = У1, то получаем, что G2 является ком- компонентой, содержащей данный граф G1. Если V2 ф V1, то аналогично построим множество вершин V3 и G-под- G-подграф О3=(У3, Е3), соответствующий множеству вершин V3. Так как V — конечное множество, то последовательность множеств V'1 с: У2 с: V2 а ... стабилизируется, т. е. V = = Vq+l для некоторого q и получим G-подграф & = (У*, Еч), являющийся компонентой графа G, содержащей дан- данный граф (?. Замечание. Программную реализацию шага А можно провести, оперируя только векторами инцидентно- инцидентности вершин (см. определение 9.2). Итак, на вход алгоритма выделения компонент подается связанный граф, например граф близости (vu 0) первой вер- вершины. Применяя шаг А, получаем компоненту Gx = (Ух, •Ej) графа G = (У, Е) и переходим к выделению компонент графа (У\ Vu E\Ei) и т. д. до тех пор, пока не исчерпаем все исходное множество вершин V. 9.3.3. Алгоритмы классификации, использующие процедуру выделения компонент графа. Рассмотрим матрицу взаим- взаимных близостей р = (р,у = р @г, 0}), 1 <л, / < л), между классифицируемыми объектами Оъ ..., 0п. Без ограничения общности можно считать, что 0 < piy < 1, причем р,; = О тогда и только тогда, когда i = j. Пусть 0 = с0 <С с1 < ... < ст — 1 — некоторая последовательность пороговых значений. Тогда определена последовательность подграфов графа близости G (О) = (У, Е) : G° s G1 s ... s Gm, где G' = (У, Е') и Е* = {el} 6 E : pl} < ct}. Заметим, что G° = (У, 0) и С" = G. Граф G* называется графом бли- близости на уровне ct. Опишем сначала общую схему алгоритмов. Параметром алгоритма является оператор U, ставящий в соответствие последовательности графов (??...?(}"" последовательность графов G" s ... s G^", где G* = (У, ?'), и Ei получается из Е* удалением некоторых связей в соответствии с выбранной моделью классов. Основные при- примеры операторов U рассмотрены в конце этого и в следую- 275
щем пункте. Ясно, что G° = G°, а в тех случаях, когда нет априорных ограничений, на связи между объектами, то и G™ = Gm. В общем случае граф О" представляет собой В- граф близости, где В = (bti) — матрица ограничений на связи между объектами. Схема алгоритма 1. На вход подается граф G0, множество его компонент задает разбиение совокупности объектов 0г, ..., 0п на одно- одноточечные классы. 2. На вход t-ro шага, t > 1, подается граф <У~\ разби- разбитый на компоненты G[~i, ..., GlJ, и граф С. Так как С cz G', то каждая компонента графа G' является связанным подграфом графа G*. Поэтому можно, начиная, например, с G{~1, при помощи алгоритма выделения ком- компонент (см. п. 9.3.2) получить компоненту G{ графа G и перей- перейти к выделению компонент графа G'\G[. Так как компо- компоненты графа не пересекаются, то компонента графа С может входить только в одну компоненту графа G'. Следо- вательно, выделение компонент в Gf\G[ можно начинать с одной из компонент графа G'~\ не вошедших в G[, и т. д. до тех пор, пока не будут выделены все компоненты графа G*. Итогом ?-го шага является разбиение графа G1 на компонен- компоненты д[, ..., Gk и, следовательно, разбиение множества вер- вершин V на непересекающиеся подмножества V[, ..., Vlt. Соответствующая классификация (S[, ..., Sit) множест- множества объектов называется классификацией на уровне ct. Алгоритм заканчивает работу на т-и шаге. В результате получаем последовательность вложенных раз- разбиений 5° с: S1 а ... cz Sm, т. е. иерархию на множестве объектов О. Рассмотрим теперь наиболее известные примеры алго- алгоритмов, основанные на простых моделях классов и соответ- соответственно простых операторах U. Построение операторов U для более сложных моделей классов требует привлечения 276
результатов теории графов и изложено в следующем пунк- пункте. Определение 9.6. Алгоритм классификации на графах с тождественным оператором U, т. е. О = G' для всех t называется односвязывающим. В случае когда последовательность пороговых значе- значений 0 = с0 <С сг <С ... < ст = 1 совпадает с последова- последовательностью рангов для последовательности р,-у-, 1 < i, /' <п, иерархическая классификация при помощи односвязываю- щего алгоритма совпадает с иерархической классификацией, получаемой классической агломеративной процедурой по принципу «ближайшего соседа» (см. § 8.2). Алгоритм назы- называется односвязывающим, так как он соответствует модели класса, в которой каждый объект из данного класса связан с остальными объектами из этого класса по крайней мере одной связью. Определение 9.7. Алгоритм классификации на графах с оператором U, удаляющим в графах G' ребра (свя- (связи), идущие к вершинам степени, меньше k, k > 2, называ- называется к-связывающим. Название алгоритма объясняется тем, что он соответст- соответствует модели класса, в которой представитель данного клас- класса связан с остальными, по крайней мере, к связями. Определение 9.8. При данном к, к > 1 макси- максимальный связанный подграф G' графа G называется к-связ- кой, если степень каждой его вершины не меньше k. Заметим, что каждая ^-связка графа G' является компо- компонентой графа G* для оператора U из определения 9.7. Сле- Следовательно, ^-связывающий алгоритм выделяет в исследуе- исследуемом множестве объектов все ^-связки на каждом уровне близости. ' 9.3.4. Метод послойной классификации. Общий подход к построению алгоритмов классификации на графах. Рассмот- Рассмотрим сначала, какие максимальные подграфы наряду с k- связкой используются для описания структур классов. Определение 9.9. При данном k, k ^ 1, макси- максимальный связанный подграф G' = (V, Е') графа G называ- называется k-компонентой, если при любом разбиении множества вершин V на непересекающиеся подмножества V[, V'2 су- существует, по крайней мере, k связей (ребер) в ?" между под- подмножествами V[ и V2- Определение 9.10. Связанный подграф G' = = (V, E') графа G называется k-связанным, k>l, если |У |> k + 1, и удаление любых (k — 1) вершин из V оставля- 277
ет его связанным, т. е. любой подграф G" — {Vя, Е") а С, у которого |У| > |У | — k + 1 является связанным. Определение 9.11. При данном k, k ^ 1, мак- максимальный k -связанный подграф G' — (V, Е') cz G назы- называется k-блоком. Определение 9.12. Кликой графа G называется максимальный полный подграф G' = (V, Е'). Клика графа, содержащая более k вершин, называется k-кликой. Непосредственно из определений 9.8—9.12 следует: 1) для любого графа G каждая й-клика является подгра- подграфом некоторого й-блока, каждый ?-блок является подграфом Рис. 9.1. Классификация на графе. Компоненты {1 12}, {13, .... 16}; 2-связки- {1, .., 11), {14, 15, 16}; 2-компонеиты {1, ..., 7}; {8 11}, {14, 15, 16}; 2-блоки. {1, ..., 5}; {5, 6, 7}, {8, ..., 11}, {14, 15, 16}; 2-клики- {1, 2, 3, 4}, {3, 4, 5}, {5, 6, 7}, {8, ..., 11}, {14, 15, 16} некоторой ^-компоненты, которая в свою очередь является подграфом некоторой ^-связки (рис. 9.1, где k — 2); 2) любые две ^-компоненты и, следовательно, любые две ^-связки одного графа G имеют пустое пересечение; 3) пересечение любых двух ^-блоков одного графа мо- может содержать не более чем (k — 1) общих вершин. Для удобства изложения будем считать, что каждая вер- вершина графа G, не вошедшая ни в один подграф, максималь- максимальный по отношению к выбранному свойству /, формально об- обладает этим свойством. Например, будем говорить, что вер- вершина, не вошедшая ни в одну ^-компоненту графа G, сама является его ^-компонентой. При таком соглашении можно сказать, что выделение в данном графе G = (V, Е) всех его подграфов Gt = (V^Ej), ..., Gft = (Vh, Ek), максимальных по отношению к выбран- выбранному свойству F, задает покрытие множества вершин V под- k множествами Уг, ..., V\, U Vq = V. 278
В случае ^-компонент и ^-связок получается разбиение множества V на непересекающиеся подмножества, а в слу- случае ^-блоков — покрытие, каждые два множества которого имеют не более чем (k — 1) общую точку. Теперь можно описать общую схему алгоритма класси- классификации на графах как естественное обобщение схемы из п. 9.3.2. Пусть, как и выше, G° sG's .:. s Gm—последова* тельность подграфов графа G, где G*— граф близости на уровне ct. Параметром алгоритма является процедура Ар выделения в графе G* всех его подграфов, максимальных по отношению к выбранному свойству F. Эти подграфы будем называть F-компонентами графа G. Роль F- компонент, в за- зависимости от F, играют ^-компоненты, ^-связки, й-блоки или й-клики. Схема алгоритма 1. На вход подается граф G0, множество его .F-компо- нент задает покрытие совокупности объектов {0ъ ..., 0„} одноточечными классами. 2. На вход t-vo шага, t > 1, подается граф G'-1, покры- покрытый F-компонентами G^-», ..., G*^ и граф G'. Так как Qt~i ^ Qt T0 каждая F-компонента графа G' является связным подграфом в G*. На вход процедуры Ар подается граф G[-l. При помощи нее он достраивается до .F-компо- ненты G[ графа G'. Затем среди F-компонент графа С берется та, которая не вошла в G[, и при помощи той же про- процедуры достраивается до следующей F-компоненты графа G* и так далее, до тех пор, пока не будут выделены все F- компоненты G[, ..., G\ графа G'. Соответствующее покрытие (S?, ..., Si) совокупности объектов называется .F-классифи- кацией ее на уровне ct. Классы 5^. q — 1, ..., kt, могут пересекаться, как в случае классификации ^-блоками, но ни один класс не может целиком содержать другой. Алгоритм заканчивает работу на (т — 1)-шаге, так как О" является графом близости совокупности объектов, т. е. полным графом. (Это в случае, когда нет ограничений на связи между объектами, а если матрица априорных ограни- ограничений имеется, то алгоритм заканчивает работу на т-и ша- шаге.) В результате получается последовательность вложен- вложенных покрытий 5° с= S1 с ...с 5т, которая называется по- послойной ^-классификацией. В тех случаях, когда для каж- 279
дого t покрытие 5' состоит из непересекающихся классов, то /•'-классификация является иерархической, т. е. задает иерархию на множестве объектов (см. определение 8.1). Отмеченные выше взаимоотношения между F-компонен- тами для различных свойств F позволяют рассматривать в целом метод послойной классификации как последователь- последовательность уточняющих друг друга методов послойных F-клас- сификаций. Классификация ^-компонентами уточняет клас- классификацию ^-связками и сама в свою очередь уточняется классификацией ^-блоками и т. п. Эффективность алгоритмов послойных /•'-классификаций определяется эффективностью реализации процедуры Ар выделения в графе всех его /^компонент. Как следует из п.9.3.3, в случае ^-связок существует достаточно эффектив- эффективная процедура Ар благодаря тому, что каждая ^-связка гра- фа G* является компонентой графа G*, полученного из G1 удалением некоторых связей. Непосредственные процедуры Ар для F-классифика- ций, уточняющих классификацию ^-связками, очень трудо- трудоемки, и реализация их затруднена даже для относительно не- небольших совокупностей объектов. Но, привлекая резуль- результаты теории графов, удается существенно сократить наибо- наиболее трудоемкую часть процедур выделения F-компонент, связанную с перебором вариантов разбиения множества вер- вершин. Для построения алгоритмов классификации й-компо- нентами и ^-блоками большое значение имеют следующие ре- результаты, полученные К. Менгером [83, с. 102—106]. Теорема 9.1. а) Минимальное число связей, удаление которых разъединяет две какие-либо вершины графа, равно максимальному числу не содержащих общих связей путей между этими двумя вершинами; б) минимальное число вер- вершин, удаление которых разъединяет какие-либо две несмеж- несмежные (не связанные непосредственно) вершины графа, равно максимальному числу непересекающихся (за исключением концов) путей между этими двумя вершинами. Следствие 9.1. Каждая пара vlt v} различных вер- вершин й-компоненты С графа G соединена k путями подграфа G', не содержащими общих связей, причем подграф G' — максимальный подграф с этим свойством. Следствие 9.2. Каждая пара vt, Vj различных вер- вершин Л-блока С графа G = (U, E) соединена к путями под- подграфа С, не содержащими общих точек (за исключением концов), причем G' — максимальный подграф с этим свой- свойством, если \U\ ^ k + 1. 280
Опишем, например, как на основе следствия 9.1 постро- построить процедуру Ар выделения ^-компонент графа G*. Схема алгоритма 1. Применяя процедуру выделения ^-связок из п. 9.3.3, разобьем граф G* на ^-связки G[, ..., Glm . 2. Пусть G\ — некоторая ^-связка. Выделим все одно- одноточечные ^-компоненты. Согласно следствию 9.1 вершина Vi графа Ga является одноточечной компонентой тогда и только тогда, когда существует хотя бы одна другая верши- вершина Vj этого графа, такая, что а, и v} соединяет меньше, чем k путей, не содержащих общих связей. 3. Пусть (jq — подграф ^-связки Gq, у которой удалены все одноточечные компоненты. Так как любые две /г-компо- ненты одного графа не пересекаются, то G^ представляет со- собой граф, связные компоненты которого являются &-ком- понентами графа Gq. (Фактически здесь описана конст- конструкция оператора удаления U (см. п. 9.3.3) для получения ^-компонент.) Применяя теперь алгоритм выделения компо- компонент графа Gg, получаем, наконец, набор Л-компонент гра- графа Gl Применяя шаги 2 и 3 последовательно к ^-связкам Gq, q = 1, ..., mt, получаем набор всех ^-компонент графа G*. ВЫВОДЫ 1. Алгоритмы разделения смесей легко модифицируются для работы при наличии неполных обучающих выборок. Такой тип задания априорной информации весьма эффекти- эффективен — известны примеры, когда использование ОВ объема 10 % исходной совокупности резко улучшало результаты классификации. 2. Описаны методы и алгоритмы классификации в ситуации, когда исследователь желает получить разбиение объектов на классы, согласованное с ограничениями на связи между объектами. 3. Описаны методы и алгоритмы классификации, основан- основанные на представлении исходной информации о классифици- классифицируемых объектах в виде последовательности подграфов 281
G° S ... S G"» графа близости G, где G' — граф близости на уровне t-ro порога. 4. Каждый метод классификации опирается на модель клас- класса в виде максимального подграфа (/^компоненты) одного из графов близости С, / = 0, ..., т, где F — свойство клас- класса. В качестве моделей классов рассматриваются ^-связки, ^-компоненты, &-блоки и &-клики. 5. Описана общая схема алгоритмов, задающих последова- последовательность покрытий S0 с: ... cz Sm совокупности объектов 0и ..., 0„, где S' — покрытие, образованное всеми F-kom- понентами графа (?. Рассмотрены важнейшие примеры ал- алгоритмов и взаимосвязи между получаемыми с их помощью классификациями. Глава 10. ТЕОРИЯ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ 10.1. Математическая модель алгоритма автоматической классификации (ААК) Как и выше, предполагаем, что исходная информация об исследуемой совокупности (выборке) объектов О = (Oj,..., Оп) представлена либо в форме матрицы «объект — свой- свойство» X = {х\!)), 1 < i < п, 1 < / < р, либо матрицы вза- взаимных близостей р = (рг;), 1 <I i, / < п. В случае число- числовых признаков отождествляем объект О, с точкой Хг = = (jc,(i), ..., #!р)) евклидова пространства Rp. Начнем с развернутой характеристики компонент ма- математической модели алгоритма автоматической классифи- классификации (АК) [10, 41]. 10.1.1. Пространство состояний So- Эта компонента описы- описывает допустимые классификации, возникающие на шагах алгоритма. Так, если ре