Текст
                    И. Д. Манпель
КЛАСТЕРНЫЙ
АНАЛИЗ
МОСКВА
"ФИНАНСЫ И СТАТИСТИКА"
1988


ББК 22.172 М23 Рецензенты: Б. Г. Миркин, Ю. И. Тюрин Манде ль И. Д. М23 Кластерный анализ.— М.: Финансы и статистика. 1988.—176 с: ил. ISBN 5—279—00050—7 Освещается современное состояние кластерного анализа на основе сравнительного обсуждения многочисленных алгоритмов. Рассматривается методика применения кластерного анализа в социально-экономических исследованиях. 0702000000—103 М — 20-88 ББК 22.172 010@1)—88 Научное издание Мандель Игорь Давидович КЛАСТЕРНЫЙ АНАЛИЗ Зав. редакцией Р. Л. Казьмина. Редактор Л. В. Сергеева Мл. редакторы В. Г. Крылова, Е. В. Гаврилова Худож. редактор Ю. И. Артюхов. Техн. редактор Л. Г. Челышева Корректоры Г. М. Колпакова, Т. Г. Кочеткова Обложка художника С. Л. Витте ИБ № 2189 Сдано в набор 16.03.88. Подписано в печать 27.07.88 А11246. Формат 60X88'/i6. Бум. кн.-журн. Гарнитура «Литературная». Печать офсетная. Усл. п. л. 10,78. Усл. кр.-отт 11,04. Уч.-изд. л. 12,29. Тираж 5 500 экз. Заказ 1115. Цена 1 р. 90 к. Издательство «Финансы и статистика», 101000, Москва, ул. Чернышевского, 7. Московская типография № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. I29D41, Москва, Б Переяславская ул , д. 46. ISBN 5—279—00050—7 © Издательство «Финансы и статистика», 1988
ПРЕДИСЛОВИЕ «...Необходимо коренным образом перестроить дело статистики в стране, существенно повысить роль ее органов в системе руководства народным хозяйством, с тем чтобы статистика стала действенным инструментом эффективного планового управления в новых условиях хозяйствования» О мерах по коренному улучшению дела статистики в стране. Постановление ЦК КПСС и СМ СССР Указанное постановление отмечает, что «не отвечает современным требованиям состояние аналитической работы статистических органов»1. Недостатки в анализе статистической информации не могут быть устранены организационными мероприятиями или расширением списка показателей, поскольку они связаны с более глубокими обстоятельствами: недостаточным уровнем развития теории и методологии самой социально-экономической статистики. В постановлении среди важнейших объектов статистического обеспечения указаны процессы интенсификации общественного производства, совершенствования социалистического образа жизни, оценки результативности проводимых мероприятий и т. п. Основная особенность этих процессов в информационном плане — многомерность, т. е. несводимость к одному единственному аспекту или характеристике, невозможность прямого измерения их существенных характеристик, таких, как «эффективность производства» или «уровень жизни». Роль статистики не должна ограничиваться тем, чтобы J О коренной перестройке управления экономикой: Сборник документов—М.: Политиздат, 1988.—С. 178.
кивать на специалистов-предметников, которые должны дать теоретическое осмысление конкретных закономерностей упомянутых и им подобных процессов: дескать, статистика может измерять лишь то, что рекомендует теория, и давать анализ лишь в тех направлениях, которые ею предусмотрены. Хотя истина в данном утверждении, конечно, есть, но, как говорится, не вся истина и не только истина. Имеются по крайней мере две причины, вызывающие необходимость разработки и использования специальных методов статистического анализа многомерных данных. Во-первых, эти методы необходимы как инструмент научного познания — для облегчения понимания закономерностей функционирования слабо изученных сложных социально-экономических процессов и явлений. Во-вторых, они должны использоваться как инструмент управления, предназначенный для анализа многомерных реальных, быстро меняющихся ситуаций. Данная книга посвящена как раз одному из наиболее обещающих в указанном смысле подходов к анализу многомерных процессов и явлений — кластер-анализу. Кластер-анализ — это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек. Собственно, «кластер» (cluster) в английском языке и означает «сгусток», «гроздь (винограда)», «скопление (звезд)» и т. п. Этот термин необыкновенно удачно вписался в научную терминологию, поскольку его первый слог соответствует традиционному термину «класс», а второй как бы указывает на его искусственное происхождение. Мы не сомневаемся в том, что терминология кластерного анализа заменит все ранее использовавшиеся для этой цели конструкции (распознавание образов без учителя, стратификация, таксономия, автоматическая классификация и т. п.). Очевидны потенциальные возможности кластерного анализа для решения, скажем, проблем выделения групп предприятий, действующих в сходных условиях или с похожими результатами, однородных групп населения по различным аспектам жизнедеятельности или образа жизни в целом и т. п. Как научное направление кластер-анализ заявил о себе в середине 60-х годов и с тех пор бурно развивается, являясь одной из ветвей наиболее интенсивного роста статистической науки. Достаточно сказать, что только число монографий по кластерному анализу, 4
изданных к настоящему времени в разных странах, измеряется сотнями (тогда как, скажем, по такому «заслуженному» методу многомерного статистического анализа, как факторный анализ, едва ли удастся насчитать несколько десятков книг). И это вполне понятно. Ведь речь идет фактически о моделировании операции группирования, одной из важнейших не только в статистике, но и вообще — и в познании, и в принятии решений. В нашей стране опубликован ряд монографий, посвященных исследованию конкретных социально-экономических проблем с использованием кластер-анализа ([76, 89]'), методологии использования кластер-анализа в социально-экономических исследованиях ([34, 76, 63]2), методологии кластер-анализа как такового ([37, 5, 33, 29]3). Предлагаемая книга И. Д. Манделя как бы перпендикулярна данной классификации: ее содержание связано с каждым из указанных трех направлений. Цель книги — подытожить современное состояние кластерного анализа, проанализировать возможности его использования и задачи дальнейшего развития. Этот замысел сам по себе не может не вызвать уважения: непредвзятые анализ и обобщение требуют большого труда, эрудиции, смелости, а оцениваются научной общественностью значительно ниже, чем выдвижение и разработка собственных конструкций. (Впрочем, книга содержит и оригинальные разработки автора, связанные с «интенсиональным» анализом и двойственностью классификаций.) С реализацией указанной цели связаны и достоинства книги, и ее недостатки. К достоинствам следует отнести: методологическую проработку понятий однородности, группировки и классификации с учетом многомерности явлений и процессов; систематизированный обзор подходов и методов кластер-анализа (включающий до 150 конкретных алгоритмов); изложение технологии и результатов экспериментального сравнения процедур кластер-анализа; 1 Развитие сельских поселений/Под ред. Т. И. Заславской, И. Б. Мучника.— М.: Статистика, 1977; Социально-демографическое развитие села/Под ред. Т. И. Зас- лавскрй, И. Б. Мучника.— М.: Статистика, 1980. 2 Андреенков В. Г., Толстова Ю. Н. Типология и классификация в социологических исследованиях.— М.: Наука, 1982. 3 Жамбю М. Иерархический кластер-анализ и соответствия/Пер. с англ.— М.: Финансы и статистика, 1988.
разработку общих схем использования методов кластер-анализа, реализованных в достаточно наглядных таблицах; рекомендательный характер изложения. Эти достоинства определяют самостоятельное место книги И. Д. Манделя среди других изданий. Недостатки книги — неоднозначность некоторых рекомендаций и отсутствие систематического анализа вопросов использования методов кластер-анализа в предметных социально-экономических приложениях. Правда, последнее обусловливается недостаточным применением кластер-анализа в этой области. ° Книга дает плацдарм, использование которого облегчает продвижение в самом трудном вопросе любой теории — практическом использовании даваемого ею инструментария. Б. Г. Миркин
1. ОДНОРОДНОСТЬ И КЛАССИФИКАЦИЯ. ОБЩИЕ ПОНЯТИЯ 1.1. ОСНОВНЫЕ ПОДХОДЫ К ВЫДЕЛЕНИЮ ОДНОРОДНЫХ ГРУПП ОБЪЕКТОВ Статистическая однородность — понятие, базисное для статистики; общепринято, что какую-либо обработку статистических данных (усреднение, установление связей и т. д.) надо производить только в однородных группах наблюдений. Рассмотрим основные подходы к выделению однородных совокупностей. 1.1.1. КАЧЕСТВЕННЫЕ И КОЛИЧЕСТВЕННЫЕ АСПЕКТЫ ГРУППИРОВКИ Традиционно проблема выделения однородных групп рассматривается в статистике как задача группировки исходных данных. При этом выделяются два вида группировок: типологические и структурные [68 и др.]. Типологической группировкой называется разбиение совокупности на качественно однородные группы, характеризующие некоторые типы (классы) явлений, например группировка людей по полу, населения по социально-экономическим классам и др. Структурной группировкой называется расчленение качественно однородной совокупности на группы, характеризующие строение совокупности, ее структуру [82, с. 96]. Фактически под структурой понимается распределение частот по интервалам группировки, где интервалы и число групп выбираются различным образом. Сопоставляя определения этих группировок, можно представить, что классификация объектов происходит так: сначала выделяются качественно однородные группы, а затем внутри них группы, количественно однородные, отражающие строение совокупности. В резкой форме такое противопоставление качества и количества проведено в [81 и др.]. Однако подобные рассуждения часто скрывают за собой упрощенную трактовку рассматриваемых категорий. Требование предварительной качественной определенности совокупности является весьма неоднозначным. Пусть, например, формулируется цель: изучить факторы, определяющие производительность труда в общестроительном министерстве. Для иллюстрации возможного пути решения задачи классификации рассмотрим схему на рис. 1.1.
Все предприятия министерства промышленные и другие организации специализиров* строительные организации )нные домостроительные комбинаты тресты сельского строительств» ¦ тресты, похожие по структуре выполняемых работ 1 строительные организации общестроительные организации общестроительные тресты и объединения тресты городского строительства тресты, похожие по природным условиям хозяйствования 1 2 3 4 6 направление роста качест- однородности Тресты, по степени концентрации производства Рис. 1.1. Схема выделения качественно однородных групп общестроительных организаций Как видно, здесь перечислено 6 уровней, обеспечивающих по мере погружения все большую качественную однородность совокупности. Организации какого уровня можно считать качественно однородными с тем, чтобы в них можно определить такие количественные характеристики, как средняя, дисперсия и пр., и ставить задачу выделения количественно однородных групп. По нашему опыту, в данной схеме специалисты склонны считать однородными организации на любом из уровней 3—6. При этом если исследователь стремится повысить этот уровень до 3-го с целью увеличения объема совокупности, то хозяйственник может снизить его до 6-го, считая несопоставимыми тресты с разной структурой строительно-монтажных работ. И такое углубление качественной определенности можно вести и далее вплоть до отдельных объектов. В каком же смысле говорить в таких случаях о качественной однородности? Типологическая группировка с легкостью проводится, если в ее основании лежит качественный признак (измеренный в шкале наименований, см. 1.2): пол, профессия и т. д. Но в подавляющем большинстве случаев ее надо проводить по количественным признакам (таковы, например, почти все группировки, сделанные В. И. Лениным), и задача резко усложняется. Так, критикуя германскую 1907 г. перепись, где выделялось 18 групп сельских хозяйств, В. И. Ленин писал, что это есть образец «научного хлама, бессмысленной игры в цифирки, ибо ни тени разумных, рациональных, наукой и жизнью оправдываемых, оснований для признания типичными такого количества таких групп не имеется» [2].
В. И. Ленин основывался на марксистской теории, определившей наличие трех основных классов хозяйств с определенными свойствами. А если столь разработанная теория отсутствует? Тогда вопрос о типичности «такого-то количества таких-то групп» превращается в главный и ответ на него может быть найден только в непрерывном синтезе теоретических представлений и эмпирического статистического анализа. При этом говорить о какой-то действительно глубокой качественной однородности данных на начальном этапе не приходится. Она может быть вскрыта только в результате анализа. 1.1.2. ОСНОВНЫЕ КОНЦЕПЦИИ ОДНОРОДНОСТИ Выбор интервалов в структурной группировке осуществляется почти независимо от характера распределения признака. Чаще всего используют равные интервалы, реже — равнонаполненные или прогрессивно меняющиеся. Понятно, что формальные основания группировки не могут дать представления о действительном расположении объектов даже на одной оси — интервалы искусственно разрезают скопления объектов или объединяют далеко удаленные объекты. Поэтому такого типа группировки лучше называть не структурными, а вариативными, ибо их главная цель состоит в агрегировании материала, в разложении общей вариации признака на вариации отдельных групп. Стоит лишь поставить вопрос о рациональном обосновании величины интервала или количества групп — и задача фактически переходит в компетенцию кластерного анализа. Таково построение группировки с максимальной межгрупповой дисперсией (известны точные, хотя и трудоемкие способы ее решения [33 и др.]) или выделение однородных групп по «критической величине коэффициента вариации» для данного закона распределения [68, 81]. Например, для нормального распределения предполагается, что коэффициент вариации должен быть меньше 0,33 и т. д. Однако у этого способа есть ряд ограничений: критические значения коэффициента вариации, как и любой случайной величины, не сводятся к одному числу, а зависят, в частности, от объема выборки [40, с. 240]; в рамках указанного критического значения могут находиться самые разные, в том числе полимодальные, распределения; метод не применим в многомерных ситуациях; коэффициент не имеет смысла в интервальных шкалах (см. 1.2). Так что, несмотря на популяризацию этого способа в учебниках [68], его использование вряд ли оправдано и в тех пределах, о которых с некоторой осторожностью говорится в [45] и [77]. Подобные процедуры обоснования величины интервалов группировки носят своеобразный промежуточный характер. Они соединяют в себе традиционные представления о структурной группировке как о более или менее удачном «разрезании» совокупности на части по одному признаку и структурные концепции однород- 9
ности. Идея структурности последовательно реализована в кластерном анализе. Термин «кластерный анализ» предложен К. Трионом в 1939 г. [151] (cluster— гроздь, скопление, пучок — англ.). Синонимами (хотя с оговорками и не всегда) выступают выражения: автоматическая классификация, таксономия, распознавание без обучения, распознавание образов без учителя, самообучение и др. Основная цель анализа — выделить в исходных многомерных данных такие однородные подмножества, чтобы объекты внутри групп были похожи в известном смысле друг на друга, а объекты из разных групп — не похожи. Под «похожестью» понимается близость объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений («гроздей.») объектов, которые и считаются однородными группами. Выделенные с помощью кластерного анализа изолированные группы объектов часто могут трактоваться как качественно различные. Действительно, если группы в пространстве сильно удалены друг от друга (типа изображенных на рис. 1.2 а), то можно предположить, что в основе такого разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как наблюдаемая качественная переменная. Тогда задача будет заключаться в отыскании этой переменной и ее интерпретации, чем кластерный анализ весьма приближается к факторному (см. 2.3.4). По этим причинам не будем различать методы выделения качественно и количественно однородных групп, считая целесообразным говорить только о непрерывном синтезе этих категорий в процессе классификации. Сформируем содержание основных подходов к выделению однородных групп объектов. A. Вероятностно-статистический подход предполагает выделение групп, каждая из которых представляет собой реализацию некоторой случайной величины. В классическом виде подход называется методом разделения (расщепления) смесей, и формально задача ставится так: предполагается, что исходная совокупность представляет собой смесь нескольких выборок (обычно считается, что выборки представляют собой реализации нормальных случайных величин, отличающихся как минимум вектором средних) и требуется при некоторых предположениях (о числе классов, о матрице ковариа- ций и др.) эти выборки разделить. Некоторые способы разделения смесей изложены в [5, 9]. B. Структурный подход (кластерный анализ и визуализация данных) предполагает выделение компактных групп объектов, удаленных друг от друга, отыскивает «естественное» разбиение совокупности на области скоплений объектов. Этот подход используется для двух видов исходных данных: матриц близости или расстояний между объектами (см. 1.2, 1.3) и объектов, представленных как точки в многомерном пространстве. Если данные второго вида обычно легко свести к первому A.3), то обратное преобразование часто ю
Рис. 1.2. Различные классификации: а — результаты вероятностного, структурного и вариативного подходов совпадают; б — комбинационная группировка рассекает «естественные скопления» объектов, выделяемые кластерным анализом. Нормальность по осям не свидетельствует о нормальности классов невозможно (например, для матрицы межотраслевого баланса, где объектами являются отрасли народного хозяйства, которые надо сгруппировать). Наиболее распространены данные ьгорого вида, для них структурный подход можно назвать геометрическим, так как он ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки. Этот подход и будет главным предметом рассмотрения в книге. С. Вариативный (нормативный) подход заключается в разделении совокупности по некоторому признаку на группы в соответствии с определенными интервалами, причем характер распределения И
объектов на выбор интервалов и число групп практически не влияет. В одномерном случае подход реализуется рассмотренной выше структурной группировкой. Она имеет два назначения: разбить общую вариацию признака на вариацию между группами (информационная функция в том смысле, чтоздесь достигается простое сжатие информации) и выделить те группы, которые требуются исследователю (нормативная функция; например, выделяются заводы, выполнившие и не выполнившие план). Главное достоинство таких группировок — в их полной управляемости, однако группировки носят субъективный характер, ни о каких «естественных» группах нет и речи. В многомерной ситуации вариативный подход реализуется в форме комбинационной группировки. Она представляет собой последовательное разрезание всей области определения каждого признака на определенные зоны в соответствии с длиной интервала. Классом называется область, ограниченная полученными по каждому признаку разделяющими плоскостями (рис. 1.2). Характерной особенностью подхода является независимое поочередное использование каждого признака для выделения группы. Этот подход в свое время Р. Сокалом и Дж. Снитом был назван монотетическим, а кластер- анализ, одновременно учитывающий все признаки,— политетическим методом [43]. Общепризнанными недостатками комбинационной группировки являются: возможность образования пустых классов; резкое увеличение числа классов при росте размерности и количества градаций признаков. Достоинства группировки, как мы отметили,— четкая содержательная осмысленность, возможность контролировать группы, придавая интервалам нормативное значение. Следует добавить простоту и традиционность выполнения. Этими фактами и объясняется чрезвычайная популярность структурных группировок (любой размерности) и сравнительно малая распространенность методов кластерного анализа. 1.1.3. СВЯЗИ МЕЖДУ ПОДХОДАМИ И КОМБИНИРОВАННЫЕ МЕТОДЫ Все подходы изложены выше в чистом виде. На самом деле существует немало промежуточных подходов, сравнительный анализ которых проводится редко и неполно. Связь подходов А и В. Рассмотрим вопрос о сферах применимости вероятностного подхода в прикладных исследованиях, в частности экономических. Необходимость такого рассмотрения вызывается непрекращающимися спорами на этот счет, в которых мнения исследователей колеблются между двумя крайними точками зрения. Согласно одной из них любые явления, подвергающиеся статистическому анализу (даже единичные наблюдения), следует оценивать с вероятностных позиций [69, 82, 98 и др.]. 12
В соответствии с другим мнением, вероятностные оценки либо имеют очень малую область полезного применения, либо неприменимы вообще нигде [8 и др.]. Подробное рассмотрение возникающих здесь сложных и тонких проблем выходит за рамки предмета книги. Однако попробуем по крайней мере четко определить свою позицию (см. также [55]). Традиционные учебные пособия довольно уклончиво дают определение статистической вероятности, отмечая лишь соответствие наблюдаемых частот некоторым теоретическим числам — вероятностям, при этом не оговаривая подробно, как именно такое соответствие проверять. Последователен в этом отношении только подход Р. Мизе- са, сформулированный в первые десятилетия нашего века, им вероятность определена как предельное значение частоты при я-^оо. Поэтому нельзя говорить о вероятности события в отдельном единичном опыте, а можно говорить лишь о вероятности (частоте) события в серии испытаний. Однако все доверительные интервалы и вероятности — главный продукт математической статистики — построены на основании домысливания некоторых непроверяемых экспериментально вещей: например, предполагается обычно независимость отдельных наблюдений, что проверить в принципе нельзя (требуется проверять независимость отдельных серий наблюдений), постулируется наличие одного закона распределения — а это тоже надо проверять, имея серию серий и т. д. Поэтому, по мнению Ю. Алимова [8], лучше считать только, «первичные», поддающиеся измерению вероятности в форме частот, и определять «доверительные интервалы» непосредственно по отклонениям в сериях, чем прибегать к упомянутым непроверяемым предположениям. Собственно статистические критерии, возможно, и могут применяться в чисто стохастических областях с миллионами наблюдений (в основном в статистической физике), но при тщательной проверке устойчивости, воспроизводимости результатов от серии к серии. В целом такого рода рассуждения представляются логичными. Однако, критикуя «теорию» и ратуя за «естественный материализм» прикладника, Ю. И. Алимов проявляет ту самую излишнюю строгость, которая свойственна математике по определению. Во-первых, абсолютно исключаются из рассмотрения нестатистические трактовки вероятности (классическое и логическое определения), что очень спорно. Скажем, чтобы точно убедиться в том, что вероятность выпадения орла равна 1/2, надо в соответствии со статистическим определением провести очень много испытаний. Вполне вероятно, что они покажут систематическое отклонение частот от этого уровня, т. е. классическое определение окажется неверным (монета не симметрична). Но дело в том, что в огромном числе случаев есть практическая убежденность в истинности гипотезы о симметричности монеты, что позволяет в целях экономии сил и ресурсов не проверять каждое событие статистически. Тот же прикладник может из самых утилитарных соображений принять классическое определение и оказаться 13
почти всегда прав. Аналогично обстоит дело с субъективистскими вероятностями (например, в экспертных системах), где воспроизводимость результатов может в принципе отсутствовать (скажем, при принятии решений о строительстве уникального объекта), но оценки, подобные вероятностным, могут даваться. Во-вторых, уже в рамках статистического подхода строгие требования к устойчивости статистических наблюдений выглядят во многих случаях чрезмерными. В очень многих случаях действительно гипотезы выборочного метода близки к истине и оценки оказываются практически удовлетворительными, хотя и точно неверифицируе- мыми. Требование постоянной пошаговой проверяемости сродни нередко бытующему среди экономистов требованию того, чтобы каждый шаг решения какой-то задачи был экономически оправдан. Казалось бы; это верно, но нельзя дать экономическую интерпретацию матричным операциям компонентного анализа или методу ветвей и границ, хотя их результаты и используются в экономическом анализе. Картина, подобная выборочной, наблюдается и в ряде так называемых пассивных экспериментов, например при изучении множества больных одной болезнью, множества колосков пшеницы на одном поле и т. д. В таких ситуациях имеет место мысленная устойчивость результата в силу принципиальной допустимости воспроизведения опытов в постоянных условиях (см. [3, т. 1]), но генеральная совокупность определена нечетко (то ли все больные мира, то ли данного региона и т. д.). Применение статистических критериев здесь сталкивается с рядом трудностей, многие из которых названы в [8]. Поэтому можно согласиться с С. А. Айвазяном, считающим такие совокупности «промежуточным объектом» для применения статистических критериев [3, т. 1]. Добавим, что регулярную пользу доверительные интервалы здесь могут принести, по нашему мнению, не сами по себе, а в сочетании со схемой нескольких серий, когда интервалы разных наборов наблюдений сравниваются с целью установить в них что-то общее. Однако такие исследования выполняются очень редко. Все сказанное особенно существенно для экономических приложений, в которых часто наблюдают так называемые «сплошные совокупности» (все заводы отрасли, все совхозы района и т. д.). Многие статистики считают, что и здесь вероятностные концепции полностью оправданы и имеют теоретическое обоснование [77, 98]. Об этом же говорит и повсеместная практика расчета доверительных интервалов для коэффициента регрессии и др., полученных на таких данных. Перечислим только основные возражения против бесконтрольного применения доверительных интервалов в изучении экономических процессов. Реализацию признаков на объектах замкнутых систем нельзя рассматривать как независимые величины. Объем продукции одного завода отрасли часто сильно связан с объемом других заводов, да 14
и_вообще экономика в значительной мере занимается перераспределением ресурсов внутри отрасли, района и т. д., что никак не согласовывается с положением о независимости значений. Гипотеза о нормальности распределения, лежащая в основе почти всех классических результатов, во-первых, не может быть надеж1 но проверена по одной выборке, особенно в многомерном случае, во-вторых, очень часто просто неверна: есть много эмпирических доказательств негауссовости социально-экономических процессов [100]. Непараметрические методы, свободные от этой гипотезы, практически не разработаны для многомерных ситуаций. Есть много и других свидетельств того, что конкретная вероятностная техника очень часто применяется в неадекватных случаях (см. подробнее [55]). Практическая значимость доверительных интервалов — конечного продукта оценивания — в сплошных совокупностях очень невелика. Использовать их для прогноза не удается — производственные условия будут меняться, причем так, что изменятся и сами параметры. По этим и другим ттрт*ч«нам в'тех случаях, когда исследуются сплошные совокупности, с которыми нельзя проводить даже мысленный эксперимент многократного репродуцирования в силу их индивидуальности, необходимо использовать свободные от вероятностных посылок методы анализа данных, т. е. в нашем случае, собственно, кластерный анализ (подход В). В других ситуациях при учете вышеизложенных замечаний можно попробовать применить методы подхода А при обязательной проверке вышеперечисленных посылок. Заметим, что некоторые зарубежные исследователи кластер-анализ рассматривают в расширительном смысле, включая в него и вероятностные процедуры разделения смесей [131, 154 и др.]. Однако мы будем придерживаться аналитического представления об этой группе методов. Теперь рассмотрим связь подходов А и В. I. Примем для удобства, что в подходе Л предполагается выделять только нормально распределенные совокупности. Тогда, если совокупность состоит, скажем, из двух выборок с резко различающимися средними — оба подхода выделяют их одинаково. Далее. Подход А мы описывали в предположении наличия параметрически заданных семейств распределения. Но вероятностные концепции могут основываться и на непараметрических концепциях, в которых важно лишь общее предположение о характере распределения (например, наличие моды). Такие постановки были независимо сделаны в начале семидесятых годов Дж. Брайеном [33, с. 89] и А. В. Беккером и М. А. Ягольницером [77]. Они опираются на предложенный Е. Пар- зеном ранее способ аппроксимации многомерных распределений некоторой эмпирической плотностью с ядрами определенного типа (нормального, экспоненциального и др.). Получил некоторое распространение алгоритм «Рельеф», с помощью которого новосибирские ученые решили ряд серьезных социально-экономических задач 15
[76 и др]. Этот подход представляется типичным для синтеза вероятностных и кластерных представлений: выбор сглаживающей поверхности производится исходя из ориентира на некий закон распределения, каждому объекту приписывается вероятность попадания в класс, но фактически выделяются «холмы», окруженные «долинами», что характерно для многих постановок кластерного анализа (см. «модальный анализ» Уишарта в 2.2 и др.). Конструктивным недостатком подхода выступает сложность в определении параметра аппроксимации. 2. Метод разработан Д. А. Родионовым [75] и подробно изложен с некоторыми эвристическими модификациями в [45]. Он заключается в поиске такого разбиения, которое максимизирует разницу средних значений признаков внутри классов. Сам по себе такой подход вполне в духе кластер-анализа, но здесь разница средних проверяется вероятностно по Г2-статистике Хотеллинга, обобщающей /-статистику Стьюдента в многомерном случае. Справедливость предположений, которые выдвигаются для оправдания подхода (многомерная нормальность в классах, отсутствие в них коррелированности), вызывает сомнения в большинстве ситуаций. Алгоритмы группировки [45], при строгости функционала, не гарантируют даже локальный его экстремум. Есть и другие процедуры классификации, функционалы качества которых связаны неявно с вероятностными трактовками (см. 2.3), но сами доверительные оценки в алгоритмах не участвуют, что позволяет их считать находящимися в рамках анализа данных. 3. Метод был независимо сформулирован в [83, 73] и нашей работе [51]. Методом предполагается рассматривать как случайные величины расстояния между объектами и группировку производить следующим образом: какой-либо кластер-процедурой выявить группы и проверить, значимо ли различаются внутриклассовые и межклассовые расстояния [51] или резко ли меняются внутриклассовые расстояния при объединении двух классов (для иерархической процедуры [73]). Главной привлекательной чертой такого подхода является переход от малореальных предположений о многомерных распределениях к более реалистичным посылкам об одномерном распределении расстояний. В [108] показано, что отдельно малые и средние расстояния распределены асимптотически нормально. В целом "вопрос мало изучен, и лучше, видимо, использовать непараметрические критерии [73]. В принципе гистограммный анализ матрицы расстояний, в настоящее время практически не использующийся, может оказаться очень полезным в силу своей простоты и наглядности. Первый пример такого рода был дан П. В. Терентьевым еще в 20-х годах [см. 88]. Он строил гистограмму коэффициентов корреляции и при наличии явного бимодального распределения считал связи под одной вершиной «внутриплеядными», под другой — «межплеяд- ными». Подобные соображения могут быть весьма полезными в кластерном анализе. Говоря в целом о связи вероятностного и структурного под- 16
ходов, отметилиследуклцее. Каждый из них работает в свойственной ему области и ориентирует исследователя на разные конечные выводы. Если в самом деле есть основания считать совокупность смесью нормально распределенных выборок (хорошие одномерные примеры такого типа приводил Б. С. Ястремский [112, с. 83—92]), то, конечно, необходимо использовать методы разделения смесей и им подобные. При этом очень хотелось бы видеть такие методы модернизированными — чтобы они не только опирались на предположения о нормальности (или о другом законе), но и проверяли это предположение в процессе классификации. Конечно, точная проверка гипотезы в многомерном случае крайне затруднена. Например, критерий Ю. Н. Тюрина требует для выяснения суждения многих тысяч наблюдений [94]. Однако какая-то оценка справедливости первоначальной гипотезы возможна хотя бы на уровне одномерных законов. Несмотря на разницу в подходах, как показывает практика, результаты применения статистических процедур и собственно методов кластер-анализа части довольно близки. Ълизость объясняется во многих случаях сходством посылок: одни и те же скопления объектов могут рассматриваться как кластеры и как модальные участки многомерной плотности- (см. рис. 1.2а). Но в ряде ситуаций и это сходство подходов пропадает; очевидно, что классы, выделяемые кластер-анализом на рис. 1.26, не могут быть выделены статистическими методами. И наоборот, если подход А выборку из нормально распределенной совокупности не станет разбивать дальше, то в подходе В крайние точки вполне могут выделиться из геометрических соображений в разные классы (из нормально распределенных по росту людей выделятся малочисленные группы лилипутов и великанов). Наиболее общей концепцией, синтезирующей оба подхода, представляется следующая: отыскивается такое разбиение на изолированные классы, что каждому из них свойствен свой закон распределения вероятностей. Тогда многие вопросы решались бы более естественно (в частности, на рис. 1.2. б можно было бы выделить статистически отличные классы: в двух классах имеет место равномерное . распределение, а в двух других — распределение Цип- фа — Парето). Связь подходов А и С. Даже если нормальные распределения есть по каждому признаку, это, конечно, отнюдь не гарантирует статистически однородных классов в целом (рис. 1.2а, б). Напротив, статистически однородная совокупность обязательно будет разделена на части при вариативном подходе (выделяются низкие и высокие люди, см. выше). Комбинированные методы типа А — С нам неизвестны, хотя их нетрудно представить. Например, если научиться выделять нормальные выборки по каждой оси, используя какие-либо статистические критерии (очень хорош для этой цели, по нашему мнению, критерий Дэвида—Хартли—Пирсона, представляю- 17
щий собой отношение размаха вариации к выборочному среднеквад- ратическому отклонению; он не связан с группировкой данных, как X2 и др., см. затабулированные значения в [40, с. 298—300]), то в ситуации, подобной изображенной на рис. 1.2а, выделятся и многомерно-нормальные группы. Связь подходов В — С. Если вариативный подход С рассматривать в чистом виде, т. е. считать интервалы разбиения произвольными, то в силу неформализуемости сравнивать его с другими методами весьма сложно. Поэтому будем считать, что идея некоторой структурности здесь тоже реализована, но по каждому признаку независимо. Тогда придется рассмотреть связь между политетичес- ким и монотетическим подходами. Графически эта связь хорошо иллюстрирована на рис. 1.26. Из него видно, что в такой ситуации невозможно выбрать интервалы по каждому признаку так, чтобы выделились компактные группы в духе кластерного анализа. Уже отсюда видно, что оба подхода решают совершенно разные по первоначальным установкам задачи, о чем говорилось выше. В наиболее завершенной формесинтез методов нашел свое воплощение в лингвистическом анализе, разработанном Э. М. Браверма- ном, И. Б. Мучником и др. [16]. Его основная идея (упрощенно) заключается в следующем: на множестве исходных показателей выделяются факторы (методами экстремальной группировки параметров), затем по каждому из них проводится классификация специальными одномерными алгоритмами. Тогда любой объект может быть описан «словом», говорящим о его принадлежности к определенному классу по каждому из факторов. Как видно, подход непосредственно соединяет черты В и С; примеры его использования и ссылки приведены в [16]. Однако представляется, что вторая часть лингвистического анализа—выявление скоплений на осях—не так принципиальна. Вполне можно было бы задавать описание объектов обычными интервалами изменения выявленных факторов, ибо структурных сведений одномерные распределения в общем случае не дают, а качественная определенность комбинационной группировки при этом сохраняется. Очень схематичным частным случаем лингвистического анализа можно считать метод группировок, основанный на так называемых многомерных средних. Этот способ, предложенный П. М. Рабиновичем, получил определенную популярность в социально-экономи-. ческих исследованиях и даже описан в учебнике [68], что можно объяснить только его простотой. В нем все показатели нормируются по средним значениям, а затем складываются на каждом объекте (многомерная средняя): получается некоторая ось, где произвольными интервалами выделяют группы объектов. Легко видеть, что такая ось представляет собой упрощенный (невзвешенный) вариант центроидного фактора [101], т. е. она имеет некий содержатель- 18
\ Основные подходы к выделению однородных групп объектов А. Вероятностный (статистический) подход Разделение Непараметрическое оценивание плотности вероятностей Визуализация много- лирование, проецирование) Статистические многомерные критерии при классификации В. Структурный (геометрический) подход Г Кластерный анализ - Статистические одномерные критерии для расстояний *Е С. Вариативный тивный) подход Г (норма- Комбинационная группировка Структуризация признаков Структуризация отдельных факторов (лингвистический анализ) Рис. 1.3. Взаимосвязи основных подходов к решению задач многомерной классификации
ный смысл только в случае сильной коррелированности всех показателей. В обычной ситуации многомерные средние задают некоторую абстрактную среднюю ось, проекции точек на которую носят произвольный характер. Здесь не только не выделяется структура совокупности в смысле кластерного анализа, но и нет содержательной ясности комбинационных группировок и лингвистической классификации. Сочетание подходов В и С интересно и в другом, не алгоритмическом аспекте, который тесно связан с вопросом качественной интерпретации результатов классификации (см. 3.4). Связь подходов А, В и С. Одинаковые результаты классификации с позиций всех трех подходов могут появиться очень редко в условиях сильной разделенности классов типа изображенной на рис. 1.2а. Во всех других случаях результаты будут отличаться, причем разница, учитывая все вышесказанное, может быть сколь угодно большой. В некоторых подходах активно используют сочетание трех идей классификации (см. например, [138], где предложены точные алгоритмы минимизации ошибки неправильной классификации монотетического типа). На рис. 1.3 приведена схема взаимосвязей основных подходов к выделению однородных групп объектов. 1.2. ОТНОШЕНИЯ, ПРИЗНАКИ, ШКАЛЫ, ИЗМЕРЕНИЯ Кластерный анализ представляет собой специфическую методологию проведения классификации неоднородных статистических совокупностей. Сама по себе проблема классификации является чрезвычайно богатой и разветвленной сферой деятельности. Для описания разнообразных задач классификации требуется выбрать универсальный язык, успешно обслуживающий различный материал. Помимо обычного языка математической статистики представляется удобным использовать простую и универсальную терминологию теории бинарных отношений. Глубокие исследования известного советского логика А. И. Уемова [96] убедительно показали, что в терминах «вещи, свойства, отношения» (или, в статистической транскрипции, «объекты, признаки, отношения») успешно описываются практически любые ситуации, они могут лежать в основе создания общей теории систем и т. д. В статистических исследованиях одним из первых, видимо, интенсивно и целенаправленно использовал этот язык Б. Г. Миркин [62 и др.]; определенное распространение он получил и в работах других исследователей [5, 34]. Опишем коротко некоторые понятия. Бинарное отношение Р на множестве объектов А — подмножество упорядоченных пар объектов (а, Ь) декартова произведения А на 20
самого себя АХЛ. Рассмотрим пример. На N заводах отрасли измерен объем выпускаемой продукции; пусть на трех из них (а, Ъ, с) он равен ху уу z (но все последующие рассуждения справедливы для всех заводов со значениями продукции xh iy /=1, N). Таким образом можно описать любую информацию, содержащуюся в векторе Х\, ..., xN. Пусть требуется, например, упорядочить заводы по выпуску продукции. Тогда при рассмотрении любых двух заводов нас будет интересовать ответ на вопрос: больше ли продукции у завода а, чем у завода Ь? Ответы могут быть такими: больше, меньше, одинаковое количество. Это можно описать так: по очереди изучать каждую пару заводов и отвечать на данный вопрос. Все ответы, видимо, сведутся в матрицу NXNy из которой легко узнать, больше ли продукции у /-го завода, чем у /-го. Матрица и задает отношение «быть большим или равным» или «быть не меньшим». У некоторых особо важных типов отношений есть специальные названия. Отношение эквивалентности устроено так, что разбивает все множество объектов на непересекающиеся классы, в каждом из которых объекты признаются тождественными, неразличимыми, а объекты из разных классов считаются нетождественными (например, отношение «быть равным по выпуску продукции»). Квазипорядок (нестрогий порядок, нестрогое ранжирование) определяет отношение «быть не меньше». Если исключить из него возможность равенства элементов, то отношение превратится в порядок (строгое ранжирование). Квазипорядок, таким образом, является объединением порядка и эквивалентности. Толерантность называют еще отношением «похожести». В кластер-анализе отношение толерантности играет особую роль, так как объекты объединяются в классы по критерию похожести (см. 1.3). В отличие от отношения эквивалентности здесь из a—b,.b=c не следует а=с. Каждому отношению удобно сопоставлять квадратную матрицу «объект-объект», элементы которой обычно принимают небольшое число значений: г,-/?{0,1}, или Гц?{—1,0,1} (для квазипорядков). Значения обычно определяются так: Г 1, если (а,-, а,-NР A.1) гч= 1 0, во всех других случаях Понятие «отношения» можно расширить, распространив его и на количественные признаки. Тогда элементы Гц будут принимать вещественные значения. Впервые анализ вещественных матриц «объект-объект», полученных развертыванием количественного признака, был осуществлен К. Дэниелсом в 40-х годах [44, с. 44]. Впоследствии этот подход в обобщенном виде развивался Б. Г. Миркиным и др. [61], использовавшим терминологию «матрица связи». В 1977 г. Б. Г. Литваком [48] было введено понятие «метризованное отношение» (МО), которое удобно описывает ранее используемые конструкции. 21
МО —это пара <W(P\ />>=Я, где Р — отношение, W(P)— множество чисел (весов), характеризующих «степень принадлежности» пары к данному МО. Вместо булевских матриц A.1) вводятся матрицы с вещественными элементами Pih которые определяются в [48] (для линейных отношений порядка) так: й _Г Wih если (сц, dj)eP A.2) Pij~\-Wih если (ah сц)?Р Аналогично можно определить любое «обычное» отношение в метризованной форме. Так, если в нашем примере принять ы)ц = =Xi—xh то будет задано так называемое аддитивное МО квазипорядка (свойство аддитивности: Wij=Wik+Wkj). Глядя на его матрицу, можно не просто сказать, что на i-м заводе больше продукции, чем на /-м, но и увидеть, насколько больше. Условие Wij = Xi/xj определит мультипликативное МО, так как wij=Wik'Wkj. Если Wij=Wjiy то МО будет задавать метризованную толерантность или эквивалентность и т. д. Рассматривались и другие способы задания МО: (wij)=(xi—X/J, wii=XfXf [63 и др.]. Если отношения определены на парах объектов, то признаком называют обычно некоторое свойство, измеренное на каждом объекте. Очень часто отношения существуют, но измеримые признаки им не отвечают. Таково отношение толерантности из числа упомянутых: ему нельзя поставить в соответствие некий признак, определенный на каждом объекте. Рассмотрим способы измерения признаков. Обычно под процедурой измерения какого-либо свойства подразумевается приписывание некоторых числовых значений отдельным уровням этого свойства в определенных единицах. При этом важно знать, в какой мере условность в выборе единиц измерения повлияет на значение показателя. Например, если стоимость продукции измерить сначала в рублях, а потом в тысячах рублей, то изменится лишь число единиц измерения, но суть показателя останется прежней. Здесь, таким образом, допустимо произвольно делить или умножать значения признака на константу, т. е. задать масштаб. Но бессмысленно задавать масштаб для признака «температура по Цельсию». Мы не можем сказать, во сколько раз —5° меньше +10°. Следовательно, разные типы признаков имеют разное множество допустимых преобразований f(x) своих значений, которое и определяет тип шкалы. Наиболее распространенные типы шкал приведены в табл. 1.1. Для номинальной шкалы, например, f(x) означает, что разные классы мы можем называть как угодно — «мужчины — женщины», А—В, 0—1 и т. д., но не сравнивать их по величене признака, В гр< 4—5 табл. 1,1 даны необходимые разъяснения. Столбец 3 табл. 1.1 заполнен в форме результатов, полученных для шкал 1, 2 в [62], для шкал 3—5 в [48], и показывает, что каждо- 22
Таблица 1.1. Основные типы шкал измерения признаков1 Наименование 1 Шкала 1. Наименований (номинальная, классификационная) 2. Порядковая (ранговая, ординальная) 3. Разностей (балльная) 4. Интервалов (интервальная) 5. Отношений (относительная) Множество допустимых преобразований f(x) 2 Взаимно-однозначные преобразования Монотонно- неубы - вающие функции M=d+x f(x)=d+kx, k>0 f(x)=kxy k>0 Отношение, отвечающее шкале 3 Эквивалентность Квазипopядок (нестрогая ранжировка) Аддитивное МО 4-арное мультипликативное МО Мультипликативное МО Допустимые числовые операции с измерениями 4 Сравнения: х=у, хфу Сравнения: Сравнения: X—//<Z—U, Xzty х—у z-v> Х±У х/у; х-у, х±у Примеры измерения 5 Национальность, пол, профессия, вид оплаты труда В строгом смысле примеров шкалы нет. Условно: шкала твердости минералов, экспертные ранжировки, оценки предпочтений Квалификационные разряды, балльные оценки Любые показатели, значения которых могут быть отрицательными: температура по Цельсию, летоисчисление, прибыль (при наличии убытков) Температура по Кельвину, возраст, производительность труда Шкалы 1—2 называют обычно качественными, 3—5 — количественными.
му конкретному признаку (каждой шкале) можно поставить во взаимно-однозначное соответствие какое-либо отношение. Поскольку любой признак (вектор) порождает отношение (матрицу), а отношение не всегда порождает признак, универсальный способ описания статистической совокупности состоит в задании на множестве объектов различных требуемых отношений. Поэтому, когда признаков нет, исходные данные имеют вид т матриц отношений размером NXN. Часто это действительно имеет место — таковы типичные задачи экспертизы в методе парных сравнений, когда исходный набор данных представляет собой матрицы предпочтений экспертов; могут быть и смешанные случаи: при многокритериальной оценке объектов исходная информация может быть представлена в* виде обычной матрицы «объект-признак» и дополнительно имеется матрица «объект-объект» экспертного предпочтения. При наличии множества отношений естественным образом встает вопрос об измерении близости между ними. Для признаков он давно решен — измерителями близости выступают различные коэффициенты корреляции, а для отношений нужны иные конструкции. Предложено множество способов измерения близости между отношениями (фактически — между отражающими их матрицами), причем часто предлагаемые величины имеют не эвристический, а обоснованный аксиоматический характер (см. [48, 61, 64, 69, 72, с. 282—286; 24, с. 151 —152] и др.). В общем случае удобно говорить об измерении близости между метризованными отношениями, так как обычные отношения легко из них получаются. Приведем два способа определения расстояния между матрицами. Для матриц, в которых либо Wij=Wji, либо Wij=—Wji (наиболее распространенные случаи), можно использовать линейное расстояние [48]: d(Pi^2)=^Z К—"Ф о-3) либо евклидово расстояние [25, 62]: В [25] показано, что все формулы табл. 1.2 справедливы, т. е. евклидово расстояние тесно связано и с другими метриками, и с известными коэффициентами корреляции, когда отношение порождено признаком. В случае хюц=т^ который задает метризованную толерантность, при |ш(/|^1 (это справедливо, например, для матриц линейных и ранговых корреляций) возможна удобная нормировка: y- A.5) Такое расстояние находится в пределах от нуля до единицы, что облегчает сравнительный анализ, например, можно сравнить матрицы связей за несколько лет между собой. 24
Отметим, что все приведенные меры близости предназначены Таблица 1.2. Связь евклидова расстояния между отношениями с некоторыми измерителями близости признаков и отношений № п/п Наименование, обозначения Вид Характер связи Примечания Метрика Кемени [62], Метрика Миркина — Черного [64], ^д| Метрика Богарта ¦117], dB татистика Тюрина — Василевича — Андруковича [95], Т Коэффициент ранговой корреляции Спир- мена, р Коэффициент ранговой корреляции Кен- далла, е Коэффициент парной линейной корреляции Статистика Л умел ь- ского [49], di То же ш,7е={-1, 0, 1} =rt—Г/ г — ранг i-ro объекта То же •=d\/N P-l-1 8=1- Xi—Xj стандартное значение количествен ного признака N(N-l) N2 Обобщается метрикой dM Связана со многими другими коэффициентами [62] На статистике Г основан коэффициент корреляции Спирме- на р При обычном усреднении равных рангов [44, с. 45—50] При отсутствии равных рангов [64] Подобная конструкция рассматривалась К. Дэниелсом [44, с. 44] для сопоставления отношений (признаков) одного типа. Более сложные смешанные случаи не будем рассматривать [62 и др.]. Концепция расстояния между отношениями разных типов позволяет с единых позиций взглянуть на некоторые проблемы анализа данных. Вместе с тем универсальность приносит и некоторые неудобства, связанные с тем, что переход от векторов (признаков) к матрицам (отношениям) весьма громоздок, матрицы воспринимаются человеком хуже, чем векторы, и требуют больших затрат памяти и времени при обработке (последнее обстоятельство, впрочем, часто преодолевается [61]). 25
1.3. ИЗМЕРЕНИЕ БЛИЗОСТИ ОБЪЕКТОВ 1.3.1. ОБЩИЕ ПРЕДСТАВЛЕНИЯ Проблема измерения близости объектов неизбежно возникает при любых трактовках кластеров и различных методах классификации. Отметим основные трудности, возникающие при этом: неоднозначность выбора способа нормировки и определения расстояния между объектами. Приведем результаты небольшого обследования. Студенты группы записывают свои данные (вес и рост), оформляют в таблицу и строят по ним корреляционное поле. Масштабы по осям выбираются произвольно (рис. 1.4). На рис. 1.4а выделяются классы А — девушки, В — юноши. На рис. 1.46 выделяются классы А\ (юноши и девушки) и В\ Рост, см 200 190 180 170 160 150 60 Рост,см 200 190 180 170 160 150 65 70 75 80 Вес,кг 60 70 80 90 Вес,кг Рис. 1.4. Разбиение совокупности студентов на классы в зависимости от масштабов измерения переменных 26
(часть юношей). Класс юношей С (пунктирная линия) на рис. 1.46 не выделит, поскольку расстояния между ближайшими объектами классов А\ и В\ существенно больше, чем внутренние расстояния в Ль юноши из А, почти никакими алгоритмами к Bi не присоединяются. Однако определить расстояние между объектами в данном случае нельзя, поскольку признаки измерены в разных единицах измерения. Требуется нормировка показателей, переводящая их в безразмерные величины: тогда измерение близости объектов становится оправданным. Нормировка представляет собой переход к некоторому единообразному описанию для всех признаков, к введению новой условной единицы измерения, допускающей формальные сопоставления объектов. Приведем наиболее распространенные способы нормирования показателей (переход от исходных значений х к нормированным z). zl=(x—x)/o9 / z*=x/xmax9 z={x—x)/{xmax—xmin), где jc, a — соответственно среднее и среднее квадратическое отклонение х; x' — некоторое эталонное (нормативное) значение х\ хтахУ xmin — наибольшее и наименьшее значение х. Легко видеть, что zx и zb определены для шкал отношений и интервалов, остальные способы — только для шкал отношений (так как в интервальной шкале в знаменателе возможен нуль). Имеются и другие способы нормирования, но обычно они производны от перечисленных. Можно предложить следующий простой эвристический критерий проверки нормировки на адекватность: имеет ли хоть какой-то содержательный смысл сложение безразмерных показателей на одном объекте для его сопоставления с другими? Если да, то надо использовать такую нормировку, где это сложение наиболее оправдано. Так, при контроле качества продукции часто используют отклонения эталонов (z3), которые при небольших значениях имеет смысл складывать для нескольких параметров. Здесь измерение производится в нормативных значениях. В наиболее популярном случае стандартной нормировки г1 измерение производится в средне- квадратических отклонениях. Универсального объяснения этому нет. Часто такая нормировка (выравнивающая дисперсия всех признаков) как раз столь сильно искажает геометрию исходного пространства (см. ниже), что можно рекомендовать воздерживаться от ее повсеместного применения. Поскольку нормирующая величина выступает фактически единицей измерения, требуется определить: является ли изменение каждого параметра в этой новой шкале равносильным изменению любо- 27
го другого параметра? Разумно поступать следующим образом: если объекты А и В отличаются по zx на величину Ai, a no z — на А2, то следует установить, эквивалентны ли параметры z\ и z2 при Ai=A2. Например, сказать, что изменение роста на 10 % относительно среднего значения равнозначно изменению веса на те же 10% в смысле близости двух людей друг другу г2. Если утверждения такого типа невозможны, то проблема переносится в сферу экспертного оценивания, приписывания веса признакам и т. д. Трудности нормировки показаны на рис. 1.5, изображены точки до и после стандартной нормировки. Исходные данные четко разбиваются на 2 класса. После стандартизации расстояние от точки 4 до точки 5 стало меньше, чем до остальных точек своих классов (кроме 2 и 7); крайние точки классов C и 1, 6 и 8) отъединились от других точек своих классов на расстояния большие, чем межклассовые. На данных рис. 1.56 разные алгоритмы выделят в класс средние объекты, а крайние точки либо объединят в классы (пунктир), либо выделят как единичные наблюдения. Понятно, что при другом способе нормирования результаты будут иными. 1.3.2. ПРОБЛЕМА АДЕКВАТНОСТИ МЕР БЛИЗОСТИ Расстоянием^ (метрикой^ между объектами в пространстве параметров называется такая величина йаъ, которая удовлетворяет аксиомам: AI. dab>Oy daa=0; А2. dab=dba\ A3. dab+dbc^dac (неравенство треугольника). Мерой близости (сходства) обычно называется величина [1аь, имеющая предел и возрастающая с возрастанием близости объектов. Приведем возможное определение [109]: Рис. 1.5. Классификация: а—по исходным данным; Ь—по стандартизованным данным 1,5 1 0,5-. -0,5- -1,5- \ •в; 28
Bl. \iab непрерывна, т. е. малому изменению положения точек в пространстве отвечает малое изменение меры; В2. ВЗ. Заметим, что A3 не является конструктивным требованием: оно почти никогда не учитывается в расчетах, и в принципе пригодны измерители близости, не удовлетворяющие неравенству треугольника. Требование непрерывности для [л может быть распространено и на метрики, однако в обоих случаях оно не универсально — в пространствах номинальных признаков d и \л могут принимать, видимо, только дискретные значения. Существует возможность простого перехода от расстояний к мерам близости: достаточно применить, например, преобразование p=l/(l+d). Обратное также справедливо, но не все вычисленные через \i расстояния будут удовлетворять A3. Поскольку любую меру близости можно рассматривать как порожденную некоторым расстоянием, дальнейшие результаты приведем в терминах \iy не нарушая общности. Все вышеприведенные примеры касались фактически одной проблемы: можно ли сконструировать такой показатель близости между объектами, который не зависел бы от способа измерения переменных. Если такой показатель возможен, то его использование будет давать одинаковые результаты при любых допустимых преобразованиях шкал, вроде изображенных на рис. 1.4 и 1.5. Такая постановка является типичной для теории измерений [69] в ее прикладном аспекте: любые показатели и алгоритмы в принципе должны быть проверены на адекватность относительно допустимых преобразований. Не вполне строго будем считать, что адекватной является статистика, либо не меняющаяся при допустимых преобразованиях шкал, либо меняющаяся контролируемым образом. Примером статистики, адекватной в первом смысле, является линейный коэффициент корреляции, величина которого не меняется при любых линейных преобразованиях шкал (т. е. он адекватен в шкалах отношений и интервалов [69]). Во втором смысле адекватной является в этих же шкалах среднее арифметическое: скажем, при изменении масштаба в К раз во столько же раз меняется и среднее. Имеются ли адекватные статистики для измерения расстояния между объектами? Основные результаты получены в [109]. Если исходные значения показателей на объектах обозначать через х, у ..., а полученные допустимым преобразованием шкал — х\ у' ..., то адекватной назовем такую меру сходства (удовлетворяющую аксиомам В1—В3)у что если \хху<\xzv, то ц*v<|i2t,' (допустимые преобразования не меняют отношения нестрогого порядка на множестве пар объектов). Это требование, как видно, менее сильное, чем требование совпадения значений. Основное утверждение [109] можно сформулировать в следующей теореме: класс адекватных мер сходства для шкал порядка (при m^l), интерва- 29
лов и отношений (при т^2) пуст. Пример адекватной меры при т=\ для шкалы отношений: |г= 1/A -f-JCi — х2) (т — число признаков; допустимые преобразования шкал указаны в табл. 1.1). Предлагаемые в [69] адекватные статистики типа косинуса угла между векторами, соединяющими точки с началом координат, действительно не зависят от линейных преобразований пространства, но и не являются мерами сходства в формальном и содержательном отношениях. Косинус не удовлетворяет условию ВЗ, поскольку его единичное значение реализуется далеко не только при совпадении объектов: идентичными объявляются все точки, лежащие на одном луче, как бы далеко (в обычном смысле) они друг от друга ни отстояли. Возможно, такой измеритель может быть полезным в своеобразных ситуациях поиска линейно вытянутых кластеров (см. также [33, с. 19]). Итак, теорема приводит к весьма неутешительным выводам относительно теоретической и практической ценности всевозможных метрик: результаты работы алгоритмов классификации могут непредсказуемо меняться в зависимости от такого, вообще говоря, случайного обстоятельства, как выбор того или иного способа измерения показателей1. Поэтому универсальные правила выбора той или иной меры отсутствуют; конкретные особенности мер близости рассмотрены в 1.3.2, а рекомендации по их обоснованию — в 4.2.2. 1.3.3. ХАРАКТЕРИСТИКИ БЛИЗОСТИ ОБЪЕКТОВ Рассмотрим основные способы определения близости между объектами. В табл. 1.3 приведены некоторые употребительные расстояния и меры близости, используемые для признаков, измеренных в разных шкалах. Материал таблицы не претендует на широту обзора; 27 мер сходства приведены в [21], около 50 — в [47]; традиционные меры и расстояния для количественных шкал описаны в [33, 62, 5 и др.]. Попытаемся охарактеризовать специфику некоторых приведенных показателей. Рассмотрим сначала метрики для количественных шкал. Линейное расстояние заслуживает более широкого распространения, чем имеет в настоящее время, по нескольким причинам: содержательной оправданностью в ряде ситуаций. Например, при многокритериальной оценке (качество продукции), при нормировке по эталонам типа z3 и для сравнения объектов используют модули отклонений. Другой (классический) пример — определение расстояния между домами по кварталам, а не напрямик; особыми статистическими и геометрическими свойствами. С помощью линейной метрики лучше всего выделяются «плоские» клас- 1 Близкие в идейном смысле результаты получены в: Сатаров Г. А. Сравнение двух алгоритмов шкалирования дихотомических данных//Математические методы в социологических исследованиях.—М.: Наука, 1981.—С. 90—98. 30
теры, расположенные почти на гиперплоскостях, особенно если они ортогональны каким-либо координатным осям. Если есть основания предполагать, что кластеры имеют такую форму, есть смысл использовать такую метрику. Таблица 1.3. Характеристика близости объектов по набору признаков, измеренных в различных шкалах1 Показатели Формулы Для количественных шкал (расстояния) [33] т Линейное расстояние Евклидово расстояние Обобщенное степенное расстояние Мин- ковского Расстояние Махаланобиса '«,-B W- 1=1 ,-B W- ii ««,- Для номинальных шкал (меры сходства) [21, 47] Коэффициент Рао Коэффициент Хемминга Коэффициент Роджерса — Танимото Коэффициент Жаккарда Для произвольных шкал Мера близости Журавлева [36] Мера близости Воронина [21] Мера близости Миркина [63] а1. /= 1 1 х\ — значение /-го признака у /-го объекта, /= 1,т; /, /= l,n; Xi — вектор-столбец значений всех признаков на /-м объекте; W~l — матрица, обратная ковариационной; рц—общее число совпадающих значений свойств (нулевых и единичных, где 1 — наличие свойства, 0 — отсутствие); п" — число совпадающих единичных свойств; пг — число единичных значений свойств; //¦= 7 | 0 если ^ i^ в любом другом случае; 31
Евклидово расстояние является самой популярной метрикой в кластерном анализе: оно отвечает интуитивным представлениям о близости и, кроме того, очень удачно вписывается своей квадратичной формой в традиционно статистические конструкции. Геометрически оно лучше всего объединяет объекты в шарообразных скоплениях, которые весьма типичны для слабо коррелированных совокупностей. На рис. 1.6а приведены два разбиения. Предположим, требуется разбить совокупность на две группы и классификацию провести каким-либо обычным объединяющим алгоритмом типа ближнего соседа. По линейному расстоянию объединятся как ближайшие все объекты на одной линии. По евклидову же расстоянию сначала объединятся объекты 1 и 2 и т. д. (из разных линий); скачок в расстояниях возникает только на границе между точками 3—5 и 4—6, поскольку там небольшой сдвиг. Видно, что результаты классификации кардинально противоположны, причем более ценно разбиение по линейной метрике. Обобщенное степенное расстояние представляет только математический интерес как универсальная метрика. Во всяком случае нам не известны примеры его использования при произвольных рФ\,2,<х> (в последнем случае dp переходит в так называемую супремум-норму йрц = та.хщ — х{|, которая может представлять интерес). Расстояние Махаланобиса является своеобразной конструкцией. Рассмотрим эту метрику подробнее. На рис. 1.66 изображены 6 точек, распадающихся на 2 класса (см. табл. 1.4). Как видно, разница между матрицами очень заметная. Если по матрице dE можно легко выделить классы, видимые и на рис. 1.66, (Hi п г :м* . jj~ \D а б Рис. 1.6. Зависимость результатов классификации от формы расстояния между объектами. Классификация объектов на два класса: a— по линейной (сплошная линия) и евклидовой (пунктир) метрикам; б — по евклидовой или линейной метрикам где е/ — значение порога для /-го признака; Хщ = \ — —- мера близости объектов по /-му признаку (для номинальных признаков ^=1 в случае совпадения значений; 0 — в случае несовпадения); а/ — информационный вес признака, рассчитанный определенным образом; q'j для количественного признака определяется как x'x'j (xl нормированы стандартным образом), а для номинального признака при несовпадении значений — й=0, при совпадении (т. е. при попадании значений в s-ю градацию, s=l,m/) q\j = 1 /rci Vmi— 1» гДе ns — число наблюдений в s-й градации, mi — число градаций. Величина рц получена из некоторых модельных соображений (см. [63, с. 83—95], а также 2.3.4). 32
2 1,41 0 3 2,24 1,00 0 4 6,71 5,39 4,47 0 5 7,62 6,32 5,39 1,00 0 6 8,94 7,62 6,71 2,24 1,41 2 5,01 0 3 0,54 3,33 0 4 5,04 4,43 2,24 0 5 5,01 11,08 4,43 3,33 0 6 8,96 5,01 5,04 0,54 5,01 Таблица 1.4. Матрицы расстояний между точками, изображенными на рис. 1.66 1 2 3 4 5 а — евклидово расстояние б — расстояние Махаланобиса то по матрице dM — весьма произвольно. Существенно, что при переходе от dE к dM сильно уменьшилось расстояние dM^Mi стянувшее классы. Поэтому возможны такие разбиения, как 1, 2, 3, 4/5, 6 (пунктир в табл. 1.46) и др. Общая согласованность между порядками расстояний в двух матрицах (так называемый кофенетический коэффициент корреляции) невелика — коэффициент Спирмена между упорядочениями расстояний равен 0,61. Такая рассогласованность может приводить, естественно, к различным результатам классификации. Причина расхождения заключается в особенности расстояния dM. Если считать, что все признаки не коррелированы, то можно убе- Д* Д2 диться, что dM =—1+...-|—^, где А/ — разница значений 1-го приз- 1 т нака у двух объектов, т. е. евклидово расстояние по каждой оси уменьшается пропорционально дисперсии. Это приводит к своеобразному уравниванию всех признаков, напоминающему процедуру нормирования zl. Такое свойство корректировки может оказаться полезным в ситуациях, когда, например, после нормировки сохраняется большая разница в дисперсиях, которую желательно нивелировать. И, наоборот, при стандартной нормировке и нулевых связях dE=dM. Но в целом процесс корректировки расстояний является малоуправляемым. Могут возникать курьезные ситуации типа изображенной на рис. 1.6: расстояние между точками 3 и 4 становится вдруг существенно меньше, чем между точками 2 и 3 (см. табл. 1.4), несмотря на сильную коррелированность признаков @,986). Дело в том, что при росте корреляции нормировочный эффект не пропадает, а приобретает новые усложненные формы. А именно, если корреляции близки к единичным и дисперсии почти равны друг другу, определитель Ковариационной матрицы приближается к нулю, т. е. матрица становится близка к вырожденной. Обратная матрица W~l приобретает крайне неустойчивый вид, что, конечно, способствует произвольному упорядочению расстояний Махаланобиса. | Другая особенность расстояния заключается в его «контекстном» характере. Наличие в формуле матрицы ковариаций делает расстояние между двумя точками зависимыми от расстояний между другими точками. Поэтому наличие аномальных наблюдений может исказить 2 Зак. 1П5 33
всю матрицу расстояний, что вообще свойственно для дисперсионных статистик. Известно, что расстояние Махаланобиса превращается в евклидово в пространстве главных компонент [92]. Специфика перехода к такому новому пространству рассмотрена в 3.1. Рассмотрим вкратце метрики для качественных шкал. Выбор конкретного измерителя должен осуществляться прежде всего из содержательных соображений: если предполагается равная значимость совпадения единичных и нулевых свойств, то следует применять расстояние Хемминга; если важно только наличие свойства, а не его отсутствие — использовать коэффициенты Рао или Роджерса — Танимото. Расстояние Хемминга используется для сравнения объектов в смешанных шкалах наименований и порядка [62]; для порядковых шкал можно, по-видимому, использовать качественный вариант метрики Хемминга и количественный типа линейного расстояния. Особый интерес представляют специфические измерители для произвольных шкал. Наиболее прозрачен смысл меры близости Журавлева; если считать объекты близкими по данному признаку, то следует использовать,„ненулевое значение порога близости и дальнейшую процедуру осуществлять формально. Явное преимущество е/ заключается в возможности твердого содержательного обоснования уровня порога, так как он выведен за пределы многомерных условностей. При таком подходе неизбежна определенная потеря информации; фактически осуществляется переход от количественных шкал к качественным «близко-далеко». Но в целом представляется, что подобные коэффициенты должны использоваться во всех случаях, где развитые содержательные представления позволяют сформировать ясную характеристику близости объектов. Мера близости Воронина позволяет повысить содержательную обоснованность расчетов (вводятся веса признаков и др.)- Представляет интерес, например, учет неравнозначности областей признакового пространства: возрасты людей в 60 и 65 лет естественнее считать куда более близкими, чем в 10 и 15, хотя все метрики покажут здесь одинаковые расстояния. В связи с этим целесообразно где-либо использовать логарифмическое преобразование шкалы и т. д. Мера близости Миркина отличается от других коэффициентов тем, что получена не просто как содержательная экспликация понятия близости, а как результат определенных теоретических предпосылок процесса классификации в целом (см. 2.3.4). Все рассмотренные характеристики близости объектов являются первичными, исчисляемыми непосредственно по значениям исходных признаков. Существует другой класс мер близости, определяемых на основе рассчитанных показателей расстояния. В [19, с. 377; 23, с. 29] описаны «контекстные» показатели близости, рассчитываемые определенным образом по зонам пересечения некоторых е-окрестностей каждой точки. Анализ такой вторичной 34
матрицы расстояний представляется весьма интересным, но детального изучения подобных мер не произведено. Набор расстояний одного объекта для всех остальных называется профилем данного объекта; можно считать измерение близости между профилями своеобразной контекстной мерой, получаемой, если в е-окрестность входят все объекты, а не определенная часть ближайших. Профили часто рассматриваются в многомерном шкалировании [93]. В заключение отметим, что матрица расстояний или близостей нередко задается непосредственно: либо как таблица экспертных оценок близости, либо как матрица прямых измерений сходства: межотраслевого баланса, степеней соседства географических регионов, взаимной цитируемости авторов и т. д. В таких случаях все поставленные выше проблемы адекватности расстояний и выбора мер сходства снимаются. Конкретные рекомендации по выбору метрики приведены в 4.2.
2. ПРОЦЕДУРЫ КЛАСТЕРНОГО АНАЛИЗА 2.1 КЛАССИФИКАЦИЯ АЛГОРИТМОВ КЛАССИФИКАЦИИ 2.1.1. ТИПЫ МЕТОДОВ КЛАСТЕР-АНАЛИЗА В настоящее время существует огромное количество алгоритмов кластер-анализа. Они отражают разнообразие не только вычислительных приемов, но и концепций, стоящих за ними. Попробуем разобраться в этих концепциях и на их основе проклассифицировать алгоритмы. Вся трудность заключается в том, что точной постановки задачи кластерного анализа нет,. Рассмотрим рис. 2.1. Из него видны большие сложности создания единой теории, позволяющей четко разделять приведенные сочетания классов. Эта теория должна учитывать разнообразные обстоятельства: расстояния между некоторыми точками класса С больше, чем межклассовые расстояния ряда точек в классах В и С; средние значения признаков в классах Е и F, К и Н одинаковы; классы Р и Q соединены цепочкой, которую надо выделить, и т. д. Прежде чем строить теорию, учитывающую подобные конфигурации точек, надо ясно сознавать природу предъявленных к разбиениям требований. Почему на рис. 2.1 границы классов проведены именно таким образом? Очевидно, / • /, I • \' # c-x . • \ . t E Л /• ". /;. v ^x i Jo Гч > V / • \ к \y • • / * * > • • ¦) / /¦:'¦:¦] л ' • * '. '\ N4-i)M Рис. 2.1. Различные формы кластеров 36
в соответствии с интуитивным представлением о том, что кластер — окопление точек — представляет собой некоторую целостность (образ), чем-то отличающийся от другого скопления точек, причем, вообще говоря, геометрически разные кластеры могут даже касаться друг друга (В и С, L и М) или пересекаться (К и Я). Различать кластеры, подобные изображенным на рис. 2.1, единым формальным способом чрезвычайно трудно — это и означало бы машинную реализацию чисто человеческого процесса распознавания образов. Многолетние (с конца 50-х годов) попытки решить задачу «структурной классификации» привели к тому, что традиционную для статистики проблему выделения однородных групп объектов многие ученые стали трактовать как проблему распознавания образов без учения (самообучения). Наиболее естественный путь нахождения образов заключается в том, что дается точное определение образа и отыскивается скопление точек, обладающее соответствующими свойствами. Например, образ (кластер) можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных (см. 2.2.2). Поэтому будем считать, что основой первого направления решения задачи структурной классификации является формулировка понятия кластера и разбиение совокупности на части, каждая из которых представляет собой кластер в данном смысле. Такой подход часто называется эвристическим [5, 30 и др.]. Однако многие свойства этих процедур изучены достаточно хорошо, а некоторые из алгоритмов, как оказалось, находят локальный экстремум определенному функционалу. Поэтому назовем группу алгоритмов, ориентированных на выделение кластеров с заранее заданными свойствами, процедурами прямой классификации (см. 2.2). Основной чертой таких процедур является использование ими только одного понятия кластера. Скажем, в группе методов /г-сред- них объекты попадают в тот класс, расстояния до центра которого минимальны, т. е. реализуется одно из определений кластера (см. 2.2.2). Это означает, что все классы разбиения будут удовлетворять именно этому определению. Если предположить, что некоторые исходные данные в самом деле имеют такой причудливый вид, как на рис. 2.1, то алгоритмы этого типа не смогут их разделить. Поэтому крайне интересно создать процедуры комбинированной прямой классификации, которые бы выделяли классы в смысле нескольких определений, т. е. подыскивали бы для каждого скопления свойственное ему определение кластера. Требования к хорошей классификации предъявляют не только в терминах определений отдельных кластеров. Часто общие представления о качестве классификации формулируются в виде некоторого функционала, экстремальное значение которого соответствует наилучшей классификации. 37
Это второе оптимизационное направление в решении задачи кластер-анализа сформировалось позже первого (вторая половина 60-х годов) и представляет богатую и разветвленную дисциплину. Остановимся на некоторых методологических аспектах, касающихся связи двух подходов. Оптимизационное направление пытается задачу кластер-анализа ввести в традиционное математическое русло, четко сформулировать критерий и добиваться его экстремизации. При этом, естественно, возникают чисто математические проблемы: определения свойств функционала, путей достижения оптимума, трудоемкости алгоритма. Обсуждение этих вопросов часто оставляет в стороне узловую проблему: каким должен быть функционал? Его выбор превращается по сути в самостоятельную проблему (см. 2.3.2). Если функционал качества выбран, то следует решить другую задачу: обосновать процедуру поиска глобального или локального экстремумов. Редко исследователю действительно нужен глобальный экстремум некоторой функции для решения своей весьма расплывчатой задачи выделения однородных групп. Если в какой-нибудь жестко детерминированной экономической системе экстремум целевой функции еще может означать нечно явно полезное (в том смысле, что ухудшение функции на рубль означает ухудшение материального положения заказчика на рубль), то в кластер-анализе такой четкой связи между целевым функционалом и действительной целью исследователя нет. И прежде всего потому, что цель не может быть точно сформулирована в условиях исходной неопределенности в характере данных. Действительно, при разных функционалах качества должны быть разные результаты. Так как истинная структура данных неизвестна, желательно работать с несколькими функционалами. Если функционалы дают сильно отличающиеся классификации, надо полагать, структура данных не вполне отчетлива. Но если классификации похожи, то скорее всего выявлена реальная структура. В последнем случае разные разбиения примерно отражают наиболее характерную (даже в разных смыслах) структуру. Поэтому нет оснований, на наш взгляд, считать оптимизационные алгоритмы качественно более высоким уровнем по сравнению с процедурами первого типа; скорее это иной способ формализации представлений о хорошей классификации. Видимо, совсем не случайно установлено, что считавшиеся прежде эвристическими процедуры оптимизируют некоторые функционалы. Резкой границы между подходами нет, наоборот, есть предположение, что каждая прямая процедура на самом деле доставляет экстремум какой-то функции, которую, правда, надо отыскать (см., напр., [18]). И напротив, каждому функционалу скорее всего соответствует свое определение кластера. Большая работа по выяснению такого рода связей между подходами еще далека от завершения, но ее результаты представляются многообещающими (см. 2.3.4). 38
Наконец, можно выделить третье направление решения задачи кластеризации, наиболее позднее по срокам развития (середина 70-х годов). Его можно называть аппроксимационным. Основная идея подхода заключается в следующем: отношения, заложенные в исходных данных, требуется наилучшим образом аппроксимировать отношением, отвечающим нашему представлению о классификации. Классификация обычно задает отношение эквивалентности, а исходные данные могут быть отражены по-разному. Например, матрицу «объект-объект» расстояний можно рассматривать как метризованную толерантность. Тогда задача стоит так: найти эквивалентность, ближайшую (в некотором смысле) в исходной толерантности. Возможны и другие постановки такого вида B.3). Конечно, алгоритмы аппроксимации носят оптимизационный характер. Но целесообразно выделить эти процедуры как в силу их своеобразной направленности, так и потому, что сами они порождают определенные функционалы качества. Возможно, наиболее серьезные теоретические результаты будут получены именно на пути анализа процедур аппроксимации при разных предположениях. Рассмотренные три направления в задаче кластеризации, как и некоторые ранее делавшиеся классификации алгоритмов [5, 30, 62 и др.], не бесспорны и даже не вполне строги. Как отмечалось, типы могут пересекаться, и, видимо, зона пересечения будет с углублением теоретических разработок возрастать. Вообще надо отметить, что вопрос о классификации алгоритмов классификации, поставленный лет пятнадцать назад, не нашел до сих пор приемлемого решения. 2.1.2. КЛАССИФИКАЦИЯ АЛГОРИТМОВ Варианты классификации обсуждались А. А. Дорофекжом [30], С. А. Айвазяном и др. [5], Н. Г. Загоруйко [38], Б. Г. Миркиным [63], А. Р. Лейбкиндом и др. [47], Дж. Гудом [28], Р. Кормаком [120], Дж. Хартиганом [131] и многими другими авторами. При этом различными были не только схемы классификации, но и первичные установки исследователей — чрезвычайно обильные и весьма частные свойства классификаций, перечисляемые в [28] (отчасти и в [47]), почти никак не связаны с четким, но довольно схематичным делением методов в [30] и т. д. Предлагаемая ниже группировка в значительной мере опирается на схемы перечисленных авторов. Классификацию алгоритмов приходится вести по нескольким качественным признакам, поэтому, например, ожидать стройной упорядоченности не приходится — сочетания признаков носят фасетный характер. Рассмотрим важнейшие основания для деления. /. Характер отношения, которое отыскивается как результат классификации 1.1. Разбиение с непересекающимися классами (отношение эквивалентности). Все объекты внутри найденного класса считаются тождественными, а объекты разных классов — нет. Почти все процедуры, описанные в 2.2 и 2.3, отыскивают такие разбиения. 39
1.2. Разбиение с пересекающимися классами. Задается по-разному: введением степени принадлежности объекта к классу в духе теории размытых множеств [34, 33], определением вероятности принадлежности объекта к классу [76] или просто перечнем объектов в зоне пересечения. Некоторые из рассмотренных ниже алгоритмов допускают пересекающиеся классы, но специально рассматривать такие процедуры нам кажется нецелесообразным, поскольку в конечном счете все равно исследователь вынужден отнести куда-либо каждый объект (см. другую точку зрения в [131, 110] и др.). 1.3. Иерархическое дерево. Процедуры классификации отыскивают целую систему вложенных разбиений. Такая сложная структура далеко не всегда соответствует представлениям о строении совокупности. Но иерархическими алгоритмами можно отыскивать и «обычные» разбиения, стоит лишь задать число классов, порог и т. д. В таком аспекте мы и будем их рассматривать. Исторически такие постановки существуют с начала 50-х годов и идут от биологической систематики. Нередко их называют задачами таксономии (в отличие от других задач кластеризации). В обзоре [30] они вообще не были зачислены в разряд методов автоматической классификации. 1.4. Отношение произвольной структуры. Наиболее общий способ анализа структуры множества — аппроксимация его некоторым отношением с произвольной (заранее заданной) структурой. Такая задача, вообще говоря, выходит за рамки кластер-анализа. Но ее можно рассматривать расширительно, связав произвольную структуру со способом операционализации некоторой «суперцели» классификации [37, с. 88] (см. 3.2). 2. Степень участия человека в процедуре выделения кластеров 2.1. Человек не принимает участия в работе алгоритма, классификация производится машинным способом. Таковы многие процедуры в 2.2 и все — в 2.3. Конечно, отсутствие человека понимается в узком смысле: исследователь формирует исходные данные, выбирает расстояние, задает параметры классификации, но сам в процесс работы алгоритма не вмешивается, разбиение получает как готовый результат. 2.2. Человек участвует в процессе получения разбиения. ЭВМ (алгоритм) выдает не собственно классификацию, а информацию, на основании которой человек принимает решения о разбиении. Такими процедурами фактически являются все методы визуализации данных (см. 3.1), упорядочения матриц связи и др. Они обычно дают максимально полезные содержательные результаты, несмотря на свою «нестрогость» и «человеческий произвол». 40
3. Характер априорных сведений (задаваемых параметров) для работы алгоритма 3.1. Априорные сведения отсутствуют (свободная классификация). Считается, что отсутствие задаваемых параметров необходимо для выделения естественной, а не навязанной структуры исходных данных. На самом деле лишь немногие алгоритмы не опираются ни на какие параметры (и они имеют человеко-машинный характер). 3.2. Задано число классов. Популярный способ — «ограничения» свободной классификации. Если такой алгоритм проработает в целом спектре численностей классов, «естественный» результат может быть выделен после дополнительной обработки. 3.3. Заданы пороговые значения величины близости объектов (классов). Способов задания порогов очень много (см. 2.2; 2.3). Объединим их, чтобы противопоставить предыдущему параметру — числу классов. На самом деле существует связь между этими параметрами для каждого алгоритма, но в явном виде она не изучена. 3.4. Заданы комбинированные сведения (число классов и пороги разных типов). Процедуры носят наиболее «ограниченный» характер, но умелое использование многих параметров может сделать алгоритм довольно реалистичным и гибким D2, 43 в 2.2 и др.). 4. Характер работы алгоритма классификации Алгоритмы можно классифицировать по принципу устройства, но единых способов здесь нет. Наиболее общие результаты получены В. М. Бухштабером и др. [18], но эту теорию еще нельзя считать окончательно разработанной. Мы ограничимся делением алгоритмов по способу построения кластеров: эталонные и неэталонные [5]. В процедурах эталонного типа на множестве объектов задается несколько эталонов — исходных зон, полей, с которых начинает работу алгоритм. Эталоны могут быть следующих видов: подмножество исходного множества (т. е. первоначальное разбиение на классы); отдельные объекты; отдельные зоны (точки) метрического пространства (например, центр тяжести класса или область, в которой предполагается модальная плотность на основании предыдущих исследований). После задания (машинного или человеко- машинного) эталонов алгоритм производит классификацию, иногда меняя эталоны определенным способом. Существует множество процедур кластеризации, работающих по иному принципу: иерархические алгоритмы, процедуры диагонали- зации, разрезания графов и др. Определим другую особенность алгоритмов — зависимость результатов работы от порядка просмотра точек. 4.1. Процедуры, зависящие от порядка просмотра точек. Зависимость от нумерации точек является серьезным недостатком алго- 41
ритма, иногда преодолеваемым последующими действиями. Зависимость типична для эталонных процедур. 4.2. Процедуры, не зависящие от* порядка просмотра точек, например иерархические алгоритмы. С прикладной точки зрения очень важно было бы иметь оценки временной и пространственной трудоемкости алгоритмов и соответственно провести по ним классификацию. Однако задача определения трудоемкости, сильно развитая в других областях математики, в теории автоматической классификации изучена слабо. Оценки известны для редких алгоритмов. Общая классификация процедур на быстрые и медленные, требующие большой и малой памяти ЭВМ, видимо, заменила бы предлагавшееся деление на параллельные и последовательные процедуры [5]; в некоторых случаях мы приводим оценки. Сделаем сводку типов кластер-процедур и введем' условные обозначения (см. табл. 2.1). Каждый алгоритм можно задать кодом из 4 элементов в соответствии с таблицей. Так, описание РП, М, К, 3 означает алгоритм, отыскивающий разбиение, в котором возможны пересечения (но не обязательны). Этот алгоритм осуществляется без вмешательства человека, работает с заданным числом классов, зависит от порядка просмотра точек. Сопоставляя свои содержательные представления с «марками» алгоритмов, исследователь может подобрать соответствующие процедуры для каждой задачи. Рекомендации представлены в 4.2. 2.2. АЛГОРИТМЫ ПРЯМОЙ КЛАССИФИКАЦИИ 2.2.1. РАЗВИТИЕ ИДЕЙ Множество алгоритмов прямой кластеризации практически неисчерпаемо, поскольку из отдельных фрагментов имеющихся процедур можно «собирать» новые схемы. Поэтому преследовалась цель дать общее представление об этих методах, выделив круг основных идей. Изложение ведется по принципу: краткий обзор и основная библиография, сжатое и унифицированное описание алгоритмов, их короткое содержательное обсуждение и выводы. Конечно, отбор материала является в известной мере субъективным; что касается исторической стороны вопроса, то автор не может претендовать на полное и детальное ее изложение, возможно, отдельные этапы разработки и методология кластер-анализа в обзоре упущены. Относительно ссылок принята следующая схема: если предложенный за рубежом алгоритм опубликован в доступных отечественных изданиях, то ссылка делается на них, а не на оригинал. В некоторых случаях трудно строго назвать первые публикации, тогда приводятся фамилии авторов наиболее ранних работ с описанием данного алгоритма (эти замечания относятся и к 2.3). Некоторые из числа рассмотренных в обзоре алгоритмов описаны не детально по двум причинам: их точное изложение заняло бы слишком много места и потребовало бы новых обозначений, тогда как в соответствующей литературе вся эта работа проведена. Алгоритмы прямой кластеризации явились наиболее ранними процедурами кластерного анализа. Метод решения задачи группировки по многим признакам (отличный от комбинационной) был предложен немецким биологом Ф. Гейнке [88]. «Правило Гейнке:» заключалось в том, что объект приписывается той группе, к центру кото- рой он ближе всего, Близость измерялась величиной:^ __ 42 '
Таблица 2.1. Основные типы процедур кластерного анализа1 п/п Свойства алгоритмов Услов ные значения Типы алгоритмов прямая классификация — номер алгоритма по 2.2 оптимизация — номер функционала по 2.3 I 1.1 1.2 1.3 2 2.1 " 2.2 3 ЗХ" 3.2 3.3 3.4_ 4 4.1 4.2 Характер результирующего ртнр_шения. Разбиение Разбиение с пересекающимися или размытыми класса^^^хи^ское дерево Участие человека в проведении классификации Человеко-машинная классификация Машинная классификация Вид задаваемых параметров Свободная классификация Число классов Пороги любых видов Число классов Особенности и пороги работы  _ .ритма„.. _ Не зависит от порядка просмотра объектов Зависит от порядка просмотра объектов РП И ЧМ М ск к п кп_ нз 3 21—48,50—58,60, 61, 63—65 49, 59, 62, 67, 68 1—20, 66 1 — IT, 19—23, 25—28, 30—42, 44, 45 18, 24, 29, 43, 46 2 из 2.22 21—24, 26, 28—32 1—20, 25, 27, 33— 1—46 1_9, 14—22, 24— 26, 28—31, 53, 55 39—41, 45, 54, 57, 58, 60, 66 10, 27, 36, 37, 42, 47, 49, 52, 56, 59, 63, 65, 67, 68 43, 46, 51, 64 1—20, 26—32, 34, 50, 53—55, 60, 67, 68 21—25, 33, 35—49, 51, 52, 56—59, 61—66 8, 9, 20, 23, 25, 28, 30, 31, 40, 42, 44 2, 6, 7, 11 — 14, 16, 17, 19, 26, 27, 29, 32—35, 39, 41, 43—46 22, 31, 34 18,21,24 Функционалы могут оптимизироваться алгоритмами разных типов 1 В составе иерархических процедур есть алгоритмы с размытыми решениями (см. алг. 10) и задаваемыми порогами (см. алг. 11—13), что в таблице не отражено во избежание пересечений, 2 Метод ближнего соседа оптимизирует исходную матрицу расстояний в смысле ультраметрики (см. 2.3.1—2.3.4), но специально теорию оптимальных иерархических процедур мы не рассматривали (см. [122]). где i — номер объекта, / — признака, k — группы. Это напоминает чрезвычайно распространенную процедуру распределения объектов по ближайшим классам (например, в методе Передних). Однако правило Гейнке все же трудно причислить к методам кластерного анализа, так как сами группы (биологические виды) пред* полагались заданными. Идея «структурной классификация» была выдвинута польским антропологом К. Чекановеким в 1913 г. [71J. Его метод являет собой типичный пример домашинной технологии обработки данных (см. табл. 2.3), но содержит в себе, во-первых, узловую идею кластер-анализа — выделение компактных групп объектов и, во- 43
вторых, очень важный способ этого выделения — процедуру, лежащую в основе позднейших алгоритмов диагонализации матрицы связей. В 1925 г. советским гидробиологом П. В. Терентьевым был разработан «метод корреляционных плеяд» [88]. Хотя метод направлен на выделение групп тесно коррелирующих признаков (это, видимо, первый алгоритм группировки параметров), он используется и для классификации объектов. Идея подхода является фактически основой многочисленных пороговых алгоритмов, алгоритмов на графах и др. В 1939 г. английский ученый Р. Трион впервые использовал термин «кластер- анализ» [151]. Интересно, что Трион имел в виду опять-таки группировку параметров, называя кластерный анализ «факторным анализом для бедняков». Он считал, что вместо факторного анализа (тогда под ним имелся в виду центроидный метод) лучше выделять «грозди» показателей, и предлагал соответствующий метод, который сводился к поиску групп с хорошим (тесно коррелирующим) признаком в каждой на них. В известном смысле это предвосхищает методологию экстремальной группировки Э. М. Бравермана (см. [16]). В начале 50-х годов появились первые публикации по иерархическим процедурам — статьи Р. Льюса A950, см. [103]), Е. Фикса и Дж. Ходжеса A951, см. [102] и др.). Тогда же был опубликован коллективом авторов (Г. Штейнгауз и др.) алгоритм «вроцлавской таксономии» A951, см. [71]), получивший впоследствии известность. За это десятилетие методы классификации развивались достаточно интенсивно, но главным образом в ширину, а не в глубину. Хорошее обобщение (преимущественно по иерархическим процедурам и на биологическом материале) сделано Р. Сокалом и Дж. Снитом; их идеи оказали существенное влияние на развитие всей проблематики. Особый толчок кластер-анализу был дан в 1958—1959 гг. Р. Розенблаттом (см. [20, 91]). Им выдвинута идея распознающего устройства (персептрона) и, наряду с задачей его обучения, поставлена задача самообучения. И в связи с бурным развитием всей теории распознавания развивалась теория «распознавания без учителя». В 60-е годы предложено множество алгоритмов и получен ряд теоретических обобщений. В качестве наиболее важных (и наиболее цитируемых) можно выделить работы следующих авторов: Г. Болла и Д. Холла, Дж. Мак-Кина — по методам /г-средних; Р. Сокала и Дж. Снита, Г. Ланса и У. Уильямса, Н. Джардайна и Р. Сибсона и др.— по иерархическим процедурам; Дж. Роджерса и Т. Танимото, Э. М. Бравермана, А. А. Дорофеюка, И. Б. Мучника и др.—по процедурам типа последовательного формирования кластеров и диагонализации; В. Н. Елкиной, Н. Г. За- горуйко — по эталонным алгоритмам и ряд других исследований. В конце 60-х— начале 70-х годов появился ряд обзоров по проблеме [35, 74, 102 и др.]; особое значение по широте охвата материалов и комплексности изложения имели обзоры А. А. Дорофеюка [30] и Р. Кормака [119], а также [33]. Для 70-х годов характерны уменьшение числа предлагаемых процедур классификации и попытки осмысления уже накопленных алгоритмов и опыта их применения. В этом смысле типичны работы, посвященные теоретическому и экспериментальному сравнению кластер-процедур (см. 2.4). Установлены соответствия между эвристическими и оптимизационными процедурами в ряде случаев. Вышел ряд книг, по-разному освещающих различные аспекты кластер-анализа: Н. Джардайна и Р. Сибсона [136], в которой излагается не столько состояние проблемы, сколько собственная формализованная концепция авторов; М. Андерберга [113], Дж. Эверита [125], Г. Спата [149], дающих довольно широкое представление о различных методах; расширенное переиздание книги [150] A973 г.) и др. Особое значение приобрела монография Дж. Хартигана [131], в которой разбирается множество процедур (главным образом эталонного типа и иерархических) и ставится ряд важных теоретических вопросов. В советской литературе наиболее полное и разностороннее изложение узловых проблем кластер-анализа предпринято в книге С. А. Айвазяна, 3. И. Бежаевой, О. В. Староверова, [5], а также в определенных аспектах в книгах Б. Г. Миркина [62, 61], И. И. Елисеевой, В. О. Рукавишникова [34]. 44
Последний период характеризуется уменьшением числа предлагаемых новых процедур прямой кластеризации (видимо, все основные направления уже исчерпаны) и, напротив, увеличением количества работ, в которых эти процедуры получают все большую осмысленность (относительно нахождения общих свойств с другими алгоритмами, особенностей использования, единого программного обеспечения и др.)- Сильное развитие получили иерархические процедуры — очень быстрые алгоритмы, разработанные М. Жамбю и др., позволяющие обрабатывать тысячи объектов [135]. Интенсивно развивается в трудах Э. Диде и др. теория эталонных процедур [29]. Помимо упомянутых монографий [29, 135] вышли книги Б. Г. Мир- кина [63], И. Ромесбурга [148] и др. Прикладное значение процедур прямой классификации остается чрезвычайно большим. Подавляющая часть практических исследований выполнена с помощью именно таких алгоритмов. Их основные преимущества перед оптимизационными и аппроксимационными процедурами заключаются в следующем: относительная простота алгоритмов, их содержательная ясность, что важно для «заказчика» — процесс классификации происходит как бы у него на глазах; допустимость контролируемого вмешательства в работу алгоритма — изменение параметров, смысл которых обычно понятен (чего не наблюдается в строгих процедурах); возможность визуализации данных и принятия непосредственных решений; выделение классов по дендограмме или по упорядоченной матрице расстояний; невысокая трудоемкость алгоритмов, часто намного меньшая, чем у оптимизационных процедур. Этот фактор во многих ситуациях является важным; и как следствие перечисленного — высокая содержательная ясность результатов классификации и практические удобства в ее осуществлении. 2.2.2. ОПРЕДЕЛЕНИЕ КЛАСТЕРОВ Рассмотрим возможные способы точного определения кластеров, на выделение которых ориентированы прямые алгоритмы. Ограничимся ссылками на работы, где о них сказано (не обязательно впервые), или дадим формулировку сами. С/. Класс типа сгущения [62, с. 235]. Все расстояния между объектами внутри класса меньше любого расстояния между объектами класса и остальной частью множества. В [10] такой класс называется компактной группой, в [70] — классом типа ядра. На рис. 2.1 такими кластерами являются А и В\ классы Е и С, L и М не разделяются с помощью этого определения. Посредством С/ нельзя различить не только разнотипные (В и С) или пересекающиеся кластеры (К и Я), но и отличить большие классы от малых (R и Q). 45
С2. Класс с центром (модифицированное определение из [70]). Существует порог т>0 и некоторая точка в пространстве, занимаемом объектами кластера Si (в частности, элемент этого множества), xf такие, что если a/?S/, то^*;<т, а если а/бЛ/S/, то diX*l>x. Здесь ш?А — объект из универсального множества Л, d — расстояние. Точка xf называется центром класса; часто им является центр тяжести, т. е. координаты центра определяются как средние значения признаков у объектов класса. В паре В и С класс В является классом с центром, С — не является; в паре Е и Р класс 5Р с центром, Е — нет. * : СЗ. Класс типа слабого сгущения [62]. Существует т>0 такое, что для любого ai6 Si найдется такой объект uj?Si, что dij^x, а для любого a^A/Si справедливо diC>x. В [70] такие кластеры называются классами типа ленты. Все кластеры типа сгущения являются кластерами типа ленты, но не наоборот. На рис. 2.1 слабые сгущения представляют собой В и С, Е и Р, К и Н. С4. Класс типа сгущения в среднем [62]. Среднее расстояние внутри класса меньше среднего расстояния объектов класса до всех остальных объектов. На рис. 2.1 многие кластеры являются сгущением в среднем, но в паре Е и F все наоборот — среднее расстояние Е больше, чем у Е—F. С5. Сильный кластер (модифицированное определение из [63]). Среднее внутреннее расстояние не менее чем в Ь>\ раз меньше, чем среднее расстояние от любого объекта, не принадлежащего классу, до всех объектов класса (в [63] 6=2). Сб. Класс типа среднего сгущения с центром. Si называется классом, если среднее расстояние до центра объектов класса меньше, чем их среднее расстояние до центра остальных объектов А. Понятие по свойствам аналогично С4. С7. Класс типа изолированного облака. Существует т:>0 такое, что для всех d,-gS/ и dj?A/Si dif>x. Это определение выдвигает самое слабое требование: независимо от внутренней плотности кластера учитывается только внешняя изоляция. Такими свойствами обладают все непересекающиеся кластеры рис. 2.1. Приведенные типы определений исчерпывают основные способы выделения кластеров, но, конечно, не все. В определениях С4—С6 среднюю можно заменить медианой, ввести понятие диаметра класса и др. С некоторыми определениями мы познакомимся в 2.2.3. Наличие набора определений понятия кластера подчеркивает особенность кластер-анализа, отличающую его от других разделов многомерной статистики: сильную зависимость результатов расчетов от предварительных установок исследователя на содержательном уровне. Общая гносеологическая проблема унификации научных определений [50, 57] здесь приобретает вполне осязаемый характер. 46
2.2.3. ОПИСАНИЕ АЛГОРИТМОВ Принятые обозначения и формулы см. в табл. 2.2. Таблица 2.2. Условные обозначения и вспомогательные формулы для описания алгоритмов кластер-анализа п/п Обозначения Содержание параметра, формула 2 3 4 5 6 7 8 10 И а/, а;; /=Т, $,, Sq, S,; /=T,T R, обозначение объекта и его номера; (a,, dj) — неупорядоченная пара объектов; номер признака; обозначения и номера классов; множество номеров объектов 1-го класса; число объектов 1-го класса; я/ — пороговое значение; матрица расстояний между объектами; du=0, dij^zQ, неравенство треугольника не обязательно (см. 1.2); _ пороги для расстояний: если d^d, то (di, dj)€=Siy расстояние между классами (произвольной формы). Примеры: среднее попарных расстояний объектов двух классов; обычное расстояние между центрами тяжести классов; расстояние Махаланобиса между двумя выборками с равными матрицами ковариаций; piq — пороговое значение; R — порог для расстояния объекта до класса р«: если р,/</?, то a,eS/. Варианты измерения р,/: 1) среднее расстояние объекта до всех объектов класса; 2) расстояние до центра класса р(а/, си), где а/ — центр тяжести класса; минимальная типичность объекта, представляющего свой класс, определяется в алгоритме; дисперсия /-го признака в / классе; 7 — пороговое значение Основные характеристики алгоритмов классификации приведены в табл. 2.3. Алгоритмы сгруппированы в некоторые классы, которые впоследствии обсуждаются. Описание алгоритмов в соответствии с табл. 2.3 (обозначения см. в табл. 2.2) проводится обычно по схеме: первый шаг или начальное состояние; р-й шаг, критерий останова (КО). 47
Таблица 2.3. Характеристики алгоритмов прямой классификации п/п 1 Название алгоритма 2 Тип процедуры по табл. 2.1 3 Задаваемые параметры 4 Авторы, год публикации, источники 5 Примечания 6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Обобщенная алгомера- тивная процедура Ближний сосед (односвя- зывающий метод) Дальний сосед (полно- связывающий метод) Центроид Средняя связь (взвешенная) Средняя связь (простая) Медиана Минимальный внутриклассовый разброс Агломеративное объединение Объединение с порогами для расстояний Группировка по г-диа- метру (сильный г-связы- вающий критерий) Слабый г-связывающий метод Обобщенные процедуры послойной кластеризации Дивизимный (разделяющий) алгоритм И, М, СК, НЗ То же » 3» » » » » И, М, НЗ (РП), ск и, м, ск, нз То же нет » » » » » » Р г г г нет Иерархические процедуры Уильяме, Ламберт, 1959 [3]; Ланс, Уильяме, 1967 [5, 33, 34] Фикс, Ходжес, 1951 [5, 33, 102] Мак-Нотон—Смит, 1966 [5, 33, 34] Сокал, Миченер, 1953 [36]; Кинг, 1967 [5, 33, 34] Ланс, Уильяме, 1967 [33]; Уорд, 1963 [5, 33] Миркин, 1976 [61] Торговицкий, 1967, Джар- дайн, Сибсон, 1968 [5] Льюс, 1950, Снит, 1966 [103, с. 112—129] Линг, 1972 [59, с. 83—111] Матула, 1970—1977 [59, с. 83—111] Сокал, Снит, 1963 [34, 61] Ланс, Уильяме — авторы общей формулы (см. 2.2.3) Возможны пересекающиеся кластеры При r=N—1 —ближний сосед; г= 1 — дальний сосед Приведенная схема несколько модифицирована в сторону обобщения
15 16 17 18 19 20 21 22 23 24 25 26 27 Процедура с использованием потенциальных функций Процедуры, учитывающие связи внутри классов Ускоренные структурные процедуры Ускоренные структурные процедуры Быстрый дивизимный комбинационный алгоритм Процедуры, строящие кластеры заданной формы Эвристическое упорядочение матрицы Объединение с учетом меры однородности класса Упорядоченные матрицы по разностям расстояний Упорядочение матрицы с учетом суммы внешних связей Выделение компактных групп последовательным формированием кластера Общая схема упорядочения матрицы расстояний Диагонализация матрицы с автоматическим выделением классов И, М, С К, НЗ То же И, М, П, НЗ Р, ЧМ, СК, 3 То же Ограничения на параметры в B.1) Дорофеюк, 1966, Айзерман, 1966 [32] Жамбю, 1978 [85, с. 134— 137; 135] Брюинош, 1978, Жамбю, 1978—1984 [85, с. 130—137; 135]; Муртаг, 1983 [124]; Бензенкри, 1982 Дэи^ Эдельсб'раннер, 1984 [124Г Чаудари, 1985 [118] Дидэ, Моро, 1984 [123] Алгоритмы типа диагонализации См. 2.2.3.1 Р, ЧМ, К, 3 Р, ЧМ, СК, 3 Р, М, СК, 3 Р, ЧМ, СК, НЗ Р, М, П, НЗ нет k нет = р// — pi-и Чекановский, 1913 [71] Танимото, Роджерс, 1966 [35, 102] Сухотин, 1962 [87] Шайкевич, 1963, [105] Апресян, 1966 [10] Дорофеюк, 1966 [30] Аркадьев, Браверман, [И, с. 106] Опирается на идеи комбинационной группировки Предваряет алг. типа 26 Разницу энтропии классов можно оценить и формально, тогда процедура станет машинной Подход допускает любое к Установлены некоторые свойства разбиения, четко определена компактность Некоторая зависимость от выбора начального объекта имеется В составе алг. «Спектр»
Продолжение 28 29 30 31 32 33 34 35 36 37 38 39 Диагонализация с эвристическим выделением классов по графику связей Диагонализация по ближайшему к классу объекту Приведение матрицы к почти выпуклой форме Построение почти выпуклых матриц методом инверсий Распределение объектов по заранее заданным эталонам Случайные эталоны с порогами (метод масок ш» Сконструированные эталоны с порогами Классификация с одним порогом Классификация с двумя порогами Классификация с двумя порогами (общая процедура) Сгущения в сферах и их стабилизация Метод /г-средних A) Р, ЧМ, СК, НЗ То же Р, ЧМ, НЗ, СК Р, ЧМ, СК, НЗ Р, ЧМ, К, НЗ Р, М, П, 3 р, м, кп, нз Р, М, П, 3 То же Р, М, П, 3 Р, М, К, 3 Аркадьев, Браверман, 1968 [11] Беккер, Лукацкая, 1970 [15] Купер штох, Миркин, 1971 [61] Иванов, 1980 [41], Хьюберт и др., 1982 [130] Эталонные процедуры k, координаты эталонов R R Я, Р Гейнке, 1898 [88] Боннер, 1962 [20, 30] Ивахненко, 1963 [20]; Касей, Наги, 1966 [30] Себестиан, Хиверинен, 1962, Боннер, 1964 [33]; Вальц, Фу, 1965 [30] Себестиан, 1962 [33, 80] Кифер, Вольфовиц, 1952 [5]; Айвазян, Бежаева, 1974 [5, с. 130] Яковец, Уайт, 1961; Себестиан, 1962, Болл, Холл, 1964 [30] Болл, Холл, 1965 [84, 91] В составе ал г. «Спектр», см. [62, с. 270] Можно сочетать с алг. типа 27, 28 То же Развивают алг. 30 См. 2.2.1 Обобщается алг. 37 При /?=р превращается в алг. 35 Пороги предложены в 1952, общая процедура— в 1974, обобщает алг. 36, 37 Предваряет процедуры типа алг. 44 См. обсуждение процедур ^-средних в 2.3
Метод /^-средних B) Метод ^-средних C) JSODATA A)—итеративный самоорганизующийся метод анализа данных ISODATA B) Форэль-1 Максимально удаленные эталоны Максимально удаленные эталоны с порогами Анализ мод с двумя порогами Анализ мод с одним порогом («метод шаров») Классификация в терминах размытых множеств Классификация с двумя порогами и выбором числа классов Обобщенный метод эталонных множеств при известном числе классов Обобщенная процедура эталонных множеств при неизвестном числе классов Метод корреляционных плеяд Вроцлавская таксономия 0) Вроцлавская таксономия B) То же Р, М, КП, 3(ЧМ) Р, М, П, 3 Р, М, КП, 3 Р, М, КП, 3 Р, М, П, 3 То же РП, М, П, 3 Р, ЧМ, П, НЗ Р, М, КП, 3 Р, М, П, 3 Л, а/7, п1,в,Ы R Я, р k, ф, гр, Мак-Кин, 1967 [5, 91] Хартиган, 1975, [131] Болл, Холл, 1965 [33, 84] Бол л, Холл, 1965, 1967 [91] Елкина, Загоруйко, 1966 [ 5, 37] Куперштох, Миркин, 1968 [61, 62] Батчилор, Уилкинс, 1969 [91]; Уишарт, 1969 Уишарт, 1969 [5, 33] Букитинский, Хельвиг, Кролик, Смолук, 1969 [71] Гитман, Левин, 1970 [33, с. 86] Айвазян, 1978 [90] Диде, 1971 [5, с. 105] Айвазян, Бежаева, 1974 [5] Алгоритмы типа разрезания графа Р, М, СК, НЗ Р, М, К, НЗ Р, М, СК, НЗ нет Терентьев, 1925 [88] Флорек, Лукасевич, Перкал, Штейнгауз, Зубзисский, 1951 [71, 5, с. 88] [71, с. 29—30] Расширенный вариант алг. 39 и упрощенный алг. 43 Возможна модификация с заданным k Синтезирует алг. 36 и 45 См. алг. 37 Обобщает алг. 36, 37, 38, 44, 51 Возможны начальные пороги типа d4 КНП связан с алгоритмами типа «Краб» и др. B.2.3)
Продолжение 1 56 57 2 Случайное разрезание графа сходства Методы послойной кластеризации 3 Р, М, П, 3 Р, М, К, 3 4 Q k 5 Нидхем, 1961, Розе, 1964 [58] Матула, 1974—1977 [59, с. 83—111] 6 См. обсуждение в 2.2.3 Сравнить с алг. 13 58 59 60 61 62 63 64 65 66 67 68 Самообучение персептро- на Выделение компактных групп по пороговому значению близости Классификация по главным направлениям изменения множества точек Объединение пороговых областей Анализ мод с переменными порогами Разбиение по ближайшим объектам с порогами Алгоритм «Форэль» обобщенный MACS (многомерная автоматическая стратегия кластеризации) Гибридный метод кластеризации Пересечение пороговых областей («метод взаимного поглощения») Контекстно зависимый метод классификации Прочие и комбинированные алгоритмы Р, М, К, 3 k Розенблатт, 1958 [20]; Глушков, 1964, [20] РП, М, П, 3 d Боннер, 1964 [30] Р, М, К, НЗ Р, М, П, 3 РП, М, П, 3 Р, М, П, НЗ Р, М, КП, 3 Р, М, П, 3 Р, М, К, 3 РП, М, П, НЗ (СК) Р, М, П, НЗ R\, ..., Rt, hi d k, R 6 Наги, Шелтон, 1966 [30, 102] Ружанский, 1965, Харалик, Хелли, 1969 [30, с. 83] Волк, Гордон, Позвонкова, Сиверцев, Соколова, 1974 [34] Плюта, 1974 [71, с. 33] Айвазян, Бежаева, 1974 [5, с. 110] Фон Эйе, Вирсинг, 1978 [126] Хартиган, Вонг, 1979 [154] Дубровский, 1982 [31, с. 81] Гамбаров, Мыльников, 1984—1986 [23, с. 291] Алгоритм малоэффективен См. обсуждение в 3.1 Сравнить с алг. 65 Сравнить с алг. 54 Синтезирует алг. 44 и 54 Порог пояснен в тексте Объединяет методы к- средних и единственной связи Сравнить с алг. 61. Пороги могут выбираться автоматически, тогда — С К Сравнить с алг. 23
2.2.3.1. Иерархические алгоритмы 1. На первом шаге каждый объект считается отдельным кластером. На следующем шаге объединяются два ближайших объекта, которые образуют новый класс, определяются расстояния от этого класса до всех остальных объектов, и размерность матрицы расстояний D сокращается на единицу. На р-м шаге повторяется та же процедура на матрице D{n_p).{n_p> пока все объекты не объединятся в один класс. Если сразу несколько объектов (классов) имеют минимальное расстояние, то возможны две стратегии: выбрать одну случайную пару или объединить сразу все пары. Первый способ является классическим и реализован во всех описанных далее процедурах (иногда его называют восходящей иерархической классификацией [85, с. 124—130, 123]). Второй способ называют методом ближайших соседей (не путать с алг. 2) [123] и используется реже. Общая схема классификации имеет сильно развитую теорию, которая частично изложена в 2.2.4, поэтому описание конкретных алгоритмов, особенно 2—9, 16, 17, 20, сделано кратко, с учетом последующих разъяснений. Результаты работы всех иерархических процедур обычно оформляются в виде так называемой дендрограммы (см. рис. 2.2—2.4): по горизонтали показаны номера объектов, а по вертикали значения межклассовых расстояний р^, при которых произошло объединение двух данных классов. 2. Первый шаг алг. 2—10 совпадает с первым шагом алг. 1. р^ равно расстоянию между двумя ближайшими объектами классов. На дендрограмме виден цепочечный эффект метода: когда незави- • 7 • 2 • з Рис. 2.2. 6 5 4 3 7 8 Рис. 2.3. |6 IS |4 3 2 1 7 Рис. 2.4. 53
симо от общей формы кластера к нему присоединяются ближайшие к границам объекты. 3. piq равно расстоянию между самыми далекими объектами двух классов. На дендрограмме по данным предыдущего примера видно, что результаты двух методов сильно различаются. 4. piq равно расстоянию между центрами тяжести классов (точек со средними значениями всех показателей). 5. piq равно средневзвешенному расстоянию между объектами двух классов. 6. piq равно простому среднему расстоянию между объектами классов. 7. piq равно расстоянию между точками с медианными значениями признаков в классах. 8. Объединение двух классов минимизирует приращение общей дисперсии: —LJL—(xi — xq)T(xi— xq\ где xi — вектор средних значе- nt-f-ri q ний /-го класса. Процедура носит, таким образом, пошагово-оптимальный характер (см. 2.3). 9. piq равно сумме межклассрвых расстояний. 10. р — объединяются кластеры р/ и р^, такие, что р/<?<р, повышается величина порога. КО — все объекты в одном классе. 11. р — объединяются классы S/ и Sq, такие, что Si[)Sq обладает минимальным г-диаметром; КО — все объекты в одном классе. Поясним, r-диаметром множества называется число С, при котором выполняется условие: обязательно найдется такая последовательность пар объектов длиной не больше г—1, что все соседние расстояния в парах будут не больше С. Рассмотрим рис. 2.5: 1-диаметр множества всегда равен максимальному расстоянию, т. е. у нас 6. Чтобы найти 2-диаметр, построим различные цепочки для пар самых удаленных объектов 1—4 и 1—5. Количество промежуточных объектов в цепях не больше одного B—1). Для пары 1—4 строятся цепи: 1) 1—2, 2—4 с расстояниями 2, 4,8; 2) 1—3, 3—4 E,1); 3) 1—5, 5—4 E,2; 4,8). Максимальное из максимальных расстояний в этих цепочках равно 4,8. Для пары 1—5: 1) 1—2, 2—5 B; 4,9); 2) 1—3, 3—5 E; 1,2); 3) 1—4, 4—5 F; 1,3). Здесь максимальное из максимальных расстояний равно 4,9. Другие объекты можно не проверять, так как максимальное расстояние для объекта 2 равно 4,9. Видно, что между любой парой объектов множества можно построить путь длиной в 2 звена или меньше, такой, что расстояние между соседними звеньями будет не больше 4,9. Это и есть 2-диаметр. Аналогично строится 3-диаметр и т. д.т причем /V—1-диаметр равен минимальному расстоянию множества. 54 1 2 3 4 1 - 2 2 - 3 5 4 - 4 6 4,8 Т - 5 5,2 4,9 1,2 1,3
Получается, что г-связующие процедуры на своих «краях» имеют полносвязывающий метод (г—1) и односвязывающий метод (чем и объясняются их названия) и в этом смысле являются более гибкими. Правда, трудоемкость выбора г-диаметра довольно велика, и к тому же приходится как-то фиксировать величину г [ПО]. В рассматриваемом сильном г-связующем методе предполагается, что объединение классов происходит, если их соединяет точно г связей определенной близости (равной г-диаметру) (см. алг. 12). 12. Первый шаг — как в алг. И. Классы объединяются, если имеется не менее г связей между ними. 13. Алгоритмы, обобщающие понятие г-связности за счет пересекающихся классов, особым образом устроенных клик графа и т. д. Здесь не приводятся, но представляют большой интерес. 14. Первый шаг — все объекты считаются одним кластером; задается некоторое определение кластера (см. 2.2.2), т. е. фактически тип порога d++\ принимается di=maxd/y; p — порог принимает такое значение д,р<Л\, что совокупность разделяется не менее чем на р кластеров; КО — каждый объект представляет собой класс. 15. Осуществляется алг. 1, но расстояние между классами определяется с помощью потенциальных функций (см. 2.3). 16. Рассмотренные выше процедуры направлены на определение мер близости классов, которые вычисляются как некоторая функция от собственно межкластерных расстояний. На это и ориентирована общая формула пересчета расстояний Ланса—Уильямса (см. 2.2.4). Однако можно исследовать и другие критерии агрегирования кластеров на каждом шаге, которые уже учитывают и внутренние свойства объединяемых кластеров. Впервые систематически эту идею стал реализовывать М. Жамбю [135], причем в универсальной форме: во-первых, каждому объекту (а стало быть, и классу) были приписаны некоторые «массы» (веса), во-вторых, была обобщена формула Ланса—Уильямса (см. 2.2.4). Это дало возможность применять при объединении критерии минимизации взвешенной и невзвешенной дисперсии в классах, критерий максимизации межклассового разброса в разных формах, а также увязать задачу кластеризации с задачами корреляционного и факторного анализа. Все алгоритмы ориентированы на евклидово пространство (см. подробнее 2,2.4.). 17. В 1978 г. М. Брюиношем было введено важное понятие редуктивности расстояний, которое тесно связано с алгоритмами агломеративной классификации. Свойство редуктивности заключается в том* что некоторая /?-окрестность кластера, полученного объединением двух других кластеров, должна находиться внутри объединения /^окрестностей исходных кластеров. Если это справедливо для любых /?, то можно облегчить процедуру поиска кластеров, объединяемых на каждом шаге, отыскивая их среди кластеров, попавших в /?-окрестности рассмотренных на раннем шаге алгоритма 55
объектов. На рис. 2.6 кластеры 1 и 2 имеют некоторые окрестности (внешний пунктир); в окрестности 2 находится кластер 3. При объединении 1 и 2 получается кластер 1,2, окрестность которого, по свойству редуктивности, находится внутри объединения окрестностей (внутренний пунктир). Следовательно, для присоединения к кластерам 1,2 кластера 3 достаточно просмотреть окрестности классов 1 и 2, а не проверять связь 1,2—4. Поскольку доказано, что при его справедливости прямые классификации и полученные по /?-окрестностям совпадают, это дало основание М. Жамбю построить целый ряд чрезвычайно быстрых процедур, позволяющих обрабатывать тысячи объектов. Но не все меры близости обладают свойством редуктивности, например используемые в алг. 2—9 (см. 2.2.4). На основе свойства редуктивности предложены аналогичные алгоритмы П. Бен- зенкри A982), Ф. Муртагом A983) и др. [124]. Временная трудоемкость этих процедур оценивается в О (п2) против О (п ) обычных иерархических, пространственная— О («) против О(я2). Причем эти оценки справедливы для плохих случаев, а чаще всего времени требуется значительно меньше. В [124] предложена некоторая модификация алгоритма Муртага, позволяющая при пространственных затратах О{п2) обрабатывать данные алг. 5 и 6 табл. 2.3. 18. Предлагается для нахождения ближайшего кластера пользоваться ускоренными процедурами поиска экстремального элемента, имеющими трудоемкость не О{п), a O(\ogn). 19. Гиперкуб, в котором содержатся все точки (определяемый размахами вариации признаков), разбивается на первом шаге по каждой оси перпендикулярной ей плоскостью на 2т «кубика». На i-м шаге каждый из этих кубиков также разбивается, т. е. получается 2т' гиперкуба. Если в полученном кубе есть хоть один объект, он считается заполненным, если нет — пустым. Кластером здесь называется максимально большая связная область, в которой любые два объекта соединены непустыми клетками. По мере увеличения / число кластеров растет, т. е. алгоритм носит дивизимный характер. На рис. 2.7 видно, что при т=2 для /=1 (шаг 1) выделено 221=4 клетки и все объекты попали в один класс (три непустых клетки связаны). При i=2 (шаг 2) выделено 222=16 клеток (пунктир); образуются 3 связные области (кластера); 1,2,5/3,4/6,7,8. Временная трудоемкость О(л), что является рекордом для иерархических алгоритмов. В целом алгоритм выглядит очень привлекательно; установлены полезные свойства разбиений; эксперименты показали способность метода разделять весьма сложные скопления объектов (торы с центром и др.). Метод не требует предвари- Рис 2 б 56
тельной нормировки показателей и расчета расстояний, может работать в исходном пространстве. 20. Рассматриваются способы настройки параметров в обобщенной формуле B.1), позволяющие выделять кластеры разной формы (кольца, звезды, ленты и пр.) (см. подробнее 2.2.4). 2.2.3.2. Процедуры типа упорядочения (диагонализации) матрицы расстояний и последовательного формирования кластеров 21. Все расстояния разбиваются условно на малые, средние и большие. Вручную осуществляется такая перестановка строк и столбцов матрицы, чтобы у диагонали собрались малые и средние расстояния. Выделение классов производится визуально. 22. Шаг 1 — к произвольному объекту присоединяется объект, который обеспечивает малое убывание однородности класса, измеEp=~Y где ряемой энтропией Е\ р — если |D| = 2d/y, резко меняется (?р <c?p-i), то р-й объект начинает новый ч класс; КО — исчерпано все множество объектов (см. алг. 27). 23. Шаг 1 — к произвольному объекту добавляется ближайший; р—к рассмотренному объекту добавляется такой, что разница между суммой расстояний от него до всех оставшихся Np-\ элементов и общим расстоянием до просмотренных объектов максимальна; КО — исчерпаны все объекты. Выделение классов визуально. 24. Шаг 1 — см. алг. 23; р — к рассмотренным объектам добавляется объект такой, что среднее расстояние от класса до всех остальных объектов не уменьшается; КО — исчерпаны все объекты. Выделение классов происходит визуально. 25. Требуется построить разбиение, чтобы каждый класс в нем удовлетворял условию: если (a,, afi^Si, to dt]<idik (когда dk^Si); р — в Si включается dp(ditP-\) = mindij проверяется справедливость определения; если dp не позволяет считать Sp классом, ар начинает новый класс; КО — все объекты в классах. Этот алгоритм отыскивает главное разбиение, т. е. с минимальным числом классов, удовлетворяющих определению. 26. Шаг 1 — выбирается произвольный (первый) объект и отыскивается ближайший к нему; р — выбирается объект, ближайший к рассмотренным р—1 объектам, и присоединяется к ним. В принципе возможны любые способы определения близости объекта к классу; в [30] используется средняя связь; Рис. 2.7. КО — исчерпано множество объектов. 57 3# •5 • 1 • 4 ! I -4 I I 6 | #8
1 2 3 4 5 6 2 3 4 2 3 2 1 2 3 5 ^ п 2 1 2 6 8 9 7 3 2 7 6 7 8 5 7 Др Рис. 2.9. Рис. 2.8. В перестроенной по новым номерам объектов матрице классы выделяются визуально. На рис. 2.8 показаны два варианта выделения классов в упорядоченной матрице. 27. В упорядоченной по алг. 26 матрице (методом средней связи) следят за изменением средней связи объекта с luiajccoM: если для i-то объекта связь резко упала, т. е. p*-i,/—р*/>Др, i-й объект начинает новый класс. Средние связи объектов с предыдущими объектами равны: р;/=2; 2; 2,33; 2,5; 5,8; 6,33. Их разности 2 — 2 = 0; 2,33—2=0,33 и т. д. (рис. 2.9). По резкому изменению разности надо выделять пунктирное разбиение. Если принять порог Др^З, то разбиение—сплошное. 28. Реализуется алг. 27, но строится график изменения средней связи объектов с классом, на котором резкие впадины интерпретируются как границы классов. 29. Осуществляется алг. 26, но в качестве меры близости объекта к классу выбрано его минимальное расстояние до какого- либо объекта класса. 30. Выпуклой называется симметрическая матрица, у которой все элементы (выше диагонали) не убывают с ростом номера по строке. Алгоритмы [61] позволяют построить матрицу, максимально близкую к выпуклой (так как точного решения может не быть), и здесь не приводятся. На «почти выпуклой» матрице выделение классов проводится визуально или автоматически (см. алг. 23, 25). 31. Инверсией расстояния называется модуль разности рангов этого расстояния в исходной матрице (по строке) и в выпуклой матрице (см. алг. 21). Сумма всех инверсий характеризует близость данной матрицы к абсолютно выпуклой матрице и должна быть минимизирована. Предлагается несколько алгоритмов минимизации. В [41] приводится один из них, доставляющий локальный минимум этой суммы. Его основным шагом является перенос в левую часть матрицы столбца с максимальной инверсией. Похожие эвристические процедуры описаны в [130]. 58
2.2.3.3. Процедуры эталонного типа 32. Если в качестве близости к эталону брать какое-либо расстояние и в качестве эталона — сформированный алгоритм, то процедура составной частью войдет во многие излагающиеся ниже схемы расчетов. 33. Выбирается случайным образом k точек, объявляемых центрами классов (сферы должны покрывать все объекты, иначе надо менять k). Каждый объект описывается булевским вектором длиной k (маской): если du<CR, то в векторе стоит 1, если diC^R, то—0. Класс составляют объекты с одинаковыми или наиболее похожими масками. На рис. 2.10 маски объектов для классов с центрами в 2, 5, 7: Mi A, 0, 0), М3 @, 1, 0), М4 @, 1, 0), М6 @, 1, 0), М8 @, 1, 1). Классы: 1, 2/3, 4, 5/6, 7. Объект 8 может попасть в любой из двух классов. 34. Выполняется процедура, близкая к алг. 33, но эталоны выбираются не случайно: либо из некоторых экспериментальных [20], либо из общих качественных [30] соображений. 35. Случайный объект объявляется центром класса; все объекты, для которых рн</?, объявляются кластерами и исключаются из рассмотрения. В оставшемся множестве процедура повторяется; по версии Хиверинена [33] эталонами выбирают не случайные, а некоторые типичные точки. 36. Шаг 1 — случайный объект объявляется центром класса; picii^Si, если pi^J?; если рь>р, щ является центром S2; если R^Pu^py di выбывает из рассмотрения до следующего шага. Затем точка проверяется относительно каждого из двух кластеров и т. д. Центр тяжести пересчитывается как средневзвешенная величина. КО — все точки распределены по классам (см. рис. 2.11). 37. Берется k произвольных_ точек (эталонов). Затем эталоны «огрубляются» по р: если р/^р, классы 5/, Sq заменяются одним классом со средневзвешенными параметрами. Огрубление кончается тем, что для всех /, q p/?>p, при этом k'<M. Затем извлекается точка и сравнивается ее расстояние до ближайшего эталона с R. Если du>Ry точка объявляется новым эталоном, проводится пересчет эталонов и т. д. При хорошем подборе р и R в силу параллельности выбора классов результаты обычно лучше, чем в алг. 35. Рис. 2.10. Рис. 2.11. 59
38. Задается несколько радиусов сфер Ru ..., Rt- Если объект попадает в сферу, ее центр пересчитывается; если нет — объект объявляется новым центром. Процедура повторяется до полного распределения точек и представляет собой расширенный вариант алг. 35 и основу для алг. 44, где иной принцип стабилизации сферы (последовательный). 39. Шаг 1 — случайно выбирается k центров классов, каждый объект присоединяется к ближнему эталону; р-эталоны пересчиты- ваются как центры тяжести классов. После пересчета эталонов объекты снова распределяются по ближайшим классам и т. д. КО — стабилизация процесса, т. е. неизменность центров тяжести .классов. 40. Шаг 1 — выбирается k случайных эталонов; р — точка щ относится к ближайшему классу, центр которого пересчитывается как новый центр тяжести. Следующий объект снова относится к ближайшему классу с пересчетом и т. д. КО — стабилизация центров классов. Само название метод /г-средних, ставшее популярным, предложено Дж. Мак- Кином. Но фактически алг. 39 реализует идею того же метода с другим порядком стабилизации, не последовательного для каждого класса, а параллельного для всех классов. Поэтому мы решили назвать алг. 39 также методом ^-средних. 41. Осуществляется алг. 40, после его окончания происходит перераспределение объектов по центрам (как в алг. 39) таким образом, чтобы сумма квадратов евклидовых расстояний от центров кластеров до входящих в них точек на каждом шаге уменьшалась (т. е. алгоритм приближается к оптимизационному — см. 2.3). Здесь, следовательно, синтезируются два основных процесса стабилизации. 42. Выбирается k случайных центров и объекты распределяются по ближайшим центрам (см^ алг. 39). Затем в каждом классе проверяется для всех /:g?/<g/. Если для одного признака неравенство не выполняется, Si разбивают на два класса; в противном случае Si пытаются объединить с каким-либо классом. Центры классов пересчитываются при изменениях, как в алг. 36, 40. Число классов меняется; КО — при сходимости процесса. Алгоритм привлекает естественностью выбора порога: для дисперсий его легче обосновать, чем для расстояний. 43. Алгоритм является одной из «наиболее эвристических» процедур, что следует из обилия задаваемых параметров. Это может быть и слабой, и сильной стороной метода. В принципе он пригоден для диалогового общения человека с ЭВМ, но реализуется и в машинном варианте. При желании читатель может сам придумать схему кластеризации с данным набором порогов, ориентируясь на алг. 44, 42 и др. Полное описание алгоритма из 14 шагов приведено в [91, с. 112—116]. Упрощенное описание дано в виде схемы, заимствованной из [129, р. 107] с некоторыми изменениями (см. 60
i \ нет Задание числа кластеров, их местоположения, порогов Формирование кластеров по принципу приближения объектов к ближайшим заданным центрам Пересчет центров кластеров \ { Какой-нибудь порог ^ для разделения клас- : у^ сов превышен? J нет да { Какой-нибудь кластер д имеет слишком мало \ ^ членов? ^У нет да [ Какие-нибудь два ^ч класса слишком 1 V близки? ) нет да Г Разбиение А 1 устойчиво? J Рис. 2.12. да Разделение этого класса и перегруппировка 1 Устранение (рассыпание) этого класса и перегруппировка I Объединение этих классов и перегруппировка 1 стоп рис. 2.12). Конкретные особенности (как именно разделять классы, как определять устойчивость и т. д.) могут, видимо, варьироваться. Так, в [129] предлагается вообще отказаться от априорного задания порогов, а рассчитывать их в процессе классификации. Конкретные способы их определения выглядят достаточно спорными и базируются на некоторых достаточно жестких посылках (например, порог для разделения классов зависит от предполагаемого закона распределения в классе и т. д.). В целом надо отметить, что алгоритмы типа ISODATA являются одними из наиболее популярных, особенно у зарубежных исследователей. Фактически, как было видно, существует несколько их версий, в том числе довольно эффективная процедура fuzzy (размытая) — ISODATA [17, 145 и др.]. Подробного описания этих процедур приводить не будем. 44. Случайный объект объявляется центром класса, все объекты, такие, что рп</?, входят в первый класс. В нем определяется центр 61
тяжести, который снова объявляется центром гиперсферы и т. д. до стабилизации сферы. Затем все попавшие в первый класс объекты изымаются и со случайным центром процедура повторяется. Можно делить совокупность и на-заданное число классов, тогда методом последовательных приближений следует менять радиус R — «Фо- рэль-2». Доказана сходимость этой процедуры при любых начальных точках в конечных и бесконечных множествах [18]. Алгоритм весьма популярен; некоторые его модификации с функционалами качества разбиения рассмотрены в 2.5. 45. Отыскиваются два центра классов как самые удаленные друг от друга объекты; 1-й центр определяется как самый удаленный в среднем от имеющихся центров. Объект a^Si, если от всех остальных центров он удален максимально. Здесь использован новый способ распределения объектов по классам — не к ближайшему центру, как обычно, а к самому удаленному от остальных. 46. Первые два центра выбираются, как в алг. 45; пусть это а/, ад. Затем определяются расстояния до центров и делается проверка: max(min<i;,)^p? Если да, щ объявляется новым центром, /, q i(?l,q пока не наберется k центров. Объекты распределяются по ближайшим центрам. 47. Для каждой точки щ формируется класс Si'.a^Su если dji^.R. Для всех Si определяется частость: ?/=-тр Все точки с с?^с объявляются эталонами, и проводится кластеризация одним из эталонных методов (например, fe-средних). Здесь, таким образом, в отличие от алг. 39—41, центрами могут быть не любые объекты, а точки с модальной плотностью окрестностей. Этот прием является весьма эффективным. 48. Для каждой точки определяется мощность класса, образованного радиусом /?, т. е. количество точек пг, таких, что pu^R. Класс с максимальной мощностью убирается из рассмотрения; в оставшейся части множества пересчитываются классы, и процедура повторяется до исчерпания точек. 49. Процедура аналогична алг. 36, только вместо расстояния от центра R используется функция принадлежности объекта к классу \i. Если Щ1^\ау щ включается в S/. После первичного распределения можно использовать любой алгоритм стабилизации (алг. 39, 44 и др.); \х можно вычислять различными способами, например, как в алг. 44. В силу того, что функция принадлежности либо не может быть явно задана, либо, напротив, задается простым образом через расстояния, частости и др., мы не считаем язык теории размытых множеств особенно удобным для теории классификации (как это делается, например, в [34] и др.]. Он универсален так же, как и язык бинарных отношений и «обычных» мер близости объектов, а принципиально новые конструкции с его помощью не получаются. 62
Но с точки зрения интерпретации полученных решений концепция размытых множеств весьма удобна. Если предположить, что Vfi// = 1, то решение задачи классификации можно представить в форме таблицы (рис. 2.13). По ней удобно оценить действительное распределение объектов по классам, используя те же посылки, что при рассмотрении матрицы факторных или компонентных нагрузок. Подчеркнуты числа (значения \iu, умноженные на 10), близкие к 10; они определяют довольно четкие классы 3, 4, 8/1, 6, 8/ 5, 10. Объект 2 в равной мере принадлежит классам 2 и 3; объект 7 близок ко всем 3 классам. Такое представление позволяет углубить анализ. Такая же матрица может быть получена, если отнормировать расстояния каждого объекта до всех кластеров (см. 3.4). 50. Реализуется алг. 37, но не до стабилизации разбиения, а до получения «естественного» числа классов. Это достигается варьированием порогов R и р; при некоторых их значениях число классов, которое убывает при росте R и снижении р, становится стабильным для целого спектра значений параметров. Представляет собой типичный пример сложно организованной процедуры, носящей в себе черты имитационного эксперимента. На основании перечисленных в табл. 2.3 алгоритмов можно придумать немало подобных процедур. 51. Произвольным образом (случайно, экспертным путем или алгоритмически) выбирается некоторая система эталонных множеств ??,..., El. Каждое из них превращается в класс по принципу максимальной типичности точек; в частности, при ф=/?, если объекты 1 2 3 4 5 6 7 8 9 10 классы 9 0 9 8 2 1 3 8 2 2 Рис. 2.13. 2 0 5 1 1 1 9 3 2 7 0 3 1 5 0 1 7 0 4 0 1 8 Рис. 2.14 63
то di^Si. Затем строится такая система эталонов, чтобы минимизировать нетипичность классов г|? при заданных их численнос- тях я/ (например, разделяют непохожие эталоны). Затем снова следят за ф и т. д. вплоть до устойчивых классов. В [5] подробно описаны условия сходимости алгоритмов такого типа. 52. Подробного описания процедуры проводить не будем; это сделано в [5, с. 105—106]. Как видно из используемых параметров, общая схема базируется на основных идеях эталонных алгоритмов, восходящих к алг. 36, 37, 39 и др. Оказывается, алгоритмы такого типа могут быть широко использованы и для оптимизационных постановок (см. 2.3). 2.2.3.4. Алгоритмы типа разрезания графа 53. Из полносвязного графа размерностью NXN удаляются последовательно дуги с самыми большими расстояниями до тех пор, пока граф не распадается на несколько несвязанных подграфов. Фактически в [88] дуги убирались по некоторым пороговым величинам, полученным из анализа гистограммы расстояний,—отбрасывались расстояния, большие или равные межклассовым; если изолированных групп не появлялось — снижалась пороговая величина и процедура повторялась. Гистограмма расстояний при хорошей структурированности имеет вид, приведенный на рис. 2.15, где А — межкластерные расстояния, В — внутрикластерные, так что пороговое значение d обычно можно нащупать. Вообще такое графическое представление данных очень полезно и в смысле интерпретации (см. 3.4), и в теоретическом аспекте (см. о распределении расстояний 1.1). 54. Строится кратчайший незамкнутый путь (КНП) (иногда его называют оптимальным деревом или дендритом [71], минимальным покрывающим деревом [32, с. 260] и др.) следующим образом. Соединяются ребром две ближайшие точки, затем отыскивается точка, ближайшая к любой из уже рассмотренных точек, и соединяется с ней и т. д. до исчерпания всех точек. Такой способ объединения повторяет метод ближайшего соседа. Процедура аналогична алг. 29, но там она начинается с произвольной точки, Рис. 2.15. / ,¦ Рис. 2.16. 64
а не с пары ближайших точек. В найденном КНП отбрасывают k—1 самых длинных дуг и получают k классов. На рис. 2.16 d\> >^2>^з; следовательно, при k = 2 надо разрезать дугу длиной d\, при k = 4 — дуги с длинами d\— d3. Метод позволяет выделять кластеры произвольной формы. 55. Строится КНП, все его дуги упорядочиваются по длине: d\>d2..-, затем определяются g2=-A ..., gN_l = -^L. Если &2 dfi — | gk<Cgk+i, выделяются алг. 54 k классов; если таких случаев несколько, выбирается наименьшее k. Такая эвристика не всегда является удачной. Можно предложить другие: например, каждой дуге сопоставить максимальный из прилагающих к ней отрезков и разрезать граф там, где это отношение больше единицы, а у соседних ребер — меньше. 56. Из полного графа сходства случайным образом производится выборка вершин, между которыми строится КНП (см. алг. 54). Запоминаются все его звенья и частоты их повторяемости. Звенья с частотами, большими Q, рассматриваются как межклассовые и отбрасываются, т. е. происходит разрезание графа. Процедура основана на том факте, что межклассовых расстояний всегда —- П,(П,— 1\ больше, чем внутриклассовых: если последних У—^—L, то первых ТТntn . Поэтому наиболее часто попадающиеся звенья и Д."" можно интерпретировать как межклассовые, не обращая внимания на их длину. Алгоритм является первой процедурой «случайной кластеризации», перспективной для больших массивов данных (см. 2.2.3). 57. См. алг. 13 и [59]. 2.2.3.5. Прочие и комбинированные алгоритмы 58. Поскольку теория персептронов широко известна [20, 32 и др.], мы не будем описывать сам алгоритм, а укажем лишь на его идею. Персептрон представляет собой устройство порогового типа, предназначенное для перевода входных объектов в классы образов. Это осуществляется настройкой коэффициентов разделяющей функции в процессе обучения. Если же обучения нет, то для самообучения надо задать какие-то начальные значения порогов, которые потом пересчитываются. Но это, как выяснилось, приводит в большинстве случаев к неустойчивым классификациям либо к устойчивым, но тривиальным (типа попадания всех объектов в один класс). Видимо, дело в трудности правильного задания весов, ибо оно фактически предполагает знание структуры обрабатываемых данных. 3 Зак. 1115 65
59. Шаг 1 — все расстояния в матрице заменяются на нули и единицы (d'ij=\y если dij^ld равно нулю в обратном случае); у) р — выделяются все компактные группы, такие, что все расстояния внутри них единичны, а вне их—нулевые. Это может осуществляться подбором объектов друг к другу с проверкой условий (как у алг. 25—30). Классы могут пересекаться. Затем удаляется самый большой класс, изменяются остальные, удаляется следующий и т. д. до исчерпания множества. Фактически это можно назвать «методом масок» (см. алг. 33). 60. Осуществляется некоторая рекуррентная процедура пересчета коэффициентов разделяющих плоскостей, которая сводится к определению первых собственных чисел матрицы ковариаций и их собственных векторов. Классификация сначала проходит по ортогональной плоскости, задаваемой 2-й компонентой. Такое разделение может дать не только хорошие (см. А на рис. 2.17), но и далекие от истины результаты В и С. В принципе процедура напоминает лингвистический анализ (см. 1.1) в его упрощенном варианте. Вопросы использования компонентного анализа в задаче классификации рассмотрены в 3.1. 61. Каждый объект формирует свой первичный класс по принципу: ai^Sl если pi/<R. Пусть al — центр 1-го класса Si. Тогда класс Si формируется из всех таких точек, которые включены в Si, а также если a,eSi, то Si = US/. Класс Si на рис. 2.18 состоит из объектов 1, 2, 3, а класс Si включает еще объекты 4, 5, поскольку они попали в /?-окрестности точек 2 и 3, входящих в Si. Можно задавать несколько центров, удалять точки последовательно и т. д. Алгоритмы интересно сравнить с алг. 65, где осуществляется не объединение, а пересечение пороговых областей. 62. Выбирается максимальный радиус /?i, при котором существует хотя бы один кластер мощностью п^пи Этот самый плотный кластер удаляется, пороговое значение увеличивается, затем отыскивается менее плотный кластер и удаляется и т. д. Можно менять и л/ на каждом шаге. Рис. 2.17. Рис. 2.18. 66
Рис. 2.19. 63. Шаг 1 — находится ближайшая пара объектов, и с^нее начинается формирование первого класса: a/^Si, если dtj^d. При этом следят за другими условиями: чтобы ближайший к включенному в Si объекту а, объект aj^Si был не ближе к Sj, чем а. Таким образом получают классы, в которых диаметр меньше dy а расстояние между классами не меньше d\. 64. При заданном /?, желательно небольшом, находят по алг. 44 k'>k классов. Их центры соединяют КНП (см. алг. 54), из которого удаляется k—\ максимальных вершин и получают к классов. Классы получаются более сложной формы, чем гиперсферы (рис. 2.19). Здесь важна идея двухэтапности классификации: сначала выделить заведомо компактные маленькие группы, затем произвести их разбиение. Так можно успешно классифицировать весьма большие массивы информации (см. 4.3). 65. Кластерами считаются некоторые скопления точек в сферах определенной формы, а именно — кубоидах (параллелепипедах) и эллипсоидах (ограничимся рассмотрением кубоидов, так как результаты идентичны). Начальные размеры кубоида по каждой оси определяются формально как некоторые доверительные интервалы S/. Затем центр первого кубоида помещается в случайную точку либо в заранее определенное место. Определяется геометрический центр тяжести точек, попавших в данный объем, и если разница между ним и первоначальным центром меньше некоторого порога (например, S//10 по каждой оси [126]), первоначальный центр сдвигается, делается пересчет и т. д. Доказано, что процесс поиска окончательного места для кластера сходится (для двух форм кластеров). Затем этот кластер исключается из рассмотрения и процесс повторяется. После размещения всех кластеров задается еще один порог б (снова как функция от Sj), с помощью которого выделяются зоны высокой плотности. Первая часть алгоритма, как видно, весьма напоминает «Форэль» (см. алг. 44, 64) с той разницей, что перемещение объемов идет «скачками», в соответствии с порогами. Выбор порога здесь весьма условен (например, связан с доверительной вероятностью), но привлекательна идея работы с отдельными осями пространства, без использования расстояний, чем метод похож на алг. 19. Можно найти, видимо, другие эвристические приемы, реализующие перемещение объемов в ирходном пространстве. 67
66. В [154] изложение имеет сильную вероятностную окраску, так как опирается на результаты автора в этой области. В частности, важную роль в данном алгоритме играют функции плотности в классах, мы же остановимся только на идейной стороне метода, рассматривая расстояния в общем виде. На первом шаге методом ^-средних отыскивают кластеры таким образом, чтобы сумма квадратов внутрикластерных отклонений от средних не уменьшалась перемещением объекта из класса в класс (алг. 41). Затем определяют наличие ближайших соседей (среди классов) так: 2 класса называются ближайшими соседями, если среднее значение их объединения ближе к одному из классов, чем .к любому из других кластерных средних. Очевидно, число таких соседей может оказаться существенно меньше, чем число всех пар k2. Строится матрица расстояний, в которой конечные расстояния ставятся только между соседями, а для других пар d;/=oo. К этой матрице применяется метод единственной связи (алг. 2). Самое интересное здесь — элиминация больших расстояний. В [154] эта идея особенно не эксплуатируется, так как внимание уделяется в основном вероятностной проблематике, но с вычислительной точки зрения она представляется привлекательной и скорее всего может служить основой для создания быстрых процедур. 67. Для каждого объекта задан /?,, который определяет гиперсферу. Областью взаимного поглощения называется такое пересечение гиперсфер, при котором их центры также находятся в этом пересечении. Все объекты в областях поглощения составляют классы. На рис. 2.20 заштрихованы области поглощения: ||| — 2, 3; III — 2, 1; =—5, 6. Эти группы объектов и составляют классы, причем, как видно, объект 3 попадает сразу в 2 класса, а объект 4 не попадает никуда. При Ri= const для всех i алгоритм превращается в процедуру типа [35]. Рекомендации выбора Ri носят эвристический характер как среднее расстояние данного объекта до всех остальных или, в общем случае, как некий настроечный параметр. Могут быть сильные пересечения классов. 68. У каждого объекта упорядочиваются все расстояния от него до других объектов; затем вводится на этих порядках некая новая мера близости объектов, например, коэффициент ранговой корреляции, после чего данные обрабатываются какими-либо алгоритмами. Вариант: для каждого объекта отыскивается а ближайших к нему, после чего между этими векторами определяется мера близости (по Хеммингу и пр. [21]), либо класс формируется из рИс. 2.2Q. 68
тех объектов, которые пересекаются в е-окрестностях (это похоже на алг. 67). В целом меры такого типа (часто используемые в многомерном шкалировании) весьма интересны, так как позволяют вскрыть более точно топологию пространства (см. 1.2), но изучены они недостаточно. 2.2.4. ОБСУЖДЕНИЕ ОСНОВНЫХ ТИПОВ ПРОЦЕДУР Иерархические алгоритмы. Как можно было заметить, почти все иерархические алгоритмы (особенно агломеративные) отличаются друг от друга фактически только методом расчета расстояний между классами. Оказывается, многие способы пересчета можно задать по единой формуле с изменяющимися значениями параметров, предложенной Г. Лансом и У. Уильямсом [5, 33, 34 и др.] и обобщенной М. Жамбю [135; 85, с. 124—137]. Формула имеет вид: где S1US2 — класс, полученный объединением двух классов на предыдущей итерации и объединяемый на данной итерации с S, ^а,в — расстояние между множествами А и В; fA — расстояние, при котором произошло образование кластера А (т. е. его уровень на дендрограмме); а\— а? — коэффициенты, с помощью которых можно вести рекурсивный подсчет расстояний между кластерами на любом уровне. В формуле Ланса—Уильямса а*—а§ отсутствуют. Значения а\—а7 определяют различные функции расстояния между классами или величины, подобные расстояниям, которые имеет смысл минимизировать на каждом шаге алгоритма. В табл. 2.4, составленной на основе [123, 124, 137], приведены основные варианты значений параметров, которые определяют соответствующие алгоритмы. При анализе дендрограмм естественно считать, что объединение объектов на позднем шаге алгоритма осуществляется при более высоком значении расстояния, чем на раннем шаге, т. е. соблюдается монотонность. Однако в некоторых алгоритмах появляется немонотонность, что затрудняет анализ. Внимание исследователей привлекла задача: при каких значениях а\—а7 (ранее п\—аз, пт) монотонность не будет нарушаться, т. е. в дереве не будет инверсий. Решения ее В. Коппом [137], Г. Миллиганом, В. Батажеличем [115] были обобщены в 1984 г. Е. Диде и В. Моро в [123]. Показано, что инверсии отсутствуют, если справедливы неравенства: —min(ab a2); ai+a2>0, l; а,>0, /=4, 5, 6. B.2) В частности, для алгоритмов «медиана» и «центроид» третье условие не выполнено, т. е. эти алгоритмы могут давать немонотонные деревья. 69
Таблица 2.4. Расчет расстояний между кластерами в иерархических агломеративных процедурах1 Номер ритма2 1 2 3 4 5 6 7 8 Название алгоритма Общая процедура Ближний сосед Дальний сосед Центроид Средняя взвешенная связь Средняя невзвешенная связь Медиана Уорда Формула расстояния ds, s, us2 min d.n /e5, j&S i\JS0 max d^, iGxSt /^SjUS2 1 V d т 2 da ld(Me, MeJ) PPl2 2. . a, 1/2 1/2 Я, Я|+Я2 1/2 1/2 Pt+P T Коэффициенты а a, О-,)/» 1/2 1/2 P Г} 1 П 1/2 1/2 r аз <1 0 0 -PXP2 о 0 -1/4 p / в B. a4 0 0 0 0 о 0 0 0 1) as 0 0 0 о 0 0 0 0 a6 0 0 0 о о 0 0 0 0 -1/2 1/2 о о 0 0 0
10 11 12 13 Агломеративное объедине- Остаточная инерция Остаточная дисперсия Показатель взвешенного увеличения дисперсии Показатели, определенные в процессе обучения [123] d..t /eS, f/T JE,5,US2) Удовлетворяют условиям отсутствия инверсий B.2) * ( Р+Р<\2( Р + Р2\*{ Pl + P2\2 Р2 Р\ Р2 . \~Т~) \~f—)\~T~) ^j2--T2-yr о 0,59 0,54 0,59 0,54 г* -0,1 —0,18 0 0 0 0 0 0 -0,54 0,54 1 Обозначения: Xf — точка средних значений признаков множества, /, х — среднее значение класса S; п, п\, п?. — численности классов S, Si, Si\ P, Pi, Рг — суммы весов в тех же классах: Р—2 р, и т. д.; Г=Р-)-Р|-j-Рг; если веса у точек отсут- ствуют—P=/i; Me — точка медианных значений признаков; а2 — дисперсия множества f; для показателей 8, 10, 11 используются только евклидовы расстояния, для других — любые. 2 Номера алг. 1—9 в табл. 2.4 соответствуют номерам алгоритмов в табл. 2.3; номера 10—12 — критериям алг. 16, номер 13 — алг. 20.
Наличие условий B.2) позволило авторам [123] сформулировать интересную постановку задачи классификации. Пусть имеются некоторые иерархии или разбиения с известными межклассовыми расстояниями. В [123] для этой цели предлагается брать некоторые искусственные данные, в которых отражены предполагаемые свойства реального разбиения (например, наличие вытянутых кластеров и т. д.). Тогда B.1) можно рассматривать как некоторое уравнение регрессии, в котором щ—щ неизвестны, а остальные величины даны по обучающей выборке. Неравенство B.2) следует рассматривать как ограничения и решать соответствующую регрессионную задачу с ограничениями (см., например, методы решения в [3, т. 2]). Найденные оптимальные значения параметров используются в классификации «большого» массива. Конечно, здесь возникает ряд вопро- * сов, связанных с формированием обучающей выборки, но в целом идея частичного обучения выглядит многообещающей. В табл. 2.4 (алг. 13) приведены расчетные значения, полученные при двух обучающих примерах: первая строка — два плотных кластера с соединяющей цепочкой, вторая — два плоских параллельных кластера с цепочкой. По этим значениям параметров успешно распознались семь (из 11) остальных фигур в [123] (полуторы с центром, вложенные полукольца и т. д.). Поскольку этот результат наилучший, параметры можно использовать непосредственно в других расчетах. Данные первой строки напоминают по результатам значения, полученные методом ближнего соседа, второй — дальнего. Особый интерес представляют алг. 10—12. Их показатели удовлетворяют условию редуктивности (алг. 16) и используются в быстрых процедурах. В [85, с. 130—137] М. Жамбю названы еще несколько показателей такого типа, а Е. Диде приводит особые требования, при которых расстояния в B.1) удовлетворяют этому условию (неравенства несколько отличны от B.2)). Так что в целом можно сказать, что вопрос о быстрых иерархических процедурах теоретически решен достаточно полно. Что касается практики, то обычные алгоритмы требуют О (я3) объема памяти, а редуктивные сокращают эти параметры на порядок. Так, в [135] приводится пример обработки 5000 объектов за 7 мин. на IBM-370. Другой путь ускорения процедур заключается не в полной кластеризации всего набора объектов, а в случайной классификации некоторых выборок исходных данных с тем, чтобы общие свойства разбиения с определенной вероятностью гарантировались для всего множества. Разные схемы такого рода описаны в [113, 136] и обобщены О. Матулой [59, с. 83—111] (см. также [65] и алг. 51). Очень быстрый алгоритм со скоростью O(logn) описан1; он тоже опирается на предварительное обучение, как и схемы вычислений в [123]. Вообще процедуры с частичным обучением представля- 1 Muclet L., Dabouz M. Approximate fast nearest—neigbour recognition// Pat. recogn. letters.—1983.—V. 1.—p. 277—285. 72
jot собой промежуточное звено между «чистой кластеризацией» и классическим методом распознавания образов (см. также [145] и Fas в 2.3). Точный ответ на вопрос о сферах применимости того или иного метода отсутствует. Общепризнано, что метод ближнего соседа имеет тенденцию к выделению цепочечно расположенных кластеров (см. рис. 2.2); метод дальнего соседа может на раннем этапе объединить довольно несхожие группы. В силу этих крайностей часто подчеркивают преимущество «умеренных» г-связывающих процедур [84, с. 112—128], но вопрос о выборе «хорошего» г остается открытым. У советских исследователей г-связывающие методы пока практически не нашли применения, хотя «обычные» алгоритмы используются широко ([5, 34, 47, 74 и др.], см. 4.2). В целом по иерархическим процедурам накоплена чрезвычайно богатая литература, что связано, видимо, с четкостью, изяществом и математической строгостью конструкций, позволяющих использовать развитой аппарат теории графов, ранговой статистики и т. д. для анализа алгоритмов. С точки зрения экспериментального сравнения этим алгоритмам также повезло — именно они чаще всего используются в искусственных полигонах (см. 2.4). Существенно то, что многие методы при своей внешней «непосредственности» на самом деле доставляют локальный экстремум какому-либо критерию (алг. 8, 16 и др., см. 2.3), так что они вполне вписываются и в рамки оптимизационного подхода. Важным достоинством иерархических алгоритмов является наглядность результатов работы, позволяющая тщательно изучить дендрограмму и сделать по ней выводы, причем желательно сравнивать несколько дендрограмм, полученных разными методами. Примеры использования алгоритмов даны в 4.3, 4.4. Алгоритмы типа диагонализации матрицы расстояний. Оговоримся сразу, что под термином «диагонализация» мы понимаем такую перестановку строк и столбцов матрицы расстояний, при которой по диагонали располагаются блоки малых расстояний. В широком смысле [16] предполагается у полученной упорядоченной матрицы наличие некоторых экстремальных свойств. В поисковых задачах алгоритмы типа 21—29 для небольшого числа объектов (не более 50—70) представляются нам самыми удобными процедурами кластерного анализа. Если считать, что вся информация о структуре множества в многомерном пространстве содержится в матрице расстояний, то диагонализация перестраивает матрицу так, что суждение о структуре становится наиболее обоснованным. Не случайно алгоритмы в своем большинстве реализуют принцип свободной классификации и являются человеко-машинными. При анализе упорядоченной матрицы человеку представляется возможность принимать любое решение, связанное с классификацией: варьировать границы классов, следить на качественном уровне за изменением состава классов, решать вопрос о пороговой величине. Можно 73
считать все расстояния в классе не превышающими некоторого числа либо включать в класс такой объект, что его расстояние до одного-двух объектов класса больше порога, но это не меняет сути кластера. Такие операции трудно формализовать, а для конкретного случая и невозможно. Наконец, если в дополнение к упорядоченной матрице ЭВМ выдает функцию степени близости объектов к классу типа описанной в алг. 28, это еще более облегчает принятие правильного решения. Если в иерархических процедурах можно наблюдать лишь часть связей между объектами, то в упорядоченных матрицах — все связи. Это дает возможность быстрой проверки любой гипотезы о 'правомерности переноса объекта из класса в класс, объединения классов (следя за блоками межклассовых расстояний). Хорошо виден характер пересечения классов: общие объекты искажают блочную структуру матрицы. Решение об их классификации можно принять на качественном уровне либо воспользоваться дополнительными расчетами. Вопрос о зависимости результатов работы алгоритмов от порядка просмотра точек является не вполне ясным. Все алгоритмы начинают работу с произвольно взятого объекта, и дальше идет упорядочение остальных объектов. В принципе зависимость от выбора начального объекта есть, но, как показали наши эксперименты, очень слабая. Можно всегда начинать процесс, например, с пары наиболее близких объектов. Во всяком случае утверждение в [15] о полной независимости алгоритма от начала работы не вполне верно. Но на конечный результат, действительно, первая точка практически не влияет: в силу удобства человеко-машинных операций, описанных выше, любые сдвиги в матрице легко поправляются. Алгоритмы трудоемки, как и иерархические процедуры, поэтому для больших матриц использоваться не могут. Более того, если на иерархическом дереве, например, из 150 объектов еще можно выделить визуально классы, то упорядоченная матрица такого размера практически не поддается восприятию. Но именно в экономике, где число объектов редко превосходит сотню, такой анализ наиболее пригоден. Конечно, если требуется решать не исследовательскую, а производственную задачу с частой повторяемостью и невозможностью участия человека, надо использовать другие алгоритмы. Но даже и их результаты рекомендуется получать не в форме простого распределения объектов, по классам, а в виде блочной матрицы (см. табл. 5.1). Примеры использования алгоритмов диагонализации даны в 3.3, 4.3, 4.4. Эталонные алгоритмы. В настоящее время процедуры эталонного типа наиболее универсальны для решения задач классификации. Это связано со следующими обстоятельствами: алгоритмы быстры 74
л удобны в вычислительном отношении; позволяют добиться локальных экстремумов некоторых показателей качества и наилучшим образом реализовать представления о качестве классификации, используя параметры- разных типов. Для проведения эталонной классификации надо принять три решения: обосновать тип задаваемых параметров и их конкретные значения (начальные или конечные); выбрать способ первичного задания эталонных множеств; найти способ корректировки классов и стабилизации в целом. Эталонные процедуры, если рассматривать их независимо, могут в комбинациях образовать большое число алгоритмов, превышающее количество описанных в табл. 2.3. Вопросы, связанные с заданием параметров, обсуждаются в-З^У.^ Н Выбор начальных условий очень важен для работы всех эталонных процедур. В принципе они сходятся при любых условиях, но приводят к различным результатам (см. 2.4). Поэтому ряд процедур представляет собой не способы классификации, а приемы выбора эталонов (см. алг. 45—48, 63). Основных способов пересчета эталонов и получения классификации четыре: прямое распределение объектов по классам без стабилизации процесса (алг. 33); параллельное распределение объектов по всем эталонным множествам {алг. 39); последовательное распределение объектов одного класса (алг. 40); последовательно-параллельное распределение объектов и стабилизация процесса (алг. 41). Последний способ, как «самый итерирующий», предпочтителен в смысле минимизации возможности случайных возмущений. Если его соединить с различными из перечисленных способов, можно получить целый спектр новых алгоритмов. Процедуры эталонного типа вполне пригодны для обработки больших массивов информации и вызывают в последнее время пристальный интерес специалистов [29, 129 и др.]. Обсуждение возникающих вопросов тесно связано с оптимизационным направлением в классификации и будет частично предпринято в 2.3. Алгоритмы типа разрезания графа. Процедуры в своем большинстве трудоемкие, для больших массивов малопригодные (за исключением способов случайного разрезания (алг. 56); обсуждение см. в разделе об иерархических процедурах [59]). Эти •алгоритмы обладают двумя свойствами: возможностью визуализации и выделения кластеров сложной, в том числе невыпуклой, формы. В целом проблематика разрезания графа в смысле некоторых оптимизационных требований является специфическим направлением теории графов и выходит за рамки книги. Некоторые интересные приложения к задаче классификации обсуждаются в [26, 59 и др.]. Прочие процедуры кластер-анализа достаточно подробно рассмотрены в тексте. В заключение отметим следующее: все алгоритмы, кроме 16 (см. также табл. 2.4), рассматривают объекты как единичные, 75
невзвешенные точки. В алг. 16 вводятся «массы» точек, но скорее из формальных соображений общности. Однако проблема взвешивания объектов в статистике, особенно экономической, весьма актуальна. Практически все средние величины относительных показателей (производительности труда и пр.) определяются как взвешенные, причем весами выступают некоторые абсолютные показатели (численность, объем продукции и др.), т. е. веса имеют совершенно ясный экономический смысл, который полезно учитывать при классификации. Но как определить веса у объектов в многомерной ситуации, когда по каждому из показателей они имеют разное значение? Задача определения оптимальной системы взвешивания при 'многих показателях с целью сохранения наилучшим образом при многомерных расчетах (корреляция и т. д.) важнейших одномерных характеристик — средней дисперсии — обсуждалась ранее1. В качестве решения предлагалось усреднить удельные веса показателей на объекте. Поставим задачу более точно: если все показатели измерены в шкале отношений, то критерий качества имеет вид: минимизировать сумму относительных отклонений истинных средних от оптимально взвешенной при ограничении на сумму весов (равной 1). Методом множителей Лагранжа получаем систему из п уравнений, решение которой даст оптимальные веса. Классификация с учетом весов существенно повысит экономическую обоснованность расчетов; скажем, крупные заводы сразу будут задавать центры кластеризации, что экономически оправдано. 2.3. АЛГОРИТМЫ ОПТИМИЗАЦИИ И АППРОКСИМАЦИИ 2.3.1. РАЗВИТИЕ ИДЕЙ Рассмотрим точные методы решения задачи кластеризации. Точность здесь понимается лишь в одном смысле: исследователь считает, что ему удается свои представления о классификации выразить не в терминах некоторых желательных свойств кластеров, совокупности в целом или самого процесса построения групп, как это делается в 2.2, а в виде задания определенной функции, экстремум которой на множестве разбиений удовлетворяет его суждению о хорошем качестве разбиения. Если попытки непосредственно решать задачу классификации формальными методами восходят к началу нашего века, то точные постановки появились в 50-х годах. Статья Т. Далениуса «Проблема оптимальной стратификации» вышла в 1951 г. и" содержала формулировку критерия минимизации внутрикластерной дисперсии и алгоритм (типа /г-средних) поиска оптимального решения (см [131, р. 106]). Авторы алгоритма «вроцлавской таксономии» A951) также говорили о поиске такого разрезания КНП, чтобы сумма внутрикластерных ребер была минимальной (см. алг. 54 в табл. 2.3). Итеративное перераспределение объектов Р. Торндайка A953) означало оптимизацию внутриклассового разброса [29]. Эти работы, однако, не имели особого резонанса. В статье Дж. Уорда A963) 1 Манде ль И. Д. Взвешенные средние и корреляции//Вестник статистики.— 1986.—№ 7.—С. 53—58. 76
фактически излагался оптимизационный иерархический алгоритм (алг. 8 в табл. 2.3), но акцентировка внимания на оптимальности каждого шага, а не разбиения в целом ставит эту часто цитируемую работу несколько в сторону от «чисто оптимизационного» направления. В 1965 г. вышла статья М. И. Шлезингера [106], в которой впервые точно сформулирована статистическая и оптимизационная задача обучения без учителя и предложен функционал качества классификации весьма общего вида. Эти идеи, судя по всему, «носились в воздухе»: в 1965—1967 гг. появляется большое количество работ, в которых фактически закладываются основы важнейших теоретических конструкций распознавания вообще, распознавания без учителя — в частности. Для задачи кластеризации здесь наиболее важны два направления: теория потенциальных функций, развиваемая в трудах М. А. Айзермана, А. Г. Аркадьева, Э. М. Бравермана, А. А. Дорофеюка, И. Б. Мучника, Л. И. Розоноэра и др. [6, П], и теория стохастической аппроксимации в задачах распознавания, разрабатываемая Г. К. Кельмансом, Я. 3. Цыпкиным и др. [104]. Кроме общих критериев качества, в этих и других работах предлагались достаточно универсальные алгоритмы оптимизации, не потерявшие своего значения и по сегодняшний день. В последующие годы шло интенсивное развитие обеих сторон проблемы: разработка новых функционалов качества и новых алгоритмов их оптимизации. Получили распространение естественные в статистическом отношении критерии X. Фридмана и Дж. Рубина [32]; В. Н. Елкиной и Н. Г. Загоруйко был построен функционал, в котором авторы старались максимально учесть представления о качестве классификации [37]; в работах Е. Руспини, У. Райта и др. разрабатывались критерии качества для нечетких постановок оптимизационных задач кластеризации [34, 84, с. 208—247]; А. Н. Колмогоровым предложена весьма общая схема формирования критериев качества [5]. Во второй половине 70-х годов получили известность работы Е. Рольфа, Ф. Бейкера и Дж. Хьюберта, Г. Миллига- на по формированию критериев, ориентированных на некоторые корреляционные свойства разбиений; критерии для размытых множеств Дж. Беждека и Дж. Данна [39]; схемы оптимизации Э. Диде [29], М. Жамбю [135]; исследования В. Л. Ку- перштоха, Б. Г. Миркина, В. А. Трофимова и др. по качественному факторному анализу, приводящему к теоретически обоснованным критериям классификации (см. 2.3.4), и другие исследования, частично отраженные ниже. В последний период результаты общего характера получены В. В. Бауманом и А. А. Доро- феюком в [14], где предлагается алгоритм оптимизации функционала универсального вида и др. 2.3.2. КРИТЕРИИ КАЧЕСТВА КЛАССИФИКАЦИИ Практически во всех упомянутых и других работах приводятся не только сами критерии качества, но и соответствующие им алгоритмы, гарантирующие обычно локальный экстремум функционала.. Имеется и небольшое число точных методов решения задачи классификации, где обеспечивается глобальный экстремум. Методически удобнее разделить изложение материала на две части, хотя в оригинальных работах, они обычно сливаются: сначала рассказать о критериях качества классификации, а затем об алгоритмах их оптимизации. В табл. 2.5 приведено краткое описание отобранных нами функционалов, которые разбираются далее по тексту. Описание критериев качества классификации (дано в соответствии с табл. 2.5. Обозначения см. в табл. 2.2) 1. Критерий минимизации внутриклассовой дисперсии — один из наиболее распространенных в кластерном анализе. С одной сто- 77
Таблица 2.5. Функционалы качества классификации Номер ционала 1 1 2 3 4 5 6 Минимизируемый функционал качества 2 k m ".-2 2-?/- общая внутриклассовая дисперсия по всем признакам '.-2 < ~ i = i сумма внутриклассовых ребер, входящих в КНП k /=! SlSl общие потери '«-2 2 (*.-*>J - 1=1 Jt(E5, отклонения от центров классов '5=2 2 dl- /=1 /,/eS, квадраты внутриклассовых расстояний '.-B -«) /B nf) - средние внутриклассовые расстояния Задаваемые параметры 3 к k k, вид функции потерь к к k Авторы, год публикации, источники 4 Далениус, 1961 [131, р. 106]; Мак-Кин, 1967 [131, р. 106]; Дженсен, 1969 [33] Флорек и др. (см. алг. 54 в табл. 2.3), 1951 [71] Шлезингер, 1965 [106] Шлезингер, 1965 [106] Браверман, 1966 [20, 30] Дорофеюк, 1966 [5, 30] Примечание 5 Дженсен — автор алгоритма точной минимизации Имеет весьма универсальный характер Частный случай /% см. /^о Предложен для потенциальных функций, но в принципе любое di, То же
10 11 12 13 14 средние межклассовые расстояния выделение компактных удаленных групп общие расходы (потери) сумма квадратов расстояний до центров классов (или сумма расстояний) F\\——\T\/(W)— отношение определителей матриц общего и внутригруппового разброса Fl2 = \W\— определитель матрицы -внутриклассового расстояния характеристика стабильности к или отсутствуют отсутствуют Валахов, Зайченко, 1966 [20] Елкина, Елкин, Загоруйко, 1967, Уишарт, 1969 и др. [5]; Торндайк, 1953 [29, с. 43] Фридман, Рубин, 1967 [32, 84] То же Рубин, 1967 [30] Сравнить с F\ Там же предложен F\
g Продолжение 15 16 17 18 19 20 /=| средний уровень риска неправильной классификации k F у у d _ 16 ^^ / i ij /=1 /,/eS; сумма внутриклассовых расстояний = 1п- оптимальная характеристика кратчайшего незамкнутого пути /,/=1 разница между двумя способами измерения близости объектов в разбиении оценка метода максимального правдоподобия F20 = min/maxp/ \ — t,q \ l,q 7 максимальное расстояние между классами К d, R отсутствуют Цыпкигн, Кельманс.1967 [5, 104] Антонисс, 1968 [111], Ку- перштох, Миркин, 1968 [61] Елкина, Загоруйко, 1969 [37] Руспини, 1970, Райт, 1973 [34] Скотт, Симмонс, 1971, Айвазян, Бежаева, 1974 [5] Неймарк, Баталова, Образцова, 1970 [67] Связан с ^з, F5, f ю, один из наиболее обида критериев качества Сравнить с /V Есть алгоритмы точной минимизации Сравнить с F2 Первый функционал в терминах размытых множеств Связан с F\o—F\o
21 22 23 24 25 26 2 27 общие потери F22= общие потери при незаданном числе классов комбинация двух функционалов общего вида 2 2 24~ /==1 IGS; аналог корреляционного отношения ^25- — dw-min 26 «С — индекс» (dw) ;,—mind отсутствуют k, R отсутствуют Ямпольский, Макаров, 1971 щи To же Колмогоров, 1972, Айвазян, Бежаева, 1974 [5, с. 90—93] Райт, 1973, Елисеева, Рукавишников, 1977 [34] Рольф, 1974 [147] Хьюберт, Левин, 1976 [133] Рольф, 1974 [147] Есть алгоритм точной минимизации То же Обобщает
Продолжение 00 to 1 28 29 30 31 32 33 34 2 характеристики превышения межкластерных расстояний внутриклассовых k F -У У ц (хJ(х-иЛ2 размытая близость объектов к центрам классов Fao=(dw/fw)/(db/fb)- отношение средних внутриклассовых и межклассовых расстояний k сумма внутриклассовых расстояний за вычетом порога F32=2 2 г(а1'«Ъ k F V V г/ * Л r33~Zj La \а1>а1) F%2, F33 — потери от замены точек внутри классов F34=-(db-dw)(fwfb/n*f2/Sd- точечно-бисериальная корреляция 3 отсутствуют к отсутствуют d или отсутствуют к к к 4 Бейкер, Хьюберт, 1975, [114] Беждек, Данн, 1975 [39] Мак-Клайн, Рао, 1975 [141] Куперштох, Миркин, Трофимов, 1976 [62] Загоруйко, 1978 [38] То же Миллиган, 1980 [141] 5 Широко распространен под названием «гамма» Сравнить с fi8, F24. Взвешенный вариант F4 Сравнить с F8 Носит весьма универсальный характер; обобщает Fie Обобщает Fi6 Обобщает F4, F10
35 37 38 39 40 41 расстояние до экстремальной точки класса >зв—Ф (Я,. М...... /», Л*,)- общая оценка разбиения через моменты классов и их вероятности А» /гз9==Д/Лг — относительная ошибка распределения объектов по классам 740=2Z)(/7/' Ll)~ общий вид критерия метода динамических сгущений i—Qn* ок — расстояние между результатами прямой и обратной классификаций k или отсутствуют Бауман, 1981 [13] Бауман, Дорофеюк, 1982, [14] То же Коваленко, Рамеев, 1984 [23, с. 299—300] Диде и др. 1970—1984 [29] Мандель, 1984 [23, с. 315— 316] Связан с /ч, Fio, Fit, F33 Имеет универсальный характер, связан с F4, F8, Fu, F33, F35 Частный случай F^ То же Введен в 1978 г. Не строго связан с F25y Ft* Имеет универсальный характер, обобщает Fu F4t F5, F29, F32, F33, Fib, F44 См. 3.3.
Продолжение 1 42 43 44 45 46 2 FA2 = Q{Riy R2) — близость между результатами классификации двух выборок р __ N k i,/=i /=1 минимальное отклонение размытых принадлежностей объектов от размытых центров классов '44 = * MASLOC, k размытая образами 2j min dtj + (\ — X) d Jj dl} l N n k-медианный метод n *V / 2W2-i~/u f a^?d2\ i= 1 классификация с помеченными 3 отсутствуют k к или отсутствуют k k 4 А. Ивахненко, Коппа, хова, М. Ивахненко, [42] Уиндхэм, 1985 [152] Рыбина, 1986 [79] Массар, Пластриа, ман, 1983 [139] Педрич, 1985 [145] Пету- 1985 Кауф- 5 Связан с Fie, F29 Сравнить с F23- Есть алгоритм точной минимизации Сравнить с F23. Есть точный алгоритм минимизации Приводятся модификации критерия
роны, он примыкает к строгим задачам многомерного анализа (дис- криминантного, дисперсионного и т. д.), с другой — к точным постановкам аппроксимационного типа (см. 2.3.4). Естественная сфера его применения — выделение кластеров в евклидовом пространстве, имеющих шарообразную форму. Точный алгоритм Р. Дженсена использует методы динамического программирования. Дисперсионный критерий тесно связан с квадратичными функционалами, использующими евклидово расстояние. Известно, что N ?___V ^2=у а2 [91, 54]. С учетом этого можно выписать '¦</ /=! У У (xf-;fJ следующие соотношения, обозначив через у/ величину ^ ^^' 1* т. е. квадрат отклонения от центра тяжести класса: F\ = Величину F* можно считать взвешенной внутриклассовой дисперсией. 2.)aJ/ — ребра кратчайшего незамкнутого пути, входящие в кластер (см. обсуждение алг. 54, 55 в 2.2). 3)Rij — функция потерь от того, что объекты а«, а} со значениями xi и Xj отнесены к одному классу; p(xi/xi) — условные плотности распределения вероятностей в классе Si; pi — априорная вероятность класса. Минимизирует суммарные потери при классификации, для работы требуется конкретное задание функции потерь и способ определения вероятностей (см. F4). Этот функционал (и алгоритм его минимизации, предложенный в [106]) оказал большое влияние на дальнейшие исследования в силу высокой общности заложенных в нем идей. Концепция минимизации потерь, родственная задаче минимизации среднего риска [19], носит универсальный характер и может служить основой ряда экстремальных постановок в распознавании. 4. Если для конечного набора точек функцию потерь выбрать в виде: Rij=(xi—XjJy то F3 примет конкретную форму F* и сведется к минимизации суммарных отклонений координат объектов от центров тяжести классов (см. обсуждение F\). 5. В [6] предполагалось, что йц определяется как мера близости между объектами в смысле теории потенциальных функций: N d..=^Ik (xr хл+k (xrx.y-2k (*,,*,)> где k(xt ,*Л=У x?<pV— потенциаль- ная функция, имеющая, например, вид: й,-/=1/A+А/)". В случае ц(х)=х получаем взвешенное евклидово расстояние. Известен алгоритм, оптимизирующий f5, доказана его сходимость при Af-^oo к оптимальным значениям (математическому ожиданию потерь). В теории потенциальных функций рассматриваются и некоторые Другие критерии [6, 16]. 85
6—8. Функционалы F6—F8, пожалуй, в наибольшей степени отвечают интуитивному представлению о качестве разбиения. В одномерной ситуации F6 и F7 связаны между собой: для квадрата евклидова расстояния при фиксированном k обозначим критерии как F? и Ff; тогда получим правило сложения дисперсий (см. обсуждение F\). В многомерном случае минимизация F$ еще не гарантирует максимизации F7 (хотя и доставляет близкие к экстремуму значения), поэтому возникает нужда в комбинированных критериях типа F8. Возможны и другие комбинации: F8=-^; F8=-p^tzh др. Для «7 «6 I * 7 F8 предложен алгоритм оптимизации. Эти функционалы, как и Fs, предлагались для потенциальных функций, но здесь трактуются как универсальные. 9. D(St) интерпретируется как потери от того, что все объекты класса (например, управляемые устройства) управляются одним органом управления, может измеряться дисперсией параметров. Щк) — потери от необходимости создавать k управляющих органов. F9 представляет собой интересный пример содержательно обоснованного функционала; в принципе каждому объекту можно придать свое управляющее устройство, но тогда W(k)=*W(N) будет очень велико, почему и нужна группировка. Здесь, в отличие от F8, своеобразно назначение второго слагаемого (первое аналогично F6): W(k) зависит только от числа классов, а не от их удаленности, ибо независимо от нее надо делать новые управляющие устройства. 10. Функционалы такого вида (см. обсуждение F\) являются очень распространенными, если вспомнить, как часто в табл. 2.3 встречались пороги типа /?, то ясно, что идея «гравитационного окружения» некоторого центра в различных постановках остается одной из наиболее плодотворных в кластерном анализе. Распространенный вариант критерия F\q — сумма расстояний до центра класса. 11 —13. Три критерия Фридмана и Рубина отражают традиционные статистические представления об однородности как о категории, связанной с_дисперсией (см. 1Л, Fi), обобщая их для многомерной ситуации, xi — вектор средних значений признаков в классе; S/, х — вектор общих средних значений; №,= ^ (*""**) (*"**/)— матрица рассеяния (ковариации) Z-го класса; W^J\Wi — общая матрица внутриклассового рассеяния, fi=*2 ni(xi~~x)(xt—x) —* матрица рассеяния между группами, Г=У (х—х)(х-—х)г —общая ма- трица ковариации. Как известно, Т =tt^ + B — многомерный аналог 86
правила сложения дисперсий. Из этого разложения и следуют естественным образом критерии качества разбиения. Понятно, что минимизация F[\ = trW эквивалентна максимизации F"\=trB, т. е. с ковариациями существует точная зависимость типа «внутри классов— вне классов», в отличие от расстояний (см. F%). 14. Для каждого объекта определяется мера притяжения Mi = — 2-л йц и мера притяжения точки к остальным объектам: Mi = -Tr——V dij. Определяется стабильность точки: Q/ = -—!—-?- + ~~ni4ts, [~~й -\—^—-, где d — задаваемый порог для расстояний. F\a является первым пороговым функционалом качества, которые в дальнейшем получили развитие. 15. F{x, щ) — функция потерь /-го класса, щ — некоторые параметры (например, центр тяжести класса), р(х) — совместная плотность вероятностей распределения. Функционал подробно изучен и представляет собой конструкцию весьма общего вида. Если считать, что потери являются функциями только эталонных точек vi=ui, то установлена связь F\$ с несколькими критериями качества. Если F{x, y)=(je—viJ, то /715=/74 [104], что, как показано в [5, с. 127], эквивалентно реализации алгоритма Л-средних (алг. 37 в табл. 2.3) для евклидовых расстояний. Если перейти в так называемое спрямляющее пространство метода потенциальных функций (см. пояснение к F$), такое, что z\ = =X?<p(jrf) (в него же перейдут эталоны vi-+vi)y то можно сформировать функционалы (для k=2)\ k при Fi = (Z(x) — viJ+^vfF\5 сводится к Fs; при Fi = (Z(x) — viJF\5 совпадает с /V Оптимизация производится [104] последовательно с помощью рекуррентных пересчетов методом стохастической аппроксимации. Алгоритмы, как и функционалы, носят универсальный характер и обеспечивают сходимость процесса для любого, в том числе бесконечного набора точек; их вычислительная трудоемкость по времени и памяти невелика. Дальнейшее обобщение подхода см. в описании 16. Функционал является одним из наиболее просто устроенных (как и аналогичный ему F5). Удобство его в том, что минимизация Лб автоматически приводит к максимизации F'\Q — суммы межклассовых расстояний, что не имеет места, скажем, для Fe, F7. Существенный недостаток — тенденция к объединению многих объектов в один класс, что обычно искажает реальную структуру. Для его преодоления вводится другой критерий — /^ь 87
17У Поясним значения параметров, имея в виду, что все первичные показатели измеряются только на отрезках КНП (см. алг. 54, 55): v — длина участка между соседними точками; р — длина участков, непосредственно примыкающих к рассматриваемому; щ — 1 v количество точек в классе; Р/ = п ,_\ 2j l — мера близости точек внутри класса; p==_i_Vp*— средняя мера близости k i=\ классов; rt — длина участка, по которому проходит граница между классами, л = ^—f2 г'~~ сРеДняя удаленность таксонов друг от друга;^ k — \ S ~^~ меРа <<оДинаковости структуры» внутри таксонов [37, с. 93]; лучше эту величину назвать мерой изолированности таксонов или мерой резкости разделения, так как pmin — минимальный из отрезков КНП, примыкающий к граничному ребру; kj-T П, ~лГ — мера «одинаковости» числа точек, а точнее—мера равномерности распределения объектов по классам (при я/=х А=1). Хотя параметры a, 6, с, т, ф, г|) могут характеризовать вес каждого из измерителей качества классификации, они обычно принимаются равными 1 [37]. F(d ..)= { „max ( ^-J, если йц< d } ч углах, если^г>^. ч Пусть для каждой точки определена некоторая функция плотности в ее /?-окрестности (алг. 47 в 2.3), например, количество точек в гиперсфере Vj. Выбирается k наиболее плотных кластеров, и делается начальная оценка вероятной принадлежности объекта к некоторому классу p(St/Xi) = ~^-, где р//- = —— мера близости между объектами. Величина */,-/ — измеритель общей близости объектов на всем множестве классов: эта величина равна единице, если объекты с единичной вероятностью попадают в два разных класса, и нулю, если с той же вероятностью они в одном классе. Поэтому vq можно трактовать как своеобразную «контекстную» меру близости объектов (см. 88
1.3, алг. 66 в 2.3). F(dij) измеряет «обычную» близость объектов, причем в особом, штрафном порядке: чем ближе объекты по drh тем они ближе по F(dij). Тогда видно, что F^ представляет собой весьма интересную конструкцию: хорошим считается то разбиение, которое минимизирует разницу между общей (контекстной) и прямой близостью объектов. По своему содержанию функционал отличается от предыдущих критериев. Е. Руспини трактовал Лв в терминах размытых множеств; это повторено и в [34, с. 52—63]. Однако из построения видно, что такая трактовка не является принципиальной. Величины p(Si/xi) не обязательно рассматривать как степени принадлежности; с равным успехом их можно назвать оценками вероятностей принадлежности к классам или просто мерами близости объекта и класса особого вида (см. алг. 49 в 2.3). 19. Хотя методы разделения смесей не являются предметом нашего рассмотрения, приведем этот функционал общего вида, поскольку он тесно связан с некоторыми ранее рассмотренными критериями. Предполагается, что каждый класс является выборкой из нормально распределенной генеральной совокупности с неизвестными параметрами xi и 2/ (вектор средних и матрица ковариаций), которые требуется оценить. Fi9 представляет собой функцию максимального правдоподобия для данной задачи. Как можно показать [5, с. 97], в разных конкретных случаях F\q сводится к известным функционалам: если ковариационные матрицы равны между собой и известны, то /719 = /г1о, где d в F\o — расстояние Махаланобиса; если 2/ равны между собой, но не известны, /7,9 = /rii; если 2Л не равны между собой k и не известны, /7i9=TT ' r/l==/7'i2 (мы не рассматривали этот критерий в тексте в силу его некоторых неудобных свойств). Как видно, интуитивно хорошим критериям можно придать строгую вероятностную обоснованность. 20. Максимизация минимального межклассового расстояния, в отличие от предыдущих критериев, ориентирована на непараметрическую характеристику разбиения, связанную с порядком расстоя: ний в матрице. Критерий подкупает своей простотой и формальным изяществом. В зависимости от выбора способа измерения p/g возможны различные алгоритмы; в [67] предполагается наиболее «чистый» вариант: расстояние определяется по принципу ближнего соседа. Имеются локально-оптимальные алгоритмы минимизации ^го- 21. Введем обозначения: л://=1, если a^Si, 0— в обратном случае; yq=l, если классификация ведется на q классов, q=\,k, k q Г==2 уяЕ^ 2 xitdiixii; F(W) — некоторая функция потерь от разли- чия объектов внутри класса, заданная на всем множестве раз- 89
биений множества (фактически при известном k W=F\s)\ Ф — функция потерь от числа классов; D(S) — потери от разброса n 2 nl численностей объектов в классах, D(S) =2 -т-B хи~т) »ПРИ этом Л/ /=i <=1 В этом функционале объединяются требования к хорошей классификации из Fs (два первых слагаемых) и из Fg—D(S). В [111] предложен точный алгоритм минимизации 7*21, основанный на методе ветвей и границ, и обобщающий алгоритм Дж. Антонисса (см. F\q). 22. Отличается от F2\ только членом D(S), но это позволяет точно (методом ветвей и границ) решать задачу при неизвестном числе классов. Балансировка двух критериев здесь происходит в силу монотонного убывания W при росте числа классов q. 23„ Характеристики критерия основаны на общей концепции степенных средних, разработанной А. Н. Колмогоровым: /W= 1 N i -L = Г~лг2 — 2 rfrlr ~~ сРеДняя степенная мера внутриклассового рас- L /=1 'x,sS, J сеяния (при г=1 совпадает с F6); Si — кластер, содержащий точку N j щ\ Hi—его мощность, г — показатель степени. zr=[-^V (-тЛХ7 — средняя степенная мера концентрации точек: zr=\ при объединении всех точек в один класс, \/(N — 1) —при N классах. Если г= — 1, 2_1=—, где k — число классов разной мощ- k N П. ности в разбиении; zo==2 ~лГ lg "лГ информационная мера кон- центрации;2 = ma Как видно, Ir есть функция внутриклассовых расстояний, a zr — функция только от относительных частот плотностей классой. Поэтому аддитивное соизмерение двух разнотипных величин в едином критерии не оправдано, требуются некоторые веса. В /^з, в частности, можно положить а = 1, C= <7 (рекомендуемое в [5, с. 93] значении C= 1 в силу указанного несоответствия вряд ли будет удобным, см. также [69, с. 148]); существует мультипликативная форма: F?2 = /r.— [5]. Характеристики типа 1Г и zr носят универсальный характер и могут использоваться в задачах классификации в более широком контексте, чем описанный [5, с. 83]. 24. ри — функции принадлежности /-го объекта к /-му классу (см. описание Fig), ри — расстояние точки до центра класса, р* — рас- 90
стояние до общего центра совокупности (имеются в виду евклидовы расстояния). Величина 1 — —^24 представляет собой взвешенный вариант корреляционного отношения. В отличие от Fi8, Fib и др. F24 сравнивает не внутриклассовые расстояния с межклассовыми, а внутриклассовые с общими, чем напоминает F\\. Установлены хорошие свойства F24 относительно целого набора аксиом. 25, 27, 28. Критерии устроены весьма своеобразно. Для уяснения смысла величин S+, S~ рассмотрим пример. Пусть матрица расстояний имеет приведенный вид и разбита на два класса (отмечены линиями). Требуется попарно сравнить все межклассо- 1 2 3 4 1 2 - t - 3 5 2 - 4 3 1 2 - A,2) A,3) 1,2 1,3 2,3 1,4 2,4 3,4 B,3) 0 0 - A,4) 1 -1 1 B,4) -1 -1 -1 C,4) X -1 -1 - О - о Рис. 2.21. вые и внутриклассовые расстояния. Для этого построим матрицу попарных сравнений расстояний (рис. 2.21), в которой сначала идут расстояния внутри кластера A, 2) — B, 3), затем расстояния между кластерами A, 4) —C, 4) и, наконец, внутри следующего кластера и т. д. Выделим блок внутрикластерных расстояний; в нем никакие сравнения не проводятся (стоят нули); не сравниваются между собой и межкластерные расстояния (тоже стоят нули). Сравниваются только межклассовые расстояния с внутриклассовыми: если межклассовое расстояние больше внутриклассового, в матрице ставится единица; меньше или равно — ставится минус единица. Число единиц в матрице и есть S , число отрицательных единиц — S~; п — сумма всех чисел, числитель F2$ и F2s. В примере S+=3, S~=6. Большая величина S+ говорит о хорошем качестве разбиения — большинство межклассовых расстояний превышает внутриклассовые* рост S~ свидетельствует о плохом качестве (что видно из приведенного примера с неудачным разбиением). rid= о~ —общее число расстояний, т. е. число строк и столбцов в матрице сравнений; t — число нулевых элементов в матрице. Очевидно, { = п*(п*— )^ если все объекты объединяются в один класс (тогда значение F25 будет плохо определено), т. е. t введено в формулу для корректировки знаменателя: оно предотвращает выделение слишком больших кластеров. Данная нормировка не представляется особенно удачной даже в идеальном случае, когда S~=0, F25 не принимает из- за нее критического значения, то же можно сказать о F27. 91
Наиболее удачной конструкцией является критерий «гамма» Бейкера — Хьюберта. Его знаменатель представляет собой общее число единиц любого знака в матрице, поэтому в случае идеального разбиения —F28=l, в случае самого плохого (S+=0)—/Г28= —1. Но зато критерий никак не реагирует на число классов и их заполненность, как F25- В целом критерии данного типа весьма привлекательны. Их существенным достоинством является непараметрический характер, что важно в условиях неустойчивости расстояний к допустимым преобразованиям (см. 2.4). Другим преимуществом выступает наличие естественных границ изменения "(особенно F2s). В зарубежной литературе критерии используются весьма широко. Недостатком является некоторая громоздкость в вычислении. 26, 30. dw— сумма внутриклассовых расстояний, dB— сумма межклассовых расстояний, fw и fB соответственно — количество внутриклассовых и межклассовых расстояний, min(rfr), max(dr) — максимальное и минимальное значение расстояний. Как нетрудно видеть, оба показателя являются простой модификацией F%. 29. Критерий F29 представляет собой, видимо, наиболее распространенный и изученный вариант экстремальной постановки задачи кластер-анализа в терминах размытых множеств (см. описание /Чэ )• МчМ— функции принадлежности классов, vi— некоторый типичный представитель (фактически центр) класса. Функционал является размытым обобщением F4 и отчасти Ло. В [39, с. 208—247] описан алгоритм типа fc-средних оптимизации jFW 31. Критерий подробно изучен [62 и др.]. Оптимальные по нему разбиения удовлетворяют естественным требованиям, предъявляемым к хорошей структуре (см. Fe, Fu). Классы являются сгущениями в смысле 2.1. Существенно, что Fz\ появляется в общей теории качественного факторного анализа, развиваемого авторами, как результат определения так называемого представляющего фактора. В рамках этой концепции можно найти оптимальное значение d, т. е. решить задачу в режиме свободной классификации. Подробнее обсуждение см. в 2.3.4. 32, 33., Функция г(*,«) характеризует некоторые потери, возникающие при замене одной точки класса а\ на другую этого же класса. Частным случаем функции может быть расстояние, тогда /732=/7i6 (происходят замены каждой точки на каждую другую точку из класса); если г — квадрат расстояния, то /7з2=/г5; если замена происходит только на центральные точки а* и г — некоторая квадратичная функция, то /7зз = /74 или /гзз = /7ю. В [38] рассматриваются также модификации критериев: в F33 производится замена центрального объекта на самый далекий в классе: ^зз =2j Г(а?'а/);В F'^==Z^ r\ замена объектов происходила по цепи, из которой оставлено наибольшее звено t\ F"z минимизи- 92
рует сумму длиннейших ребер внутри таксонов в КНП (см. F2, Fxl). В целом идея «потери от замены», развивающая старую идею «потери от объединения» (см. Fz, /Ms), достаточно универсальна и использовалась впоследствии (см. F35). 34, Обозначения показателей см. в F30; s<t — среднее квадрати- ческое отклонение всех расстояний. Функционал представляет собой коэффициент точечно-бисериальной корреляции между двумя признаками: один, дихотомический, задает разбиение расстояний на две группы — межклассовые и внутриклассовые; другой — сами расстояния (М2-мерный вектор действительных чисел). Очевидно, чем сильнее связь качественного и количественного признаков, тем лучше классификация. Впервые идея определения корреляций на множестве расстояний была выдвинута, видимо, Е. Райтом (см. F2a). Похожие «корреляционные соображения», но в связи с признаками, а не расстояниями описаны в 2.2.4. 35, Под uf понимается такая точка пространства, которая минимизирует ^d(xiy uf). Это обобщает понятие центра тяжести евкли- i?SL довых пространств (Ft). Для концепции «потери от замены» (F32— — ^зз) величина uf может быть хорошим кандидатом для сравнения* uf является наилучшим из а*. 36—38. pi — вероятность /-го класса, ц/ — ненормированный момент /-то класса; pi=\hx(x)d(px), \ii=\xhi{x)d(px), где hx— характеристическая функция класса, Ф — произвольная выпуклая функция. Критерий представляет собой функционал общего вида. В такой форме под него подпадает множество конкретных функционалов [14]. Даже частные случаи F37 и F38 также имеют весьма общий вид. Пусть \\Biq\\ матрица весовых коэффициентов, Aiq — некоторая характеристика близости классов (расстояние, потенциальная функция и др.)- Тогда Fw в разных случаях принимает форму средневзвешенной дисперии (см. F4), общего разброса классов (см. F7), разницы расстояний (см. F9). Построены специальные рекуррентные алгоритмы минимизации ^зб, также имеющие общее значение; доказана их сходимость в широких условиях, в том числе для потока наблюдений; установлен вид, разделяющих функций. 39. Если задан порог rf, то считается общее число нарушений условий правильной классификации А; под правильной понимается такая, что внутри каждого класса d,/<Id, а межклассовые расстояния больше d. F39 представляет относительную ошибку классификации (в [23] формулы не приводились, так что нами дан собственный вариант критерия). В процессе оптимизации реализован синтез г-связывающих агломеративных процедур (см. 2.3) и алгоритмов типа «объединение», «перемещение» (см. 2.3.3), поэтому происходит настройка параметров d и г. В целом идея функционала является некоторой «вариацией на тему» критериев /^5, /^7, /^28, менее четкая 93
в формальном отношении, но, возможно, более гибкая практически. Рабата идет в диалоговом режиме. 40. S — пространство всевозможных покрытий исходного множества объектов Е (например, множество непересекающихся разбиений); L — пространство представительств (например, множество эталонных объектов или центров классов); g — функция представительства, отображающая элемент х?Е в L; / — функция назначения, относящая объект х?Х в S (т. е. зачисляющая объект в класс); D(x, /) — мера сходства между объектом и представителем. Общая формулировка критерия: отыскать такие S и /, чтобы они имели наибольшую степень адекватности, соответствовали друг другу в N .определенном смысле: /г4о=2 D (**• *0 ^ зависимости от выбора S и L возникает множество конкретных функционалов качества. Ограничимся случаем, когда S—множество разбиений (возможны иерархические структуры и т. д.), L — множество единичных представителей класса. Тогда в схему Fw укладываются критерии F\f F4, F\\y F\5, F29> Fz2, Fzzy ^зб-зв* F*u ^43, ^44, а для квадратов евклидовых расстояний добавляются F$—F%. Здесь под единичными представителями понимается либо некоторый реальный объект из класса, либо искусственная точка класса (центр тяжести, экстремальная точка из F35 и т. д.). Возможны усложненные постановки двух видов: 1) расширение круга используемых расстояний D(x, /) (см. [29, с. 348], где приводится пример функционала, учитывающий неединичный вес каждого объекта, так называемые адаптивные расстояния [29, с. 38] и др.); 2) использование в качестве представителей не одного, а нескольких элементов класса [29, с. 35]. Почти любые задачи анализа данных могут быть сформулированы в терминах критериев описанного типа. Универсальным оказывается и способ их оптимизации — метод динамических сгущений (MND), ориентированный на поиск некоторых заполненных окрестностей вокруг представителей. 41. Критерий представляет собой меру близости между результатами прямой и обратной классификации и подробно описан в 3.3. 42. Исходное множество объектов разбивается на два (или более) равных подмножества случайным образом, в каждом из которых проводится каким-либо способом кластеризация (в [42] предполагалось минимизировать внутрикластерное расстояние). Близость результатов говорит о непротиворечивости кластеризации. Эта идея восходит к известным постановкам 60—70-х годов о случайных классификациях (алг. 13, 56 в табл. 2.3, см. также 2.2.3). Далее, поскольку непротиворечивых классификаций может быть несколько (для разного числа классов и набора признаков), вводится второй критерий валидности — соответствия классификации некоторым экспертным представлениям. Два критерия сочетаются с общими принципами метода МГУА (группового учета аргументов) [20]. 94
k 43. a^O, 2 аи=1 — мера близости /-го объекта /-му классу; N ~ 2&/7=1 —вес прототипа, т. е. «степень прототипности» /-го объекта для прототипа 1-го класса; йц — расстояние между объектами. Функционал характеризует, видимо, наиболее сильное обобщение в теории размытой классификации: размыта степень принадлежности объекта к классу (см. Л8, F2a, F29) и размыт сам представитель класса — каждый объект может быть в разной степени прототипом того или иного класса и одновременно «рядовым членом» этого и других классов. Результат классификации выдается в виде двух матриц ANXK и BNxK, совместный анализ которых позволяет детально изучить структуру множества. Предложен специальный алгоритм минимизации F43- 44. / — множество всех номеров объектов мощностью N; W^.1 — множество представителей классов разбиения; а — соизмеряющий N коэффициент, который удобно принять в форме: a = 2^dij/N(N—i). Критерий отличается способом учета составляющих «вне и внутри»: рассчитывается не общая сумма расстояний внутри классов и между классами, как обычно, а расстояния до представителей классов, чем он напоминает /ч, ^зз, и полностью вписывается в общую схему F4o- Однако для Fu известен алгоритм точного решения задачи классификации, что существенно для критерия такого общего вида. 45. Точная постановка включает следующие ограничения для п п критерия качества: Vjc..= 1; *..<*/.; Vo.=fe; yi9 х;уе{0,1}-#1 = 1, если /-й объект является представителем (фактически центром) класса. х*/=1, если /-й объект ближе всего находится к /-му представителю. Таким образом, критерий реализует очень распространенное понимание кластера (множество объектов, ближайших к некоторому центральному), которое раньше часто встречалось. Отсюда и название метода — медиана в одномерном случае минимизирует сумму расстояний точек до нее, а среднее — сумму квадратов расстояний. Тем более важен для такого естественного критерия точный алгоритм, найденный методом ветвей и границ. Точный метод рекомендуется применять при я<!30. 46. Здесь ?«•= 1, если /-и объект принадлежит множеству помеченных объектов (х\?Х), нулю — в обратном случае, \лц — степень принадлежности /-го объекта к /-му классу, fu — степень принадлежности помеченного объекта к классу, которая представляется самим 95
исследователем с соблюдением свойства ^ и . Теперь ясен смысл функционала: первое слагаемое (практически совпадает с F29) минимизирует размытую сумму квадратов расстояний до центра, а второе представляет собой взвешенную по квадратам расстояний сумму отклонений расчетных значений \i от заданных априорно. Другие модификации критерия в [145] связаны со взвешиванием двух этих слагаемых и с введением в расчёт расстояния Махаланобиса. Численный эксперимент показал хорошие разделяющие способности метода, особенно заметные при использовании расстояния Махаланобиса. Успешно разделились кластеры, расположенные в форме креста — сложный для распознавания случай, на 'котором потерпели неудачу иерархические процедуры из [123], тоже выполнявшиеся с настройкой параметров по данным выборки (см. 2.2.4). 2.3.3. АЛГОРИТМЫ ОПТИМИЗАЦИИ В работах, ссылки на которые приводятся в табл. 2.3, предлагаются не только функционалы, но и алгоритмы их оптимизации, т. е. читатель при желании может подробно ознакомиться с теми конкретными особенностями вычислений, которые сопутствуют данному критерию. Здесь нет возможности описывать многочисленные алгоритмы, поэтому попробуем ограничиться некоторыми достаточно общими схемами оптимизации, пригодными практически для всех критериев качества. Естественным образом все алгоритмы классификации можно поделить на две неравные группы: в первую, большую, попадают методы, не гарантирующие глобальный экстремум функционала качества, во вторую, намного меньшую,— точные процедуры, приводящие к глобальному экстремуму. В первой группе можно выделить два наиболее важных типа процедур — рекуррентные алгоритмы оптимизации и алгоритмы, увеличивающие значения функционала на каждом шаге. Рекуррентные алгоритмы оптимизации. Основная идея методов в том, что с учетом специфики функционала выбирается некоторый набор настроечных параметров, задающих разделяющие поверхности; параметры на каждом шаге работы рекуррентно пересчитыва- ются. Для остановки процесса требуется стабилизация этих параметров. Такие алгоритмы нуждаются в специальных доказательствах сходимости и всегда определены для строго фиксированного круга критериев. Эти критерии, как показали специальные исследования, носят универсальный характер. В первую очередь к ним относятся функционалы минимизации среднего риска F\b и связанные с ним F3 — F5, F\oy для которых обосновано использование типично рекуррентной процедуры метода стохастической аппроксимации. Уже этот широкий круг показателей характеризует важность алгоритмов такого рода. Новое продвижение в данной области сделано в [14], где разработаны рекуррентные процедуры для оптимизации функционалов общего вида /^б—^зв- 96
Существенной особенностью рекуррентных процедур является их последовательный характер, т. е. возможность обрабатывать поступающие наблюдения без анализа всей матрицы данных. Это сокращает объем памяти и увеличивает скорость, позволяет классифицировать большие массивы информации. Поскольку описание алгоритмов, с одной стороны, потребовало бы весьма специальных разъяснений и много места, а с другой — оно подробно осуществлено в упоминаемой литературе, мы приводить его не будем. Алгоритмы, увеличивающие значения функционала на каждом шаге («пожирающие» процедуры). Смысл алгоритма в том, что на каждом шаге его работы осуществляется наибольшее увеличение искомого критерия качества из всех возможных на множестве некоторых допустимых операций. Операции фактически сводятся к двум видам: объединению (разделению) и перемещению. Объединяются (разделяются) такие два класса, что прирост функционала максимален. Наиболее популярны агломерационные процедуры, ди- визимные — менее. Классический пример такого алгоритма — иерархическая группировка Дж. Уорда (алг. 8 в табл. 2.3), в которой на каждом шаге обеспечивается минимизация внутриклассовой дисперсии. При перемещении объект из одного класса переносится в тот, в котором обеспечивается максимальный прирост критерия на множестве всех возможных перемещений. Оба принципа увеличения функционалов могут различным образом сочетаться в конкретных вычислительных схемах: можно сначала организовать объединение до остановки, затем перемещение или начать со случайного разбиения (полученного какой-либо эталонной процедурой) и к нему применить любую из операций; произвольно итерирующий процесс повторять несколько раз с различными начальными состояниями и т. д. Во многих конкретных случаях удается определить прирост функционалов при единичном акте перемещения или объединения в виде аналитической формулы, что облегчает проведение расчетов. Это типично для многих алгоритмов типа /^-средних, иерархических процедур, метода динамических сгущений и др. Особенностью описываемых алгоритмов является их универсальность. Фактически для любого критерия можно без труда построить определенный процесс вычислений в духе перечисленных выше операций, и qh обязательно сойдется к некоторому локальному экстремуму [7, с. 374—377]. К сожалению, неизвестными остаются два обстоятельства: как быстро сойдется алгоритм и как далеко будут лежать друг от друга значения найденного локального и глобального экстремумов. Как отмечалось в 2.2, в кластерном анализе не укоренилась традиция сопровождать предлагаемые алгоритмы оценкой их временной и пространственной трудоемкости. Из некоторых прикидок и отрывочных сведений (частично они приводились выше) можно считать, что для всех приведенных в 2.2 и 2.3 алгоритмов время вычислений приблизительно О {N-i-N4). Конечно, такой грубой оцен- 4 Зак. 1115 97
ки совершенно недостаточно, и работа по установлению трудоемкости каждого алгоритма представляется как одна из первоочередных в кластерном анализе. Что касается второго вопроса, то он исследован еще меньше. В одной из немногих работ на эту тему [26] осуществля?тся_оменка снизу для получаемых алгоритмам значений функционала. А именно, если стоит задячн^твгаксижиэацяи суашы внутриклассовых связей, т. е. критерий равен —F\q, и она решается любым из трех вышеперечисленных алгоритмов пошаговой оптимизации, то для каждого из них можно гарантировать следующее значение критерия: LA^ ^дЕц -L, где L — общая сумма всех связей в матрице, h=[N/k] — , целая часть результата деления числа объектов на число классов. Но и здесь не ясно, насколько далека полученная оценка от глобального экстремума. По этим причинам в общем случае весьма трудно сказать, что же все-таки получено в результате расчетов и «лучше ли оно» классификации, построенной каким-либо прямым алгоритмом. Впрочем, продолжая рассуждения, аналогичные приведенным, можно иначе взглянуть и на связь прямых процедур с оптимизационными. Достаточно вспомнить характер работы многих алгоритмов прямой классификации, особенно эталонных процедур, чтобы убедиться, что схемы итерации очень напоминают описанные процедуры объединения и перемещения и отличаются от них фактически только критерием единичного действия на каждом шаге. Не приводит ли такая операция тоже к оптимизации некоторого функционала? Есть все основания считать, что это именно так. Основной результат Дж. Мак-Кина A967) заключался в доказательстве того, что его алгоритм стабилизации (алг. 40 в табл. 2.3) доставляет локальный экстремум критерию F\. Причем при простых вероятностных предположениях показывалось, что процесс сходится в смысле этого же критерия. Дж. Джардайн, Н. Джардайн и Р. Сибсон в том же году установили, что метод ближнего соседа строит дерево, наиболее хорошо приближающее исходные расстояния в смысле их близости к матрице, содержащей значения ультраметрики (расстояние между объектами, измеренное как расстояние между теми классами, при объединении которых два данных объекта впервые при агломеративном процессе попали в один класс). Похожие аппроксимационные постановки обсуждаются в 2.3.4. Мы уже упоминали о локальной оптимальности алгоритма Уорда и т. д. В настоящее время вопросы взаимосвязи процедур в ряде случаев подробно изучены. Некоторые результаты приведены в 2.3.4. Общий подход к алгоритмам автоматической классификации, предложенный в [18] (см. также предисловие к [29]), позволил выяснить оптимальность известных процедур. Там введено понятие интерпретирующего функционала качества для некоторого итерирующего процесса, 98
который не убывает, начиная с определенного шага работы алгоритма. Для конкретного процесса может быть найдено несколько интерпретирующих функционалов. Показано, что такие популярные процедуры прямой кластеризации, как «Форэль», метод fe-средних и его обобщения, общая процедура эталонного типа, а также алгоритм размытой классификации Беждека—Данна, алгоритмы MND, имеют свои функционалы, и установлено, какие именно. Вве^ ден так называемый алгоритм (k—г)-средних, частными случаями которого являются алгоритмы /г-средних и «Форэль». Такого рода результаты очень интересны. Они ясно говорят в пользу тезиса о тесной близости оптимизационных и прямых процедур, что, с одной стороны, не позволяет проводить между ними резкую грань, а с другой — помогает в построении новых схем оптимизации. В качестве общего замечания ко всем алгоритмам локальной оптимизации отметим, что результаты их работы в большой степени зависят от выбора начальных состояний. Все сказанное на этот счет в 2.2 остается здесь в силе; экспериментальное подтверждение содержится в 2.4. Рассмотрим вкратце точные алгоритмы классификации. Их можно подразделить на три основных класса: использующие идеи математического программирования, главным образом динамического; применяющие метод ветвей и границ; ориентированные на оптимизацию в монотонных системах. Поскольку каждое из этих направлений для своего подробного изложения требует привлечения математического материала, выходящего за рамки сложности, принятые в книге, ограничимся конспективным указанием основного содержания и областей применимости подходов. Общей особенностью всех методов точной классификации является избирательный подход к функционалам качества разбиения. Алгоритмы могут применяться только к некоторым функционалам, обладающим определенными, в каждом случае специально проверяемыми свойствами. В этом отношении они уступают многим рассмотренным выше процедурам, имеющим универсальный характер. {Червые попытки представить задачу кластерного анализа в стандартных рамках математического программирования относятся к концу 60-х — началу 70-х годов. В работах Р. Дженсена, М. П. Рао, Д. Вайнода и других приведены алгоритмы минимизации F\ с помощью схем динамического и целочисленного программирования. В последнем случае задача ставится в форме условной оптимизации, в которой ограничения носят, правда, весьма естественный характер. Для динамического программирования строится некоторая рекуррентная процедура пошаговой классификации, относительно которой известно, что почти всегда экстремум будет найден за количество шагов, намного меньшее, чем при полном переборе. Примеры использования алгоритмов обоих типов подробно рассмотрены в [33]. В целом алгоритмы такого типа не получили широкого рас- 4* 99
пространения в силу высокой трудоемкости расчетов и сложности организации вычислительного процесса. Значительно чаще удается использовать в задачах классификаций стандартныйприем дискретной оптимизации — метод ветвей и границ. Видимо, первое применение принадлежит Дж. Антониссу, разработавшему схему ветвления для Fie в 1968 г. Впоследствии этот функционал стал весьма популярным; задача его максимизации в случае мер близости даже получила специальное название: задача блочной триангуляции. Известен точный метод ее решения алгоритмом ветвей и границ [23, с. 123—124]; таким же методом она решается в [26] при наличии ограничения на общую сумму связей в классе. Для функционала довольно общего вида F20 и аналогичного ему . F2i удалось построить точный алгоритм В. Ямпольскому и И. Макарову [111]. В [79] предлагается способ оптимизации критерия F44, основанный на том, что используемая функция обладает свойством так называемой супермодулярности. Это позволяет для ее оптимизации использовать развитую теорию метода последовательных расчетов В. П. Черенина, который интенсивно используется в задачах дискретной оптимизации. Видимо, можно и другие критерии проверять на наличие супермодулярности и использовать в случае успеха точные алгоритмы. Метод ветвей и границ минимизирует F^. Третье направление в точном решении задач классификации связано с недавно сформированной, но бурно развивающейся теорией монотонных систем [23, с. 29—34 и др.1]. Упрощая понятие, дадим следующее определение: монотонной системой называется множество объектов, такое, что если из него изъять объект, то некоторая функция, определенная на любом подмножестве множества, не возрастет на любом подмножестве. Приведем удобный пример: на каждом объекте определена функция, ставящая ему в соответствие сумму расстояний от данного объекта до всех остальных; очевидно, что изъятие любого объекта может привести только к невозрастанию суммы расстояний для каждого объекта и для любого их подмножества. Оказывается, в таких ситуациях можно строить точные и чрезвычайно быстрые алгоритмы оптимизации некоторым образом устроенных функционалов; их трудоемкость не превышает O(N2), тогда как для перечисленных выше методов точного решения она может доходить до экспоненциальной величины полного перебора. Правда, функционалы эти весьма специфичны. Так, для описанной системы с помощью построенного критерия можно выделять классы, расположенные как бы на концентрических сферах относительно центра множества; например, хорошо разделяются классы Е и F на рис. 2.1. Более традиционные функционалы в духе табл. 2.5 для монотонных систем пока не разработаны. Можно, однако, использовать комбини- 1 Автор выражает признательность Е. П. Кузнецову и И. Б. Мучнику за обсуждение этой проблематики. 100
рованные алгоритмы — с помощью упомянутого функционала строить множество максимально удаленных точек — ядро, а затем, считая их центрами классов, проводить классификацию одним из эталонных алгоритмов. Такой способ первичного задания эталонов, как легко видеть, является обобщением эвристических процедур 45 и 46 из 2.2. Алгоритмы точной оптимизации, за исключением процедур, связанных с монотонными системами, в силу своей высокой трудоемкости могут решать задачи размерностью не более нескольких десятков, от силы 2—3 сотен объектов. Иногда такие решения могут быть практически весьма полезны, но чаще всего точные значения функционалов для конечных целей исследования нужны достаточно условно, о чем подробно говорилось в 2.2. Однако дальнейшие исследования по быстрым и точным методам классификации, бесспорно, имеют большое значение хотя бы как способ решения целого ряда теоретических проблем — о значимости отдельных функционалов для человека, о степени приближения нестрогих методов оптимизации и т. д. В заключение отметим следующее. Все рассматриваемые в параграфе критерии определяли задачу безусловной одномерной оптимизации. Однако вполне возможны естественные обобщения," вплоть до решения задачи векторной оптимизации при наличии ограничений. Ограничения могут быть различны — на степень заполненности классов, на степень связи в них и т. д. В известной мере они уже учтены в тех функционалах, где фигурируют задаваемые жестко пороги. Однако в общем случае многокритериальные задачи с ограничениями пока не нашли широкого применения (см. обсуждение и библиографию в [29, с. 53—64]). 2.3.4. АППРОКСИМАЦИОННЫЙ ПОДХОД В КЛАСТЕРНОМ АНАЛИЗЕ Все рассмотренные выше функционалы качества классификации ориентированы на решение одной задачи: в явном виде эксплицировать представление о хорошей классификации в целом (т. е. не на уровне свойств отдельных кластеров). Как видно, таких представлений существует очень много. Но имеются некоторые соображения универсального характера, которые учитывают лишь самые общие черты классификации. Например, если требуется получить разбиение без пересекающихся классов, то просто фиксируется, что искомое отношение является отношением эквивалентности (см. 1.2); можно потребовать, чтобы результирующее отношение представляло собой иерархическое дерево и т. д. Если обозначить искомое отношение произвольного типа через У у исходные данные через X, а оператор перехода от X и Y — через Р (пока не конкретизируя вид этих конструкций), то в общем случае возникает естественный функционал, отражающий стремление мак- 101
симально приблизить результирующее отношение к имеющимся данным: ||К-РЛП1-ишп, где ||Л || — какая-либо норма. Задачи такого типа — аппроксимация «плохо устроенного» множества X и «хорошо устроенной структурой» Y — давно известны в математике и имеют множество приложений (в теории устойчивых решений некорректных задач, в задачах оптимального управления и т. д.). В статистике самым распространенным типом является задача построения регрессии, где X — вещественная матрица, Y — вектор результатного показателя, ||Л|| обычно принимается квадрат- • ной функцией (в методе наименьших квадратов). Применительно к проблеме классификации аппроксимационный подход имеет примерно 15-летнюю историю, хотя некоторые предвосхищающие идеи были выдвинуты ранее. Первые постановки, обсуждавшиеся в работах Т. Зана A964), Г. Вей- нера A971) и др. (см. [62]), заключались в следующем: найти отношение эквивалентности, наиболее близкое к исходному произвольному бинарному отношению с булевской матрицей. Увязка такой постановки (часто независимо от ранних работ) с проблематикой анализа данных была осуществлена в трудах С. Ренье A965), Б. Миркина A969), А. Ляпунова A972), Г. Фридмана A973) и других исследователей (см. [61]). При этом по-прежнему речь шла о качественной ситуации: исходные данные представлялись как граф сходства с непомеченными ребрами (это достигалось, например, введением порога существенности для мер близости), а требуемое разбиение задавалось как эквивалентность, т. е. булевская матрица «объект- объект» аппроксимировалась такой же матрицей, полученной как развертывание номинального признака (см. 1.2). Аналогичная постановка для результирующего разбиения иерархического типа была сделана С. Джонсоном в 1967 г. [33, 131] (предполагалось, что наилучшее иерархическое разбиение должно иметь максимальную ранговую корреляцию с упорядоченными расстояниями исходных данных). Эта работа, как и статья того же года [136], положила начало целому направлению в построении оптимальных в различных смыслах иерархических деревьев [120, 122 и др.]. Идея максимизации корреляции между «обычным» разбиением и матрицей расстояний была использована Г. Миллиганом A980) для своего критерия качества классификации (см. F32), хотя еще раньше почти такая же величина рассматривалась из модельных более общих соображений в [61]. В 1974—1976 гг. в статьях И. Мучника, Л. Бородки на, В. Куперштоха, Б. Миркина, В. Трофимова была поставлена в разных формах задача непосредственной аппроксимации матрицы связей некоторыми матрицами, без перевода исходной матрицы в качественную форму [61]. Впоследствии задача была подробно изучена и легла в основу создания так называемого качественного факторного анализа [62]. Похожие соображения лежали в основе концепции так называемых аддитивных кластеров, разрабатываемой начиная с середины 70-х годов П. Араби, Дж. Керро- лом, Р. Шепардом и др. Подробное сопоставление двух подходов и обоснование большей конструктивности первого было сделано в [143]. Наконец, в 1981 —1982 гг. появляются работы Б. Миркина и И. Мучника, впоследствии развитые в [63] о задачах аппроксимации, где в качестве X выступают не квадратные матрицы «объект-объект», а прямоугольные «объект-признак», т. е. собственно матрицы исходных данных [16, 63]. Основные направления аппроксимационного подхода в задаче классификации объектов подробно изложены в доступной литературе [61—63, 99 и др.], где можно найти детальную библиографию упо- 102
мянутых выше и многих других работ. Наиболее полное описание подхода применительно к задаче классификации содержится в [63]. Поэтому мы не будем здесь стремиться к изложению всей разветвленной концепции аппроксимационных задач, остановимся лишь на идейной стороне двух наиболее интересных, на наш взгляд, вопросов. А именно, рассмотрим результаты прямой аппроксимации матрицы связи исходной таблицы «объект-признак», ориентируясь главным образом на [62, 63]. Задана аппроксимации матрицы связей. Пусть имеется матрица связи A = \aij\NxNy где связь тем сильнее, чем больше ац (см. 1.3). Требуется найти такое разбиение1 с булевской матрицей /? = |г|у|#хЛ,, которое бы в наибольшей мере соответствовало А. Элементы Гц определяются, как в A.1): г/;=1, если объекты в одном классе, 0 — если в разных. Как сопоставить А и R друг с другом? Ведь в А — вещественные числа, а в R — булевы переменные. В [61] предложено взвешивать /?, вводя некоторые коэффициенты масштаба К и сдвига \х. Тогда критерий аппроксимации будет иметь вид: Минимизацию А(г, A,, \i) надо производить сразу по трем неизвестным величинам — скалярам А,, \х и матрице R. Для аналитического изучения B.3) удобно что-либо зафиксировать. Можно убедиться, что если К и \х заданы, то B.3) превращается в функционал N ?(#)=2 (а..-л)г/Г>тах, B.4) где n=X/2+\i — некоторый порог для величины связей. Тогда, переходя к внутриклассовым связям (для которых Л/=1), имеем: 2 2 (а^-я^тах, B.5) где 1=1,k —номер класса. Как видно, полученный критерий совпадает (с точностью до знака) с F2g, который тем самым получает новое обоснование. При этом величина я может быть задана и из содержательных, и из формальных соображений. Так, если считать, что R зафиксировано, то для оптимального разбиения X — средняя • внутриклассовая связь, а М- — средняя межкластерная связь, т. е. оптимальное л равно полу- 1 На самом деле в [63 и др.] рассматриваются не только разбиения, но структуры более общего вида, но для наших целей достаточно результирующим отношением выбрать эквивалентность. 103
сумме этих величин, а оптимальное к — разнице между средними внутренними и внешними связями (характеристика контрастности связей). Критерий B.5) имеет другие привлекательные особенности [63, с. 100—108]: все кластеры полученного оптимального разбиения являются классами в смысле С4 (см. 2.1), т. е. средняя связь между объектами в каждом классе больше средней связи этих объектов до всех остальных; критерий удовлетворяет обычным требованиям к хорошей классификации: в оптимальном разбиении сумма внутри- кластерных связей велика, межкластерных мала, причем для каждого фиксированного числа классов величина порога я регулирует соотношение между требованиями компактности разбиения и равно- наполненностью классов (последнее требование иногда выдвигается в качестве желательного). Таким образом, B.5) обладает теоретическими свойствами, позволяющими рекомендовать его к использованию во многих ситуациях, когда важны не индивидуальные отличия объектов, а сводные характеристики совокупности (напомним, везде в формулах B,3) — B.5) производится усреднение). На его основе разработана целая теория качественного факторного анализа, основная идея которого заключается в следующем [62]. Используя оптимальные уровни к и \i, определяют матрицу R (алгоритмы оптимизации B.5) сводятся к перечисленным выше в параграфе процедурам) и затем отыскивают остаточную матрицу связей; А'=А—kR—|л. Для нее снова отыскивают оптимальное разбиение и т. д. до исчерпания всей дисперсии А (вообще говоря, за неизвестное число шагов). Каждое оптимальное разбиение трактуется как некоторый номинальный фактор, в полной аналогии с количественным «обычным» факторным анализом (правда, понятия, соответствующего ортогональности у количественных факторов, в качественном варианте не найдено). Такой подход вводит эвристическую методологию кластерного анализа в рамки строгой аналитической теории и уже поэтому представляется очень плодотворным. Задача аппроксимации матриц «объект-признак». В этой задаче непосредственное приближение исходных данных результирующим отношением, как в B.3), уже невозможно — матрицы имеют различные размерности. Поэтому фактически для аппроксимации надо решить две задачи: сначала привести все используемые конструкции в сопоставимую форму, а затем построить соответствующий функционал качества приближения. Первая задача решается в [63] следующим образом. Каждый признак X задается Af-мерной матрицей, где N — число объектов, р=1 для количественного признака, р=ш для качественного (т — число градаций), признак задан в виде набора дихотомических величин [62]. Признаку можно поставить в соответствие множество векторов Цх)=ах, где а — произвольный р-мерный вектор, и убедиться, что L(x) — линейное пространство (в смысле обычных акси- 104
ом). Оказывается, а имеет четкую содержательную окраску: это множество коэффициентов масштаба для шкалы отношений и для шкалы интервалов (если в ней условно зафиксировать точку отсчета, например, центрировать переменную), а также множество числовых «переименований» для номинальной шкалы (см. 1.2). Здесь проявляется, вообще говоря, неортодоксальный подход авторов к определению шкал (шкала наименований определена с точностью до масштаба), но он выглядит вполне приемлемым и позволяет единым образом описать разные шкалы. Теперь можно пользоваться хорошо известным аппаратом линейной алгебры. Близость между векторами х (исходным) и у (результатным), имеющими в общем случае разную размерность, может пониматься в трех смыслах [63, с. 85]: как близость х и ху = РуХ, где х — проекция х на пространство L(y), Ру — оператор перехода; как близость ух и у, где ух=Рху — проекция у на пространство L(x); как близость элементов (векторов) пространств L(x), L(y). Последний вариант сравнения сводится к задаче оцифровки качественных переменных и прямого отношения к проблеме классификации не имеет [3, т. 2]. А первые два способа, оказывается, порождают интересные постановки. Они возникают, если рассматривается не один, а несколько признаков. Пусть имеются признаки Jti,..., xw разной размерности и требуется найти признак, заданный матрицей Z, самый близкий в среднем ко всем исходным признакам. Задача построения отношения, ближайшего к набору имеющихся отношений, типична для экспертного оценивания, группового выбора, анализа данных [25, 48 и др.]. В зависимости от вида используемой проекции формируются два критерия аппроксимации: w F,(Z) = 2J \xf-Pzxf\ 2+min , B.6) B.7) где Pxrxf(xfxf)-lxf. Анализ этих выражений в разных ситуациях [63, с. 86—95] приводит к нескольким выводам. Если все признаки (х и z) количественные, а также стандартно центрированные и нормированные (см. 1.3), то F1=F2, а г представляет собой собственный вектор матрицы ххт=р, отвечающий ее максимальному собственному числу, т. е. z совпадает с первой главной компонентой множества признаков х. Если все признаки номинальные, то минимизация F\ и F2 превра- 105
щается в максимизацию cx(z)=^ K(xf/z\, с ?0=2 Ки/хл, где К— определенный коэффициент связи двух номинальных признаков, показывающий долю правильных предсказаний значений одного признака на основе значений другого (см. [63, с. 72]). Заметим, что С\ и с2 аналогичны другим конструкциям, возникающим в анализе данных: известно, что максимальная сумма коэффициентов ранговой корреляции Спирмена с каким-то показателем достигается, если его ранги равны средним из исходных; при стандартизованных количественных переменных признак со средними значениями обеспечивает максимальную сумму линейных корреляций [25]. Правда, в отличие от приведенных примеров вид разбиения в С\ и Сг не определяется так просто по известным разбиениям. Если все исходные признаки х количественные, а г — качественный, то Fi(z) эквивалентен критерию минимизации средневзвешенных внутриклассовых дисперсий (модификация F2, /з» Лб). В общем случае если z — разбиение /?, то F^z) принимает вид: с2(/?)=2] 2 (рч~Р)у Где pii~~элемент матрицы P,~p = m/N — среднее значение Р. Как видно, этот функционал является частным случаем полученного выше критерия B.5). Если все х количест- w венные, то Р,7=2 *И' чт0 является своеобразной мерой близости объектов, особенности которой в [63] подробно разбираются. Если рассматривать с более широких позиций задачу нахождения разбиения, максимально коррелирующего с исходным набором признаков, то ее удобнее всего решать в терминах матричных корреляций (аналогично матричным расстояниям в 1.2). Оказывается, это равносильно максимизации суммы коэффициентов Чупрова (если все признаки номинальные) или коэффициентов детерминации (если все признаки количественные). Если из W признаков первые W\ являются номинальными, а остальные — количественными, причем каждый номинальный.имеет т\ градаций, то в терминах близости k объектов критерий приобретет вид: c3(/?)=-=rV -rj- V p где pij определено в табл. 1.3. В этом функционале число классов k заранее не задается. Из рассмотрения видно, что аппроксимационный подход порождает весьма общие конструкции, часть из которых раньше предлагалась из эвристических соображений. Более того, он позволяет органически увязывать функционалы качества, меры близости объектов, способы нормировки признаков и коэффициенты близости при- 106
знаков (это особенно заметно в ?з(/?)). Все эти обстоятельства позволяют считать такое направление теоретически оправданным и методологически наиболее стройным из числа имеющихся подходов. Однако и ему присущи определенные ограничения, часть из которых отмечается авторами. Так, мера рц устроена весьма специфично — чем ближе значения признаков к среднему значению, тем меньше их близость, что приемлемо, видимо, не всегда. Далее, не во всех случаях может быть справедлива гипотеза о кластерах, характеризуемых только средними расстояниями, которые типичны для задач квадратичной аппроксимации. Наконец, концепция, лежащая в основе построения критериев B.6) и B.7), как и другие связанные с ней конструкции, обсуждаемые выше, должна использоваться с некоторыми оговорками. Дело в том, что построение, скажем, признака, максимально коррелирующего с имеющимися, целесообразно главным образом тогда, когда эти признаки достаточно сильно коррелируют друг с другом. В противном случае искомый признак, как и обычная «фиктивная средняя» в статистике, будет «оптимально» описывать некоторое несуществующее состояние. Поэтому целесообразно перед использованием рассмотренных процедур убедиться в наличии корреляций в исходных данных (это не касается критериев B.3) — B.5)). 2.4. ЭКСПЕРИМЕНТАЛЬНОЕ СРАВНЕНИЕ КЛАСТЕР-ПРОЦЕДУР 2.4.1. ПОСТАНОВКА ЗАДАЧИ И РАЗВИТИЕ ИДЕЙ Как видно из 2.2, 2.3, теория классификации наблюдений далека от завершения, а подавляющее большинство алгоритмов лежит вне каких-либо обобщений. Наиболее перспективным представляется путь синтеза теоретических представлений с обширными экспериментальными исследованиями. В них можно выделить несколько направлений. 1. Реальные массивы данных с неизвестной структурой. Берется какой-либо набор данных и обрабатывается разными алгоритмами. Результаты сравниваются между собой или с экспертным разбиением, если оно имеется. Понятно, что этот способ малоубедителен для общих выводов, но очень полезен в конкретном исследовании, где близость результатов почти всегда говорит о наличии структурированности в данных. 2. Реальные массивы данных с известной структурой. Существует несколько опубликованных массивов данных, на которых уже опро- бывались различные алгоритмы классификации и которые поэтому могут служить хорошими тестами для проверки новых процедур. Это матрица 19 социологических параметров Каля — Дейвиса [84, 103] — см. 3.1; матрица четырехмерных данных по 150 ирисам Фишера [84]; некоторые наборы данных Меззиха [84] и др. Число приз- 107
нанных наборов весьма невелико, и по каждому из них имеется разное количество сравнений. Данные такого типа, безусловно, весьма привлекательны, но и они не могут убедительно ответить на вопрос о качестве алгоритмов в общем случае, так как успешное разбиение на конкретной выборке не гарантирует успеха на другой. 3. Искусственные массивы данных с известной структурой. Подбираются массивы данных (обычно двумерные), в которых кластеры выделяются визуально, а затем сравниваются результаты работы нескольких процедур [125 и др.]. Такой подход важен прежде всего для сопоставления формальной и человеческой классификации. Но как раз прямое участие человека в формировании каждой выборки предопределяет ограничения подхода — трудно установить устойчивые характеристики алгоритмов, связанные со случайным разбросом. К тому же двумерная ситуация не является универсальной. 4. Искусственные массивы данных с известной структурой, генерируемые на ЭВМ и обрабатываемые в режиме статистического моделирования. Решается задача типа 3, но задаются не отдельные кластеры, а общие свойства кластерной структуры, данные генерируются на ЭВМ в режиме многократного воспроизведения. Этот путь органически сочетает в себе различные черты вышеописанных подходов и выглядит наиболее предпочтительным. Можно выделить два направления в сравнении процедур на сгенерированных данных. В первом работа идет с некоторой «хорошо устроенной» матрицей расстояний, на которую накладываются искажения, обычно в форме нормально распределенной ошибки [121, 114]. Во втором генерируются непосредственно точки в многомерном пространстве, структурированном определенным образом, причем исходная структура может искажаться различными контролируемыми способами [127, 144, 140, 134]. Последний способ более универсален, так как позволяет строить самые разнообразные структуры и вводить ошибки любых типов. При дальнейшем расширении работ по данной проблематике следует учесть два обстоятельства: необходимость вовлечения в расчеты новых алгоритмов кластеризации и желательность сравнения уже проверенных алгоритмов на новых типах сгенерированных данных. Рассмотрим результаты, полученные нами в [58]. 2.4.2. СХЕМА ГЕНЕРАЦИИ ДАННЫХ И СРАВНЕНИЯ АЛГОРИТМОВ Объекты генерируются в m-мерном гиперкубе, каждая вершина которого имеет координаты по осям, равные 0 или 1. Плоскостями, проходящими через центр куба и середины ребер, ортогонально им куб разделен на 2т «маленьких кубиков», каждый из которых является зоной размещения одного кластера. Собственно генерация происходит следующим образом. Задается число классов k и число наблюдений N. Случайно отбирается k кубиков, в которых фиксированы центральные точки. 108
Затем с помощью датчика равномерно распределенных случайных чисел выбирается т длин интервалов по всем признакам в каждом кластере. Интервалы задают область изменения значений переменных в кластере относительно его центра, совпадающего с центром кубика, в обе стороны симметрично. Таким способом формируются центрированные гиперпараллелепипеды («ящики») со случайными координатами. Эти координаты вершин «ящиков» снова подаются на вход процедуры рандомизации в качестве крайних значений равномерного распределения, после чего формируется требуемое количество точек в классе /i/, которое определяется пропорционально доле данного «ящика» в суммарном объеме всех других. Величину интервалов, задающих удаление от центров классов, можно менять так, что она будет регулировать плотность класса, например, разрешать границами «заступать» в соседние кубики или, напротив, не доходить до их граней и т. д. Кроме точек, попадающих в кластеры, генерируются также шумящие объекты, координаты которых равномерно распределены на всем интервале @, 1). Их количество задается от общего числа классифицируемых объектов в процентах; эти объекты предназначены только для того, чтобы «сбивать с толку» алгоритмы классификации, но в расчете различных показателей, связанных с разбиением, не участвуют. Рассмотренная схема непосредственно гарантирует изолированность и внутреннюю компактность кластеров, причем ими можно управлять, меняя границы интервалов по всем признакам (в [140] изолированность достигается более сложными приемами). После генерации данных и их обработки каким-либо алгоритмом требуется сравнить результаты сгенерированного и полученного разбиений. Как и в [140], сравнение осуществлялось с помощью коэффициента близости разбиений, полученного как единица минус нормированное расстояние Хемминга между классификациями. В зарубежной литературе эта величина известна как коэффициент Рэнда [146]. Однако практически такой же коэффициент был предложен Б. Г. Миркиным в [60] за два года до [146]. Кроме этого нами использовался коэффициент сопряженности Крамера, основанный на статистике х2 [61]. Внутренним критерием качества классификации является сумма внутрикластерных дисперсий по всем признакам (F\ в 2.5) точнее, рассчитывается не сама эта величина, а отношение дисперсии алгоритмического разбиения к дисперсии сгенерированной выборки. Хотя очень редко (в 1—2 % случаев) алгоритм выделяет классы, более плотные, чем сгенерированные (т. е. с меньшей дисперсией), можно считать, что чем ближе такой показатель к единице, тем лучше проведено разбиение. В табл. 2.5 приведены конкретные параметры наших и более ранних экспериментов. 109
Таблица 2.6. Управляемые параметры расчетов в разных схемах моделирования работы алгоритмов классификаций № п/п 1 2 3 4 5 6 7 Параметр Число признаков Число кластеров Число наблюдений в одной сгенерированной выборке Число генерируемых выборок при фиксированных значениях остальных параметров Доля шумящих объектов, в % к объему выборки Число сравниваемых алгоритмов Характер распределения в кластере Принимаемые значения в схемах И. Манделя, Л. Черного [58] 3, 5, 7 3, 5, 7 30, 50 50 10,30 14 равномерное Г. Миллига- на [140, 141] 4, 6, 8 2, 3, 4, 5 50 1 0, 20, 40 15 нормальное Ф. Кьюипе- ра, Л. Фише- ра [127]' 2, 3, 4, 5 2, 3, 4, 5 20 30 0 6 нормальное Предлагаемая нами в табл. 2.6 схема (гр. 3.) отличается от двух других (гр. 4, 5) способом генерации, характером распределения и особенностью расчета. На каждый фиксированный набор параметров в [140] произведен расчет лишь по одной выборке. Г. Мил- лиган использовал и другие типы задания в данных ошибок, кроме введения шумящих объектов (искажение расстояний, ведение новых переменных и др.). Из этого видно, что степень статистической подтвержденности каждой выдвигаемой гипотезы у него недостаточно велика. В общей сложности им расклассифицировано около 1000 наборов данных, на которых меняется 8 параметров; в нашей схеме было обработано около 2000 выборок при изменении 4 параметров, поэтому есть основания считать полученные выводы статистики более устойчивыми. 2.4.3. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНОГО СРАВНЕНИЯ Сравнивалась работа 14 достаточно популярных алгоритмов классификации, часть из которых подвергалась экспериментальному сопоставлению раньше (в скобках приводится номер алгоритма по табл. 2.3). Д1— метод /г-средних, вариант Болла и Холла (алг. 34). А2— метод ife-средних, вариант Мак-Кина (алг. 35). A3— метод А1, объединенный с алгоритмом Боннера (алг. 54), порог равен 0,25. Д4—метод fe-средних, вариант Хартигана (алг. 36). В алгоритмах А1, А2, А4 выбор начальных к центров класса осуществлялся по эвристической схеме (алг. 40). А5— метод ближнего соседа (алг. 2). А6— метод дальнего соседа (алг. 3). 1 Приводимые параметры не варьировались в полном объеме друг с другом; в основном в [127] работа шла с двумерными данными. 110
А7—медиана (алг. 7). А8—простое среднее (алг. 6). А9—групповое среднее (алг. 5). А10—центроид (алг. 4). АИ—метод Уорда (минимизации приращения дисперсии) (алг. 8). А12— метод А1 при случайном выборе центров классов. А13— метод А2 при случайном выборе центров классов. А14— метод А1 с предварительным выбором разбиения по «центроиду», который представляет собой искусственную ось в пространстве параметров, полученную сложением отдельных показателей. Такой быстрый прием иногда рекомендуется для начала работы алгоритмов /г-средних. Расчеты проводились в предварительном и окончательном вариантах на ЭВМ ЕС-1020 и ЕС-10601. Опишем их основные результаты. Общая характеристика расчетов. На предварительном этапе выяснилась бесперспективность процедур А12—А14. Разбиения, полученные с их помощью, резко отличались по всем параметрам от разбиений, полученных другими алгоритмами. Это вполне согласуется с результатами [140], где также отмечена неэффективность случайного выбора центров классов. Поэтому для очень популярных процедур типа ^-средних надо прежде решать дополнительную задачу о выборе подходящего начального разбиения. Эвристика А14 для такой цели явно не годится. Поэтому в целях экономии в дальнейшем изложении алгоритмы А12— А14 будут опущены. Таблица 2.7. Зависимость критериев качества от числа признаков и числа классов (уровень шума 10%)' Число классов 7 3 Число признаков 3 5 7 3 5 7 &-средни> К 86 77 74 70 65 60 X 90 90 91 80 82 80 , A3 Д 1,19 1,46 1,55 2,29 1,92 2,08 ближний сосед К 78 60 59 35 28 21 А5 X 79 65 70 51 50 43 Д 2,21 2,94 2,87 5,27 4,48 4,79 групповое среднее К 91 73 73 63 55 50 X 95 86 87 74 74 69 А9 Д 1,16 1,62 1,68 2,57 2,30 2,64 метод Уорда К 90 85 85 97 89 94 АИ X 93 94 96 98 97 92 Д 1,05 1,17 1,18 1,05 1,17 1,05 1 К, X — средние значения коэффициентов Крамера и Хемминга, умноженные на 100; Д — отношение внутриклассовой дисперсии алгоритмического разбиения к дисперсии сгенерированного разбиения; Зависимость качества классификации от размерности пространства и числа классов. Из табл. 2.7 легко видеть, что для всех алгоритмов, кроме АН, показатели почти монотонно меняются от первой 1 Программное обеспечение осуществлено главным образом А. Зыряновым с участием Л. Черного; расчеты выполнены А. Зыряновым и Н. Шишковой. 111
строчки к последней: К, X снижаются, Д растет, то есть по мере уменьшения числа классов и увеличения размерности пространства качество классификации снижается. Этот вывод подтверждается и на всех других алгоритмах. Что касается АН, то он, как видно, постоянно дает Значения критериев, близкие к наилучшим (см. подробнее ниже), так что их колебания можно считать случайными. Зависимость величины X от числа классов была замечена и раньше [127] и в определенной мере (но не полностью) объясняется особенностями самого коэффициента. То же самое можно сказать о коэффициенте к, который уменьшается с уменьшением числа классов. Но коэффициент Д по своему построению никак не связан с числом классов, хотя имеет такую же четкую тенденцию. Следовательно, отмеченная зависимость связана с характером процесса классификации. Зависимость критериев качества от размерности пространства раньше практически не изучалась. По нашим данным эта зависимость существенна (хотя в целом ниже, чем от числа классов), причем более заметно проявляется при большом числе классов, что обусловливается не видом используемых коэффициентов, а реальными свойствами разбиений. Полученные выводы не вполне тривиальны и нуждаются в обосновании. Скорее всего эффект размерности связан с увеличением общего объема, занимаемого кластером, ростом расстояний по абсолютной величине, благодаря чему возрастает и общий разброс в матрице расстояний. Для евклидова пространства это справедливо и в формальном отношении [54]. Поэтрму алгоритмы чаще сбиваются и отходят от истинной структуры. Положительное влияние роста числа классов на уровень восстанавливаемости можно объяснить особенностями работы алгоритмов. Иерархические процедуры агломеративного типа почти не ошибаются на первых шагах (когда объединяются ближайшие объекты) и с большей вероятностью могут сбиться на последующих, когда число классов становится меньше. Процесс переноса объектов из класса в класс в алгоритмах ^-средних при большом числе классов становится куда более вариативным, чем при малом, что создает возможность достижения более глубокого оптимума качества классификации. В целом можно сделать вывод, что следует стремиться обрабатывать массивы невысокой размерности и выделять по возможности достаточно большое число классов — результаты будут надежнее. Первая часть вывода вполне согласуется с концепцией работы в сокращенных пространствах (факторов или исходных признаков — см. 3.1), а вторая — с положением о том, что лучше выделить больше кластеров, чем их есть на самом деле, так как при этом не происходит потери информации [141]. Взаимосвязи критериев качества. Определялись коэффициенты линейной корреляции между критериями качества классификации. В 112
Таблица 2.8. Связь между показателями качества классификации (число признаков 7, доля шума 10%, коэффициенты умножены на 100) Алгоритмы А1 А2 A3 А4 А5 А6 А7 А8 А9 А10 АИ Среднее модулей Общие средние Коэффициенты Крамера и минга Хем- Крамера—отношения дисперсий Хемминга — отно- шения дисперсий число классов 3 79 79 78 74 47 72 71 79 76 80 68 73 5 59 67 52 60 76 45 81 67 60 86 46 64 65 7 56 56 34 63 58 59 72 63 68 73 49 59 3 —70 —71 —67 —55 — 18 —74 —44 —56 —66 —64 —89 61 5 —61 —72 —61 —64 —46 —59 —65 —74 —67 —73 —80 66 64 7 —63 —64 —47 —60 —50 —63 —65 —67 —75 —73 —79 64 3 —86 —84 —83 —75 —46 —82 —59 —63 —84 —72 —73 73 5 —67 —84 —85 —79 —51 —78 —75 —85 —80 —83 —61 77 76 7 —80 —76 —83 —72 —80 —77 —76 —85 —89 —90 —61 79 Среднее модулей 71 73 66 67 52 68 68 71 74 77 67 68 табл. 2.8 числа представляют корреляции, рассчитанные на множестве из 50 выборок, по каждой из которых после классификации определялись К, X, Д. Как видно, связи К — Хи К — Дв целом не очень высокие, то есть коэффициент Крамера недостаточно тесно связан с внутренним критерием качества. Существенно выше связи X — Д, что подтверждает тезис в [141] о пригодности коэффициента Хемминга для восстановления кластерной структуры. У отдельных алгоритмов в среднем похожий уровень согласованности критериев, за исключением А5, у которого она существенно ниже. В целом видно, что коэффициенты отражают различные аспекты близости разбиений. Близость алгоритмов классификации. В табл. 2.9 приведены две матрицы линейных корреляций между характеристиками разбиений, полученных разными алгоритмами. Над диагональю — коэффициенты корреляции между коэффициентами Хемминга, под диагональю — между относительными дисперсиями. Видно, что связь между различными алгоритмами слабая. Можно выделить только две пары алгоритмов, дающих сравнительно близкие результаты (это подтверждается и при других параметрах): А1 — А2 и в меньшей степени А9— А10. Остальные алгоритмы могут дать рассогласованные результаты. В целом этот вывод является довольно неожиданным. Правда, 113
Таблица 2.9. Матрица корреляций между характеристиками разбиений, полученных разными алгоритмами (число признаков 7, число классов 7, доля шума 10%) Алгоритмы А1 А2 A3 А4 А5 А6' А7 А8 А9 А10 АН А1 "\ 88 31 30 19 19 20 48 30 30 30 А2 89 "\ 42 33 33 20 26 52 37 31 25 A3 42 45 "^¦^ 50 19 19 19 42 44 , 41 15 Коэффициенть А4 29 28 43 ^^«^ 33 08 31 37 32 34 21 А5 26 38 30 27 ^-¦^ 04 12 33 26 36 01 А6 44 43 49 34 23 ^^ 46 31 44 12 34 i Хемминга А7 40 42 45 43 31 50 33 32 26 20 А8 43 51 40 27 46 57 .58 ^^ 54 44 21 А9 37 43 55 39 48 63 49 ^66 ^^ 54 36 А10 29 32 43 38 52 33 42 54 ^73 17 АН 35 32 16 30 14 42 45 46 23 s^18 Коэффициенты отношений дисперсий точно измерять связь между алгоритмами следует непосредственно по матрицам парной сопряженности классификаций. Из-за технических сложностей такие расчеты не проводились. Коэффициенты корреляции в табл. 2.9 говорят лишь о том, например, что изменение коэффициента X и алгоритма А1 на разных выборках плохо согласуется с изменением этого же коэффициента у алгоритма А4 (связь 0,29). Но косвенно это свидетельствует о разнице в разбиениях. Так что данные табл. 2.9 четко говорят о том, что выбор алгоритма классификации является ответственной задачей. Влияние шума на качество классификации. В табл. 2.10 приведены сведения об изменении двух критериев качества при возрастании шума от 10 до 30 %. Для коэффициентов X число в таблице означает разность коэффициентов при уровнях шума 30 и 10 % (знак «—» говорит о том, что с ростом шума качество снижается); для Д приведены темпы прироста коэффициента (%) при повышении уровня шума, т. е. величина 28 в первой строке означает, что для А1 при повышении шума отношение дисперсий возрастает на 28 %, качество классификации ухудшается. Видно, что устойчивость методов к ошибкам снижается в зависимости от роста размерности и числа классов для обоих коэффициентов. Так что сделанная выше рекомендация о надежности выделения большого числа кластеров нуждается в уточнении — уровень качества действительно растет, но растет и чувствительность к возможным ошибкам. 114
Таблица 2.10. Зависимость критериев качества от уровня шума При- знаки А1 А2 A3 А4 А5 А6 А7 А8 А9 А10 АИ Среднее Коэффициенты Хемминга, X 3 2 — 1 8 —3 1 —2 1 0 1 4 — 1 0,6 3 7 3 1 3 4 —12 —5 —6 —5 —3 —5 0 —2,3 i 3 3 0 4 —5 5 —3 —2 5 —2 2 0 —0,3 7 —2 —3 —61 у — 18 —5 g —6 —6 —7 1 —6,4 3 1 2 7 —4 — 13 0 —2 — 14 4 3 —6 —4,2 г 7 —2 —5 —6 — 13 —22 —6 —16 —9 —6 — 10 0 -8,6 сред- нее 0,5 — 1 —0,7 —4,7 —9,8 —3,5 —5,7 —4,8 —3,3 —2,5 — 1,3 —3,3 Отношения 3 3 —01 21 -17 33 84 35 94 37 25 12 20 7 13 17 10 9 82 20 35 24 17 26 9 24 3 11 25 8 36 36 59 68 17 50 57 3 34 [ дисперсий, 5 7 28 30 36 47 215 36 59 33 39 55 26 55 3 20 40 -1 18 15 32 44 32 24 58 10 27 г 7 38 50 43 68 214 44 222 64 45 70 19 80 Д, % сред- нее 18 30 13 35 99 38 75 34 33 46 14 40 Таблица 2.11. Упорядочение алгоритмов по степени их устойчивости к возмущениям Ранги для X для Д общие для иерархических процедур по величине X для иерархических процедур по величине X из [140] А1 1 3 2 А2 3 4 4 A3 2 1 1 А4 8 7 8 А5 11 11 11 7 1 А6 7 8 8 4 7 А7 10 10 10 6 3 А8 9 6 8 5 5 А9 6 5 5 3 6 А10 5 9 6 2 2 АИ 4 2 3 1 4 Алгоритмы обладают разным уровнем чувствительности — даже по средним оценкам для дисперсии величина показателя может возрасти в два раза (А5) или подняться лишь на 13 % (A3). В табл. 2.11 приведены ранговые оценки устойчивости алгоритмов по двум показателям качества (на основе табл. 2.10), а также средние ранги двух упорядочений, которые можно рассматривать как общую характеристику устойчивости алгоритмов. Видно, что наиболее надежными методами являются А1, A3, АН, наименее надежными — А7 и особенно А5. Интересно провести сопоставление полученных результатов с оценками Г. Миллигана [140] (точное сравнение невозможно из-за разницы в условиях эксперимента). В табл. 1 [140] во втором и третьем столбцах приведены коэффициенты Рэнда, усредненные по всем 115
Таблица 2.12. Качество алгоритмов классификации1 Алгоритмы А1 А2 A3 А4 А5 А6 А7 А8 А9 А10 АН Хорошая восстанавливае- мость C, значения X 1 84 82 90 84 79 93 94 94 95 94 93 Д 2 1,29 1,39 1,18 1,34 2,21 1,12 1,25 1,19 1,16 1,20 1,05 X 3 8,5 10 7 8,5 11 5,5 3 3 1 3 5,5 7, 10) ранги Д 4 8 10 4 9 11 2 7 5 3 6 1 средние 5 8 10 7 9 11 3 6 4 1 5 2 Плохая восстанавливае- мость G, значения X 6 83 80 80 68 43 82 59 68 69 68 92 д 7 2,25 2,82 2,06 3,03 5,52 2,42 5,04 3,34 3,27 4,30 1,16 X 8 2 4,5 4,5 8 11 3 10 8 6 8 1 3, 30) ранги Д 9 3 5 2 6 11 4 10 8- 7 9 1 средние 10 2 5 3 7 И 4 10 6 6 9 1 Общие средние ранги 11 3 5,5 7 2 5,5 4 1 Ранги по уровню устой- чи- вости 12 2 4 1 8 11 8 10 8 5 6 3 Сводная оценка чества 13 — 2 5 7 3 6 4 — 1 1 Усреднение рангов в случае совпадения значений производилось так, чтобы сумма рангов была равна сумме членов натурального ряда. параметрам, для 20 и 40 % аномальных наблюдений. Такие доли «выбросов» практически совпадают с используемыми нами в процессе зашумления, а в [140] не допускается их попадание в кластеры. Поскольку в обоих случаях наблюдалась разница в уровнях шума в 20 %, в какой-то мере можно сравнить результаты классификаций. В табл. 2.11 приведены ранги, соответствующие разности значений показателей в столбцах 3 и 2 табл. 1 из [140]: чем сильнее меняется восстанавливаемость, тем ниже ранг (т. е выдержан принцип табл. 2.10). Видно, что два упорядочения похожи весьма слабо, коэффициент корреляции по Спирмену равен —0,28. Дело, видимо, в противоположных оценках алгоритма А5 (метод ближнего соседа). В [140] специально обсуждается странный факт его устойчивости к выбросам, но убедительного объяснения этому нет. Наши эксперименты в этом смысле приводят к более традиционным выводам, надежно следующим из табл. 2.10: метод ближнего соседа плохо реагирует на искажения в данных. Возможно, противоположный вывод как раз обусловлен наличием лишь одной выборки при фиксированных параметрах — не исключено случайное угадывание (см. табл. 2.10, где оно также имеется). Общая оценка качества алгоритмов. В табл. 2.12 приведены значения критериев качества для двух крайних случаев — хорошей восстанавливаемости C признака, 7 классов) и плохой восстанавливаемости, причем в первом случа-е взят уровень шума 10 %, во втором—30 %. Там же осуществлено упорядочение алгоритмов по двум 116
критериям с учетом их ранжировки по уровню устойчивости (см. табл. 2.11). Из рассмотрения таблицы можно сделать несколько выводов. Видно, что в рамках зафиксированного набора параметров (обозначим: х — хорошая восстанавливаемость, п — плохая) ранги Д и X достаточно сильно связаны (здесь и далее — корреляции р по Спир- мену): для х равен 0,66, для п —0,93. Поэтому использование р оправдано (гр. 5 и 10, см. также табл. 2.11). Но при переходе от х к п связи нарушаются: коэффициент корреляции для Д — Д (гр. 4—9) равен 0,57, а для X — X всего 0,03. Из этого ясно, что в разных условиях алгоритмы ведут себя по-разному (по крайней мере часть алгоритмов). Поэтому делать общие оценки качества нецелесообразно. Они допустимы для семи алгоритмов, у которых все 4 оценки близки между собой (и то методы A3 и А7 включены в группу сопоставимых процедур с натяжкой). Такие общие оценки приведены в гр. 11 (табл. 2.12). Резко выделяются два алгоритма — лучший (Уорда АН) и худший (метод ближнего соседа А5). К хорошим методам также можно отнести алгоритм дальнего соседа А6 и алгоритм /г-средних Бол- ла и Холла с эвристикой Боннера A3, а к плохим — медиану А7. По уровню устойчивости в гр. 12 (см. табл. 2Л1) можно судить о качестве методов: если в гр. 11 упорядочено 7 алгоритмов по величине коэффициентов качества, то в гр. 12 приведена характеристика устойчивости этих коэффициентов к возмущающим ошибкам. Две эти ранжировки весьма близки (связь 0,69), то есть можно оправданно дать сводную оценку в гр. 13. Как видно, она несколько отличается от гр. 11, но по-прежнему твердо на своих местах А5 и АН. Что касается остальных алгоритмов — они работают по-разному в разных условиях, и соответственно следует делать выводы: если условия известны — надо пользоваться графами 5 и 10 с учетом гр. 12, если нет — применять универсальные процедуры АИ или A3. Полученные результаты в большей мере подтверждают выводы [127], а именно, там установлено: плохо работает А5; А11 производит классификацию почти идеально (вспомним близкие к предельным коэффициенты наших расчетов); методы центроида А10 и групповой средней А9 совершенно похожи (см. табл. 2.9); качество классификации возрастает с увеличением числа кластеров (см. табл. 2.7); наряду с АН в ряде случаев хорошо работает А6 и А9 (см. табл. 2.12), где А9 является лучшим алгоритмом в гр. 5. В [140] даются более осторожные оценки преимущества АН и недостатков А5, отмечается хорошее качество А6 и А9. В целом полученные результаты в сопоставление с более ранними позволяют делать практические выводы и дают основание надеяться, что дальнейшее более интенсивное расширение экспериментов в данной области поможет в решении многих неясных вопросов кластер-анализа. 117
3. КЛАСТЕР-АНАЛИЗ И СМЕЖНЫЕ ВОПРОСЫ 3.1. УПРОЩЕНИЕ ОПИСАНИЯ: КЛАССИФИКАЦИЯ В СОКРАЩЕННЫХ ПРОСТРАНСТВАХ, ВИЗУАЛИЗАЦИЯ ДАННЫХ Вся сложность и одновременно привлекательность современных методов обработки статистических данных заключается в их ориентации на многомерные явления. Здесь возникает диалектическое противоречие между стремлением комплексно, многомерно описать процесс и необходимостью делать это сжато, ясно, маломерно. С одной стороны, системный подход требует все большего охвата количества сторон и связей явления, а с другой — выделения связей только базисных, узловых. Да и человеческого сознания не хватает для постижения действительных связей уже 5—7 параметров, а в некоторых задачах их сотни. Применительно к задаче классификации вопрос стоит так: можно ли (и как) проводить классификацию в пространстве меньшей размерности, чем исходное, не теряя при этом определенных свойств исходного пространства? Для ответа надо сделать некоторые уточнения. Сокращение пространства выгодно по нескольким причинам: в процессе сокращения пространства выбираются наиболее важные информативные характеристики, что существенно само по себе; результаты классификации в сокращенном пространстве устойчивее и надежнее, чем в исходном многомерном; малое количество параметров легче поддается содержательному восприятию и дальнейшему анализу, чем большое; в случае сокращения пространства до размерностей 1—3 данные становятся визуально наблюдаемыми, а наглядность полезна во всех отношениях; сокращение числа признаков приводит к упрощению вычислительных процедур классификации. Требуется понять, что именно перенести из исходного пространства не искаженным (или мало искаженным) в сокращенное. Обычно желательно сохранить геометрическую структуру множества объектов (разные критерии такого типа будут рассмотрены ниже). Но можно задать вопрос: зачем ее сохранять? Ведь если считать, что среди «исходных» признаков есть лишние, «шум», то они только искажают «реальную» структуру. Зачем тогда, сокращая пространство, ориентироваться на все исходные признаки, включая мешающие? Однозначно ответить, видимо, невозможно, и остается либо принять за основу для сравнения исходные свойства совокупности, либо выбрать некоторый внешний критерий сокращения размерности и вообще обработки данных (см. 3.2). Перечислим основные типы внутренних критериев решения данной задачи, ориентированных на структуру исходных данных. 118
Методы сокращения размерности исходного пространства признаков Переход к комбинациям исходных показателей Многомерное шкалирование Метрическое шкалирование Поиск информативных признаков Случайный поиск Неметрическое шкалирование Методы визуализации многомерных данных для классификации Непосредственное проецирование объектов в пространство размерностью 1 —3 Аналитические решения Общие факторы Главные компоненты Прочие обобщенные индексы Вспомогательные визуальные представления (иерархические деревья, упорядоченные матрицы, кратчайшие пути и др.) Представление данных в образной форме (кривые, человеческие портреты, геометрические фигуры и пр.) Рис. 3.1. Способы сокращения размерности исходного пространства и визуализации многомерных данных
Рассмотрим два способа сокращения размерности и визуализации данных (рис. 3.1). 1. Переход из исходного описания в новое пространство, оси которого составляют некоторые комбинации исходных признаков, часто используется в анализе данных. Обычно применяют компонентный анализ и проецируют точки в пространство двух первых компонент. Этот прием аргументирован следующими экстремальными свойствами главных компонент [5 и др.]: сумма квадратов евклидовых расстояний от исходных точек до пространства, натянутого на т первых главных компонент, наименьшая относительно любых других подпространств той же размерности, полученных с помощью линейных преобразований исходных признаков; среди всех подпространств размерности т'<im в пространстве компонент меньше других искажается сумма квадратов евклидовых расстояний между объектами; наилучшим образом сохраняется сумма расстояний до центра тяжести точек и сумма углов между объектами с вершинами в центре тяжести. Кроме этого, методы линейного проецирования имеют высокую скорость. Проекция точек в пространство первых компонент (особенно если на них приходится большая часть дисперсии всех признаков) обычно позволяет сделать быструю и довольно неплохую прикидку действительного расположения объектов. Приведем пример из [89], в котором данные классифицируются методом главных компонент и иерархическими процедурами. На рис. 3.2 приведены проекции 85 стран в пространство двух компонент; в исходном пространстве каждая страна была описана 31 (!) показателем, характеризующим уровень ее развития. Выделенные кластеры получены иерархической группировкой (средняя связь). Как видно, результаты кластерного анализа и визуального определения кластеров могут быть весьма близкими, несмотря на высокую размерность исходного пространства. Содержательно и подробно классы описаны в [89] и хорошо интерпретируются (выделяются группы высокоразвитых стран, развитых стран бассейна Средиземного моря и т. д.). Однако используемые в компонентном анализе геометрические представления нельзя признать идеальными для классификации. Во- первых, они измеряют близость только в евклидовом пространстве и по евклидовым расстояниям, а это не универсально; во-вторых, проекция в пространство двух первых компонент хорошо отображает структуру, только если сами эти компоненты хорошо описывают все признаки, что происходит не всегда; в-третьих, самое главное, критерии гарантируют сохранение только некоторых «суммарных» характеристик, что может достигаться, вообще говоря, при произвольно большой разнице в действительном расположении точек. Скажем, сумма 120
США Нидерланды Бельгия* • Швейцария • # Франция • Норвег! I ^Япония Abctdhh >. Новая Зеландия «САвстралия Италия . Греция 12 10 :Дания .Кувейт • Исландия , Израиль 3 , Ирландия ортугалияъГ Аргентина • Сингапур Уругвай • Гонконг Венесуэла ЮАР Чили Ливан иг -4 -3 -2 -1 Л^ • 2 /^Мексика 1 Л Панама Тайвань* Ливия Южная Корея' Сирия•" Турция. Иран* | Габо . - Марокко\ Либерия^^Замбия Таиланд- *"* Камбоджа-^- . Сенегал-^^ ьвадор лжир Никарагуа Гватемала ондурас Боливия Пакистан 4 3 4 5 6 • Маврикий Коста-Рика Гайана Реюньон Шри Ланка Бразилия Иордания Тунис Берег Слоновой кости Эквадор Южная Родезия Филиппины Рис. 3.2. Расположение четырех кластеров, выделенных иерархической процедурой классификации, в пространстве первых главных компонент [89, рис. 22] 121
квадратов расстояний не изменится, если два объекта поменять местами, но на смысл классификации эта процедура влияет очень сильно. Особенно существенно искажающее воздействие аномальных наблюдений. В [93, с. 36] приводится пример искажения структуры данных после их проецирования на плоскость главных компонент, особенно заметного на фоне четкого ее выявления алгоритмом многомерного шкалирования. 2. Шкалирование — поиск подпространства, в котором разница между расстояниями в нем и в исходном пространстве была бы минимальной. Соответственно формируются и критерии приближения: в их основе лежит величина \Dm — Dm\ где Dm, Dm — матрицы расстояний в двух пространствах, близость между которыми минимизируется. Если стремятся точно (численно) приблизить одну матрицу к другой — шкалирование называют метрическим; если стараются сохранить только порядок расстояний в двух пространствах — неметрическим. Второй вариант предъявляет менее сильные требования к качеству приближения, а если учесть условность расстояний (см. 1.3), то и более оправдан. На практике, действительно, более популярно неметрическое шкалирование. Когда т' = 2, шкалирование превращается в проецирование на плоскость. Ошибка проецирования может быть оценена по- разному; в отличие от жесткой постановки компонентного анализа существует множество методов и моделей шкалирования, которое давно превратилось в самостоятельный раздел анализа данных [43, 93]. Важно отметить, что в шкалировании отыскиваются не новые признаки, а новые пространства, поэтому интерпретировать его результаты можно только как восстановленную (на плоскости) структуру расположения точек. 3. Содержательно, очень интересно, сокращая размерность, сохранять исходные признаки, а не вводить их комбинации, смысл которых не всегда ясен. Поэтому особую важность приобретает задача выбора информативных признаков. Приведем краткие результаты ее решения, полученные нами в [54]. Если исходные признаки упорядочены по величине модуля разностей матриц расстояний, полученных по каждому признаку в отдельности и по всем сразу, то наилучшим образом в смысле этого же критерия качества приближает общую матрицу расстояний сумма первых, наиболее близких к ней признаков. Если в качестве измерителя близости использовать квадраты евклидовых расстояний, то первые признаки с наибольшими дисперсиями лучшим образом описывают структуру данных, а если признаки стандартизованы, то любой набор данных дает одинаковую ошибку аппроксимации. 122
Если требуется получить набор оптимально взвешенных признаков, удобных при классификации, целесообразно решить следующую регрессионную задачу: 10-2 0,1—min, C.1) где D — общая матрица расстояний, D/ — матрица, полученная по /-му признаку, \с\—норма любого вида, /—множество номеров признаков. В принципе / можно формировать на основе первых двух рекомендаций, хотя они уже не будут носить строгий характер. В такой постановке при небольшой вариантности расчетов можно достичь достаточно высокой точности аппроксимации. Таким образом, рекомендуется сначала упорядочить признаки по степени их близости к общей матрице расстояний, а затем определить веса первых признаков по C.1). В их пространстве и надо проводить классификацию. Удобна любая визуализация данных, а не только непосредственное проецирование точек, рассмотренное выше. Существует ряд приемов частичной вспомогательной визуализации, которые могут помочь в принятии решений. Рассмотрим типовые из них на примере известной матрицы корреляций Дж. Каля и Дж. Дейвиса [103]. Эта матрица A9X19), способная служить тестом, много раз анализировалась. В ней приведены числа (единица минус коэффициент корреляции), характеризующие связи 19 социометрических параметров. Проведем классификацию показателей тремя способами, каждый из которых имеет некоторое визуальное воплощение. На рис. 3.3 изображена упорядоченная (алг. 29, табл. 2.3) матрица коэффициентов. Данные структурированы весьма плохо, высоких корреляций, близких к единице, мало. Все они выделены в блоки ступенчатой ломаной. Возможен вариант присоединения объекта 7 к классу 1 или даже объединения классов 1, 4, 10 и 3, 8 (коэффициенты объединены прямоугольником). Решение об объединении принимается фактически по порогу — например, принимая его за 0,5, выделяют классы 9, 15, 13 (пунктир в таблице), 3, 8, 7 и т. д. Матрица дает наиболее полную информацию для решения возникающих вопросов, но ее анализ может быть утомительным. На рис. 3.4 приведено дерево, полученное методом ближайшего соседа. Если попытаться выделить на нем, как и в упорядоченной матрице, 12 классов, то результат будет следующий: в первый класс попадает объект 5 (хотя в матрице видно, за счет чего это происходит — связь 1—5 мала, зато 5—4 велика; на дендрограмме это не заметно), а получится класс 2, 17, 3 и т. д. 123
4 10 5 2 17 8 7 6 9 15 13 11 12 14 16 18 19 1 4 10 5 2 17 3 8 7 6 9 15 13 11 12 14 16 18 7 22 14 19 20 50 30 46 41 30 51 50 53 57 18 23 30 35 35 19 41 27 29 40 37 31 60 25 25 26 38 37 31 60 I 41 40 43 42 38 50 37 55 47 41 66 52 61 61 45 43 61 60 47 59 35 63 64 77 54 52 71 59 60 53 52 14 46 47 70 52 40 80 57 59 56 35 43 39 п 47 53 59 54 64 61 68 57 50 36 62 55 67 46 57 66 49 52 80 70 68 50 52 70 63 72 24 51 61 55 64 54 63 53 70 62 50 65 60 51 38 8 57 60 65 56 61 84 55 53 57 32 51 71 46 57 38 54 49 59 66 48 66 77 66 66 44 66 61 79 70 37 66 78 65 71 78 80 71 55 80 68 68 65 52 52 48 48 64 73 86 56 87 Рис. 3.3. Упорядоченная матрица корреляций 19 социометрических параметров Каля— Дейвиса [103, с. 124]. Выделены прямоугольники малых коэффициентов, которые могут дать повод для проведения другой группировки. Коэффициенты умножены на 100 П h 45 40 35 30 25 20 15 10 5 4 10 5 2 17 3 7 8 9 15 6 16 13 12 14 11 18 19 Рис. 3.4. Дендрограмма метода ближайшего соседа для матрицы Каля — Дейвиса 124
Рис. 3.5. Кратчайший незамкнутый путь, построенный по данным матрицы корреляций Каля — Дейвиса по 19 социальным характеристикам [103, с. 124]: —непосредственно по исходной матрице; - - - по проекциям точек на плоскость методом многомерного шкалирования Наконец, на рис. 3.5 изображены результаты шкалирования точек на плоскости, приведенные в [103]. Точки соединены настоящим кратчайшим путем (т. е. по исходным расстояниям), что не совпадает отчасти с наблюдаемым на плоскости КНП (пунктир). Это показывает определенную ошибку проецирования. Такой способ оценки качества шкалирования (по КНП) представляется удобным и наглядным. В последние годы все большее внимание ученых привлекают концепции так называемого образного анализа. Его основная идея заключается в своеобразном переложении многомерных данных в доступную для человека информацию. Например, А. Эндрюс разработал способ кодирования каждой многомерной точки некоторой кривой, которая выдается на печать. Оригинален метод Г. Чернова A973), предлагающего ставить в соответствие объекту черты человеческого лица. «Портреты» затем классифицируются экспертами или ЭВМ. Метод получает дальнейшее развитие и обобщается [132]. Весьма эффективен метод, излагаемый в [130]: каждому числу матрицы расстояний ставится в соответствие клетка на дисплее или листинге. Затем/ осуществляется штриховка клетки, интенсивность которой монотонно меняется в зависимости от величины расстояния. Матрица с клетками разной затененности приводится к почти выпуклому виду (см. 2.2), после чего легко выделяются блоки тесно связанных объектов. Вышла монография [27], посвященная методам образного анализа. Поскольку это уже довольно далеко от нашего предмета, 125
отметим лишь, что сопоставление такого рода процедур с результатами кластер-анализа было бы очень интересным. Все рассмотренные приемы визуализации базируются на одном фундаментальном положении: человек в состоянии сам принять решение о структуре данных при их удобном восприятии. Иначе говоря, предполагается, что человек хорошо различает образы на плоскости. Эта гипотеза не раз проверялась экспериментально и в целом подтвердилась (хотя здесь много неясного). Методы визуализации, таким образом, внутренне парадоксальны — они используют точные алгоритмы с экстремальными свойствами лишь для того, чтобы впоследствии человек принял на их основе весьма приближенное, естественное в его понимании решение. Однако .такая парадоксальность лежит в природе вещей и не тормозит познание, а способствует его успехам. 3.2. КЛАССИФИКАЦИЯ С УЧЕТОМ ВНЕШНЕЙ ЦЕЛИ Очень часто исследователь не ограничивается разбиением совокупности, а идет дальше, анализируя другими методами полученные группы наблюдений: например, внутри каждой группы строится уравнение регрессии; в экономике такая задача неоднократно решалась в [46, 76 и др.]. Поставим вопрос следующим образом: раз в конечном счете требуются регрессионные модели в группах, то в какой мере эти группы должны быть однородны по традиционным внутренним критериям кластерного анализа; нужна ли такая однородность, если, скажем, и без нее ошибка регрессии в классах мала; не следует ли сразу отыскивать такие группы, в которых эта ошибка минимизируется? Если раньше предполагалось, что построение хорошей классификации является конечной целью исследования, то сейчас классификация выступает как некоторый промежуточный продукт, необходимый в той мере, в которой он помогает достижению внешней «суперцели». В общем случае, следуя [37, с. 88, 53], можно сформулировать задачу следующим образом: надо разбить совокупность на такие группы, чтобы каждая из них обладала определенными фиксированными свойствами, не обязательно связанными с понятием геометрической близости объектов. Речь идет о сознательно формируемой искусственной классификации, ее ориентире на данную конкретную цель. На одних и тех же совокупностях реализация разных целевых установок может порождать совершенно различные разбиения. Какие же цели обычно ставятся для проведения классификации? Одна из них (разбить совокупность на группы таким образом, чтобы суммарная ошибка прогноза по регрессионным уравнениям в группах была минимальной) была обсуждена выше. Эта постановка является наиболее популярной и носит общее название кусочно-простой an- проксимации [46]. Чаще всего используют линейные модели в группах, получаемые методами кусочно-линейных аппроксимаций. 126
Теория кусочных аппроксимаций в работах А. Дорофеюка, Ю. Завьялова, В. Котюкова, Д. Пуарье и многих других авторов довольно сильно развита. Хороший обзор типовых методов приведен в [46]. Заметим, что при поиске требуемых разбиений в методах кусочной аппроксимации используют результаты решения задачи кластеризации, после чего идет корректировка в сторону минимизации ошибки. В [53] нами предложен подход к анализу данных, который в известном отношении дополняет методологию кусочно-простой аппроксимации, синтезируя ее идеи с общей направленностью теории устойчивого оценивания [82]. Он назван интенсиональным анализом от французского intention — намерение, замысел. Задача ставится следующим образом: требуется найти такое максимальное подмножество исходного множества объектов, которое обладает свойствами, интересующими исследователя. Свойства могут быть самыми разнообразными. Приведем несколько примеров постановки задач такого типа. 1. Пусть требуется построить уравнение регрессии с точностью, не ниже заданной. Эта точность в виде критического значения коэффициента детерминации и будет оптимизируемым параметром. 2. Пусть требуется построить кусочно-линейный прогноз с точностью, заданной заранее. Тогда будет выделена зона, в которой такой прогноз возможен. Этот пример показывает отличие интенсионального подхода от кусочно-линейной аппроксимации, где разбиение отыскивается непосредственно на всем множестве точек. Но на самом деле совокупность может быть сильно засорена различными нетипичными наблюдениями, и предлагаемый метод очистит ее до использования собственно аппроксимационных процедур. 3. Пусть требуется выделить множество объектов, такое, что матрица корреляций признаков в нем удалена от заданной матрицы корреляций не дальше, чем на определенную величину. Такая задача может возникнуть в экономике при анализе сбалансированности планов, в системах оптимизации технологических процессов и т. д. Тогда критерий будет иметь вид нормы разности матриц. 4. Пусть требуется разбить совокупность на классы так, чтобы средние значения признаков в классах отличались между собой на величину, не ниже заданной. На всем множестве такое разбиение может отсутствовать, а после удаления аномальных в данном отношении объектов его можно будет получить. 5. Пусть требуется простейшим способом сгладить динамический ряд. Тогда будет найден самый длинный отрезок ряда, на котором справедлив с определенной точностью линейный тренд. 6. Пусть требуется в данной совокупности проверить некоторую статистическую гипотезу на данном уровне значимости. Будет найдено подмножество максимальной мощности, в котором эта гипотеза не отвергается. Этот пример особенно характерен; он открывает новые возможности в статистическом оценивании в том отношении, что можно иначе смотреть на типичность любой выборки. • 127
Приведенных примеров достаточно, чтобы представить себе характер предлагаемого подхода. Его основной пафос заключается в целенаправленном очищении исходной совокупности от объектов, которые с точки зрения данного качества выглядят лишними. Этим он сродни теории устойчивого оценивания, но там отбрасывание объектов происходит из чисто вероятностных соображений, которые носят, так сказать, внутренний характер, не связанный с целью исследования, как здесь. К тому же и отбрасывание объектов не предполагается окончательным: на них также можно проверить какую-либо гипотезу с другими параметрами точности. Безусловно, в случае явной неоднородности совокупности, когда, например, динамический ряд имеет выраженные точки изменения тенденции, лучше всего использовать кусочные методы. Но если данные представить в виде аморфного облака со слабыми сгущениями, предлагаемый подход может оказаться более предпочтительным, что показано на рис. 3.6. Известны и некоторые другие постановки, напоминающие интенсиональный подход. В [66] формулируется задача такого разбиения множества, чтобы в группах были максимально различные корреляции между признаками; это напоминает пример 3 (как и поиск экстремальных областей в [46]). Внутренним критерием качества аппроксимации может служить следующий показатель: N-N C.2) где RN—значение максимизируемого критерия качества аппроксимации на исходном множестве из N объектов; RN{ — значение показателя качества после окончания процедуры; а — удельное изменение качества приближения на одну отбрасываемую точку. Рис. 3.6. Два способа аппроксимации линейной зависимости: а — кусочно-линейная аппроксимация; б — интенсиональный статистический анализ 128
Приведем общую схему алгоритма, позволяющего «в пожирающем» режиме решать задачу выбора наилучшего подмножества точек, на котором произвольный максимизируемый функционал принимает значение не ниже порогового R. Задается шаг погружения G — количество отбрасываемых точек и число N\ — минимальное количество точек, которое может быть оставлено в совокупности (например, 2). Если на исходном множестве RN<C^f то отыскивается N—1 значении Rj на всех подмножествах мощностью N— 1. Если тах/?/<с/?, i отбрасывается G точек, обеспечивающих наибольшие значения Rj. Если после этого RN_G^U, то к оставшимся точкам добавляется половина отброшенных, снова идет проверка и т. д. Если RN_G<i$, процесс погружения продолжается. Можно установить, что в самом неблагоприятном случае — погружении вплоть до Nu трудоемкость расчетов оценивается сверху так: где А — количество вычислений функционала R. Задавая G в пределах 0,l4-0,2N, a N\ — около 0,5N, получим для А оценку Л<ЗЛ/, что не так уж плохо. Сложность вычислений может быть облегчена, если в отдельных случаях использовать конкретные свойства функционалов. Так, при анализе корреляций пересчет матриц быстрее производить не по всей совокупности, а с применением переходных формул. В частности, можно прямыми выкладками показать, что '(*-.,-(',-й-) M'-ftK'-ft) • <3-3> где г N— коэффициент линейной корреляции по всей совокупности, rN_x — коэффициент после отбрасывания одного объекта со стандартными координатами z\ и Z2. X — X Интересно отметить, что статистика z= в C.3), в случае x=max (min)jt/, есть не что иное, как статистика Граббса, которая функционально связана с показателем Смирнова — Граббса [82]. Зависимость C.3) указывает не только на способ оценивания коэффициента корреляции, но и на связь интенсионального подхода с устойчивым оцениванием. Приведем пример использования интенсиональных процедур. Была поставлена задача оценки сбалансированности планового задания предприятий отрасли. Ее суть в том, что по большому количеству планируемых показателей определяются характеристики выполнения плана, между которыми затем определяются корреляции. Слабая связь между показателями свидетельствует о дисбалансе, несоответствии одних показателей плана другим. 5 Зак 1115 129
Подробный анализ деятельности крупного строительного главка, проведенный нами за ряд лет, показал наличие существенной и постоянной несбалансированности отдельных позиций плана. При этом важно, что слабо связаны примерно одни и те же группы показателей, т. е. недостатки планирования носят устойчивый и неслучайный характер. Эти выводы подтверждены расчетами как по строительным организациям, так и по промышленным — заводам железобетонных изделий. Представляло большой интерес выяснить, насколько объективны эти заключения, не объясняются ли они, скажем, наличием отдельных заводов или трестов с другими взаимосвязями показателей. Для этого применена методология интенсионального анализа в ее «корреляционном варианте». Задавались матрицы корреляций, примерно соответствующих экономически обоснованным представлениям о сбалансированности плановых заданий. Требовалось найти в имеющихся данных такое максимально большое множество заводов, у которых коррелированность показателей близка к заданной. Многочисленные расчеты1 по разным наборам показателей и матрицам корреляций показали, что таких совокупностей нет. Несколько раз выделялись хорошие подмножества, но они были настолько малочисленны, что их наличие легче объяснить случайностью. Следовательно, в самом деле несбалансированность носит глубокий характер и сильно затрудняет нормальную производственную деятельность, поскольку фактически почти невозможно выполнить план одновременно по всем показателям, что и наблюдается в действительности. Решалась также другая экономическая задача, показывающая содержательную целесообразность данного подхода. Требовалось установить зависимость между выплатами из фонда материального поощрения и конечными результатами деятельности 20 заводов железобетонных изделий Главсредуралстроя Минуралсибстроя. Теоретически ясно, что чем выше значения у фондообразующих и фондостимулирующих показателей, тем выше должна быть величина самого фонда. Однако расчеты выявили удивительную на первый взгляд картину: процент выполнения плана по фонду материального поощрения очень слабо коррелирует с важнейшими показателями выполнения плана — объемом реализации с учетом поставок, производительностью труда и даже прибылью. Отсюда можно делать выводы о произвольном начислении фондов стимулирования и о разлаженности рычагов хозяйственного механизма. Однако снова была предпринята попытка установить степень универсальности такого несоответствия между показателями. На этот раз отыскивалось подмножество с надежной регрессией фонда поощрения на влияющие показатели. Удалось установить, что по некоторым показателям, в частности 1 Программное обеспечение и расчеты на ЭВМ выполнены Л. Сорокиной. 130
объему реализуемой продукции, можно построить неплохие регрессии с фондом поощрения. Для этого надо исключить из рассмотрения 4 завода, на которых существует резкое несоответствие между показателями. Однако выявилась другая особенность данных: построенные регрессии хорошо описывают результатный показатель в смысле коэффициента детерминации, но имеют очень малые коэффициенты при переменных. Т. е. сильному изменению, скажем, объема реализации соответствует слабое изменение фонда поощрения, тогда как по инструктивным материалам этот прирост должен был быть существенно больше. Этот пример указывает на две существенные стороны интенсионального подхода. Во-первых, в задаче отыскания хорошей регрессии часто необходимо ориентироваться не только на общее качество приближения, но и на отдельные параметры, задаваемые в виде требований к модели. Во-вторых, в экономических приложениях появляется хорошая возможность решать широкий круг важных задач такого типа: найти группу организаций, в которой существует высокая близость между фактическими показателями и их нормативными отношениями. Простейший вариант интенсионального анализа этого типа — обычная комбинационная группировка. Если в качестве предъявляемых к совокупности требований задать просто границы изменения показателей в группах, будут отброшены объекты, в них не попадающие. Как видно, наличие «суперцели» в задаче классификации сильно меняет ее характер. Естественные «грозди» объектов кластерного анализа могут рассекаться, внутренние критерии однородности не работают. Однако наличие двух принципиально различных решений к задаче классификации наблюдений резко расширяет сферы примене- .ния классификационного подхода в самых разнообразных областях человеческой деятельности (см. 4.1). В заключение отметим еще одно направление анализа, в котором идеи классификации играют важную роль. Предположим, что на каждом объекте известна некоторая функция, причинным образом связывающая измеряемые параметры (пусть для простоты это будет уравнение регрессии). Любые расчеты в этой ситуации логично проводить, используя параметры индивидуальных моделей,— выделять группы объектов с похожей внутренней структурой связей и т. д. Легко убедиться, что если объекты близки в смысле кластерного анализа в пространстве исходных показателей (входных и выходных), то они близки и в пространстве структурных параметров, но обратное неверно: при близости объектов в пространстве параметров они могут быть как угодно далеки в исходном пространстве. Следовательно, если считать, что конечной целью статистического исследования является установление причинных связей между явлениями, то надо признать, что любые классификации в исходных пространствах могут допускать серьезные «ошибки второго рода» — не объединять близкие объекты. Главная причина 5* 131
Низкой эффективности различных регрессионных моделей как раз заключается в безадресности их рекомендаций, в невозможности прямо использовать общие коэффициенты модели на конкретном объекте [55]. Нами предложены некоторые подходы к оценке связей на отдельных объектах; в простейшем случае — индексные схемы1. 3.3. ДВОЙСТВЕННОСТЬ В ЗАДАЧЕ КЛАССИФИКАЦИИ Из рассмотрения видно, что при наличии многообразных подходов к общей теории классификации задача классификации понимается одинаково: требуется произвести разбиение объектов, чтобы в каждом классе оказались близкие, похожие объекты, а объекты из разных классов должны быть непохожи, удалены друг от друга. Назовем задачу такого типа прямой классификацией (ПК). Сформулируем двойственную к ней задачу обратной классификации (ОК): требуется разбить множество объектов на такие классы, чтобы в каждом из них объекты были непохожи друг на друга, взаимно удалены. Дополнительным требованием может выступать близость объектов из разных классов. Оказывается, введение двойственности приводит к достаточно важным методологическим и методическим выводам. Назовем обратную классификацию адекватной (АК), если каждый ее класс представляет собой множество объектов, находящихся в разных классах прямой классификации. Иными словами, любой класс АК содержит набор представителей классов ПК. Каждой прямой может соответствовать множество адекватных классификаций. Выделим из них послойные классификации, в которых первый, наиболее многочисленный класс формируется как множество представителей из всех классов ПК (т. е. его мощность равна числу классов ПК), второй — как множество представителей из всех оставшихся (после удаления первого класса АК) классов ПК и т. д. Тогда имеет место следующее соотношение (возможны единичные классы): mp=nk-p+\—nk-Pi C.4) где гпр — число классов мощности^ в послойной АК, п\^п2, ..., <я* — мощности классов ПК, р=1,6, по = О. Из C.4) ясно, что общее количество классов любой мощности в послойной АК равно п^, т. е. мощности самого большого класса ПК. Послойные классификации довольно подробно изучены под определенным углом зрения в [107, с. 94—104], где называются коразби- ениями к исходному разбиению. На основе понятия коразбиения авторы конкретизируют в задаче классификации общий принцип мак- 1 Сергеев С. В. В Московском Доме ученых//Вестник статистики.—1987— № 10.-С. 72. 132
симума дисимметрии и получают очень интересный результат: в наиболее дисимметричнои системе численность классов и их ранг связаны между собой законом распределения Ципфа. Этот закон, как известно, имеет чрезвычайно широкое распространение, что определяет важность концепции двойственности классификации (в частной форме послойных АК) для общей теории систем. Заметим еще, что принцип двойственности в [107] формулирует соотношение иного типа, нежели обсуждаемое. Двойственная постановка имеет не только упомянутое гносеологическое значение. Она может учитываться в конкретных процедурах классификации. Наиболее общий тезис заключается в следующем: чем дальше друг от друга находятся результаты решения прямой и обратной задач классификации, тем лучше классификация проведена. Действительно, если некоторый алгоритм независимо решает задачи ПК и ОК таким образом, что объекты, объявленные близкими при ПК, окажутся далекими по ОК, то такая двойная подтверждаемость гипотезы компактности резко усиливает ее справедливость. Наилучшим подтверждением гипотезы будет, видимо, автоматическое построение адекватной или в некоторых случаях послойной классификации. Двойственность позволяет внести в рассмотрение новый тип функционалов качества классификации. В общей форме критерий имеет вид расстояния между результатами ПК и ОК (критерий 42 в табл. 2.5), конкретные формы приведены в [56], например: F=a+d/, C.5) где й — среднее межклассовое расстояние ПК; d' — среднее внутриклассовое расстояние для ОК. Важно отметить, что ОК может иметь и вполне самостоятельную содержательную ценность, что видно, в частности, из следующего примера. В [86] приведена матрица, отражающая экспертные мнения о степени тяжести конфликтов, могущих возникать между различными видами деятельности в контактной зоне «суша — море». Проанализируем эту таблицу с позиций предлагаемого подхода, что позволит, на наш взгляд, выявить некоторые не вполне тривиальные особенности. Названия эконологических (экономико-экологических) ситуаций в соответствии с их номерами из [86] даны ниже при разборе прямой классификации. Из 17 ситуаций в оригинале нами классифицировалось 15—без «аварий нефтетранспорта» A2) и «стихийных бедствий» A7), которые являются почти неуправляемыми и почти непрогнозируемыми. К матрице конфликтных ситуаций был применен алгоритм диаго- нализации B6 из табл. 2.3), целью которого было выделение блоков неконфликтующих видов деятельности. Неконфликтующими считались ситуации с взаимными оценками 0 и 1. Результаты класси- 133
Таблица 3.1. Классификация конфликтных эконологических ситуаций1 А Б В 1 А 3 2 4 9 8 15 Б 6 13 7 11 В 5 14 10 16 1 - 3 2 4 0 1 1 - 0 1 - 1 - 9 1 1 0 1 - 8 2 1 3 1 0 - 15 2 1 0 1 0 0 - 6 1 1 1 0 0 0 0 - 13 2 1 0 1 1 0 0 0 - 7 2 2 0 1 1 0 0 1 1 - 11 3 3 2 0 0 0 0 0 0 2 - а — прямая классификация 5 1 3 1 3 2 0 0 0 0 2 0 - 14 1 2 0 0 0 0 2 2 0 1 0 0 10 3 3 2 2 0 0 0 0 1 2 0 0 1 - 16 2 2 2 1 2 0 1 0 3 1 1 0 1 0 -' 12 4 5 4 4 1 0 0 0 2 5 0 3 1 0 0 17 5 4 1 1 3 0 2 2 3 5 0 1 3 0 3 1 16 13 9 3 7 10 4 5 11 2 8 14 6 15 1 16 13 - 2 2 - 3 - 9 3 ,|o 2 I 2 ,{ , - I 1 - 6 7 2 1 1 1 2 - 10 3 0 0 0 3 2 - 4 1 1 1 1 1 1 - 5 1 0 0 2 3 2 0 3 - 11 3 1 0 0 3 2 0. 0 0 - 2 1 2 0 0 0 0 2 1 1 2 - — обратная классификация 8 2 0 0 0 1 0 0 1 0 0 3 - 14 1 1 1 0 2 1 1 0 0 0 0 0 - 6 1 0 0 0 1 1 0 0 0 1 1 0 2 - 15 2 1 0 0 1 0 0 0 0 0 0 0 2 0 - 12 4 0 2 1 5 5 0 0 3 0 4 0 1 0 0 17 5 3 3 3 4 5 0 1 1 0 1 0 3 2 2 0 —отсутствие или незначительность конфликтов; 1 —незначительные конфликты; 2 — конфликты умеренного характера; 3 - серьезные конфликты; 4 - очень серьезные конфликты» 5 - аварийные (катастрофические) ситуации. Исходную табл. и обозначения см. в [ 86].
фикации приведены в табл. 3.1, где ступенчатой линией выделены блоки малых оценок, а черточками слева разделены группы неконфликтующих ситуаций. В табл. 3.1 приведена матрица, упорядоченная в обратном направлении, по наибольшим рангам. Каждый класс в ней соответствует группе резко конфликтующих областей деятельности. Коэффициент сопряженности Крамера между ПК и ОК равен 0,16, т. е. связь, как и предполагалось, очень низка. Рассмотрим теперь результаты классификации по существу. Приведем взаимно неконфликтующие виды деятельности, попавшие в классы ПК. А: 1—природоохранная деятельность; 3—развитие аквахо- зяйств; 2— добыча рыбы; 4— добыча водорослей. Эту группу ситуаций можно обобщенно охарактеризовать как «не- разрушающая деятельность на море». Б: 9— гидротехническая защита берегов; 8— территориальное перераспределение и изъятие стока воды; 15—дноуглубительные работы; 6—бурение; 13—эксплуатация портов. Эти ситуации могут быть описаны как «производительная деятельность в собственной контактной зоне». К ним сильно примыкают ситуации «сброса отходов» 10 и 11. В: 11—сброс сточных вод; 5—добыча песка, гравия и т. д., 14—морское судоходство; 10—удаление твердых отходов; 16— строительство плотин в устьях рек и проливах. Ситуации класса В ввиду их большей содержательной разнородности, чем в классах А и Б, можно объединить в группу «малокон- тактирующих видов деятельности на суше и море». Таким образом, три выделенных блока ситуаций внутренне не конфликтны, но имеют достаточно серьезные взаимные противоречия. Особенно конфликтующими являются блоки А и В — в их взаимных связях 6 троек и 7 двоек из 20 связей (пунктирный прямоугольник в табл. 3.1а). Блок А также в наиболее конфликтных отношениях с неконтролируемыми ситуациями 12 (аварии нефтетранспорта) и 17 (стихийные бедствия). Блоки Б и В конфликтуют значительно слабее (лишь 6 больше единицы связей из 30). Если рассчитать средние оценки в классах и между классами, то получится компактная матрица. Из нее, в частности, видно, что с некоторой натяжкой допустимо объединение классов Б и В в один (средняя связь его будет 0,52), т. е. по-прежнему класс А противостоит другим ситуациям. Обратная классификация, напротив, выделяет блоки резко конфликтующих видов деятельности. Содержательно удобнее анализировать не строгие классы ОК, а укрупненные. Тогда классы с некоторой 135
А Б И А 0,67 Б 1,09 0,27 В 1,80 0,67 0,30 условностью можно интерпретировать так: 1A, 16, 13, 9) —промышленная и строительная деятельность на берегу; 2C, 7, 10, 4, 5) — промышленная деятельность, связанная с морским дном; 3A1, 2, 8) —промышленная деятельность в водах; 4A4, 6, 15) —деятельность в двух средах (море .и морское дно). Такая классификация, по оценке специалистов, связана со средой промышленной деятельности, т. е. конфликты возникают в рамках одной среды, а не в контактных зонах, как можно было бы предположить. Характерно также, что наиболее опасные последствия аварийные ситуации 12 и 17 представляют для класса 2, связанного с морским дном, чем, скажем, с деятельностью на водах. Из обсуждения можно сделать вывод, что концепция двойственности в задаче классификации может быть полезной и в теоретическом, и в прикладном аспектах. .
4. МЕТОДОЛОГИЯ И МЕТОДИКА ИСПОЛЬЗОВАНИЯ КЛАСТЕР-АНАЛИЗА 4.1. КЛАСТЕР-АНАЛИЗ И ТЕОРИЯ КЛАССИФИКАЦИИ Рассмотрим содержание кластер-анализа с позиций общей теории классификации, которая в последние годы интенсивно развивается [78 и др.]. Такое обсуждение поможет в решении важных вопросов, уже возникавших в процессе изложения. Основные из них касаются классификаций естественных и искусственных, объективных и субъективных, сущностных и целевых. 4.1.1. КЛАССИФИКАЦИИ ЕСТЕСТВЕННЫЕ И ИСКУССТВЕННЫЕ Приведем некоторые определения. «Если в качестве основания берутся существенные признаки, из которых вытекает максимум производных, так что классификация может служить источником знания о классифицируемых объектах, то такая классификация называется естественной (например, периодическая система химических элементов). Если же в классификации используются несущественные признаки, то классификация считается искусственной» [97, с. 257]. «Классификация называется естественной системой, если положение каждого объекта в классификационной схеме позволяет определить его существенные свойства» [107, с. 77]. Искусственные классификации «строятся на основе произвольного выделения одного или нескольких свойств или признаков у классифицируемых предметов», естественные — «на учете всей совокупности их признаков, взятых в их взаимной связи и обусловленности одних из них (производных) другими (основными, определяющими)» [78, с. 46—47]. Авторы определений едины в основном: под естественной понимается классификация, отражающая природу вещей, их сущность, а под искусственной — классификация, ориентированная на какую-либо конкретную узко понимаемую цель данного исследования. Познание сущности объекта сводится к выявлению тех его качественных свойств, которые и определяют данный объект, отличают его от других. По этой причине задача построения естественных классификаций в известной мере смыкается с традиционной для статисти- 137
ки задачей построения типологических группировок, подробно рассмотренной в 1.1. Однако объекты могут быть однокачественными в одном отношении и разнокачественными в другом, причем выбор этих отношений (целей, точек зрения) полностью находится в руках исследователя. По этим причинам многие авторы вообще не признают за естественной классификацией право на существование. Поскольку любые классификации «являются всегда воплощением наших модельных представлений», то деление их на «естественные» и «искусственные» следует признать грубейшей логической ошибкой». Оно, как показывает практика: «... нанесло и наносит трудно исчислимый вред всему знанию» [21, с. 45]. В [78] приводятся другие многочисленные мнения такого рода. Можно ли их как-то увязать с представлениями о крайней необходимости естественных классификаций? Наиболее приемлемым путем снятия отмеченного противоречия нам представляется концепция своеобразного «шкалирования» классификаций по оси с крайними градациями «полностью искусственная» и «полностью естественная» (см. [78, с. 206—209]). Действительно, полный отказ от понятия естественной классификации означал бы фактически отказ от возможности познать сущность явлений, их качественную определенность; можно согласиться с некоторыми специалистами, в первую очередь с Г. В. Бокием, что в своей наиболее завершенной форме естественные классификации отражают законы природы. Коротко сформулируем содержание некоторых принципов, которые понадобятся нам в дальнейшем: процесс классификации начинается с точного и однозначного определения содержания понятий, описывающих изучаемые объекты; естественной считается классификация, проводимая по тем признакам, которые описывают сущность, природу данных объектов, такую классификацию назовем естественной классификацией первого типа (ЕК-1); если используемые для классификации признаки не вполне отражают сущность объектов, но ориентированы на ее постижение, классификация остается естественной в первом смысле, но с «меньшей мерой естественности»; если используемые признаки не направлены на постижение сущности объекта, а отражают тот или иной аспект его рассмотрения, классификация называется искусственной классификацией первого типа (ИК-1) или аспектной классификацией', вся разница между ИК-1 и ЕК-1 заключается в использовании различных наборов признаков (собственно методы построения классификации могут быть совершенно одинаковыми); ЕК-1 для своего построения должна использовать не только сведения об эмпирически наблюдаемых объектах, но и допускать наличие теоретически возможного поля объектов, предсказываемых классификацией или учитываемых ею. ИК-1 может работать либо только 138
с эмпирическими объектами, либо с эмпирическими и теоретическими. Рассмотрим теперь, каким образом соотносятся понятия естественной и искусственной классификации с кластерным анализом. Понятие естественности много раз возникало в процессе обсуждения методологии выделения однородных групп. Собственно говоря, не будь понятий «естественная структура», «естественный образ», не было бы и самого кластер-анализа как методологии выделения этих образов. Другое дело, что конкретные определения естественности имеют самый различный характер (требования к кластерам, описания алгоритмов, задание критерия качества классификации и др.)- Но это уже другие трудности. Главное же — в стремлении измерить «естественные представления» о структурности множества объектов. Совпадает ли это понятие естественности с ЕК-1? Очевидно, нет. Назовем естественной классификацией второго типа (ЕК-2) классификацию, в которой реализованы принципы структурного подхода к выделению однородных групп (главные из них — объекты одного класса близки друг к другу, объекты разных классов — удалены). В отличие от принципов построения ЕК-1 для ЕК-2 свойственна куда большая определенность методики. Если в первом случае не существует ни одного формализованного приема и приходится опираться на достаточно нечеткие представления о сущности объектов и трудно проверяемые критерии естественности, то во втором — в распоряжении исследователя целый арсенал в разной степени математизированных алгоритмов. Основное содержание книги и посвящено их описанию. Меняется и представление об объективности классификации. Субъективизм классификации кончается там, где признаковое пространство выбрано и метрика введена. После этого можно говорить о поиске естественного разбиения с точностью до ошибок метода. Наличие субъективизма только в процессе выбора исходных признаков является принципиальным. Рассмотрим это обстоятельство на примере, который призван демонстрировать обратное. Речь идет об известном рисунке М. М. Бонгарда, обсуждаемом также в [37]: он воспроизведен на рис. 4.1. Требуется разбить эти фигуры на некоторые группы. Считается, что эта задача полностью находится в руках исследователя: по принципу «малые — большие» выделяются классы 1, 2, 3 и 4, 5, 6, по другому признаку — другие классы и т. д. Н. Г. Загоруйко по этому поводу пишет: «Нетрудно заметить, что все эти варианты таксономии существуют объективно, но выбор того или иного варианта является процедурой чисто субъек- Рис. 4.1. Множество фигур, подлежащих классификации 139
тивной и определяется исследователем в зависимости от цели работы, т. е. от «суперзадачи» [37, с. 110]. По нашему мнению, приведенный пример следует интерпретировать несколько иным образом. Вся субъективность классификации фигур обусловлена исключительно субъективностью выбора признакового пространства. В каждом же пространстве группировка происходит практически однозначно и носит не только объективный, но и естественный характер. Если описать фигуры градациями всех измеряемых на них признаков, то получится следующий набор свойств: число углов C, 4, «Л; размер фигур (малые, большие); штриховка (штрихованные, неигг- рихованные). Поскольку первый признак имеет три градации, представим его в виде сочетания трех дихотомических признаков; тогда каждый объект полностью описывается пятью бинарными признаками. В этом пятимерном пространстве введем простейшую метрику типа Хемминга — количество попарных несовпадений в булевских векторах. Ниже изображена упорядоченная матрица расстояний. Как видно, в этом пространстве естественно и объективно выделяются группы похожих объектов: 2—6, 1—4, 3—5, причем объекты 2, 6 наиболее близки. Естественно, что если сократить пространство, то и результаты будут иными. Весь интерес этого примера в том и заключается, что фактически выбор постоянно происходит в разных пространствах признаков, но это удачно маскируется якобы произвольностью используемых отношений деления. Таким образом, можно сказать, что понятие «естественность-2» классификации определено с точностью до выбора пространства признаков и метрики при условии, что сам процесс классификации в этом пространстве осуществляется исходя из общих принципов структурного подхода, в частности кластерного анализа. 4.1.2. ВНУТРЕННИЕ И ВНЕШНИЕ ЦЕЛИ КЛАССИФИЦИРОВАНИЯ В перечисленных выше видах классификаций в классы объединяются объекты, похожие друг на друга, обладающие некоторыми близкими свойствами. Как уже подчеркивалось, вся разница между классификациями ЕК-1 и ИК-1 заключается в отличии используемых для разбиения признаков, а в ЕК-2 просто операционализируется базисное понятие близости объектов или, более ши- 2 - 1 роко, структуры множества объектов. Но существует и принципиально другой 6 подход к классификации, который был под- 1 робно изложен в 3.2. Если понятие близости, похожести объектов ассоциируется с пред- 4 ставлением о внутренней цели классифи- з - г кации, то задание некоторых дополнительных требований (хорошего качества регрес- 5 140
сии в группах или выполнения какой-либо статистической гипотезы) можно считать установлением внешней цели. Назовем целевой классификацией, или искусственной классификацией второго типа (ИК-2), классификацию, удовлетворяющую внешним целям, не связанным непосредственно с категориями близости объектов. Этим определением противопоставляются внутренние «устройства» классификаций: от принципа похожести объектов (всегда допускающего попарные сравнения) делается переход к принципу нахождения общности более высокого порядка — единообразия проявления закономерностей, которые можно выявить не на парах объектов, а на какой-то целостной совокупности (скажем, наличие регрессии данного вида нельзя обнаружить на малом числе объектов, тем более на двух). Скорее всего эти два подхода на некотором уровне познания должны смыкаться; установление глубокой внутренней общности объектов (в смысле ЕК-1 или ИК-1) должно жестко вести к установлению подобия и во внешних проявлениях (в смысле ИК-2). Но эта проблема является мало изученной, хотя важность ее не подлежит сомнению. На рис. 4.2 приведены взаимосвязи между основными рассмотренными категориями. Остановимся подробнее на некоторых аспектах схемы. В клетках 6, 8, 13 отмечено одно из существенных отличий кластерного и интенсионального анализа от традиционных классификаций — эти методы по своей природе работают только с фиксированными наборами эмпирических данных, тогда как естественные классификации обычно учитывают свойства теоретически допустимых объектов (классический пример — предсказание трех новых элементов Д. И. Менделеевым). Другая отличительная черта формальных методов классификации, в том числе кластер-анализа, заключается в том, что они могут работать в условиях отсутствия разработанной теории или модели объекта (клетки 4, 8). Многократно подчеркивалась польза этих методов именно в мало изученных, поисковых ситуациях; само обилие параметров, используемых для классификации, чаще всего говорит не о глубоком понимании сущности объекта, а о неуверенности исследователя, его желании «на всякий случай» отразить самые различные стороны функционирования. Однако отсутствие теоретических проработок отнюдь не обязательно. Теоретические представления могут и предшествовать кластеризации, будучи подкрепленными ею (см. 1.1), и следовать за формальным разбиением. Это отражено в клетках 19 и 20, из которых следует, что ЕК-2 может превратиться при соответствующих условиях в ЕК-1. Очень существенным является доказательство устойчивости результата, которое вообще должно играть решающую роль в статистическом анализе [55]. 141
Относительно связи двух классификаций можно вообще выдвинуть следующий тезис: любая естественнаяЛ классификация является естественной-2, но обратное справедливо не всегда. В его пользу говорит тот факт, что в ЕК-1 всегда в классах содержатся близкие объекты, как и в ЕК-2, а при наличии глубоких качественных причин 1. Конечная цель классифицирования 2. Классификация на группы похожих объектов С 11. Классификация на группы не обязательно похожих объектов, удовлетворяющая некоторым специальным внешним требованиям . Учитывается сущность объекта, его наиболее важные качественн черты? 7. Учитывается какая-то сторона, аспект объекта да 12. Формирование внешних требований (целей) /4. Известны оЛределяющие объ- I ект основные свойства, модель V объекта? J да 5. Учитываются не только эмпирические, но и возможные теоретические объекты 6. Естественная - 1 классификация 8.'Имеется теоре^Ч тическая модель\ данного аспекта 1 функциониро- 1 вания? ^У 13. Анализируются только, эмпирические объекты Z Учитываются не только эмпирические объекты, но и возможные теоретические | 14. Кусочная аппроксимация, интенсиональный анализ 10. Искусственная — 1 ~ (аспектная) классификация 15. Искусственная—2 (целевая) классификация 16. Анализируются только эмпирические объекты 17. Кластер—анализ или разделение смесей 18. Естественная — 2 классификация 20. Проведено теоретическое осмысление классификации? 19. Доказана устойчивость классификации во времени и (или) в пространстве, если это возможно? 21. Рабочая (вспомогательная) классификация Рис. 4.2. Классификации разных типов 142
расслоения классы ЕК-1 должны быть и достаточно удалены друг от друга, т. е. реализовывать структурный подход к анализу. Конечно, тезис является эвристическим и не имеет достаточного экспериментального подтверждения, которое было бы чрезвычайно интересным. Например, в [21] приводится три варианта построения периодической таблицы химических элементов в защиту того утверждения, что любой из них (в том числе вариант Д. И. Менделеева) имеет лишь относительный, аспектный характер. Думается, что кластеризация элементов в разных признаковых пространствах позволила бы убедиться в разной степени структурности в данных и, возможно, выявила бы наиболее естественный—2 вариант. А наличие ЕК-2 могло бы стать дополнительным аргументом для признания именно этого варианта «наиболее естественным» в смысле ЕК-1. Возможно, справедлив и второй тезис: чем более естественна классификация в структурном отношении, тем более она естественна в качественном отношении. Интересное подтверждение первого тезиса содержится в [17, с. 62—83]. Иерархическая классификация губерний России в пространстве 19 агроэкономических показателей дала почти точно такие же результаты, какие получил в свое время В. И. Ленин, используя, конечно, лишь несколько важнейших типообразующих признаков. С одной стороны, это говорит о явной предпочтительности качественных представлений об объекте, о желательности теоретических представлений и необходимости умело пользоваться этими представлениями, что В. И. Ленин убедительно и продемонстрировал. С другой стороны, оказывается, можно и «формальными методами» кластер-анализа, не располагая информацией об узловых, наиболее важных признаках объекта, получить тем не менее теоретически оправданные результаты. В данном случае индуктивный (от фактов и методов) путь познания привел к тому же выводу, что и дедуктивный путь (от фактов и теории), что представляется глубоко закономерным. Так что у кластер-анализа нельзя отнимать способность в других, куда менее понятных ситуациях отыскивать такие «скопления», которые впоследствии могут не просто объясняться некоторой теорией, но и давать изначальный толчок для ее создания. Эвристическая роль методов кластеризации в современных условиях интенсивного «наступления на многомерность» во всех областях науки очень значительна. 4.2. ОБЩАЯ СХЕМА ИСПОЛЬЗОВАНИЯ МЕТОДОВ КЛАССИФИКАЦИИ Рассмотрим здесь методические вопросы, неизбежно возникающие в каждом исследовании: о выборе способа классификации, об используемых параметрах алгоритмов, о сферах применимости тех или иных процедур и т. д. Многие из этих проблем обсуждались по 143
тексту, однако целесообразно провести сводку даваемых ранее рекомендаций и дополнить ее новыми соображениями. В известной мере настоящий параграф является путеводителем по всей книге и коротко отвечает на основные вопросы о практическом применении кластерного анализа. Поэтому изложение носит в ряде мест очень сжатый характер, ссылки даются не на источники, а на параграфы книги. При решении конкретной задачи обычно приходится выполнять следующие этапы: обосновать общую стратегию обработки данных (выбрать тип метода классификации); при применении кластерного анализа решить вопрос.о способе измерения близости между объектами; выбрать конкретную группу алгоритмов, пригодных для дан- уой задачи; определить значения задаваемых для алгоритмов параметров; провести расчеты и проинтерпретировать результат. Все эти этапы рассмотрены ниже. 4.2.1. ВЫБОР ТИПА МЕТОДА КЛАССИФИКАЦИИ Об этом подробно говорилось в 1.1, 3.1 и 3.2. Результаты обсуждения можно резюмировать в схеме на рис. 4.3. На схеме не везде проставлены разделительные вопросы, поскольку в некоторых случаях они носят достаточно сложный характер. Так, в правом нижнем углу приведено три типа методов сокращения пространства и дальнейшей кластеризации по осям. В принципе все они оправданы и вполне допускают параллельное использование (хотя нам представляется, что содержательно выгоднее всего выбирать информативные признаки, а не их сочетания — факторы или компоненты). В правом верхнем углу — три способа построения аппроксимирующих функций, которые подробно рассмотрены в 3.2 и также могут использоваться в параллельном режиме. 4.2.2. ОБОСНОВАНИЕ СПОСОБА ИЗМЕРЕНИЯ БЛИЗОСТИ ОБЪЕКТОВ Прежде чем рассмотреть особенности выбора меры близости, сделаем два общих замечания, резюмирующих содержание 1.3. Т^. Первым этапом работы после выявления состава используемых признаков является четкая фиксация признакового пространства. Следует твердо помнить, что оно является единственным. Поэтому к выбору пространства следует подходить с максимальной тщательностью. Если из содержательных соображений не следует предпочтительность той или иной шкалы для каждого признака, надо переходить к нормированным данным. При этом необходимо максимально учитывать качественную специфику признаков и выбирать соответствующий способ нормировки. Если имеется возможность, нормировку 144
Конечная цель исследования разбить совокупность на однородные группы? да Классификация и построение функций в группах Есть основания считать данные, имеющие вероят- ностную природу? да! Есть обоснованные гипотезы о распределении на- блюдений Построить аппроксимирующие функции в группах? Методы разделения смесей Непараметрические процедуры (пар- зеновские оценки и др.) Комбинационная группировка да Кластеризация по отдельным осям Кусочно-простая (линейная) аппроксимация Требуются группы, определенные сочетаниями отдельных свойств ? Расчеты идут в исходном признаковом пространстве? Границы интервалов признаков определены? Выбор информативных признаков Формирование групп с заданными свойствами (интенсиональный анализ) Выделение естественных скоплений объектов Кластерный анализ Визуализация Выделение факторов в группах показателей и кластеризация по этим осям (лингвистический анализ) JL Построение факторов или компонент Рис. 4.3. Общая схема выбора метода классификации статистических наблюдений
производить только по величинам, не зависящим от выборки (теоретическим или эталонным) [109]. 2. После формирования признакового пространства следует выбрать меру близости объектов. При этом надо учитывать формальные свойства мер, рассмотренные в 1.3, и сопоставлять их с содержательными особенностями задачи. При использовании коэффициента типа меры Журавлева предварительная нормировка показателей не нужна, что еще раз подчеркивает выгоду ясных содержательных представлений об объекте. Надо помнить, что выбранная метрика, как и выбранное пространство, является единственной, и никакая другая такого же результата не гарантирует. Поэтому очень полезно сделать расчеты несколько раз с разными метриками и найти устойчивые общие черты в разбиениях. Окончательный критерий кластер-анализа — критерий практической полезности результата; в случае успеха одновременно считаются удачными и расстояние, и алгоритм. Подробные рекомендации см. на рис. 4.4. В 1.3 пояснены встречающиеся на рис. 4.4 конструкции. В некоторых случаях задача измерения близости выходит за пределы непосредственного расчета какой-либо метрики или меры сходства и включается в более общий контекст обоснования метода обработки данных. Это видно из блоков 8 и 12 на схеме, содержание которых разъясняется соответственно в 2.3 и 2.2. Целесообразность аппроксимационного подхода (блок 8) в ситуации, приводящей к мере близости Миркина (т. е. при аппроксимации таблиц «объект-признак»), определяется главным образом двумя обстоятельствами: 1) удобством для исследователя критериев дисперсионного типа (к которым сводятся критерии аппроксимации, см. 4.2.3) и 2) степенью коррелированности исходных показателей, Дивизимная процедура Чаудари (блок 12) является единственным алгоритмом, использующим понятие связности непосредственно в многомерном пространстве, без перехода к каким-то мерам близости. Поэтому процедуру можно рекомендовать для использования как метод, наиболее свободный от дополнительных предположений. Вопрос 11 лишь подчеркивает, что, если искусственное измерение близости очень нежелательно (например, эксперты вообще не в состоянии соизмерить значимость некоторых переменных в парах), надо использовать именно этот алгоритм. Легко видеть, что для шкал разностей, интервалов и отношений результат его работы не зависит от допустимых преобразований. Что же касается так называемых инвариантных критериев Фридмана и Рубина (F\\—F\z в табл. 2.5) или инвариантной статистики Махаланобиса A.3) и других подобных величин, то они действительно не меняются при допустимых преобразованиях шкал, но и лишены содержательного смысла без предварительной нормировки переменных. Ковариация, лежащая в их основе, оправдана лишь для заранее соизмеримых переменных (см. подробнее 1.3). 146
A. Можно для каждого признака указать порог неразличимости объектов? да 2. Мера Журавлева , нет ГЗ. В каких шкалах^ измерены при- { знаки? количественные смешанные ния для измерения близости объектов? 12. Алгоритм Чау- дари A9 в табл. 2.3) 11. Есть противопоказан " да 14. Нормировка по Z3 или Z4 с теоретическим да 13. Есть теоретически оправданные эталоны для сравнения? 4. Симметрично наличие и отсутствие свойства?- да нет 5. Коэффициент Хемминга 6. Коэффициенты Рао, Роджерса— Танимото, . непонятно 7. Коэффициент Жаккарда 8. Целесообразен > аппроксимаци- онный подход, L 2.3.4? i да 9. Мера Миркина 10. Мера Воронина 20, Расстояние Махаланобиса 15. Нормировка по Z1 или Z5 14. Есть признаки, измеренные в шкалах интервалов или разностей? Много блочно- коррелирован- ных признаков 17. Каков характер пространства признаков? 16. Нормировка по 7} или Z4 19. Производилось предварительное сокращение пространства? немного слабо связанных признаков f18. Есть содержательные основания для сло- 1 жения нормированных V отклонений? B1. Предполагаемая форма кластеров? более сложная. нет предположений | шарообразная 22. Евклидово расстояние да, 23. Линейгое расстояние параллелепипеды Рис. 4.4. Общая схема выбора способа измерения близости между объектами
Когда исследователь находится в ситуации отсутствия априорной информации (вопросы 18, 21), ничего не остается, как применить испытанное евклидово расстояние. Кроме тех его особенностей, которые обсуждались в 1.3, укажем еще на две: квадрат евклидова расстояния тесно связан с дисперсионными критериями (см. обсуждение F\ в 2.3); эксперименты показали, что искажения евклидова расстояния не очень сильно влияют на результаты работы некоторых распространенных алгоритмов (иерархических и ^-средних) [134]. 4.2.3. ВЫБОР АЛГОРИТМОВ КЛАСТЕР-АНАЛИЗА В табл. 2.3 и 2.5 приведено 110 алгоритмов; в комментариях "к ним названо еще 30 модификаций. Некоторые строки таблиц фактически описывают не алгоритм, а целое семейство конкретных процедур (например, метод динамических сгущений — f4o и др.). Дать строгие правила применения того или иного способа классификации из такого их множества не представляется возможным. Например, рис. 4.4 описывает схему выбора всего лишь 13 расчетных величин, а здесь надо описать сотни. Есть и другое затруднение: далеко не про всякий алгоритм можно ясно сказать, в каких случаях он хорош, а в каких — плох (см. 2.4). Однако некоторые рекомендации сделать можно. В табл. 4.1 сведены алгоритмы в соответствии с теми параметрами, которые исследователь в состоянии задать в процессе работы. Такая классификация может быть названа потребительской, ибо в конечном счете именно знание некоторых параметров идентифицирует любую содержательную постановку. В табл. 4.1 алгоритмы распределены по числу классифицируемых объектов. Оценки «до 200» и «более 200» являются прикидочными и основаны лишь на примерной информированности автора о временной и пространственной трудоемкости рассматриваемых алгоритмов. Решение этого вопроса, как уже отмечалось в 2.3.3, было бы чрезвычайно важным. Так что вполне возможны отдельные переносы алгоритмов из столбца в столбец, хотя для большинства процедур оценки близки к действительности. Причем переносы возможны только слева направо — все выделенные как быстрые алгоритмы действительно являются таковыми. При первом взгляде на таблицу бросается в глаза резкая асимметричность в распределении алгоритмов по видам используемых параметров. На рис. 4.5 изображены общие частоты встречаемости пороговых значений в алгоритмах разных типов в порядке убывания частоты; закон распределения носит явно гиперболический характер. Верхний график подтверждает это: левая часть гистограммы хорошо аппроксимируется логарифмически-линейной функцией, что свидетельствует о законе Ципфа в его ранговой форме [100]. Если следовать [100, 107 и др.], то наличие закона 148
Таблица 4.1. Распределение алгоритмов классификации в зависимости от характера задаваемых параметров1 Задаваемые параметры число объектов 1 Автоматическая Прямая классификация, 2.2 до 200 2 более 200 3 классификация Оптимизация, до 200 4 2.3 более 200 5 Человеко-машинная классификация прямыми методами, 2.2 до 200 6 более 200 7 1. Параметры отсутствуют 2. Число классов (k) 25, 55 53 8, 9, 20, 23, 25, 28, 30 C1), D0), 42 D4) 21, 22, 24B6), 28- 31 1—9, 14— 17—19, 57, 2, 6, 7, 11— 1, 3—5, 10, 23, 32 16, 39—41, 60 45, 54, 58 14, 16, 17, 15 36—38 19, 26, 27, D0) 29, 32—35, 39, 41, 43, D4) 3. Порог типа расстояния до центра класса 38 R 33, 35, 44, 48, 61, 65 34 4. Порог типа расстояния между объектами d 59, 63 5. R и порог для расстояния между классами р 36, 37, 50 C1) Пустота в этих и других клетках таблицы говорит о недостаточном разнообразии процедур классификации, хотя алгоритмов так много ... 6. Порог для численности классов 42 B2)
ел 7. Порог для внутриклассовой дисперсии off 42 8. ky aj, й/ и др. 43 9. k, p 46 10. Я, п/ 62 47 П. k, R 64 24 12./г, d, R 18 13. /г, п/ 51 14. Лр B6), 27 21 15. Изменение'параметров иерархических про- 11 —13, 20 цедур 16. ky пи типичность ф и нетипичность 51 (\J?) класса 17. ф, яр, /г/ 52 18. Прочие пороги 49, 66 56 1 Если номер заключен в скобки, например C1), значит, алгоритм работает в двух режимах и этот номер встретится еще раз. Для иерархических процедур предполагается задание числа классов или порогов.
Ципфа говорит о достаточной структурированности научной дисциплины. Следовательно, и в будущем можно ожидать появления все большего числа работ в условиях отсутствия параметров, при заданном числе классов или при заданном пороге типа расстояния до центра класса. Видимо, эти три режима воспринимаются 1,8 1,6 1,4 0,8 0.6 0,4 0.2 0 I I 1 I 1 1 f 65 55 45 35 25 15 5 0 -л ~ • "I Рис. 4.5. Частоты встречаемости задаваемых параметров в кластерном анализе (f) и их логарифмы; 0 — отсутствие параметров, Q, а, Ь — параметры алг. 49, 66, 56; / — алг. 43 151
специалистами как самые благоприятные. Между тем число объектов в классе, внутриклассовая дисперсия показателей и др. используются значительно реже. Способы обоснования значений параметров рассмотрены в 4.2.3. Табл. 4.1 может служить основанием для выбора подходящих алгоритмов классификации. Видно, что если исследователь в состоянии как-то зафиксировать свои представления о задаваемых параметрах, то число возможных алгоритмов становится не таким уж большим (в самой заполненной клетке таблицы—21 алгоритм). Кроме этого, множество прямых процедур можно стратифицировать еще в двух разрезах табл. 2.1: по такому важному свойству, как зависимость результата работы от порядка просмотра точек (видимо, •при прочих равных условиях лучше выбирать алгоритмы, инвариантные к номерам объектов), и по наличию или отсутствию пересекающихся кластеров. Сочетание таблиц 2.1 и 4.1 позволяет еще более сократить множество алгоритмов, удобных для решения конкретных задач. Наконец, некоторая информация содержится в 2.4, где рекомендованы наиболее устойчивые процедуры из числа 14 рассматриваемых. При наличии приводимых в 2.4 оговорок для всех (проверяемых там) ситуаций лучшими оказались алгоритмы Уорда (8), Болла и Холла с эвристикой Боннера C9+33=39') и с максимально удаленными эталонами C9+45=39") и дальнего соседа C). Алгоритм Наги и Шелтона F0) носит весьма специфический характер и не может быть непосредственно рекомендован, как и алгоритм Розен- блатта E8). Алгоритмы 33 и 46, как носящие вспомогательный характер и включенные в алгоритм 39, из рассмотрения убираются. Метод «вроцлавской таксономии», идентичный алгоритму ближнего соседа E4), будет давать, видимо, в целом ненадежные результаты, как и сам односвязывающий метод (см. 2.4). Это не надо, конечно, понимать как «исключение из оборота» перечисленных алгоритмов, особенно метода ближнего соседа. Большая подборка материалов [127] посвящена сравнению лишь двух процедур — дальней и ближней связи, и там есть много интересных сведений о разных аспектах работы этих алгоритмов. Речь идет лишь о том, что на первичном этапе, без априорных предположений о характере структуры совокупности, лучше пользоваться менее чувствительными алгоритмами, чем ближний сосед и его модификации (см. 2.4). С учетом этих обстоятельств можно построить дополнительную схему выбора прямых алгоритмов для самых заполненных клеток табл. 4.1. Она отражена в табл. 4.2. Как видно из таблицы, в каждой группе совсем немного алгоритмов, из которых сравнительно нетрудно сделать выбор, учитывая естественную ограниченность программного обеспечения. Относительно человеко-машинных методов классификации в табл. 4.1 можно повторить сказанное в 2.2: во всех поисковых задачах не слишком большой размерности их использование очень желатель- 152
Таблица 4.2. Рекомендуемые алгоритмы прямой автоматической классификации для применения в обычных условиях1 Задаваемые параметры 1. Число классов 2. Порог типа R Не зависят от порядка просмотра объектов до 200 3, 8, 14—16 более 200 17—19 48, 61, 65 Зависят от порядка просмотра объектов до 200 39', 39" 38 более 200 57 35, 44 1 Пересекающиеся кластеры — в методах 57, 61, 65. Некоторые из «отброшенных» методов могут применяться, когда есть гипотеза о невыпуклости и пр.,— см. ниже. но — один вид упорядоченной матрицы (например, близкой к выпуклой) способен сказать исследователю очень много о структуре данных. Не случайно этот прием успешно применяют и в образном анализе [128]. Рассмотрим алгоритмы оптимизации. Видно, что почти все они сконцентрированы в верхней части табл. 4.1; попробуем «разукрупнить» три самые плотные клетки. Самый надежный способ обоснования вида критерия — это придание ему четкого содержательного смысла, совпадающего с конечным результатом, найденным в данной задаче или максимально близким к нему. Пример четкой экономической трактовки дает функционал Fg; если требуется выделить блоки отраслей по их межотраслевым связям так, чтобы суммарный обмен товарами в блоке был максимален, а между блоками — минимален, естественнее всего использовать Fiq\ этот же критерий пригоден для оптимальной группировки энергохозяйств в управляемые объединения, при которой желательна минимальная внешняя связанность каждой системы; при географическом районировании могут иметь особое значение критерии типа F*, F32, ^зз, ^35, /чо, /44, поскольку там существенны расстояния до центров агломераций, под которыми понимаются не столько «центры тяжести» населенных пунктов, сколько отдельные города или транспортные узлы и т. д. Эти же критерии логично использовать во многих других ситуациях, где предполагается некая «экстремальная точка» в каждом классе (см. F31, Ргъ)' узловое событие исторического периода (и события, тяготеющие к нему); лидирующая страна и сателлиты; ведущий ученый школы и окружающие его лица; психологический лидер группы и т. д. В двух последних примерах уместно использовать вариант F4o с несколькими эталонами, так как лидеров в группе может быть 2—3. В более размытых ситуациях такого же типа (с эталонами) целесообразно применять размытые критерии F29 и особенно /чз: например, в группировке людей по уровню интеллекта лидеры в классах наверняка будут, но недостаточно четкие (каждый будет в определенной мере представлять «прототип» группы). Критерии типа «средние расстояния вне и внутри» /^—A, F26, ^зо воз- 153
никают в классификации нецентрированных систем, например, при распределении элементов на отдельных блоках платы требуется максимизировать интенсивность взаимодействия между элементами одного блока и минимизировать взаимодействие между блоками. Словом, самый лучший способ выбрать критерий — это сформулировать его на языке, близком к экономическому: какие потери будут иметь место при отклонении от экстремального значения показателя. Это вдвойне справедливо для критериев, у которых можно отыскать глобальный экстремум (F\, F15, F21, ^22, F44). При отсутствии точной постановки точное решение не стоит затрат на его получение. А как быть в типичной ситуации поискового статистического исследования, когда исследователь мало представляет себе структуру данных и еще меньше — содержательный смысл тонкой разницы между различными критериями? Функционалы обладают определенными формальными свойствами, которые можно учитывать при решении конкретных задач. Отметим сразу, что фактически все алгоритмы, минимизирующие критерии, зависят от порядка просмотра точек. Критерии качества можно разбить на два неравных класса по следующему принципу: использует функционал метрические свойства расстояния (осредняет их, возводит в степень и т. д.) или только качественные (порядковые или номинальные). Критерии второго типа в целом более предпочтительны в тех случаях, когда нет уверенности в «истинности» вычисленных мер близости. К таким непараметрическим КрИТерИЯМ ОТНОСЯТСЯ F2, fie, ^20, ^25, ^27, ^28, Fz9, /ЧЬ Вопрос о соответствии между видом используемого критерия и геометрической формой выделяемых" кластеров исследован недостаточно. Ясно лишь, что все перечисленные в 2.3.2 критерии «с центром», а также дисперсионные критерии F\, F\\—/мз ориентированы на выделение шарообразных (в своей метрике) скоплений. Хотя в реальности такие кластеры довольно нередки, ими, конечно, не исчерпывается многообразие возможных форм. Более гибкими в этом смысле выступают непараметрические процедуры, названные выше, хотя точных исследований не проводилось. В экспериментальном отношении критерии качества изучались мало. Г. Миллиган [141] проверил 30 функционалов на своем полигоне, частично описанном в 2.4. Четырьмя иерархическими алгоритмами (методы дальней, ближней и средней связи, Уорда) классифицировались искусственные данные, а затем на уровнях, отвечающих числу сгенерированных кластеров, вычислялись значения всех критериев качества. Определялся коэффициент Рэнда внешней близости машинного и алгоритмического разбиений, а также коэффициент Жаккарда (см. 1.3). Затем для всего набора расчетов (при изменении вида алгоритмов, числа классов, характера ошибок и т. д.) вычислялись коэффициенты корреляции Спирмена и Пирсона между внутренними 30 критериями и двумя внешними. 154
Таблица 4.3. Результаты экспериментального сравнения критериев качества классификации [141, с. 1921 Ранги критериев по [141] Номера критериев по 2.3 Корреляция с коэффициентами Хемминга B.4) Линейная Ранговая 1 28 91 89 2 26 90 89 3 34 89 88 4 25 87 84 5 30 82 85 6 27 78 82 23 19 49 74 25 11 38 52 29 4A1 ) 18 18 Приведем эти значения для тех 10 критериев, которые попали в наш обзор, в табл. 4.3. Как видно, лидирующее положение занимают критерии двух видов: типа непараметрических B5, 27, 28) и параметрических B6, 30) характеристик соответствия между внутри- и межкластерными расстояниями. На последних местах — критерии дисперсионного типа (особенно удивляет слабый результат, полученный популярной величиной Fa). Конечно, эти расчеты нельзя трактовать как «приговор» тем или иным статистикам. Из описания методики видно, что алгоритмы не стремились оптимизировать критерии, а просто фиксировали их уровень. Однако даже при таком подходе прослеживается эффективность непараметрических измерителей качества (о чем говорилось в 4.2.2), а также выгодность двусторонних оценок типа «вне — внутри» по сравнению с раздельными их составляющими. Показательно, что в группу лучших вошла корреляционная статистика F34, которая, как отмечалось в 2.3, связана с аппроксима- ционным подходом 2.3.4 и тоже имеет вид «вне — внутри». Сравнительные преимущества прямого и оптимизационного подхода не раз обсуждались в 2.2, 2.3, поэтому отметим лишь, что для выделения кластеров сложной формы лучше использовать прямые методы (для этой цели, кстати, хорошо подходят и «плохие в среднем» алгоритмы ближнего соседа, «вроцлавской таксономии» и др., особенно перспективным выглядит метод 19 из табл. 2.3, о чем говорилось в 4.2.2). Попробуем компактно охарактеризовать в целом последовательность этапов и критериев, которыми целесообразно руководствоваться исследователю при выборе алгоритмов классификации (рис. 4.6). Ставить вопросы и отвечать на них желательно именно в том порядке, который показан на схеме. При последовательном ее применении в каждом отдельном случае множество возможных алгоритмов будет резко сокращено. 155
с 1. Исходные сведения о \ задаче и возможность 1 *" задания определенных 1 параметров классификации / Табл. 2.1 B. Формулировка содержателы представлений: »ных\ О качестве классификации в целом: 2.3.4 3. Формальные соображения / Зависимость прямых процедур I от порядка просмотра объектов — )¦*- О возможных геометрических свойствах решений (шарообразные скопления — 2.2.3; прочие формы -2.2.3) Учет параметрических и непараметрических свойств критериев 4. Экспериментальные соображения Прямые алгоритмы — 2.4 Оптимизационные алгоритмы Рис. 4.6. Общая схема выбора алгоритма кластер-анализа для решения прикладных задач 4.2.4. ВЫБОР ПАРАМЕТРОВ АЛГОРИТМОВ КЛАССИФИКАЦИИ Как видно из рис. 4.5, более половины рассмотренных в книге алгоритмов требуют знания числа классов, 10%-ного порога типа расстояния до центра класса. Как выбирать значения этих и других параметров? 1. Число классов иногда легко определить из существа задачи: например, требуется, зная взаимное отношение людей, разделить их на три исследовательские группы; разбить предприятия на группы хороших, средних и плохих и т. д. Но в общем случае этот вопрос очень не тривиален. Если допускаются единичные классы (а чаще всего так и делается), то он тесно смыкается с проблемой робастных оценок. Действительно, задавая некоторое число классов и даже зная, сколько классов имеется на самом деле, всегда есть риск, что вместо скоплений выделяется именно засоряющие совокупность объекты. Алгоритмы типа иерархических процедур или диагонализации сравнительно легко выделяют такие аномалии, а для эталонных процедур они могут стать серьезной помехой. Поэтому целесообразны следующие приемы: проверить точки на ближайшее окружение (см. алг. 47, 48); до классификации отбросить несколько самых удаленных точек (проверить по сумме расстояний или по минимальному расстоянию), как это делается 156
при определении среднего балла фигуристов, и др. Уже после такой очистки можно задавать число классов. Некоторые способы определения числа классов были описаны в 2.2 и 2.3; табл. 4.1 дает представление о тех методах классификации, в которых число классов определяется либо автоматически, либо с участием человека (особенно часто в последнем случае используется идея выявления скачка расстояния при переходе от класса к классу). В этих алгоритмах процесс задания числа классов «встроен» в сами вычисления. Когда же этого нет, требуется проводить дополнительные расчеты. Самый простой способ — задать целый спектр значений классов и из полученных разбиений выбрать наилучшее в каком-то смысле (содержательном или формальном). Так часто и поступают, привнося, конечно, сильный субъективизм в принятие решения. Таблица 4.4. Результаты экспериментального сравнения критериев выбора числа классов [142, р. 165—176] № п/п 1 2 3 4 5 6 7 8 9 10 11 12 Критерии, авторы, годы Калинский, Харабаш, 1974 Дуда, Харт, 1973 Хьюберт, Левин, 1976, F26 Бейкер, Хьюберт, 1975, F28 Бил, 1969 Рэй, 1982; Сэрль, 1983 Миллиган, 1980, Fa Рольф, 1974, F27 Рольф, 1974, F25 Фридман, Рубин, 1969, Fn Мак-Клайн, Рао, 1975, F3o Фридман, Рубин, 1969, Fn Ранги по [142] 1 2 3 4 5 6 7 8 17 23 28 30 Числе К—2 и менее 1 0 4 8 7 0 25 4 74 81 0 0 ) классов, показываемое критерием К—1 18 23 29 37 55 22 83 36 126 118 б 0 Истинное число К 390 388 347 339 331 321 308 297 202 121 25 0 К+1 12 8 10 11 1 35 9 6 10 62 6 0 К+2 5 7 2 2 4 22 4 0 7 18 1 0 К+Зи более 6 6 40 35 34 32 3 89 10 32 400 432 Существует множество рекомендаций по количественным критериям определения числа классов — чаще всего в той же ситуации многократного прогона алгоритма. Г. Миллиган и М. Купер в 1985 г. опубликовали результаты сравнения 30 тестов такого рода уже по известной нам схеме генерации данных и с использованием нескольких иерархических процедур. На каждом уровне иерархии определялось значение критериев и проверялась точность «угадывания» критерием истинного числа классов. В общей сложности каждый критерий проверялся на 432 выборках, отличающихся типами ошибок и т. д. (число объектов — 50). Истинное число классов было равно 2, 3, 4, 5. В табл. 4.4 приведена небольшая выдержка из обширной таблицы [142]. Опишем коротко новые критерии по номерам таблицы (остальные, см. табл. 2.5). 157'
1. (trB/(k—l)/irW/(n~-k)9 где В — матрица межклассового разброса, W— внутриклассового разброса (см. описание Fn~-F\z в 2.3). 2. //B)///(i), где //B) — сумма квадратов ошибок внутри кластера, когда данные разделены на два кластера, //(i) — когда они объединены в 1 кластер. Критерий является статистическим, если в предположении нормальности выборок он превышает критическое значение (рекомендуют 3, 2). Классы стоит объединять. 3. 4. См. в табл. 2.5. 5. Величина, аналогичная критерию 2 и тоже ориентированная на нормальность: F — критерий для дисперсий в объединяемых кластерах* 6. «Кубический критерий»; основан на гипотезе о равномерном законе распределения и о сгущении в нем (это более реалистичная посылка, чем в двух предыдущих статистиках). Равен величине 1п(A—E(R2)/(\—/?2)), где R2— доля дисперсии, объясняемая кластерами, E(R)— ее ожидаемое значение в предположении справедливости гипотезы. Данные табл. 4.4 весьма красноречивы. В целом опять можно констатировать преимущества непараметрических критериев и критериев для расстояний типа «вне — внутри». Неудача F28, видимо, говорит о большей выгоде сложения расстояний (как в Fs), чем об их делении. «Инвариантные критерии» Фридмана — Рубина ведут себя плохо. Несколько неожиданно лидерство дисперсионного критерия Калинского — Харабаша; скорее всего дело в особой нормировке дисперсионных матриц, так как другие их комбинации приводят, как видно, к неудачам. Определение «истинного числа классов» означает, конечно, нечто большее, чем задание рабочего параметра алгоритма. В известной мере это узловая проблемы кластер-анализа, и неудивительно, что она не находит однозначного решения. Так, уже после появления работы [142] и с учетом ее был предложен весьма перспективный метод оценки числа классов с использованием статистической техники бутстрэпа, свободной от параметрических гипотез [153]. Для нахождения числа классов полезно применить два-три способа, но здесь вероятность успеха, видимо, выше, чем для выбора алгоритмов, ибо решение носит более грубый характер. 2. Относительно выбора порога R — расстояния до центра или эталонной точки класса — известно немного. Фактически всегда его величина выбирается довольно интуитивно (кроме оптимизационных процедур, где она отыскивается). В принципе есть некоторая зависимость между R и fe, но она детально не изучалась. Грубый ориентир для определения R — диаметр всего исходного множества d, от которого R может составлять, например d/k. Чаще всего R варьируют, что иногда предусматривается и в алгоритме C8, 62, табл. 2.3; см. также [18], где говорится 158
об алгоритме с меняющимся окном просмотра «Пульсар»). Пороги типа d задаются часто как средняя связь в классе [62] или как некоторая функция от средней связи (в [63] обосновывается значение порога d, которое в два раза выше, чем средняя связь, так называемые «сильные кластеры»). Пороги для внутриклассовой дисперсии довольно понятны исследователю в силу своей одномерности и приближают задачу кластеризации к задаче комбинационной группировки, так как ограничения идут по каждой оси отдельно (правда, налагающиеся). Порог для числа объектов в классе или для плотности класса тоже содержательно довольно убедителен в ряде случаев, особенно в такой форме: в кластере не должно быть меньше щ объектов. 4.2.5. ПРЕДСТАВЛЕНИЕ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ КЛАССИФИКАЦИИ После проведения классификации очень важно в удобной форме представить ее результаты. Знакомство с современным программным обеспечением показывает, что далеко не всегда этому уделяется достаточное внимание. Поэтому приведем здесь простые, но весьма полезные приемы, позволяющие быстро и четко анализировать результаты любой классификации1. ЭВМ должна выдавать следующий спектр характеристик. 1. Распределение номеров объектов по номерам классов. 2. Для размытых и пересекающихся классификаций пункт 1 расширяется, печатается: мера размытости класса; матрица пересечений между классами; степень принадлежности каждого объекта каждому классу. 3. Матрица средних межкластерных и внутрикластерных расстояний. 4. Пункт 3 в пороговом варианте — матрица отклонений расстояний от порога. 5. Гистограмма расстояний. 6. Визуальное представление данных (быстрыми методами, например, на плоскости первых компонент). 7. Дендрограмма или ее заданные части для иерархических процедур. 8. Средние значения, коэффициенты вариации, размахи всех признаков в классе, матрица внутрикластерных корреляций. 9. Отклонения средних значений признаков в классах от об- 1 В апреле 1986 г. на семинаре в Пущино по математическим методам классификации автор предложил участникам заполнить небольшую анкету по вопросам интерпретации. Нижеследующие пункты поэтому в известной мере являются плодом коллективного труда, за который автор благодарит всех лиц, заполнивших анкету и расширивших ее. 159
щей средней или между собой в пороговом режиме и в булевской форме: если средняя в классе больше (в смысле порога) общей средней — ставится единица, меньше — минус единица, равна — нуль. Пороги могут быть детерминистские (на столько-то процентов) и вероятностные (критерий Стьюдента и т. д.). Они позволяют сразу зафиксировать «лицо класса» по признакам. Все рассмотренные выше статистики так или иначе обсуждались в тексте. Пункты 8 и 9 особенно принципиальны,.хотя и являются весьма обычными для «традиционной статистики». Дело в том, что процесс интерпретации результатов кластерного анализа содержит в себе некоторую парадоксальность. Действительно, после всех манипуляций с нормировкой, расстояниями, функционалами качества и др. исследователь в конечном счете оказывается перед классами, описанными все в тех же исходных значениях признаков, и пытается оценить результаты отнюдь не по функционалу, а в соответствии со своим содержательным представлением о разнице классов. Здесь возникают довольно тонкие и не вполне изученные проблемы. Сформулируем одну из них в виде тезиса: результаты кластерного анализа содержательно объясняются тем легче, чем больше возможность описания всей структуры комбинациями значений интервалов отдельных признаков. Поясним это утверждение. В подавляющем большинстве случаев интерпретация классов происходит по средним значениям признаков в них. Дополнительное рассмотрение других характеристик (корреляций и др.) трудоемко, хотя иногда и необходимо. Сопоставление же средних значений каждого признака наиболее легко осуществляется, если классы по данному признаку не имеют наложений проекций. Степень раз- деленности кластеров по каждой оси можно оценить с помощью следующего выражения: i где Rf — размах вариации по /-му признаку 1-го класса, Rf — общий размах вариации. Величина Ef принимает значение 1 в случае полного разбиения совокупности на N одноточечных кластеров; если ?-<1?Х;1, классы полностью разделимы, и чем ближе к 1, тем сильнее; при l/k все проекции полностью накладываются друг на друга. Таким способом можно определить так называемую комбинационную разделимость множества в целом. Действительно, если по каждому признаку величины Ef близки к единице, значит, эту совокупность можно было в принципе таким же образом расчленить с помощью комбинационной группировки, хотя конкретный выбор величины интервала и не является точно обусловленным. Такая структура данных может рассматриваться как максимально простая. Максимально сложный для восприятия случай — полное 160
наложение кластеров друг на друга по своим проекциям, как это происходит в сильно невыпуклых множествах,— см. рис. 2.1 кластеры Е и F, Было бы интересно произвести следующий эксперимент: для множества уже расклассифицированных реальных данных проверить степень комбинационной разделимости и определить долю действительно сложно устроенных структур, не поддающихся простому разделению по каждому признаку независимо. Думается, она не очень велика. Значение ?) также было бы удобно использовать в интерпретации. При наличии значений всех перечисленных выше характеристик результатов кластеризации можно делать довольно подробные выводы о структуре изучаемой совокупности, которые для каждого кластера определяются статистическим смыслом соответствующих величин. Особое значение имеет сравнение классов по различным параметрам, которое осуществляется либо попарно, либо с некоторым эталоном для'всей совокупности (средним или типичным уровнем показателя). Содержательно интересны оба способа сравнения, но первый является «более чистым» (так как нет дополнительного влияния усреднения) и может быть особенно рекомендован. Он может дать интересные сведения о геометрической структуре данных. Например, если в двух кластерах средние значения показателей равны, а дисперсии различны, кластеры имеют торообразную форму; если это же наблюдается по одной оси, один кластер вытянут относительно другого по этой оси и т. д. Близкие средние значения какого-то показателя у всех кластеров говорят о неинформативности данного показателя для классификации и о возможности его устранения. Наличие малочисленных кластеров с резко отличными от других средними уровнями хотя бы по одному показателю свидетельствует обычно об аномальности этих наблюдений. Кстати сказать, кластер-анализ вообще очень хорошо решает задачу выделения выбросов, не опираясь при этом на вероятностные критерии робастного оценивания [82]. В целом же интерпретация результатов кластеризации сродни этому процессу в факторном анализе: очень желательно обнаружить те качественные причины, которые бы убедительно объясняли полученное разбиение. Тогда можно говорить о естественности результата (см. 4.1). 4.3. ОЦЕНКА РЕЗУЛЬТАТОВ ПРОИЗВОДСТВЕННОЙ ДЕЯТЕЛЬНОСТИ И КЛАССИФИКАЦИЯ ПРЕДПРИЯТИЙ В соответствии с развиваемой в [52] концепцией оценка качества производственной деятельности предприятий или организаций должна заключаться в последовательном решении двух основных задач: точном обосновании состава результатных показателей; непосредственной оценке по отобранным показателям. Обоснование состава информативных показателей качества дея- 161
тельности удобно производить с помощью методов факторного (компонентного) анализа: из широкого круга возможных показателей отбирается несколько наиболее характерных, отражающих слабо связанные стороны функционирования объекта и тем самым комплексно описывающих качество его деятельности. Опишем кратко содержание/исследования, выполненного нами на материалах общестроительных трестов Минтяжстроя Казахской ССР и Главсредуралстроя Минтяжстроя СССР за 1973—1985 гг.1 В результате тщательного статистического анализа была выделена система информативных показателей эффективности производ- Та блица 4.5. Средние межклассовые и внутриклассовые расстояния Номер классов 1 2 3 4 5 Количество объектов 8 25 5 2 1 1 1,80 1 1 1 1 0 2 3,02 1 1,56 1 1 0 Номера классов 3 3,83 1 3,03 0 1,67 1 0 4 4,65 1 4,40 1 5,32 0 2,20 0 5 3,58 1 4,88 1 4,19 1 5,57 0 ствэ: прибыль на рубль затрат; материалоотдача; фондоотдача; оборачиваемость нормируемых оборотных средств; производительность труда на строительно-монтажных работах. Классификация производилась двумя алгоритмами: диагонали- зацией матрицы евклидовых расстояний B9 в табл. 2.3) и иерархической группировкой по средней связи E в табл. 2.3) на то число классов, которое выделялось визуально после диагонализации. Проверялись наборы с наличием показателей фондоотдачи и без них, поскольку нередко на уровне треста расчет фондоотдачи не вполне оправдан.' Результаты классификации сравнивались с помощью расчета коэффициентов сопряженности Крамера между разбиениями. Сравнение позволяет сделать два вывода. 1. Все разбиения трестов за один год тесно связаны друг с другом. Это свидетельствует об устойчивости структуры к методу классификации. 2. Разбиения за разные годы отличаются в большей степени, чем варианты классификации за один год, но все же достаточно близки, чтобы не считать полученную связь случайной. Это обстоятельство позволяет сделать вывод об относительной устойчивости во времени классификаций трестов по отобранным показателям. Все варианты классификации удовлетворяют требованиям, Программное обеспечение принадлежит Т. К. Аскарову. 162
предъявляемым к хорошей структуре: внутриклассовые средние расстояния меньше других межклассовых средних расстояний данного класса. Приведем для иллюстрации одну матрицу средних расстояний (табл. 4.5). Видно, что средние расстояния достаточно сильно различаются A означает существенное (на уровне 5%) превышение среднего межклассового расстояния среднего внутриклассового) . Рассмотрим теперь содержательное различие между классами, проявляемое в средних значениях показателей, по которым проводилась группировка. Поскольку попарное сравнение всех средних значений в классах по всем разбиениям очень громоздко, производилось сравнение внутриклассовых средних с общей средней по t - критерию. Это позволяет каждый класс описать вектором, где 1 означает существенное превышение среднего значения данного признака в классе средней по всей совокупности, 0 — несущественную разницу,-1—существенное меньшее значение. Такой набор нулей и единиц определяет «лицо класса» и дает возможность сравнивать его с другими классами независимо от изменения состава сравниваемых выборок. 1. За каждый год выделяется большая группа предприятий с примерно одинаковыми соотношениями всех пяти показателей первой системы: классы (порядок показателей см. выше) (—1, —1, —1, 0,-1), (-1,-1,0-1,0), (—1,—1,-1 0—1), (-1,-1,-1,-1), (—1, —1, —1, 0, 0). Для предприятий этого типа характерны невысокие значения всех показателей, кроме оборачиваемости (которая обычно на среднем уровне). В группе требуется стимулирование всех направлений роста эффективности производства, ее составляют в основном отстающие предприятия. 2. Сравнительно устойчиво выделяется группа предприятий с высокими значениями производительности труда и рентабельности при различном уровне других показателей: A, 0, —1, —1, 1), A, —1,-1, 1, 1), A, —1, 1,0, 1), @,0,—1,0, 1), A, 1,0, 1, 1). Характерны невысокие или средние значения материалоотдачи и оборачиваемости. Организации такого типа, видимо, следят за директивно утвержденными показателями, оставляя без специального внимания прочие характеристики отдачи ресурсов и затрат. 3. Выделяются в основном немногочисленные классы преимущественно с высоким уровнем оборачиваемости и материалоотдачи, средним или высоким уровнем рентабельности и производительности труда, обычно низким уровнем фондоотдачи: @, —1, 1, 0, 1), @, 0, 1, 1, 1), (-1, -1, 1, 1, 0), A, -1, 1, 0, 0), A, 0, 1, 1, 0). Предприятия этих классов можно назвать лидерами в рассматриваемой совокупности. Для дифференцированного управления ростом эффективности полученная с помощью кластер-анализа группировка предприятий имеет большое значение. Во-первых, она показывает, на какие именно показатели надо обращать особое внимание в разных груп- 163
пах с учетом их отличия от средних уровней. Во-вторых, в выделенных естественных группах разные корреляции отличаются от общеотраслевых, что позволяет более точно принимать управленческие решения. Более подробно поднятые здесь и близкие вопросы рассматриваются в работе1. 4.4. ЭКОНОМИКО-ГЕОЛОГИЧЕСКОЕ РАЙОНИРОВАНИЕ ТЕРРИТОРИИ2 Районирование крупных неоднородных территорий является одной из базовых операций металлогении и прогнозирования ископаемых. Оно позволяет упростить реальную чрезвычайно сложную картину геологического строения территории и сделать ее доступной для анализа (в частности, металлогенического); выделение оптимально однородных областей повышает качество и эффективность прогноза полезных ископаемых, так как позволяет использовать специфические прогнозируемые характеристики и основывать прогноз на более устойчивых и «тонких» закономерностях локализации ору- денения (в более неоднородном пространстве эти закономерности становились бы неустойчивыми и даже просто затушевались). Формально задача районирования (на данных Восточной части Казахстана) сводится к кластерному анализу. Однако стандартный подход к ее решению будет малопригодным. Это обусловлено тем, что имеются априорные предположения о наличии «размытости» структурных данных, вызванной сложностью форм кластеров, возможностью их пересечения и соответственно неоднозначностью отнесения объектов к тому или иному кластеру. Практически точное число кластеров заранее неизвестно, по различным наборам признаков границы кластеров могут существенно изменяться. Это усугубляется большим количеством объектов точек территории с измеренными параметрами — около 900. Поэтому целесообразно проделывать двухэтапную группировку типа описанной в алг. 59 из 2.2. На предварительном этапе выделяются заведомо компактные группы точек в разных признаковых пространствах, т. е. могут пересекаться. Каждый сгусток заменяется точкой, являющейся его центром. Число объектов, таким образом, резко сокращается, что позволяет использовать удобные алгоритмы для средних размерностей. Эта методика и была применена для районирования территории Восточной части Казахстана для целей прогноза ископаемых (полиметаллов и меди) [12]. 1 Мандель И. Д. Экономико-статистическое моделирование сбалансированности плановых заданий//Модели предприятия в экономическом анализе и управлении производством.— Новосибирск: Наука, 1986.— С. 68—75. 2 Параграф написан совместно с Т. К. Аскаровым (программное обеспечение, проведение расчетов) и В. Л. Лосем (интерпретация расчетов). 164
Исходя из содержательных соображений были намечены прогнозирующие характеристики геологического пространства, которые связаны с типом и интенсивностью свинцово-цинковой и медной минерализации изучаемой территории. Информацию о них можно получить в имеющихся фондовых материалах. Для всей изучаемой территории были построены модели пространственного распределения выбранных прогнозирующих характеристик, а также модели плотности свин- цово-цинкового и медного оруденения1, которые служили целевой характеристикой [12]. ^Модельные значения характеристик измерены в узлах координатной сети, покрывающей территорию Восточной части Казахстана: координаты узлов были записаны на магнитную ленту и послужили базой данных для кластерного анализа и районирования. Список использованных для районирования 24 характеристик подробно описывается в [12]. Первоначально была сделана попытка снижения размерности признакового пространства. Для этого использовался метод главных компонент и корреляционный анализ. Относительно тесная линейная связь выявилась между шестью характеристиками, т. е. снижение размерности оказалось незначительным (на 25%). Применение иерархических алгоритмов на первых этапах решения задачи нерационально из-за большого числа объектов-узлов координатной сети (894). Поэтому был применен алгоритм типа корреляционных плеяд, просматривающий последовательно попарные расстояния объектов в сравнении с некоторой пороговой величиной. Матрицу расстояний хранить в памяти ЭВМ при этом не требуется. Введение порога в данном случае не накладывает извне структуру на данные, так как выделяются пары точек, расстояние между которыми меньше этой пороговой величины. Здесь возможно выявление кластеров сложной формы и т. д. Основная задача данного этапа — выявление групп точек, устойчиво близких по разным наборам признаков, затем, заменив эти группы эталонами, можно использовать иерархические алгоритмы. По нескольким наборам признаков (наборы на 50—70% перекрывали друг друга), составленным на основе содержательных соображений, было выявлено 89 относительно устойчивых групп, содержащих от 3 до 138 точек. Характерна вытянутость многих полученных кластеров, а также их пространственная локализация (точки, входящие в кластер, в пространстве создают компактную область, что отражает общую неоднородность геологического пространства). 167 точек не проявили устойчивой тенденции к вхождению в группы. После замены группы их центрами тяжести была получена совокупность Д13 256 точек (89 центров тяжестей групп плюс 167 «незави- 1 Под моделями распределения понимается восстановление непрерывной плотности изменения показателя в пространстве по его дискретным наблюдаемым значениям. 165
симых» точек). Эта совокупность обрабатывалась несколькими кластер-алгоритмами (иерархическими и ^-средними). Сравнение полученных по отдельным алгоритмам результатов позволило выделить 18 устойчивых кластеров. Подробная интерпретация классификации приведена в [12]; показано, что регионы существенно различаются по основным геологическим параметрам. Из приведенного анализа можно сделать несколько выводов. 1. Используемая схема кластеризации предусматривает итеративное общение специалистов-геологов с «вычислителями», изменение параметров классификации и ее методов, варьирование используемых признаков и т. д. и является наиболее адекватной данному очень сложному и громоздкому материалу. Только в таком человеко-машинном варианте и можно решать серьезные поисковые задачи. 2. Выделенные кластеры вряд ли могут быть строго описаны в терминах исходных определений (см. 2.1) или подобных им. Это, однако, не мешает им быть ценным подспорьем в решении экономико- геологических задач. 3. В классах удалось добиться куда более высоких связей между целевыми и влияющими показателями, чем во всей совокупности, что свидетельствует о необходимости предварительного выделения однородных групп с тем, чтобы с ними вести дальнейший анализ (см. целевой подход в 3.2). Надежные прогнозные модели в группах (вообще большая редкость в геологии) могут помочь экономично использовать средства на разведку полезных ископаемых. В настоящее время методы кластерного анализа во многих случаях стали неотъемлемой частью статистического изучения многомерной информации. Как видно из содержания книги, они дают большие возможности для использования различных содержательных предположений о структуре данных и учете вычислительных особенностей процедур. Однако ясно также, что многие проблемы ждут своего решения. Назовем некоторые из них. 1. Нуждаются в разработке алгоритмы (или коллективы алгоритмов), выделяющие кластеры сразу в смысле нескольких определений, т. е. последовательно проверяющие каждый «сгусток» на наличие разных желаемых свойств. 2. Требуется большая работа по теоретическому и экспериментальному сравнению многочисленных алгоритмов, организации убедительных тестов и полигонов, на которых должны проверяться старые и особенно новые методы. Было бы очень полезно централизовать этот процесс, поручив какой-либо научной организации создать банк алгоритмов и программ и организовать их всестороннюю проверку. 3. Требуется повысить уровень «диагностики данных», т. е. научиться хорошо решать задачу выбора конкретных алгоритмов в 166
зависимости от предварительно известных свойств массива наблюдений. 4. Можно ожидать более интенсивного развития и использования методов, направленных на выделение совокупностей с заранее заданными свойствами и на работу в пространстве структурных параметров, а не исходных показателей (см. 3.2). 5. Программное обеспечение кластерного анализа пока исполнено главным образом в пакетном режиме. Между тем высока потребность в создании мощных диалоговых систем, в которых сочетаются быстрые алгоритмы классификации и удобные средства настройки параметров, визуализации данных и интерпретации результатов расчетов.
СПИСОК ЛИТЕРАТУРЫ 1. Энгельс Ф. Диалектика природы//Маркс К., Энгельс Ф. Соч.—2-е изд.—Т. 20. 2. Ленин В. И. Капиталистический строй современного земледелия//Полн. собр. соч.— Т. 27.— С. 208. 3. Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика.—Т. 1. Основы моделирования и первичная обработка данных.—М.: Финансы и статистика, J983.—472 с.;—Т. 2. Исследование зависимостей, 1985.—488 с/ 4. Айвазян С. А., Енюков И. С, Мешалкин Л. Д. О структуре и содержании пакета программ по прикладному статистическому анализу//Алгоритмическое и программное обеспечение прикладного статистического анализа.—М., 1980.—С. 7—62. 5. Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений.—М.: Статистика, 1974.—240 с. 6. Айзерман М. А., Браверман Э. И., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин.—М.: Наука, 1970.—384 с. 7. Алгоритмическое и программное обеспечение прикладного статистического анализа.— М.: Наука, 1980.—424 с. 8. Алимов Ю. И. Альтернатива методу математической статистики.—М.: Знание, 1980.—64 с. 9. Апраушева Н. Н. Об использовании смесей нормальных распределений в распознавании образов: Автореферат на соискание уч. степени канд. физ.-мат. наук.— М.: ВЦ АН СССР, 1981.-16 с. 10. Апресян Ю. Д. Алгоритм построения классов по матрице расстояний. Машинный перевод и прикладная лингвистика.—Вып. 9.—1966.—С. 3—18. 11. Аркадьев А. Г., Браверман Э. М. Обучение машины классификации объектов.— М.: Наука, 1971.—192 с. 12. Аскаров Т. К., Лось В. Л., Карепова Р. И. Геологическое районирование Восточного Казахстана с помощью кластерного анализа//Математическое обеспечение задач геологического прогнозирования.—Алма-Ата: КазИМС, 1984.— С. 21—38. 13. Бауман Е. В. Методы классификационной обработки в задачах экспертизы// 1 Всесоюзное совещание по статистическому и дискретному анализу нечисловой информации, экспертным оценкам и дискретной оптимизации.—М.—Алма- Ата, 1981.—С. 408—409. 14. Бауман Е. В., Дорофеюк А. А. Рекуррентные алгоритмы автоматической клас- сификации//Автоматика и телемеханика.—1982.—№ 3.—С. 95—105. 15. Беккер В. А., Лукацкая М. Л. Об анализе структуры матрицы коэффициентов связи//Вопросы экономико-статистического моделирования и прогнозирования в промышленности.— Новосибирск, 1970.— С. 273—284. 16. Браверман Э. М., Мучник И. Б. Структурные методы обработки эмпирических данных.—М.: Наука, 1983.—464 с. 17. Бородкин Л. И. Многомерный статистический анализ в исторических исследованиях.—М.: МГУ, 1986.—188 с. 18. Бухштабер В. М., Маслов В. И., Зеленюк Е. А. Методы анализа и построения алгоритмов автоматической классификации на основе математических моделей//Прикладная статистика.—М.: Наука, 1983.— С. 126—144. 19. Вапник В. Н. Восстановление зависимостей по эмпирическим данным.—М.: Наука, 1979.—424 с. 20. Васильев В. И. Распознающие системы: Справочник.—Киев: Наукова думка, 1983.-424 с. 168
21. Воронин Ю. А. Теория классифицирования и ее приложения.—Новосибирск: Наука, 1985.—232 с. 22. Воронин Ю. А., Гафуров Д. 3., Шевченко Н. Г. Некоторые классификационные вопросы распознавания.— Новосибирск: ВЦ СО АН СССР, 1983/Препринт № 380.—24 с. 23. Всесоюзная конференция «Нечисловая статистика, экспертные оценки и смежные вопросы»: Тезисы докладов.—М.-Таллин, 1984.—404 с. 24. / Всесоюзное совещание по статистическому и дискретному анализу нечисловой информации, экспертным оценкам и дискретной оптимизации: Тезисы докладов.—М.-Алма-Ата: ВСНТО, 1981.—440 с. 25. Гамбаров Г. М., Мандель И. Д., Рыбина И. А. О некоторых метриках, возникающих в задачах обработки данных//Автоматика и телемеханика.—1980.— № 12.—С. 116—129. 26. Гильбурд М. М. Об эвристических методах решения задачи разбиения множества взаимосвязанных объектов//Автоматика и телемеханика.—1984.— № 1.— С. 107—113. 27. Гришин В. Г. Образный анализ экспериментальных данных.—М.: Наука, 1982.—240 с. 28. Гуд И. Дж. Ботриология ботриологии//Классификация и кластер.—М.: Мир, 1980.—С. 66—82. 29. Диде Э. и др. Методы анализа данных.—М.: Финансы и статистика, 1985.— 360 с. 30. Дорофеюк А. А. Алгоритмы автоматической классификации: Обзор//Автоматика и телемеханика.—1971.—№ 12.—С. 78—113. 31. Дубровский С. А. Прикладной многомерный статистический анализ.—М.: Финансы и статистика, 1982.—216 с. 32. Дуда Р., Харт П. Распознавание образов и анализ сцен.— М.: Мир, 1975.—512 с. 33. Дюран Н., Оделл П. Кластерный анализ.—М.: Статистика, 1977.—128 с. 34. Елисеева И. И., Рукавишников В. С. Группировка, корреляция, распознавание образов.—М.: Статистика, 1977.—144 с. 35. Житков Г. Н. Некоторые методы автоматической классификации: Обзор// Структурные методы опознавания и автоматическое чтение.—М.: ВИНИТИ, 1970.—С. 68—85. 36. Журавлева Ю. И., Юнусов Г. Об одном способе уточнения алгоритма таксономии при помощи распознающих методов типа голосования//ЖВМ и МФ.— 1971.—Т. П.—№ 5.—С. 1344—1347. 37. Загоруйко Н. Г. Методы распознавания и их применение.—М.: Советское радио, 1972.—288 с. 38. Загоруйко Н. Г. Таксономия в анизотропном пространстве//Эмпирическое предсказание и распознавание образов.— Новосибирск: 1978.— С. 26—35. 39. Заде Л. А. Размытые множества и их применение в распознавании образов и кластер-анализе//Классификация и кластер.—М.: Мир, 1980.— С. 208—247. 40. Закс Л. Статистическое оценивание.—М.: Статистика, 1976.—600 с. 41. Иванов В. В., Пухло С. В. Преобразование матриц сходства для целей группировки и упорядочения объектов//Комплексное применение математических методов в социологических исследованиях.—М: ИСИ АН СССР, 1983.— С. 57—67. 42. Ивахненко А. Г., Коппа Ю. В., Петухова С. А., Ивахненко М. А. Применение самоорганизации для разбиения множества данных на заранее незаданное число кластеров//Автоматика и телемеханика.—1985.—С. 9—16. 43. Каменский В. С. Методы и модели неметрического шкалирования: Обзор// Автоматика и телемеханика.—1977.—№ 8.—С. 118—156. 44. Кендэл М. Ранговые корреляции.—М.: Статистика, 1975.—214 с. 45. Кильдишев Г. С, Аболенцев Ю. И. Многомерные группировки.—М.: Статистика, 1978.—160 с. 46. Котюков В. И. Многофакторные кусочно-линейные модели.--М.: Финансы и статистика, 1984.—216 с. 47. Лейбкинд А. Р., Рудник Б. Л., Тихомиров А. А. Математические методы и модели формирования организационных структур управления.—М.: МГУ, 1982.— 232 с. 169
48. Литвак Б. Г. Экспертная информация: Методы получения и анализа.—М.: Радио и связь, 1980.—184 с. 49. Лумельский В. Я. Группировка параметров на основе квадратной матрицы связей//Автоматика и телемеханика.—1970.— № 1.— С. 133—143. 50. Мандель И. Д. К вопросу об унификации определений//Философские науки — 1975.—№ 6.—С. 134—138. 51. Мандель И. Д. Статистические критерии в оценке зависимости многомерной классификации//Методические разработки молодых ученых.—Алма-Ата: АИНХ, 1979.— С. 68—69. 52. Мандель И. Д. Эффективность живого труда и эффективность производства// Статистическое изучение производительности труда.—М.: Наука, 1981.— С. 274—290. 53. Мандель И. Д. О постановке задачи интенсионального статистического анализа// Количественные методы при металлогеническом анализе и прогнозировании полезных ископаемых.—Алма-Ата: КазИМС, 1983.—С. 140—143. 54. Мандель И. Д. О выборе информативных признаков при классификации объектов// 'Автоматика и телемеханика.—1986.— № 2.— С. 164—167. 55. Мандель И. Д. Многомерный статистический анализ в изучении экономических процессов.—Вестник статистики.—1986.—№ 5.—С. 28—36. 56. Мандель И. Д. Проблема двойственности в задаче классификации.//Автоматика и телемеханика.—1987.—№ 1.—С. 131 —134. 57. Мандель И. Д., Никитин А. И. Классификация многомерных наблюдений при анализе определений понятия АСУ//Экономико-статистические модели в прогнозировании и планировании промышленного производства.—Новосибирск: Наука, 1978.—С. 217—234. 58. Мандель И. Д., Черный Л. М. Экспериментальное сравнение алгоритмов кластер-анализа//Автоматика и телемеханика.—1988.—№ 1. 59. Матула О. В. Методы теории графов в алгоритмах кластер-анализа//Клас- * сификация и кластер.—М.: Мир, 1980.—С. 83—111. 60. Миркин Б. Г. Об одном подходе к обработке нечисловых данных. Математические методы моделирования и решения экономических задач.—Новосибирск, 1969.—С. 141 — 156. 61. Миркин Б. Г. Анализ качественных признаков.—М.: Статистика, 1976.— 168 с. 62. Миркин Б. Г. Анализ качественных признаков и структур.—М.: Статистика, 1980.—320 с. 63. Миркин Б. Г. Группировки в социально-экономических исследованиях.— М.: Финансы и статистика, 1985.—224 с. 64. Миркин Б. Г., Черный Л. Б. Об измерении близости между разбиениями конечного множества объектов//Автоматика и телемеханика.—1970.—№ 5.— С. 120—127. 65. Многомерные классификации в социально-экономических исследованиях.—М.: ИМЭМО АН СССР, 1973.—315 с. 66. Мучник М. Б. Классификация объектов на основе анализа матрицы связей между параметрами внутри классов//Модели агрегирования социально-экономической информации.—Новосибирск, 1978.—С. 66—70. 67 Иеймарк Ю. И., Баталова 3. С, Образцова Н. Д. К вопросу о выборе признаков при распознавании образов//Техническая кибернетика.—1970. -№ 1.—С. 55—63. 68 Общая теория статистики/Г. С. Кильдишев, В. Е. Овсиенко, П М Рабинович, Т. В. Рябушкин. М Статистика, 1980.—423 с. 69. Орлов А. И. Устойчивость в социально-экономических моделях.—М.: Наука, 1979.—296 с. 70. Орлов А. И. Некоторые вероятностные вопросы теории классификации/; Прикладная статистика.—М.: Наука, 1983.—С. 166—179 71. Плюта В. Сравнительный многомерный анализ в экономических исследованиях — М.: Статистика, 1980.—152 с. 72. Прикладная статистика.—М.: Наука, 1983.—384 с. 73. Райская И. И., Гостилин Н. И., Френкель А. А. Об одном способе проверки обоснованности разбиения в кластерном анализе.//Применение многомерного ста- 170
тистического анализа в экономике и оценке качества продукции.—Ч. П.— Тарту, 1977.—С. 129—131. 74. Райская Н. Н., Терехин А. Т., Френкель А. А. Кластерный анализ и его применение: Обзор//3аводская лаборатория.—1972.—№ 10. 75. Родионов Д. А. Статистические методы разграничения геологических объектов.— М.: Недра, 1968.—158 с. 76. Розин Б. Б. Теория распознавания образов в экономических исследованиях.— М.: Статистика, 1973.—224 с. 77. Розин Б. Б. Природа неоднородности статистических совокупностей и методы ее изучения при моделировании//Экономико-статистические модели в прогнозировании и планировании промышленного производства.—Новосибирск, 1978.— С. 7—26. 78. Розова С. С. Классификационная проблема в современной науке.—Новосибирск: Наука, 1986.—224 с. 79. Рыбина И. А. Применение метода последовательных расчетов к задаче автоматической классификации//Автоматика и телемеханика.—1986.—№ 1.—С. 126— 132. 80. Себестиан Г. С. Процессы принятия решений при распознавании образов.— Киев: Техника, 1965.—162 с. 81. Сиськов В. И. Корреляционный анализ в экономических исследованиях.—М.: Статистика, 1975.—168 с. 82. Смоляк С. А., Титаренко Б. Н. Устойчивые методы оценивания.—М.: Статистика, 1982.—208 с. 83. Сокал Р. Р. Кластер-анализ и классификация: основные направления// Классификация и кластер.—М., 1980.—С. 7—19. 84. Соломон Г. Зависящие от данных методы кластерного анализа //Классификация и кластер.—М., 1980.—С. 130—147. 85. Статистика, вероятность, экономика.—М.: Наука, 1985.—404 с. 86. Степанов В. Н., Мандель И. Д. Статистический анализ эконологических конфликтных ситуаций в контактной зоне суша — море//Экономика моря.—Киев: ИЭ АН УССР, 1986.—С. 82-92. 87. Сухотин Б. Б. Экспериментальное выделение классов букв с помощью ЭВМ// Проблемы структурной лингвистики.—М.: АН СССР, 1962.—С. 198—206. 88. Терентъев П. В. Метод корреляционных плеяд//Вестник ЛГУ.—1959.—№ 9.— С. 137—141. 89. Типология несоциалистических стран.—М.: Наука, 1976.—272 с. 90. Типология потребления.—М.: Наука, 1978.—168 с. 91. Ту Дж., Гонсалес Р. Принципы распознавания образов.—М.: Мир, 1978.— 416 с. 92. Турундаевский В. Б. Факторный анализ в задаче классификации объектов// Методы вычислительной математики и их применение.—М., 1975.—С. 86—99. 93. Терехина А. Ю. Анализ данных методами многомерного шкалирования.—М.: Наука, 1986.—168 с. 94. Тюрин Ю. Н. Проверка гипотезы о нормальности многомерной выборки большого объема//Теория вероятностей и ее применение.—1973.—№ 6.—С. 651—655. 95. Тюрин Ю. И., Василевич А. Н., Андрукович П. Ф. Статистические модели ранжированиям/Статистические методы анализа экспертных оценок.—М., 1977.—С. 30—58. 96. Уемов А. И. Логические основы метода моделирования.—М.: Мысль. 1973.— 226 с. 97. Философский энциклопедический словарь.—М.: Советская энциклопедия, 1983.— 840 с. 98. Френкель А. А. Производительность труда.—М.: Экономика, 1984.—176 с. 99. Фридман Г. Ш. Исследование одной задачи классификации на графах// Методы моделирования и обработки информации.—Новосибирск, 1976.—С. 147—178. 100. Хайтун С. Д. Наукометрия.—М.: Наука, 1983.—320 с. 171
101. Харман Г. Современный факторный анализ.—М.: Статистика, 1972.—486 с. 102. Хо Ю-Цзи, Агравала А. /С Об алгоритмах классификации образов: Введение и обзор ТИИЭР.—Т. 56.—1968.—№ 12.—С. 5—19. 103. Хьюберт Дж., Бейкер Б. Экспериментальное сравнение эталонных моделей иерархической группировки по r-диаметру относительно показателя согла- сия//Классификация и кластер.—М., 1980.—С. 112—128. 104. Цыпкин #. 3. Основы теории обучающихся систем.—М.: Наука, 1970.—252 с. 105. Шайкевич А. Я. Распределение слов в тексте и выделение семантических полей//Иностранные языки в высшей школе.—М.: Росвузиздат, 1963.—С. 14—26. 106. Шлезингер М. И. О самопроизвольном различении образов//Читающие автоматы.—Киев: Наукова думка, 1965.—С. 62—70. 107. Шрейдер Ю. А., Шаров А. А. Системы и модели.—М.: Радио и связь, 1982.— 152 с. 108. Шурыгин А. М. Распределение межточечных расстояний и разностей// Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа.—М., 1983.—С. 187—189. 109. Шусторович А. М. Об адекватных парных мерах сходства в задачах распознавания образов с разнородными признаками//Вопросы обработки информации при проектировании систем.—Новосибирск: ИМ СО АН СССР, 1977.—С. 147—152. 110. Ээремаа Р. Общая теория конструирования кластер-систем и алгоритмы для нахождения их численных представлений: Труды ВЦ ТГУ.—Тарту, 1978.— С. 53—77. 111. Ямпольский В. 3., Макаров И. П. Постановка и решение одной задачи клас- сификации//Кибернетика и вуз. — Вып. 4.—Томск: ТПИ, 1971.—С. 11—32. 112. Ястремский Б. С. Избранные труды.—М.: Статистика, 1964.—391 с. 113. Anderberg М. R. Cluster Analysis for Applications. NY; 1973. 114. Baker F. В., Hubert L. J. Measuring the power of hierarchical cluster analysis. Jasa: 1975.—70,—p. 31—38. 115. Batagetj V. Note on ultrametric hierarchical clustering algorithms.//Psycho- metrica.—v. 46. 1981,—N3. P. 350—352. 116. Blashfield R. /(., Aldenberfer M. S. The literature on cluster analysis// Multivariate Behavioral Research 1978.—v.—13.—P. 271—295. Ul.Bogart K. Preference structures 1//J. Math. Soc. 1973.—v. 3.—P. 13—42. 118. Chaudhuri В. В. An efficient hierarchical clustering technique//Pat. recogn. letters, 1985.—v. 3, P. 179—183. 119. Cormak R. M. A review of classification//J. of the Royal Statistical society, 1971.—v.—134. P. 321—367. 120. Cormak R. M. Classification: on overview—111 World Symposium on data analysis and imformatics.—P. 1981.—P. 125—162. 121. Cunningham K. Af. Ogilvie J. C. Evaluation of hierarchical grouping techni- ques//Computer J.—1972.—v. 15.—P. 209—213. 122. De Soete G. Ultrametric tree representations of incomplete dissimilarity data//J. of classification.—1984.—v. 1. P. 235—242. 123. Diday ?., Moreaux J. V. Learning hierarchical clustering from exampl Pat. recogn. letters, 1984, v. 2, N6.—P. 365—378. 124. Dau W., H. E. Edelsbrunner H., Efficient algorithms for agglomerative hierarchical clustering methods//J. of classification.—1984.—v. 1.—P. 7—24. \2b.Everitt B. Cluster analysis. 2 ed.—L.: 1980.—P. 136. 126. von Eye A. Wirsing An attempt for a mathematical foundation and evaluation of MACS, a method for multidimensional automatical cluster detection//Biomet- rical J.—1978. v. 20. N718. P. 655—666. 127. Fisher L., Kuiper F., A Monte — Karlo comparison of six-clustering procedures// Biometrics.—1975.—v. 31.—P. 777—783. 128. Fowlkes E. В., Mallows C. L. A method for comparing two hierarchical clustering// JASA.—1983. v. 78.—N383.—P. 553—568 (Comment: P. 569—584). 129. Fromm F. R., Northouse R. A. CLASS: a nonparametric clustering algorithm// Pat. recogn.—1976, v. 8, P. 107—114. 172
130. Gale //., Halperin W. С, Costanzo С. М. Unclassed matrix shading and optimal ordering in hierarchical cluster analysis//J. of Classificattion.—1984.—v. 1, P. 75—92. m.Hartigan J. A. Clustering algorithms.—N. Y: Wiley.—1975.—P. 386. 132. Honda N., Sugimoto F. Multivariate data representation and analysis by face pattern using facial expression characteristics//Pat. tern recognition.—1986.— v.—19.—N1.—P. 85—94. 133. Hubert L. J., Levin J. R. A general statistics framework for assessing categorial clustering in free recall//Psychological Bulletin.—1976.—v. 83.—P. 1072—1080. 134. Jain N. C, Indrayan A.y Goel L. R. Monte — Carlo comparison of six hierarchical clustering methods on random data//Pat. recogn. 1986.—v. 19.— N1—p. 95—99. 135. Jambu M.y Lebeaux M. O. Cluster analysis and data analysis.—NY— Amsterdam,—1983.—898 pp. 136. Jardine N.t Sibson #., Mathematical taxonomy.—L: Wiley,—1971. 137. Корр В., Hierarchical classification 1: Single Linkage method//Biometrical J.,— v. 20.—1978, —N5.—p. 495—501; II: Complete linkage method—N6.—p. 597— 602; HI: Average linkage, Median, Centroid, Ward, Flexible Strategy— N7.—P. 703—711. 138. Kurzynski M. W.y Decision Rules for a hierarchical classifier//Pat. recogn. letters.—1983.—v. 1, p. 305—310. 139. Massart D. L.t Plastria F., Kaufman L., Non — hierarchical clustering with MASLOG//Pat. Recognition.—1983,—v. 16, —N5.—pp. 507—516. 140. Milligan G. W. An examination of the effect of six types of error perturbation on fifteen clustering algorithms//Psychometrica.—1980.—v. 45, N3.—P. 325—342. 141. Milligan G. W. A Monte — Carlo study of thirty internal criterions measures for cluster analysis//Psychometrika.—1981.—v. 46.—N2. P. 187—199. 142. Milligan G. W., Cooper M. C. An examination of procedures for determining the number of clusters in a data set//Psychometrika 1985, v. 50,— N2,—P. 159—179. 143. Mirkin B. G., Additive clustering and qualitative factor analysis methods. Fourth international symposium Data analysis and informatics.— 1985, v. 1. Versailles, France.—p. 111 — 122. 144. Mojena R. Hierarchical grouping methods and stopping rules//Computer. I.— 1977,-v. 20.—n4,—p. 359-363. 145. Pedrycz W. Algorithms of fuzzy clustering with partial supervision. Pat. recogn. letters.—1985.—v. 3, —p. 13—20. 146. Rand W. M., Objective criteria for the evaluation of clustering methods// JASA, 1971.—v. 66.—P. 846—850. 147. Rohlf E. J. Methods of comparing classification//Annual Review of Ecology and Systematics.—1974.—5,—p. 101 — 113. 148. Romesberg H. C. Clyster analysis for researchers.—NY: 1985.—336 pp. 149. Spath H. Cluster — Analyse — Algorithmen.—Munchen:—1975,—217 S. 150. Sokal R. /?., Sneath P. H. A principle of numerical taxonomy,—San Franscisco; 1963.—386 pp. 151. Trion R. G. Cluster analysis.—L.: Ann Arbor Edwards Bros.—1939.—139 p. 152. Windham M. R. Numerical classification of proximity data with assignment measures//J. of Classification.—1985,—v. 2.—p. 157—172. 153. Wong M. A. A bootstrap testing procedure for investigating the number of subpopulations//J. Stat. Compt. Sim.—1985.—v. 22.—P. 99—112. 154. Wong M. A. A hybrid clustering method for identifing hign — density clusters// JASA.—1982.—v. 77.—n. 380, p. 841—847. 173
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Автоматическая классификация 4, 10, 98, 149, 153 Аддитивные кластеры 102 Адекватная статистика 29 Алгоритм «объединение» («разделение») 93, 97 — «перемещение» 93, 97 Алгоритмы иерархические 40—45, 48, 49, 53, 69—73, 97, 102, 143, 148, 150, 156, 159, 162, 165 Анализ интенсиональный 5, 127, 128, 129, 141, 142, 145 — компонентный 66, 105, 119—122, 145, 159, 162 — лингвистический 18—20, 66 — образный 119, 123, 125 — факторный 5, 10, 20, 44, 77, 104, 145, 161, 162 качественный 92, 102—104 Аномальные наблюдения 33, 122, 127, 161 Визуализация данных 10, 19, 40, 118— 124, 126, 159, 167 Выпуклые матрицы 50, 58, 125, 153 Генерация данных 108—110 Глобальный экстремум критерия 95— 97, 154 Группировка вариативная 9, 11, 18, 19 — комбинационная И, 12, 19, 20, 160 — нормативная функция 12, 19 — структурная 7, 9, 12 — типологическая 7, 8, 138 Дендрограмма 53, 54, 69, 73, 123, 124, 159 Диагонализация 41, 44, 49, 50, 51, 73, 74, 123, 124, 133, 156, 162 Интерпретирующий функционал качества 98, 99 Информативные признаки 118, 122, 144 Качественная однородность 7, 8, 10, 138, 143 Квазипорядок 21, 23 Кластер-анализ 4, 9, 10, 15—19, 36, 38, 44, 139—143 Классификация автоматическая 4, 10, 98, 149, 153 174 — естественная 10, 12, 126, 137—140, 143 — искусственная 126, 137—141 — точные алгоритмы 99 — функционал качества 37—39, 43, 62, 77—96, 98, 153, 160 — задачи многокритериальные 101 Компактность 10, 43, 49, 52, 109, 164 Кратчайший незамкнутый путь (КНП) 51, 64, 65, 67, 76, 78, 80, 85, 88, 93, 125 Коэффициент вариации 9, 159 — Жаккарда 31, 147, 154 — кофенетической корреляции 33 — Рао 31, 147 — Роджерса — Танимото 31, 147 — сопряженности Крамера 109, 111, 135, 162 — Хемминга 31, 147 — Хемминга (Миркина — Рэнда) 109, II, 155 Кусочная аппроксимация 126, 127, 145 Мера близости Воронина 31, 147 Журавлева 31, 147 Миркина 31, 146, 147 Метод ближнего соседа 43, 64, 98, 110, III, 116, 152, 155 — динамических сгущений 94, 97, 148 — группового учета аргументов (МГУА) 94, 95 — корреляционных плеяд 44, 51 — /г-средних 37, 43, 50, 60, 62, 68, 76, 87, 92, 97, 99, ПО, 111, 148, 166 Многомерное шкалирование 35, 69, 119, 122 Монотонные системы 99, 100 Непараметрические методы 15, 89, 92, 154, 155, 158 Нормальное распределение 9, 11, 15— 17, 89, 108, ПО, 158 Нормировка показателей 27—144, 147 Отношение бинарное 20, 21, 23, 40, 62, 102 — метризованное 21—24 Персептрон 52, 62 Подход аппроксимационный 39, 40, 45, 98, 101, 146 — вероятностно-статистический 10, 12, 19, 161
— геометрический 11, 19 — монотетический 12, 18, 20 — политетический 12, 18 — структурный 10, 16, 19, 139, 140, 143 — эвристический 37, 44 Пороговые значения 40, 45, 50—52, 61, 65, 66, 73, 93, 102, 103 Потенциальные функции 49, 55, 77, 78, 87, 93 Профиль 35 Разделение смесей 10, 19, 89, 145 Размытые множества 40, 43, 62, 63, 77, 80, 82, 89, 92, 95, 159 Разрезание графа 41, 64, 75 Распознавание образов без учителя 40, 10, 44, 77 Расстояние евклидово 31, 32, 60, 71, 85, 87, 91, 94, 120, 122, 147, 148 — линейное 30, 31, 147 — Махаланобиса 31—34, 89, 96, 147 — Минковского 31/32 — между отношениями 24, 25 Редуктивность расстояний 55, 56, 72 Регрессия 102, 122, 126, 127, 131, 141 Самообучение 10, 37, 44, 52 Средняя многомерная 18 — степенная 90 Стохастическая аппроксимация 77, 87, 96 Стратификация 4, 76 Таксономия 4, 10, 40 Толерантность 21, 22, 39 Триангуляция 100 Ультраметрика 43, 98 Шкала измерения 22, 23, Ю5 Эквивалентность 21, 23, 39, 101 102 Эталонные процедуры 41, 44, оО, 59, 63, 74, 98, 99 175
СОДЕРЖАНИЕ Предисловие 3 1. Однородность и классификация. Общие понятия 7 1.1. Основные подходы к выделению однородных групп объектов . . 7 1.1.1. Качественные и количественные аспекты группировки ... 7 1.1.2. Основные концепции однородности 9 1.1.3. Связи между подходами и комбинированные методы ... 12 1.2. Отношения, признаки, шкалы, измерения 20 1.3. Измерение близости объектов 26 1.3.1. Общие представления 26 1.3.2. Проблема адекватности мер близости 28 1.3.3. Характеристики близости объектов 30 2. Процедуры кластерного анализа 36 2.1. Классификация алгоритмов классификации 36 2.1.1. Типы методов кластер-анализа 36 2.1.2. Классификация алгоритмов 39 2.2. Алгоритмы прямой классификации 42 2.2.1. Развитие идей 42 2.2.2. Определение кластеров 45 2.2.3. Описание алгоритмов 47 2.2.3.1. Иерархические алгоритмы 53 2.2.3.2. Процедуры типа упорядочения (диагонализации) матрицы расстояний и последовательного формирования кластеров 57 2.2.3.3. Процедуры эталонного типа 59 2.2.3.4. Алгоритмы типа разрезания графа 64 2.2.3.5. Прочие и комбинированные алгоритмы 65 2.2.4. Обсуждение основных типов процедур 69 2.3. Алгоритмы оптимизации и аппроксимации 76 2.3.1. Развитие идей 76 2.3.2. Критерии качества классификации 77 2.3.3. Алгоритмы оптимизации 96 2.3.4. Аппроксимационный подход в кластерном анализе .... 101 2.4. Экспериментальное сравнение кластер-процедур 107 2.4.1. Постановка задачи и развитие идей 107 2.4.2. Схема генерации данных и сравнения алгоритмов .... 108 2.4.3. Результаты экспериментального сравнения ПО 3. Кластер-анализ и смежные вопросы 118 3.1. Упрощение описания: классификация в сокращенных пространствах, визуализация данных 118 3.2. Классификация с учетом внешней цели 126 3.3. Двойственность в задаче классификации 132 4. Методология и методика использования кластер-анализа 137 4.1. Кластер-анализ и теория классификации 137 4.1.1. Классификации естественные и искусственные 137 4.1.2. Внутренние и внешние цели классифицирования . . . . . 140 4.2. Общая схема использования методов классификации 143 4.2.1. Выбор типа метода классификации 44 4.2.2. Обоснование способа измерения близости объектов .... - 4 4.2.3. Выбор алгоритмов кластер-анализа ) 48 4.2.4. Выбор параметров алгоритмов классификации 156 4.2.5. Представление и интерпретация результатов классификации 159 4.3. Оценка результатов производственной деятельности и классификация предприятий 161 4.4. Экономико-геологическое районирование территории 164 Список литературы 168 Предметный указатель 174 176