Текст
                    I
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ
ГОРНЫЙ УНИВЕРСИТЕТ
I


Председатель Л.А. ПУЧКОВ Зам. председателя Л.Х. ГИТИС Члены редсовета И.В. ДЕМЕНТЬЕВ А.П.ДМИТРИЕВ Б.А. КАРТОЗИЯ В.В. КУРЕХИН М.В. КУРЛЕНЯ В.И. ОСИПОВ э.м. соколов КН. ТРУБЕЦКОЙ В.В. ХРОНИН В.А. ЧАНТУРИЯ ЕЙ. ШЕМЯКИН ИЗДАТЕЛЬСТВО московского ГОСУДАРСТВЕННОГО ГОРНОГО УНИВЕРСИТЕТА ректор МГГУ, чл.-корр. РАН директор Издательства МГГУ академик РАЕН академик РАЕН академик РАЕН академик РАЕН академик РАН академик РАН академик ΜΑΗ ΒΙΙΙ академик РАН профессор академик РАН академик РАН
°= «ПРАКПЯКЖАЯ s СТАТИСТИКА ы ДЛЯ ГОРНЫХ υ инженеров» Л.Х. Г11Т11С СТРТИСТИЧЕСКРЯ классификация и каастЕРНый анааиз МОСКВА ИЗДАТЕЛЬСТВО МОСКОВСКОГО ГОСУДАРСТВЕННОГО ГОРНОГО УНИВЕРСИТЕТА 2 0 0 3
УДК 519.251:622 ББК 22.172 Г 46 Гитис Л.Х. Г 46 Статистическая классификация и кластерный анализ. — М.: Издательство Московского государственного горного университета, 2003.— 157 с: ил. ISBN 5-7418-0010-6 Посвящена теории распознавания образов и одному из методов ее реализации — кластерному анализу. В сжатом виде представлены основные идеи кластерного анализа и показаны сферы его приложения в горных, экономических, социологических и других исследованиях. Описанные методы кластеризации могут быть использованы в реальных задачах. В алгоритмах достаточно подробно рассмотрена вычислительная часть. Несмотря на то, что кластерный анализ является эффективным и удобным инструментом классификации, а также весьма распространен в практических исследованиях, публикаций на эту тему на русском языке очень мало, а существующие малоинформативны. Предлагаемая Вашему вниманию книга освещает некоторые основополагающие вопросы кластерного анализа. Для научных сотрудников, диссертантов и специалистов, работающих в области многомерного статистического анализа. Табл. 3, ил. 30, список лит. — 29 назв., глоссарий. УДК 519.251:622 ББК 22.172 ISBN 5-7418-0010-6 © Л.Х. Гитис, 2003 © Издательство МГГУ, 2003 © Дизайн книги. Издательство МГГУ, 2003
ВВЕДЕНИЕ СТА ТИСТИЧЕСКИЕ МЕТОДЫ В УПРАВЛЕНИИ. КЛА ССИФИКАЦИЯ И КЛА СТЕРНЫЙ АНАЛИЗ Рыночная экономика, несмотря на внешнюю простоту, требует высокой концентрации знаний, интеллекта, умения предвидеть последствия управленческих действий, инициативы и других качеств специалистов, принимающих участие в управлении. Казалось бы знания экономических и математических теорий здесь необязательны, а сложные статистические методы распознавания образов вообще ни к чему. Но практика свидетельствует, что менеджер, владеющий сложными теориями, более эффективен, чем необразованный управленец. Для того, чтобы построить систематизированную схему использования различных методов в процессе принятия решений, сформулируем основные содержательные задачи, которые естественным образом возникают в практике управления предприятием, территориальной общностью, отраслью, торгово- коммерческой деятельностью. Поскольку предметом нашего изучения будут статистические теории, им посвятим основное внимание. Чем же отличается эффективный менеджер от простого управленца? В основном объемом, детализацией и уровнем синтетической обработки используемой информации: если второй тип руководителя использует только личный опыт, да и тот не в полном объеме, то эффективный менеджер перед принятием решения анализирует сходные ситуации, рассчитывает возможные последствия, ищет оптимальные выходы из сложившихся ситуаций. И здесь нельзя обойтись без знания статистических методов. Широко распространено мнение о том, что опытному управленцу для принятия эффективных решений вполне достаточно личного опыта или информации, полученной вербальным путем (на совещаниях, в беседах и т. п.). В простейших условиях это утверждение может быть и справедливым. Но сложная конкурентная среда требует иных знаний и подходов, здесь необходимо умение работать с обобщенной эмпирической, аналитической и синтезированной информацией об управляемых объектах, их аналогах и т. д. 5
Таким образом эффективность управления производственными, социальными и экономическими процессами в широком масштабе во многом зависит от умения пользоваться всем спектром аналитических и статистических методов. На рис. 1 представлена схема последовательного использования числовых и нечисловых аналитико-статистических методов изучения разнообразной многопараметрической информации. Корректное их использование позволяет глубже понимать сущность происходящих процессов, а также вести осознанный поиск оптимальных решений локальных и условно глобальных задач. И все-таки, несмотря на разнообразие поставленных задач и методов их решения, основная нагрузка приходится на статистические методы изучения информации. Как видно из приведенной схемы, статистические методы применимы для анализа экономического состояния предприятия, его конкурентоспособности на рынке, социально-производственной привлекательности территориальной общности и производства, а также для решения множества других задач, стоящих перед управленцами всех направлений и рангов. Для управления немаловажное значение имеет, в каком виде будет представлена информация: необработанном и хаотичном или в классифицированном ранжированном и структурированном. Причем речь идет не только об информации, полученной в результате наблюдений, но и о таких данных, которые являются паспортными для исходных объектов. Объектами изучения могут быть предприятия и их подразделения, производственные мощности и инфраструктура, люди - работники предприятий и члены их семей. И в каждом случае они будут характеризоваться набором показателей: обобщенных и детальных, описывающих сходные явления и специфические черты объектов. Очевидно, неклассифицированная и неструктурированная информация для управления бесполезна, да и обилие характеристик (многомерность пространства размещения объектов) мешает анализу. Поэтому на первом этапе изучения информацию приходится классифицировать и структурировать. Наиболее удобной формой классификации информации является представление ее в виде неких однородных образов, которые объединяют объекты по принципу близости характеристик. Создание достаточно полной системы образов исходного массива информации позволяет дифференцированно подходить к управлению. Кроме того, однородность образов дает возможность прогнозировать их реакцию (обратную связь) на управляющие воздействия. 6
Блоки числовой и нечисловой информации для принятия коммерческих решений / Количественны! \ анализ Объем содержательной информации в документе Время функционирования документа в структурах управления и маркетинга Трудозатраты на подготовку информационных массивов, отдельных документов, числовых матриц Количество обращений к документу, матрице, другой информационной единице Количество ссылок на документ Структурный анализ Создание методической базы структурного анализа Изучение предложенных концепций и планов развития предприятия Анализ метрической близости объектов, векторов, матриц, неформальных данных Изучение конъюнктурной информации отечественного и зарубежного рынка продукции Анализ эффективности алгоритмов формирования информационных массивов, документов X Анализ интенсивности использования числовых и нечисловых данных Изучение возможных путей использования собранной информации Изучение каналов получения и передачи информации Систематизация матричной информации, фактов, гипотез Прогноз Сценарии развития Анализ трансформации и функциональных изменений информации во времени, при перемещениях и геометрических отображениях Ситуационный анализ I Классификация информации и ее использование в прогнозировании и управлении Рис. 1. Укрупненная схема анализа и синтеза информационных массивов, используемых для принятия коммерческих решений 7
Специалисты, работающие в сфере изучения закономерностей и управления минерально-сырьевым комплексом, решают задачи анализа конъюнктуры внутреннего и мирового рынков полезных ископаемых, которые, в свою очередь, подразделяются на задачи ранжирования, оценивания, поиска связей и т. д. Далее возникают задачи многокритериального сравнительного анализа добычных и обогатительных горных предприятий, предлагаемого на рынок продукта, его качества и цены, транспортных технологий и т. д. Еще один блок задач математической статистики возникает в результате потребности в изучении внутрифирменных связей. Горно-промышленное предприятие расчленяется на десятки основных производств и инфраструктурных подразделений, которые являются объектами управления. Между этими объектами существуют корреляционные зависимости, которые кроме количественных характеристик (коэффициенты корреляции) описываются уравнениями регрессии. Все это позволяет интерполировать и экстраполировать имеющиеся в результате вычислений статистические ряды. При составлении планов ведения горных работ также используются разнообразные статистические методы. Для подсчета и анализа запасов полезных ископаемых, обобщения разнообразных природных ресурсов применяются методы интерполяции, построения дискриминантных линий, статистические подсчеты содержания массы полезных ископаемых в геометрических блоках горных пород. На основе полученных данных рассчитываются показатели качества рудой массы, решаются задачи усреднения, формируются временные ряды, а затем разрабатываются календарные планы добычи, усреднения и обогащения. В этих задачах важную роль играют методы распознавания незрительных образов. По какому плану ни проводилось бы исследование информации, первым этапом должны стать ее классификация, фильтрация и представление в упорядоченном и компактном виде. Для решения этих задач и были разработаны методы кластерного анализа. Этап классификации во многом определяет результаты всего исследования. От того, насколько удачно разделены объекты, удалось ли на первом этапе отфильтровать недостоверную информацию, не потеряна ли объективность при группировке детализированных характеристик, зависят точность принимаемых решений и управление, образно говоря, с открытыми глазами. 8
В то же время нельзя слепо полагаться только на результативность формальных процедур кластерного анализа. Статистические методы классификации требуют осмысления каждого логического этапа вычислений. Для этого на ключевых этапах бывает полезно интерпретировать результаты и к их оценке привлекать экспертов, специализирующихся на содержании исследования, вникающих в суть выполняемых преобразований. Для понимания общих принципов формулировки и решения широкого класса задач классификации методами кластерного анализа обозначим укрупненно основные стадии обработки информации (рис. 2). Содержательная формулировка задач класснфнкацнн Интерпретация результатов ι Выработка решений Определение н формализация параметров Анализ кластеров ^ Выбор шкалы и еднннц измерения Классификация Наблюдение, измерение, введение в компьютер ' Систематизация Рис. 2
Глава 1 классификация, теория расаознавания НЕЗРИТЕОЬНЫН 0БРП30В И ЕЕ РЕАПИЗПЦИЯ МЕТОЦРНИ каостЕРНого анапиза 1.1. Классификация объектов как необходимое условие деятельности человека 1.2. Логическая модель распознавания незрительных образов, основанная на принципах обучения живых организмов условным рефлексам 1.3. Объективная классификация 1.4. Гипотеза о компактности образов
Глава 1 КЛАССИФИКАЦИЯ, ТЕОРИЯ РА СПОЗНА В А НИЯ НЕЗРИТЕЛЬНЫХ ОБРАЗОВ И ЕЕ РЕАЛИЗАЦИЯ МЕТОДАМИ КЛАСТЕРНОГО АНАЛИЗА 1.1. КЛАССИФИКАЦИЯ ОБЪЕКТОВ КАК НЕОБХОДИМОЕ УСЛОВИЕ ДЕЯТЕЛЬНОСТИ ЧЕЛОВЕКА Несомненно, классификация - основополагающий процесс в интеллектуальной деятельности человека. Встречаясь с новым явлением, мы стараемся найти ему аналог в известной нам области. Рассматривая группу каких-либо объектов, мы непроизвольно разделяем их на подгруппы близких друг другу элементов. Классификация присутствует при упорядочении известных нам фактов, явлений, предметов. Конечно же, эти факты и явления должны быть упорядочены прежде, чем появится возможность разобраться в них и понять механизмы управления. Тем более в науке классификация играет весьма значительную роль: тому примерами могут служить теории Менделеева, Линнея, Дарвина. Историки не могли бы без классификации объяснить генезис явлений, происхождение фактических событий, существующий порядок. На основании сказанного можно заключить, что классификация - это фундаментальное понятие науки и практики. Любопытно, но и в мире животных задачи классификации решаются непрерывно. Хищники классифицируют объекты охоты, стадные - своих и чужих, абсолютно все животные каким-то образом распределяют съедобное и несъедобное. Очевидно, что те живые организмы, которые были неспособны определить группы раздражителей, упорядочить их и найти адекватную реакцию, оказались нежизнеспособными и вымерли. Отметим, что классификация одних явлений и объектов оказывается инстинктивной деятельностью, а других - полученной в результате обучения. Таким образом, предмет нашего рассмотрения - методы классификации (распознавания образов) не надуманны, а являются вполне естественной областью повседневной и повсеместной деятельности человека при систематизации и оценке явлений и предметов. 13
Наибольший практический интерес для рассмотрения задач классификации представляют многомерные статистические исследования. Именно многомерность объектов делает их приближенными к реальным проблемам экономики, технологий, социологическим и биологическим задачам. При этом существует очевидная закономерность: сложность объекта и глубина анализа прямо пропорциональны размерности информационного поля. Среди возможных методов классификации несомненный практический интерес вызывают методы распознавания образов. Здесь мы будем рассматривать методы незрительного распознавания образов, которые изучают числовые и нечисловые переменные и постоянные величины, используют методы математической, статистической и логической их обработки. Одной из ведущих теорий в области распознавания образов является кластерный анализ, благодаря которому решение задач классификации было осуществлено несложными компьютерными методами, а также были получены легко интерпретируемые результаты. Одной из основополагающих задач классификации является формализация отличия одного объекта от другого. Мы прекрасно знаем, чем отличается автомобиль от трактора, фото от живописи, мужчина от женщины. Но формализовать это знание бывает не очень просто. И если умением компьютера различать тексты, геометрические образы или рисунки сегодня никого не удивить, то найти совпадения или различия нечетко обрисованных объектов, сложноструктурированных множеств или «узнать» неявное течение процесса непросто. В практике встречаются два основных типа классификации. Простейший случай включает в себя заранее классифицированное пространство (млекопитающие, множество натуральных чисел, элементарные частицы) с известными характеристиками, определяющими принадлежность классу. В этом случае любой новый объект (предмет) можно по совпадению характеристик или причислить к какому-либо классу, или нет. Такая классификация называется «распознаванием с учителем». Более сложная ситуация возникает при необходимости объективной классификации множества объектов без предварительных подсказок о числе классов, наиболее существенных характеристиках и принципах разделения. Такая классификация называется «распознаванием без учителя» и является основной задачей кластерного анализа. 14
При классификации сложных объектов возникает проблема выбора наиболее значимых характеристик. Здесь возможны крайние, но малопригодные для реальной деятельности ситуации. Если учитывать все характеристики объектов исходного множества, да еще и очень точно их измерять, то в этом случае каждый объект, скорее всего, будет составлять отдельный класс. Теоретически подобное решение задачи классификации вполне объяснимо, но совершенно непригодно для практики. С другой стороны, возможно такое обобщение характеристик объектов, что они полностью попадут в один общий класс. И этот вариант классификации малопригоден для реального управления по причине примитивной тривиальности. Таким образом, возникает еще одна фундаментальная задача классификации: выбор оптимального набора характеристик объектов, отвечающий содержательным потребностям управления, систематизации, прогнозирования. Эта задача решается методами факторного анализа, но практическая сторона этих методов значительно сложнее кластерного анализа и, в определенных случаях, более субъективна. В истории целенаправленной деятельности человека классификация осуществлялась методами, тесно связанными с предметом классификации. Интуитивно-эвристические подходы к классификации были доступны только выдающимся ученым (Менделеев, Линней, Дарвин, Дьюи, Бредфорд) и были результатом их озарения. И основной сложностью при этом был выбор наиболее важной характеристики или нескольких характеристик, по которым и определялось сходство или различие объектов. И только применение математико-статистических методов позволило находить типологические меры сходства и различия в автоматическом режиме, а иногда даже выполнять эту работу без понимания содержательных основ причин выбора именно тех характеристик, которые бывают названы в результате расчетов. 1.2. ЛОГИЧЕСКАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ НЕЗРИТЕЛЬНЫХ ОБРАЗОВ, ОСНОВАННАЯ НА ПРИНЦИПАХ ОБУЧЕНИЯ ЖИВЫХ ОРГАНИЗМОВ УСЛОВНЫМ РЕФЛЕКСАМ Присущая каждому животному приобретенная способность классифицировать известные ему объекты может послужить аналогом модели «распознавания с учителем». За основу подобного распознавания принимается простейшая модель обу- 15
чения живых организмов условным рефлексам. При этом не рассматривается вариант, когда новый объект сравнивается с эталонными для каждого кластера, и в результате выбирается нужный. Такой алгоритм не содержит элементов самообучения или обучения с учителем, что делает его примитивно тривиальным. Для практики управления и прогнозирования представляет интерес модель обучения распознавания образов. Предположим, что модель не располагает предварительными сведениями о тех объектах, которые нужно классифицировать, или о возможных классах объектов. В таком случае общие характеристики могут быть выведены из сравнения реальных показателей объектов и их синтеза. Процесс обучения, сходный с алгоритмом образования условных рефлексов, заключается в том, чтобы предлагаемая модель адекватно реагировала на новый (неопознанный) объект, узнавала его и идентифицировала с каким-либо классом. На рис. 3 представлена принципиальная модель классификации, построенная по аналогии с выработкой условных рефлексов. Формирование исходного множества объектов, подлежащих классификации Выбор 1-го объекта для сравнения Рефлекторный Идентификация 1-го объекга с характеристиками какого-либо класса Разбиение исходного множества иа условно однородные классы импульс Исключение ι-ro объекга из рассмотрения и корректировка характеристик (изменение масштаба, включение, исключение и т. д.) Рис.3 16
Если моделью не предусматривается предварительное введение данных о тех объектах, которые далее следует классифицировать, то научиться этому можно только в процессе самой классификации. При этом после классификации начальных объектов модель должна «узнавать» все последующие, одновременно уточняя границы классов. Когда надежность «узнавания» достигнет заранее заданной величины, можно утверждать, что модель пригодна для дальнейшего применения в практических задачах. Добавим, что получившиеся в результате разбиения классы вполне корректно можно называть некоторыми образами явлений, группой экономических или социальных объектов, набором ошибок каких-либо задач, диагнозов болезней и множества других объединений. Эти образы имеют такие характеристики, которые выражают наиболее существенные черты классифицируемых объектов, но пренебрегают второстепенными, несущественными деталями, способными только нивелировать рассматриваемые объекты. Именно поиск таких (такого) объективных, в рамках решаемой задачи, свойств, присущих всем рассматриваемым объектам и отсутствующих у других объектов, не входящих в класс, и является наиболее сложной задачей статистической классификации. Модель, вооруженная знанием главных характеристик системы образов, условно может быть названа моделью, у которой выработан устойчивый условный рефлекс «узнавания» своих объектов, причем и в дальнейшем эта модель будет учитывать удачные решения. 1.3. ОБЪЕКТИВНАЯ КЛАССИФИКАЦИЯ Классификация «без учителя» является весьма эффективным инструментом в начальной стадии изучения разнородных объектов. Действительно, впервые встретив неизученное множество объектов, исследователь задается вопросом: по какому принципу возможна классификация? Что объединяет различные элементы множества, а что позволяет их различать? Конечно, можно прибегнуть к помощи экспертных оценок, которые помогут разделить исходное множество (классификация «с учителем»). Но это разделение будет субъективным и, возможно, ошибочным. Если же мы хотим разделить множество на группы без предвзятости, без начальных установок и целевых функций, то 17
можно использовать классификацию «без учителя», которая без натяжки может быть признана наиболее объективной. Вообще говоря, любая классификация может быть кем-то названа условной или субъективной. Действительно, для проведения классификации человек (эксперт) или компьютер (модель) должен назвать признак (признаки), на основании которого и будет произведено разделение исходного множества. Правда, в некоторых случаях назвать признаки невозможно и тогда они фигурируют в латентном (скрытом) виде. Тем не менее существует и другая возможность классификации: имея множество признаков, которые частично коррелируют друг с другом, а частично противоречат друг другу, люди (эксперты, респонденты) одинаково классифицируют исходную информацию. Если это только результат интуитивной работы, то почему во всех случаях классификация совпадает? Не вдаваясь пока в существо проблемы, будем считать, что подобная классификация является объективной и носит безусловный характер. Как видно, жизненный и профессиональный опыт в подобных случаях не нуждается в «учителе», а задача модели классификации заключается в том, чтобы уже после решения задачи определить наиболее значимые признаки, по которым и было разделено исходное множество объектов. Рассмотрим два примера. Первый пример. В стране существует N месторождений, содержащих полезное ископаемое X. Эти месторождения следует разбить на три группы с целью установления очередности их отработки. В такой классификации могут быть использованы разные признаки: запасы минерального сырья; технологичность добычи, транспортировки и обогащения; себестоимость получения продукта; начальные капитальные вложения; кадровая и техническая обеспеченность проектов освоения и множество других характеристик. Тем не менее опытные эксперты будут при классификации учитывать еще и другие показатели: конъюнктуру рынка, политическую ситуацию, пропорции между себестоимостью Хи его значимостью (дефицитом) при практическом использовании. Эти признаки трудноформализуемы, и после классификации еще предстоит нелегкая работа по их определению. Классификация по этим двум группам признаков, конечно же, не может совпадать. Второй пример. Монопроизводственный поселок прилегает к шахте, на которой и работают практически все его жители. 18
В течение некоторого времени происходит массовое переселение жителей из поселка. Требуется классифицировать причины этого явления. Это непростая задача, потому что многие характеристики труда и быта коррелируют между собой и находятся в причинно-следственной зависимости. Не понимая этих связей, можно допустить ошибки в группировке, складывая взаимозависимые факторы и искажая общую картину причин миграции. Кроме того, существуют возможно неучитываемые факторы, которые опосредственно оказывают скрытое влияние на анализируемые показатели. Очевидно, формальная классификация «с учителем» здесь бесполезна. Поэтому в подобном исследовании лучше заранее не формулировать причины миграции и не пытаться их группировать, а использовать свободные высказывания респондентов и затем уже переходить к формализованной классификации. Приведенные примеры свидетельствуют о содержательной сложности классификации многомерных объектов, описываемых большим числом разнообразных параметров. Если же исследователь пытается учесть огромное количество их сочетаний, то прямая задача классификации становится практически неразрешимой. Поэтому-то и приходится опираться на интуитивные представления о сходстве и различии объектов. В качестве примера «распознавания без учителя» можно рассмотреть задачу медицинской диагностики. Большая часть точных характеристик больного и болезни врачу неизвестна, и поэтому ему приходится руководствоваться интуитивными представлениями о сходстве и различии симптомов болезни с известными случаями, сопоставлять ход течения заболевания с общей картиной похожих процессов. Несмотря на интуитивную основу подобной диагностики, ее результат бывает довольно точным. В многомерной задаче классификации в любом случае необходимо выделить, сформулировать или синтезировать достаточно общее свойство классифицируемых совокупностей. И уже это свойство позволит решить, сходны объекты или различны. Разумность выбора общего свойства, подкрепленная практическими результатами, позволяет утверждать, что выполненная классификация объективна. 19
1.4. ГИПОТЕЗА О КОМПАКТНОСТИ ОБРАЗОВ Идея компактности имеет основополагающее значение в статистической теории классификации. Впервые она была высказана в 1971 году А.Г. Аркадьевым и Э.М. Браверманом в [8, с. 31]. Но относилась она только к «зрительным образам». Вот ее формулировка: «...простому зрительному образу соответствует компактное множество точек в пространстве параметров». Следует отметить, что это не бесспорное утверждение, потому что наше представление о каком-либо образе может быть размытым множеством или параметры, существенные для восприятия человеком, могут оказаться второстепенными для распознающей модели. Но при корректной формулировке задачи эта идея не вызывает возражений. Но случай распознавания зрительных образов сравнительно прост и уже давно решен. Последующая практика подтвердила справедливость приведенной гипотезы. Вместе с тем для решения задач распознавания незрительных образов аналогичная гипотеза имеет не меньшее значение: исследователь должен быть уверен в том, что получившиеся в результате классификации образы имеют адекватную интерпретацию в пространстве параметров. На этом, кстати, основаны многие алгоритмы кластеризации. Показать компактность незрительных образов достаточно сложно. Поскольку многомерность не дает возможности наглядно показать образы, приходится искать способы каких- либо упрощений. В частности, в кластерном анализе используется такой прием: все многообразие характеристик сводится к двум-трем интегральным показателям, которые, в свою очередь, могут быть геометрически представлены на плоскости или в пространстве. Получившиеся скопления объектов интерпретируются как компактные образы. А как же представить себе компактность незрительных образов, которые несводимы к трехмерному интегральному пространству? Во-первых, можно использовать метод секущих плоскостей для разделения исходного множества объектов (в пространстве их параметров) и получить ряд плоскостных срезов, и если каждый из них будет содержать компактные образы, то это и будет косвенным подтверждением справедливости ис- 20
ходной гипотезы. Во-вторых, в ряде случаев начальное множество объектов можно представить в их физическом (экономическом, социальном) виде, что упрощает и конкретизирует представление объектов в сгруппированном виде. В конце концов, каждый исследователь может представить, упростить, вообразить исходное множество объектов в доступной для него форме. Авторы идеи компактности ограничивают область определения гипотезы понятием «простой образ», что в их интерпретации созвучно ограничению количества параметров (до трех). Поэтому любое расширение области определения требует каких-либо дополнительных процедур. В нашем случае это может быть декомпозиция поля рецепторов и рассмотрение их в интегральном виде или связными тройками. Идею компактности образов можно проиллюстрировать и с позиции очевидности границ между образами. Геометрически такое разделение исходного множества объектов интерпретируется как некий ряд возвышенностей (образов), разделенных впадинами (границами между образами). Если «водораздел» между образами является непрерывной функцией, то сам образ считается компактным. Желательно, чтобы границы образов имели плавную форму и не имели «полуостровов», вклинивающихся в другие образы. Если гипотеза о компактности образов справедлива, то возможен алгоритмический переход от задачи «распознавания без учителя» к задаче «с учителем». Решение может быть выполнено с помощью априорного расположения объектов в гиперплоскости, измеряемой количеством показателей. Зная координаты каждого объекта и его принадлежность какому-либо образу, можно рассчитать граничные функции и более-менее точно определить расположение образов в пространстве. Тем самым задача «без учителя» будет сведена к задаче «с учителем», а пространство рецепторов разобьется на ряд областей, внутри которых и располагаются искомые образы. И в конце концов возникает закономерный вопрос: можно ли доказать истинность гипотезы о компактности незрительных образов или хотя бы проверить ее истинность? Пока этого никто и не пытался сделать, непонятен даже подход к доказательству. Перебрать все возможные случаи тоже невозможно 21
из-за бесконечного множества примеров, систематизировать которые тоже весьма проблематично. Тем не менее существуют косвенные доказательства истинности гипотезы компактности. Утверждения о том, что образы являются простыми, высказываются в некотором и-мерном пространстве их характеристик. В этом же пространстве и дается заключение о компактности. Все рассматриваемые специалистами примеры подтверждают истинность гипотезы о компактности. Опровержений, даже гипотетических, пока не было. В свое время проводились эксперименты с искусственно созданными множествами геометрических фигур, и-мерных матриц случайных чисел [8, с. 33]. Результаты проведенных опытов тоже можно рассматривать как косвенное доказательство истинности гипотезы.
Глава 2 НРИБОПЕЕ ВПЖНЫЕ ИДЕИ КЛАСТЕРНОГО РНРПИЗР 2.1. Кластерный анализ. Прагматические соображения 2.2. Начальные понятия 2.3. Функции расстояния (различия, несходства) 2.4. Меры и признаки подобия, тождества, конгруэнтности неформальных объектов 2.5. Информационные признаки, используемые для кластеризации 2.6. Схемы использования информации, предназначенной для кластеризации, в зависимости от источника, вида и возможностей кодирования 2.7. Измерение характеристик объектов и их представление в задачах кластеризации 2.8. Целевые функции кластеризации
Глава 2 НАИБОЛЕЕ ВАЖНЫЕ ИДЕИ КЛАСТЕРНОГО АНАЛИЗА 2.1. КЛАСТЕРНЫЙ АНАЛИЗ. ПРАГМА ТИЧЕСКИЕ СООБРАЖЕНИЯ В многомерном статистическом анализе кластерный анализ занимает особое место. Во-первых, с помощью кластерного анализа задачи распознавания образов решаются простыми и логичными методами, причем алгоритмы этих решений легко формализуются в компьютерные программы. Во-вторых, в кластерном анализе существуют (или разрабатываются) методы комплексного изучения формальных и неформальных признаков, числовых и нечисловых переменных. Одновременное рассмотрение таких характеристик делает аппарат кластерного анализа незаменимым инструментом в задачах управления, классификации, оптимизации и прогноза промышленных, экономических и социальных систем. В-третьих, простота и доступность процедур кластерных методов распознавания образов позволяет сосредоточить внимание исследователя на содержательной составляющей сложных многофакторных объектов. В-четвертых, методы кластерного анализа позволяют накапливать знания с помощью информации, полученной в результате каждого эксперимента (измерения), выполненного в ходе использования кластерной модели. При этом характеристики кластеров могут корректироваться этими новыми знаниями, благодаря чему идет их накопление на каждой итерации. Эти возможности особо ценны в задачах диагностики. Схематически этот процесс изображен на рис. 4. Исходная база информации Статистический диагноз Г> Решение кластерной задачи Внесение изменений в базу информации. Создание новой уточненной базы Новая информация, полученная в результате эксперимента Рис. 4. Принципиальная схема диагностики методами кластерного анализа 25
Таким образом, многовариантные задачи управления можно решать в области глубокого неформального анализа исходных данных, условий и ограничений математических моделей, взаимосвязей анализируемых факторов, аксиоматики допустимых и рациональных расчетных процедур, улучшая качество классификации при каждой итерации. Задачи распознавания образов вышли за рамки теоретических исследований и с успехом применяются в практике бизнеса. В то же время использование большинства количественных методов не может быть эффективным из-за оторванности от реальных характеристик изучаемых объектов, тривиальности выводов, неприменимости для управления существующей структуры классификации. В этом смысле кластерный анализ имеет несомненные преимущества перед другими количественными методами распознавания. В управлении особенно велика роль интерпретации полученных результатов классификации исходного множества объектов и последующего прогнозирования их временной динамики. При этом, естественно, логическая последовательность и методическая доступность кластеризации в задачах агрегирования и разбиения на группы делают ее особо ценным инструментом. Эти достоинства кластерного анализа позволяют считать его применимым для изучения многих нечетко формализованных систем естественного и искусственного характера, а в дальнейшем - и для улучшения принимаемых решений. 2.2. НА ЧАЛЬНЫЕ ПОНЯТИЯ Задача кластерного анализа состоит в разбиении неоднородного множества, состоящего из каких-либо элементов, имеющих сходные измерения, на группу подмножеств, каждое из которых признается условно однородным. При этом основополагающую роль играет изучение различий между элементами множества, разными объектами, подмножествами, множествами. В кластерном анализе рассматриваются т объектов, каждый из которых имеет R признаков. У всех объектов признаки должны принадлежать единому метрическому пространству и быть сопоставимыми. Рассматриваемые признаки различаются естественным образом на числовые - R(Z) и качественные (нечисловые) - R(k). В свою очередь характеристики, измеряемые числами, разделяются на те, в которых справедлива аксиоматика Евклида, - Λ(Ζ1) и на те, для которых аксиоматика Евклида не- 26
корректна, - R{72). При изучении характеристики R(Z2) признаковое пространство определяется функциями предпочтения: анкетным опросом, экспертными оценками, потребительскими вкусами. При этом возникает необходимость числовой формализации функций предпочтения, введения какой-либо метрики, а в конечном счете, установления эквивалентов между характеристиками типа Λ(Ζ1) и R(Z2). На основе функций близости (схожести) элементов возможно решение нескольких задач классификации. Во-первых, исследователь может задать заранее известные ему характеристики априори заданных ему множеств или кластеров и после этого сформировать граничные условия этих кластеров или близких им по содержанию, очертив их контуры, граничные условия и целевые функции. Далее каждый элемент исходного неоднородного множества проверяется на близость полному набору кластеров и по результатам этой проверки заносится в границы какого-либо из них. Но такая работа может оказаться и неэффективной: кластеры сформируются пустыми подмножествами или будут разделяться не по исходным характеристикам. Вообще говоря, интуитивно определять кластеры не очень корректно из-за большого количества взаимозависимых функций, связывающих объекты классификации. Во-вторых, задача кластеризации может быть решена в автоматическом режиме, когда кластеры определяются в процессе нейтрального изучения функций расстояния. В этом случае рассматриваются некоторые сгущения объектов, проводятся границы между получившимися сгущениями, и, таким образом, определяются кластеры. Полученные в автоматическом режиме кластеры анонимны, априори не изучены и требуют определения наиболее существенных характеристик кластеров в процессе разделения исходного множества. В-третьих, решением задачи кластерного анализа может быть некоторая структура групп, отвечающая критериям оптимальности, определенным исследователем. Эти критерии, заданные целевыми функциями, определяют содержание кластеров, их характеристики, количество групп и факторов управления. В качестве целевой функции можно принять максимальную плотность элементов внутри групп или минимум отклонений от ядра группы, т. е. наименьшее расхождение характеристик. К примеру, если в исследовании участвуют / характеристик, а метрическое расстояние между элементами множества определяется функцией 27
*Ы=£(*,·-'/)2· то целевая функция максимальной близости может иметь вид к Ζ = 2^d(x;y)-> min , k=\ где К - количество элементов изучаемого множества (кластера); {х,;у,}- элементы множества или их координаты, один из которых может быть принят за центр сгущения, но, по желанию исследователя, эти элементы могут быть и независимыми. Для решения задач кластерного анализа необходимо количественно определить меру сходства, подобия и различия объектов исследования. Эта мера в кластерном анализе называется функцией расстояния и определяется не только для объектов, имеющих естественные количественные характеристики, но и для тех объектов, параметры которых носят качественный характер (функции предпочтения, меню и др.). Вообще говоря, выбор меры сходства и функции расстояния между объектами или кластерами нельзя признать объективной закономерностью. Здесь многое зависит от целей исследования, субъективных предпочтений и других факторов. К примеру, группировка шахт по единичным признакам объема добычи, рентабельности, аварийности, метанообильности и пр. даст различное распределение по кластерам, причем комбинация характеристик и интегральный подход к ним приведут к весьма существенному разнообразию группировок. Это может показаться хаотичным распределением, не имеющим объективных закономерностей в сфере управления или реальной экономики. Действительно, эффективность кластерного анализа во многом зависит от интерпретации полученных в результате классификации объектов (подмножеств) или априорно выбранных показателей автоматической классификации. Такой тонкий инструмент изучения множества разнородных несистематизированных объектов имеет общие корни с разумным поведением человека в новой для него среде. Естественная реакция человека, столкнувшегося с множеством неопознанных объектов, состоит в попытках интуитивного разделения на классы, поиске типич- 28
ных характеристик классов, интерпретации классов в привычных для него образах, прогнозировании динамики их развития. Естественно, подобная интуитивная кластеризация может меняться в зависимости от поступления новой информации, прагматических соображений, интеллекта, культуры и интуиции человека. Да и от других факторов индивидуальная классификация тоже зависит. Мало того, один и тот же человек по-разному классифицирует одни и те же объекты в разное время. В кластерном анализе нет необходимости заранее разделять переменные на зависимые и независимые (функции и аргументы). В процессе реализации расчетных функций алгоритма кластеризации и интерпретации полученных результатов зависимости определяются исследователем по результатам классификации и содержательного анализа, что делает инструментарий кластерного анализа более гибким, чем другие методы распознавания объектов. Между изучаемыми признаками существуют взаимоотношения различной интенсивности, зависящие от структуры кластеров, их количества, коррелируемости рассматриваемых факторов и других причин. Пример. Для группы, состоящей из 8 шахт, выработан интегральный показатель jr„ учитывающий месячную добычу, качество угля, технологию, глубину залегания, крутизну падения пласта и фондовооруженность. Х = {3, 4. 7, 4, 3, 3. 4, 4}, Нужно найти минимальное разбиение исходного множества X на кластеры, причем критерием оптимальности является минимум расстояний между элементами кластеров. Расстояния измеряются как внутригрупповая сумма квадратов отклонений. Для вычисления расстояний используем формулу «/ = £(*, -j)2=b;--ib,l , ι--\ /=ι η V/-i / где дг, - текущий интегральный показатель; χ - среднее внутригрупповое значение интегрального показателя. В нашем примере множество расстояний без разделения на кластеры даст суммарное значение do6ul=Zx'-^ix) =140-128=12. Разделим исходное множество на три кластера: ATI = {3; 3; 3},Λ2 ={4; 4; 4; 4}. ХЗ = {7}. В этом случае d „ = d] + d, + ώ = 0 + 0 -t 0 = 0. 29
Очевидно, разделение на три кластера в соответствии с выбранным интегральным показателем позволяет иметь идеально однородную структуру по нашему критерию (целевой функции). Минимизация количества кластеров полезна с точки зрения упрощения анализа информации и управления. В то же время подобное тривиальное разбиение не всегда может удовлетворить исследователя, и, несмотря на то, что внутригрупповая дисперсия при подобном разбиении минимальна, возможно, предпочтительнее осуществить более сложную группировку с суммарным межэлементным расстоянием более нуля. 2.3. ФУНКЦИИ РАССТОЯНИЯ (РАЗЛИЧИЯ, НЕСХОДСТВА) Практическое применение кластерного анализа невозможно без введения аксиоматики преобразований и метрики для измерения изучаемых объектов и расстояний между ними. Расстояние между двумя объектами d\x.;y.) - неотрицательная функция близости - задается при следующих условиях: 'd(Xl;y,)>0 d(x,>y,) = d(y,>x,) d(x,>y,)=Q<*x,=y, d{x,;y,)<d{xl;ul)+ d{u,;y,) где {х, у, а) - любые объекты кластерного анализа. Приведенная аксиоматика дается для /-го параметра изучаемых объектов. В реальных условиях управления значительно важнее сравнивать объекты по интегральным характеристикам {i,j, к; ...}. Но эта задача далеко не всегда разрешима из-за несопоставимости единиц измерения, отличия метрических полей. В этих случаях приходится использовать общую норму метрики, вводить коэффициенты и передаточные функции. Эта отдельная задача кластерного анализа решается, как правило, в конкретных исследованиях, но некоторые идеи, общие подходы и примеры будут рассматриваться ниже. Считаю также нужным отметить, что методика измерений расстояния между объекта- 30 >V{/}eW,
ми, описанная в работах [1, 3 и др.], имеет ограниченную применимость, и в случае использования несопоставимых параметров ее применение без формирования нормированного метрического пространства некорректно. Наиболее распространенной функцией расстояния между двумя объектами (х; у) по признаку (г) является расстояние в метрике Евклида (ав): с1е{х,>У,) = ^(х<-У'У ■ Метрика Евклида позволяет не учитывать знаковые различия, пропорционально увеличивает расстояние между объектами в случае разных абсолютных значений показателей. В результате увеличивается размерность кластерного поля, объекты искусственно отдаляются друг от друга, в результате чего границы между кластерами становятся более четкими и точными. Второй по значимости функцией расстояния принято считать (Ф. Вольф) метрику несхожести Хеминга (<^Хем): / ^ΧεΜ(*,;ν,)=Σ(*<"^<)· /=1 Метрика Хеминга может использоваться в тех случаях, когда знаковые различия характеристик объектов имеют принципиальное значение. За счет нивелирования знаковых различий показателей объекты оказываются сконцентрированными к области ядра кластера, но при этом утрачиваются важные знаковые характеристики различий. Несущественно от метрики Евклида отличается функция расстояния в метрике Ζ,-норма (dL): I di.(xl^yl)=YJx,-y,\- Разница в расстояниях, вычисленных по метрикам в пространстве Евклида и Ζ,-норма, зависит от абсолютных числовых значений и количества рассматриваемых показателей. У Ζ,-нормы компактность выше в среднем на 3...10 %, если (х,;.v,)e] 1; 100[, 31
а при интервале ]0; 1[ компактность ниже, в тех же пропорциях. Но с учетом определенной недостоверности исходных показателей подобная разница может быть признана несущественной. В некоторых условиях классификации, когда компактность кластеров слишком велика и разделить их на подмножества довольно сложно, применяют метрику «норма - верхняя граница» (dsup): rfsup(*,;j',) = suPk-J'.|· Использование этой меры расстояния может неправомерно изменить картину классификации из-за пренебрежения всеми факторами, кроме одного. Здесь необходимо теоретическое обоснование корректности выбранной меры dsuf>. Вообще говоря, исследователь может использовать множество функций расстояния, предложенных в разных работах по кластерному анализу или собственных. Отметим еще несколько часто упоминаемых функций расстояния: Ζ,-норма: LP(x,;yl)='JYjxl-yl\1' ■ Функция Махаланобиса: ^м(*,-\У,) = V(*/-J'/)7>~l(*/-J'l) · Эта функция обобщает возможные варианты использования метрики Евклида. Она задана в матричной форме. Преобразование Τ корреляционной матрицы инвариантно невырожденным линейным преобразованиям. Эта теорема доказана в [1,с. 17]. Функция расстояния Джеффриса-Матуситы: Функция расстояния, известная под названием «коэффициент дивергенции»: 32
2.4. МЕРЫ И ПРИЗНАКИ ПОДОБИЯ, ТОЖДЕСТВА, КОНГРУЭНТНОСТИ НЕФОРМАЛЬНЫХ ОБЪЕКТОВ В теории распознавания образов наибольший интерес вызывают схожие объекты, т. е. имеющие как тождественно равные характеристики, так и некоторые различия. В тех случаях, когда объекты совпадают абсолютно по всем характеристикам, задача распознавания становится тривиальной и не представляет принципиального интереса. Произвольность толкования схожести позволяет отнести в одну группу весьма различные объекты, но совпадающие по тем характеристикам, которые в данных условиях признаны существенными. Статистическая теория распознавания позволяет называть такие группы однородными. Таким образом, в рассматриваемой задаче классификации каких-либо произвольных объектов по заранее заданным признакам, которые определяются целями управления и известными свойствами объектов, требуется оценить степень сходства и различия по неполной группе характеристик. Среди множества описанных мер сходства [1, 2, 7, 11] для использования в задачах анализа неформальной информации, зачастую в нечеткой постановке, наиболее приемлемы те, в которых за критерий сходства принято минимальное расстояние между одноименными измерениями объектов. Близость двух неформальных объектов (*,;*,) по и-й характеристике рассчитывается как одна из регрессионных функций Un, однозначно отображающая каждую пару точек (х,(л); *,(«)) на множество действительных чисел φ,,(л), где каждое число характеризуется степенью сходства между интегральными характеристиками объектов ψ,{n);Uj{n)). В аксиоматике обработки неформальной информации существуют следующие начальные условия для определения допустимых значений мер сходства: 33
inf{cp,»b° <Ψ//(") = Ψ//(") W{iJ,n}eN. ФУ(")^ФУ(") В сложных случаях несопоставимости метрик, отсутствия числовых характеристик расстояний между объектами, исследования неформализуемых объектов известные функции расстояния неприменимы. В подобных задачах используется абстрактное нормированное пространство с интервалами приведенных расстояний е [0; 1]. Рассмотрим функции подобия двух неформальных объектов. В первую очередь, это относится к людям (респондентам опросов, экспертам и т.п.). Различия между двумя людьми разбиваются на две группы: формально-анкетную (возраст, пол, этническая и социальная принадлежность и пр.) и группу личностных предпочтений (ответы на вопросы социологических опросов, экспертные предпочтения, потребительские пристрастия). Если поставленные вопросы имеют только два варианта ответов (да; нет), то такие характеристики называются альтернативными. В задачах с подобными переменными обычно рассматривают функции подобия двух неформальных объектов (5Ί). Для выявления меры сходства (или подобия) двух неформальных объектов, в частности, двух опросных листов, заполненных экспертами или респондентами, можно использовать расчетную величину подобия, определяемую дифференцированно по каким-либо признакам. Достоверность расчетных величин подобия будет зависеть от того, насколько адекватна анкета личностным характеристикам эксперта (респондента), насколько равнозначны вопросы и т. д. Если вопросы анкеты в достаточной мере формализованы для применения статистических методов обработки (а другую форму анкеты нет смысла рассматривать при нашей постановке задач), то ответ на любой вопрос может быть только двух видов: да или нет, что соответствует двум возможным цифрам в двоичной системе счисления {0; 1}. Тогда можно подсчитать число совпадений ответов двух респондентов отдельно по единичным и нулевым характеристикам. В результате подобного суммирования рассчитываются наиболее важные показатели подобия двух объектов: 34
ι=\ J где (г',у) - номера сравниваемых объектов; В - номер характеристики объекта; ψ(β,,Ι|β|;) - количество полностью совпадающих характеристик объектов; Τ - общее количество характеристик объектов; L - количество интервалов разбиения отдельных характеристик (подсказок каждого вопроса анкеты). Признак подобия 5Ί может использоваться в интегрированном виде (Σ/,7), но при одном существенном ограничении: все характеристики объектов (/,_/) имеют одинаковый содержательный «вес». В противном случае исследователь должен ввести в расчеты взвешенную признаковую функцию, предназначенную для нормирования рассматриваемых характеристик объектов. Признак подобия 5Ί имеет смысл применять только при равномерном распределении относительных значений всех характеристик объекта. Если же это не так, то можно все характеристики разбить на группы по признаку возрастания важности входящих в одну группу вопросов. Высокие значения коэффициентов подобия свидетельствуют о схожести поведения двух объектов в условиях, аналогичных исследуемым. Конечно, если сравнивать попарно характеристики всех объектов, входящих в генеральную совокупность, количество информации будет столь велико, что анализировать ее практически будет невозможно. Более удобной представляется такая методика, при которой по средним характеристикам каждой абстрактной группы объектов заполняется новый обобщающий набор показателей. Эти усредненные характеристики могут служить обобщающим паспортом кластера. Сравнение характеристик отдельного объекта классификации с паспортом кластера позволяет рассчитать признак подобия между ними и сделать прогноз поведения объекта в условиях неопределенности. Определенный интерес представляет признак подобия (St), определяемый количеством совпадений положительных ответов на поставленные вопросы. Совпадение мнений по функциям положительного выбора, условно говоря функция согласия 35
(S2), имеет важное значение при изучении потребительских предпочтений (нужен ли вам предлагаемый товар?), политических ориентации респондентов (за кого будете голосовать?) и при ряде других исследований. Признак подобия S2, который можно интерпретировать и как функцию согласия, и как коэффициент подобия, характеризует в основном меру однородности нечисловых (неформальных) показателей в сравнении с объективными показателями. где ψ(5|*Ρ|5,+;) - количество совпадающих положительных характеристик объектов. Функция согласия S2 применяется, как правило, в вопросах альтернативного типа и имеет те же «весовые» ограничения, что и признак подобия Si. Показатель подобия S2 представляет интерес в сравнительных исследованиях. Например, в ситуации сравнительного анализа опросов экспертов-специалистов и респондентов-пользователей по одним и тем же вопросам. Очевидно, приведенная формула для вычисления S2 может быть применена только в случае дихотомических подсказок (да, нет), независимо от их количества. В других случаях (да, нет, не знаю) формулу для вычисления S2 следует изменить. Наряду с функциями согласия в задачах изучения общественного мнения приходится рассматривать противоположный признак подобия - функцию отрицания 5з, которая определяется количеством совпадений отрицательных ответов на поставленные вопросы. Σ βι+Σβ« где ψ(5|~η#Γ/) - количество совпадающих отрицательных характеристик объектов. 36
Достаточно часто в исследованиях применяется коэффициент подобия Хаммана Л, который характеризует разброс и неустойчивость мнений по каким-либо вопросам г. ^-,J=%t!!iK);it£l,;,|. Σ*.+Σβ« ί=Ι V /=ι Кроме того, существует множество модификаций вышеприведенных коэффициентов подобия, которые усиливают или ослабляют «весовые» показатели совпадающих (положительных или отрицательных) признаков и отличаются коэффициентами при аргументах, показателями степеней или другими математическими процедурами. Исследователь может использовать модификации коэффициентов подобия для того, чтобы повысить обоснованность кластеризации, разделения множеств со сходными характеристиками и в ряде других конкретных случаев. Исследователь, применяющий модификации коэффициентов подобия, изменяет границы между кластерами, содержание классифицируемых объектов и другие характеристики. Таким образом можно управлять содержанием классификации в зависимости от целей исследования, необходимости лучшего разделения кластеров или других целей. 2.5. ИНФОРМАЦИОННЫЕ ПРИЗНАКИ, ИСПОЛЬЗУЕМЫЕ ДЛЯ КЛА СТЕРИЗАЦИИ Особенностью информационного сопровождения задач, решаемых методами кластеризации, является возможность использования практически любой информации об объектах исследования: формализованной и записанной в произвольной форме, объективной и субъективной, непосредственно измеренной или полученной опосредственными путями, систематизированной и хаотичной - причем любая информация представляет определенную ценность для исследования. Естественно, эта информация нуждается не только в классификации, но и в предварительной адаптации к обработке и нормированию. Такую разнородную и неструктурированную информацию об 37
изучаемых объектах правомерно считать сложным множеством, требующим декомпозиции, шкалирования и нормирования для последующей кластеризации, структурного и содержательного анализа. По Дж. Крускалу [2, с. 21] существует три типа информации, используемой в кластерном анализе. К первому типу он относит многомерные данные, понимая под этим, скорее всего, первичную информацию от рецепторов. Второй тип - данные о близости (метрические и иные расстояния между объектами). Третий тип - данные о кластерах: координаты в признаковом пространстве, характеристики и свойства, границы кластеров. Качество декомпозиции сложного множества, в первую очередь, зависит от обоснованности выбора признакового пространства. Эта задача состоит из двух взаимосвязанных подзадач: выбора наиболее информативных признаков и исключения взаимно коррелируемых характеристик объектов. При этом определяется процедура количественного обоснования информативности признака, т. е. его «важности» для классификации. Вместе с тем признаки, имеющие максимальный «вес», используются в качестве дескрипторов при поиске нужных групп. Условность количественных характеристик, определяющих содержательные параметры объектов, диктует строгие ограничения в выборе эквивалентов качественных и числовых признаков. Только анализ репрезентативных статистических данных подтверждает или опровергает эту эквивалентность. Поскольку признаки являются главной характеристикой объектов, по которой определяется сходство или различие (их также используют для описания предметов или явлений), их выбор и дает ту или иную систему разделения на однородные группы. Существенную сложность в выборе правил разделения для классификации неоднородных объектов представляет ранжирование признаков. Процедура установления рангов изучаемых характеристик требует определения «полезности» каждого признака. В тех случаях, когда все признаки объявляются «равнополезными», т. е. их «весовые» коэффициенты принимают равные значения, это приводит к избыточности размерности признакового пространства. В свою очередь, лишние характеристики не только усложняют вычислительные процедуры, но и размывают границы между кластерами, нивелируют характеристики объектов. Информационная ценность призна- 38
ков определяется методами факторного анализа, а их содержательная оценка проводится, как правило, экспертами. Избыточные признаки не добавляют знаний о специфических чертах кластеров, поскольку существует некоторый предел признаковой насыщенности, превышение которого дает тривиальные результаты. Таким образом, ошибка классификации во многом зависит от количества и качества выбора характеристик построенного исследователем признакового пространства. Четкость дискриминантных линий, ограничивающих каждый кластер, также зависит от рационального выбора информационных показателей. Следовательно, с ростом количества признаков снижается устойчивость классификации, размываются границы между группами. Однако это не должно служить основанием для такого сокращения количества признаков, которое сможет привести к тривиально-примитивному описанию объектов при интерпретации содержания кластеров и отсутствию познавательной ценности результатов классификации. Другая крайность также мешает объективности исследования, потому что при неограниченном росте количества признаков усложняется содержательная интерпретация изучаемых процессов из-за необходимости учета второстепенных деталей, не существенных с точки зрения основного содержания исследования, что, в свою очередь, приводит к расплывчатости в описании объектов. В кластерном анализе заметную роль играют генезис признаков и принципы формирования признакового пространства. На рис. 5 приведен общий принцип формирования, отбора и микширования признаков объектов и классов. Эта работа предшествует основной задаче кластеризации. Предположим, эксперты или заинтересованные респонденты предложили включить в характеристики изучаемых объектов следующие признаки (/?,, R2, Л3, ..., R„). Зафиксировав все предложенные измеряемые признаки, разделим их на числовые (Λ|(Ζ), Λ2(Ζ), Λ3(Ζ),..., R„(Z)) и качественные, не имеющие числового выражения и не соответствующие принципам сравнения аксиоматики Евклида (R\(K), R2(K), Ri(K), ..., R„(fQ)- Отметим, что индекс и в каждой системе координат может'иметь произвольное значение. И, наконец, с помощью формальных процедур путем смешения, разделения, ранжирования и индексации количественных и качественных признаков формируются синтезированные признаки, которые и образуют матрицу признакового пространст- 39
*\{S\R2{S) R„-j{S) R„{S) rr rr rr rr rr > η R\(K).R2(K) R„-№) R„(K) /?,(Z),/?2(Z) R„_j(z) RH(Z) 1Ύ fT ГГ iT ГГ ГГ ГГ > Измеряемые признаки п Λ,,Λ2,Λ3 Rn_j R„ Содержательный анализ признаков Полный набор признаков η Рис. 5. Матрица формирования признакового пространства задачи классификации ва. На этой стадии устанавливаются «весовые» значения факторов, соотношения между ними, определяется точность измерения отдельных признаков. По определению Ю.Н. Толстовой [19, с. 48-49], признаковые пространства могут иметь природу двух типов. К первому типу относятся признаки, имеющие «непосредственное содержательное отношение к изучаемой проблеме». Эти признаки каким- либо способом фиксируются в ходе исследования или получаются с помощью расчетов исходных факторов. Второй тип признакового пространства получается в результате преобразования кластерной матрицы, в основном за счет трансформации строк, столбцов и самой системы координат [19, с. 48]. Практика разделения неоднородного множества на некоторое количество однородных подмножеств (это число может быть даже и заранее заданным, и тогда понятие однородности может трансформироваться по ходу решения задачи) указывает на возможность рационального подбора переменных, с помощью которых выделяются или сглаживаются различия между объектами. Выбор признаков, определяющих объекты, является основой формулировки решающих правил разделения исходного множества на подмножества. Очевидно, простота решающих правил разделения способствует практической применимости методов кластерного анализа для классификации объектов любой природы и сложности. Одна- 40
ко чрезмерное упрощение правил разделения приводит к тривиальным результатам. Особенно это справедливо при классификации социально-экономических объектов, где распространено описание, в котором каждый элемент множества характеризуется одним, двумя или тремя интегральными признаками. Подобное описание удобно, во-первых, потому, что легко представимо в матричной форме (для обработки матриц существуют многочисленные процедуры, адаптированные для решения подобных задач), а во-вторых, размерность признакового пространства, не превышающая трех измерений, интерпретируется геометрически, что делает решение задачи классификации наглядным, а обоснованность разделения на группы убедительной (каждая ошибка распознавания видна на рисунке). Выбор признаков для классификации во многом зависит от целей исследования. Поэтому одно и то же множество может быть разделено на принципиально различные группы, отличающиеся не только количеством входящих в них элементов, но и их смешением в подгруппах. К примеру, классификация бригад по производственным признакам (производительность труда, фондовооруженность, трудовая дисциплина и т. п.), скорее всего, не совпадет с классификацией по обобщенным социально-демографическим признакам их членов (возраст, семейное положение, обеспеченность жильем и т. п.). Следовательно, нельзя классифицировать группу социально-экономических объектов один раз для любых случаев - процесс этот должен повторяться при изменении целей исследования или управления. Распространено мнение, что выбор элементов признакового пространства связан только с содержательным анализом ситуации, объектов изучения, целей исследования. Но на этот вопрос нельзя найти однозначного ответа. Во многих случаях формальные количественные методы оценки, ранжирования, информационного обеспечения и выбора признакового пространства оказываются не только правомерными, но и весьма полезными. Корректный выбор алгоритмов экономико-математических моделей, статистической проверки гипотез, других математических методов способен значительно облегчить и подтвердить или опровергнуть обоснованность принимаемых решений, оценить надежность исходных характеристик, учесть информационную насыщенность признакового пространства и взаимосвязь признаков. Эти и многие другие задачи невозможно эффективно решать без использования численных методов и формализованных процедур. Естественно, сказанное не противоречит тези- 41
су о необходимости использования на начальных этапах определения признакового пространства содержательного анализа. Теоретически классифицировать методами кластерного анализа можно неограниченное количество объектов с любым набором признаков. Однако практически существуют довольно жесткие ограничения, связанные со сложностью процедур, возможностями быстродействия и объема памяти компьютера. Поэтому в начале исследования определяется желательная размерность признакового пространства и ориентировочное количество групп, на которые следует разделить исходное множество. Последнее ограничение связано с возможностями восприятия информации при исследовании и управлении. С увеличением количества распознанных объектов растет точность управления и достоверность знаний об их специфике, и было бы идеальным рассмотрение каждого элемента множества в отдельности (в этом случае и классификация не нужна). Но такая детальная группировка не воспринимается человеком, и поэтому в реальных классификациях количество групп, как правило, не превышает десяти. Размерность признакового пространства не является столь жестким условием и варьируется от одного показателя до пятидесяти, но может быть и больше. Если же исследователи не ограничены вычислительными мощностями, то количество признаков может быть весьма значительным. Дать формальный ответ на вопрос о качестве выбора размерности признакового пространства классификации до окончания процедуры кластеризации практически невозможно. Оценка размерности осуществляется на стадии интерпретации полученных результатов и в тех случаях, когда эти результаты не удовлетворяют условиям дифференцированного управления (или анализа), приходится возвращаться к исходным процедурам обработки начальных массивов информации, но с использованием нового набора информационных признаков. В отдельных случаях, при нехватке характеристик, ведется дополнительная работа по сбору данных. 2.6. СХЕМЫ ИСПОЛЬЗОВАНИЯ ИНФОРМАЦИИ, ПРЕДНАЗНА ЦЕННОЙ'ДЛЯ КЛАСТЕРИЗАЦИИ, В ЗАВИСИМОСТИ ОТ ИСТОЧНИКА, ВИДА И ВОЗМОЖНОСТЕЙ КОДИРОВАНИЯ Сильной стороной кластерного анализа можно считать его «всеядность»: какой бы вид информации ни предложить, кластерной матрице он оказывается полезен. Тем не менее в необ- 42
работанном виде многие виды информации использовать практически невозможно. Необработанная информация разнопла- нова еще и потому, что зачастую принадлежит разным содержательным группам и поэтому ее нельзя систематизировать в общем поле измерения. В таких условиях постановщик исследования вынужден находить способ преобразования исходных данных, чтобы они отвечали единой аксиоматике кластерной модели классификации. Некоторые типы исходной информации, а также возможные способы придания им удобного для классификации вида приведены в табл. 1. Таблица I № п/п 1 2 3 4 5 Тип информации и се основные характеристики Прямая числовая информация, полученная непосредственно от объектов Косвенная числовая информация о признаках, влияющих на поведение объектов, вторичных признаках, аналогичных объектах, условиях среды и т. п. Альтернативная числовая информация опросных листов или паспортных данных. Нечисловая информация легко кодируется и переводится в числовую Нечисловая информация типа «меню», полученная в результате анкетирования респондентов или опроса экспертов Историческая, генетическая, этимологическая информация о предыдущем развитии объекта исследования Преобразования, необходимые для использования информации в кластерной модели Можно использовать в виде абсолютных или относительных (проценты, приведенные затраты) чисел. Расстояния между объектами вычисляются в кластерной модели Можно использовать с учетом коэффициентов корреляции зависимостей или подобия объектов Возможно прямое использование в относительном виде. Каждый параметр требует разработки собственной шкалы расстояний Требует разработки числовых аналогов текстовым характеристикам, недопустимо использование евклидовой аксиоматики. Расстояния, как правило, не вычисляются. Сравнение идет по совпадению предпочтений Может быть представлена в виде уравнений регрессии, коэффициентов эластичности, начальных координат, рядов динамики или лингвистическими характерисгиками 43
Окончание табл. I № п/п 6 7 8 9 10 II Тип информации И ее основные характеристики Априорная числовая и нечисловая информация Теоретическая информация, являющаяся следствием каких- либо закономерностей, теоретических положений Гипотетическая информация о возможных результатах классификации, мотивах деятельности, гипотезах развития и т. п. Эвристическая информация, основанная на предыдущем опыте, творческих способностях, образовании, интуиции Экспериментальная информация, полученная в результате проверки гипотез или эксперимента Случайная информация, полученная в результате незапланированных мероприятий, неожиданных результатов поиска Преобразования, необходимые для использования информации В кластерной модели Формируется экспертами до проведения расчетов кластерной матрицы. С ее помощью определяются предварительные характеристики кластеров, граничные функции, содержание кластеров Преобразования этого типа информации зависят от ее содержания и формального представления То же 2.7. ИЗМЕРЕНИЕ ХАРАКТЕРИСТИК ОБЪЕКТОВ И ИХ ПРЕДСТА ВЛЕНИЕ В ЗАДА ЧАХ КЛА СТЕРИЗАЦИИ В прикладных задачах кластеризации встречаются два вида характеристик объектов: объективные показатели, которые могут быть оценены непосредственным измерением (прибыль, фондовооруженность, себестоимость, объем продаж), и такие показатели, которые нельзя измерить в первоначальном виде (удовлетворенность работой, управленческие предпочтения, выбор рационального пути развития). Второй вид параметров требует введения опосредованных единиц измерения, экспертных оценок, проведения опросов общественного мнения и т. п. Оче- 44
видно, первая группа объективных показателей может быть непосредственно измерена с заданной точностью, а для второй группы характерна не только неопределенность, но и формально немотивированная изменчивость показателей. Числовые характеристики первой группы, как правило, соответствуют аксиоматике Евклида. Для субъективных показателей возникает задача выбора приемлемой метрики, а в дальнейшем - сопоставимости показателей обеих групп. Для этого существуют различные искусственные методы [2, 11], включающие нормирование показателей, т. е. представление чисел в относительных единицах, как правило, на отрезке [0; 1]. Практика обработки числовой и нечисловой информации горных предприятий предполагает использование разнообразного математического аппарата: теории алгебры высказываний, теории множеств, теории распознавания образов, дискретной математики, системного и содержательного анализа и т. д. Вторжение математических методов в сферу управления позволило перейти от усредненно-интегральных оценок параметров к более тонким количественным методам анализа и синтеза производственных, социально-экономических, финансовых процессов, научно обоснованному управлению. Однако использование формализованных процедур требует специального обоснования числовой интерпретации сложных явлений, не имеющих числового измерения, определения аксиоматики выполняемых операций и доказательства правомерности использования каждой операции. Известно, что использование отдельных, выпадающих из единой логической схемы, процедур обработки исходных данных приводит к явным логическим противоречиям, не согласуется с результатами содержательного анализа, приводит к тривиальной интерпретации. Для многомерных неформализуемых объектов введение понятий сходства и близости двух элементов множества требует определения метрики пространства и аксиоматики отображения реальных отношений на моделируемые связи и соотношения. При этом даже тщательный учет всех особенностей объекта не позволяет считать отображение адекватным, если процедурная аксиоматика ошибочна. С целью выбора допустимых процедур обработки подобной информации предлагается алгоритм, представленный на рис. 6. В процедурах, предусмотренных алгоритмом, используют в качестве аргумента не отдельные объекты, а одномерные векторы - характеристики множества объектов. 45
Этот анализ носит содержательный, качественный характер. Алгоритм предназначен для разделения характеристик объектов на числовые и нечисловые, соответствующие аксиоматике Евклида и не допускающие какие-либо числовые операции. Важное значение имеет также возможность ранжирования: некоторые характеристики можно только анализировать на совпадение или несовпадение, потому что понятие больше-меньше в них отсутствует. Содержание блоков, представленных на рис. 6: 1 - начало анализа г'-й характеристики объекта; 2 - возможно ли использование заданного условиями исследования масштаба измерения? 3 - имеет ли характеристика числовое выражение? 4 - нормирование г'-й характеристики; 5 - запись г'-й характеристики в матрицу числовых показателей; 6 - запись г'-й характеристики в закодированном виде в матрицу нечисловых элементов; 7 - установление допустимых логических отношений; 8 - возможно ли ранжирование качественных характеристик? 9 - использование методов экспертных оценок; 10- использование методов анализа по совпадающим значениям характеристик; 11 - установление метрических отношений; 12 - допустима ли аксиоматика Евклида? 13 - определение фазовых расстояний; 14 - использование информации для кластеризации. Вместе с тем в отдельных случаях имеется возможность использования комбинированных количественно-качественных процедур. Например, определяя возможность ранжирования значений, удобно присвоить качественным характеристикам определенные ранги, а затем оценить полезность такого упорядочивания элементов множества. Следует иметь в виду, что применимость таких методов ограничена возможностями сравнения нечисловых характеристик. Содержательный анализ характеристик необходим при определении их возможностей адекватного отображения реальных свойств объектов, а также соответствия этих показателей изучаемой проблеме. В тех случаях, когда выполнены оба условия, система характеристик изучаемого множества образует координатную систему признакового пространства. Это пространство может быть метрическим, если при определении сходства и различия между объектами можно использовать аксиоматику Евклида. При этом наиболее осторожно следует применять операции сравнения (больше-меньше), поскольку они во многих случаях носят субъективный характер. 46
Нет Рис. 6. Схема последовательного выбора методов разделения и первичной обработки информации для последующей кластеризации Использование в экономико-математических моделях операций, не отвечающих аксиоматике метрических пространств, допускает правомерность сравнения многомерных неформали- зуемых объектов только по точному совпадению части характеристик или их несовпадению. Наряду с этим возможно определение операций условного предпочтения оценочных показателей экспертами или респондентами при массовых опросах. Однако принятие управленческих решений по результатам обобщений этих субъективных оценок должно сопровождаться одновременным сравнительным изучением нормативной базы и фактического состояния объектов. Многомерная классификация неформальных объектов отображается в модели с высокой степенью точности. В то же время многомерность объектов ограничивает процедурные возможности кластерного анализа, усложняет интерпретацию полученных результатов. При решении большинства задач кла- 47
стерного анализа удобно использовать два-три интегральных показателя. Каждый алгоритм кластеризации при необходимости содержит метод получения интегральных оценок. Эти интегральные характеристики используются на стадии определения граничных условий и группировки объектов, а при интерпретации данных классификации каждая группа (кластер) как бы возвращает себе прежнюю многомерность. Интегральная оценка упрощает представление об объекте, но позволяет при классификации гибко управлять процессом распределения элементов множества по группам за счет включения и исключения из интегральных характеристик отдельных составляющих. Поэтому и классификацию, проведенную на основании построения метрического пространства в интегральных характеристиках, следует считать условно-субъективной, что не снижает ее ценности при условии соблюдения ряда вышеописанных правил, дополненных другими работами [1, 2, 7, 10]. При формировании метрического пространства кластерного поля определенную сложность представляет формализация качественных характеристик, или функций предпочтения. Теория измерений позволяет найти количественные составляющие для большинства показателей, поэтому корректнее было бы рассмотреть комбинированные характеристики, в которых наряду с количественными измерителями присутствует качественный элемент неопределенности. Рассмотрим одну из подобных характеристик. На каждом крупном предприятии, в регионах и отраслях ведется учет обеспеченности людей социально- бытовыми благами: количества мест в школах и дошкольных учреждениях, коек в больницах, обеспеченности жильем и т. д. Все эти показатели имеют какое-либо числовое измерение физических объемов и насыщенности услуг. С другой стороны, эти же показатели имеют и неформальные, качественные характеристики, которые заключаются во мнениях людей об удовлетворенности теми же благами. Очевидно, что в задачах управления нельзя ориентироваться только на одну группу характеристик, потому что наряду с учетом числовых показателей важное значение имеют ценностные ориентации различных социальных групп, культурные традиции, общественно-производственное положение. В задачах такого рода детализация характеристик и повышение точности измерений малозначимы, а решающее значение имеет совмещение формальных (количественных) и неформальных (качественных) характеристик. 48
Одним из методов одновременного учета качественных и количественных характеристик является разбиение шкалы измерений на небольшое количество интервалов (как правило, от двух до десяти). В этом случае каждому интервалу измерения (или их комбинации) присваивается качественная характеристика, дополняющая числовую. В результате подобной процедуры, широко используемой в кластерном анализе, происходит повышение качества классификации, связанное со снижением точности измерения, комплексностью оценок объектов и включением в решение задачи неформальной экспертизы. Учитывая высокую значимость информации, представленной в виде экспертных анкет и данных массовых опросов, рассмотрим достаточно важный для построения метрического пространства аспект, связанный с наличием в опросных анкетах закрытых и открытых вопросов. Под закрытыми вопросами понимаются такие, в которых для каждого вопроса указан в анкете набор ответов-подсказок, отметив один из которых (альтернативные вопросы) или сколько угодно (вопросы типа «меню»), эксперт (респондент) может выразить личное мнение по изучаемому вопросу. Наличие только закрытых вопросов является необходимым условием использования аппарата кластерного анализа и построения формализованного признакового пространства, имеющего общую размерность и определенную аксиоматику. Открытые вопросы не имеют подсказок, поэтому отвечающий может высказывать свое мнение в произвольной форме. В связи с неупорядоченностью ответов такая информация без предварительной содержательной обработки в кластерном анализе не используется. * * * Несмотря на «всеядность» кластерного анализа относительно исходной информации, заметим, что в предварительно обработанном виде эмпирические данные должны отвечать следующим требованиям: • содержательной репрезентативности, т. е. информация должна отражать существенные для исследования свойства объектов классификации; • полноте объема информации, достаточной для объяснения явлений; • достоверности; • существованию формальных правил, по которым можно объективно интерпретировать данные, упорядоченные мат- 49
рицы и т. п. Если это невозможно сделать в автоматическом режиме, то должны существовать эксперты, способные по приведенной информации дать оценку явлениям; • релевантности экспертных оценок. 2.8. ЦЕЛЕВЫЕ ФУНКЦИИ КЛАСТЕРИЗАЦИИ В качестве критерия правильности классификации методами кластерного анализа можно использовать такие функции, которые содержат в себе содержательную логику основных задач, понимание постановщиком исследования того, как должно выглядеть разделенное множество объектов. И это было бы самым разумным решением. Но чаще всего постановщик задачи не знает, какие могут быть результаты классификации, и тем более не может априори определить, какое разбиение следует признать оптимальным. В этом случае на помощь приходят целевые функции, сформулированные на основе изучения кластерной матрицы или промежуточных результатов кластеризации. Как правило, эти целевые функции корреспондируют с основными содержательными закономерностями, но обнаружить и обосновать эту связь нужно отдельно. Использование целевых функций позволяет разрабатывать алгоритмы оптимизации кластерной задачи и формального выбора наиболее эффективного разбиения. В практических задачах трудно сформулировать единственную целевую функцию для поиска оптимального решения. Обычно постановщику хочется добиться соблюдения нескольких условий оптимизации. Несложный алгоритм последовательной фильтрации позволяет использовать любое число целевых функций, но для этого необходимо, чтобы в зону оптимального решения кластерной задачи попали несколько решений, иначе уже на второй итерации выбирать будет не из чего (рис. 7). Сформулируем некоторые целевые функции, способные оценить качество классификации и выбрать оптимальные варианты. Целевая y-v ^ь s\ Целевая функция Лг 5 \^ ^г ^^^ К/ функция ΛΊ I Рис. 7. Схема расчета зоны оп- ц, тимальных решений кластерной ф,и" задачи для пяти целевых и пяти дискриминантных функций 50
А. Минимум объектов, не попавших ни в один кластер (потери классификации) Несмотря на то, что потери объектов при классификации - процесс неизбежный, постановщик задачи, желающий сделать исследование репрезентативным, старается свести эти потери к минимуму: ^β, -► min , / = 1 где β, - объект, который после окончания расчетов не попал ни в один кластер. Причины потерь объектов классификации могут состоять как в объективной невозможности создания однородных групп, так и в ошибках специалистов, выполняющих исследование. На рис. 8 отражена предпринятая попытка классифицировать причины потерь. Если количество объектов, не вошедших ни в один кластер после завершения всех вариантов классификации, достаточно велико, разумно провести специальное исследование причин подобных результатов. Поскольку причины потерь (см. рис. 7) даны в обобщенном виде, каждую подходящую позицию представленной схемы необходимо детализировать. Суммарные потерн Τ Планируемые потери 1 Случайные объекты ■ 1 Нетипичные объекты ' Малочисленные кластеры Фактические потери 1 Подтвержденные планируемые потери ' i Ошибки измерения и кодирования Потери в результате преднамеренного искажения информации Рис. 8. Распределение информационных объектов, не попавших в кластеры В. Максимально возможная компактность каждого кластера Компактность кластера можно определить следующим образом: • разделить исходное множество на кластеры; • у каждого кластера вычислить условный «центр массы» по формулам: 51
Ν У.ДС„ ΣΧ ϊ,=*ξ!—; ν -^ "7 7~ Ν~' Jl Ν J, N Ji Ν Σ Σ% Σ Σα«/2 л _ j-\ η=\ л _ 72=1π=1 Α.Ι — ; /.τ — , 1 N-Jx NJ2 где и - номер объекта, принадлежащего определенному класте- ру;у - номер характеристики объекта, общей для всех объектов исходного множества; jV - количество объектов в рассматриваемом кластере; х„. - проекция на ось ОХ текущего значения характеристики объекта под номером п; у - проекция на ось OF той же характеристики; х~} - средневзвешенная величинау-й характеристики кластера, спроектированная на ось OX, y~j - та же характеристика, спроектированная на ось OY; {J\\J2} - количество характеристик двумерного поля кластеризации; а - количество вариантов формализованной у'-й характеристики; {λ[;λ2} - средняя величина заполненности характеристик в двумерном пространстве. Однако не для каждой характеристики объекта классификации возможно вычисление средневзвешенных величин. В тех случаях, когда параметры имеют нечисловое (качественное) измерение, естественнее использовать характеристики распределения случайных величин. В этом случае критерием оптимальности классификации будет выбор следующих целевых функций, составленных из внутригрупповых и межгрупповых дисперсий: y2 = l n = l Q(K) = Q{(K) + Q2(K)^ min . 52
где Q\{k) - внутригрупповая дисперсия для всех объектов одного кластера по характеристике первого измерения; Qj{k) - то же, по характеристике второго измерения; Q(k) - интегральная характеристика оптимизации; • определить наилучшую компактность кластеров по min дисперсии всех объектов кластера и «центра массы». С. Максимальное суммарное расстояние между границами (оболочками) кластеров Этот критерий оценивает расстояние между образами (кластерами), что, в свою очередь, характеризует степень их отличия друг от друга и то, насколько методически объективно разделены объекты изучения. Поскольку контуры дискриминантных линий границ кластеров могут иметь любую конфигурацию, расстояния между ними рассчитывать методически сложно. Для управления можно было бы вычислить расстояние между «центрами массы», но в этом случае затрудняется интерпретация «водораздела» между кластерами из-за отсутствия информации об их плотности в нужном направлении. Поэтому предлагается два варианта вычисления расстояний между границами кластеров. В первом случае строится отрезок прямой между «центрами массы» кластеров, а расстояние считается только между границами. Во втором случае известными геометрическими методами строятся параллельные касательные к выпуклым границам кластеров и расстояние вычисляется уже между ними. Эти методы проиллюстрированы на рис. 9 и 10. Эти методы расчетов могут иметь погрешность в пределах 10-15 %, но принципиальное представление о качестве разделения кластеров и репрезентативности классификации дают. Поскольку здесь требуется оценка общего разделения объектов, в целевой функции учитываются попарно все расстояния между оболочками ближайших кластеров. Рис.9 Рис.10 53
D. Максимальное совпадение признаков (однородность) в каждом кластере Соединение объектов в кластеры может происходить не только за счет однородности характеристик, но и в результате искусственных манипуляций: произвольного изменения масштаба расстояний, исключения из рассмотрения отдельных характеристик, необоснованного проведения дискриминантных линий, субъективизма в постановке задач и многих других действий. Поэтому важно найти объективную целевую функцию кластеризации, которая могла бы оценить схожесть характеристик объектов и на основании близости наибольшего количества показателей сформировать однородные кластеры. Впрочем, подобная целевая функция скрывает в себе немало трудноразрешимых задач: ведь не все показатели необходимы для.точной характеристики объектов. Более того, «лишние» признаки способны дезориентировать исследователя, нивелируя интегральные (обобщающие) характеристики объектов изучения. Вообще целевая функция однородности может быть сформулирована скорее в неформальном виде, чем задана алгоритмически. Учитывая неопределенность задачи выбора наиболее информативных характеристик, эффективнее эту процедуру поручить экспертам, причем не останавливаться на одном варианте показателей, а провести расчеты с несколькими вариантами. Сравнение результатов поможет оценить уровень доверия к экспертам. Е. В задачах диагностики целевая функция кластеризации работает в условиях предварительно классифицированного информационного поля и требует, чтобы максимум новых неопознанных объектов был идентифицирован с одним из существующих кластеров Этот класс задач имеет чрезвычайно важное значение в практике ремонта техники, медицине, криминалистике, астрономии, психологии, социологии и других отраслях деятельности человека. Поэтому целевая функция минимума неопознанных объектов полезна не только с практических позиций, но и может служить индикатором точности предварительной кластеризации. При этом каждая итерация опознания нового объекта уточняет границы кластеров. Следовательно, целевая функция здесь используется многократно. Рис. 11 иллюстрирует идею кластерной статистической интерпретации задачи диагностики сложной заранее классифицированной системы. Очевидно, re объекты, которые не были 54
опознаны как элементы кластеров, являются ^диагностированными, и здесь требуется дополнительная диагностика. Таким образом, минимизация неопознанных объектов необходима для полноты картины возможных статистических ситуаций, т. е. повышения достоверности классификации. Кроме того, даже единичная невозможность автоматического диагностирования системы снижает эффективность решения задачи. Постановщик задач кластеризации имеет возможность самостоятельно сформулировать целевые функции, отвечающие содержательным задачам исследования. В качестве примера приведем некоторые из них, а алгоритмы по их реализации несложно разработать в процессе планирования эксперимента. Рис. 11. Двумерное информационное поле для диагностики методами кластерного анализа F. Максимальное приближение реального числа кластеров к теоретически идеальному. G. Максимальная концентрация объектов в каждом кластере около расчетного ядра. Н. Максимальное приближение расположения объектов в кластерах к теоретически обоснованным законам распределения случайных величин. I. Максимальное приближение дискриминантных линий, ограничивающих кластеры, к заранее заданным идеальным функциям.
Глава 3 ОСОБЕННОСТИ ВЫЧИСЛИТЕЛЬНЫЙ ПРОЦЕДУР КЛАСТЕРНОГО ЛНЛЛИЗО 3.1. Формализованное представление информации в задачах кластерного анализа. Оценка показателей 3.2. Шкалирование признакового пространства для кластеризации 3.3. Выбор размерности метрического пространства и ее влияние на качество кластеризации 3.4. Графо-аналитическое построение кластерного поля и определение геометрической формы кластера
Глава 3 ОСОБЕННОСТИ ВЫЧИСЛИТЕЛЬНЫХ ПРОЦЕДУР КЛАСТЕРНОГО АНАЛИЗА 3.1. ФОРМАЛИЗОВАННОЕ ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В ЗАДА ЧАХ КЛАСТЕРНОГО АНАЛИЗА. ОЦЕНКА ПОКАЗАТЕЛЕЙ В задачах кластерного анализа используется информация трех типов: числовая, не требующая преобразований (геометрические данные, химический состав, содержание полезных ископаемых в блоках и т.п.); числовая, не пригодная для непосредственных расчетов (экономические характеристики, данные сопоставлений, биологические или социально-психологические показатели); нечисловая, требующая предварительной обработки и идентификации (экспертные оценки, данные опросов, мнение респондентов об индивидуальных предпочтениях). В кластерном анализе проблема представления информации в формализованном (числовом) виде является наиболее простой и непроблематичной. Действительно, измерить и классифицировать объекты, отличающиеся длиной, объемом, весом, стоимостью и другими объективными числовыми характеристиками, просто, но такая классификация, как правило, тривиальна, и для ее осуществления не нужен сложный математический аппарат. Иное дело информация субъективная, неформализованная, оценочная, в которой еще и некорректна аксиоматика Евклида. Такая информация требует дополнительной проверки на репрезентативность и релевантность. А отфильтрованная после проверки, она нуждается в дополнительных преобразованиях. Общий алгоритм начальной обработки изображен на рис. 12. Реализация алгоритма измерения сопровождается такими проблемами, как разделение точных, приближенных и прогнозных измерений. Оценивая угольное месторождение, приходится сталкиваться с глубиной залегания и мощностью пласта, углом его залегания, качественным составом и маркой угля, состоянием инфраструктуры и множеством других данных. Возникает вопрос: каким характеристикам отдать предпочтение, а если вырабатывается интегральная характеристика, то на каких принципах их объединять. Поэтому начальный этап сбора и обработки информации играет важнейшую роль для качества управления. 59
Определение характеристик объектов и их анализ на репрезентативность IE Отбор характеристик, необходимых и достаточных для классификации объектов IE Разделение отобранных характеристик на Три |руппы 1 группа: числовые характеристики, не требующие адаптации для модели кластеризации 11 группа: числовые характеристики, требующие предварительной переработки 111 группа: нечисловые характеристики, требующие числовой формализации Сбор информации и ее кодирование для кластерной матрицы Ж Группировка, шкалирование, нормирование Придание неформализован ным данным числовых значений, поиск аналогов, расчет совпадений и подобий Разработка методов получения интегральных оценок и их вычисление Ж Кластеризация исходной информации Рис. 12. Алгоритм первичного оценивания исходной информации и представления ее в пригодном для кластеризации виде Обратим внимание на то, что, оценивая какое-либо явление (работу, знания студентов), эксперт уходит из области числового точного измерения в зону субъективизма и возможной некорректности. Кто возьмется доказывать, что знания можно оценивать численными баллами? Или насколько корректно определять в числах расстояние между возрастными категориями? Кроме того, существуют показатели, которые измерить просто невозможно (предпочтения, способности и множество других). Все это свидетельствует о том, что система измерений для многих случаев пока не разработана. Не вызывает сомнения, что задачи кластерного анализа должны решаться в собственной аксиоматике, начало которой изложено в настоящей работе и [6, 29]. 60
В первом приближении можно принять пять видов измерения и сравнения, которые не противоречат логике, смыслу и аксиоматике кластерного анализа: • обработка результатов наблюдений, соответствующая метрической системе измерений и обработке информации; • числовые результаты наблюдений, нерелевантные в измеряемом масштабе и требующие группировки и шкалирования для достижения соответствия задачам классификации; • показатели, которые полнее раскрывают смысл исследования не в линейно-числовом виде, а с помощью отношений подобия; • экспертные оценки, в которых оценки больше-меньше не корректны и заменяются на систему предпочтений; • в тех случаях, когда ранжирование вообще не имеет смысла, используется процедура качественного измерения характеристик «совпадение-несовпадение». На рис. 13 изображен обобщенный подход к измерениям характеристик объектов кластеризации с учетом разных аксиоматических свойств показателей. Предложенная схема разделяет виды информации по степени объективности, точности, структурированности и возможности формализованного представления. Исходя из этого можно установить соответствие каждого типа данных с влиянием на исследуемые процессы через обобщенные условно однородные группы (кластеры). Это влияние может быть непосредственным и прямым (первичным), латентным и производным (опосредованным). Впервые о разнородном влиянии измерений на изучаемые процессы высказался в начале XX века английский физик Кемпбэлл. Правда, у Кемпбэлла речь идет о простейших физических моделях, а для экономики, социальных процессов, крупных производственно-технических проектов приходится детализировать типы измерений на значительно большее число составляющих. Если прямые измерения выполняются с помощью чисел (для чего числа и были придуманы), то все остальные виды могут быть выражены размытыми множествами и даже неопределенными ощущениями. Таким образом, теория измерений перестала быть стройной, построенной на аксиоматике Евклида, и требует нового теоретического осмысления, с учетом потребностей экономики, социологии, других гуманитарных наук. 61
Объект Свойства объекта, их видимое или латентное проявление I Характеристики объекта, их измерение и возможность сопоставления и объединении 1 Математические формы представления характеристик объекта 1 Отбор характеристик, пригодных для использования в задачах кластерного анализа Рис. 13. Схема выбора характеристик объекта кластеризации, их измерения и математической обработки Первый подход к измерениям в кластерном анализе можно условно назвать дескриптивным, потому что измеряемые характеристики объектов - числовые величины или величины, имеющие объективное числовое соответствие между свойствами и числами. Второй подход, опять-таки условно, назовем конструктивным, поскольку здесь числовые свойства создаются (конструируются) в процессе измерения, анализа, моделирования. Аксиоматика математических процедур кластерного анализа не может существовать без определения таких категорий измерения, как надежность и обоснованность. Отображение числовых характеристик реальных объектов кластеризации на числовые оси не может быть стабильно надежным, потому что в сферу интересов кластеризации попадают в основном стохастические данные, субъективные оценки и относительно достоверные показатели. Не говоря уже об обоснованности единиц измерения, которую следует доказывать на аксиоматическом уровне и анализировать в каждой характеристике. И тем не менее то, что один исследователь признает убедительным, может быть оспорено другим. Следовательно, в задачах кластерного анализа объективность измерений необходимо обосновывать, хотя сами процедуры дальнейшей обработки кластерной матрицы достаточно объективны. 62
Возникает вполне закономерный вопрос: а возможны ли в принципе числовые измерения неформальных характеристик, которые и составляют большую часть показателей кластерного анализа? Каким образом отображаются на числовую ось предпочтения, неформальный выбор, результаты экспертизы? Очевидно, придание неформальным характеристикам числовых значений ведет к упрощению наблюдаемых процессов, а это может привести к смысловым ошибкам. Следовательно, необходимо особо тщательно оценивать адекватность реальных процессов и отображающих их числовых процедур в рамках предлагаемой аксиоматики. В этом смысле не очень убедительным выглядит утверждение известного американского психолога С. Стивенса о том, что измерения неформальных процессов возможны потому, «что существует изоморфизм между свойствами числовых рядов и эмпирическими операциями, которые мы можем производить с объектами». Мало того, что само наличие связи требуется доказывать в каждом случае наблюдений, всегда можно поставить под сомнение процесс соотношения между эмпирической системой и числовой. В любом случае это не безусловная истина, хотя вышеупомянутый изоморфизм наблюдается во многих практических задачах. Не хватает только единиц измерения для выбора лучших объектов, предпочтений, сравнения разнородных характеристик. Главная содержательная проблема измерений для последующей кластеризации состоит в том, что без специального доказательства не очевидны преобразования измеренных характеристик и числовой системы в адекватные структуры, понятные исследователю и управляющему. А доказать это очень непросто. При этом изоморфизм связывает такие структуры, которые на содержательном уровне друг с другом не связаны. И только статистика способна определить возможную корреляцию между разнородными показателями. На этом же основана и возможная интерпретация результатов кластеризации. 3.2. ШКАЛИРОВАНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ КЛАСТЕРИЗАЦИИ Исключим из рассмотрения простейшую числовую шкалу, которая тривиально отображает измерения объектов. Специалисты по кластерному анализу предлагают для использования различные типы шкал, которые отображают их видение про- 63
блем, возможные обобщения, интуитивные или аргументированные ассоциации. Системы шкалирования во многом зависят и от основной специальности тех, кто использует кластерный анализ в прикладных целях. Геологи, экономисты, социологи, психологи, терапевты по-разному определяют числовое пространство, полученное методами шкалирования. Психолог С. Стивене выдвинул четыре типа систем шкалирования. По его мнению, каждая шкала характеризуется собственными числовыми свойствами, которые в контексте нашего рассмотрения могут называться аксиоматикой. Рассмотрим систему шкалирования Стивенса. Шкала наименований частично допускает некоторые арифметические действия и сравнения, из которых для классификации важнее всего операции равно - не равно, больше - меньше. Для классификации подобный принцип разделения тривиален и легко предсказуем, поэтому имеет слабый практический интерес. Действия выполняются в области целых положительных чисел и служат, в основном, задачам нумерологии. Эти простейшие операции необходимы для нумерации объектов или групп объектов (кластеров), а также для их упорядоченного расположения в соответствии со сформулированными правилами. Шкала порядка усложняет процесс сравнения объектов. В этом случае допускаются числовые сравнения, упорядочение по признаку, ранжирование по числовым характеристикам. С помощью шкалирования порядков можно разделить месторождения по объемам запасов полезных ископаемых, предприятия - по рентабельности, учащихся - по успеваемости, спортсменов - по достижениям. Для этого проводить исследования нет необходимости. Такая шкала может быть названа простой. Она даже не допускает арифметических действий без предварительного обсуждения. При этом числа служат для отличия одного объекта от другого и последующего их ранжирования по выбранному числовому признаку. Шкала интервалов расширяет и уточняет диапазон измеряемых характеристик объектов. Она позволяет вводить новые или использовать традиционные единицы измерения. При работе с интервалами устанавливаются числовые границы, определяется точность измерения, появляется возможность арифметических сравнений классифицируемых объектов. И как следствие, вводится комплекс математических процедур, и поэтому интервальная шкала может служить базой для комбинированных сравнений. 64
Шкала отношений представляет собой наиболее сложную часть измерительного комплекса кластерного анализа. Здесь исследуются отношения между разнородными объектами, идет поиск идентификационных числовых функций. Умение строить шкалу отношений необходимо при постановке сложных задач классификации. В этой шкале полностью справедлива аксиоматика Евклида, и она является самой распространенной в классификациях экономической, социальной, психологической, медицинской информации. Рассмотрим пример. Требуется классифицировать сто угольных шахт по экономическим характеристикам. Проще всего опросить несколько экспертов, попросив их пронумеровать эти шахты в соответствии с собственными представлениями об эффективности. Разделив полученные номера на группы, мы получим шкалу наименований. Если же в качестве измерения выбрать полученную шахтами прибыль (убыток) и расположить эти данные в порядке возрастания (убывания), то получим шкалу порядка, которая позволит не только ранжировать объекты по одному признаку, но и построить новую базу данных для классификационной модели. Вычислив интервалы изменения доходов шахты, средней величины ФОТ на 1 ППП или других важных для функционирования предприятия показателей, можно построить шкалу интервалов, с помощью которых достигается точное измерение величин и классификация по нескольким характеристикам. Что же касается шкалы отношений, то она строится из композиции разных характеристик, например, соотношения между фондовооруженностью труда и удовлетворенностью трудом, уровнем оплаты труда и текучестью кадров. Отметим, что шкалы наименований и порядка определяют качественные признаки, а шкалы интервалов и отношений - количественные признаки. Очевидно, каждая шкала измерений допускает только для нее определенные и установленные статистические процедуры (табл. 2 построена по классификации С. Стивенса). В задачах кластерного анализа более интересен подход К. Кумбса, развивающий идеи С. Стивенса. Подходы Кумбса и Стивенса в математическом аспекте эквивалентны, но Кумбс дал более строгую аксиоматику процедур и предложил рассматривать шкалы как некие математические конструкции, для которых важны два момента: объекты и расстояния между ними. 65
Таблица 2 Шкала Наименований Порядковая Интервальная Отношений Основные операции Установление равенства, порядковых номеров Установление отношений Установление границ интервалов и метрики Связи, пропорции, изоморфизм, интегральные характеристики Структура Перестановки, нумерации Изотоническая группировка Линейные преобразования, сравнения Подобие, гомотетия, конгруэнтность Допустимая статистика Варианты, мода, корреляция Медиана, ранговая корреляция, конкор- дация Вычисление средних величин, корреляция и др. Ограничений пет Пример Нумерация объектов Ранжирование по одному признаку Экономические сравнения. обработка экспертных данных Сочетание технологий и экономики, геологических показателей и планов развития, медицинских данных и социальных характеристик 3.3. ВЫБОР РАЗМЕРНОСТИ МЕТРИЧЕСКОГО ПРОСТРАНСТВА И ЕЕ ВЛИЯНИЕ НА КАЧЕСТВО КЛАСТЕРИЗАЦИИ Содержательный анализ целей исследования и практические возможности кластеризации являются основными причинами ограничений при выборе размерности кластеров. Полнота описаний классифицируемых объектов предполагает, на первый взгляд, максимальное число характеристик. Действительно, чем больше характеристик, тем точнее определяется объект в некотором пространстве параметров. Но эта точность может оказаться плохим помощником при классификации. Во-первых, многомерные описания объектов затрудняют решение задачи классификации, усложняя вычислительную часть и делая объекты несопоставимыми. Даже пять-семь значимых характеристик одной тысячи объектов не позволяют провести четких границ (дискриминантных функций) между кластерами. 66
Во-вторых, содержательный характер задачи требует ограничений числа показателей. Многие характеристики объектов оказываются несущественными для понимания сути происходящего и логики действия. Такие лишние показатели только искажают общую картину исследования и также размывают границы между кластерами. В-третьих, динамика изменений разных показателей может оказаться в корреляционной зависимости друг от друга, что недопустимо в статистическом исследовании. Поэтому все характеристики в начале исследования проверяются на обязательный уровень минимальной статистической независимости. В задачах кластеризации он определяется попарно между всеми параметрами. Если начальное количество параметров равно и, то исследовать придется и (и - 1) пар характеристик. Принято считать, что при значении коэффициента парной корреляции г > 0,7 параметры являются взаимозависимыми и один из них подлежит исключению. В-четвертых, важно отметить причинно-следственную связь между признаками - причинами изучаемых экономических, технологических, социальных и иных стохастических явлений с целевыми функциями управления. И в этом случае недопустимо исключение активно влияющих факторов из общего числа характеристик, определяющих размерность метрического пространства. Все вышеперечисленные условия определения размерности признакового пространства необходимо соблюдать для того, чтобы кластеризация способствовала увеличению точности в логической цепи причина <х> проявление. Процесс формирования признакового пространства корректно разделяется на две составляющие: содержательный отбор параметров и формальный анализ отобранных параметров. На второй стадии обычно применяется математический аппарат: корреляционный анализ, факторный анализ, изучение причинно-следственных зависи мостей. Признаковое пространство является, условно говоря, системой координат (для случая, когда признаков более трех, оно называется гиперпространством). Таким образом, комплексная проблема, лежащая в основе теоретического исследования или практического изучения, интерпретируется как признаковое пространство, а отдельные показатели в этом пространстве 67
служат осями координат. К показателям (осям координат) можно отнести не только формализованные характеристики (соответствующие аксиоматике Евклида), но и содержательные (качественные) характеристики, в которых отсутствуют числовое измерение и понятие больше-меньше (их заменяет другое понятие - предпочтительность). Высокая размерность признакового пространства позволяет детально рассмотреть объект исследования, но делает невозможной графическую интерпретацию информационного поля, усложняет вычислительную часть, размывает границы между объектами и характеристиками. К тому же мелкие детали рассеивают внимание экспертов и мешают сосредоточиться на главных характеристиках. Но и другая крайность дает неудовлетворительные результаты: чем меньше размерность признакового пространства, тем тривиальнее получается классификация. К примеру, по одному параметру классифицировать несложно (периодическая система элементов Д.И. Менделеева), но такая группировка в сложных системах не имеет смысла. Некоторым компромиссом в определении количества характеристик признакового пространства является введение интегральных параметров. Обобщить параметры можно по объективным признакам: сходству элементов управления, идентичности внутренней структуры объектов, общности природы возникновения и формирования параметров. Возможны и другие принципы интеграции параметров. Интегральные параметры позволяют снизить размерность признакового пространства, сохраняя в некотором приближении многообразие характеристик. Разработка интегральных показателей является отдельной задачей исследования, решение которой зависит от понимания содержания исследования, нетривиальности постановочной части и интуиции специалиста. В кластерном анализе хорошие результаты дает разделение параметров на две группы интегральных характеристик. В этом случае геометрическая интерпретация имеет плоскостное решение (простота и наглядность) и упрощает вычислительный алгоритм. Разделение может быть основано на точных и приближенных измерениях, объективных и оценочных характеристиках, географических координатах и экономических данных. Каждой из интегральных характеристик ставится в соответствие ось координат, а границы кластеров определяются геометрическими методами. 68
В более сложных случаях используются трехмерные интегральные оценки. При этом усложняется графика, появляется необходимость в объемном представлении кластеров. Такие рисунки похожи на топографические схемы, по ним также не сложно провести границы между образами, причем идентификация образа с его реальным содержанием выполняется методами идентификации. Трехмерные рисунки также удобны понятностью образов, точностью соответствия рисунка и содержания образа. Определить оптимальную размерность признакового пространства можно с помощью логических процедур необходимости и достаточности. Процедура отбора начинается с анализа каждого параметра на достаточность в контексте рассматриваемого исследования. Логика исследования подсказывает специалисту, существует ли вообще связь между параметром и целевыми функциями управления. Далее из отобранных параметров следует выбрать необходимые, то есть исключить лишние для данной работы признаки. Это могут быть и малозначимые признаки, и взаимно коррелируемые характеристики, и не меняющиеся в ходе эксперимента признаки. Если не провести исследования на необходимость признаков, то можно получить искаженную картину классификации. Определяя признаковое пространство, следует иметь в виду, что не все признаки оказываются легконаблюдаемыми. Значительное влияние на изучаемые процессы могут оказывать латентные, ненаблюдаемые признаки. Их скрытый характер требует поиска косвенных данных о влиянии на объекты классификации и самого процесса группировки. Для этого используются латентно-структурный анализ и методы многомерного шкалирования. Наиболее сложной задачей при этом является установление количественной связи между видимыми и наблюдаемыми признаками процессов и латентными факторами. 3.4. ΓΡΑΦΟ-АНАЛИТИЧЕСКОЕ ПОСТРОЕНИЕ КЛАСТЕРНОГО ПОЛЯ И ОПРЕДЕЛЕНИЕ ГЕОМЕТРИЧЕСКОЙ ФОРМЫ КЛАСТЕРА Признаковое пространство задач кластеризации, имеющее два или три измерения, может быть представлено в виде изображения - плоскостного или объемного. Для практического использования результатов кластеризации полезно иметь аналитическое описание контуров каждого кластера, причем аппрокси- 69
мация контуров не должна быть излишне сложной. Желательно иметь кусочно-линейные функции границ кластеров для последующего их использования в содержательных моделях. Сходные задачи решаются в горной геометрии, где необходимо определение и аналитическое описание рудного тела для его дальнейшей отработки. Поскольку модели и алгоритмы описания контуров горных объектов разработаны наиболее детально, воспользуемся имеющимися наработками для кластерного анализа. В частности, приведем алгоритм В.А. Бук- ринского для построения изолиний для кластеров трехмерной задачи [25, с. 87] (рис. 14). Построение дискриминантных функций, получение изображений и их интерпретация в совокупности составляют большую часть задач кластеризации. Методы построения изолиний границ кластеров являются специальными задачами горной геометрии, подробно описанными в [25, с. 65-119]. Наиболее важным отличием графических методов кластеризации от методов горной геометрии является признание допустимым использование математических методов обработки эмпирической информации. Если в горной геометрии допустимы практически все математические процедуры [25, с. 124], то в кластерном анализе аналогичные действия требуют специального доказательства. Это объясняется тем, что горная информация однородна по структуре и однозначно отображается на равномерное числовое поле, в то время как объектом изучения кластерной информации могут быть нечисловые данные, или условно изоморфные характеристики. В трехмерной горной геометрии существенное значение имеют сечения объемных фигур. Если пренебречь аналитической формой кластеров, то и здесь графическая форма способна подсказать многие решения. Предположим, нас интересует плотность расположения объектов в кластере, имеющем сложную конфигурацию, или свойства кластеров в узловых точках. Для этого по известным методикам строятся сечения кластерного поля на разных «глубинах» одной из осей координат. При этом важно учитывать еще одно отличие горной геометрии от кластерного анализа. Если в горном деле максимальная размерность задач равна трем, то в кластерном анализе размерность не ограничена. А это значит, что при изучении кластерных матриц высокой размерности невозможно представить заранее (до упрощения) схему расположения объектов внутри кластера. 70
Исходные данные 2 Разделение исходной области с помощью инвариантных линий Преобразование координат Τ 5 Определение координат вершин элементарных треугольников Τ 6 Определение координат изолиний в пределах элементарного треугольника 9 Упорядочение массива звеньев, заканчивающихся на границе Τ 10 Упорядочение массива звеньев изолиний Аналитическая аппроксимация изолиний Τ 12 Линейно-круговая инлерполяция сглаженных изолиний I 13 Формирование графокоманд для отрнсовки и оцифровки изолиний
Из создавшейся неопределенности существует два выхода: снижение размерности пространства исследования за счет введения интегрированных единиц измерения или проведение плоских сечений в кластерах сложной конфигурации. Второй способ нагляднее и проще, но допускает множество решений. Для того, чтобы определить узловые точки на поверхности кластеров, можно использовать метод проектирования поверхности на горизонтальную, вертикальную или наклонную плоскость [25, с. 791. В некоторых задачах кластерного анализа существует необходимость сравнения кластеров по форме, подобию, равенству площадей поверхностей и объемов. Конгруэнтных кластеров, полученных из результатов реальных наблюдений, быть не может. Поэтому для их сходства исследователь вынужден будет ввести какие-либо коэффициенты равнозначности или подобия. Кроме того, дискриминантные линии или поверхности могут быть несравнимыми. В этом случае вводится знак предпочтения (>-). К примеру, если одна поверхность описывается функцией/о (х, у), а другая -/\ (х, у), то вместо числового сравнения исследователь может сформулировать условия предпочтения. И выбор кластера будет носить субъективный характер. /о (χ, у) > /\(х,у). Итак, если кластер исследуется по его изображению, полученному при некоторых известных или неизвестных условиях наблюдения, то вся информация о кластере содержится в форме изображения, дискриминантных функциях, проекциях на оси координат и т. п. Класс условий наблюдения моделируется в точках изображения, форме, условиях изоморфизма. При этом первичная информация наблюдений за объектами кластеризации может быть и недоступна.
Глава 4 ДЕСЯТЬ МЕТОДОВ КПИСТЕПИЗПЦИИ 4.1. Кластеризация полным перебором объектов 4.2. Кластеризация методом перебора фиксированных расстояний от центров сфер (алгоритм «Форель») 4.3. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации 4.4. Кластеризация интегральным методом геометриэации информационного поля 4.5. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами 4.6. Метод постоянных кластеров и характеристик 4.7. Кластеризация с учетом критерия качества и последующим выбором лучшего варианта по этому критерию (алгоритм «Краб») 4.8. Кластеризация с помощью экспертных оценок 4.9. Кластеризация методом определения «ближайших соседей», включая иерархическое распределение объектов 4.10. Кластеризация методом «ветвей и границ»
Глава 4 ДЕСЯТЬ МЕТОДОВ КЛАСТЕРИЗАЦИИ Существует несколько десятков теоретических алгоритмов кластеризации информационного поля. Они применяются в различных науках, используют широкий спектр переменных величин, по-разному интерпретируют результаты разбиения. Этим и обусловлен их широкий разброс. Среди действующих компьютерных программ кластеризации автору приходилось сталкиваться с решением задач картографии, маркшейдерии, планирования горных работ. В то же время существуют такие науки, как экономика, управление, социология, демография, медицина, где практическое применение кластерного анализа было бы весьма продуктивным. И теоретические исследования это подтверждают. Но алгоритмов, способных стать компьютерными программами, в публикациях не встречается. Поэтому во многих случаях приходится предлагать какие-то паллиативные решения. Не все методы кластеризации, представленные в этом разделе, проработаны достаточно детально. В некоторых случаях для написания программ требуются усилия специалистов и поиск нетривиальных решений. Наиболее глубоко и детально разработан алгоритм комплексного метода геометризации и кластерного анализа, который может быть применен без дополнительных наработок в решении задач классификации социально-экономической информации. Изложенные автором алгоритмы не являются единственными решениями задач кластеризации указанными методами. В литературе встречается множество других алгоритмов. Заинтересованный читатель легко обнаружит их в списке литературы и обширном библиографическом обзоре, опубликованном в [1, 2]. Выбор алгоритма субъективен и во многом зависит от математической культуры, структуры информационного поля, технических и программных средств, имеющихся в распоряжении исследователя, и ряда других факторов. 4.1. КЛАСТЕРИЗАЦИЯ ПОЛНЫМ ПЕРЕБОРОМ ОБЪЕКТОВ Методически этот способ кластеризации наиболее прост, но довольно трудоемок. Применяется при небольшом числе объектов и обычно дает до 5-6 кластеров. Удобен для учебных целей из-за наглядности алгоритма. 75
Приведем количество возможных разбиений на кластеры при полном переборе объектов, рассчитанное в [1] (табл. 3). Таблица 3 Число кластеров η 1 2 3 4 5 6 7 8 Число объектов т 2 1 3 7 15 31 63 127 3 1 6 25 90 301 966 4 1 10 65 350 1701 5 1 15 140 1050 6 1 21 266 7 1 28 8 1 Выберем какую-либо целевую функцию, которая соответствует выбранному критерию внутригрупповой однородности объектов или каким-либо другим категориям. Составим исходную матрицу наблюдений над объектами, каждый элемент которой является интегральной характеристикой изучаемых свойств объекта. Очевидно, ие|1; т\, причем η<ζΝ. Поочередно задавая различные натуральные значения т, получим матрицу значений расстояний от произвольно выбранного объекта (его числовой характеристики). Очевидна закономерность: чем больше число кластеров, тем выше их однородность (рис. 15, 16). Но большое число кластеров трудно поддается анализу, интерпретации и последующей обработке. Поэтому, задавая априори количество групп - кластеров, следует ограничить себя максимально обозримым числом - не более семи-десяти кластеров. Рассмотрим наглядный и часто встречающийся в практике случай двухкоординатного измерения расстояний между объектами, каждый из которых имеет координаты {х,;у,}. При полном переборе непреодолимые сложности составляют не только большой объем вычислений, но и невозможность интерпретации огромного количества вариантов класте- 76
о ° о ° о ° о ° Рис. 15. Равномерное распределение объектов в кластерном поле Здесь η = т, кластеры, состоящие из одного объекта, однородны, но этот тривиальный случай не представляет интереса для управления Рис. 16. Случай распределения неравномерного Здесь т = 8, η = 3. Однородность групп ниже, чем на рис, 15, Межгрупповые расстояния достаточно велики для описания отличий кластеров друг от друга ризации, многие из которых не имеют практического смысла, совпадают друг с другом или не удовлетворяют каким-либо формальным критериям кластеризации. Поэтому полный перебор должен сопровождаться алгоритмом исключения ненужных вычислительных процедур, изъятия из рассмотрения большого числа вариантов группировки, не удовлетворяющих целям исследования. Для использования метода полного перебора и сокращения вычислений используются алгоритмы динамического программирования, описанные в [2, 5] и других работах. 4.2. КЛА СТЕР ИЗ А ЦИЯ МЕТОДОМ ПЕРЕБОРА ФИКСИРОВАННЫХ РАССТОЯНИЙ ОТ ЦЕНТРОВ СФЕР (АЛГОРИТМ «ФОРЕЛЬ») Существует несколько алгоритмов «Форель», получивших распространение благодаря хорошей программируемости и простоте интерпретации результатов. Опишем последовательность действий, общих для большинства известных процедур алгоритма «Форель». 1-й шаг. Случайно-интуитивным способом выбирается точка (объект классификации) в некотором метрическом пространстве. 2-й шаг. Вычисляются расстояния от выбранной точки до всех остальных объектов, затем эти расстояния заносятся в матрицу в упорядоченном виде. Полученная матрица нужна только для установления фиксированного радиуса сферы, являющейся границей кластера. 77
3-й шаг. Радиус сферы выбирается произвольно. При выборе радиуса удобно придерживаться принципа попадания в сферу определенного количества объектов, вычисленных в предыдущей итерации. К примеру, это может быть одна треть от общего числа объектов. 4-й шаг. Имеем центр сферы \х,]к) и η - радиус метрического пространства, постоянный для всего цикла решения задачи кластеризации. Вообще говоря, понятие «сфера метрического пространства» условно и применимо для случая трехфазного пространства. В других случаях кластер может быть и кругом, и вектором (отрезком), и л-мерной физической конструкцией. 5-й шаг. Все объекты, попавшие в построенную сферу, становятся элементами кластера. Далее выбирается какой-либо новый элемент из сферы, который становится центром (х;2 *) новой сферы того же радиуса (п). 6-й шаг. Для выбора координат нового центра (*,"*) предпочтительно иметь какой-либо формальный критерий. Одним из логичных критериев может быть минимум расстояния от выбранного объекта до оболочки сферы (рис. 17). d\MN\ = "Л*™ ~хпУ + (Уп, -УпУ -> m'n ■ 7-й шаг. Вновь построенная сфера включает в себя как объекты из первой сферы (χυ); г\), так и новые. Старые объекты исключаются из рассмотрения, затем процедура построения сфер постоянного радиуса повторяется до тех пор, пока в сферу не попадет ни один новый объект. Это произойдет обязательно, потому что или в кластер войдут все рассматриваемые объекты, или расстояние между какими-либо объектами окажется больше радиуса сферы. ► Рис. 17. Выбор нового центра при класте- х ризации в двумерном пространстве 78
Рис. 18. Построение кластерного метрического пространства алгоритмом «Форель» 8-й шаг. Кластером в этом алгоритме будут называться все объекты, которые вошли хотя бы в одну из построенных сфер (рис. 18). Очевидно, независимо от количества попаданий объекта в разные сферы в кластере он учитывается только один раз. В алгоритме «Форель» качество классификации во многом зависит от рациональности выбора объектов - центров сфер и радиуса поиска. Если фазовое пространство метрики имеет три, два или одно измерение, то оценить исходные данные алгоритма можно визуально, а в случае неудачи изменить их. В многомерном пространстве исходные параметры выбираются вслепую, и при неудачах приходится рассматривать все новые и новые варианты, количество которых может быть весьма значительно. В том случае, когда кластеры содержат большое количество объектов, весьма проблематично подобрать радиус сферы таким образом, чтобы в него не вошло ни одного объекта, кроме центра сферы. Чтобы не затягивать процесс формирования кластера на тысячи итераций, рационально и разумно упростить критерий окончания кластеризации. Вместо требования пустого множества последней сферы кластера можно ограничить количество объектов в последней сфере до какого-либо предела (предположим, 5 % от числа объектов в первой сфере). Исследователь может менять параметры алгоритма «Форель». В зависимости от «удачливости» выбора начальной точки - центра сферы конфигурация кластера и число кластеров существенно меняются. Поэтому имеет смысл провести кластеризацию несколько раз, меняя начальную точку и сравнивая полученные варианты. В том случае, если исследователя не удовлетворяет количество объектов, вошедших в кластер, или число сфер, то для измерения этих параметров можно варьировать зна- 79
чения радиуса сферы. Очевидно, увеличение радиуса приведет к расширению состава кластера, и наоборот. Для удобства выбора центров сфер и точек попадания в кластер можно построить «дерево расстояний» с фиксированными координатами объектов. Расстояния в этом случае объединяются в общую матрицу. Алгоритм «Форель» имеет существенные недостатки. В нем отсутствуют автоматические критерии качества кластеризации, поскольку модель предусматривает окончание процедуры разбиения на группы объектов после первого нахождения пустого множества в построенной сфере. И только аналитическое рассмотрение вариантов разбиения способно дать окончательный ответ на возможные характеристики качества кластеризации. Кроме того, границы между кластерами могут не иметь явно выраженных функций «водораздела». Матрица расстояний между объектами, как правило, имеет равномерно распределенное поле значений (при достаточном количестве объектов), а это предполагает необходимость введения искусственных функций для изменения правил выбора граничных значений кластеров. Таких возможностей алгоритм «Форель» не имеет. В связи с этим он имеет ограниченные возможности для практического использования. 4.3. СФЕРИЧЕСКИЙ МЕТОД ДВУХСТУПЕНЧА ТОЙ КЛА СТЕРИЗАЦИИ С ВЫДЕЛЕНИЕМ ЯДРА (СГУЩЕНИЯ) ОБЪЕКТОВ КЛАССИФИКАЦИИ Этот метод разработан на основе алгоритма «Форель», модернизирован и улучшен, а также устраняет некоторые недостатки последнего. В нем используется сферический принцип построения кластеров, но алгоритм в сравнении с методом «Форель» более жесткий и предполагает минимальное вмешательство исследователя в классификацию на стадии вычисления и группировки кластеров. Заранее предполагается, что кластер будет иметь сферическую форму, причем множество объектов в сфере (гиперсфере) разделяется на ядро (наибольшее сгущение) и менее плотную часть. Естественно, это предположение, в основном, и ограничивает практическое использование сферического метода. Логическая модель кластеризации сферическим методом состоит из следующих блоков. 80
1-й блок. Оценивается интервал, на котором расположены возможные значения диаметра сферы. Этот интервал разделяется на участки, и последовательно выбираются различные значения диаметра, наиболее удачный из которых фиксируется при первой итерации. 2-й блок. Зафиксировав значение диаметра сферы, радиусом, равным четверти выбранного ранее диаметра, и с центром в ранее выбранной точке описывается вспомогательная внутренняя сфера, площадь которой составляет не более 25 % от площади большой сферы (рис. 19). 3-й блок. Все объекты, попавшие во внутреннюю область малой сферы, записываются в отдельную матрицу и считаются ядром кластера (сгущением) (см. рис. 19). 4-й блок. Сам кластер является также сферой (гиперсферой), радиус которой равен диаметру сферы сгущения (ядро кластера). Все объекты, расположенные во внутренней области большой сферы, и являются кластером (см. рис. 19). 5-й блок. В случае ненасыщенного кластера возможно объединение сфер при условии, если расстояние между объектами не превышает диаметра большей сферы. 6-й блок. Полученную матрицу разбиения исходного множества на кластеры оценивают с содержательных позиций. В случае неудовлетворительных результатов имеется возможность: а) изменения диаметра начальной сферы и пересчета всей модели кластеризации; б) изменения соотношения диаметров сгущения и основной сферы; в) объединения нескольких сфер в общий кластер. Рис. 19. Возможные варианты расположения кластеров - сфер и сгущений объектов в этих сферах 81
Сферический метод кластеризации позволяет строго очертить границы между кластерами и однозначно присваивать каждому объекту принадлежность к какой-либо сфере. Но такие строгие границы оставляют достаточно много объектов (до 60 %) за пределами классифицированных множеств - сфер. Повышение качества кластеризации требует значительного уменьшения диаметра сфер, что приводит к увеличению кластеров, вплоть до числа, сопоставимого с числом объектов. Но в этом случае кластеризация не упрощает, а усложняет систему управления и теряет практический смысл. Поэтому метод сферической кластеризации применим для такого расположения множества объектов, при котором существуют плотные ядра с малыми расстояниями между элементами и значительные межгрупповые расстояния, позволяющие пренебречь теми объектами, которые неизбежно окажутся вне сформированных кластеров. Сферический метод предполагает равноудаленность объектов от зоны сгущения с постепенным разрежением по мере удаления от центра сферы или зоны ядра. Ослабление зоны влияния ядра кластера - сферы можно наблюдать в ряде экономических, социологических и некоторых технологических исследований. 4.4. КЛА СТЕРИЗА ЦИЯ ИНТЕГРАЛЬНЫМ МЕТОДОМ ГЕОМЕТРИЗАЦИИ ИНФОРМАЦИОННОГО ПОЛЯ Предлагаемый метод объединил возможности использования интегральных оценок многофакторных характеристик объектов и геометрический анализ трехмерного информационного поля. Метод применим в тех случаях, когда все характеристики объекта можно естественным образом разделить на пары составляющих информационных данных: точные и приближенные, числовые и логические, объективные и субъективные, или какие- либо другие содержательно разделяемые пары характеристик. Типичным примером возможного разделения характеристик является обработка результатов экспертного опроса, в частности, любого анкетирования респондентов. Экспертов (респондентов) опрашивают, как правило, по типовой анкете, в которой вопросы разделяются на две группы: точные, не допускающие двойного толкования (возраст, пол, гражданство, образование) и не требующие точных ответов (предпочтения, отношения 82
к чему-либо). Первый тип вопросов называется альтернативным, а второй - вопросами типа «меню», поскольку ответы на такие вопросы могут быть неоднозначными, т. е. эксперт может выбрать одновременно несколько ответов-подсказок или не выбрать ни одного. По каждому из названных типов вычисляется обобщенная интегральная оценка для каждой анкеты в отдельности. Альтернативные вопросы по существу являются объективными социально-демографическими или экономическими показателями. Используемая аксиоматика [6, с. 228-230] и не предусматривает введения общей социально-демографической характеристики респондента, поэтому для предлагаемой методики необходимо ввести специальный алгоритм корректного вычисления интегрального показателя для вопросов альтернативного типа. В этой связи каждая характеристика анализируется на ограниченном нормированном отрезке [0; 1]. Крайние точки соответствуют минимально и максимально возможным значениям рассматриваемого показателя. Этот отрезок разделяется на столько интервалов, сколько подсказок на изучаемый вопрос имеется в анкете, или на количество различных ответов. В обоих случаях искусственно создается метрическое нормированное пространство для каждого объективного вопроса анкеты. Более подробно методика шкалирования описана в работе [7, с. 51-56, с. 82-89]. Отдельную задачу приходится решать при выработке интегральной оценки по вопросам типа «меню» (экспертных оценок). В этом случае вычисления также проводятся в метрическом пространстве на отрезке [0; 1]. Нормирование производится на основе количества совпадений личностных оценок, а в качестве нормирующего множителя используется или число подсказок на вопросы типа «меню», или предельный разброс мнений. И в этом случае имеется большое разнообразие вариантов интегральных оценок [7, с. 56-62, с. 98-101]. Вообще разработка шкалы измерения экономических, социальных и демографических показателей, их нормирование и использование в практике управления - самостоятельная научно-практическая задача. Рассмотрим содержательную модель кластеризации интегральным методом геометризации информационного поля: 1) формирование информационного поля, разделение характеристик на две интегральные составляющие: объективные и субъективные, качественные и количественные и т. п.; 83
2) выбор меры сходства двух объектов, основных характеристик интегральных составляющих; 3) решение задачи о выборе системы координат информационного поля и условного объекта, принимаемого за начало координат Ао (0; 0). Эту операцию можно выполнить вычислением среднеарифметических координат объектов Ау -> А0 или назначением т. Ао в каком-либо интервале значимых показателей информационного поля; 4) вычисление абсолютных и нормированных расстояний между объектом Ао (центр координат) и всеми остальными объектами. Расчет интегральных показателей близости объектов; 5) распределение объектов по интервалам информационного поля в соответствии с интегральными характеристиками удаленности от объекта Ао по двум измерениям; 6) введение третьей характеристики информационного поля - количества объектов со сходными показателями, геометрически расположенных в окрестностях точек разбиения осей координат. К примеру, если рассматривается т. А\ (дст; ух\ ее окрестность (х, + Ах); (у, +Ау), а количество вошедших в эту окрестность объектов равно п\, то эту ситуацию можно интерпретировать как трехмерное распределение по базисным осям объективных и субъективных данных (распределение на плоскости), а число попаданий объектов в некоторую элементарную площадь придает этой конструкции выпуклость. Число «ι определяет «высоту» рассматриваемой конструкции и придает рельефное изображение двумерному информационному полю (рис. 20); 7) в соответствии с рельефом информационного поля определяются границы кластеров: «вершины» - наибольшие в некоторой окрестности значения ячеек поля - являются центрами сгущений, «впадины» - минимальные значения ячеек поля - могут быть интерпретированы как дискриминантные линии, очерчивающие замкнутый контур кластера (см. рис. 20); 8) таким образом происходит классификация объектов по уровню их однородности, выделение центров сгущения кластеров (ядер) в зависимости от евклидовой меры удаленности объектов от т. Ао по двум интегральным характеристикам одновременно. На этом заканчивается цикл модели, в котором происходит выделение системы однородных подмножеств (кластеров) графическими методами; 84
2,0 1.9 1,8 1,7 1,6 1.5 1,4 1,3 1,2 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Ao 3 7 I 3 1 11 1 1 3 2 3 1 1 2 5 3 4 2 5 2 3 3 8 11 71 1 1 5 4 3 1 2 2 1 2 1 1 5 4 23 7 3 1 1 1 1 3 1 1 8 9 12 15 1 1 4 1 5 4 12 17 8 2 3 2 4 1 1 3 1 2 5 3 1 II 3 4 3 2 6 5 3 1 1 3 1 1 3 4 7 1 2 2 1 2 1 2 2 1 1 2 1 6 1 1 5 1 1 1 1 1 3 1 1 1 1 1 2 1 1 16 3 8 1 4 1 1 4 1 1 1 5 2 1 1 7 4 1 1 1 2 5 2 1 1 1 8 13 11 4 3 1 1 4 2 1 1 8 1 3 2 2 1 2 3 1 1 5 3 10 4 4 1 1 1 1 1 2 1 1 1 9 8 17 12 19 9 16 9 4 5 3 1 2 1 1 2 1 7 1 7 1 1 1 27 23 18 1 4 5 3 1 1 1 9 8 1 6 2 7 6 1 1 4 25 2 2 1 1 1 9 1 1 1 1 31 17 4 1 2 2 2 1 3 1 4 2 1 5 1 1 1 2 1 2 0.03 0.09 0.15 0.21 0.27 0.33 0.39 0,45 0.51 0.57 0.6 Неформальные (субъективные) характеристики объектов, вычисленные по совпадениям параметров Рис. 20. Кластерное информационное поле одной тысячи объектов (заполненных анкет), имеющих две интегральные характеристики. Затемненные участки являются геометрическими кластерами 9) на заключительном этапе происходит идентификация геометрических объектов кластеров с соответствующими реальными экономическими, социальными, демографическими прототипами (возможно, экспертами или респондентами опросов); 10) по совпадающим характеристикам реальных объектов кластера составляется его обобщенный портрет. Эти совпадающие характеристики выделяются в особую группу и являются признаками, описывающими типовые и особенные черты кластеров. Рассматриваемые признаки необходимы для точного и прогнозируемого управления объектами кластерного поля; 11) описание в содержательных образах неформальной структуры рассматриваемых объектов, их числовых характеристик и типологии, возможных управленческих воздействий, ответной реакции на управление и другие виды прогнозов состояния системы. 85
8 качестве примера алгоритма классификации информационного поля комплексными методами геометризации и кластерного анализа на рис. 21 представлена укрупненная блок-схема трехмерного распределения информации, содержащейся в ответах на вопросы экспертной анкеты. Вообще же предлагаемый алгоритм пригоден для широкого круга практических задач информационного анализа. Содержание блоков, представленных на рис. 21: 1 - ввод установочных показателей, характеризующих параметры и содержание информационно-кластерного поля (количество объектов и их характеристик, граничные координаты объектов, координаты Ао); 2 - ввод и установка начальных значений координат кластерного поля и шага приращений по осям координат; 3 - разметка кластерного поля и формирование матрицы отдельных ячеек для суммирования попадающих в них объектов; 4 - вычисление дискриминантных функций, являющихся естественными границами кластерного поля; 5 - организация компьютерного счетчика циклов по установочным показателям блока 1; 6,7' - начало расчетов по очередному объекту и по очередной характеристике этого объекта; 8- разделение характеристик на формальные и неформальные; 9 - вычисление геометрических расстояний по формальным характеристикам; 10 - суммирование формальных расстояний между двумя объектами, один из которых является началом отсчета кластерной матрицы; 11, 12 - вычисление геометрических расстояний по совпадениям для неформальных характеристик и их суммирование; 13, 14, 15 - проверка расчетов на окончание циклов по характеристикам одного объекта; 16, 17 - такая же проверка на окончание циклов по рассматриваемым объектам; 18,19- окончательное формирование кластерной матрицы и ее печать в виде некоторого рельефа; 20 - проверка полученной матрицы на возможность геометрического разделения множества объектов, существование ясно выраженных дискриминантных линий; 86
ОЕНШ 7 6 3 15 >\ ш^ 18 >*- ^X1 13 17 14 A Ц™ >я Ν/ 3 ■ Нет 1 , 1 LL Нет Рис. 21. Блок-схема построения информационного поля трехмерного распределения информации 21 - соответствует ли число кластеров поставленным задачам; 22 - изменение масштаба расстояний, исключение из расчетов отдельных характеристик и другие корректировки начальных условий; 23 - окончание расчетов. Кластеризация методами геометризации предъявляет определенные требования к структуре информационного массива. Данные должны иметь два вида содержательной интерпретации, чтобы их можно было перенести на интегральные оценки объектов. Эта методика была разработана автором совместно с братом С.Х. Гитисом в 1980 г. для классификации трудового коллектива Алмалыкского горно-металлургического комбината (Узбекистан) по анкетам для массового опроса принимаемых на работу, увольняющихся и основных категорий работников. 87
Геометрические методы кластеризации удобны еще и тем, что позволяют «свернуть» многомерное пространство признаков в двумерное, причем варьирование включения исходных признаков в интегральные дает возможность исключения малозначимых характеристик и ранжирования оставшихся. Таким образом исследователь может определить уровень влияния каждого признака на поведение системы. Информационное поле характеристик объектов при обработке геометрическими методами трансформируется в некоторое рельефное координатное пространство (см. рис. 20). В этом координатном пространстве имеется некоторое количество сгущений объектов, интерпретируемых как «холмы», а в их основании находятся нулевые (или почти нулевые) интервалы матрицы, по которым и проходит граница образа. Линии, являющиеся границами кластеров (образов), называются дискриминантными. Они не должны пересекаться и являются замкнутыми (один из постулатов теории распознавания образов). В то же время кластер может иметь одну «вершину холма» и выпуклую дискриминантную линию, но, по желанию исследователя, можно объединить несколько кластеров в один, что влечет за собой усложнение рельефа, наличие в кластере нескольких «вершин» и сгущений, а также весьма сложную дискриминантную линию. В этом случае затруднена интерпретация полученных кластеров, а информационные признаки размыты. В отличие от технических систем в экономических, социальных и демографических системах формализация и автоматизация построения дискриминантных линий практически невозможны и решаются на уровне содержательных и интуитивных методов. Наиболее удобным для интерпретации является такой рельеф информационного поля, при котором можно выделить 5... 10 сгущений, имеющих отчетливый уровень превосходства над средними значениями количества объектов в пересечении осей координат. В тех случаях, когда рельеф поля имеет «равнинный» характер и описание контуров кластеров затруднено, существуют способы преобразования исходной матрицы с целью получения более четких границ между кластерами: • введение различных метрик для измерения расстояний между объектами; • выбор наиболее значимых или исключение малоинформативных факторов, а также использование различных комбинаций показателей для составления интегральных показателей; 88
• изменение масштаба геометрического образа кластерной матрицы с целью увеличения выпуклости рельефа; • изменение координат т. Л о. Особая задача заключается в том, чтобы выбрать рациональное количество исходных характеристик и сформировать набор значимых признаков. В некоторых случаях разные показатели, входящие в один интегральный признак, могут влиять на него с противоположными знаками, нивелировать характеристики и т. д. Поэтому, несмотря на физическую возможность учета практически неограниченного количества показателей в интегральном признаке, для лучшего разделения кластеров полезнее исключить из рассмотрения взаимозависимые факторы, малозначимые для исследования характеристики, а также такие показатели, которые присутствуют у большинства объектов рассматриваемого информационного поля. Нельзя не учитывать и то, что включение большого количества характеристик в интегральный признак приводит к неоднородности кластера, потому что объекты не могут быть сходными по большому количеству признаков. Очевидно, что увеличение количества признаков делает кластер менее однородным, а это, в свою очередь, способствует выравниванию рельефа геометрического поля функций расстояний между объектами и кластерами. При этом усложняется задача начертания дискриминантных линий и структуризации множества исходных объектов. Геометрический метод кластеризации удобен еще и тем, что не требует заранее информации о качественных признаках формируемых кластеров. Более того, до конца исследования может быть не известно даже количество кластеров. Все эти характеристики формируются только в результате исследования. Вмешиваясь в структуру исходных данных (метрики, масштаб, количество факторов) на этапе компьютерных расчетов, исследователь меняет рельеф геометрического числового поля от мелкосопчатого, включающего десятки кластеров (содержательных образов), не имеющих четких границ, до рельефа с одной вершиной и общим кластером, что не имеет практического смысла для решения задач управления. Вообще говоря, интерпретация любой из полученных структур может быть адекватна деятельности реальных объектов, но с разной степенью функциональной полезности. 89
Геометрическая кластеризация достаточно объективно разделяет интегральное информационное поле на ряд однородных подмножеств (кластеров). Исследовательской группе ученых Московского горного в период с 1975 по 1984 гг. пришлось проверять объективность геометрической кластеризации методами факторного анализа, а также с помощью изучения результатов управления с применением подобных методов. В обоих случаях сходимость была достаточно высокой, а содержательная часть классифицированных аргументов убедительна. При этом учитывалась роль целевых функций исследования, отраженная в наборе вопросов и подсказок анкет, по которым велась группировка респондентов. 4.5. МЕТОД ОПРЕДЕЛЕНИЯ ЦЕНТРА КЛАСТЕРА С ПОМОЩЬЮ ВЫЧИСЛЕНИЯ СРЕДНЕАРИФМЕТИЧЕСКИХ РАССТОЯНИЙ МЕЖДУ ОБЪЕКТАМИ Рассматриваемый метод предполагает наличие определенных сведений о содержании кластеров до начала вычислительных процедур. Естественно, априорные предположения могут быть достаточно приближенными. Во избежание ошибочных предположений исследователь может рассмотреть несколько вариантов начальной группировки объектов. Этот метод кластеризации не предполагает каких-либо ограничений геометрической формы кластера. Предлагаемый алгоритм кластеризации состоит из следующих блоков: 1-й шаг. Некоторой точке, принадлежащей множеству изучаемых объектов, присваивается геометрический признак центра координатной системы, причем первый объект в этой системе является началом отсчета т. А\(х\, yt; Z|) - для трехмерного пространства кластерного поля. 2-й шаг. Выбирается определенное число объектов (только количество) т, которые будут участвовать в расчетах условного центра кластера. 3-й шаг. В случае трехмерного пространства размещения объектов координаты условного центра кластера 90
л = т ιιι πι +Σ*< >ί+Σ^< ζι+Σζ- ι=Ι ' = 1 m m m где χ,; >■„■ ζ, - текущие координаты объектов. 4-й шаг. Далее необходимо задать какой-либо критерий, ограничивающий содержание кластера. В качестве примера ограничений может быть использовано предельное количество объектов в кластере или максимально допустимое расстояние от условного центра до наиболее удаленного объекта, или максимально возможный «водораздел» между наиболее близкими объектами. Исследователь, как правило, самостоятельно решает, какому критерию отдать предпочтение или выработать собственное ограничение на процесс формирования кластера. 5-й шаг. В зависимости от выбранного алгоритма определения критерия, необходимого для завершения формирования кластера, вычисляется максимально допустимое расстояние между объектами d*. Величина d* может задаваться исследователем, исходя из анализа содержательного образа кластера или из соображений насыщенности кластера. 6-й шаг. Методом перебора определяется объект Ак, наиболее близкий к объекту Лц. Далее проверяется выполнение неравенства |д, -A^<d* и, в случае безусловного выполнения этого неравенства, объект Ак заносится в матрицу данного кластера. Из дальнейшего рассмотрения объекта, исключается. 7-й шаг. В дальнейшем операции перебора повторяются, причем объект Ак становится центром рассматриваемой композиции. Итерации предыдущего блока выполняются до тех пор, пока не останется ни одного объекта вблизи любой из рассматриваемых точек, т. е. будет превышено пороговое значение d*. Варианты классификации предлагаемым методом определяются перебором значений d* и начального объекта Аа. При этом достаточно проблематично найти «водораздел» между кластерами из-за случайных помех на поле, в промежутках между сгустками объектов информации. Поскольку метод уравнивает значимость в замкнутом кластере сгущений и одиночных объектов, качество классификации случайно и требует 91
специального изучения. Кроме того, в ряде случаев возможно объединение всех объектов информационного поля в один-два кластера. И наоборот, жестко заданные граничные условия способны вытеснить за пределы кластеров значительное число объектов. В связи с последовательным включением объектов в кластеры разница между характеристиками начальных и конечных объектов может быть весьма существенной. Это может послужить одной из причин неоднородности кластеров. 4.6. МЕТОД ПОСТОЯННЫХ КЛАСТЕРОВ И ХАРАКТЕРИСТИК Этот метод удобен в тех случаях, когда классифицируемая система хорошо изучена, и у исследователя существует определенная ясность относительно наиболее значимых характеристик кластеров. При этом исследователь может установить рациональные границы количества кластеров и их характеристики, не производя сложных вычислений. Тогда распределение объектов по кластерам происходит в результате простых арифметических расчетов, без циклических повторений, а в результате одной-двух итераций. Алгоритм предлагаемого метода основан на содержательном анализе информационного поля до начала процедур кластеризации. На этом этапе исследователь должен определить рациональное число кластеров, исходя из физических возможностей оценки поля объектов, полезности для управления и возможности получения нетривиальных результатов. Введем обозначения: и - рациональное количество кластеров; Лц, (к, I, т) - центр «массы» г'-го кластера, имеющий координаты к, I, т. Рассмотрим алгоритм метода постоянных кластеров и их характеристик: 1-й шаг. Изучение содержательных характеристик информационного поля, анализ данных и определение количества кластеров, их основных характеристик - граничных условий. 2-й шаг. Распределение объектов по кластерам в зависимости от включения координат объекта в граничные условия кластера. 3-й шаг. Вычисление координат центров «массы» кластеров Ащ как средних арифметических координат объектов, входящих в рассматриваемый кластер. 92
4-й шаг. Замена априорных характеристик - границ кластеров на новые критерии кластеризации. 5-й шаг. Принимая точки Лщ,Лц2, ..., Лц, за центры «масс» кластеров (их количество сохранилось), начинаем формирование кластеров заново. При этом используем принцип наибольшей близости объекта к какому-либо центру кластера. 6-й шаг. Пересчитав все расстояния от объектов до каждого из центров и присоединив их к ближайшему, получим новое поле кластеров, при котором все объекты будут принадлежать какому-либо кластеру из определенных заранее. 7-й шаг. Для вновь сформированных кластеров производится перерасчет центров «массы», вычисляются типовые характеристики. Рассматриваемый метод позволяет включить все объекты в кластеры. Это серьезный недостаток метода, потому что содержательный анализ информационного поля классификации свидетельствует о существовании достаточно большого количества объектов, которые не могут быть без искажения свойств причислены ни к одному из существующих кластеров. Вообще говоря, этот недостаток можно устранить введением вспомогательных функций максимально допустимых расстояний от центра кластера до наиболее удаленного объекта. Эта функция не может быть постоянной величиной, а должна вычисляться для каждого кластера в зависимости от плотности ядра кластера, количества объектов, дисперсии характеристик и других признаков. Впрочем, это отдельная научная задача. Вторым недостатком рассматриваемого метода является необходимость предварительного определения количества кластеров и их типовых характеристик. Класс подобных задач чрезвычайно узок и, скорее всего, может быть вторым этапом классификации. То есть вначале каким-либо методом классификация уже проведена, а предлагаемый метод используется для подтверждения или опровержения полученных результатов. Ограниченный объем вычислений и простота логических процедур позволяют менять количество кластеров при решении одной задачи и выбирать наиболее удобный для интерпретации вариант классификации. 93
4.7. КЛАСТЕРИЗАЦИЯ С УЧЕТОМ КРИТЕРИЯ К А ЧЕСТВА И ПОСЛЕДУЮЩИМ ВЫБОРОМ ЛУЧШЕГО ВАРИАНТА ПО ЭТОМУ КРИТЕРИЮ (АЛГОРИТМ «КРАБ») В алгоритме «Краб» предусмотрена процедура фильтрации при заданной целевой функции отбора лучшего варианта. Оптимальный набор кластеров имеет жесткую, единственно возможную форму поля, причем контуры отдельных кластеров необязательно должны иметь сферическую оболочку. Привлекательность алгоритма «Краб» заключается в возможности реализации поставленных целей кластеризации. При этом цели формулируются как некоторые формализованные критерии, которые содержатся в формулировке задач классификации. Возможные цели группировки рассмотрены в [2, 3]. В результате использования целевых функций удается ограничить количество рассматриваемых вариантов кластеризации до числа, определяемого целевыми функциями. Алгоритмом предусматривается формулировка суперцели, композиционно включающей в себя определенное число целевых функций. В этом случае результатом классификации будет единственный, наилучший вариант распределения объектов по кластерам. Введем обозначения: Μ = 2_.m ~~ суммарное количество объектов, рассматриваемых в условиях данной задачи классификации; η - количество кластеров, полученных в результате классификации объектов α, β, γ, ψ; F- критерий оптимальности классификации, причем FmM - суперцель. Рассмотрим последовательность процедур алгоритма «Краб»: 1-й шаг. Построение информационного поля m - объектов кластеризации, вычисление характеристик объектов и евклидовых расстояний между ними. 2-й шаг. Формирование матрицы минимальных расстояний между объектами. Размерность симметричной матрицы (т- 1). 3-й шаг. Построение контура минимальных расстояний между объектами и нанесение граничной дискриминантной линии на кластерное поле. Проверка замкнутости граничной линии. 4-й шаг. Разделение информационного массива на возможные кластеры, количество которых находится на отрезке [ 1; т - 1 ]. 5-й шаг. Сравнение качества кластеризации по заданным критериям F. Формирование информационных массивов кластеров и значений F. 94
6-й шаг. Фильтрация вариантов кластеризации по локальным критериям F(zi); F(z2); F(z{), ..., F(zk), а также по комплексным критериям F(zu z2) и т. д. 7-й шаг. Определение наилучшего варианта кластеризации по критерию суперцели Ftaax. 8-й шаг. Описание характеристик объектов, содержащихся в кластерах при наилучшем варианте Ftaax или соответствующих локальным критериям оптимальной кластеризации. В результате вычислительных процедур алгоритма «Краб» исходные объекты распределяются по кластерам достаточно простым способом и соответствуют сформулированным критериям оптимальности разбиения. Но, несмотря на простоту вычислительных процедур, количество вариантов кластеризации чрезвычайно велико (c^_,). Кроме того, при расчете каждого варианта приходится рассматривать множество значений расстояний между объектами внутри кластера для расчета критериев F. Поэтому исследователи обычно вводят промежуточные ограничения для сокращения числа рассматриваемых вариантов. Так, в работе [9, с. 213-214] рекомендуется при классификации более 200 объектов использовать алгоритм «Форель», а затем, получив укрупненную матрицу разбиений, вводить в действие алгоритм «Краб», который будет рассматривать уже агрегированные объекты. Такой подход сокращает объем вычислений на 3-4 порядка. 4.8. КЛАСТЕРИЗАЦИЯ С ПОМОЩЬЮ ЭКСПЕРТНЫХ ОЦЕНОК Прямое использование коллективного опыта специалистов при классификации объектов нашло решение в задачах кластерного анализа с участием мнений экспертов. Этот метод применяется при начальном разделении множества объектов, когда ведется поиск принципов распределения элементов по кластерам, или в случае необходимости поиска нетривиальных, но предсказуемых решений, или в простейших формулировках исследования, при дефиците ресурсов для сбора и обработки материалов. Бывает также, что формальная кластеризация дает разбиение, малопригодное в реальных условиях управления. Экспертные оценки при кластеризации применяются в чистом виде или в комбинации с формальными процедурами, 95
обеспечивая последним содержательный контроль за результатами классификации и способствуя углубленному пониманию постановочных задач. Таким образом, применение экспертных оценок в задачах кластеризации повышает эффективность работы в отношении как качества классификации, так и упрощения вычислительных процедур. С помощью экспертных оценок возможно решение следующих задач кластерного анализа: • установление границ кластеров и определение дискри- минантных функций; • поименное отнесение каждого объекта к определенному кластеру в соответствии с субъективным мнением экспертов; • целевой отбор признаков (характеристик) для формирования кластеров и последующего изучения пространства объектов или придания признакам «весовых» оценок; • разработка правил коллективной выработки функций формирования кластеров, установка формальных процедур классификации. На рис. 22 представлен стандартный алгоритм разделения множества объектов с использованием экспертных оценок. На этапе предварительного отбора параметров экспертиза необходима для того, чтобы какая-либо характеристика не оказалась неучтенной. На этом этапе эксперт достигает полноты учета характеристик за счет понимания содержания исследования с одновременным использованием фактографического материала кластерной матрицы. При этом эксперты, как правило, игнорируют формализованные правила выбора признаков, а придают решающее значение опыту и интуиции. Очевидно, руководитель исследования имеет возможность сделать поправку на компетентность эксперта в рассматриваемом вопросе. Таким образом, коллективное решение по значимости /-го параметра кластерной модели принимает вид зависимости: ^(*,) = λ,/,(*ι)Ολ2/2(χ2)Ολ3/3(χ3)0-λι,/„(χ„), где F - алгоритм принятия коллективного решения; и - номер эксперта; λ„ - коэффициент компетентности и-го эксперта по /-му вопросу; О - композиция функции/ι,/2, ...,/„. 96
Предварительное разделение объектов на кластеры с помощью экспертов Корректировка работы экспертов методом Дельфи н уточнение характеристик Определение характеристик кластеров и принципов разделения Уточнение границ кластеров и перераспределение объектов формальными методами кластерного анализа Интерпретация результатов Нет Продолжение содержательного этапа исследования Рис. 22. Схема кластеризации с использованием экспертов и обратной связью Практически в задачах кластерного анализа компетентность экспертов измеряется как отклонение заявленных ими образов от установившихся и обоснованных кластеров. При этом разница в границах эталонов и предложенных экспертами образов измеряется в относительных величинах: λ - \mjn-m:j\ + \ где rrijn - количество объектов в у'-м кластере по мнению и-го эксперта; т7 - количество объектов в эталонному'-м кластере. Компетентность экспертов может быть вычислена как метрическая мера вероятности ошибки распознавания уже классифицированных объектов. Исследователем устанавливаются границы допустимых погрешностей экспертов, причем далеко уклонившиеся от нормы эксперты признаются нерелевантными источниками информации, использование мнений которых неэффективно. 97
Экспертами можно назвать и тех практических работников, которые в повседневной деятельности решают задачу субъективного отнесения нового неопознанного объекта к какому- либо определенному кластеру, имеющему определенные свойства. Эксперты формулируют на качественном уровне правила разделения. Работа экспертов по классификации объектов будет более эффективной, если ее совместить с их непрерывным обучением с помощью ознакомления с информацией о постоянно меняющихся правилах и признаках разделения, высказываниями других экспертов, принадлежностью респондентов или признаков к различным кластерам. Сформулированные выше условия приводят к выводу о целесообразности использования возможностей экспертного опроса итерационными алгоритмами метода Дельфи. Компетентность группы экспертов на каждой итерации в этом случае определяется плотностью распределения элементов анализируемого множества или компактностью полученных групп с последующим их содержательным анализом на основе интерпретации характеристик разделенных объектов. Наряду с компетентностью эксперта в ряде задач рассматривается компетентность правила распределения, определенного во всем пространстве признаков. В литературе [9, 16] описан алгоритм априорного задания областей компетентности. Этот довольно банальный подход не требует отдельного описания и может быть рассмотрен как частный случай коллективного распознавания. Когда же удается найти закономерности в подборе объектов и решениях экспертов в определенных стандартных ситуациях, представляет интерес обобщение решений и переход к «компетентным правилам распознавания», и таким образом перейти к разработке методики классификации для повторяющихся ситуаций и массивов данных. Отметим, что качество классификации методами коллективного распознавания зависит, в основном, от правильности организации обратной связи, т. е. «обучения» экспертов. Необходимое условие, которое ставится перед группой экспертов, заключается в том, что объекты должны быть объективно разделяемы, а кластеры компактны. 98
4.9. КЛАСТЕРИЗАЦИЯ МЕТОДОМ ОПРЕДЕЛЕНИЯ «БЛИЖАЙШИХ СОСЕДЕЙ», ВКЛЮЧАЯ ИЕРАРХИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ОБЪЕКТОВ Этот универсальный метод классификации может использовать критерий близости объектов в метрической системе мер, или критерий подобия объектов (предложен профессором Шеффилдского университета Питером Уиллетом). Исходные данные об элементах рассматриваемого множества должны быть представлены в матричной форме. Это может быть матрица объективных числовых показателей или матрица субъективных предпочтений (экспертиза). Обязательной характеристикой исходных данных должна быть возможность их сравнения для определения иерархических уровней. Метод «ближайших соседей» основан на иерархической аг- ломеративной модели обработки матрицы, содержащей данные обо всех парах объектов классификации, расстояниях между ними или коэффициентах подобия. Таким образом возможна классификация исходного множества малыми кластерами с очень близкими характеристиками. В дальнейшем, постепенно увеличивая допустимые расстояния между объектами, получим ряд концентрических конфигураций кластеров (один внутри другого). Естественно, с увеличением радиусов кластеров сходство будет уменьшаться, а количество объектов в каждом кластере увеличиваться. Метод «ближайших соседей» ставит задачу выбора первого объекта классификации, которая в предыдущих методах решалась случайным образом. В предлагаемой постановке подобный подход не может быть реализован, потому что содержание классификации зависит от того, какой элемент будет назван первым. В связи с этим предлагается до начала кластеризации сформулировать критерий значимости характеристик объектов и в соответствии с этим критерием выбрать первый объект. Очевидно, при жестких граничных условиях первоначально каждый объект образует единственный собственный кластер, куда другие объекты не могут входить, затем постепенно кластер включает в себя и другие объекты из наиболее близких по схожести или подобию. Это включение происходит путем парных сравнений. Рассмотрим укрупненный алгоритм разделения исходного множества объектов на кластеры методом определения «ближайших соседей» с учетом иерархических закономерностей. 99
1-й шаг. Формулировка содержательного критерия с целью определения значимости объектов кластеризации. 2-й шаг. Поиск наиболее значимого объекта классификации (otmax) в процедурах числовой оптимизации или нечисловых предпочтений. 3-й шаг. Определение «ближайшего соседа» (β,) к объекту атах в соответствии с функциями расстояний (сходства или подобия). 4-й шаг. Исключение объекта β, из исходного множества и присоединение его к кластеру а^ах- 5-й шаг. Проверка функции близости объектов атах и β, по критерию max допустимого внутрикластерного расстояния (d* < d(amax;Pi))- 6-й шаг. (/ = i + 1 < /Инач). 7-й шаг. Повторение процедур (3-6) до полного перебора всех пар «соседей» объектов исходного (начального) множества С Объектом атах· 8-й шаг. В оставшемся после исключения объектов, вошедших в множество атах, множестве объектов ведется поиск нового наиболее значимого объекта и наименование его атах. 9-й шаг. Повторение процедур (3-8) до выполнения условий окончания классификации. Такими условиями могут быть оптимальное количество кластеров, ограничения по межгрупповым расстояниям, ограничения по количеству оставшихся вне кластеров объектов или какие-либо другие условия. Отметим, что алгоритм кластеризации методом «ближайшего соседа» по эффективности не уступает более сложным методам, а по доступности расчетов превосходит их. Количество арифметических процедур сравнения составляет не менее >инач(»/цач - 1): 2 итераций. Современная вычислительная техника делает эти расчеты доступными для любых пользователей. К ограничениям метода можно отнести требование минимальной изменчивости во времени исходного множества объектов. Поэтому динамично развивающиеся системы не могут быть объективно классифицированы методом «ближайшего соседа». В иерархической системе, которая должна быть разделена на условно однородные группы объектов, выделяется или один признак, или группа признаков, определяющая значимость объектов. Таким образом выстраивается цепочка ранжированных объектов, пригодных для последующей кластеризации. Если 100
взять за основу объединения в кластеры процедуру какой-либо композиции рангов исходных объектов, то и сами кластеры могут быть также ранжированы. В алгоритме «ближайшего соседа» наблюдается закономерность: рост ранга кластера снижает степень подобия объектов в границе этого кластера. При этом наблюдается противоречие: более значимые кластеры, содержащие большое количество объектов и слабую связь между объектами (неоднородность, низкий уровень подобия), дают размытую картину кластеризации, использовать которую в прогнозных оценках или оптимизационных моделях некорректно. А мелкие, малозначимые кластеры, хоть и обладают высокой однородностью объектов, не имеют практической значимости из-за неэффективности анализа и неалгоритмичности поиска нужных кластеров. У метода «ближайших соседей» существуют определенные погрешности и ограничения, без учета которых классификация может быть некорректной. Сравнивая какую-либо классификацию, в которой учтены все элементы матриц сходства или подобия, с ограниченным числом «ближайших соседей», можно заметить, что эти разбиения скорее всего не будут совпадать. И качество окажется выше в первом случае. Тем не менее «ближайшие соседи» и полные классификации имеют большую вероятность совпадения или подобия при низких значениях иерархии кластеров. Однако использовать подобные результаты классификации следует осторожно из-за возможной тривиальности результатов исследования и очевидности без всяких кластерных расчетов разбиения объектов на группы (кластеры). Метод «ближайших соседей» предусматривает последовательную сортировку объектов исследования (элементов классифицируемого множества). Таким образом, выстроив иерархическую последовательность кластеров, можно определить, какой минимально допустимый уровень сходства объекта и кластера достаточен для получения приемлемого уровня их объединения. Естественно, все коэффициенты сходства или подобия должны быть определены заранее и занесены в матрицу. По этим коэффициентам выполняется идентификация априорных совокупностей (подмножеств) с «ближайшими соседями». Алгоритмом предусматривается, что все значения коэффициентов (элементов матрицы) после идентификации и включения в кластерную модель должны быть исключены из дальнейшего рассмотрения. 101
4.10. КЛАСТЕРИЗАЦИЯ МЕТОДОМ «ВЕТВЕЙ И ГРАНИЦ» В методе «ветвей и границ» используется в качестве базового разбиения множества некое «частное решение». Это может быть эвристическое распределение, или решение задачи классификации на основе предыдущего опыта, или распределение по упрощенному алгоритму, или распределение по одному- двум параметрам. Методом предусмотрено включение новых объектов в кластеры, и эта процедура, естественно, изменяет их границы. При этом граница вычисляется как внутригрупповая сумма квадратов расстояний в кластерах. Контуры границ, описываемые дискриминантными линиями, являются предметами исследования. Любое добавление объектов в «частное решение» увеличивает внутригрупповую сумму расстояний, что, в свою очередь, позволяет сформулировать целевую функцию минимизации. Назовем начальную матрицу объектов (до классификации) Ф(, а в дальнейшем по мере разделения этих объектов и дополнения кластеров новыми объектами - символами Ф2,Фз,--,Ф„ · Для описания первой границы кластера предположим, что в первой итерации множество Ф, разбивается на подмножества К\, К2,...,Кт, которые образуют т кластеров. Распределение характеристик по кластерам определяется набором векторов, имеющих координатами некоторые арифметические и логические композиции показателей объектов или какие-либо данные о кластерах. Распределение векторных характеристик кластеров и дает «частное решение» классификации. Нижняя граница кластера после любого дополнения меняется и может быть рас- п Рис. 23. Иллюстрация дополнения «частного решения» новыми объектами и последующее изменение границ кластеров 102
считана путем изменения координат вектора исходного множества плюс линейное приращение дополнений. Ф2 = Ф, + min/(x,K, + х2К2 + ... + хтКт), где х],х2,...,хт определяется как комбинация элементов приращения к соответствующим кластерам. Обобщенную формулу поиска новых границ после расширения кластеров следует расшифровать и довести до алгоритма вычислений. Сделаем это без излишней детализации понятий, легко описываемых специалистами по кластерному анализу. 1-й шаг. Изучение содержательных характеристик информационного поля, анализ данных и определение рационального количества кластеров. 2-й шаг. Зная начальную кластеризацию, определим значения целевых функций. В случае неопределенности (неизвестности того, какой может быть начальная кластеризация) целевая функция берется равной бесконечно большой величине в системе анализируемой матрицы. Это известный прием в компьютерном моделировании, который не нуждается в подробном описании. 3-й шаг. В исходной кластерной матрице, с определенными целевыми функциями, зафиксируем базовое «частное решение» (Φι). Добавим новый объект (дс,), не принадлежащий Ф,. 4-й шаг. Изменив границы кластеров в результате интервенции х{, можно измерить влияние этой процедуры на систему Ф,. Если сумма внутригрупповых расстояний сохранилась прежней или уменьшилась, то трансформация Ф( дала положительные результаты, в противоположном случае дополнение может быть признано неудачным. Здесь рассмотрен частный случай целевой функции, а при других определениях целей кластеризации алгоритм примет иной вид. В соответствии с приведенным алгоритмом оценки полезности перераспределения объектов в исходной матрице Ф, необходимо проводить указанную процедуру и оценку полезности по каждому новому объекту. Пример. Задано множество из семи объектов (рис. 24). Предварительно объекты разделены на два кластера: А', е [х,; х2; *,; *,, } и А, е {.г,; х6; χΊ \. Требуется оценить перераспределение А. е \xi; хА; хь; х7 \. 103
o*7<2;3) Рис. 24. Графически заданное условие примера О*50:2) о *б(2: 2) Вычислим внутригрупповую сумму квадратов обоих кластеров: j:j(0;1) ά;(ΣΚ[ + ΣΚ1) = {\ + Ι + 2 + 2 + Ι + l):4 + дс,(0;0) дс3(1;0) / ч ... , о О + \\ + 2 + \):3 = 3,33 2 3 <^(ςΌ=2,67. ι Но в этом случае за пределами кластера £3 оказываются объекты {дс2;х3;х6}. Чтобы убедиться в нерациональности перераспределения, достаточно рассмотреть дополнительный кластер, состоящий из одного объекта (лучшее решение). Выберем ближайший объект к Кг. Им оказался объект хг. Таким образом, ^з(У]^з + *2)=3,5. Так как 3,5 > 3,3, перераспределение может только увеличить квадрат суммы расстояний, что противоречит целевой функции кластеризации. Следовательно, начальное разбиение оказалось наиболее рациональным. Широко используемый в моделировании метод «ветвей и границ» при некоторой доработке используется и в кластерном анализе. При этом невозможно обойтись без интуитивного подхода при формировании начального разбиения исходного множества на кластеры. В процессе решения не все процедуры могут быть строго формализованы, особенно при генерации целевых функций и подзадач. Поэтому постановщик задачи кластеризации бывает вынужден использовать предыдущий содержательный опыт, эвристическую интуицию и определенные приближения в начале итераций. Рассмотрим общий алгоритм «ветвей и границ» применительно к задачам кластеризации (рис. 25). В нем используется фиксированное упорядочение наблюдений (характеристик) в каждой из подзадач. Число кластеров определяется постановщиком эксперимента (исследования). Оптимальные решения ищутся для каждого значения и, а возможно, и на более мелких этапах расчетов. Из алгоритма (см. рис. 25) следует, что общая задача имеет и оптимальных решений для подзадач. Эти оптимумы сравнива- 104
Формирование кластерного поля с постоянным числом незагруженных кластеров Присвоение порядковых номеров неэа!руженным кластерам Загрузка первого объекта в первый кластер ώόό έ>0 ООП Вариант решения кластерной задачи Вычисление значения целевой функции для данного варианта решения Рассмотрение результатов кластеризации для использования в задачах управления, прогнозирования, классификации Конец решения задач кластеризации Рис. 25. Укрупненный алгоритм кластеризации методом «ветвей и границ» 105
ются попарно и впоследствии могут объединяться. В том случае, если количество подзадач достаточно велико (более 6... 10), а число попарных вариантов сравнений исчисляется сотнями (после исключения тривиальных или повторяющихся вариантов), возможно объединение подзадач в новые расширенные кластеры. Решение новой кластерной задачи и установление измененных границ выполнить несложно, поскольку результаты оптимальных решений известны после первого этапа кластеризации. По аналогии с другими методами кластеризации качество разбиения определяется как близость суммы минимальных значений внутригрупповых расстояний в подзадачах с суммой внутригрупповых расстояний общей задачи. В силу объективных свойств суммы расстояний в локальных задачах и глобальной задачи они в ненулевом варианте совпадать не могут, но предпочтение отдается ближайшим числам. Эта близость может быть интерпретирована как одно из условий репрезентативности выборки наблюдений. Метод «ветвей и границ» имеет ряд ограничений для практического использования. Чтобы алгоритм автоматического присоединения к исходным кластерам работал однозначно, во- первых, нужно, чтобы эти кластеры имели четко различимые границы. И это требует предварительной проверки. Во-вторых, число кластеров должно быть ограничено (6...8, в особых случаях до 10). Иначе, несмотря на огромный объем расчетов, разбиение будет некорректным. Существует еще ограничение на количество измерений (наблюдений). Оно должно быть не более 120... 150. В случае несоблюдения этих ограничений получить оптимальный результат классификации будет практически невозможно.
Глава 5 ПРИЛОЖЕНИЯ КЛАСТЕРНОГО ОНООИЗО И ИНТЕРПРЕТАЦИЯ РЕЗНПЬТРТОВ 5.1. Содержательная основа кластеризации в экономических исследованиях 5.2. Научные и практические задачи, решаемые методами кластеризации 5.3. Определение качества кластеризации 5.4. Контроль за достоверностью информации и точностью выводов методами кластерного анализа. Поиск противоречий, нелогичностей и ошибок статистики 5.5. Цели интерпретации результатов кластеризации множества объектов 5.6. Методы интерпретации результатов кластеризации
Глава 5 ПРИЛОЖЕНИЯ КЛАСТЕРНОГО АНАЛИЗА И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТА ТОВ 5.1. СОДЕРЖАТЕЛЬНАЯ ОСНОВА КЛАСТЕРИЗАЦИИ В ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ Рассмотрение задач кластерного анализа в контексте вопросов эффективности горного производства связано, в первую очередь, с содержанием исследования и экономической подоплекой производственных процессов. Понимание сущности этих связей и обусловливает эффективность применения кластеризации. Понимание закономерностей развития сложной экономической системы требует изучения типологии ее элементов, их аналогов, находящихся вне изучаемой среды, а также однородности в содержательном смысле. При этом следует различать сходство объектов по внешним характеристикам, зачастую не имеющим решающего значения для управляемых процессов, и содержательную однородность, которая может иметь несущественные по сути, но видимые при поверхностном рассмотрении различия. Содержательная постановка задач исследования и управления определяет методы формализации массивов информации об объектах изучения. В свою очередь, совокупность упорядоченных информационных массивов предполагает использовать узкий класс алгоритмов классификации (кластеризации) и моделей оптимизации и прогноза. Таким образом, нельзя приступить к формальной кластеризации без знания важнейших характеристик объектов изучения и каких-либо вариантов определения их сходства (подобия). Принципиальное значение имеет содержательная основа кластеризации на этапе интерпретации свойств, полученных в результате моделирования кластеров. Произвольная интепрета- ция, не учитывающая внутренних связей объектов и осмысления эмпирических данных, влечет за собой примитивную трактовку результатов моделирования реальной экономической системы. На рис. 26 укрупненно определены пять основных блоков последовательного анализа, имеющего содержательную основу. Содержательное изучение предмета исследования и среды, которая окружает объекты или взаимодействует с ними, влияет на все этапы кластеризации и находится во взаимосвязи с многими характеристиками кластеров. В экономике и социальных науках принято разделять характеристики на формальные и неформальные (см. глоссарий). Если некоторые специалисты вооб- 109
Содержательный анализ экономической системы и ее динамики Выбор объектов изучения и их характеристик Определение алгоритма классификации в соответствии с содержанием задач Кластеризация исходного множества объектов Ζ Интерпретация кластеров в характеристиках содержательного анализа Рис. 26. Схема классификации исходного множества объектов комплексными методами кластерного анализа в содержательных образах ще не делают различия между ними (Ю.Н. Толстова [19, с. 22], то это неправомерно упрощает сущность исследования. Действительно, кластеризация только по формальным (объективным, числовым, альтернативно-однозначным) признакам может оказаться малоэффективной для исследования или управления. В то же время неформальные (неточные, неоднозначные, субъективные) характеристики объектов, использующие функции предпочтений, способны наилучшим образом отображать в модели реальные экономические объекты. В задачах классификации принципиальное значение имеет выбор критерия однотипности рассматриваемых объектов. Многие исследователи считают, что совпадение объектов по максимальному числу признаков и является основным аргументом для утверждения об однотипности. Но с этим нельзя согласиться, потому что включение в кластерную матрицу всех характеристик, без предварительного содержательного анализа, чревато снижением ценности подобной классификации. Во- первых, часть характеристик окажется не связанной с содержанием изучаемых процессов и даст только «шумовой эффект». Во- вторых, определенное количество характеристик обычно находится в явной корреляционной зависимости, а это искажает объ- 110
ективную картину классификации. В-третьих, возможно такое взаимное влияние показателей кластерной матрицы, которое нивелирует их воздействие на изучаемый процесс. В-четвертых, каждая характеристика несет различную существенную нагрузку, и воспринимать их как равнозначные неправомерно. Конструктивный подход к кластеризации не может не учитывать и факты использования параметров, не поддающихся управлению, т. е. инвариантных в условиях решения поставленных задач. Дело специалиста - учитывать ли эти характеристики при кластеризации или исключить их. Но выделить их в отдельную группу полезно, чтобы не рассчитывать на возможность какого-либо вмешательства в моделируемые процессы. Конечно, это не исключает возможности использования неуправляемых или трудноуправляемых факторов для объяснения экономических или социальных явлений. Перед специалистом, разрабатывающим алгоритмы кластеризации, неизбежно встает задача соотношения и взаимоувязки формального аппарата решения, процедурной части и содержательной основы исследования. При этом подразумевается, что начальные представления о типах объектов, их параметрах, взаимном расположении на поле кластерной матрицы у исследователя имеются. Конечно, типология множества объектов может быть получена только в результате расчетов по алгоритмам кластерного анализа, но варианты, не имеющие содержательного объяснения, или являющиеся тривиальными, или бесполезными для управления, вполне определяемы на уровне опыта, здравого смысла, интуиции. Классификация объектов в экономическом анализе и социальных исследованиях требует содержательного изучения объектов, их типологии, связей с внешней средой еще и потому, что используемые методы кластеризации недостаточно учитывают динамику процессов, их интенсивность, степень воздействия на каждый объект или кластер. Очевидно, различные группы объектов не могут одинаково реагировать на внешние воздействия, в результате чего возможно перераспределение объектов между кластерами. Однако механизм изучения закономерностей такого перераспределения в классических алгоритмах кластерного анализа отсутствует. Содержательный анализ не может служить гарантией от ошибок классификации. Во избежание таких ошибок или для их минимизации полезно характеристики объектов определять в терминах наблюдаемых признаков. Для этого предусмотрена процедура идентификации признакового пространства кластер- 111
ной матрицы и рассматриваемых экономических и (или) социальных процессов и явлений. Такие соответствия могут проявляться в явном или неявном виде, характеристики могут быть независимыми или зависимыми (взаимосвязанными), стохастическими или детерминированными. Определение этих сторон изучения классифицируемых объектов также является предметом содержательного анализа. Один из самых эффективных и наглядных методов кластеризации - геометризация кластерной матрицы, предполагает деление всех характеристик объектов на две части. Конечно, это деление должно быть обусловлено объективными причинами и корректно выполнено. В случае с задачей классификации производственных объектов совершенно естественным представляется разделение на объективно-паспортные характеристики предприятия и программу деятельности, имеющую собственную историю развития и частично субъективный, случайный характер. 5.2. НА УЧНЫЕ И ПРА КТИЧЕСКИЕ ЗАДА ЧИ, РЕШАЕМЫЕ МЕТОДАМИ КЛАСТЕРИЗАЦИИ Успех любого дела сегодня зависит от прагматиков. Поэтому важно убедить их в практической значимости кластерного анализа в разнообразной человеческой деятельности. К сожалению, на эту тему мало публикаций [2, 9, 19], но исследования все- таки проводились, и поэтому можно рассчитывать на определенные сведения из диссертаций, отчетов и статей. Некоторые результаты были получены исследовательской группой Московского государственного горного университета (1979-1987 гг.). Рассмотрим задачи, решаемые методами кластерного анализа. Важнейшей задачей классификации, которая может быть решена методами кластерного анализа, является поиск подходов к новому проекту, возникшему в силу научной или производственной необходимости. Тот специалист, перед которым поставлена новая задача, некоторое время находится в растерянности из-за большого числа элементов неизвестности. При этом существует практический способ постепенного дешифрования отдельных характеристик неизвестного множества объектов. Сначала выбирается одно из направлений и ведется поиск аналогов сходного класса задач. Эти аналоги имеют характеристики, которые могут быть приняты в качестве первого приближения для распознавания некоторого параметра поставленной задачи. После выбора аналога появляется возможность классификации объектов по этому параметру. На следующей итерации 112
можно сравнивать обе классификации и уточнять значения параметров. Эту операцию можно выполнять для всех элементов признакового пространства или ограничиться наиболее существенными параметрами. Таким образом, неизвестная ранее задача перестает быть «черным ящиком» и обретает понятные специалисту очертания. Практическая информация об аналогах может быть найдена в публикациях, статистических отчетах, докладах и других источниках. Кстати, умение отнести неизвестное к какому-либо изученному классу не только позволяет осмысленно управлять процессом, но и избавляет от страха перед неизвестностью, свойственного необразованным людям. Наряду с задачей поиска подхода к новой сфере деятельности возникает ее логическое продолжение: обнаружение и выбор направления исследований. Для определения областей исследования можно использовать публикации в выбранном направлении и информационную модель Брэдфорда, где каждая публикация, изобретение, доклад, упоминание располагаются в некотором метрическом пространстве. При этом осями координат могут быть временные промежутки, научные и практические направления деятельности, а также другие метрические параметры. Расположив в геометрическом поле объекты (научно- технические публикации, изобретения, месторождения полезных ископаемых), исследователь получает наглядное изображение плотности их распределения и в зависимости от целевых установок может выбрать сферу деятельности: от никем не освоенных участков исследований до детально проработанных и насыщенных информацией интервалов. Кстати, таким же образом можно планировать развитие научных школ. Методами кластерного анализа решаются также задачи описания новых синтезированных объектов и понятий. Действительно, разделив множество неоднородных объектов на ряд условно однородных кластеров, можно предположить, что каждый кластер, объединивший в себе некоторое количество элементов, в свою очередь, может быть рассмотрен как новый сложный объект или новое понятие. Таким образом, исследователь получает новый объект или новое понятие для дальнейшего изучения. А их синтезированные характеристики образуют новое признаковое пространство. Полученный искусственным образом новый синтетический объект имеет право на самостоятельное существование и может использоваться в каче- 113
стве модели для конструирования реальных объектов. Что касается искусственно образованного понятия, то его дальнейшая судьба зависит от потребности в нем смежных наук. Не вызывает сомнения высокая практическая значимость алгоритмов идентификации реальных объектов и кластеров в задачах диагностики. Лучше всего эти задачи можно проиллюстрировать на примерах из медицинской диагностики. Предположим, группа врачей наблюдает некоторое множество пациентов (а\, аг, ..., а„), страдающих различными заболеваниями (Ь\, Ьг, ..., Ьк). Исследование ведется по строго формализованному, единому ряду проявлений, симптомов и паспортных данных (ci, с2, ..., с„,). Название заболевания и симптомы определяют признаковое пространство кластерного поля. Заполнив стандартную анкету симптомов, врач ставит диагноз пациенту, после чего заполняет стандартную матрицу кластерного анализа. Конечно, вместо абсолютных значений параметров используются относительные характеристики расстояний между объектами. В подобных задачах наиболее удобным оказывается алгоритм № 4 кластеризации комплексными интегральными методами геометризации информационного поля. Каждый пациент (больной) идентифицируется точкой информационного поля, а сгущения точек, ограниченные дискриминантными линиями, являются кластерами. После этого наступает очередь интерпретации кластеров как определенных заболеваний, исходя из внешних проявлений и паспортных данных пациентов. Несомненно, построенная кластерная модель медицинской диагностики требует определенного количества итераций для уточнения состава характеристик объектов, интервалов разбиения, функций расстояния, границ кластеров. Кроме того, уточнение диагностики будет проходить постоянно с помощью обратной связи между реальным объектом и кластерным полем (рис. 27). Кластерный алгоритм диагностики с последующим уточнением модели («распознавание с учителем») весьма распространен и в других сферах профессиональной деятельности. Это связано с высокой точностью модели, простотой интерпретации и наглядностью результатов. Методами кластерного анализа решаются задачи агрегирования экономических показателей, имеющих сходные проявления в производственных процессах. В результате агрегирования 114
формируются интегральные показатели, удобные в задачах управления, содержательная ценность которых проверяется методами факторного анализа. Для крупных организаций весьма актуальна задача оптимизации организационной структуры и ее кадрового содержания. Эта задача может быть сформулирована для вновь организованного предприятия, которое не имеет аналогов, или для традиционного предприятия. В первом случае кластерное поле строится на основе изучения производственной потребности и кадрового потенциала. Во втором случае имеется возможность подобрать аналог, разделить его на кластеры, а в дальнейшем уточнять содержание кластеров в соответствии с целями производства, ресурсами, перспективами развития. Американский исследователь И. Дж. Гуд [2, с. 70] считает, что знание принципов кластерного анализа помогает «пониманию и общению». В этом нет ничего удивительного, потому что структурированная модель предмета общения упрощает понимание эклектических, размытых, неклассифицированных объектов обсуждения. Опрос пациента по стандартизированной анкете Введение в модель основных паспортных характеристик пациента и симптомов болезни Расчет коэффициентов близости и подобия, определение принадлежности нового объекта к определенному классу Введение корректирующих значений в кластерную модель и уточнение характеристик ·<■ ->" Перераспределение объектов между кластерами Л- V Интерпретация характеристик класса(кластера)и формулировка диагноза по классовой принадлежности Уточнение диагноза по материалам дальнейших наблюдений, лабораторным анализам, результатам патологоанатомического исследования Рис. 27. Модель кластерной медицинской диагностики, использующей «распознавание с учителем» 115
Методами кластерного анализа можно убыстрить поиск деловой и научно-технический информации. Такие задачи целесообразно решать в тех случаях, когда большие объемы информации допускают многоступенчатую классификацию. По этому принципу построена международная Универсальная десятичная классификация (УДК), предназначенная для поиска любой содержательной информации в книгах, статьях, докладах. Информационный поиск осуществляется путем выделения максимально обобщенных кластеров, затем каждый кластер разбивается на некоторое число более мелких кластеров, которые занимают в информационной иерархии следующую ступень и имеют детальную проработку. Через две-три итерации необходимая информация, как правило, может быть найдена. Традиционно методы кластерного анализа используются в социологических исследованиях и задачах управления средними и крупными трудовыми коллективами. Действительно, исследование больших массивов неоднородных социальных объектов и управление формально структурированными трудовыми коллективами неэффективны из-за размытости границ, разделяющих классы, непредсказуемости их поведения, необъяснимости мотивации поступков. Несомненно, если возникает необходимость кем-то управлять, то неплохо бы детально разобраться: что за объект находится в управлении, каковы его характеристики и какой реакции следует ожидать на определенные воздействия. Поэтому первой задачей изучения социальных явлений следует признать разделение неоднородного множества на группу условно однородных подмножеств-кластеров. Далее следует задача определения общих и специфических характеристик кластеров и интерпретация вновь образованных понятий и объектов. По этим данным можно прогнозировать поведение экономических и социальных объектов с той или иной вероятностью, а в дальнейшем и планировать воздействия на управляемые объекты. Этот ряд задач более подробно разбирается в других разделах книги. 5.3. ОПРЕДЕЛЕНИЕ КАЧЕСТВА КЛАСТЕРИЗАЦИИ Как правило, кластеризация является частью более крупного исследования и не имеет собственных целей, независимых от общей логики исследования. Поэтому качество кластеризации определяется целевыми функциями общего исследования. К сожалению, целевые функции исследования в прямых зависимо
мостях не содержат указаний на оценку качества кластеризации. Чтобы определить качество, необходимо осмыслить содержание работы, ее зависимость от характеристик классификации, выполнить интерпретацию классов и описание их содержания, придерживаясь символики и терминологии исследования. Поскольку принципы классификации конкретных объектов содержат значительную долю субъективизма, возникает необходимость учета логики взаимодействия классов, которая определяется их характеристиками, плотностью объектов в кластере, расположением дискриминантных линий, «выпуклостью форм» кластеров, заполненностью поля. В связи с вышеизложенными соображениями сформулируем некоторые возможные критерии качества. А. Максимальная однородность кластеров Предположим, в результате кластеризации были получены и кластеров, каждый из которых определяется некоторым числом характеристик. При любых целях исследования важное значение имеет максимальное совпадение характеристик у каждого кластера в отдельности. Естественно, характеристики разных кластеров не должны друг друга нивелировать, поэтому каждому кластеру присваивается индивидуальный показатель интегральной оценки однородности характеристик. И уже эти показатели отдельных кластеров можно складывать, добиваясь их максимального значения для всего поля или минимального значения показателя расхождения характеристик. В. Максимальное несовпадение характеристик у разных кластеров Этот критерий качества дополняет предыдущий. Действительно, если каждый кластер должен быть максимально однородным, то между собой кластеры должны различаться. И чем меньше характеристик у них совпадает, тем полезнее классификация для любого исследования. Чем больше отличий у различных кластеров, тем отчетливее «водораздел» между ними. Высокая индивидуальная прорисованность, сопровождаемая определениями отличительных особенностей классов (кластеров), способствует повышению объективности принимаемых решений и наиболее точному представлению об управляемых объектах. 117
С. Максимум локальной плотности выявленных кластеров в признаковом пространстве Вполне логично утверждение о прямой зависимости между плотностью кластера и качеством классификации. Если объекты плотно располагаются около ядра кластера, то получившийся таким образом класс можно считать объективно цельным и однородным. Этот принцип справедлив практически в любых задачах. Для формального описания этого критерия качества проще использовать целевую функцию минимума расстояний от центра кластера до каждого объекта, входящего в этот кластер. РК] =Х^(0Ц|;х,)->тт. Проведя подобные расчеты для всех кластеров и просуммировав их, можно получить общую целевую функцию расстояний: η ρκι =Ypk' ->min. sum / ■ j D. Устойчивость классификации В общей постановке задач классификации проблема устойчивости, несомненно, определяет одну из сторон качества. В данном случае под устойчивостью понимается независимость классификации от внешних воздействий. По ходу исследования или специально для определения устойчивости возможно добавление отдельных признаков или их изъятие, изменение линейных масштабов кластерного поля, смещение осей координат или другие манипуляции. Если при этом не происходит существенного перераспределения объектов между кластерами, то подобную классификацию корректно называть устойчивой. Для определения устойчивости искусственно вводят новые характеристики, меняют масштабы и т. д. Сравнение вариантов кластерного поля и определяет показатели устойчивости. Е. Надежность классификации В общем ряду особое место занимают задачи большой размерности, в которых необходимо классифицировать значительное число объектов, причем процесс наблюдения идет не- 118
прерывно и продолжается после окончания процесса классификации. В подобных задачах, как правило, присутствует обратная связь от классифицируемых объектов к признаковому пространству («распознавание с учителем»). Здесь признак качества кластеризации определяется как процент попадания неопознанных объектов в один из определенных кластеров, расположенных в общем информационном поле. Исследователь может поставить граничное условие: например, если в кластеры попадает менее 70 % новых объектов, то такая классификация ненадежна. F. Минимум свободных объектов При кластеризации достаточного количества объектов (не менее 50) и количества кластеров более трех некоторое количество объектов не попадает ни в один кластер. Если это число велико (более 25 %), подобную классификацию нельзя назвать приемлемой. Но и среди рассматриваемых вариантов имеет смысл выделить те, в которых вне кластеров оказалось наименьшее число объектов. G. Соответствие количества кластеров заданному числу В задачах управления, связанных со сложными техническими системами, в некоторых случаях приходится пренебрегать аналитическими соображениями и выполнять такие условия моделирования, при которых параметры имеют строгие ограничения. В частности, условия моделирования накладывают ограничения на количество кластеров. К примеру, если техническая система в состоянии обработать не более семи кластеров, то при проектировании имеет смысл заложить такую целевую функцию классификации: количество кластеров должно быть равно семи. Это объясняется тем, что большее количество не примет техническая система, а уменьшение ведет к упрощению модели, вплоть до тривиальных результатов. Таким образом, может быть сформулирована целевая функция: подобрать такие характеристики объектов, интегральные показатели и масштаб, чтобы после решения задачи кластерного анализа были выделены семь кластеров. Н. Функция распределения характеристик, объектов и кластеров должна иметь нормальный вид Общий вид функции распределения объектов в кластере по существу интерпретируется как показатель закономерности и объективности классификации. Действительно, если наибольшее 119 Наблюдение №1 Наблюдение JfcN Выбор исходных параметров: количества наблюдений, шага измерений характеристик, границ параметров, связей, днекрнмннантных функций IE Комплекс формальных процедур кластеризации (см. раза. 2). Результат: получение системы кластеров с перечислением объектов и описанием их признаков Проверка на совпадение количества кластеров заданному числу (G) Изменение количества разбиений шкалы характеристик (признаков) н (или) волнчества объектов Проверка наполненности кластеров и их однородности (A.C.F) Корректировка масштаба, количества характеристик, граничных значений, днекрнмннантных функций Оценка количества объектов, оказавшихся вне системы кластеризации (F) Корректировка начальных параметров модели 1 Классификация корректна н пригодна для управления и исследований Рис. 28. Схема оценки качества кластеризации и управления распределением объектов по кластерам с помощью измерения исходных параметров данных и процедур 120
сгущение объектов с какой-либо стороны ограничивается «оврагом», т. е. полным отсутствием объектов, то закономерно предположить, что рассматриваемый кластер случаен и неустойчив. Не требует специальных доказательств утверждение о том, что оптимальным расположением объектов в кластере является их нормальное распределение. То же утверждение справедливо и для распределения самих кластеров и их характеристик. Целевая функция рационального распределения объектов в кластере может быть сформулирована как максимум коэффициента корреляции между реальной функцией распределения объектов и наиболее близкой к ней функцией нормального распределения. * * * Отметим, что качеством кластеризации можно управлять. Для этого разработан специальный алгоритм (рис. 28), который обеспечивает высокое качество классификации методами кластерного анализа в том случае, если обучающая последовательность вмещает в себя все разнообразие объектов и ситуаций исходного множества. С помощью этого алгоритма возможно достижение минимума вероятности ошибки распознавания, а в случае ее допущения предполагается исправление в циклическо-итеративном режиме. В содержательной постановке предлагаемый алгоритм отдает предпочтение экспертной оценке вариантов кластеризации. При этом обратная связь реализуется с помощью ознакомления экспертов с результатами расчетов (метод Дельфи) и внесения корректировки экспертами в блок /. Этот процесс повторяется до стадии получения удовлетворительных результатов. Таким образом происходит самообучение экспертов. 5.4. КОНТРОЛЬ ЗА "ДОСТОВЕРНОСТЬЮ ИНФОРМАЦИИ И ТОЧНОСТЬЮ ВЫВОДОВ МЕТОДАМИ КЛАСТЕРНОГО АНАЛИЗА. ПОИСК ПРОТИВОРЕЧИЙ, НЕЛОГИЧНОСТЕЙ И ОШИБОК СТА ТИСТИКИ Ошибки классификации имеют разную природу, могут быть случайными, закономерными, непредумышленными, происходящими от небрежности или от желания ввести в заблуждение. Столь разнообразные причины ошибок и неточностей затрудняют их поиск и определение логики происхождения. Специалисты знают, что ошибочные выводы из результатов 121
статистических исследований возникают не потому, что применяются неправильные вычислительные методы, а, в большинстве случаев, из-за некорректных рассуждений, ошибочной логики, нарушения последовательности хода рассуждений, неправомерной формулировки нулевой гипотезы, необоснованной интерпретации. Приведем условный пример из классификации угольных шахт. Предположим, каждая из двух шахт (А и Б) добывают стабильно ежемесячно по 1 млн τ углей сходных сортов. На этом основании примем нулевую гипотезу: А, Б относятся к одному классу шахт. Случайными отклонениями пренебрегаем, они в подобном примере не имеют существенного значения. Поскольку классификация преследует экономические цели, рассмотрим данные о прибыли за некоторый период, достаточный для утверждения о надежности тенденции. Шахта А имеет прибыль около 30 млн руб. в год, а шахта Б ежегодно терпит убытки в 10 млн руб. Очевидно, нулевая гипотеза о принадлежности А, Б к одному классу ошибочна. Фактические данные о прибыли недостаточно информативны и требуют дальнейшего рассмотрения признаков классификации. Отгрузка угля потребителям сопоставима, фондовооруженность, энерговооруженность, производительность труда и другие характеристики не дают такого разброса, как прибыль. Изучение горно-геологических условий производства также не вскрывает причин различия. При этом следует учитывать, что целью отнесения шахт к определенному классу (кластеру) является поиск управляющих воздействий для повышения эффективности их функционирования. Поэтому эти шахты нельзя отнести ни к одному классу по добыче, ни к разным классам по экономической эффективности. Скорее всего, здесь имеет место третий класс. Граница проходит по расходам на модернизацию технологий, освоение новых пластов, другую реорганизацию. Или в шахте процветает коррупция, сбыт происходит через подставные фирмы, а выручка утаивается. Нулевая гипотеза опровергнута как тривиальная и не представляющая интереса для управления. Новая парадигма классификации может быть сформулирована на основе предыдущего анализа. Далее можно использовать любой стандартный метод кластерного анализа. 122
Этот пример свидетельствует о неэффективности классификации по устоявшимся признакам. В этом случае достаточно просто установить важную для исследования характеристику перебором и сравнением значений признаков. Но в других случаях обилие характеристик и наблюдений, взаимовлияние факторов делают эту задачу предметом специального исследования. Весьма полезно определение числового значения вероятности правильной классификации (ВПК), предложенной Т. Андерсоном [24]. Значения ВПК могут быть рассчитаны экспертами до начала кластеризации или по ее результатам. В более простом случае, когда необходимо определить ВПК для полностью сформированного кластерного поля, можно воспользоваться алгоритмом С. Гейссера [2, с. 251], который сводит задачу к оценке правильности отнесения нового объекта к вполне конкретному кластеру. Достоверность начальной информации оказывает влияние на все процессы классификации, в частности, на ВПК. Использование недостоверной информации является одной из причин ошибочной интерпретации результатов классификации, обесценивая этим всю работу. Поиск и исправление ошибок - трудоемкие процессы, поэтому полезно в начале выполнения кластеризации проранжировать типы ошибок в зависимости от их влияния на результаты исследования или управления. Достоверность и надежность фактографической информации, полученной различными путями, влияет затем на все последующие процедуры и определяет окончательную ценность классификации. В соответствии с источниками фактографическая исходная информация разделяется на три типа: однозначная документальная (паспортная) информация; данные, полученные от приборных рецепторов; дескрипторы, отражающие личное мнение экспертов или респондентов. В исходной информации возможны следующие виды искажений и ошибок: • искажения информации, допущенные по вине плохой (ненадежной) работы рецепторов; • нерепрезентативность информации в объеме генеральной совокупности; • нерелевантность признаков в пространстве кластерной матрицы; • преднамеренные искажения информации; 123
• неадекватное представление информации на каком-либо этапе ее преобразований; • неправомерное использование аппарата измерений, вычислений, шкалирования и индексирования; • намеренное смещение приоритетов экспертами. Поиск информационных ошибок методами кластерного анализа практически не разработан, поэтому рассмотрим только общие ситуации, а детальную проработку алгоритмов приведем по мере разработки в последующих изданиях. А. Метод сравнения с эталонным кластером Этим методом можно определить случайные ошибки кодирования, неправомерные схемы формирования интегральных показателей, неадекватную оценку объектов экспертами. В его основе лежит метод получения эталонных кластеров, которые могут быть взяты из предыдущих успешных исследований или формироваться опытными экспертами. Эталонные кластеры сравниваются с расчетными по содержащимся в них объектам и (или) по характеристикам кластеров, и (или) по виду дискриминантных линий, и (или) по конфигурации геометрического кластерного поля. Вообще говоря, имея перед глазами эталонную и расчетную кластерные матрицы, можно визуально обнаружить многие информационные неточности, искажения и ошибки. В. Метод сравнения основных характеристик кластеров Сравнением можно выявить целый комплекс систематических и случайных ошибок. Особо полезным он оказывается при обработке опросных листов экспертов или респондентов социологических исследований, в которых предпочтения людей не могут быть истолкованы с позиций формальной логики и однозначно учтены. Именно психологическая составляющая (неуверенность, недопонимание, коллективные заблуждения и т. п.) делают анкетирование непредсказуемым. Сравнивая характеристики кластеров, несложно найти между ними связь. К примеру, интегральная характеристика альтернативных (паспортных) данных должна соответствовать определенной системе предпочтений. И если паспортная характеристика дает десяток проекций на ось предпочтений, то это свидетельствует, скорее всего, о систематической ошибке в области предпочтений. Далее следует эту ошибку локализовать и вычленить из общей интегральной характеристики. 124
С. Метод последовательного приближения Является продолжением предыдущего метода. Действительно, сделав вывод о некорректной классификации системы объектов, важно понять, какие характеристики являются избыточными, не относящимися к данному исследованию. Задача метода состоит в том, чтобы, последовательно исключая отдельные малозначимые параметры, в конце концов оставить одну или несколько характеристик, которые и являются значимыми аргументами в модели исследования или управления. Для этого априори задается количество кластеров в изучаемом пространстве и сравниваются их характеристики. Если кластеризация получилась без видимых различий параметров или слишком тривиальной, то каждый из кластеров делится на установленное число более мелких кластеров. Это выполняется за счет изменения масштаба интегральной шкалы кластеризации или введения (замещения, исключения) отдельных параметров. Эту процедуру можно выполнять неоднократно, пока не будут выявлены значимые признаки. D. Метод ранжирования кластеров Помогает найти границы допустимых ошибок и оценить возможные последствия от использования в кластерной матрице ненадежной информации различной природы и неодинакового «веса». Для ранжирования кластеров необходимо разработать критерий оценки и единицы измерения характеристик объектов. С помощью этих оценок формулируется целевая функция ранжирования, которая корректно упорядочивает не только кластеры, но и их характеристики. После этого несложно выделить значимую для исследования часть кластеров и сосредоточить на них внимание специалистов. Таким образом можно пренебречь ошибками малозначимых для исследования кластеров. Е. Метод поиска систематических ошибок Среди информационных ошибок, содержащихся в анкетах экспертов и других респондентов, достаточно часто встречаются ошибки, обусловленные социально-психологическими причинами: неточные и наводящие вопросы провоцируют ошибочные ответы, авторитет лидера заставляет подстраиваться под его мнение, коллективные предпочтения меняют ценностные ориентации отдельного человека. Такие ошибки довольно устойчивы и носят систематический характер. 125
Поиск систематических ошибок непрост, потому что формально они могут быть отнесены к особым мнениям, нетривиальным высказываниям, индивидуальным предпочтениям. Хотя в массовых явлениях подобные отклонения от нормального распределения мнений и высказываний свидетельствуют о систематических ошибках. Признаком систематической ошибки можно считать нарушение центральной симметрии в расположении кластеров. Рассмотрим геометрическое поле кластеров, описанное в разделе 4.4 настоящей книги. Если кластеры расположились в этом поле строго вертикально, т. е. различные экономические, социальные, демографические группы, вопреки здравомыслию и логике, имеют совпадающие оценки и предпочтения, то весьма вероятно, что информация неточна, ненадежна и требует проверки. Но, поскольку ошибка систематическая и может исказить результаты многих исследований, полезно провести тщательный содержательный анализ исходных данных, используя результаты кластеризации. G. Метод проверки логического соответствия результатов кластеризации гипотетическому образу, созданному группой экспертов Подобное сравнение может способствовать выявлению многих взаимосвязанных ошибок и неточностей, которые при определенных условиях накапливаются и приводят к необъяснимым результатам классификации. В иных случаях информация представляется вполне корректной, релевантной, достоверной. Но результаты классификации не совпадают с экспертной классификацией из-за нерепрезентативности выборки. По этой причине в некоторых случаях приходится отказываться от полученных результатов. Логика сравнения характеристик и кластеров достаточно проста: для каждого параметра определяется доверительный интервал. И в этом интервале параметры сравниваются. Подобные логические соответствия выявляются на содержательном уровне, и без участия специалиста эта процедура невыполнима. Н. Метод повторных сравнений результатов кластеризации с учетом латентных характеристик Использование массивов косвенной информации, интегральных показателей, неправильного масштаба признакового пространства могут стать причиной ввода в модель ненадежного
го, неустойчивого массива данных. Кроме того, исследователь вправе сомневаться в устойчивости полученных результатов. Для проверки подобных гипотез и выявления латентных процессов полезно периодически повторять сбор информации, причем среди характеристик следует выделить или специально вставить контрольные параметры, с помощью которых можно следить за динамикой внутреннего развития объектов и их объединениями - кластерами. При поиске информационных ошибок наиболее эффективно использование методов кластерного анализа в комбинации с другими аналитическими методами: алгеброй высказываний, теорией множеств, системным анализом и др. 5.5. ЦЕЛИ ИНТЕРПРЕТАЦИИ РЕЗУЛЬТА ТОВ КЛАСТЕРИЗАЦИИ МНОЖЕСТВА ОБЪЕКТОВ Кластерный анализ является, как правило, частью каких- либо исследований, имеющих теоретическое или прикладное значение. С помощью кластеризации решаются задачи оптимизации, прогнозирования, классификации, упорядочения, углубленного изучения явлений и ряд других задач. Все задачи, решаемые с помощью кластеризации, построены по принципу анализа и синтеза множества наблюдений. Но после разделения исходного множества объектов (фактов, наблюдений) неизбежно наступает этап объяснения результатов кластеризации. В зависимости от целей исследования специалисты выполняют формальные или содержательные процедуры, включающие интерпретацию полученных результатов. Интерпретация кластеров, их характеристик, коалиций элементов множества используется для подтверждения или опровержения гипотез, обоснования управленческих решений, понимания принципов объединений в классы и разделения общей совокупности объектов на подмножества. Действительно, получив результаты кластеризации, исследователь правомерно может задаться вопросом: по какой причине данные объекты оказались объединенными в один класс? Ответом на этот вопрос могут стать результаты интерпретации кластеров и их характеристик. Отметим, что, выбирая исходные характеристики, математический аппарат классификации, формируя признаковое пространство, исследователь задает основные параметры результатов разделения на классы, а в конечном счете влияет на интер- 127
претацию результатов. С учетом этого влияния интерпретация классов позволяет понять типологию классифицированного множества. При этом следует определить, является ли каждый кластер содержательным типом основного исследования или им можно пренебречь. В практических задачах управления одной из важнейших целей интерпретации кластерной матрицы является подробное описание классов и их характеристик. Действительно, для эффективного управления надо знать достаточно детальную информацию об управляемых объектах. При этом невозможно тысячи (даже сотни) объектов, имеющих разнообразные характеристики, удержать в поле зрения управленца и найти способы воздействия на них. Поэтому и приходится объединять их в кластеры, а на этапе интерпретации определять объединяющие их характеристики, способные повлиять на динамику системы. Обоснованный выбор общих для кластера характеристик делает кластеры однозначно определенными, а их (характеристик) совокупность помогает составлять так называемый портрет кластера (описание класса объектов, типа и пр.). Имея полные характеристики объектов, входящих в кластер, можно выделить общие признаки, или индикаторы, определяющие специфику класса, что позволяет существенно повысить эффективность управления. Таким образом, интерпретация кластерной матрицы дает возможность исследователю составить для себя наиболее точное представление о предметах исследования, явлениях и процессах. В отдельных случаях целью кластеризации может быть определение некоторых синтезированных характеристик или таких признаков, которые отсутствовали на этапе кластеризации, т.е. не участвовали в формировании кластерной матрицы. В теории распознавания образов такие характеристики принято разделять на признаки-проявления и признаки-причины [19, с. 51]. На рис. 29 схематично представлены первичные и вторичные признаки для кластеризации с последующим определением комбинированного признакового пространства. Одной из целей интерпретации кластерного поля является проверка совпадения кластеров, полученных путем вычислений по формализованным процедурам и содержательным классам, сформированным на основе причинных связей. Подобное изучение причинно-следственных связей методами кластерного анализа широко распространено. Его конечной целью является сопоставление классификации, полученной в результате работы экспертов, респондентов, содержательного анализа, и кластеров, вычисленных по данным наблюдений и экспериментов. 128 Наблюдение №N Синтез признакового пространства; поиск внешних причин, влияющих на поведение системы Формирование комбинированного признакового пространства, включающего внутренние, внешние и систематические характеристики Рис. 29. Обобщенная схема совместного рассмотрения признаков-проявлений и признаков-причин Более сложной целью интерпретации характеристик кластеров является сравнение их динамики с реальным поведением моделируемой системы. Вообще осмысление поведенческих закономерностей - плохо реализуемая на моделях задача, приходится многое дорисовывать, основываясь на интуиции, предыдущем опыте, экспертизе. Прогноз поведения отдельных кластеров значительно точнее, чем всей системы, потому что однородные классы более предсказуемы в поведении, чем эклектичная система. Интерпретация кластерной матрицы с целью сопоставления поведения классифицированной модели с поведением реальной системы позволяет оценить практическую ценность кластеризации и поэтому весьма полезна. Опытный исследователь использует интерпретацию на стадии промежуточных вычислений для определения эффективности выбранных начальных значений модели кластеризации: частоты наблюдений, шага системы координат, пороговых значений для включения объектов в кластер, других принципов однородности. Действительно, в кластерном анализе результаты моделирования регулируются выбором определенного набора исходных параметров и могут разительно отличаться в разных вариантах. Поэтому 129
проверка классификации на содержательную ценность может оказаться весьма полезной. Таким образом, интерпретация результатов кластеризации необходима для корректировки исходных характеристик моделирования. Действительно, если существует устойчивая типология экономических или социальных процессов, а результаты кластеризации меняют представление об устоявшемся признаковом пространстве, то анализ результатов интерпретации позволяет пересмотреть ошибочное мнение или скорректировать функции расстояния или исходные данные моделирования. 5.6. МЕТОДЫ ИНТЕРПРЕТАЦИИ РЕЗУЛЬТА ТОВ КЛА СТЕРИЗАЦИИ Для того, чтобы приблизить результаты кластеризации к задачам основного исследования, необходимо найти возможность перевести абстрактные кластеры, объекты, их характеристики на язык естественных коммуникаций потребителей информации. В зависимости от содержания исследования выбираются адекватные целям методы интерпретации. Рассмотрим некоторые из них. Предположим, группировка производилась по объективным, паспортным характеристикам. В этом случае кластеры будут сформированы в соответствии с совпадением или подобием экономических, технико-технологических или других однозначно понимаемых, соответствующих аксиоматике Евклида, параметров. Однако объекты, входящие в единые кластеры, имеют и общие стандарты поведения, у них могут совпадать предпочтения и вкусы. То есть те параметры, которые невозможно расположить в числовом координатном пространстве. Тем не менее существует вполне определенная стохастическая зависимость между характеристиками объектов первого и второго вида. Подобные закономерности, существование которых очевидно при содержательном анализе, требуют статистического подтверждения, механизм которого проиллюстрирован на рис. 30. Используя терминологию Ю.Н. Толстовой [19], предложим интерпретацию двух видов. Если кластеризация осуществлялась по признакам-проявлениям (объективным измерениям, паспортным данным, цифровым характеристикам), то возможна интерпретация по признакам-причинам (предпочтениям, неформальным характеристикам, нечисловым данным). И наоборот. По- 130
Кластер № 1 Κ2: χ Паспортные данные Рис. 30. Иллюстрация зависимости между объективными характеристиками объектов (А\, Аъ ..., А„) и неформальными мотивами поведения тех же объектов, принадлежащих одному классу (кластер № I) добная интерпретация достаточно проста: зная характеристики кластера одного из типов, можно найти соответствующие им характеристики другого класса (проекции на разные оси координат). Идентифицированные характеристики ранжируются, и наиболее значимые из них определяют рассматриваемый тип объектов - кластеры. Наряду с вычислением внешних проявлений поведения классов объектов, существуют методы определения каких-либо закономерностей внутри класса. Действительно, в рамках одного кластера происходят сложные процессы взаимодействия между объектами, их параметрами, межгрупповыми расстояниями, сближениями и удалениями объектов и т. д. Поэтому весьма распространенным способом интерпретации окончательной кластерной матрицы является наиболее полное описание каждого кластера, его объектов, свойств, характеристик, плотности распределения объектов. Методы описания характеристик кластера также реализуются стандартными программами компьютерной идентификации. Устойчивые классификации определяются не только стохастическими, но и в отдельных случаях детерминированными зависимостями. Особо важное значение определение таких зависимостей имеет в задачах управления, потому что позволяет делать точные выводы и прогнозы. Поиск детерминированных функций осуществляется методом перебора возможных комбинаций взаимодействия между объектами. При этом рассматривается не близость характеристик объектов или минимизация расстояния между ними, а полное совпадение самих объектов и их параметров. Таким образом формулируются критерии отбора. 131
Методы интерпретации расширяются возможностями вмешательства исследователя в процесс дополнения и исключения отдельных параметров. Этот метод активного влияния на процесс и результаты кластеризации и интерпретации заключается в сравнении разных вариантов трансформации кластерной матрицы, отличающихся друг от друга набором признаков. Заметим, что это наиболее эффективный метод, которым достигается рациональная, с позиции исследователя, классификация, устанавливается значимость параметров, решаются задачи оптимизации управленческих затрат. Практически эта работа выполняется в следующей последовательности. Проведя классификацию методами кластерного анализа, а затем интерпретируя и содержательно анализируя результаты вычислений, исследователь может предположить, что изменение признакового пространства (дополнения, исключения, новые сочетания и масштабирование параметров) приведет к некоторым изменениям классов. Причем эти изменения могут быть весьма существенными и влиять на перераспределение объектов между кластерами, значимость характеристик, обнаруживать новые свойства объектов и классов. Далее получившиеся классификации сравниваются и выбирается наиболее полезная с точки зрения интерпретации в содержательных образах. В случае неудовлетворенности исследователя процесс вмешательства в признаковое пространство может быть продолжен. Среди способов интерпретации кластерного поля определенный интерес представляет сравнение результатов кластеризации по объективным (паспортным, числовым) признакам и по субъективным (предпочтениям, экспертным оценкам) признакам. Этот метод интерпретации может натолкнуть исследователя на неожиданные гипотезы, выявить скрытые от непосредственного наблюдения зависимости, подсказать возможные пути дальнейшего развития наблюдений и анализа. При выборе методов интерпретации кластерной матрицы важно делать это не вслепую, а предварительно сформулировать гипотезу или провести экспертный опрос. В дальнейшем эта гипотеза может быть опровергнута или подтверждена. Подобный подход защитит исследователя от анализа большого числа бессодержательных вариантов классификации. В большинстве случаев метод интерпретации естественным образом вытекает из содержания исследования, свойств объектов классификации и других исходных параметров.
ЗАКЛЮЧЕНИЕ. ИСТОРИЧЕСКИЙ ОЧЕРК Задачи классификации имеют многовековую историю, но решались они эвристическими методами, без строгих доказательств оптимальности. И только с появлением многомерных методов математической статистики появилась возможность классификации сложных объектов с помощью корректных процедур. Специально для решения задач классификации была предложена теория кластерного анализа, получившая практические приложения в ряде наук. Первое упоминание о кластерном анализе было сделано Трионом в 1939 г. [1, с. 100]. Однако наибольшее количество публикаций в англоязычной литературе приходится на 60-70-е годы. В это же время отдельные аспекты кластерного анализа были рассмотрены отечественными учеными: И.Б. Мучником, Б.Б. Розиным, С.А. Айвазяном, А.Г. Аркадьевым, Э. М. Бра- верманом. Кластерный и факторный анализы предопределили переход от разрозненных методов к общей теории распознавания незрительных образов, которая, в свою очередь, внесла логическую объективность и числовую ясность в решение задач типологии, агрегирования, группировки, содержательной классификации объектов, имеющих формализованные признаки и (или) неформальные характеристики. Первыми методы кластерного анализа освоили социологи, которые предложили разделить характеристики на альтернативные (паспортные объективные) и вида «меню» (мнения, субъективные данные, предпочтения). Именно поиск взаимосвязи между этими типами характеристик позволил социологии выйти на более высокий уровень научных обобщений, прогнозов, количественно обосновать задачи типологии и классификации. Параллельно с социологами (может быть, с небольшой задержкой) аппарат кластерного анализа стали применять психологи [15]. Они сделали попытку изменения терминологии (кластер заменили на таксон и т. п.), но сейчас используют, в основном, устоявшиеся обозначения. Психологи первыми сделали попытку диагностики сложных неформальных систем методами кластерного анализа. 133
На середину 60-х годов приходится широкое использование методов кластерного анализа в экономике. В 1968, 1969 гг. Фишер и Коул выпустили книги [1, с. 101] по агрегированию в экономике, распознаванию показателей и другим приложениям кластерного анализа. В это же время проводятся работы по использованию кластерного анализа в биологических исследованиях. В 70-е годы американские математики приступили к созданию аксиоматической теории кластерного анализа. К сожалению, строгой аксиоматики кластерного анализа во всем объеме процедур сбора, обработки и интерпретации информации до сих пор не разработано. Поэтому в настоящей работе эта тема отсутствует. Предпринималась попытка американским математиком Андербергом изложить все методы кластерного анализа с унифицированных позиций с целью сведения разных формальных операций к элементарному уровню формализации. Но излишний уровень упрощений оказался неприемлемым для использования в большинстве научных направлений. Наиболее эффективно использование кластерного анализа оказалось в задачах диагностики сложных трудноформализуе- мых систем. В первую очередь, это относится к медицине, автоматизированным электронным системам, социальным системам. В этих задачах распознавание образов усилено возможностями обучения и самообучения, а также адаптацией модели к содержательному анализу модели. Эти методы называются распознаванием с учителем. Задачи диагностики сегодня признаны наиболее перспективным практическим направлением кластерного анализа (Корнфилд, Данн, Пипбергер [2, с. 292- 303]). Интересно взаимодействие кластерного анализа и информационных теорий. Пользуясь разнообразной информацией для формирования кластерных матриц, он, в свою очередь, оказал влияние на изучение теории восприятия информации, кодирования, отображения, интерпретации, прогнозирования. Для этого в дополнение к кластерному анализу используются логика, теория множеств, матричная алгебра и другие дисциплины. На первом же этапе всплеска интереса отечественной научной общественности к кластерному анализу и теории распозна- 134
вания образов к этому процессу подключились геологи и горняки. Начиная с 1970 г. разработаны кластерные модели распознавания химических элементов в минералах, классификации минералов, расчета содержания полезных ископаемых в отдельных блоках рудного тела, в массивах и месторождениях. Были разработаны и детально описаны типы месторождений, горных предприятий, технологий, экономических показателей. Это способствовало повышению обоснованности управления горным производством, формализации поиска оптимальных решений. В задачах горного дела кластерный анализ также используется для контроля состояния технических систем, обеспечивающих бесперебойную работу предприятий, селективного управления технологическими процессами. Учеными были разработаны методы классификации с помощью многослойных самонастраивающихся фильтров признаков целевых функций. Затем создавался обобщенный (интегральный, синтетический) образ изучаемого объекта. В модель вводились самонастраивающиеся образы эталонных объектов различных уровней, с которыми сопоставлялись анализируемые объекты. Таким образом использовался механизм сопоставления, разделения и отнесения объекта к тому или иному классу. Несмотря на то, что с помощью кластерного анализа решены сотни конкретных задач, обобщающей работы на русском языке пока не опубликовано. Книги, например [1, 2], статьи, диссертации и отчеты носят фрагментарный характер, что мешает целостному восприятию и рациональному использованию кластерного анализа. В предлагаемой вниманию читателей работе сделана попытка описания вопросов и задач, связанных с кластерным анализом, а также представлены некоторые алгоритмы кластеризации.
ГЛОССАРИЙ КЛАСТЕРНОГО АНАЛИЗА А Абстрактная (неформальная) группа объектов - множество объектов, разделенных искусственными методами (например, кластерным анализом). Подмножества (кластеры) включают в себя объекты, объединенные близостью характеристик, но по формальным признакам принадлежащие разным множествам. Не исключено, что в некоторых случаях формальная и абстрактная структуры могут совпадать. Агломеративный метод построения иерархических кластеров - основан на идее последовательного поиска ближайших элементов множества к наиболее значимому элементу и присоединения к нему. В результате конечного числа итераций, выполненных в соответствии с моделями агломеративного метода и соблюдения граничных функций, происходит слияние элементов множества в кластер. Агрегирование - объединение элементов множества в группы (агрегаты) по каким-либо признакам или по произвольному указанию постановщика исследования. Адекватность кластерного анализа - уровень соответствия результатов решения задачи кластерного анализа и эталонной модели классификации тех же объектов, полученных другими, чаще всего содержательными, методами. Адекватность функции расстояния - соответствие реальным процессам системы аксиом, сформулированных на некотором множестве объектов и имеющих подобные характеристики в едином признаковом пространстве. Альтернативные характеристики объекта - отдельные характеристики, которые могут принимать только одно фиксированное значение. Например, в социологических опросах часто используются такие вопросы к респондентам, на которые можно давать только однозначные взаимоисключающие отве- 136
ты. Для обработки альтернативных характеристик разработаны специальные процедуры. Анизотропия кластера - зависимость свойств кластера от направления характеризующих его линий. К таким линиям могут быть отнесены вектор (ядро кластера- начало координат), производные в каких-либо точках контура и т. д. Б «Ближайший сосед» - в кластерном анализе это понятие трактуется как объект, имеющий сходную характеристику или высокий коэффициент подобия с неким компактным множеством (кластером) методом парных сравнений. Ботриология (термин введен в обращение И. Дж. Гудом) - одно из малораспространенных названий кластерного анализа. В Вариационные методы кластеризации - комплекс формализованных методов классификаций объектов, основанных на рассмотрении целевых функций, межобъектных и межгрупповых расстояний, других статистических показателей. Взвешенный признак - характеристика объекта изучения (классификации), которая состоит из двух величин: абсолютного значения этой величины и некоторого произвольного коэффициента («веса» переменной), который отражает объективную или субъективную оценку значимости этой характеристики в изучаемом процессе. Применение взвешенных признаков при кластеризации является дискуссионным и требует обоснования. ВПК - вероятность правильной классификации. Г Гиперплоскость - условная плоскость, в которой пространство измеряется «-характеристиками (п > 3). Выделение гиперплоскости в отдельное понятие связано с тем, что она не имеет визуальной интерпретации. 137
Гипотеза о компактности - утверждение о том, что «простому зрительному образу соответствует компактное множество точек в пространстве параметров» (кластер) (А.Г. Аркадьев, Э.М. Браверман [8, с. 31]. д Дельфийский метод экспертного анализа - широко распространенный алгоритм экспертизы, который предусматривает некоторое число законченных циклов опроса экспертов и обработки результатов. Закончив экспертизу и определив разброс мнений (коэффициент согласия экспертов), их знакомят с результатами проведенной экспертизы. После этого снова проводят опрос и т. д. Как правило, после знакомства с распределением оценок эксперты достигают большего согласия. Повторные экспертизы проводят до тех пор, пока коэффициент согласия не примет заданной величины. Дельфийский метод эффективен при кластеризации по содержательным признакам. Дескриптор (инф.) - числовая или лексическая единица, служащая для описания свойств некоторого множества (кластера). Диагностика - в задачах распознавания образов процедура отнесения объекта или ситуации к какому-либо известному классу (кластеру, совокупности). Дискриминантныс линии - определяют границы кластеров или соединяют какие-либо специально обозначенные точки информационного поля. Дискриминантные функции - формальные правила отнесения объектов к какому-либо подмножеству и описывающие контуры этих подмножеств. Ε Естественная кластеризация - классификация, основанная на максимально большом количестве признаков, обеспечивающих наибольшее сходство кластеров. При таком подходе принадлежность объекта кластеру определяется естественным образом в результате их объективного сравнения. 138
и Изоморфизм - в кластерном анализе понятие, определяющее соответствие, адекватность объектов кластеризации и самих кластеров. При вычислении могут использоваться формулы расстояния или подобия. Иерархическая кластеризация - ранжирование кластеров, полученных в результате классификации некоторого множества, по определенным в постановке задачи критериям. Имплицитный показатель - невыраженная характеристика, подразумеваемый показатель. Интерпретация результатов кластеризации - представление кластеров, полученных в результате формальных расчетов, в содержательных образах. Является важнейшей частью кластерного анализа. К Качество кластеризации - субъективная оценка постановщиком исследования или экспертом успешности разделения неоднородного множества объектов на условно однородные подмножества. Оценивается по следующим критериям: • количеству кластеров; • количеству объектов, не попавших ни в один кластер; • однородности каждого кластера; • четкости границ между кластерами; • соответствию результатов кластеризации содержательному анализу; • рельефу геометрического поля кластерной матрицы. Исследователь может сформулировать и другие оценки качества. Качественный признак - характеристика объекта изучения, не имеющая числовых значений. В процедурах, кроме качественных признаков, используют функции совпадения или другое поле признаков. 139
Квантификация - метод, с помощью которого измеряются качественные характеристики объектов (кластеров), а затем переводятся в количественные формы. Например, предпочтения, переведенные в числовые баллы. Классификация - разделение неоднородного множества информации на ряд однородных подмножеств (классов) с обязательным установлением связей между классами и общей структурой классифицируемых объектов. Классификация присутствует в любой научной и практической деятельности человека. Классификация различается по прагматическим соображениям, целевым установкам, другим признакам. В частности, классификация может быть: • библиотечная - для расстановки книг, журналов, других документов; • десятичная - разделение множества объектов на десять частей, каждая из которых, в свою очередь, также делится на десять частей и т. д.; • дихотомическая - разделение множества объектов на две части, каждая из которых, в свою очередь, делится на две части и т. д.; • естественная - построенная на основе объективных и наиболее весомых признаков; • иерархическая - по уровню значимости, введенному в правила разделения множества; • искусственная - построенная на основе субъективных признаков без учета их «весовых» значений; • многоаспектная - использующая одновременно несколько классифицирующих признаков; • основная - в научных и практических работах, за основную принимают одну или несколько классификаций. Это делается по соглашению между исследователями для того, чтобы можно было сравнить результаты работы. Другие виды классификации называются вспомогательными; • предметная - по свойствам классифицируемых объектов; • универсальная - охватывающая все отрасли знания; • фасетная (аналитико-синтетическая) - многофакторная классификация, основанная на выборе группы наиболее важных для данного исследования характеристик (фа- 140
сетов). Осуществляется содержательными методами или с помощью статистического анализа (факторного и кластерного анализов, метода главных компонент и др.). Классификация априорная - выполненные процедуры классификации до стадии расчетов, исходя из содержательных, интуитивных и других неформализованных соображений. Кластер (таксон, образ, класс) - множество условно однородных (схожих) элементов (объектов). Степень однородности (сходства) может быть различной и определяется целями классификации. Эти понятия используются при различных видах классификации и распознавания образов. Кластер изотонический - однородная группа объектов, оказывающих равномерное «влияние» на оболочку (границу) кластера. Кластер размытый - кластер с плохо прорисованными границами, без четко определенного ядра или с погранично большими расстояниями между ядром кластера и входящими в него объектами. Кластер рандомизированный - кластер, сформированный случайным образом. Кластер сложный - кластер, образованный композицией нескольких других кластеров. Кластер эклектичный - неудачный результат кластеризации, в результате которого один кластер или несколько включают в себя неорганично подобранные, неоднородные объекты. Их разнородность объясняется внутренней несовместимостью по главным признакам, а общность - по второстепенным для исследования признакам. Кластеризация надежная - решение задачи кластерного анализа, при котором любой новый объект с высокой вероятностью будет идентифицирован с одним из кластеров, определенных ранее. 141
Кластеризация упорядоченная - расположение кластеров в порядке их значимости по критериям поставленной задачи. Кластеризация устойчивая - решение задачи кластерного анализа, предполагающее инвариантность относительно добавления или изъятия характеристик, изменения масштаба расстояний, добавления объектов. Кластеризации основные этапы: • рецепторный этап - сбор, кодирование и передача информации; • селекторный этап - выбор признаков, разделение объектов, формирование кластеров; • эффекторный этап - идентификация объектов в кластерах, интерпретация характеристик и объектов, объяснение результатов и другие заключительные действия. Кластерный анализ (кластер-анализ) - задача разделения неоднородного множества на некоторое количество условно однородных подмножеств (кластеров), обоснование этого разделения и интерпретация полученных результатов, желательно в естественных образах. Количественный признак - характеристика объекта изучения, имеющая числовые значения, для которых справедлива аксиоматика Евклида. Конгруэнтные (сходные) объекты - два или более разных объектов, имеющих в конкретном исследовании полностью совпадающие характеристики. Коэффициент различия - числовая характеристика двух объектов или двух кластеров, имеющих фиксированный набор показателей. Вычисляется по алгоритмам, сходным с вычислениями функций расстояния между объектами. Л Латентные признаки кластерного анализа - скрытые от наблюдателя, но реально существующие характеристики, игно- 142
рирование которых при кластеризации может исказить конфигурацию и содержание кластеров. Μ «Меню» функция - наиболее важная нечисловая функция, характеризующая предпочтения человека (эксперта, респондента, покупателя и т. п.). Используется при опросах. Ответы на вопросы типа «меню» могут иметь несколько вариантов, которые обрабатываются в некотором нормированном числовом пространстве. Мера близости двух объектов - числовая характеристика, определяющая совпадение показателей (в относительных числах), обладающая свойствами геометрического расстояния. Метрика расстояний - единица измерения расстояний между объектами, масштаб кластерного поля и другие элементы измерений, необходимые для построения числовой модели кластерного анализа. Монотети чес кие кластеры - условно однородные объекты, сгруппированные по признаку совпадения одной характеристики. При этом предполагается, что выбранная характеристика является основной и решающей. Η Надежность кластеризации - характеристика разделения множества объектов на кластеры, свидетельствующая о том, что добавление или удаление объектов из множества не изменит границ кластеров или изменит их в незначительной степени. Непараметрические методы классификации - такие методы группировки объектов, которые не предполагают изначального знания свойств разделенных групп, их характеристик и распределения элементов по группам. Таким образом, кластерный анализ относится к непараметрическим методам классификации. О Обучение распознаванию образов - задача выбора компьютером наилучшего варианта классификации объектов и воз- 143
можного автоматического совершенствования формального и содержательного аппарата алгоритма распознавания. Объект - в теории распознавания образов элементарная единица, которая объединяется с другими объектами, образуя классы, таксоны, кластеры и другие сложные множества. Физическая, экономическая, социальная или иная природа объектов для классификации объектов значения не имеет. Вообще говоря, «объектом можно назвать все, что угодно, включая процессы и действия - все, чему можно приписать вектор дескрипторов» (P.P. Сокал). Объект эталонный - условный синтезированный объект, характеристики которого являются необходимыми для включения в кластер. По признакам эталонного объекта происходит узнавание каждого нового объекта. Объективный метод кластеризации - метод, основанный на соблюдении точных формализованных правил. Однородность объектов (кластеров) - в кластерном анализе определяется как совпадение наиболее существенных характеристик объектов, кластеров или каких-либо других совокупностей. Однородность объектов динамическая - сходство объектов не только по совпадению характеристик, но и по совпадению результатов воздействия на них в некоторый промежуток времени. Ординация - один из методов классификации, использующий непрерывную шкалу измерений и не учитывающий дискретных характеристик объектов. Ординация, в некотором смысле, является альтернативой кластерному анализу. Π Персептрон - «узнающая машина», конструкцию которой предложил американский ученый Ф. Розенблатт. В основе конструкции лежали аналогии с работой мозга и зрения. Политетические кластеры - классификация по принципам группы эмпирических признаков, которые действуют только в комплексе, причем любой из этих признаков, использованный в 144
одиночестве или другой комбинации, не дает сходной классификации. Таким образом, однородность политетических кластеров зависит от числа (-> max) признаков. Наибольшее распространение политетические кластеры получили в тех задачах, где шкалирование расстояний между элементами имеет нечисловой характер, а сами кластеры соответствуют аксиоматике предпочтений входящих в них реальных объектов. Портрет кластера - совокупность характеристик, наиболее точно и полно отображающая общие и специфические черты кластера. Предпочтение - в задачах, использующих нечисловые измерения, заменяет понятие «больше-меньше». К примеру, А предпочтительнее В (А у В). Пространство метрическое - область рассмотрения объектов, в которой выполняется некоторая аксиоматика: • d{x,y) = 0, если χ = у; • d(x,y) + d(y,z)>d(x,z), • d(x,y) = d(y,x). Как правило, в метрическом пространстве выполняется аксиоматика Евклида. Пространство признаковое - я-мерное пространство, состоящее из независимых векторов - значимых признаков объекта. Размерность пространства может быть преобразована в меньшую за счет сокращения линейно зависимых признаков. При этом возможна потеря информации. Произвольный кластер - подмножество, формируемое на основе произвольного трактования характеристик объектов, не учитывающих объективных показателей. Ρ Размерность признакового пространства (я) - количество измерений гипергеометрического пространства (при и > 3), определяемое числом характеристик (и е Ν) объектов, по которым формируются кластеры. 145
Рандомизация - в задачах кластеризации процедура разделения на классы, основанная на случайном распределении какого-либо признака. Рандомизация данных означает их хаотичное и полное перемешивание вплоть до ликвидации всяческих видов закономерностей (явных или скрытых). Ранжирование - расположение элементов множества в определенном порядке, в соответствии с их рангами (по значимости, убыванию, делимости, привлекательности и т. п.) Распознавание без учителя - разделение исходного неструктурированного множества на кластеры в автоматическом режиме без каких-либо подсказок. Распознавание с учителем - алгоритм классификации неопознанного объекта в строго формализованной системе характеристик и кластеров. Вначале создается кластерное поле и определяются характеристики, идентифицирующие кластеры, а затем неопознанный объект включается в какой-либо кластер по совпадению характеристик. Распознавания образов теория - научно-практическое направление, связанное с необходимостью классификации некоторого множества объектов, установления принадлежности объекта какому-либо классу, имеющему известные общие характеристики. Распознавание выполняется с помощью сопоставления характеристик (признаков) объектов, классов. Сравнение этих признаков и дает основание делать выводы о степени соответствия рассматриваемых образов. Теория распознавания образов может применяться в горно-геологических исследованиях, экономике, социологии, диагностике и других науках. Распределения правило - формальный алгоритм, используемый в теории распознавания образов, для отнесения объекта к какому-либо классу (образу, кластеру). Расстояние между двумя социально-экономическими объектами - метрическая величина (или функция), определяющая сходство между данными объектами. Может измеряться как в метрике Евклида, так и в произвольно определенной. 146
Расстояния функция (мера) - в теории распознавания образов функция расстояния измеряет сходство и различие между изучаемыми объектами в некоторой реальной или условной метрике. Эта функция может носить не только количественный, но и характер предпочтений, экспертных оценок, функций «меню», результатов социологических опросов. Релевантность - уровень соответствия вопросов, задаваемых экспертам (респондентам), и ответов последних. Зависит от корректности вопросов, а также понимания и точности ответов последних. Репрезентативность информации для кластеризации - соответствие выбранной для кластеризации информации общему объему массива данных, т. е. совпадение (подобие) группировки на частичном объеме информации с той же группировкой всего информационного массива. Решающее правило кластеризации - определенная формальная процедура, как правило, реализованная на компьютере, позволяющая выбирать оптимальный вариант или зону рациональных решений задачи кластеризации. Рецептор - устройство, принимающее информацию от изучаемых объектов. Такими устройствами могут быть приборы с датчиками, анкеты экспертов, документы и пр. Рецепторы преобразуют информацию к виду, пригодному для моделирования, и передают ее для дальнейшего использования. С Сгущения (жаргон.) - распространенный у специалистов по кластерному анализу термин, которым обозначаются кластеры с нечеткими границами, или интуитивно близкие друг другу объекты. В некоторых случаях для определения зон «сгустков» используется функция плотности. Согласия показатель - уровень соответствия содержательной структуры множества и полученного на его основе кластерного поля. 147
Соответствия функция - показатель обоснованности того, что рассматриваемый объект действительно имеет общие характеристики или высокий уровень подобия с соответствующим кластером. Вычисляется по формуле где Р£ - вероятность совпадения характеристики и рассматриваемого объекта с усредненной характеристикой кластера т; С - вероятность попадания объекта в кластер т, рассчитанная до начала классификации. Субъективный метод кластеризации - метод классификации, основанный на личных представлениях и предпочтениях исследователя. Τ Таксон - то же, что и кластер. Таксономия (греч.) - теория классификации и систематизации сложных объектов, имеющих числовую и нечисловую метрику, но доступную для иерархического разделения. Типология - метод изучения некоторого множества объектов, явлений или их моделей, заключающийся в разбиении на условно однородные подмножества. Основное значение при этом имеют характеристики и свойства подмножеств, определяющие их поведение. У Узнавание нового объекта - способность алгоритма диагностики методами кластерного анализа обоснованно причислить новый объект к идентифицированному кластеру. X Характеристики (показатели, признаки) априорные - данные, полученные в результате наблюдений и содержательного анализа до проведения каких-либо расчетов и формализованных процедур. 148
Характеристики (показатели, признаки) неформальные - субъективные данные об объекте кластеризации, которые определяют предпочтения и не имеют числовой или другой однозначной формы представления. Характеристики (показатели, признаки) формальные - объективные данные об объекте кластеризации, которые могут быть закодированы в числовой или другой знаковой форме. ц Целевая функция кластеризации - некоторый критерий оптимальности разбиения исходного множества на подмножества в соответствии с представлениями исследователя об оптимальности. «Центр массы» кластера - условная точка, находящаяся в пределах кластера, заданная координатами в пространстве характеристик изучаемых объектов. (Подробнее см. в разд. 2.8). Ш Шкалирование - выбор единицы измерения расстояний между двумя объектами (кластерами, таксонами). Выбранная шкала может измеряться в абсолютных величинах (м, кг, руб.) или относительных (проценты). При кластеризации неформализованных объектов исследователь вправе использовать какую-либо искусственную шкалу измерений. Э Эвристический метод кластеризации - интуитивный метод разделения множества объектов на кластеры, основанный на опыте исследователя, априорных представлениях о количестве кластеров и их содержании. Эффективность кластеризации (£) - функция оценки качества разделения исходного множества объектов на кластеры, учитывающая точность поиска, близость элементов кластеров, полезность кластерного распределения для прагматики исследования. 149
Вычисляется (по P. Willett): E = \-(\+p2)pR:(p2P + R), где Ρ и R - точность поиска и компактность кластеров соответственно; β - коэффициент полезности кластеризации. Я Ядро кластера - область наибольшего сгущения объектов классификации внутри кластера. Как правило, кластер имеет одно ядро, которое занимает не более 10-25 % пространства (гиперпространства) кластера. Вопросы соотношения ядра и самого кластера теоретически не проработаны и решаются эмпирическими или интуитивными методами.
СИМВОЛИКА, ПРИНЯТАЯ В КНИГЕ Ф:,Ф2,...,ФЛ - исходные матрицы объектов кластеризации; α,β,γ,ψ..." X, V,W, V... объекты, подлежащие кластеризации или расположенные внутри кластера; ί/Ε - расстояние в метрике Евклида; dxext - расстояние в метрике Хеминга; d,, - расстояние в метрике /,-норма; dsap - расстояние в метрике «норма - верхняя граница»; d* - пороговое - максимально допустимое рас- расстояние между объектами в пределах одного кластера; {х,; у,} - координаты объектов или кластеров; и - количество кластеров в определенном цикле классификации; Ощ (к, I, т) - центр «массы» /-го кластера, имеющий координаты к, I, т; К\, К2,..., К„ - множество кластеров единого информационного поля в одном цикле классификации; т, - количество объектов в /-м кластере; M~Yjm - суммарное количество объектов, подлежащих классификации; А],А2,..., А„, - объекты, входящие в кластер, которые условно могут быть приняты за начало отсчета; Аи - условный центр «массы» кластера; г - радиус сферы метрического пространства, ограничивающий кластер; W - матрица координат объектов для последующей кластеризации; 151
xij"k' " точки с номерами 1, 2, 3, ..., имеющие координаты i, j, к и являющиеся центрами сфер кластеров с номерами!, 2, 3,... А0 - начало координат А0 (0; 0) при кластеризации методами геометризации информационного поля; Ρ - количество интервалов разбиения информационного поля по одной из осей координат в метрике Евклида; β* - объект, ближайший к объекту а; ζ2, ζ3, Ζ4...) - критерий оптимальности классификации, соответствующий функциям от ζ\ - концентрации объектов около ядра кластера; от ζ2 - наибольшей удаленности объектов от диск- риминантных линий; от ζ3 - равномерности распределения объектов в кластерах; οτζ4 - однородности характеристик объектов в каждом кластере и т. д.; ^тах - наилучшая многокритериальная целевая функция классификации (суперцель классификации); R - поле признаков для сравнения рассматриваемых объектов кластеризации; R{z) - числовые признаки; R(k) - качественные (нечисловые) признаки; R(Z\)- числовые признаки, для которых справедлива аксиоматика Евклида; R(Z2)~ числовые признаки, для которых аксиоматика Евклида некорректна; Ζ - целевая функция классификации объектов; Ε - эффективность кластеризации; 5| - функция подобия двух неформальных объектов; 52 - функция согласия (совпадения условно положительных характеристик) двух объектов;
S} - функция согласия (совпадения условно отрицательных характеристик) двух объектов; 54 - коэффициент подобия Хаммана, характеризующий разброс мнений экспертов; В] - количество совпадений характеристик у двух объектов; #2 - количество условно положительных совпадений характеристик у двух объектов; В3 - количество условно отрицательных совпадений характеристик у двух объектов; с - общее количество рассматриваемых характеристик объекта; Τ - функция преобразования корреляционной матрицы; W - условная форма записи корреляционной матрицы характеристик объектов; U„ Uj, Uk,...- интегральные характеристики объектов; (р(и) - функция отображения нечисловых характеристик объектов на множество действительных чисел; Ψ (В) - функция, характеризующая полное совпадение неформальных параметров; λ„ - коэффициент компетентности и-го эксперта.
СПИСОК ЛИТЕРА ТУРЫ \.Дюран Б., Оделл П. Кластерный анализ. - М.: Статистика, 1977. - 128 с. 2. Классификация и кластер: Сб. статей / Под ред. Дж. Вэн Райзина и др. - М.: Мир, 1980.-389 с. 3. Жамбю М. Иерархический кластер-анализ и соответствия. - М.: Финансы и статистика, 1988. - 343 с. 4. Математическая энциклопедия. —Т. 1-5. - М.: Изд-во СЭ, 1977-1985. 5. Беллман Р., Дрейфус С. Прикладные задачи динамического программирования. - М.: Наука, 1965. 6. Гитис Л.Х. Логические основы выбора оптимального варианта развития инфраструктуры горнопромышленного района / В кн.: Комплексное освоение месторождений твердых полезных ископаемых. - Т. I. - М.: Недра, 1991. С. 225-234. 7. Шкалирование при сборе и анализе социологической информации / С.А. Клигер и др. - М.: Наука, 1978. - 112 с. 8. Аркадьев А.Г., Браверман Э.М. Обучение машины классификации объектов. - М.: Наука, 1971. - 191 с. 9. Розин Б.Б. Теория распознавания образов в экономических исследованиях. - М.: Статистика, 1973. - 224 с. 10. Стиранка А.И. Решение кластерной задачи большой размерности в нечеткой постановке//Кибернетика. - 1991. -№ I. -С. 116-121. 11. Многомерный статистический анализ в экономике / Под ред. В.Н. То- машевича и др. - М.: Юнити, 1999. - 599 с. 12. Ивахненко А.Г. Объективная кластеризация на основе теории самоорганизации моделей // Автоматика. - 1987. - № 5. - С. 6-15. 13. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. - М.: Наука, 1974.-416 с. 14. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976.-512с. 15. Моделирование обучения и поведения // Сб. статей. - М.: Наука, 1975. - 237 с. 16. Растригин Л.А., Эренштейн Р.Х. Метод коллективного распознавания. М.: Энергоиздат, 1981. -80 с. 17. Хант Э. Искусственный интеллект. - М.: Мир, 1978. - 558 с. 18. Фишберн П. Теория полезности для принятия решений. - М.: Наука, 1978.-352 с. 19. Типология и классификация в социологических исследованиях / В.Г. Андреенков и др. - М.: Наука, 1982. - 296 с. 154
20. Шибанов Г.П. Распознавание в системах автоконтроля. М.: Машиностроение, 1973. - 424 с. 21. Болч Б., К. Дж. Хуань Многомерные статистические методы для экономики. - М.: Статистика, 1979. - 317 с. 22. Эренберг А. Анализ и интерпретация статистических данных. - М.: Финансы и статистика, 1981. - 406 с. 23. Кимбл Г. Как правильно пользоваться статистикой. - М.: Финансы и статистика, 1982. - 294 с. 24. Андерсон Т. Введение в многомерный статистический анализ. - М.: Физматгиз, 1963. - 675 с. 25. Букринский В.А. Геометрия недр. - М.: Изд-во МГГУ, 2002. - 549 с. 26. Эстерле О.В. Применение распознавания образов и теории информации в минералогии. - М.: ВИЭМС, 1987. - 40 с. 27. Осипов Г,В., Андреев Э.П. Методы измерения в социологии.- М.: Наука, 1977,- 184 с. 28. Гитис Л.Х. Совершенствование планирования на предприятиях угольной промышленности. - М.: ВСНТО, 1986. - 65 с. 29. Дж. Ту, Р. Гонсаленс. Принципы распознавания образов. - М.: Мир, 1978.-411 с.
ОГЛАВЛЕНИЕ Введение СТА ТИСТИЧЕСКИЕ МЕТОДЫ В УПРАВЛЕНИИ. КЛАССИФИКАЦИЯ И КЛАСТЕРНЫЙ АНАЛИЗ 5 Глава 1 КЛАССИФИКАЦИЯ, ТЕОРИЯ РАСПОЗНАВАНИЯ НЕЗРИТЕЛЬНЫХ ОБРАЗОВ И ЕЕ РЕАЛИЗАЦИЯ МЕТОДАМИ КЛАСТЕРНОГО АНАЛИЗА 11 1.1. Классификация объектов как необходимое условие деятельности человека 13 1.2. Логическая модель распознавания незрительных образов, основанная на принципах обучения живых организмов условным рефлексам 15 1.3. Объективная классификация 17 1.4. Гипотеза о компактности образов 20 Глава 2 НАИБОЛЕЕ ВАЖНЫЕ ИДЕИ КЛАСТЕРНОГО АНАЛИЗА 23 2.1. Кластерный анализ. Прагматические соображения 25 2.2. Начальные понятия 26 2.3. Функции расстояния (различия, несходства) 30 2.4. Меры и признаки подобия, тождества, конгруэнтности неформальных объектов 33 2.5. Информационные признаки, используемые для кластеризации 37 2.6. Схемы использования информации, предназначенной для кластеризации, в зависимости от источника, вида и возможностей кодирования 42 2.7. Измерение характеристик объектов и их представление в задачах кластеризации 44 2.8. Целевые функции кластеризации 50 Глава 3 ОСОБЕННОСТИ ВЫЧИСЛИТЕЛЬНЫХ ПРОЦЕДУР КЛАСТЕРНОГО АНАЛИЗА 57 3.1. Формализованное представление информации в задачах кластерного анализа. Оценка показателей 59 3.2. Шкалирование признакового пространства для кластеризации 63 3.3. Выбор размерности метрического пространства и ее влияние на качество кластеризации 66 3.4. Графо-аналитическое построение кластерного поля и определение геометрической формы кластера 69 Глава 4 ДЕСЯТЬ МЕТОДОВ КЛАСТЕРИЗАЦИИ 73 4.1. Кластеризация полным перебором объектов 75 4.2. Кластеризация методом перебора фиксированных расстояний от центров сфер (алгоритм «Форель») 77 156
4.3. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации 80 4.4. Кластеризация интегральным методом геометризации информационного поля 82 4.5. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами 90 4.6. Метод постоянных кластеров и характеристик 92 4.7. Кластеризация с учетом критерия качества и последующим выбором лучшего варианта по этому критерию (алгоритм «Краб») .... 94 4.8. Кластеризация с помощью экспертных оценок 95 4.9. Кластеризация методом определения «ближайших соседей», включая иерархическое распределение объектов 99 4.10. Кластеризация методом «ветвей и границ» 102 Глава 5 ПРИЛОЖЕНИЯ КЛАСТЕРНОГО АНАЛИЗА И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ 107 5.1. Содержательная основа кластеризации в экономических исследованиях 109 5.2. Научные и практически задачи, решаемые методами кластеризации 112 5.3. Определение качества кластеризации 116 5.4. Контроль за достоверностью информации и точностью выводов методами кластерного анализа. Поиск противоречий, нелогичностей и ошибок статистики 121 5.5. Цели интерпретации результатов кластеризации множества объектов 127 5.6. Методы интерпретации результатов кластеризации 130 Заключение. Исторический очерк 133 Глоссарий кластерного анализа 136 Символика, принятая в книге 151 Список литературы 154
в= 1ПРЛК1ИЧЕСКАЛ s СТАТИСТИКА ы ДЛЯ ГОРНЫХ U ИНЖЕНЕРОВ» Леонид Хаскелевич Гитис СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ И КЛАСТЕРНЫЙ АНАЛИЗ Резким выпуска 'стандартный* Редактор текста О. И. Сорокина Компьютерная верстка и подготовка оригинал-макета Н.Н. Бочкова Дизайн серии Е.Б. Капралова Зав. производством Н.Д. Уробушкина Полиграфическое производство Т.Д. Герасимова, ΓιΗ. Потемкина Подписано в печать 02.06.2003. Формат 60x90/16. Бумага офсетная Ns 1. Гарнитура •Times·. Печать трафаретная на цифровом дупликаторе. Усл. печ. л. 10,0. Тираж 500 экз. Заказ 924 ИЗДАТЕЛЬСТВО МОСКОВСКОГО ГОСУДАРСТВЕННОГО ГОРНОГО УНИВЕРСИТЕТА Лицензия на издательскую деятельность ЛР Μ 062809 Код издательства 5X7(03) Отпечатано в типографии Издательства Московского государственного горного университета Лицензия на полиграфическую деятельность ПЛР Μ 53-305 Δ 119991 Москва, ГСП-1, Ленинский проспект, 6, Издательство МГГУ Тел. (095) 236-97-80; Факс (095) 956-90-40; тел./факс (095) 737-32-65