Текст
                    Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное
образовательное учреждение высшего образования
«Казанский национальный исследовательский
технологический университет»
Ю. П. Александровская
МНОГОМЕРНЫЙ
СТАТИСТИЧЕСКИЙ АНАЛИЗ
В ЭКОНОМИКЕ
Учебное пособие
Казань
Издательство КНИТУ
2017

УДК 519.237 ББКВ172.6я73 А46 Печатается по решению редакционно-издательского совета Казанского национального исследовательского технологического университета Рецензенты: зам. ген. директора по НИОКР АО «НИИтурбокомпрессор им. В. Б. Шнеппа» д-р техн, наук Е. А. Новиков зав. кафедрой СТ ФГБОУ «Поволжская ГАФКСиТ» канд. экон, наук, доц. Л. С. Петрик Александровская Ю. П. А46 Многомерный статистический анализ в экономике : учебное пособие / Ю. П. Александровская; Минобрнауки России, Казан, нац. исслед. технол. ун-т. - Казань : Изд-во КНИТУ, 2017. - 96 с. ISBN 978-5-7882-2191-5 Рассмотрены теоретические и практические вопросы многомерного статистического анализа. Каждая тема наряду с теоретическим материалом содержит методические рекомендации по выполнению лабораторной работы. Предназначено для студентов, обучающихся по направлению «Экономика». Подготовлено на кафедре бизнес-статистики и математических методов в экономике. УДК 519.237 ББК В172.6я73 ISBN 978-5-7882-2191-5 ©Александровская Ю. П., 2017 © Казанский национальный исследовательский технологический университет, 2017 2
ВВЕДЕНИЕ В современном мире принятие управленческих, производственных, финансовых, кадровых и других решений все чаще основывается на всестороннем анализе данных, что позволяет делать обоснованные выводы и прогнозы, давать оценки вероятности их выполнения и зачастую предотвращать принятие необоснованных и непродуманных решений. Владение основами статистических методов анализа данных необходимо не только специалистам, работающим в естественнонаучных и инженерных областях, но также представителям гуманитарных профессий: экономистам, менеджерам, социологам, психологам. Современные организации стремятся полнее использовать статистические данные для решения своих задач. Навыки обработки и анализа данных в настоящее время являются частью профессиональной культуры многих специалистов. Возможность использования компьютеров и современных информационных технологий анализа данных сделала доступными для пользователей широкий набор самых современных методов статистического анализа. Настоящее пособие ориентировано на студентов экономических профилей и выступает в качестве методического обеспечения дисциплины «Многомерные статистические методы». Пособие способствует формированию теоретических знаний по вопросам методики и практики применения методов многомерного статистического анализа данных, а также получению навыков практического применения многомерных статистических методов в исследовании социально-экономических явлений и процессов. Теоретический материал по каждой теме сопровождается разобранными примерами и подробными рекомендациями по выполнению лабораторных работ. 3
ТЕМА 1. МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ: ПРЕДМЕТ, ЦЕЛИ И ЗАДАЧИ Явления в природе и обществе связаны между собой прочной цепью сложных отношений. Находясь в непрерывном взаимодействии, дополняя и видоизменяя друг друга, обогащая или, наоборот, нивелируя и подчас погашая и разрушая друг друга, эти явления выступают как объективно обусловленная данность, существование которой подчиняется общим законам эволюции природы и общества. Все взаимосвязанные явления природы и общества можно условно разделить на три группы: 1. Явления, представления о которых и отношения между которыми в значительной мере очевидны и регулируются на основах природного инстинкта или общественного договора, не требуя иных обоснований и доказательств. 2. Неочевидные явления. Законы их формирования и видоизменения скрыты, последствия изменений неопределенны, риски развития или крушения велики и труднопредсказуемы, а представления о них ограниченны и требуют каждый раз новых обоснований и доказательств. 3. Явления, неизвестные современному человеку. Отношения и взаимосвязи этих явлений на поверхности выступают как череда случайных и непостижимых событий, о законах поведения которых можно только догадываться. Выявление и познание скрытых явлений, распознавание и толкование случайностей как предельно сложных закономерностей, отделение познаваемого от непознаваемого предполагают обращение к более сложным методам научного исследования, среди которых наиболее доступными являются статистические методы многомерного анализа. Исходное условие и конечная цель успешного применения этих методов - овладение основами активного познания их сути и отличий от обычных методов комплексного статистического анализа. Многомерным статистическим анализом (MCA) называется раздел математической статистики, изучающий методы сбора и обработки многомерных статистических данных, их систематизации и обработки с целью выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, получения практических выводов. 4
Например, рассматривается некоторая совокупность, состоящая из и стран, для каждой из которых известны макроэкономические показатели: XI - валовой внутренний продукт, Х2 - площадь территории, ХЗ - средняя продолжительность жизни населения и т.п. В результате имеем набор из и наблюдений над k-мерным случайным вектором Х=(Х1, Х2, ..., Хк)т. Такая структура данных естественна, если исследуется мировая экономика. Если же изучается национальная экономическая система, то естественно наблюдать значения вектора X на одной и той же стране в различные моменты времени. В любом случае предметом многомерного анализа являются сложные системы, элементы которых характеризуются множеством зависимых между собой объектов и признаков, представляемые обычно в виде матрицы, строки которой соответствуют наблюдаемым объектам, а столбцы - характеризующим их признакам: Х11 х12 х13— х1т % _ Х21 х22 х23-- х2т Хп1 хп2 хпЗ хпт где и - количество объектов; m - количество признаков; Ху — конкретное значение j-го признака у i-ro объекта. Типичные задачи, которые можно решить методами многомерного статистического анализа: • по наблюдавшимся значениям случайного вектора Х=(Х1, Х2, ..., Хк)тизучить связь между его компонентами XI, Х2, ..., Хк; • определить, какие из (большого числа) показателей XI, Х2, ..., Хк в наибольшей степени влияют на валовой внутренний продукт или на продолжительность жизни населения; • классифицировать страны по какому-либо признаку. Задачи многомерного анализа сводятся к нахождению однородных неизвестных выборочных данных о наблюдаемых объектах и их признаках на основе неоднородных известных данных (генеральной совокупности или обучающей выборке) или к нахождению неизвестных факторов, определению их размерности и значимости на основе и по отдельным признакам известного общего результата. Такие статистические методы, как множественный корреляционный и регрессионный анализ, традиционно изучаются в 5
курсах теории вероятности и математической статистики, эконометрики. В рамках данного курса будут рассмотрены две группы методов MCA: 1. Методы снижения размерности многомерного пространства, позволяющие без существенной потери информации перейти от первоначальной системы большого числа наблюдаемых взаимосвязанных признаков перейти к системе существенно меньшего числа скрытых (ненаблюдаемых) факторов, определяющих вариацию первоначальных признаков. Методы компонентного и факторного анализа позволяют выявлять объективно существующие, но непосредственно ненаблюдаемые закономерности. 2. Методы многомерной классификации, предназначенные для разделения совокупностей объектов (характеризующихся большим числом признаков) на классы. В каждый из которых должны входить объекты, в определенном смысле однородные и близкие. Такую классификацию на основании статистических данных о значениях признаков на объектах можно провести методами кластерного и дискриминантного анализа. Для многомерного статистического анализа характерны следующие особенности: • Методы MCA в отличие от классической статистики появились сравнительно недавно: факторный анализ - на рубеже XIX и XX вв., кластер анализ - 10 - 20-е годыХХ в. и т.д. Основная часть методов еще находится в стадии активной разработки, область их применения четко не разграничена. • Для методов MCA характерны, как правило, глубокая формализация. Сложная логико-математическая конструкция. Работа с этими методами требует углубленных знаний в области как экономической теории, так и математики (математической статистики, матричной алгебры). • Применение методов MCA требует творческого подхода к решению аналитических задач, что приобретает особенно важное значение при интерпретации аналитических результатов, часто неоднозначных, когда экономические выводы должны отвечать схеме сложных математических расчетов. • В MCA обрабатываются многомерные (многопризнаковые) совокупности данных. Число признаков (или размерность совокупности) при этом может быть любым, но обычно более двух, и 6
максимально ограничивается 20-33 признаками. Существует точка зрения, что для описания реальных объектов достаточно 33 измерений, сверх этого - уже излишняя информация. Такой подход оправдывает себя довольно часто, но не может считаться законом, в конечном счете все определяется условиями задачи и целями исследования. • Практическое применение методов MCA требует обязательного использования вычислительной техники. Эти методы в силу сложности и трудоемкости нереализуемы без ЭВМ. Основные отличия многомерных от одномерных методов сбора, обработки, анализа, моделирования и сопоставления данных заключаются в следующем: По количеству признаков. При применении одномерных методов наблюдаемые объекты (их множество может быть сколь угодно большим) характеризуются одним-единственным наблюдаемым признаком (например, наблюдаемые предприятия - численностью занятых), при двумерном пространстве - соответственно двумя признаками (например, численностью занятых и производительностью труда), а при применении многомерных методов и, следовательно, при работе в многомерных пространствах - тремя и более признаками (например, численностью занятых, производительностью труда и фондовооруженностью, фондами, выручкой, фондоотдачей и прибылью. Это пример семимерной модели анализа связей). По целям. Целью традиционных одномерных методов является декларация фактов, иллюстрация конкретных случаев, фотографическая характеристика наблюдаемых объектов и их признаков, а не их представление как носителей и образцов, моделирующих и объясняющих законы поведения целых явлений. Цель же многомерных методов - выявление именно этих законов путем установления характера распределения и тесноты связей между многими не только очевидными, но и скрытыми признаками, позволяющими полно и детально изучать и объяснять наблюдаемые процессы, что в принципе невозможно сделать, оперируя традиционными одномерными методами. По теоретическим допущениям и гипотезам. Практически все задачи одномерного анализа ставятся и решаются в предположении того, что в природе существует так называемый гауссовский закон распределения данных. Под этот закон подгоняются или подстраиваются многие многомерные статистические данные и связи. 7
То же самое происходит, когда речь идет о решении некоторого класса специфических многомерных задач, эмпирическое распределение данных в которых сходится или хорошо согласуется с гауссовским распределением. Но допустим, наблюдаемые семь факторных признаков-показателей, детерминирующих один результативный, например рост ВВП, соответствуют семи типам разных распределений. Например, эмпирические данные о численности занятых соответствуют нормальному закону распределения Гаусса, производительность труда - биноминальному, фонды - распределению Парето, фондовооруженность - распределению Вальраса, фондоотдача - показательному распределению, издержки - распределению Пуассона, прибыль - распределению Байеса, а распределение ВВП на разных отрезках пространства и времени робастно, ассиметрично и разнонаправленно. Как в этом случае установить общий закон их распределения и, следовательно, общую их связь с законом распределения ВВП? Можно ли вывести закон распределения ВВП как гибрид из семи других представленных типов распределений, которым следуют приведенные факторы ВВП? Очевидно, что нельзя, любая попытка синтеза данных разнотипных распределений будет примитивной фикцией. Попытки же искусственно подгонять наблюдаемые данные, отсекая те массивы данных, которые не укладываются в стандартную схему, подмена так называемых ненормальных распределений и нелинейных связей нормальными распределениями и линейными связями, в сущности, не дает ничего: многомерный анализ остается лишенным ясных теоретических оснований, а получаемые результаты - необходимого содержательного смысла. Как быть? Разбивать сложные многомерные пространства на части, вводить их типы, соответствующие типам существующих теоретических допущений и распределений, т.е. решать задачу отдельно по каждому признаку или однородной группе признаков, применяя разные методы. Приходится накладывать своего рода ограничение на существующее множество методов многомерного анализа данных и на практике обращаться только к тем из них, которые адекватно аппроксимируют известные законы и гипотезы распределения данных и нашли широкое применение в статистической работе. 8
Лабораторная работа № 1 Решение задач матричной алгебры В ТАБЛИЧНОМ ПРОЦЕССОРЕ EXCEL Цель работы, формирование навыков выполнения матричных вычислений в электронной таблице Excel с применением встроенных функций. Предметом многомерного статистического анализа являются сложные системы, элементы которых характеризуются множеством зависимых между собой объектов и признаков, представляемые обычно в виде матрицы, строки которой соответствуют наблюдаемым объектам, а столбцы - характеризующим их признакам. 1. Создать таблицу по предложенному образцу (табл. 1.1). Таблица 1.1 Макет таблицы Excel для матричных вычислений ABCDE-GHIJK 1 Элементы матричной алгебры 2 3 Исходные данные: транспонированные матрицы, обратные матрицы, произведения матриц АхВ и ВтхА. Примечание: перемножить можно матрицы, число столбцов в первой из которых равно числу строк второй, в результирующей матрице 9
число строк равно числу строк в первой матрице, а число столбцов - числу столбцов во второй. 3. Вычисление собственных чисел и собственных векторов квадратной матрицы. Пусть число Л и вектор X £ L, X Ф 0 таковы, что АХ = XX. Тогда число Л называется собственным числом линейного оператора А, а вектор X собственным вектором этого оператора, соответствующим собственному числу Л. В конечномерном пространстве Ln векторное равенство эквивалентно матричному равенству (А - ЛЕ)Х =0, X Ф 0. Отсюда следует, что число Л есть собственное число матрицы А в том и только том случае, когда det(A — ЛЕ) = 0, т.е. корень многочлена р(Л) = det(A — ЛЕ), называемого характеристическим многочленом матрицы А. Столбец координат X любого собственного вектора, соответствующего собственному числу Л есть нетривиальное решение однородной системы. Пример. Найти собственные числа и собственные векторы матрицы / 2 -1 2 \ А = 5 -3 3 . \-1 0 —2/ Решение. Запишем характеристическое уравнение: / 2 -1 2 \ /1 0 0\ А- ЛЕ = 15 -3 3 -А 0 1 0 \-1 0 —2/ \0 0 1/ 2 —Л -1 2 \ 5 -3-Л 3 . -1 0 —2 -Л/ 2-Л det (А — ЛЕ) = 5 -1 2 -3-Л 3 0 -2-Л = (2 - Л)(—3 - Л)(—2 - Л) + 3 + 2(—3 - Л) + 5(—2 - Л) = -Л3 - ЗЛ2 + 4Л + 12 + 3 - 6 - 2Л - 10 - 5Л = -Л3 -ЗЛ2-ЗЛ-1 = 0. 10
Решим полученное уравнение, чтобы найти собственные числа. Л3 + ЗЛ2 + ЗЛ + 1 = (Л3 + 1) + ЗЛ(Л + 1) = (Л + 1)(Л3 — л + 1) + ЗЛ(Л + 1) = (Л + 1)(Л3 — Л + 1 + ЗЛ)= (Л + 1)(Л3 + 22. + 1) = (Л+1)3 = 0=> Л = —1. Собственный вектор для собственного числа Л = — 1 найдем из системы: /2 + 1 (Л - ЛЕУХ = 5 \ -1 = 0. -1 -3 + 1 0 (Л - ЛЕ)Х = 0. (Зх-L — х2 + 2х3 5хг — 2х2 + х3 -%i - х3 Решим однородную систему уравнений: 'Зх± — х2 + 2х3 = 0 5%-l — 2х2 + х3 = 0. —хг — х3 = 0 Данная система имеет бесконечное множество решений. Для того, чтобы найти частное решение примем хг = 1. Тогда из третьего уравнения х3 = — 1. Из первого уравнения х2 = 1. Таким образом, собственный вектор, соответствующий собственному числу Л = — 1, равен / 1 \ X = 1 . \—1/ Задача. Найти собственные числа и собственные векторы матриц: /0 -1 0 \ / 0 1 0\ /1 -3 1 \ А= 1 1 -2 ; В= 1—4 4 0 ; С= 3 -3 -1 . \1 —1 0 / \—2 12/ \3 -5 1 / 3.1. Используя средства табличного процессора Excel найти собственные числа матрицы /2 —2 А= ~8 5 I 0 3 \-2 -1 Для этого заполнить табл. 1.2. Определение собственных чисел —4 —2\ 1 -8 ] -1 0 ) 5 2 / требует высокой точности вычислений. Установить относительную погрешность вычислений равной 0,0000001 (Параметры Excel/ Формулы/ Относительная погрешность). 11
Таблица 1.2 Вычисление собственных чисел матрицы А В С D Е 29 30 Исходные данные: 31 2 -2 -4 -2 -8 5 1 -8 0 3 -1 0 -2 -1 5 2 37 Результаты расчета: 3S 39 40 41 42 43 44 45 46 47 4S 49 50 51 Л= А-ЛЕ= det(A-XE)= Л1= Л2= Л3= Л4= Первоначально значение Л в ячейке В39 принять равным любому числу. Затем, используя процедуру Подбор параметра подобрать такое значение Л, при котором det(4 — ЛЕ) = 0. Процедуру повторить 4 раза, чтобы найти все корни характеристического уравнения (4 корня). Найденные собственные числа разместить в ячейках В48:В51 в порядке убывания. 3.2. Для каждого найденного собственного числа найти собственный вектор, решив систему уравнений: 12
(А-ЛЕ)Х = 0,Х Ф 0. Для этого в табл. 1.3 заполнить ячейки A62:D65 элементами матрицы (Л — Л1Е). В ячейки F62:F65 занести произвольные значения компонент вектора X (т.к. система имеет бесконечное множество решений, то для определения конкретного собственного вектора принять х1 равным 1). Таблица 1.3 Вычисление собственных векторов матрицы А В С D Е - G Н 53 Вычисление собственного вектора для Х1. 54 55 М=| | 56 57 all-Xl а!2 а!3 а!4 xl 0 В ячейках A67:A70 записать правые части уравнений. Например, для первого уравнения: =A62*F62+B62*F63+C62*F64+D62*F65. В ячейках Н62:Н65 вычислить произведение (Л — АЕ)Х. Используя процедуру Поиск решения найти такие значения х2, хЗ и х4 (изменяя значения ячеек F63:F65), чтобы выполнялось равенство (Л — АЕ)Х = 0. (в ограничениях задать Н62:Н65=0). Аналогично вычислить собственные векторы для всех собственных чисел. 13
ТЕМА 2. МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ Сущность задачи снижения размерности Рассмотрим пример. При индивидуальном пошиве одежды портной замеряет на клиенте от восьми до одиннадцати различных параметров(рост, размах рук, длину предплечья, длину ног, окружности груди, бедер, талии и др.). При массовом производстве одежды ее размеры характеризуются всего двумя факторами: ростом и размером, являющимися производными от указанных параметров, и в большинстве случаев указание размера и роста при покупке одежды приводит к удовлетворительному выбору. В многомерном статистическом анализе каждый объект описывается вектором, размерность которого произвольна (но одна и та же для всех объектов). Пусть при изучении п объектов у каждого из них измеряется большое количество (ш) показателей (признаков). Если число m достаточно велико, то с ростом п возникает ряд проблем: • объем информации очень велик; • нужно ли хранить весь объем информации? • как наглядно представить весь этот объем информации. Человек может непосредственно воспринимать лишь числовые данные или точки на плоскости. Анализировать скопления точек в трехмерном пространстве уже гораздо труднее. Непосредственное восприятие данных более высокой размерности невозможно. • как извлечь из этой информации некую суть, необходимую для принятия решения. Поэтому вполне естественным является желание перейти от многомерной выборки к данным небольшой размерности, чтобы «на них можно было посмотреть». Цели, которые ставятся при решении задачи снижения размерности, можно разбить на группы: 1) большая наглядность полученных данных, возможность построения графиков и диаграмм в пространствах небольшого количества измерений; 2) лаконизм, обозримость и простота зависимостей после построения математической модели, за счет участия в ней меньшего 14
количества переменных, и, следовательно, упрощение счета и интерпретации; 3) резкое снижение объемов хранимой информации. Каким образом можно сократить размерность m задачи? Очевидно, за счет выбора значительно меньшего числа г (r<m) новых показателей. Это могут быть как некоторые из уже имевшихся ранее показателей, так и образованные как комбинации старых. При этом к новым показателям предъявляются следующие основные требования: • сохранение наибольшей возможной доли информации, имевшейся в исходной выборке; • взаимная независимость новых показателей (или, по крайней мере, их некоррелированность), что обеспечивает невозможность сокращения их количества без существенной потери информативности; • наименьшее возможное искажение геометрической структуры данных при переходе от изображения исходной выборки облаком точек в m-мерном пространстве к такому же изображению в r-мерном пространстве. Таким образом, сущность задач снижения размерности многомерного пространства заключается в выражении большого числа исходных показателей (признаков), непосредственно измеренных на объектах, через меньшее (как правило, намного меньшее) число более емких, максимально информативных, но непосредственно не наблюдаемых внутренних характеристик объектов. При этом предполагается, что более емкие признаки будут отражать наиболее существенные свойства объектов. Целью методов снижения размерности является исследование внутренней структуры изучаемой системы m случайных величин, «сжатие» этой системы без существенной потери содержащейся в ней информации путем выявления небольшого числа факторов, объясняющих изменчивость и взаимосвязи исходных случайных величин. При решении задачи снижения размерности может быть построен критерий оптимальности - некоторая числовая характеристика качества снижения размерности - и поставлена математическая задача на оптимальное снижение размерности. Критерии оптимальности бывают внутренние, т. е. определяющиеся структурой исходных данных и строящиеся только по этим данным, и внешние, которые для своего построения привлекают соображения, 15
лежащие за пределами самих наблюдений. Внешние критерии обеспечивают максимальную точность восстановление результирующего показателя. Критерии автоинформативности обеспечивают максимальную точность восстановления не только результирующего показателя, но и исходных переменных. Имеются следующие основные типы предпосылок к тому, что задачу снижения размерности удастся эффективно решить: 1) сильная связь между исходными показателями, в результате которой информация, содержащаяся в них, дублируется; 2) слабая информативность некоторых показателей, которые состоят в основном из случайных помех. Это чаще всего выражается в том, что они мало изменяются при переходе от объекта к объекту, что позволяет исключить их из данных, даже повысив при этом количество полезной информации в оставшихся данных; 3) возможность объединения нескольких показателей в один, что бывает возможно, если интересующее нас решение связано не с каждым показателем в отдельности, а с некоторым интегративным показателем. Формальная постановка задачи снижения размерности. Пусть х^\ х1-2'1,..., х™ наблюдаемые у каждого из п объектов показатели (случайные величины), X = х(-2>, ..., х^) - хи- мерный вектор, F = F(X) - r-мерная векторная функция, F(X) = (FW(X), ...,Fw(X)). Имеется функция Fr(F(X)), принимающая неотрицательные значения - мера информативности или критерий оптимальности. Этот критерий определяется сущностью решаемой задачи. Задан также класс/, которому должна принадлежать функция F(X). Построить такую функцию Р(Х)из класса/, такую, что Fr(F(X)) = maxZ£fKr(F(xy). Тот или иной выбор критерия оптимальности и класса допустимых преобразований приводит к разного рода методам снижения размерностей, наиболее важными из которых являются: • метод главных компонент; • экстремальная группировка признаков; • многомерное шкалирование; • отбор показателей для дискриминантного анализа; • отбор показателей в модели регрессии. 16
Методы факторного анализа и их классификация Под факторным анализом понимают совокупность методов, которые на основе реально существующих связей элементарных признаков (или объектов) позволяют выявлять латентные (скрытые) обобщающие характеристики исследуемой структуры, позволяющие объяснять механизм развития изучаемых явлений и процессов. Примерами таких латентных характеристиками могут быть уровень жизни населения (при исследовании регионов или стран) или качество продукции (исследование предприятия). Латентность означает неявность («скрытость») характеристик, раскрываемых при помощи методов факторного анализа. Главная цель факторного анализа - сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными (классификация переменных). Вначале мы имеем дело с набором элементарных признаков x^J\ их взаимодействие предполагает наличие определенных причин, особенных условий, т.е. существование некоторых скрытых (латентных) факторов. Изменчивостью этих скрытых факторов объясняется изменчивость всех наблюдаемых элементарных признаков. В этом смысле оцениваемые латентные факторы F^\, F^ можно считать причинами, а наблюдаемые признаки х^,х^, ...,х^ - следствиями. Эти факторы устанавливаются в результате обобщения элементарных признаков и выступают как интегрированные характеристики, или признаки, но более высокого уровня. Коррелировать могут не только элементарные признаки х^, но и сами наблюдаемые объекты N1, поэтому поиск латентных факторов теоретически возможен как по признаковым, так и по объектным данным. Рассмотрим пример. Пусть п наблюдаемых объектов (автомобилей) оценивается в двумерном признаковом пространстве: - стоимость автомобиля, х1-'2'1 - длительность рабочего ресурса мотора. При условии коррелированности х® и х^ в системе координат хгх2 появляется направленное и достаточно плотное скопление точек, формально отображаемое новыми осями (Fi и F2). Характерная особенность F, и F2 заключается в том, что они проходят через плотные скопления точек и в свою очередь коррелируют сх-Г1 и 17
х&Х Максимальное число новых осей Fr будет равно числу элементарных признаков. Допуская линейную зависимость Fr от х^\ можем записать: Fi = а1гх^ + а12х® F2 = а21х® + а22х(2). Интерпретируем оси Fr: пусть F± - экономичность автомобиля, F2 - его надежность в эксплуатации. Суждение об Ft и F2 базируется на оценке структуры латентных факторов, т.е. оценке весов х^ и х1-2'1 в Fr, а именно по значениям коэффициентов atj. Основными этапами факторного анализа являются: - вычисление корреляционной матрицы всех переменных, участвующих в анализе; - извлечение факторов; - вращение факторов (при необходимости получения более простой факторной структуры); - интерпретация (распознавание) факторов. Все методы факторного анализа можно разделить на несколько классификационных групп: 1. Метод главных компонент (Г. Хоттелинг). Строго говоря, его не относят к факторному анализу, хотя он имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных процедур одновременно получают все главные компоненты и их число первоначально равно числу элементарных признаков; во-вторых, постулируется возможность полного разложения дисперсии элементарных признаков, другими словами, ее полное объяснение через латентные факторы (обобщенные признаки). 2. Методы факторного анализа. Выявляют к (где к меньше, чем число исходных признаков) общих для всех исходных признаков факторов. Дисперсия элементарных признаков здесь объясняется не в полном объеме, признается, что часть дисперсии остается нераспознанной и объясняется влиянием специфических факторов. Факторы обычно выявляются последовательно: первый, объясняющий наибольшую долю вариации элементарных признаков, затем второй, объясняющий меньшую, вторую после первого латентного фактора, часть дисперсии, третий и т.д. Процесс выделения факторов может быть прерван на любом шаге, если принято решениие о достаточной доли объясненной дисперсии элементарных признаков или с учетом интерпретируемости латентных факторов. 18
Методы факторного анализа дополнительно делятся на два класса: упрощенные и современные аппроксимирующие методы. Простые методы факторного анализа в основном связаны с начальными теоретическими разработками. Они имеют ограниченные возможности в выделении латентных факторов и аппроксимации факторных решений. Например, однофакторная модель Ч. Спирмена позволяет выделить только один генеральный латентный и один характерный факторы. Для возможно существующих других латентных факторов делается предположение об их незначимости. Современные аппроксимирующие методы часто предполагают, что первое, приближенное решение уже найдено каким-либо из способов, последующими шагами это решение оптимизируется. Методы отличаются сложностью вычислений. Общая классификация представлена на схеме: методов факторного анализа Факторный анализ Метод главных компонент 1 1 1 Простые методы Современные аппроксимирующие методы • Однофакторная модель Ч. Спирмена • Бифакторная модель Г. Хользингера • Центроидный метод Л. Тэрстоуна • Главных факторов • Групповой • Минимальных остатков • Максимального правдоподобия • Минимальных остатков • Канонический • Распознавания образов • а - факторного анализа Основной задачей, которую решают разнообразные методы факторного анализа, включая и метод главных компонент, является сжатие информации, переход от множества значений по m элементарным признакам с объемом информации ш*п к ограниченному множеству элементов матрицы факторного 19
отображения (m*r) или матрицы значений латентных факторов для каждого наблюдаемого объекта размерностью п*г, причем обычно г<ш. Среди прикладных задач, решаемых указанными методами, следует отметить следующие: • поиск скрытых, но объективно существующих взаимосвязей между экономическими и социальными показателями, проверка гипотез о взаимосвязи этих показателей, выявление природы различий между объектами; • описание изучаемой системы числом факторов, значительно меньшим числа исходных признаков, при этом выявленные факторы или главные компоненты содержат в среднем больше информации, чем непосредственно зафиксированные на объектах значения исходных признаков; • построение обобщенных экономических и социальных показателей, таких как качество продукции, размер предприятия, интенсивность ведения хозяйства и т.п.; • визуализация исходных многомерных наблюдений путем их проецирования на специально подобранную прямую, плоскость или трехмерное пространство; • построение регрессионных моделей по факторам (главным компонентам), что решает проблему затрудненности построения и ининтерпретации регрессионных моделей, вызванную мультиколлинеарностью исходных признаков (главные компоненты, сохраняя всю информацию об изучаемых объектах, являются некоррелированными по построению); • классификация по обобщенным экономическим показателям (классификация объектов, проведенная по факторам или по главным компонентам, оказывается более объективной, чем классификация тех же объектов по исходным признакам; кроме того, по одному-трем факторам или главным компонентам возможно проведение визуальной классификации); • сжатие исходной информации, значительное уменьшение объемов информации, хранимой в базах данных, без существенных потерь информативности. 20
Метод главных компонент Метод главных компонент, предложенный Пирсоном в 1901 г., является одним из основных способов, позволяющих уменьшить размерность данных (сократить число взаимосвязанных (коррелированных) признаков объектов наблюдения), потеряв наименьшее количество информации. Из числа методов, позволяющих обобщать значения элементарных признаков, метод главных компонент выделяется простой логической структурой, и в то же время на его примере становятся понятными общая идея и целевые установки многочисленных методов факторного анализа. Метод главных компонент дает возможность по ш-числу исходных признаков выделить m факторов (главных компонент), или обобщенных признаков. Каждая главная компонента является линейной комбинацией исходных признаков. Пространство главных компонент ортогонально. Критерием оптимальности является отношение суммарной дисперсии главных компонент к суммарной дисперсии исходных признаков: г( ) Z7=1 W где D(Fj~) - дисперсия j-й главной компоненты; D(xj) - дисперсия j-ro исходного признака. Необходимо найти такие г линейных комбинаций исходных признаков (г главных компонент), которые объясняют максимально возможную долю изменчивости (суммы дисперсий) m исходных признаков. Геометрическая интерпретация метода главных компонент. В упрощенном виде, для двумерной случайной величины, процедуру выделения главных компонент можно показать геометрически. В случае, когда имеются только два признака хА и х2, характеризующие каждый объект, данные легко изобразить на плоскости. Первоначально имеется некоторое эмпирическое распределение данных в двумерном признаковом пространстве с центром (/^i; /т2)- Каждому объекту соответствует точка на плоскости с соответствующими координатами. 21
Центрированием и стандартизацией данных исходное пространство признаков сжимается и система координат переносится в центр распределения данных. Большую часть объектов наблюдения объединяет так называемый эллипсоид рассеяния. Через центр эллипсоида рассеивания в направлении наибольшего разброса исходных данных проводят прямую линию. Это ось первой главной компоненты. Данная прямая строится как линия регрессии через исходные данные, т.е. сумма квадратов отклонений исходных данных от этой прямой должна стремиться к минимуму. Проецируем все исходные точки на ось первой главной компоненты. Первая главная компонента максимизирует дисперсию полученных проекций. Если отклонения исходных данных от первой главной компоненты достаточно малы, можно сказать, что это «шум», а не существенная информация, тогда им можно пренебречь, и одной первой главной компонентой заменить два исходных признака хг и х2. Если же расстояния от исходных данных до первой главной компоненты достаточно велики, то это полезная информация, и необходимо построить вторую главную компоненту, перпендикулярную первой, также проходящую через центр эллипса. Вторая главная компонента максимизирует оставшуюся дисперсию исходных данных. Каждой главной компоненте соответствует собственное число. Например, первой главной компоненте соответствует собственное число которое оценивает дисперсию проекций множества исходных объектов на ось первой главной компоненты и отражает относительную длину соответствующей диагонали эллипса рассеивания, т.е. вес первой главной компоненты, или ее значимость, в описании исходного разброса данных. Параметры эллипса, описывающего эмпирическое распределение объектов в нормированном признаковом пространстве, находят решением матричного уравнения (й — AE)U = 0. Соответственно устанавливается положение главных компонент (осей), обобщающих вариацию признаков х± и х2. В общем, многомерном случае, процесс выделения главных компонент происходит следующим образом: 1) ищется центр облака данных и туда переносится новое начало координат - это нулевая главная компонента; 22
2) выбирается направление максимального изменения данных - это первая главная компонента; 3) если данные описаны не полностью, то выбирается еще одно направление, перпендикулярное первому, так чтобы максимально описать оставшееся изменение в данных; 4) и т.д., пока не останется только «шум», т.е. случайный хаотический набор величин. Пусть имеются исходные данные исследования п объектов по m элементарным признакам. Тогда имеем матрицу X исходных данных размерностью п х т: /-П1 *1т\ ^[nxm] = I " V * * * * XiJ " L \Лп1 ... Хпт/ где Ху - значение j-го признака на i-м объекте (наблюдении). Получим матрицу стандартизированных (центрированных и нормированных) значений признаков: (Яц ... Zim\ Zjj ... I Zni ... ^пт/ где ^=~ Модель метода главных компонент описывается уравнением: 7 = F АТ Чпхт! г[пхт]л[тхт] где F[nxm] -матрица индивидуальных значений главных компонент: /711 flm\ „ /21 Лт | F = Л V "f / vnl Jnm' где ftj - значение j-й главной компоненты на i-м объекте (наблюдении). ^[mxm] ‘ матрица факторных нагрузок. Матрица факторных нагрузок связывает между собой вновь полученные факторы (главные компоненты) и исходные признаки. Используется для экономической интерпретации главных компонент. (Яц ... я1т\ ajk I, ®ml ... С1тт/ 23
где ajk - значение факторной нагрузки k-й главной компоненты на j-й признак. Свойства матрицы факторных нагрузок: 1. a.jk - это по сути парный коэффициент корреляции между j- м признаком и k-й главной компонентой. Например, а32 - парный коэффициент корреляции между 3-м признаком и 2-й главной компонентой. 2. Сумма квадратов элементов j-й строки матрицы нагрузок равна дисперсии j-ro исходного признака, т.е. единице: т ajk2 = ! к=1 3. Сумма квадратов элементов k-го столбца матрицы нагрузок равна дисперсии k-й главной компоненты Лк: т ^к ' Qjk> J=1 где Лк - собственное значение k-й главной компоненты, показывает вклад в суммарную дисперсию k-й главной компоненты. 2-1 > Л2 > ••• > Лт Наибольший вклад в суммарную дисперсию дает первая главная компонента, т.е. первая главная компонента объясняет наибольшую долю вариации исходных признаков: - доля дисперсии исходных признаков, объясняемая первой главной компонентой; - доля дисперсии исходных признаков, объясняемая k-ой главной компонентой; 2.1 + Л2 + 2.3 ... + Лт = т суммарная дисперсия где т - число исходных признаков. Из общего числа главных компонент для исследования, как правило, оставляют г (r<m) наиболее весомых, т.е. вносящих максимальный вклад в объясняемую часть общей дисперсии. Опыт показывает, что r=(0,l-0,25)m. Для экономической интерпретации полученных результатов самыми наглядными являются случаи, когда г=1, 2 или 3. 24
Существует несколько подходов к определению числа главных компонент (сколько главных компонент оставлять?): • критерий Кайзера (Kaiser) - отбираются главные компоненты с собственными значениями больше единицы; • критерий Кетгеля (B.Cattel) (график «каменистых осыпей» - график собственных значений главных компонент); • подход, опирающийся на пороговое значение доли объясняемой дисперсии. Можно отбросить несколько последних главных компонент, собственные значения которых незначительны, если мы готовы пожертвовать какой-то долей объясняемой вариации исходных признаков. Например, если мы готовы пожертвовать 20% объясняемой дисперсии, то достаточно оставить г первых главных компонент таких, что выполняется условие: 2.1 Л? X- — + — + ••• + — >80%. т т т Таким образом, несмотря на то, что в методе главных компонент для точного воспроизведения корреляций и дисперсий между переменными необходимо найти все компоненты, большая часть дисперсии объясняется небольшим числом главных компонент. Вычислительные процедуры метода главных компонент. Решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данных X: где X[nxm] - матрица исходных данных (нецентрированных и ненормированных); п - число объектов наблюдения; т - число элементарных аналитических признаков; На подготовительном этапе осуществляются: 1. Стандартизация, т.е. центрирование и нормирование, значений исходных признаков. При этом система координат переносится в центр распределения данных (в точку в координатами, равными среднему (мат. ожиданию) по каждому признаку), а исходное 25
пространство признаков сжимается (что особенно важно, если признаки измеряются в разных единицах). Z[nxm] _ матрица стандартизированных значений признаков, элементы которой вычисляются по формуле zij ~ 2. Формирование матрицы парных корреляций элементарных признаков R[mxm]- 1 т R =-ZTZ. п Элементами матрицы R являются парные коэффициенты корреляции между элементарными признаками, т.е. Tjk - парный коэффициент корреляции между j-м и k-м элементарными признаками. x^K-x^lQ г“= Таким образом, матрица R является симметричной, а ее элементы - числа по модулю меньше или равные единице. Если предварительная стандартизация данных не проводилась, то на данном шаге получают ковариационную матрицу 1 т S = -XTX. п Элементы матрицы X для расчета S будут центрированными величинами: Задача компонентного анализа - определить, сколько выделить компонент и каких именно, чтобы по возможности точно воспроизвести и объяснить с их помощью наблюдаемые связи, представляемые в виде корреляционной матрицы R. На первом этапе составляется и решается характеристическое уравнение: |Я -ЛЕ\ = О, где Е - единичная матрица размерности m X m. Теоретической основой является теорема: для любой симметрической положительно определенной матрицы R существует ортогональная матрица U, такая, что 26
/Хг о ... о UTRU = Л = ( 0 О \ О о ... л.т а все элементы матрицы Л положительны (A.j > 0), определитель матрицы R положителен |R| > 0, все главные миноры матрицы положительны. При этом Л.) - j-e собственное значение, или характеристический корень матрицы R; Л-1 > Л-2 > > Л.т. Шаг 1. Определение собственных чисел. Множество собственных значений находят решением характеристического уравнения |/? — ЯЕ| = 0. - это характеристики вариации, точнее, показатели дисперсии каждой главной компоненты. Суммарное значение равняется сумме дисперсий элементарных признаков Xj. При условии стандартизации исходных данных, когда ) = 1, £ Лу равна числу элементарных признаков ш. Таким образом, получаем диагональную матрицу собственных (характеристических) чисел: 0 ... 0 \ 0 Л2 ... 0 ] 0 0 ... Лт/ Шаг 2. Вычисление собственных (характеристических) векторов Uj. Собственные векторы Uj находят из матричного уравнения: (R-AE)U = 0. Реально это означает решение m систем линейных уравнений для каждого Яу при j = 1, т. В общем виде система уравнений имеет вид ' (1 - + r12u2;- + г13изу + + rlmumj = 0 r21ulj + (1 — + r2?,u?,J + I" r2mumj = 0 r3iUi7 + r32u2J + (1 - Ay)u3y + + r3mumj = 0 + t'm2^-2j + ПпЗ^З; + ” + (1 — — 0 A[mxm] — 27
Приведенная система объединяет однородные линейные уравнения, и так как число ее уравнений равняется числу неизвестных umj, имеет бесконечное множество решений. Конкретные значения собственных векторов при этом можно найти, задавая произвольно величину одной компоненты каждого вектора, и обычно ее приравнивают единице. Таким образом, получаем ортогональную матрицу собственных (характеристических) векторов: (Цц 11^2 ul?n\ и21 и22 U2m | ..... I- Щп.1 2Гт2 Щптп/ Шаг 3. Формирование матрицы нормированных собственных векторов K[mxm]- Матрицу нормированных собственных векторов получают преобразованием ненормированных собственных векторов U: v,=A ’ НМ где норма вектора Uj, т.е. ||Ц/|| = yjUlJ + U2J + umj- Необходимость повторного, после получения матрицы Z, нормирования пространства теперь уже обобщенных признаков объясняется механическим появлением в ходе предыдущих расчетов результатов, искажающих нормированное пространство. На этом этапе решается вопрос, сколько главных компонент необходимо оставить в анализе. На втором этапе получают матрицу нагрузок главных компонент на исходные признаки. Матрицу факторного отображения Л[тхт] вычисляют по известным данным матрицы собственных чисел A[mxmj и нормированных собственных векторов K[mxmj по формуле: А = УЛ1/2. Матрица А содержит частные коэффициенты корреляции, представляющие связи исходных признаков Xj и главных компонент Fr. Соответственно все элементы atj могут варьироваться в пределах от -1 до +1. 28
I Fi F2 ... Fm Д = । all <4.2 " X2 । a21 a22 " a2m | ®ml dm2 dmm Например, a21 - парный коэффициент корреляции между 2-м исходным признаком Х2 и 1-й главной компонентой Вначале А имеет размерность m х m - по числу элементарных признаков Xj, затем в анализе остается г наиболее значащих компонент (r<m), и размерность матрицы становится m X г. Если исключить нагрузки, близкие к нулю, т.е. нагрузки, отражающие отсутствие связи между Xt и Fj, и оставить только существенные нагрузки, это приведет к упрощению матрицы. Каждому признаку Xt соответствует своя факторная структура, а каждой факторной структуре - свой набор признаков. Число существенных нагрузок признака Xt на факторы называют его сложностью, а число признаков, формирующих каждую факторную структуру, - компонентой. Например, согласно приведенной матрице нагрузок: I Fl F2 F3 F4 д _ I а11 <4.2 Я13 О Х2 | а21 а22 0 <^24 ' *з I аз1 0 а33 О | а41 dm2 О О признаки Х4 и Х2 имеют трехуровневую сложность, а Х3 и Х4 - двухуровневую, характеризующуюся соответственно тремя и двумя признаками. По данным матрицы отображения А возможна итоговая запись зависимости значений исходных признаков от значений главных компонент: Z = AFr или 4/ — + dj2f2[ + " + d-j-rfri — ' Ojfc/fci’ fc=l 29
где ztj - значение j-го стандартизированного признака по i-му объекту наблюдения; fki - k-я главная компонента Fk по i-му объекту наблюдения; ajk - весовой коэффициент (нагрузка) k-й главной компоненты Fk на j-ый признак. А также зависимости значений главных компонент от значений стандартизированных элементарных признаков: F = A~rZT или т 1 1 у fki ~ Д + ^2fc-^i2 + ” + amkzim) Д / ^-jkzij лк лк 7=1 где ajk - весовой коэффициент (характеристика силы связи) j-ro элементарного признака для k-й главной компоненты. Здесь второе уравнение является производным от первого. На третьем этапе осуществляют вращение главных компонент (при необходимости получения упрощенной структуры) и поиск названий для главных компонент. Название должно отражать экономический смысл главной компоненты и определяется субъективно на основе весовых коэффициентов из матрицы факторной нагрузки А. На четвертом (заключительном) этапе строят матрицу главных компонент. F - матрица индивидуальных значений главных компонент размерностью г х т вычисляется по формуле: F = A-1Zr; или F = A~1ATZT; ИЛИ F = A~1/2VTZT. Матрица Fp-xn] в общем виде записывается: I JVi N2 ... Nn р — F± । /11 /12 /in ^2 | /21 /22 /гп | frl fr2 ... frn 30
Более привычной формой записи значений главных компонент является транспонированная матрица F7pnxr.-|: 1 F1 F2 ... Fr рТ _ N± । А1 /12 fir n2 ' /21 1 /22 fir Nn 1 | /п1 /п2 fnr Рассмотрим пример. Пусть на четырех объектах (товарах) исследовались два признака: XI - спрос, кг/день и стоимость, руб. Результаты исследования приведены в табл. 2.1. Таблица 2.1 Значения исходных (элементарных) признаков по объектам исследования № объекта XI X2 1 28,6 349,9 2 25,2 623,8 3 22,9 817,1 4 18,6 1171,8 Подготовительный этап. 1. Стандартизируем значения признаков. Для этого для каждого признака найдем среднее и среднеквадратическое отклонение: _ 28,6 + 25,2 + 22,9 + 18,6 хг =-------------------------= 23,8; ________________________4________________________________ 1(28,6 - 23,8)2 + (25,2 - 23,8)2 + (22,9 - 23,8)2 + (18,6 - 23,8)2 = j 4 = 3,6; 349,9 + 623,8 + 817,1 + 1171,8 =-------------------------------= 740,7; 4 = (349,9 - 740,7)2 + (623,8 - 740,7)2 + (817,1 - 740,7)2 + (1171,8 - 740,7)2 N 4 = 299,2; 31
28,6 - 23,8 Zu =------------ 11 3,6 _ 349,9 - 740,7 z2i - 299,2 1,314; -1,306; 25,2 - 23,8 z2i =----^7------= 0,378 ит.д. Результаты стандартизации представлены в табл. 2.2. Таблица 2.2 Значения стандартизированных признаков № объекта Z1 Z2 1 1,314 -1,306 2 0,378 -0,391 3 -0,254 0,256 4 -1,437 1,441 2. Построим корреляционную матрицу R. Сначала найдем среднее произведения пар признаков: 28,6 349,9 + 25,2 623,8 + 22,9 817,1 + 18,6 1171,8 66233,97 =----------= 16558,49; 4 _ 16558,49 - 3,6 740,7 Г21 — г12 — 3,6-299,2 0,99997. Тогда матрица R имеет вид: r[2x2] = (-0,99997 I этап: —0,99997 1 4 1. Составим и решим характеристическое уравнение: 1 - Л -0,99997 -0,99997 1-Л U; (1 — Л)1 2 — 0,999972 = 0; (1-Л - 0,99997)(1 - Л + 0,99997) = 0; Лг = 1,99997; Л2 = 0,00003. Матрица собственных чисел имеет вид /1,9997 0 \ Л-к 0 0,0003/' 32
2. Вычислим собственные векторы и± и U2. Для = 1,99997 система уравнений примет вид С (1 - 1,9997)1/ц - 0,9997 и12 = 0 1-0,9997 Иц + (1 - 1,9997)ui2 = О’ При 1/ц=1 получим ( «11 = 1 1-0,9997 - 0,9997 и12 = 0; («11 = 1 («12 = — 1- Для Х2 = 0,00003 система уравнений примет вид С (1 - 0,00003)1/21 - 0,99997 и22 = 0 1-0,99997 и21 + (1 - 0,00003)1/22 = 0. При 1/21=1 получим ( «21 = 1 [-0,99997 + 0,99997 и22 = 0; («21 = 1 l«22 = 1- Тогда матрица собственных векторов примет вид }) 3. Получим матрицу нормированный собственных векторов. |t7i | = Д12 + (-1)2 = 1Д14; |[/21 = Vl2 + I2 = 1,414; /-J- ~\ 1,414 1,414 1 _ / 0,707 0,707\ -1 1 / ^-0,707 0,707/ \1,414 1,414/ ^[2X2] II этап. Вычислим матрицу нагрузок главных компонент на исходные признаки по формуле А = 1/Л1/2. / 0,707 0,707\ Д/1-99997 ° 1-0,707 0,707/ \ 0 Д5000зЛ / 0,707 1,414 + 0,707 0 0,707 0 + 0,707 0,005 \ к-0,707 1,414 + 0,707 0 -0,707 0 + 0,707 0,005/ = / 0,9998 0,0039\ “ к-0,9913 0,0039/’ 33
Анализируя матрицу факторных нагрузок, видим, что имеются сильные связи первого и второго признака с первой главной компонентой и слабые связи первого и второго признака со второй главной компонентой. Если отбросить вторую главную компоненту, то доля вариации исходных признаков, объясненной за счет оставшейся первой главной компоненты, будет равна Аг 1,99997 1,99997 ---±— =-------------------=----------= 0,999985. Ai + А2 1,99997 + 0,00003 2 IV этап. Вычислим значения первой главной компоненты. т 1 1 у fki ~ 7 (alk^il 4- Cl2k^i2 4" " + О-тк^ип) 7 / d-jk^ij лк лк k=l (первая главная компонента). i=l (для первого объекта): 1 /и = 7^7 (°-9998 1'314 + (-0,9913) (-1,306)) = 1,304; i=2 (для второго объекта): /12 = 777777 (0,9998 0,378 + (-0,9913) (-0,391)) =0,383; i=3 (для третьего объекта): 1 /12 = 7^77 (°-9998 (-0,254) + (-0,9913) 0,256) = -0,254; i=4 (для четвертого объекта): 1 /14 = г 99997 (°,"98 (-1,437) + (-0,9913) 1,441) = -1,432. Аналогично можно вычислить значения второй компоненты. Полная матрица значений главных компонент показана в табл. 2.3. Таблица 2.3 Матрица главных компонент № объекта F1 F2 1 1,304 -0,408 2 0,383 -2,088 3 -0,254 0,536 4 -1,432 2,088 В дальнейших исследованиях достаточно использовать только первую главную компоненту, т.о. размерность задачи сократилась с 4 х 2 до 4 х 1. 34
Восстановление признаков: zn = 0,998 1,304 + 0,0039 (-0,408) = 1,299801; z12 = 0,998 0,383 + 0,0039 (-2,088) = 0,374091; z13 = 0,998 (-0,254) + 0,0039 (0,536) = -0,2514; z14 = 0,998 (—1,432) + 0,0039 (2,088) = -1,42099; z21 = -0,9913 1,304 + 0,0039 (-0,408) = -1,29435; z22 = -0,99 1 3 0,383 + 0,0039 (-2,088) = -0,38781; z23 = -0,9913 (-0,254) + 0,0039 (0,536) = 0,253881; z24 = -0,99 1 3 (—1,432) + 0,0039 (2,088) = 1,427685. Вращение факторов. Задача вращения факторов (главных компонент) решается с целью улучшения их интерпретируемости. Если факторные нагрузки air в структуре фактора имеют более-менее равномерное распределение, поиск названия этого фактора затрудняется из-за неявности его особенностей. И, наоборот, простая структура фактора, в которой несколько элементарных признаков очевидно доминируют над другими по своей значимости, позволяет определить его название и место в конкретном анализе легко и достаточно надежно. До вращения точки, соответствующие переменным, расположены на удалении от осей факторов. После поворота осей переменные оказываются вблизи осей, что соответствует максимальной нагрузке каждой переменной только по одному фактору. На практике строгая ориентация переменных вдоль осей факторов обычно не достигается, однако операция поворота позволяет приблизиться к желательному результату. Вращение факторов не влияет на математическую строгость анализа: взаимное положение точек (переменных) не меняется при повороте осей. Наиболее простым является ортогональное вращение (угол между осями остается равным 90°). Оно производится умножением матрицы факторных нагрузок на некоторую ортогональную матрицу Т, задающую угол поворота, размерностью г X г по числу факторов. Поворот может задаваться по или против часовой стрелки. Например, для матрицы факторных нагрузок А с числом факторов г = 2: r=/cos(<p) sin(<p)\ r=/cos(<p) -sin (<р)\ \—sin (<p) cos(<p)/ \sin (<p) cos (<p) / вращение по часовой стрелке; против часовой стрелки. 35
Если матрица факторных нагрузок содержит данные более чем по двум факторам, строится несколько матриц преобразования для всех парных комбинаций факторов. Для трехмерной матрицы А будут использоваться три матрицы преобразования: вращение против часовой стрелки (cos(<p) sin(<p) 0 — sin(<p) cos(<p) 0 0\ /cos(<p) 0 j; Т13 = I О 1/ \sin(<p) О 1 О — sin(<p) О cos(<p) 0 cos (<р) sin (<р) ° \ —sin (<р) |. cos (<р) / /1 ^23 = I 0 \0 Полная матрица преобразования для трехмерного случая будет Г = Т12 х Т13 х Т23. Для четырехмерной матрицы А полная матрица преобразования Т будет произведением уже шести матриц вращения: Т = Т12 х Т13 х ?14 Х ^23 Х ^24 Х ^34 При условии ортогонального вращения всегда ТтТ = Е. Пример. Выполним однократный поворот двумерной матрицы факторных нагрузок, полученной методом главных компонент: /0,776 А = 0,904 \0,616 Пусть угол поворота будет sin (30°) „ _ ( cos(30°) сделке. Тогда Т = (3()О) -0,130\ -0,210 . 0,902 / равен 30°, Вращение матрицы факторных нагрузок: /0,776 W = А х Т = 0,904 \0,616 -0,130\ -0,210 х 0,902 / 0,866 —0,5 поворот по часовой 0,5 \ 0,866/ 0,776 0,866 + 0,13 0,5 0,904-0,866 + 0,21-0,5 0,616 0,866 - 0,902 0,5 0,737 0,275\ 0,888 0,270 . 0,082 1,089/ 0,776 0,5 - 0,13 0,866 0,904-0,5-0,21-0,866 0,616 0,5 + 0,902 0,866. 36
В результате вращения получена матрица факторных нагрузок, интерпретируемая проще исходной. В составе первой главной переменной заметно определяющее значение признаков Х1иХ2, во второй - Х3. После перемножения нормированное пространство искажено, т.е. появляются элементы, большие единицы, и может не выполняться равенство £ wfr = Чтобы вернуться к принятым пространственным соотношениям, достаточно нормировать матрицу факторного отображения после поворота W: Wj = ц^.ц- Вопрос достаточности числа поворотов пространства решается с использованием специальных критериев для оценки структуры факторов. Все критерии базируются на представлении величины дисперсии факторных нагрузок как меры сложности структуры факторов. Дисперсия рассчитывается по формуле: г к=1 где ajk - элементы матрицы факторного отображения, величины факторных нагрузок; г - число факторов. Величина дисперсии будет максимальной, когда одно из значений квадратов нагрузки равно общности (в методе главных компонент единице), и все остальные элементы в строке нулевые. В зависимости от выбранного критерия различают следующие наиболее популярные методы ортогонального вращения: Варимакс - критерий вычисляется по формуле _mi7=14-(E7=1^)2 m2 Квартимакс - критерий вычисляется по формуле 47 4 Av’T 2 Л2 Z2jfc=l ajk ~ (2jfc=l ajk) 2 ' m2 7=1 Иногда можно получить лучшую структуру факторов, если изменить угол между осями. Очевидно, после поворота против часовой стрелке примерно на 20° ось займет более рациональное положение, но из-за жесткости осевой конструкции (90 0 между осями) положение F2 удалится от 37
оптимального. В таких случаях к оптимизации положения сразу обеих осей Ft и F2 приводит косоугольное вращение (а Ф 90°). Наличие непрямого угла между осями факторов означает, что они не являются полностью независимыми друг от друга. В реальных исследованиях факторы действительно не являются абсолютно независимыми друг от друга, поэтому отклонение угла между осями факторов от прямого при вращении вполне допустимо. Если в анализе используется косоугольное вращение пространства факторов, то наиболее часто используются методы (критерии) облимакс, квартимин, облимин, промакс. Лабораторная работа № 2 ФАКТОРНЫЙ АНАЛИЗ (МЕТОД ГЛАВНЫХ КОМПОНЕНТ) Цель работы', освоение вычислительных процедур метода главных компонент средствами табличного процессора Excel. Анализ полученных результатов вычислений. Экономическая интерпретация построенных главных компонент. Задача 1. Данные исследования однотипной продукции десяти производителей по трем характерным признакам представлены в табл. 2.4. Таблица 2.4 Исходные данные компонентного анализа Объекты Цена, руб (XI Рекламные вложения, тыс. руб. (Х2) Объем продаж, тыс. шт. (ХЗ) 1 80 25 15 2 100 40 18 3 90 0 10 4 75 10 17 5 120 60 14 6 85 80 26 7 100 10 И 8 70 0 25 9 120 15 6 10 75 5 12 38
Необходимо провести компонентный анализ с целью снижения размерности задачи и исключения мультиколинеарности исследуемых показателей. 1. В табличном процессоре Excel создать таблицу исходных данных (табл. 2.5), вычислить среднее и стандартное отклонение для каждого элементарного признака. Таблица 2.5 Макет таблицы исходных данных в Excel А 1 2 В С исходные данные D Е 3 элементарные признаки 4 объекты цена, руб (XI) рекламные вложения, тыс. руб. (Х2) объем продаж, тыс. шт(ХЗ) 5 1 6 2 7 3 8 4 9 5 10 6 11 7 12 8 13 9 14 10 15 среднее стандартное 16 отклонение 2. Выполнить подготовительный этап (табл. 2.6): стандартизировать элементарные признаки и построить корреляционную матрицу: R = -ZTZ. п 39
Таблица 2.6 Макет таблицы подготовительного этапа компонентного анализа АВ С D Е 18 Подготовительный этап 19 20 1. Автошкалирование (центрирование и нормирование) 21 22 стандартицированные признаки 23 объекты Z1 Z2 Z3 24 1 25 2 26 3 27 4 28 5 29 б 30 7 31 8 32 9 33 10 34 среднее стандартное 35 отклонение 36 37 2. Построение корреляционной матрицы 39 40 R= 41 40
3. На I этапе составить и решить характеристическое уравнение: |Я — ЛЕ[ = О и для каждого корня получить вектор собственных значений. Для этого: 3.1. Сформировать матрицу, определитель которой стоит в левой части характеристического уравнения (табл. 2.7). Затем, используя процедуру Подбор параметра.... найти характеристические числа (3 числа), разместить их в порядке убывания. Таблица 2.7 Составление и решение характеристического уравнения АВ СОЕ 43 Составление и решение характеристического уравнения 44 45 | R - ХЕ| = О 67 определитель|| 6S __________ 69 Х1= I I 41
3.2. Для каждого полученного собственного числа получить собственный вектор (табл. 2.8). Таблица 2.8 Макет таблицы нахождения собственных векторов 77 2. Нахождение собственного вектора для каждого корня характеристического уравнения 7S 79 \U* =0 sfl 1^1 = 1 решений. Для определения конкретного собственного вектора <тора и, обычно, чтобы не усложнять расчетов, ее приравнивают единице. (ull) (U21) (U31) В ячейках B85:D87 и B92:D94 сформировать матрицу (R — Л^Е), в ячейки F92:F94 занести начальные приближения элементов собственного вектора (произвольно). Поскольку система имеет бесконечное множество решений, для получения конкретного собственного вектора необходимо жестко задать значение одного из элементов вектора (например, принять и32 = 1). Используя процедуру Поиск решения..., найти собственный вектор для первого собственного числа. Аналогично найти собственные векторы для остальных собственных чисел. Сформировать матрицу собственных векторов. 3.3. Получить матрицу нормированных собственных векторов и провести проверку (табл. 2.9). Матрицу нормированных собственных векторов получают преобразованием ненормированных собственных векторов U: к = А ' ИМ где || U} ||- норма вектора Uj, т.е. 42
Ill'll = ^Ulj + U2J + + Umj- Таблица 2.9 Формирование матрицы нормированных собственных векторов 129 Матрица собственных векторов принимает вид: 135 3. Нормирование матрицы собственных (характеристических) векторов 136_____________________________________ 137 Норма вектора U1-___________________ 13S Норма вектора U2- 139 Норма вектора U3=___________________ 14С 1-11 Матрица нормированных собственных векторов: 4. На II этапе вычислить матрицу нагрузок главных компонент на исходные признаки (табл. 2.10) по формуле: А = ИЛ1/2. Таблица 2.10 Формирование матрицы нагрузок главных компонент А В С О Е - G Н I j 155 Получение матрицы нагрузок главных компонент на исходные признаки 156 157 А=У*Д:: 15S 43
4.1. Проанализировать полученную матрицу факторных нагрузок. В области B169:D171 выделить цветом частные коэффициенты корреляции, показывающие тесную связь соответствующей главной компоненты с элементарным признаком. Провести проверку вычислений. 4.2. Записать системы линейных уравнений зависимости элементарных признаков и главных компонент (табл. 2.11). Таблица 2.11 Зависимость между признаками и главными компонентами А В С D Е = G Н I 180 Ситемы линейных уравнений зависимости элементарных признаков Zi и главных компонент Fk 131 182 Zl= *F1+ *F2+ •F3 133 Z2= *F1+ *F2+ *F3 134 Z3= *F1+ *F2+ *F3 135 136 Fl= •Z1+ *Z2+ •Z3 / 137 F2= •zi+ ’Z2+ •Z4 / 133 F3= •zi+ *Z2+ •Z5 / 139 19С 5. На III этапе построить матрицу главных компонент (табл. 2.12). Таблица 2.12 Матрица главных компонент A В C D E : G H 1 J < L 191 Построение матрицы главных компонент 192 193 F=A'1’ZT 194 195 F= 196 197 198 199 = 200 2С1 2С2 Более привычной формой записи значений главных компонент является транспонированная матрица F: 2СЗ 2С4 F1 F2 F3 центр распределения главных компонент находится в точке (0,0,...0). Отсюда следует правило равенства суммы элементов каждого столбца матрице 2С5 М 206 п2 2С7 п2 2С8 п4 2С9 п5 210 пб 211 п7 212 п8 213 п9 214 пЮ 215 сумма 44
Определить вклад главных компонент в объяснение суммарной вариации признаков (табл. 2.13). Сделать выводы. Таблица 2.13 Оценка объясняющих способностей главных компонент А В С D Е = • 217 218 Главная компонента F1 F2 F3 219 Собственное число 220 Суммарный вклад, % 221 222 На две первые главные компоненты приходится 95,87% суммарной вариации. 223 224 =21расч =22расч =Z3paC4 225 П1 226 п2 227 п2 228 П4 229 п5 230 пб 231 П7 232 п8 233 п9 234 П10 Построить график «каменистой осыпи». Проанализировать полученные результаты и ответить на вопрос, сколько главных компонент целесообразно оставить в дальнейшем исследовании. Получить расчетные значения стандартизированных элементарных признаков при использовании первых двух главных компонент. Задача 2. Производителями зубной пасты «Беляночка» был проведен опрос 30 респондентов, которые должны были оценить шесть показателей (признаков XI - Х6) пасты по 10-балльной шкале. XI - предотвращает развитие кариеса; Х2 - придает зубам белизну; ХЗ - укрепляет десны; Х4 - освежает дыхание; Х5 - предотвращение порчи зубов не является важным преимуществом зубной пасты; 45
Х6 - способность улучшать внешний вид зубов. Результаты опроса представлены в табл. 2.14. Таблица 2.14 Результаты опроса респондентов по оценке зубной пасты N респондента XI Х2 ХЗ Х4 Х5 Х6 1 7 3 6 4 2 4 2 1 3 2 4 5 4 3 6 2 7 4 1 3 4 4 5 4 6 2 5 5 1 2 2 3 6 2 6 6 3 6 4 2 4 7 5 3 6 3 4 3 8 6 4 7 4 1 4 9 3 4 2 3 6 3 10 2 6 2 6 7 6 И 6 4 7 3 2 3 12 2 3 1 4 5 4 13 7 2 6 4 1 3 14 4 6 4 5 3 6 15 1 3 2 2 6 4 16 6 4 6 3 3 4 17 5 3 6 3 3 4 18 7 3 7 4 1 4 19 2 4 3 3 6 3 20 3 5 3 6 4 6 21 1 3 2 3 5 3 22 5 4 5 4 2 4 23 2 2 1 5 4 4 24 4 6 4 6 4 7 25 6 5 4 2 1 4 26 3 5 4 6 4 7 27 4 4 7 2 2 5 28 3 6 2 6 4 3 29 4 7 3 7 2 7 30 2 3 2 4 7 2 46
Необходимо провести компонентный анализ с целью снижения размерности задачи и исключения мультиколинеарности исследуемых показателей. Дать интерпретацию полученных главных компонент. Лабораторная работа № 3. Компонентный анализ в ППП IBM SPSS STATISTICS Цель работы, формирование навыков проведения многомерного статистического анализа в статистическом пакете прикладных программ IBM SPSS Statistics. В настоящее время одним из лидеров среди универсальных статистических пакетов является SPSS (Statistical Package for the Social Science). IBM SPSS Statistics - это полнофункциональная статистическая система, предназначенная для решения исследовательских и бизнес-задач при помощи анализа данных. Первая версия пакета была выпущена в 1968 г. компанией SPSS Inc. В 2009 г. компания IBM поглотила SPSS Inc. В России существует представительство компании SPSS, которое распространяет русифицированную версию пакета. На русском языке создан электронный учебник по применению пакета, издано множество работ по обучению работе. Интуитивно понятный интерфейс IBM SPSS Statistics включает в себя все функции управления данными, статистические процедуры и средства создания отчетов для проведения анализа любой степени распространенные методы проведение описательной и нелинейных моделей', наиболее данных: линейных сложности. SPSS является модульной программой. Ее основу составляет базовый модуль (SPSS Base), позволяющий осуществлять управление данными и содержащий статистического анализа статистики', построение осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций', построение графиков; подготовка отчетов', визуализация данных и результатов анализа и пр. Около 80% пользователей в разных отраслях находят в составе базового модуля весь необходимый статистический функционал. Процедура факторного анализа в SPSS состоит из четырех основных стадий'. 47
• вычисление корреляционной матрицы для всех признаков (переменных), участвующих в анализе; • извлечение факторов; • вращение факторов для создания упрощенной структуры; • интерпретация факторов. Задача 1. Производителями зубной пасты «Беляночка» был проведен опрос 30 респондентов, которые должны были оценить шесть показателей (признаков) пасты по 10-балльной шкале. Результаты опроса представлены в табл. 2.14. Необходимо провести компонентный анализ с целью снижения размерности задачи и исключения мультиколинеарности исследуемых показателей. 1. Создать файл данных в SPSS. 2. Выбрать команду Анализ/Снижение размерности/Факторный анализ. В появившемся диалоговом окне (рис. 2.1) перенести все переменные (кроме № респондента) из списка доступных переменных в поле Переменные, предназначенное для указания переменных, участвующих в анализе. Факторный Анализ ф. ф предотвращает разе ф придает белизну [Х2] ф укрепляет десны [ХЗ ф освежает дыхание [X ф предотвращение пор ф способность улучшат Переменные: Сбросить Отмена Помощь Выделение I Описания... Извлечение... Вращение... Очки... Установки... Рис. 2.1. Диалоговое окно «Факторный анализ» 48
По кнопке Описательные... войти в диалог Факторный анализ: Описательные (рис. 2.2) и выбрать начальное решение, коэффициенты матрицы корреляции и два критерия: КМО и критерий сферичности Барлетта. КМО (мера выборочной адекватности Кайзера-Мейера-Олкина) - величина, характеризующая степень применимости факторного анализа к данной выборке: более 0,9 - безусловная адекватность; более 0,8 - высокая адекватность; более 0,7 - приемлемая адекватность; более 0,6 - удовлетворительная адекватность; более 0,5 - низкая адекватность; менее 0,5 - факторный анализ неприменим к выборке. Критерий сферичности Барлетта - критерий многомерной нормальности для распределения переменных. С его помощью проверяют, отличаются ли корреляции от 0. Значение р-уровня, меньшее 0,05, указывает на то, что данные вполне приемлемы для проведения факторного анализа. Анализ Фактора: дисперсии Стат I Одномерные дисперсии Начальное решение Матрица корреляции Коэффициенты I Инверсия I Уровни значимости I Воспроизведен. I Определитель I Антиизображение (КМО и испытание Bartlett шарообразности Рис. 2.2. Диалоговое окно «Факторный анализ: дисперсии» По кнопке Извлечение... войти в диалог Факторный анализ: выделение факторов (рис. 2.3) и выбрать метод Главных компонент, анализ матрицы корреляций, вывести неповернутое решение и график 49
собственных значений, выделить фиксированное количество факторов (сначала 6). Анализ Фактора: извлечение [ss-l Метод: Главные компоненты ▼ Продолж Анализ Отображение '• Матрица корреляции Невращаемый Фактор решения ’ Ковариантная матрица [✓ Scree plot Извлечь Собственные । значения нод: Число Факторов: [б Максимум итераций для сходимости: [25 Отмена Помощь Рис. 2.3. Диалоговое окно «Факторный анализ: извлечение» В диалоге Факторный анализ: Вращение (по кнопке Вращение...) отказаться от вращения (рис. 2.4). Анализ Фактора: вращение [ЕЗ-1 Метод Продолж. •Pled ' Quartimax ' Varimax г Equamax ' Прямой Oblimir Promax 1 1 Отображение f Г- Загрузка графика(ов) 1 Отмена Помощь Рис. 2.4. Диалоговое окно «Факторный анализ: вращение» 50
Запустить анализ. Результаты, сгенерированные программой, будут представлены в окне вывода. Внимательно рассмотреть полученные результаты! Общности. Этот показатель равен доле дисперсии переменной, обусловленной совокупным влиянием факторов. Общность можно сравнить с множественным коэффициентом корреляции, принимающим значение 0 в случае, если факторы не влияют на переменную, и значение 1, если дисперсия переменной целиком определяется выделяемыми факторами. Перед началом извлечения факторов единичное значение общности установлено по умолчанию для каждой переменной, участвующей в процедуре факторного анализа. О чем говорят полученные значения критериев КМО и Барлетта? По таблице «Полная объясненная дисперсия» и диаграмме каменистой осыпи (графику собственных значений) сделать выводы: Чему равны собственные значения каждой главной компоненты? Какую долю общей дисперсии объясняет первая главная компонента? Вторая? Третья? Шестая? Сколько главных компонент оставить? Какую долю вариации исходных переменных объяснят оставленные главные компоненты? Главным итогом факторного анализа является матрица факторных нагрузок. По матрице факторных нагрузок определить: • какие главные компоненты оказывают существенную нагрузку на каждый исходный признак? • какие исходные признаки вносят существенный вклад в каждую главную компоненту? Записать полную систему уравнений Z = AF. Записать полную систему уравнений F = ArZ. 3. Повторно провести компонентный анализ, выбрав число главных компонент равное двум. Запросить график факторов (рис 2.5). Провести полный анализ результатов. Рассмотреть график факторов (для удобства он снабжен таблицей координат). Как видно из графика факторов точки, соответствующие переменным, расположены на удалении от осей факторов, т.е. достигнутая структура факторов не дает простой интерпретации смысла каждого фактора. Это же наблюдается и в матрице факторных нагрузок. Идеальная простая структура предполагает, что каждая переменная имеет нулевые значения 51
нагрузок для всех факторов, кроме одного, для которого нагрузка этой переменной близка к 1 (-1). Рис. 2.5. Диалоговое окно «Факторный анализ: вращение» Поэтому требуется осуществить вращение факторов, целью которого является получение простой факторной структуры, которой соответствует большое значение нагрузки каждой переменной только по одному фактору и малое по всем остальным факторам. 4. Провести компонентный анализ, выбрав число главных компонент равное двум и вращение Varimax (рис. 2.6). Анализ Фактора: вращение Метод Нет |_ Quartimax '• Varimax Equamax Прямой Oblimir Promax Отображение г-т Вращаемое . . решение Загрузка графика(ов) Максимум итераций для сходимости: 125 Рис. 2.6. Диалоговое окно «Факторный анализ: вращение» 52
Сохранить индивидуальные значения главных компонент (они будут доступны в окне редактора данных), для чего в диалоге Факторный анализ: Значения факторов установить флажок в поле Сохранить как переменные. Созданные новые переменные, содержащие индивидуальные значения главных компонент, можно использовать в дальнейшем анализе вместо исходных переменных. Провести полный анализ результатов. Сравните графики нагрузок до и после вращения. На какие переменные дает нагрузку первая компонента? Вторая? 5. Дать названия главным компонентам (идентификация). ТЕМА 3. ЗАДАЧИ МНОГОМЕРНОЙ КЛАССИФИКАЦИИ Часто при исследовании больших совокупностей объектов необходимо выявить объекты, близкие между собой в определенном смысле. Например, • производитель товаров массового потребления не ориентируется, как правило, на каждого конкретного потенциального покупателя, а сегментирует рынок, разделяя покупателей на группы (или классы), внутри которых покупатели похожи; • банкам удобно классифицировать заемщиков по уровню кредитоспособности, которая определяется большим числом различных показателей, чтобы задавать лимиты кредитов для групп сходных (близких) между собой заемщиков, а не для каждого конкретного заемщика; • в свою очередь, регулирующие организации классифицируют банки по уровню надежности; • при сравнении стран, регионов, городов по уровню жизни, продукцию различных производителей - по качеству, семей - по структуре потребления и т.п. оказывается удобным отождествлять близкие друг к другу объекты. Приведенные примеры иллюстрируют сущность задач классификации многомерных наблюдений (объектов), которая заключается в разбиении большого числа объектов на однородные группы. 53
Целью методов классификации является исследование внутренней структуры системы и объектов, каждый из которых характеризуется m-мерным вектором признаков, «сжатие» этой системы без существенной потери содержащейся в ней информации путем выявления классов сходных между собой (однородных) объектов и отождествление объектов внутри каждого класса. Кластерный анализ решает задачу классификации объектов при отсутствующей априорной информации о наблюдениях внутри классов, в дискриминантном анализе предполагается наличие такой информации. Среди прикладных задач, решаемых указанными методами, отметим следующие: • проведение классификации объектов с учетом большого числа признаков, отражение их природу; • выявление структуры изучаемой совокупности объектов; • снижение объема выборки путем отождествления каждого класса объектов с его типичным представителем; • снижения размерности пространства путем отождествления близких признаков (в этом случае классифицируются не объекты, а признаки); • построение отдельных регрессионных моделей в каждом классе объектов, что позволяет избавиться от гетероскедастичности (явление, когда дисперсия остатков регрессии сильно изменяется от класса к классу). Классификация объектов исследования, проведенная по факторам или главным компонентам, полученным в результате снижения размерности исходного пространства признаков, оказывается более объективной, чем классификация тех же объектов по исходным признакам. Кластерный анализ Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных Х1,Х2,... ,Хт. Целью кластерного анализа является образование групп схожих между собой (однородных) объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, 54
пучок, группа. Родственные понятия, используемые в литературе, - класс, таксон, сгущение. Принцип образования групп (кластеров), используемый в кластерном анализе, называется политетический подход. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько групп целесообразно выделить в исследуемой совокупности. Первые публикации по кластерному анализу появились в конце 30-х годов XX века, но активное развитие этих методов и их широкое использование началось в конце 60-х - начале 70-х годов. В дальнейшем это направление многомерного анализа очень интенсивно развивалось. Методы кластерного анализа позволяют решать следующие задачи: • проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов; • проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры; • построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру. Методы кластерного анализа можно разделить на две большие группы: агломеративные (объединяющие, методы слияния) и дивизимные (разделяющие, методы дробления). Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры), а дивизимные методы расчленяют группы на отдельные объекты. В свою очередь, каждый метод как объединяющего, так и разделяющего типа может быть реализован при помощи различных алгоритмов. В кластерном анализе существуют также методы, которые трудно отнести к первой или ко второй группе. Например, итеративные методы, в частности метод k-средних и метод поиска сгущений. Их характерная особенность в том, что кластеры формируются исходя из задаваемых условий разбиения (параметров), 55
которые в процессе работы алгоритма могут быть изменены исследователем для достижения желаемого качества разбиения. В отличие от агломеративных и дивизимных методов итеративные методы могут привести к образованию пересекающихся кластеров, когда один объект может одновременно принадлежать нескольким кластерам. Меры сходства. Для проведения классификации необходимо ввести понятие сходства объектов по наблюдаемым признакам (переменным). В каждый кластер (класс) должны попасть объекты, имеющие сходные характеристики. Однородными, принадлежащими одной и только одной группе считаются объекты, наблюдаемые признаки которых находятся в непосредственной близости друг от друга, а неоднородными - объекты, находящиеся, судя по тем же признакам, на удалении друг от друга сверх установленной нормы. В кластерном анализе для количественной оценки сходства вводится понятие метрики. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается m признаками, то он может быть представлен как точка в m-мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе используются различные меры (метрики) расстояния между объектами: евклидово расстояние взвешенное евклидово расстояние хеммингово расстояние {city-block) расстояние Минковского 56
Расстояние Чебышева — rnaxxjfc — х,к к=1,т где dij - расстояние между i-м и j-м объектами; xik , xjk ~ значение k-го признака (k-й переменной) у i-ro и j-ro объекта соответственно; wk - вес k-го признака (k-й переменной). Пример. Определить сходство между 4 предприятиями, если каждое из них характеризуется тремя признаками: Хг - производство продукции, млрд, руб.; Х2 - стоимость основных производственных фондов, млрд, руб.; Хэ - фонд заработной платы промышленно- производственного персонала, млрд, руб (табл. 3.1). Таблица 3.1 Матрица исходных данных № п/п Xi %2 *3 1 32,5 40,3 3,5 2 38,4 46,8 4,3 3 16,7 25,7 2,0 4 42,3 44,0 4,5 Построим матрицу евклидовых расстояний. Расстояния между парами объектов при этом представляются обычно в виде симметричной матрицы D (табл. 3.2). Таблица 3.2 Матрица близостей № п/п 1 2 3 4 1 0 8,81 21,55 10,36 2 8,81 0 30,35 30,48 3 21,55 30,35 0 31,57 4 10,36 30,48 31,57 0 Как видно, самыми «близкими» являются 1-е и 2-е предприятия (d12 = 8,81), а самыми «дальними» - 3-е и 4-е предприятия (d34 = 31,57). Однако будет ли адекватным результат кластерного анализа, если переменные (признаки) имеют различные шкалы измерения? Оценка сходства между объектами сильно зависит от абсолютного значения признака и от степени его вариации в совокупности. Чтобы устранить подобное влияние на процедуру классификации, применяют процедуру нормирования признаков одним из следующих способов: 57
1. Zij = — 3 z = -±- 4 z = 4 Aj Amin j 2. ztj = J Y лтах j Посмотрим на нашем примере, как скажется нормирование исходных переменных на мерах сходства между объектами. Приведем все переменные к стандартной z-шкале (среднее равно нулю, стандартное отклонение - единице) по формуле Zj,- = Xj (табл. 3.3). °'; Таблица 3.3 Матрица стандартизированных значений признаков № п/п Z1 Z3 1 0,00205 0,13530 -0,10204 2 0,60718 0,93481 0,71429 3 -1,61846 -1,66052 -1,63215 4 1,00718 0,59041 0,91837 Новая матрица расстояний представлена в табл. 3.4. Таблица 3.4 Матрица близостей с учетом стандартизации признаков_____ № п/п 1 2 3 4 1 0 1,29 2,86 1,5 2 1,29 0 13,20 0,56 3 2,86 13,20 0 4,30 4 1,5 0,56 4,30 0 После нормирования значений исходных признаков самыми близкими стали 2-е и 4-е предприятия (d24 = 0,56), а самыми «дальними» - 2-е и 3-е предприятия (d23 = 13,2). Вопрос о придании переменным веса должен решаться исследователем после проведения тщательного анализа изучаемой совокупности и социально-экономической сущности классифицируемых переменных. Вес задается пропорционально степени важности переменных. Например, если для классификации предприятий используются переменные: : Х± - прибыль предприятия; Х2 - выработка продукции на одного работающего; Х3 - среднегодовая стоимость основных производственных фондов, то можно переменным задать вес пропорционально степени их важности для эффективности работы предприятия: wX1 = 0,6; w%2 = 0,3; wX3 = 0,1. Тогда евклидово расстояние между i-м и j- м объектами будет определяться по формуле 58
dij = Jo,6(xi! - хл)2 + 0,3(xi2 - xj2)2 + 0,6(xl3 - x73)2. При нормализации всех переменных при проведении кластерного анализа их вес становится одинаковым. В случае, если все переменные имеют одну и ту же шкалу измерения либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно. Выбор меры расстояния и веса для классифицирующих признаков (переменных) - очень важный этап кластерного анализа, так как от этих процедур зависят состав и количество формируемых кластеров, а также степень сходства объектов внутри кластеров. Для оценки однородности объектов в пространстве разнотипных признаков (качественных и количественных) обычно используют не расстояние между объектами, а меру их сходства, в качестве которой могут быть использованы: • линейные коэффициенты корреляции; • коэффициенты ранговой корреляции; • коэффициенты контингенции и т.д. Иерархический кластерный анализ. Из всех методов кластерного анализа самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на нулевом шаге каждый объект выборки рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний (или матрицы сходства) объединяются наиболее близкие объекты (кластеры). Если матрица расстояний первоначально имеет размерность т х т, мо полностью процесс кластеризации завершается за т — 1 шагов, в итоге все объекты будут объединены в один кластер. Последовательность объединения может быть представлена в виде графа-дерева (дендрограммы). На дендрограмме указываются номера объединяемых объектов и расстояния (или другая мера сходства), при котором произошло объединение. Дендрограмма показывает, что на первом шаге были объединены в один кластер объекты 2 и 3, расстояние между ними 0,15. На втором шаге к ним присоединился объект 1. Расстояние от 1-го объекта до кластера, содержащего объекты 2 и 3, было равно 0,3. На третьем шаге были объединены в один кластер объекты 5 и 6, 59
расстояние между ними 0,34. На втором шаге к ним присоединился объект 4. Расстояние от 4-го объекта до кластера, содержащего объекты 5 и 6, было равно 0,5. На последнем, пятом, шаге все объекты объединились в один кластер, при этом расстояние между первым (содержащим объекты 1, 2 и 3) и вторым (содержащим объекты 4, 5 и 6) составляло 0,8. Множество методов иерархического кластерного анализа различается не только используемыми мерами сходства, но и алгоритмами классификации (способами вычисления расстояния между кластерами). Наиболее распространены следующие способы измерения расстояний между кластерами'. • Метод ближнего соседа (метод одиночной связи)', de с = min du; Степень сходства оценивается по степени сходства между наиболее схожими (ближайшими) объектами объединяемых кластеров. • Метод дальнего соседа (метод полных связей); dsr,s2 = . max dij ; ieS1,jeS2 Степень сходства оценивается по степени сходства между наиболее отдаленными (несхожими) объектами объединяемых кластеров. • метод средней связи (межгрупповые связи); , Xie.S', X/'eS, d-tj dS1,s2=----1----2— nSi ’ ns2 где ns и п$2 - количество объектов в кластерах Sj и S2 соответственно. Степень сходства оценивается как средняя величина степеней сходства между объектами объединяемых кластеров. • Центроидный метод (измеряется расстояние между «центрами тяжести» кластеров): dsr,s2 = d(xS1,xS2) где xs - среднее арифметическое векторных наблюдений хр ^ieS1 xi Х-У =------- nSi • Метод медианной связи - расстояние между любым кластером S и новым кластером, который получился в результате 60
объединения кластеров Р и Q, определяется как расстояние от центра кластера S до середины отрезка, соединяющего центры кластеров Р и Q. Наряду с приведенными формулами расстояние между кластерами и S2©3 (кластер, объединяющий кластеры S2 и S3) можно вычислить по общей формуле: dSi,s2®3 = + as3dsr,s3 + Pds2,s3 + Y|dS1 ,s2 ~ dS1>s31. в которой значения параметров aSi, aS2, ,у зависят от используемого метода определения расстояний между кластерами (табл. 3.5). Таблица 3.5 Параметры расстояния между кластерами в соответствии с методом Метод Параметры %, %, P Y ближнего соседа 0,5 0,5 0 -0,5 дальнего соседа 0,5 0,5 0 0,5 средней связи ns2 nS2+ns. ns3 nS2+ns. 0 0 центроидный ns2 nS2+ns. ns2 nS2+ns^ 0 медианной связи 0,5 0,5 -0,25 0 • Метод Варда (Уорда). Рассмотрим пример. Пусть имеется пять магазинов небольшой розничной сети, торгующей холодильниками и стиральными машинами. Работа магазина характеризуется двумя признаками: - количество холодильников, проданных за неделю, Х2 - количество стиральных машин, проданных за неделю (табл. 3.6). Таблица 3.6 Характеристики продаж сетевых магазинов № n/n 1 4 3 2 7 4 3 2 0 4 2 1 5 0 4 За метрику расстояний примем квадрат евклидова расстояния. Тогда матрица расстояний будет иметь вид, представленный в табл. 3.7. 61
Таблица 3.7 Исходная матрица расстояний 1 2 3 4 5 7 0 10 13 8 17 2 10 0 41 34 49 3 13 41 0 1 20 4 8 34 1 0 13 5 17 49 20 13 0 Метод ближнего соседа. На первом шаге наименьшее расстояние имеем между 3 и 4 объектами (d34 = 1), объединяем их в один кластер Зф4 на уровне 1. Расстояние между 1-м объектом и кластером Зф4 определяется следующим образом: <713 = 13;d14 = 8, выбираем наименьшее, следовательно, di(3©4) = 8. Аналогично, d23 = 41;d24 = 34, выбираем наименьшее, следовательно, ^г(з©4) = 34. d35 = 20;d45 = 13, выбираем наименьшее, следовательно, ^(3©4)5 = 13. Новая матрица расстояний имеет вид: 1 2 Зф4 5 1 0 10 8 17 2 10 0 34 49 Зф4 8 34 0 13 5 17 49 13 0 На втором шаге наименьшее расстояние между 1-м объектом и кластером Зф4. Объединяем их в один кластер на уровне 8 и пересчитываем матрицу расстояний: d42 = 10; <^2(з©4) = 41 ,следовательно, d2(i©(3©4)) = Ю. d15 = 17; d3©45 = 13 ,следовательно, d(i©(3©4)) 5 = 13. Матрица расстояний после второго шага принимает следующий вид: ________________________________ 1ф(3®4) 2 5 1®(3®4) 0 10 13 2 10 0 49 5 13 49 0 62
На этом этапе имеем кластер, в который вошли 1-й, 3-й и 4-й магазины, и два отдельно стоящих магазина: 2-й и 5-й. На третьем шаге наименьшее расстояние между 2-м объектом и кластером 1ф(3ф4), добавляем 2-й объект в кластер на уровне 10 и пересчитываем матрицу расстояний: (1ф(3ф4))ф2 5 (1ф(3ф4))ф2 0 13 5 13 _0 На последнем шаге объединяем все объекты в один кластер на уровне 13. Поскольку данный метод объединяет кластеры, в которых расстояние между ближайшими элементами минимально по сравнению с другими кластерами, то два объекта попадают в один кластер, если существует соединяющая их цепочка ближайших друг к другу объектов (цепочечный эффект). Поэтому метод ближайшего соседа называют методом одиночной связи. Для устранения цепочечного эффекта задают некоторый уровень - предельное расстояние. Тогда объект, который имеет минимальное расстояние с одним из объектов кластера, включается в кластер, если его расстояние до любого другого объекта кластера не больше заданного уровня. Формирование первого кластера продолжают до тех пор, пока нельзя будет найти объект, расстояние от которого до любого другого объекта кластера не превзойдет заданного предельного уровня. Формирование второго и последующих кластеров осуществляется из оставшихся объектов аналогичным образом. Метод дальнего соседа. Исходная матрица расстояний показана в табл. 3.7. На первом шаге наименьшее расстояние имеем между 3 и 4 объектами (d34 = 1), объединяем их в один кластер Зф4 на уровне 1. Расстояние между 1-м объектом и кластером Зф4 определяется следующим образом: d13 = 13;d14 = 8, выбираем наибольшее, следовательно, di(3©4) = 13. Аналогично, d23 = 41;d24 = 34, выбираем наибольшее, следовательно, ^2(з©4) = 41. d35 = 20; d45 = 13, выбираем наименьшее, следовательно, d(3©4)5 = 20. Таким образом, получаем новую матрицу расстояний: 63
1 2 Зф4 5 1 0 10 13 17 2 10 0 41 49 Зф4 13 41 0 20 5 17 49 20 0 На втором шаге наименьшее расстояние имеем между 1 и 2 объектами (d12 = 10), объединяем их в один кластер 1ф2 на уровне 10. Пересчитываем матрицу расстояний (табл. 3.12): d13 = 13; d14 = 8; d23 = 41; d24 = 34, выбираем максимальное, следовательно,расстояние между кластерами 1ф2 и Зф4: ^(1®2)(3®4) = 41. d15 = 17; d25 = 49, выбираем наибольшее, следовательно, расстояние между кластером 1ф2 и 5-м объектом: cf(i©2)5 = 49. Матрица расстояний после второго шага принимает вид: 1Ф2 Зф4 5 1Ф2 0 41 49 Зф4 41 0 20 5 49 20 0 На третьем шаге наименьшее расстояние имеем между 5-м объектом и кластером Зф4, объединяем их на уровне 20. Пересчитываем матрицу расстояний: 1Ф2 (Зф4)ф5 1Ф2 0 49 (Зф4)ф5 49 0 На четвертом шаге объединяем все объекты на уровне 49. В этом методе объединяются кластеры, в которых минимально расстояние между самыми далекими друг от друга объектами. Это означает, что все остальные объекты в полученном после объединения кластере связаны еще теснее, чем «соседи». Поэтому методом дальнего соседа называют методом полной связи. Метод средней связи. Исходная матрица расстояний представлена в табл. 3.7. На первом шаге наименьшее расстояние имеем между 3 и 4 объектами (d34 = 1), объединяем их в один кластер Зф4 на уровне 1. Расстояние между 1-м объектом и кластером Зф4 определяется следующим образом: d13 = 13;d14 = 8, вычисляем среднее 1 т 13 + 8 „ „ _ арифметическое: стцз©4) — —”— — 10,5. 64
41 + 34 Аналогично, d23 = 41;d24 = 34, , следовательно, Й2(з©4) =--------- 37,5. 20 + 13 d33 — 20;d45 — 13,, следовательно, фзф4)ь = ~ 16,5. Новая матрица расстояний: 1 2 3©4 5 1 0 10 10,5 17 2 10 0 37,5 49 3©4 10,5 37,5 0 16,5 5 17 49 16,5 0 На втором шаге наименьшее расстояние имеем между 1 и 2 объектами (d12 = 10), объединяем их в один кластер 1©2 на уровне 10. Пересчитываем матрицу расстояний (табл. 3.15). d13 = 13; d14 = 8; d23 = 41; d24 = 34, находим среднее арифметическое этих расстояний, следовательно, расстояние между -1л 13 + 8+41 + 34 о . кластерами 1®2 и 3®4: d(i©2)(3©4) —----------— 24. Матрица расстояний после второго шага: 1©2 3©4 5 1©2 0 24 33 3©4 24 0 16,5 5 33 16,5 0 d15 = 17; d25 = 49, следовательно, расстояние между кластером 1©2 и 5-м объектом: с/(1©2)5 = = 33. На третьем шаге наименьшее расстояние имеем между 5-м объектом и кластером 3©4, объединяем их на уровне 16,5. Пересчитываем матрицу расстояний (табл. 3.16): _ d13 + d14 + d15 + d23 + d24 + d25 d(lffi2)((3©4)©5) - & 13 + 8 + 17 + 41 + 34 + 49 = 27. 6 Матрица расстояний после третьего шага: 1©2 (3©4)©5 1©2 0 27 (3©4)©5 27 0 На четвертом шаге объединяем все объекты на уровне 27. 65
Центроидный метод. Исходная матрица расстояний представлена в табл. 3.7. На первом шаге наименьшее расстояние имеем между 3 и 4 объектами (d34 = 1), объединяем их в один кластер Зф4 на уровне 1. Расстояние между 1-м объектом и кластером Зф4 определяется следующим образом: • находим центр кластера Зф4: %3i = 2; х41 = 2 х(з©4)1 = 2; х32 = 0; х42 = 1 х(3©4)2 = • находим расстояние между 1-м объектом и центром кластера Зф4: ^1(з©4) = (хи — х( з©4)1) + (х12 — х( з©4)г) = (4 — 2)2 + (3 — 0,5)2 = 10,25 Аналогично находим расстояние между кластером Зф4 и 2-м объектом, 5-м объектом: ^2(3©4) = (х21 — х( 3©4)1) + (х22 — х( з©4)г) = (7 ~ 2)2 + (4 — 0,5)2 = 37,25 ^(3©4)5 = (Х( 3©4)1 — Х51) + (х( 3©4)2—Х5г) = (2 — О)2 + (0,5 — 4)2 = 16,25 Полученная матрица расстояний имеет вид:_____ 1 2 Зф4 5 1 0 10 10,25 17 2 10 0 37,25 49 Зф4 10,25 37,25 0 16,25 5 17 49 16,25 0 На втором шаге наименьшее расстояние имеем между 1 и 2 объектами (d12 = 10), объединяем их в один кластер 1ф2 на уровне 10. Пересчитываем матрицу расстояний: • находим центр кластера 1ф2: Хц = 4; х21 = 7 -> х(1©2)1 = 5,5; *12 = 3; х22 = 4 x(i©2)2 = 3,5. • находим расстояние между центрами кластеров 1ф2 и Зф4: <^(1©2)(3©4) = (х( 1©2)1 — х( 3©4)1) + (х( 1©2)2 — х( 3©4)г) = (5,5 - 2)2 + (3,5 - 0,5)2 = 21,25; 66
• находим расстояние между центром кластера 1ф2 и 5-м объектом: ^(1ф2)5 = (х( 1ф2)1 — х51) + (х( 1®2)2— х5г) = (5,5 - О)2 + (3,5 - 4)2 = 30,5. Пересчитанная матрица расстояний: 1ф2 3®4 5 1ф2 0 21,25 30,5 3®4 21,25 0 16,25 5 30,5 16,25 0 На третьем шаге наименьшее расстояние имеем между 5-м объектом и кластером Зф4, объединяем их на уровне 16,25. Пересчитываем матрицу расстояний: • находим центр кластера Зф4ф5: %31 = 2; х41 = 2; х51 = 0 -> х(з®4ф5)1 = 1,33; х32 = Х42 = 1; Х52 = 4 -> Х( Зф4ф5)2 = 1,67. • находим расстояние между центрами кластеров 1ф2 и 3©4©5: ^(1 ф 2)(3 ф 4ф5) = (х(1ф2)1 — х(3ф4ф5)1) + (х(1ф2)2 — х(3ф4ф5)2) = (5,5 - 1,33)2 + (3,5 - 1,67)2 = 20,74. Матрица расстояний после третьего шага: 1©2 (3®4)®5 1©2 0 20,74 (3®4)®5 20,74 0 На четвертом шаге объединяем все объекты на уровне 20,74. Если число кластеров заранее известно, то классификацию заканчивают, как только будет сформировано разбиение с нужным числом кластеров. При неизвестном числе кластеров правило остановки связывают с понятием порога, т.е. некоторого расстояния d0, определяемого условиями конкретной задачи. Например, если do=L(n-iy j>i (в нашем примере d0 = 20,6), то метод ближнего соседа объединит все пять объектов в один кластер, а остальные три метода сформируют два кластера: 1 ф 2 и (Зф4)ф5. 67
Предварительно оценить число кластеров также можно, проследив динамику увеличения расстояний объединения по шагам кластеризации. Необходимо определить шаг, на котором было обнаружено резкое возрастание расстояния объединения. Оптимальному числу классов соответствует разность между числом объектов и порядковым номером шага, на котором было обнаружено резкое возрастание расстояний. Метод Уорда. Данный метод предполагает, что на первом шаге каждый кластер состоит из одного объекта. Первоначально объединяются два ближайших кластера. Для них определяются средние значения каждого признака (центр нового кластера) и рассчитывается сумма квадратов отклонений значений признаков от центра: Пк Р Vk ~ '(*tj — Xkj) I i=l7=1 где к - номер кластера; i - номер объекта; j - номер признака; р - количество признаков, характеризующих каждый объект; пк - количество объектов в -м кластере. В дальнейшем на каждом шаге работы алгоритма объединяются те объекты или кластеры, которые дают наименьшее приращение величины Vk. Метод Уорда приводит к образованию кластеров приблизительно равных размеров с минимальной внутрикластерной вариацией. В итоге все объекты оказываются объединенными в один кластер. Исходная матрица расстояний представлена в табл. 3.7. На первом шаге наименьшее расстояние имеем между 3 и 4 объектами (d34 = 1), объединяем их в один кластер Зф4. Вычислим Изф4. Для этого находим центр кластера Зф4: х34 — 2; ^41 ~ 2 ► — 2; Х32 — 0; ^-42 — — 0,5. ^3®4 = [(Х31 — Х( 3®4)1) + (х32 — Х( 3®4)г)2] + [(х41 — *(з®4)1)2 + (*42 -*(з®4)2)2] = [(2 - 2)2 + (0 - 0,5)2] + [(2 - 2)2 + (1 - 0,5)2] = 0,5. Одним из недостатков метода является необходимость перебора всех возможных вариантов включения новых объектов в кластер. 68
На втором шаге рассмотрим все возможные варианты образования новых кластеров или присоединения к имеющемуся кластеру 3®4 нового объекта. 1. Если объединить в один кластер объекты 1 и 2, то находим центр кластера 1®2: хи = 4; х21 = 7 *(i®2)i = 5,5; *12 = 5; *22 = 4 *( 1ф2)2 = 5,5. ^1ф2 = [(*11 — *( 1 ф 2)1) + (*12 — *( 1 ф 2)г)2] + (*21 — *( 1 ф 2)1) + (*2 2 — *( 1ф2)г)2] = (4 - 5,5)2 + (3 - 3,5)2] + [(7 - 5,5)2 + (4 - 3,5)2] = 5 2. Если объединить в один кластер объекты 1 и 5, то находим центр кластера 1®5: *ii = 4; *51 = 0 -> *( i®5)i = 2; *12 = 3; *52 =4 *( 1ф5)2 = 3,5. ^1ф5 = [(*11 - *( 1 ф 5)1) + (*12 — *( 1 ф 5)2)2] + (*21 — *( 1 ф 5)1) + (*2 2 — *( 1ф5)г)2] = i(4 - 2)2 + (3 - 3,5)2] + [(0 - 2)2 + (4 - 3,5)2] = 8,5 3. Если объединить в один кластер объекты 2 и 5, то находим центр кластера 2®5: *21 = 2; *51 = 0 -> *(2®5)i = 3,5; *22 = 4; *52 = 4 *(2ф5)2 = 4- 21—*(2ф5)1) + (*22 — *( 2ф5)г)2] ^2ф5 - = [(7 - 3,5)2 + (4 - 4)2] + [(0 - 3,5)2 + (4 - 4)2] = 24,5. 4. Если добавить в кластер 3®4 объект 1, то находим центр кластера 1®3®4: *11 = 4; *31 = 2; х41 = 2 *(1фз®4)1 = 2,67; *12 = 5; *32 = 0; х42 = 1 *(1фз®4)2 = 1,33. 69
^1©3©4 — [(х11 — х( 1©3©4)1) + (х12 — х( 1©3©4)2)2] + (_х31 “ x(lffi3ffi4)lJ + (х32 — х( 1©3©4)г) + (%41 — *( 1©3©4)1) + (%42 — *( 1©3©4)г)2 = {4 - 2,67)2 + (3 - 1,33)2] + [(2 - 2,67)2 + (0 - 1,33)2] + [(2 - 2,67)2 + (1 - 1,33)2] = 7,33. 5. Если добавить в кластер Зф4 объект 2, то находим центр кластера 2фЗф4: Х21 = *31 = 2; х41 = 2 х(г©з©4)1 = 3,67; х22 = 4; х32 = 0; Х42 = 1 х(2©3©4)2 = 1,67. ^2©3©4 = [(х21 — х( 2©3©4)1) + (х22 — *( 2©3©4)г)2] ГЛ - Л2 - 2 + (_х31 — х(2©3©4)1) + (х32 — х( 2©3©4)г) + (х41 — Х( 2©3©4)1) + (%42 — *( 2©3©4)г)2 = (7 - 3,67)2 + (4 - 1,67)2] + [(2 - 3,67)2 + (0 - 1,67)2] + [(2 - 3,67)2 + (1 - 1,67)2] = 25,33. 6. Если добавить в кластер Зф4 объект 5, то находим центр кластера 5фЗф4: х51 = 0; х31 = 2; х41 = 2 х(5©з©4)1 = 1*33; Х52 = 4; Х32 = 0; Х42 = 1 х(5©3©4)2 = 1,67. ^5©3©4 = [(х51 — х( 5©3©4)1) + (х52 — *( 5©3©4)г)2] Гх _ \2 _ 2 + (_х31 — х(2©3©4)1) + (Х32 — Х(2©3©4)г) Гл - Л2 - 2 + (_х41 — х( 2©3©4)1) + (х42 — х( 2©3©4)2) = i(0 - 1,3З)2 + (4 - 1,67)2] + [(2 - 1,3З)2 + (0 - 1,67)2] + [(2 - 1,33)2 + (1 - 1,67)2] = 11,33. Таким образом, наименьшее приращение = 5 дает объединение 1 и 2 объектов в новый кластер. После второго шага имеем два кластера Зф4и1ф2, а также отдельный объект 5. На третьем шаге перебираем варианты объединения этих трех элементов. 1. Если объединить кластеры 1 ф 2 и 3 ф 4, то 70
Хц — 4; х21 — 7; х31 — 2; х41 — 2 Х(1ф2фзф4)1 = 3,75; Xi2 — 3; х22 — 4; х32 — 0; х42 — 1 Х(1ф2фзф4)2 — 2. ^1®2®3®4 = [(х11 — *(1ф2фЗф4}1) + (х12 — *( 1®2®3®4)г)2] Г, д2 _ £ + (х21 — Х( 1®2®3®4)1J + (х22 — %(1®2®3®4)2) + (*31 “ *(1ф2фЗф4)1) + (х32 — *(1® 2®3®4)г)2 + (Х41 — Х(1® 2®3®4)1) + (Х42 — *(1®2фЗ®4)2)2 = i(4 - 3,75)2 + (3 - 2)2] + [(7 - 3,75)2 + (4 - 2)2] + [(2 - 3,75)2 + (0 - 2)2] + [(2 - 3,75)2 + (1 - 2)2] = 26,75. 2. Если добавить объект 5 в кластер 1 ф 2, то Хц = 4; х21 = 7; х51 = 0 x(i®5)i = 3,67; Х12 = 3; х22 = 4; х52 =4 -> х(1ф5)2 = 3,67. ^1ф2ф5 = [(х11 — Х(1ф2ф5}1) + (х12 — *(1®2®5)2)2] + (х21 — *( 1®2®5)1) + (%22 — *( 1®2®5)2)2 + (х51 — х( 1ф2ф5)1) + (%52 — *( 1®2®5)2)2 = (4 — 3,67)2 + (3 - 3,67)2] + [(7 - 3,67)2 + (4 - 3,67)2] + [(0 - 2)2 + (4 - 3,67)2] = 25,33 3. Если добавить объект 5 в кластер 3 ф 4, то Езф4ф5 = 11, 33. Этот вариант уже просчитывался на шаге 2. Таким образом, на третьем шаге добавляем объект 5 в кластер 3 ф 4 и имеем два кластера 1 ф 2 и Зф4ф5. На четвертом шаге объединяем все объекты в один кластер. При этом центр этого кластера будет Х(1ф2фЗ ®4®5)1 = 3; Х(1ф2фз Ф 4ф5)2 = 2,4. ^1ф2фЗф4ф5 = 41, 2. Использование различных алгоритмов объединения в иерархических агломеративных методах приводит к различным кластерным структурам и сильно влияет на качество проведения кластеризации. Поэтому алгоритм должен выбираться с учетом имеющихся сведений о существующей структуре совокупности наблюдаемых объектов или с учетом требований оптимизации математических критериев. 71
Иерархические дивизимные методы. Кроме рассмотренных агломеративных методов иерархического кластерного анализа существуют методы, противоположные им по логическому построению процедур классификации. Они называются иерархическими дивизимными методами. В дивизимных методах первоначально все объекты принадлежат к одному кластеру. В процессе классификации по определенным правилам постепенно от этого кластера отделяются группы схожих между собой объектов. Таким образом, на каждом шаге количество кластеров возрастает, а мера расстояния между кластерами уменьшается. Пример. Пусть матрица расстояний между объектами имеет вид, показанный в табл. 3.20. На первом шаге наиболее удаленными являются объекты 2 и 5 (d25 = 49). Рассмотрим расстояния от оставшихся объектов до 2-го и 5-го объектов: d12 < dis - первый объект ближе ко второму, чем к пятому; d32 > d35 - третий объект ближе к пятому, чем ко второму; d42 > <^45 _ четвертый объект ближе к пятому, чем ко второму; Исходная матрица расстояний: 1 2 3 4 5 1 0 10 13 8 17 2 10 0 41 34 49 3 13 41 0 1 20 4 8 34 1 0 13 5 17 49 20 13 0 Таким образом, на уровне 49 один общий кластер разбивается на два кластера: 1ф2 и 3©4©5. Далее, в каждом из образовавшихся кластеров анализируем расстояния между объектами, в каждом классе, и на очередном шаге происходит деление того кластера, где достигается максимум расстояний между объектами. На втором шаге d12 = 10; d34 = 1; d35 = 20; d45 = 13. Наибольшее расстояние между 3 и 5 объектами, значит, на уровне 20 кластер 3©4©5 разделится на два. Проанализируем, в каком из вновь отделившихся кластеров останется 4 объект. d34 < ^45 - четвертый объект ближе к третьему, чем к пятому. Таким образом, теперь имеем три кластера: 1ф2, 3©4 и 5. 72
На третьем шаге <^12 ~ ^34 ~ Значит, на уровне 10 кластер 1ф2 разбивается на два: 1 и 2. На четвертом шаге на уровне 1 кластер Зф4 разделяется на 3 и 4. Метод k-средних. Метод к-средних принадлежит к группе итеративных методов эталонного типа. Название метода было предложено Дж. Мак-Куином в 1967 г. Метод удобен для обработки больших статистических совокупностей. Пусть имеется п наблюдений (объектов) Olt О2, —,Оп, каждое из которых характеризуется m признаками Х1,Х2, — ,Хт. Необходимо разбить эти п наблюдений на к кластеров. Сначала из п точек исследуемой совокупности отбираются случайным образом или задаются исследователем исходя из каких- либо соображений к точек (объектов). Эти точки принимаются за эталоны. Каждому эталону присваивается порядковый номер, который одновременно является и номером кластера. На первом шаге из оставшихся (п — к) объектов извлекается точка Oj с координатами (xli,x2i, ...,xmi) и проверяется, к какому из эталонов (центров) она находится ближе всего. Для этого используется одна из метрик, например евклидово расстояние. Проверяемый объект присоединяется к тому эталону (центру), которому соответствует min(р = 1, ...,/с). Если встречаются два или более минимальных расстояния, то i-ый объект присоединяется к центру с наименьшим порядковым номером. Эталон заменяется новым, пересчитанным с учетом присоединенной точки, и вес его (количество объектов, входящих в данный кластер) увеличивается на единицу. На следующем шаге выбирают точку (Д+1 и для нее повторяют всю процедуру. Таким образом, через (п — к) шагов все точки (объекты) совокупности окажутся отнесенными к одному из к кластеров, но на этом процесс разбиения не заканчивается. Для того чтобы добиться устойчивости разбиения по тому же правилу, все точки О1,О2,...,Оп опять присоединяются к полученным кластерам, при этом веса продолжают накапливаться. Новое разбиение сравнивается с предыдущим. Если они совпадут, то работа алгоритма завершается. В противном случае цикл повторяется. 73
Окончательное разбиение имеет центры тяжести, которые не совпадают с эталонами, их можно обозначить С1(С2, ...,Ск. При этом каждая точка Oj(i = 1, ...,ri) будет относиться к такому кластеру р, для которого d(O;,Cp) = тД d(Oi,C7). Возможны две модификации метода k-средних. Первая предполагает пересчет центра тяжести кластера после каждого изменения его состава, а вторая - лишь после того, как будет завершен просмотр всех данных. В обоих случаях итеративный алгоритм этого метода минимизирует дисперсию внутри каждого кластера, хотя в явном виде такой критерий оптимизации не используется. Пример. Пусть имеются шесть объектов, которые необходимо разбить на три класса (кластера) при помощи метода к-средних. Каждый из объектов описывается тремя признаками (переменными) ХГ,Х2,Х3, значения которых приведены в табл. 3.8. Таблица 3.8 Значения признаков кластеризации № объекта Xi х2 Х3 1 0,10 10 5,0 2 0,80 14 2,0 3 0,40 12 3,0 4 0,18 И 4,0 5 0,25 13 3,2 6 0,67 15 2,4 В качестве эталонов возьмем первые три объекта (к=3). Запишем исходные значения эталонов и весов: Е° = 0г = (0,10; 10; 5,0), wf = П Е2 = О2 = (0,80; 14; 2,0), w2 = 1 > — нулевая итерация. Е3 = О3 = (0,40; 12; 3,0), w3° = 1J На первом шаге берем четвертый объект и определяем его расстояние до каждого из эталонов по евклидовой метрике: d41 = V(0,18 - 0,10)2 + (11 - 10)2 + (4,0 - 5,0)2 = 1,416, d42 = д/(0,18 - 0,80)2 + (11 - 14)2 + (4,0 - 2,0)2 = 3,222, d43 = V(0,18 - 0,40)2 + (11 - 12)2 + (4,0 - 3,0)2 = 1,431. Следовательно, четвертый объект должен быть присоединен к первому эталону, и первый эталон будет пересчитан, а второй и третий не изменятся: 74
, w?-E? + 04 /1-0,10 + 0,18 1-10 + 11 1 5,0 + 4,0\ /71 = 11 * = I _L________— ___________ —L________— I 1 w° +1 \ 2 ' 2 2 / = (0,14; 10,5; 4,5), Wi = wf + 1 = 1 + 1 = 2. Таким образом, на первом шаге имеем = (0,14; 10,5; 4,5), w} = 2 А El = (0,80; 14,0; 2,0), w% = 1 > — первая итерация. = (ОДО; 12,0; 3,0), wj = 1J На втором шаге проверяем, к какому эталону ближе всего находится пятый объект: d51 = V(0,25 - 0,14)2 + (13 - 10,5)2 + (3,2 - 4,5)2 = 2,820, d52 = V(0,25 - 0,80)2 + (13 - 14)2 + (3,2 - 2,0)2 = 1,656, d53 = V(0,25 - 0,40)2 + (13 - 12)2 + (3,2 - 3,0)2 = 1,031. Так как d53 = min (d51; d52; d53), то пятый объект присоединяется к третьему эталону, этот эталон пересчитывается, и вес его увеличивается: . wi-Ei + O. /1-0,40 + 0,25 1-13 + 12 1 3,0 + 3,2\ 3 “ Wg1 +1 “ \ 2 ' 2 ’ 2 / = (0,325; 12,5; 3,1), w32 = wj + 1 = 1 + 1 = 2. Таким образом, на втором шаге имеем El = (0,14; 10,5; 4,5), wf = 2 А El = (0,80; 14,0; 2,0), w2 = 1 > — вторая итерация. El = (0,325; 12,5; 3,1), w3 = 2) На третьем шаге определяем, к какому эталону ближе всего находится шестой объект: d61 = V(0,67 - 0,14)2 + (15 - 10,5)2 + (2,4 - 4,5)2 = 4,994, d62 = V(0,67 - 0,80)2 + (15 - 14)2 + (2,4 - 2,0)2 = 1,085, d63 = V(0,67 - 0,325)2 + (15 - 12,5)2 + (2,4 - 3,1)2 = 2,619. Пересчитываем второй эталон и его вес: 3 _ w22 El + О6 _ /1 0,80 + 0,67 1-14 + 15 1 2,0 + 2,4\ Е2 ~ wl +1 “ \ 2 ’ 2 ’ 2 7 = (0,735; 14,5; 2,2), w23 = w22 + 1 = 1 + 1 = 2. Таким образом, на втором шаге имеем 75
Е? = (0,14; 10,5; 4,5), wf = 21 ^2 = (0,735; 14,5; 2,2), w-j = 2 > - третья итерация. Е32 = (0,325; 12,5; 3,1), w33 = 2) После того как просмотрены все объекты, кроме первых трех (принятых за эталоны), первый этап завершается. В результате расчетов получены три кластера: 1®3; 2 ф 6; 3 ф 5. На втором этапе присоединяем к полученным эталонам каждый из шести исходных объектов. При этом происходит пересчет эталонов и продолжается наращивание их весов. По окончании второго этапа (4-9 итерации) сравниваются составы кластеров, полученных на первом и втором этапах. Если результаты совпадают, то процесс завершается, в противном случае переходят к третьему этапу, и опять присоединяем к полученным эталонам каждый из шести объектов, и т.д. Результаты расчетов занести в табл. 3.9. Таблица 3.9 Макет таблицы для метода к-средних А В С D Е - G Н 1 J К L М 1 Эталоны и их веса 2 Е1 W1 Е2 W2 ЕЗ W3 3 № этапа № итерации XI Х2 ХЗ X1 Х2 ХЗ XI Х2 ХЗ 4 0 0,1 10 5,0 1 0,8 14 2,0 1 0,4 12 3,0 1 5 1 0,14 10,5 4,5 2 0,8 14 2,0 1 0,4 12 3,0 1 6 1 2 0,14 10,5 4,5 2 0,8 14 2,0 1 0,325 12,5 3,1 2 7 3 0,14 10,5 4,5 2 0,735 14,5 2,2 2 0,325 12,5 3,1 2 8 № объекта 1;4 2;б 3 5 9 4 10 5 11 6 12 2 7 13 8 14 9 15 № объекта 16 10 17 11 13 12 19 3 13 20 14 21 15 22 № объекта 23 и т.Д. После завершения процесса (когда на текущем этапе получено такое же разбиение, как на предыдущем) вычисляют центры тяжести полученных кластеров (в общем случае они не совпадают с эталонами). Результаты занести в табл. 3.10. 76
Таблица 3.10 Центры полученных кластеров А В С D Е 31 Центры кластеров 32 XI Х2 хз 33 С1 34 С2 35 СЗ 36 После этого строится окончательное разбиение: каждый объект относится к тому кластеру, центр которого ближе всего к этому объекту. Расстояния от объектов до центров трех кластеров занести в табл. 3.11. Таблица 3.11 Матрица расстояний до центров кластеров А В CDE-GH 33 Расстояния до центров кластеров Центры кластеров Объекты 1 2 3 4 5 6 С1 С2 СЗ 44 Метод k-средних допускает в качестве исходного разбиения использовать группировку, полученную одним из методов иерархического кластерного анализа. Критерии качества классификации. При использовании различных методов кластерного анализа для одной и той же совокупности могут быть получены различные варианты разбиения. Существенное влияние на характеристики кластерной структуры оказывают: во-первых, набор признаков, по которому осуществляется классификация, во-вторых, тип выбранного алгоритма. Например, иерархические и итеративные методы приводят к образованию различного числа кластеров. При этом сами кластеры различаются и 77
по составу и степени близости объектов. Выбор меры сходства также влияет на результат разбиения. Если используются методы с эталонными алгоритмами, например метод k-средних, то задаваемые начальные условия разбиения в значительной степени определяют результат разбиения. После завершения процедур классификации необходимо оценить полученные результаты. Для этой цели используется некоторая мера качества классификации, которую называют функционалом, или критерием качества. Наилучшим по выбранному функционалу следует считать то разбиение, при котором достигается экстремальное (минимальное или максимальное) значение целевой функции - функционала качества. Наиболее распространенными функционалами качества являются: 1. Сумма квадратов расстояний до центров классов внутри кластеров: <? Fi=X X d2(^>Xk) fc=i iesfc -> min, где к - номер кластера (к=1, 2,..., q), Хк - центр -го кластера; - вектор значений признаков для i-ro объекта, входящего в k-й кластер; d(Xj,Xk) - расстояние между i-м объектом и центром к-го кластера. В этом случае качество разбиения оценивается по степени удаленности объектов от центров своих кластеров. 2. Сумма внутриклассовых расстояний между объектами: <? F2 = d-ij min. k=i i,jesk В этом случае получены кластеры большой «плотности», объекты, попавшие в один кластер, близки между собой по значениям переменных, использовавшихся для классификации. 3. Суммарная внутриклассовая (внутригрупповая) дисперсия: <? ^3=^2 °kj min> к=1j=l где <rkj - дисперсия -го признака в к-м кластере. 4. Средние межклассовые расстояния: 78
^itESfcjESq d-ij F4 = —----------- -> max. 2-ik<q nk ' Hq В данном случае качество разбиения оценивается по степени удаленности кластеров друг от друга. В большинстве случаев алгоритмы классификации и критерии качества связаны между собой. Например, использование метода Уорда приводит к получению кластеров с минимальной внутриклассовой дисперсией. Кроме названных функционалов качество классификации можно также оценивать при помощи критерия Хоттелинга Т2 для проверки гипотезы о равенстве векторов средних для многомерных совокупностей: т2 = Пк nq (хк - - Хд) . nk + nqv к qJ v k qJ Судить о качестве разбиения позволяют и некоторые простейшие приемы. Например, сравнение средних значений признаков в отдельных кластерах со средними значениями в целом по всей совокупности объектов. Если отличие групповых средних от общего среднего значения существенное, то это может быть признаком хорошего разбиения. Оценка существенности отличия может быть выполнена с помощью t-критерия Стьюдента. Перечисленные способы оценки качества разбиения предполагают чисто формальный подход и являются для исследователя вспомогательными средствами. Основная роль отводится содержательному анализу результатов классификации. Важным показателем качества кластеризации является процент «объяснённой дисперсии» в кластерном решении. Для оценки качества проведенной кластеризации необходима какая-либо объективная метрика «компактности» полученных кластеров. Необходимо построить статистику, которая была бы близка к 0, если облако данных является практически равномерно распределённым, без каких- либо сгущений точек в пространстве, и близка к 100%, если в пространстве существуют к заметно отстоящих друг от друга, компактных групп точек. Значение этой метрики позволяет судить, являются ли полученные кластеры действительно различимыми группами, или же кластеры - это лишь произвольные наборы расположенных по соседству наблюдений. Таким образом, эта метрика помогает решить, можно ли говорить о полученной на основе 79
кластерного анализа типологии, или же кластеры - это лишь один из многих равнозначных вариантов группировки точек. Указанный показатель будет полезен всякий раз, когда кластерное решение затруднительно представить графически на диаграмме разброса (практически - это случаи кластеризации в более, чем 2 или 3-мерном пространстве, а также - кластеризация очень большого числа объектов (точек), что делает невозможным визуальный анализ групп на диаграмме разброса). Метрика (D), характеризующая «объясняющую» способность кластерного решения, строится исходя из тождества: j=l п где R p - сумма средних квадратов отклонений от среднего значения по всем переменным, участвующим в кластеризации. Она же - средний квадрат расстояния от каждого наблюдения до общего центра (общей средней). Она же - суммарная дисперсия переменных, участвующих в кластеризации (вычисляется по формуле генеральной дисперсии, со знаменателем, равным и). R? - сумма квадратов расстояний от центра j-го кластера до общего центра. Ilj - количество наблюдений, определённых по результатам кластеризации в j-й кластер. п - общее количество наблюдений Г2 - средний квадрат расстояния от каждого наблюдения до центра СР своего кластера по всем кластерам. Очевидно, что если кластеры будут компактными внутри себя и разнородными между собой, вклад величины г2р (характеризующей ошибку, рассеяние, отклонение от кластерной модели) в формирование суммарной дисперсии будет невелик. В случае же наличия однородного облака данных основная часть суммарной дисперсии будет формироваться за счёт величины г2р . Из этих соображений вычисляется статистика D: 80
п п R2 Ej / _. п D = --ср ср 1отс = j-i---------100% Лф ^ср Очевидно, что в случае одного кластера величина D будет иметь значение 0, а в случае наличия п кластеров (т.е. число кластеров к равно числу наблюдений n) D будет равно 100 %. Последнее будет означать получение абсолютно гомогенных кластеров. Стремление к получению типологии (отделимых друг от друга модельных типов объектов) должно сопровождаться стремлением к максимизации показателя D при одновременной минимизации числа кластеров. Данная метрика, безусловно, не претендует на однозначное определение таких понятий, как «похожесть» объектов, «однородность» групп, но вполне соответствует логике кластерного анализа методом к-средних. Одним из вариантов использования этой метрики может быть построение достаточно большого числа кластерных решений с одинаковыми параметрами, но разным числом кластеров. Последний параметр должен пробежать значения от 2 до некоторого числа, меньшего п, которое будет определять сам пользователь. Потом можно построить график величины D для каждого из решений и смотреть на динамику этого показателя. Если при переходе от решения с к-1 кластерами к решению с к кластерами показатель продемонстрирует заметный рост, решение с к кластерами будет иметь заметные преимущества в однородности кластеров перед решением с к-1 кластерами. Если же при увеличении числа кластеров величина D возросла незначительно, возможно, подробно рассматривать новое решение не стоит. Общий алгоритм вычисления «объясняющей» способности проведенной кластеризации состоит в следующем: 1) вычисляется суммарная дисперсия переменных кластеризации; 2) проводится кластеризация на к кластеров; 3) определяется расстояние от каждого наблюдения до кластерного центра, это расстояние возводится в квадрат; 4) вычисляется средний квадрат расстояния от наблюдения до кластерного центра; 81
5) на основе полученных данных вычисляется статистика Dk, которая будет говорить о том, какая доля суммарной дисперсии признаков объясняется разбиением объектов на группы с к центрами; 6) пункты 2-5 могут повторяться несколько раз для оценки решений с разным числом кластеров. Лабораторная работа № 4 Кластерный анализ иерархическими методами Цель работы: освоение техники кластерного анализа, получение навыков проведения расчетов в соответствии с алгоритмами метода средней связи и центроидного метода в электронной таблице. Формирование навыков анализа качестра проведенной кластеризации. Задача. Провести сегментацию марок автомобилей на основе кластерного анализа. Для этого: 1. В табличном процессоре Excel на листе «Исходные данные» создать таблицу по образцу (табл. 3.12). Таблица 3.12 Значения переменных кластеризации по объектам А В С D Е - G 1 Исходные данные 2 3 № марка стоимость возраст водителя стаж вождения "возраст" автомобиля Кластер 4 1 Acura 0,521 25 3 10 2 Audi 0,866 24 3 1 6 3 BMW 0,496 29 3 4 7 4 Buick 0,614 50 25 9 8 5 Con/ette 1,235 62 38 15 9 6 Chrysler 0,614 43 21 9 10 7 Dobge 0,706 26 1 5 11 8 Eagle 0,614 20 1 1 12 9 Ford 0,706 54 10 11 13 10 Honda 0,429 38 8 7 14 11 Isuzu 0,798 27 5 3 15 12 Mazda 0,126 51 20 10 16 13 Mercedes 1,051 46 25 4 17 14 Mmsub 0,614 28 2 7 18 15 Nissan 0,429 31 6 6 19 16 Olds 0,614 45 16 4 20 17 Pontiac 0,614 40 16 2 21 18 Porsche 3,454 41 8 8 22 19 Saab 0,588 29 5 2 23 20 Toyota 0,059 36 13 1 24 21 VW 0,706 38 15 6 25 22 Volvo 0,219 42 19 4 26 Среднее 27 Стандартное отклонение 82
В качестве переменных кластеризации принять следующие: • средняя стоимость автомобиля; • средний возраст водителя; • средний стаж водителя; • средний возраст автомобиля. Провести кластерный анализ совокупности 22 объектов, характеризующихся 4 признаками методом средней связи и центроидным методом. В качестве метрики выбрать расстояние Евклида. 2. На этом же листе провести z-стандартизацию исходных данных. 3. На листе «метод средней связи» пошагово провести кластеризацию по методу средней связи. Для этого: 3.1. Скопировать стандартизованные исходные данные с листа «Исходные данные на лист «метод средней связи». 3.2. На шаге 1 вычислить матрицу расстояний (табл. 3.13) между каждой парой объектов (только под главной диагональю). Таблица 3.13 Шаблон таблицы матрицы расстояний А 8 С D Е - G Н I J К _ М \ О э Q R s т U V W 26 27 Шаг1. 28 Матрица расстояний 29 1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 53 минимальное расстояние 54 на первом шаге объединяются ?-й и ?-й объекты на уровне ? 55 56 Шаг 2. 3.3. В ячейке F53 определить наименьшее расстояние (используя функцию МИН()). 3.4. В матрице расстояний глазами найти определенное наименьшее расстояние и выделить красным цветом (для удобства) номера объектов (в строке и столбце), расстояние между которыми оказалось наименьшим. 83
3.5. В строке 54 записать, какие объекты и на каком уровне объединились на первом шаге. 3.6. На листе «Ход кластеризации» занести в табл. 3.14, какие объекты и на каком уровне объединились на первом шаге. Таблица 3.14 Пошаговый ход кластеризации № шага объединяются кластер 1 и кластер 2 уровень кластер 1 кластер 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 3.7. На шаге 2 скопировать матрицу расстояний, полученную на предыдущем шаге. 3.8. В строке, соответствующей меньшему номеру из двух объединенных на предыдущем шаге объектов, в столбце А записать составной номер (например, 11+19), залить ячейки этой строки, содержащие расстояния, желтым цветом и удалить содержимое этих ячеек. 3.9. Удалить целиком строку, соответствующую большему номеру объединенных на предыдущем шаге объектов. 3.10. Аналогично, в 29-й строке в столбце, соответствующем меньшему номеру из двух объединенных на предыдущем шаге объектов записать составной номер (например, 11+19), залить ячейки этого столбца, содержащие расстояния, желтым цветом и удалить содержимое этих ячеек. 84
3.11. Удалить ячейки столбца (со сдвигом влево), соответствующие большему номеру объединенных на предыдущем шаге объектов. 3.12. Вычислить расстояния от каждого объекта до образованного кластера (в ячейках, залитых желтым цветом). 3.13. В ячейке Fill вычислить наименьшее на текущем шаге расстояние между объектами. 3.14. В матрице расстояний глазами найти определенное наименьшее расстояние и выделить красным цветом (для удобства) номера объектов (в строке и столбце), расстояние между которыми оказалось наименьшим. 3.15. В строке 112 записать, какие объекты и на каком уровне объединились на текущем шаге. 3.16. На листе «Ход кластеризации» занести в таблицу, какие объекты и на каком уровне объединились на текущем шаге. 3.17. Выполнить шаги 3-21. 4. На основе таблицы, отражающей ход кластеризации, построить дендрограмму (на листе в клеточку). На горизонтальной оси указать марки автомобилей. Линии дендрограммы не должны пересекаться. 5. Оценить количество кластеров, исследовав динамику увеличения расстояний по шагам кластеризации и состав кластеров. 6. Вычислить рекомендуемое пороговое значения расстояния: d°=g^' 7. Выбрать окончательное количество кластеров. 8. На листе «Исходные данные» заполнить столбец «кластер» (G4:G25). 9. Проверить статистическую значимость различий средних значений признаков в кластерах. Для этого: 9.1 На лист «Значимость различий» скопировать исходные данные и распределение по кластерам с листа «Исходные данные» (A3:G25). 9.2. Ниже составить таблицу распределения стоимости автомобилей по кластерам (табл. 3.15). 9.3 Провести оценку значимости различия средних значений стоимости автомобиля в полученных кластерах с помощью процедуры «Однофакторный дисперсионный анализ». 85
Таблица 3.15 Стоимость автомобилей по кластерам А В С D Е 26 27 Стоимость автомобиля 28 29 кластер 1 кластер 2 кластер 3 кластер 4 кластер 5 30 31 32 33 34 35 36 37 38 39 9.4. Аналогично провести оценку значимости различия средних значений возраста водителей, стажа вождения и возраста автомобиля в полученных кластерах. 9.5. Свести результаты в табл. 3.16. Таблица 3.16 Сводная таблица оценки значимости различий кластеров А В С D Е = G Н I 88 89 Сводная таблица 90 _______________ 91 |f критич | ~| 92 93 SS между df SS внутри df F расч р-знач 94 Стоимость автомобиля 95 Возраст водителя 96 Стаж вождения 97 Возраст автомобиля 98 9.6. Сделать выводы. 10. Провести анализ результатов кластеризации. Для этого: 86
10.1. На листе «Анализ кластеризации» вычислить «координаты» общего центра объектов в пространстве выбранных признаков кластеризации (табл. 3.17). Таблица 3.17 Шаблон таблицы оценки качества кластеризации ABCDEFG Н I J 24 25 Общий центр I I I I I 26 27 Кластер!. । марка стоимость возраст водителя стаж вождения возраст автомоб иля расстояние до центра кластера расстояние до общего центра квадрат расстояния до центра кластера квадрат расстояния до общего центра 38 __________________________________________________________________ 39 Центр кластера]! | | । 1 10.2. Для каждого кластера заполнить таблицу по образцу с указанием марок машин, попавших в данный кластер, и их характеристик. 10.3. Вычислить «координаты» центра кластера». 10.4. Вычислить расстояние от каждого объекта до центра кластера, расстояние от каждого объекта до общего центра и их квадраты. 10.5. Составить сводную таблицу кластеров (табл. 3.18). 10.6. Рассчитать «объясняющую способность» построенной кластеризации (D-критерий качества кластеризации): п n-R2 у"/ I R2~r2 h П D = cp cp 100 % = ----100 %, R2 rL j = l...k, 87
где R p - сумма средних квадратов отклонений от среднего значения по всем переменным, участвующим в кластеризации. Она же - средний квадрат расстояния от каждого наблюдения до общего центра (общей средней). Она же - суммарная дисперсия переменных, участвующих в кластеризации (вычисляется по формуле генеральной дисперсии, со знаменателем, равным п); Таблица 3.18 Сводная таблица качества кластеризации ABCDE-G Н I J 4С 41 Сводная таблица Объем кластера центр кластера среднее расстояние до центра своего кластера расстояние от центра кластера до общего центра среднее расстояние до общего центра стоимость возраст водителя стаж вождей возраст автомобиля 49 5С Средневзвешенное расстояние от объекта до центра своего кластера 51 Средневзвешенное расстояние от центра кластера до общего центра 52 Среднее расстояние от объекта до общего среднего R.2 - сумма квадратов расстояний от центра j-ro кластера до общего центра; П. - количество наблюдений, определённых по результатам кластеризации в j-й кластер; п - общее количество наблюдений; Г2 - средний квадрат расстояния от каждого наблюдения до центра СР своего кластера по всем кластерам. Результаты расчетов занести в табл. 3.19. 88
Таблица 3.19 «Объясняющая способность» проведенной кластеризации ABCDE - G Н 53 54 "Объясняющая способность" 55 _______________________________________________________ Средний квадрат расстояния от каждого наблюдения до общего центра 56 (суммарная дисперсия переменных, участвующих в кластеризации) 57 _______________________________________________________ Средний квадрат расстояния от каждого наблюдения до центра своего 5S кластера 59 _______________________________________________________ Средневзвешенный квадрат расстояния от цетра каждого кластера до о0 общего центра__________________________________________ 61 __________________________ проверка 62 Объясняющая способность | | 10.8. На листе диаграммы «Профили кластеров» построить нормированные профили кластеров. Для этого на рабочий лист «Профили кластеров» скопировать центры всех кластеров и общий центр (табл. 3.20). Таблица 3.20 Данные для построения профилей кластеров А В С D Е 1 Профили кластеров 2 3 стоимость возраст водителя стаж вождения "возраст" автомобиля 4 кластер 1 5 кластер? б кластер 3 7 кластер 4 S кластер 5 9 Общий центр 1С 11 Нормированные профили 10.9. Ниже рассчитать нормированные значения профилей кластеров. Для этого значение каждой характеристики кластера разделить на значение соответствующей характеристики в общем центре. 10.10. Построить график по нормированным профилям. 89
10.11. Сделать выводы. 11. Составить сравнительное описание кластеров. Подобрать названия кластеров. Лабораторная работа № 5 Кластерный анализ в ППП IBM SPSS STATISTICS Цель работы: освоение техники проведения кластерного анализа в среде ППП IBM SPSS STATISTICS, получение навыков анализа результатов расчетов, отраженных в сформированном отчете. Задача 1. Данные по 20 сельскохозяйственным предприятиям представлены в файле урожайность.sav. Провести кластерный анализ в SPSS и интерпретировать результаты. 1. Открыть файл урожайность.sav и просмотреть параметры переменных (рис. 3.1). +-i УРОЖАЙНОСТЬ.sav 'Наборданных!] - Редактор данных IBM SPSS Statistics Файл Правка Вид Данные Преобразовать Анализ Прямой маркетинг Графика Сервис Окно С Г - -• И — | Имя Тип Ширина Десятич Метка Значения Пропущенн 1 тракторы Числовая 8 2 количество тра Нет Нет 2 комбайны Числовая 8 2 количество ко Нет Нет 3 орудия Числовая 8 2 количество ор Нет Нет 4 удобрения Числовая 8 2 количество уд Нет Нет 5 хим_средст Числовая 8 2 количество ср Нет Нет Рис. 3.1. Вкладка «Переменные» окна данных SPSS Statistics 2. В меню Анализ выбрать команду Классификация/Иерархическая кластеризация... 3. В появившемся диалоговом окне (рис. 3.2) указать переменные, по которым будет осуществляться кластеризация. 4. В диалоговом окне Метод (рис. 3.3) выбрать способ измерения расстояния между наблюдениями или кластерами и метод формирования кластеров (например, дальнего соседа). Т.к. данные имеют разные шкалы измерения, использовать стандартизацию. 5. В Статистиках выбрать Порядок агломерации и Матрицу близостей, в Графиках - Дендрограмму, в Сохранить - диапазон кластеров: минимум - 2, максимум - 4. 90
Иерархический кластерный анализ Рис. 3.2. Диалоговое окно «Иерархический кластерный анализ» Рис. 3.3. Диалоговое окно «Иерархический кластерный анализ: метод» 6. Проанализировать полученные результаты. Сколько кластеров оставить? 91
7. Провести кластеризацию другими иерархическими методами (например, методом Варда, центроидной кластеризации, межгрупповых связей). Сравнить полученные результаты. 8. Для оценки качества кластеризации провести сравнительный анализ результатов кластеризации в табличном процессоре Excel. Для этого создать таблицу по образцу, представленному в табл. 3.21. Таблица 3.21 Шаблон таблицы оценки качества кластеризации Оценка результатов кластеризации 3 Метод Варда 4 4 кластера 5 б Характеристики кластеров 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Объем кластера Х1 Центр кластера х4 ____________________________________х5 Среднее расстояние до центра кластера Суммарное расстояние до центра кластера Максимальное расстояние до центра кластера Среднее расстояние между объектами Суммарное расстояние между объектами Максимальное расстояние между объектами Расстояние от центра кластера до главного 1-й кластер 2-й кластер 3-й кластер 4-й кластер центроида Суммарное расстояние до центров кластеров по всем кластерам Суммарное расстояние от центров кластеров до главного центроида Суммарное расстояние между объектами кластера по всем кластерам Для заполнения этой таблицы создать таблицу промежуточных расчетов (табл. 3.22). Заполнить ячейки таблицы и провести расчеты. 9. Построить профили кластеров. 10. Провести содержательный анализ результатов кластеризации, т.е. дать смысловую интерпретацию полученных кластеров. Попытаться дать емкое название каждому кластеру. Провести сравнительный анализ кластеров по всем признакам. Составить описательную характеристику кластеров на основе построенных профилей. 92
Разбиение объектов по кластерам Таблица 3.22 А В С D Е F G 27 1-й кластер н 1 J К L М 2-й кластер № 2S объекта Х1 х2 хЗ х4 х5 Расстояние до центра кластера № объекта Х1 х2 хЗ х4 29 30 31 32 33 Зд 35 36 37 Центр 39 кластера Центр кластера 40 41 Матрица расстояний между объектами 1-го кластера 42 Матрица расстояний между объектами 2-го кластер 43 № объегта № объекта 44 0 0 45 0 0 46 0 0 47 0 С 4S 0 49 Вычислить координаты главного центроида (табл. 3.23). Таблица 3.23 Координаты главного центроида А В С D Е 51 Главный центроид 52 х1 х2 хЗ х4 х5 53 54 1. Аналогично провести оценку результатов кластеризации, полученных другим методом. 2. Сравнить полученные результаты и выбрать оптимальное решение. 3. Провести кластеризацию методом k-средних. Для этого в меню Анализ выбрать команду Классификация/Кластеризация к- средними... 4. Проанализировать полученные результаты. 93
ЗАКЛЮЧЕНИЕ Настоящее учебное пособие ориентировано на студентов, обучающихся по профилям «Математические методы в экономике», «Бизнес-статистика и прогнозирование» в рамках направления 38.03.01 «Экономика». Пособие разработано как методическое обеспечение дисциплины «Многомерные статистические методы», которая относится к обязательным дисциплинам вариативной части профессионального цикла ООП и формирует у бакалавров по направлению подготовки «Экономика» набор специальных знаний и компетенций, необходимых для выполнения аналитической, научно- исследовательской профессиональной деятельности. В соответствии с ФГОС ВО, утвержденным 12.11.2015, в результате обучения бакалавр должен обладать способностью выбрать инструментальные средства для обработки экономических данных в соответствии с поставленной задачей, проанализировать результаты расчетов и обосновать полученные выводы. Предлагаемое пособие способствует формированию у студентов указанной компетенции и направлено на закрепление теоретических знаний и получение практических навыков анализа многомерных экономических данных на основе статистических методов. Структура пособия такова, что теоретический материал по каждой теме подкреплен комплексом примеров и задач, позволяющих студентам получить и закрепить навыки приложения многомерных статистических методов к решению экономических задач, сформировать умение анализировать и содержательно интерпретировать полученные результаты. В пособии систематически излагаются основные методы многомерного статистического анализа, используемые для обработки экономических данных - от элементарных матричных вычислений до решения задач классификации на базе техники кластерного анализа. Каждая лабораторная работа содержит методические рекомендации и подробные пошаговые инструкции, сопровождающиеся иллюстрациями, что делает возможным использование данного пособия для организации самостоятельной работы студентов при изучении одноименной дисциплины. Пособие также может быть полезно при выполнении выпускной квалификационной работы бакалавра и подготовке магистерской диссертации по направлению «Экономика». 94
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 1. Дубров, А. М. Многомерные статистические методы: учебник / А. М. Дубров, В. С. Мхитарян, Л. И. Трошин. - М.: Финансы и статистика, 2003. - 352 с. 2. Айвазян, С. А. Прикладная статистика. Основы эконометрики: учебник для вузов: в 2 т. - 2-е изд., испр. / С. А. Айвазян, В. С. Мхитарян. - М.: Юнити-Дана, 2001. - 432 с. 3. Айвазян, С. А. Прикладная статистика в задачах и упражнениях / С. А. Айвазян, В. С. Мхитарян. - М.: Юнити-Дана, 2001.-270 с. 4. Многомерный статистический анализ в экономике / Л. А. Сошникова [и др.]. - М.: Юнити, 1999. - 598 с. 5. Симчера. В. М. Методы многомерного анализа статистических данных: учебное пособие / В. М. Симчера. - М.: Финансы и статистика, 2008. - 400 с. 6. Калинина, В. И. Введение в многомерный статистический анализ: учеб, пособие / В. И. Калинина, В. И. Соловьев. - М.: Изд-во ГУУ, 2003. - 66 с. 7. Филатов, А. Ю. Конспект лекций по многомерным статистическим методам: учебное пособие / А. Ю. Филатов. - Иркутск: Изд-во ИГУ, 2007. - 37 с. 8. Наследов, A. IBM SPSS Statistics 20 и AMOS: профессиональный статистический анализ данных / А. Наследов. - СПб.: Питер. 2013. - 416 с. 95
СОДЕРЖАНИЕ ВВЕДЕНИЕ 3 ТЕМА 1. МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ: ПРЕДМЕТ, ЦЕЛИ И ЗАДАЧИ 4 Лабораторная работа № 1. Решение задач матричной алгебры в табличном процессоре Excel 9 ТЕМА 2. МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ 14 Сущность задачи снижения размерности 14 Метод главных компонент 21 Лабораторная работа № 2. Факторный анализ (метод главных компонент) 38 Лабораторная работа № 3. Компонентный анализ в ППП IBM SPSS STATISTICS 47 ТЕМА 3. ЗАДАЧИ МНОГОМЕРНОЙ КЛАССИФИКАЦИИ 53 Кластерный анализ 54 Лабораторная работа № 4. Кластерный анализ иерархическими методами 82 Лабораторная работа № 5. Кластерный анализ в ППП IBM SPSS STATISTICS 90 ЗАКЛЮЧЕНИЕ 94 БИБЛИОГРАФИЧЕСКИЙ СПИСОК 95 Ответственный за выпуск проф. А. В. Аксянова Подписано в печать 05.09.2017 Бумага офсетная Печать ризографическая 6,0 уч.-изд. л. Тираж 100 экз. Формат 60x84 1/16 5,58 усл. печ. л. Заказ Издательство Казанского национального исследовательского технологического университета Отпечатано в офсетной лаборатории Казанского национального исследовательского технологического университета 420015, Казань, К. Маркса, 68 96