Текст
                    С. А. АЙВАЗЯН, 3. И. БЕЖАЕВА, О. В. СТАРОВЕРОВ
КЛАССИФИКАЦИЯ
МНОГОМЕРНЫХ
НАБЛЮДЕНИЙ
МОСКВА «СТАТИСТИКА» 1974


Работа посвящена описанию методов классификации объектов (стран, городов, предприятий, семей, индивидуумов и т. д.), заданных набором количественных признаков. Значительное место в работе уделено методам, позволяющим выбрать из большого числа исходных признаков, характеризующих состояние объекта, сравнительно небольшое число наиболее существенных признаков. В работе показаны основные направления социально-экономических исследований, в которых излагаемые методы целесообразны, а подчас необходимы. .Рассмотрены примеры решения реальных социально-экономических задач с применением раскрытых в работе методов. Монография рассчитана на математиков, экономистов, статистиков и других специалистов, использующих математико-статисти- ческие методы при обработке многомерных наблюдений. СЕРГЕЙ АРТЕМЬЕВИЧ АЙВАЗЯН ЗИНАИДА ИВАНОВНА БЕЖАЕВА ОЛЕГ ВАСИЛЬЕВИЧ СТАРОВЕРОВ КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ Редактор Л. В. Сергеева Техн. редактор Г. А. Сидорова. Корректор А. Т. Сидорова Худ. редактор Т. В. Стихно Переплет художника Л. С Эрмана Сдано в набор 29.VI 1973 г. Подписано к печати 8.II 1974 Формат бумаги 60X90Vie. Бумага № 3 Объем 15,0 печ. л. Уч.-изд. л. 16,85 Тираж 4700 экз. А 03060 (Тематич. план 1973 г. № 8) Издательство «Статистика», Москва, ул. Кирова, 39. Заказ № 358 Цена 1 р. 80 к. Московская типография № 4 Союзполиграфпрома при Государственном Комитете Совета Министров СССР по делам издательств, полиграфии и книжной торговли Москва, И-41, Б. Переяславская, 46 10805-039 008@1)—74 8—73 © ИЗДАТЕЛЬСТВО «СТАТИСТИКА», 1974
«... Математика, вообще столь строго нравственная, совершила грехопадение: она вкусила от яблока познания, и это открыло ей путь к гигантским успехам, но вместе с тем и к заблуждениям. Кануло в вечность девственное состояние абсолютной значимости, неопровержимой доказанности всего математического; наступила эра разногласий, и мы дошли до того, что большинство людей дифференцирует и интегрирует не потому, что люди понимают, что они делают, а просто потому, что верят в это, так как до сих пор результат всегда получался правильный». Ф. Энгельс («Анти-Дюринг») ВВЕДЕНИЕ «Четвертая планета принадлежала деловому человеку. Он был так занят, что при появлении Маленького принца даже головы не поднял. — Добрый день, — сказал ему Маленький принц. — Ваша папироса погасла. — Три да два — пять. Пять да семь — двенадцать. Двенадцать да три — пятнадцать. Добрый день. Пятнадцать да семь — двадцать два. Двадцать два да шесть — двадцать восемь. Некогда спичкой чиркнуть. Двадцать шесть да пять — тридцать один. Уф! Итого, стало быть, пятьсот один миллион шестьсот двадцать две тысячи семьсот тридцать один. — Пятьсот миллионов чего? — А? Ты еще здесь? Пятьсот миллионов ... Уже не знаю чего ... У меня столько работы! ...». (Антуан де Сент-Экзюпери «Маленький принц».) Эти слова из «Маленького принца» Антуана де Сент-Экзюпери как нельзя лучше объясняют главную причину, по которой мы взялись за написание данной книги. Дело в том, что неуклонный рост потоков информации, с которыми приходится иметь дело человеку, и одновременно вычислительной базы переработки этой информации с неизбежностью приводит ко все большей — пространственной и временной — занятости человека счетом. Считают сотрудники органов государственной статистики и лингвисты, математики и биологи, физики и медики и т. д. Возникают новые разделы в старых добропорядочных дисциплинах, до недавнего времени не имевших (или имевших весьма слабое и поверхностное) отношение к счету, к статистике, к математике: технометрика, биометрика, эконометрика, психометрика, наконец, наукометрия... Обилие вычислительных машин и самых разнообразных 3
математических приемов статистической обработки информации, с одной стороны, и самой этой информации — с другой, зачастую приводят к бездумному, формальному применению различных математических методов, к ситуациям, в которых исследователь невольно теряет из виду основную цель производимых им вычислительных манипуляций. Вычисление не вместо здравого смысла и глубоких профессиональных знаний исследуемого предмета, а лишь как дополнение последних, проводимое после тщательного профессионального анализа (и параллельно с ним) и подбора соответствующих математических приемов исследования, — к сожалению, этот тезис зачастую придается незаслуженному забвению. К разделам, где эта тенденция «беспорядочного счета» проявляется достаточно выпукло, безусловно следует отнести совокупность разнообразных методов, объединенных целью классификации объектов,,пред- ставленных многомерными наблюдениями, и целью выявления однородных в некотором смысле групп (типов) этих объектов с одновременным максимальным сжатием перерабатываемой при этом информации. Отчасти это можно объяснить тем, что данный раздел (классификация многомерных наблюдений и методы снижения размерности) лежит на стыке самых различных дисциплин как математических: теория вероятностей и математическая статистика, логика, алгебра, теория приближения функций, — так и нематематических: психология, биология, медицина, техника. В зависимости от специальности и природы используемых методов исследователь называет этот раздел распознаванием образов или таксономией, кластер-анализом или дискриминантным анализом. Дело осложняется тем, что в задачах классификации многомерных наблюдений широко используются (и не без успеха) разнообразные эвристические методы, т. е. методы, не опирающиеся на строгую математическую модель и не допускающие сколько-нибудь полного и обоснованного исследования их свойств. Заметим, кстати, что необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали и ученые далекого прошлого. «Его (Аристотеля) величайшим и в то же время чреватым наиболее опасными последствиями вкладом в науку была идея классификации, которая проходит через все его работы... Аристотель ввел или, по крайнем мере, кодифицировал способ классификации предметов, основанный на сходстве и различии...», — пишет Дж. Берналл в «Науке истории общества» (глава 4). Главной целью данной работы является попытка посильной систематизации используемых в настоящее время методов классификации многомерных наблюдений и методов снижения размерности этих наблюдений, осмысливание этих методов с точки зрения диапазона их содержательной применимости и их «взаимоувязки» и «взаимоотношений». Работа содержит и некоторые новые (ранее не публиковавшиеся) результаты, принадлежащие как авторам: понятия и результаты, связанные с классификацией при наличии квазиобучения (§4 главы 1); теоремы 4 и 5 главы 2 об оценках максимального правдоподобия параметров смеси нормальных распределений; описание самой общей схемы эталонных алгоритмов кластер-процедур (§3 главы 3); экспертно-стати- 4
стический метод построения неизвестной целевой функции (§ 1 главы 5), — так и другим исследователям: общий вид функционалов качества разбиения и общая формулировка экстремальной задачи кластер- анализа (§ 1 главы 3, А. Н. Колмогоров), модификация метода нелинейного отображения наблюдений в пространство меньшей размерности (§ 3 главы 4, С. Г. Сорокина). Как правило, состояние исследуемого объекта может быть описано с помощью набора зафиксированных на нем признаков, часть из которых (количественные признаки) может принимать, вообще говоря, любые действительные значения (величина среднедушевого дохода в семье, показатели бюджета свободного времени и денег и т. п.), другая часть (качественные признаки) позволяет упорядочивать объекты по степени проявления какого-либо качества (например, по квалификации специалиста, по степени его удовлетворенности работой и т. п.) и, наконец, третья часть (классификационные признаки) позволяет разбивать исследуемые объекты на не поддающиеся упорядочению однородные группы по каждому из признаков этой части (например, профессия, национальность, пол, причины миграции и т. п.). Таким образом, состояние любого объекта может быть описано с помощью многомерного признака (или многомерной случайной величины) При этом под X мы будем понимать просто перечень тех признаков, которые измеряются на каждом из обследуемых объектов, а под Xt — результат измерения этих признаков на i-ы (по порядку обследования) из рассматриваемых объектов, т. е. *-е многомерное наблюдение. Очевидно, любое такое многомерное наблюдение может быть геометрически интерпретировано в виде точки в многомерном (р-мерном) пространстве. Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость физических состояний соответствующих объектов, их однородность. Однако решающим (и, к сожалению, наиболее трудным) остается в этой интерпретации вопрос о выборе метрики в данном пространстве, т. е. о задании расстояния между двумя точками (которое, конечно, не обязано быть евклидовым). Так или иначе, с необходимостью классификации наблюдений исследователь сталкивается постоянно, идет ли речь о классификации индивидуумов, семей, городов, стран, каких-либо физических или медико-биологических явлений или технических объектов. Альтернативой к формализованному подходу в классификации наблюдений, т. е. к описанию объекта с помощью набора числовых, качественных или классификационных признаков и использованию формальных математических методов для разбиения на классы, является так называемый экспертный метод, при котором разбиение объектов на классы (образы, таксоны, кластеры) производится специалистами 5
соответствующей области на основании профессиональных знаний, опыта, интуиции и, быть может, без использования содержащейся в X информации. Заметное оживление в разработке математических методов классификации, наблюдаемое в последние 10—15 лет, объясняется в основном новыми возможностями, открываемыми использованием быстродействующих электронных вычислительных машин. Однако объективная тенденция к перемещению центра тяжести в используемых методах классификации в сторону формализованного подхода не должна, по нашему мнению, совсем заслонить возможность, а подчас и необходимость эксплуатации различных вариантов экспертного метода. В главе 5 будут описаны задачи, в которых одновременное использование обоих этих подходов является единственно возможным и плодотворным. Какие же конечные цели ставит перед собой исследователь, приступая к классификации многомерных наблюдений? Упомянем здесь лишь о тех, которые могут быть интерпретированы и пояснены примерами, заимствованными из практики решения социально-экономических задач. Пример 1. Классификация как необходимый предварительный этап статистической обработки многомерных данных. Пусть исследуется зависимость интенсивности миграции населения х№ (профессиональной или территориальной) от ряда социально- экономических и географических факторов х^\ л;<2), ..., х(р~1\ таких, как средний заработок, наличие жилой площади, детских учреждений, уровень образования, возможности профессионального роста, географические условия и т. п. Естественно предположить (и результаты исследования это подтверждают), что для различных однородных групп индивидуумов одни и те же факторы влияют на х^ в разной степени, а иногда — ив противоположных направлениях. Поэтому до применения аппарата регрессионно-корреляционного анализа следует разбить все имеющиеся в нашем распоряжении данные Х[ = (x-1},x-2), ...,4Р)), i = 1, 2, ..., п на однородные классы1 и решать далее поставленную задачу отдельно для каждого такого класса. Только в этом случае можно ожидать, что полученные коэффициенты регрессии х^ по (я*1), х(?\ ..., х(р-1 >) будут допускать содержательную интерпретацию, а мера тесноты связи между х^ и (я*1), ...ух^р~[>) окажется достаточно высокой. Подобные задачи можно найти в [3, с. 77]. Другой вариант такого рода примера мы получим, если в качестве объектов исследования рассмотрим предприятия определенной отрасли, а в качестве вектора наблюдений Xt совокупность объективных (нерегулируемых) условий работы i-ro обследованного предприятия (сырье, энергия, оснащенность техникой и рабочей силой и т. п.). Классификация предприятий по X производится как необходимый предварительный этап для возможности последующей объективной оценки работы коллективов и разработки обоснованных дифференцированных нормативов: 1 «Штрих» как верхний индекс матрицы или вектора здесь и в дальнейшем будет обозначать операцию транспонирования; п — число обследованных объектов. 6
очевидно, лишь к предприятиям, попавшим в один класс по X, может быть применена одинаковая система нормативов и стимулирующих показателей (см. описание подобной задачи в [4]). Далее можно рассматривать задачу, аналогичную сформулированной выше, а именно: если У — (У{1\ •••> У{д)) — вектор показателей качества работы предприятия (объем и качество выпускаемой продукции, ее себестоимость, рентабельность и т. п.), a U' = («A>, ..., и<т)) — вектор регулируемых факторов, от которых зависят условия производства (число основных подразделений, уровень автоматизации и т. д.), то задачу описания интересующей нас зависимости вида Y = f (U) естественно решать отдельно для каждого класса по X. Перечень примеров, в которых элементы классификации многомерных наблюдений являются лишь предварительным этапом статистического исследования, можно было бы продолжить (статистическая проверка нескольких многомерных выборок «на однородность» с целью их последующего объединения и дальнейшей статистической обработки [1, с. 340]; правила исключения резко выделяющихся многомерных данных [6]). Однако на подобного рода примерах мы не будем останавливаться подробно в нашей работе. Пример 2. Классификация в задачах оптимального регулирования и планирования. Здесь речь пойдет о планировании выборочных экономико-социологических обследований городов. Предположим, что мы хотим произвести достаточно детальный анализ подробных статистических данных о городах с целью выявления наиболее характерных черт в экономико-социологическом облике типичного среднерусского города. Производить подробный, кропотливый анализ по каждому из городов РСФСР, очевидно, слишком трудоемко, да и нецелесообразно. По-видимому, разумнее попытаться предварительно выявить число и состав различных типов в совокупности обследованных городов по набору достаточно агрегированных признаков (х<х\ ..., х(р)), характеризующих каждый город (например, понимать под х^ число жителей города, приходящееся на каждую тысячу жителей, обладающих заданным /-м признаком, скажем, высшим образованием, специальностью металлурга и т. п.). А затем, отметив наиболее типичные города в каждом классе (т. е. наблюдения — «точки» Хи наиболее близко располагающиеся к «центрам тяжести» своих классов), отобрать их для дальнейшего (более детализованного) социально-экономического анализа. При этом, очевидно, мера репрезентативности (представительности) отобранных «типичных городов» определится удельным весом количественного состава точек данного класса среди всех рассматриваемых точек (городов). Подробнее об этой задаче см. в главе 5. Похожие задачи планирования выборочных обследований с использованием методов классификации рассматривались в [3, с. 34]. Пример 3. Классификация в задачах прогнозирования экономико-социологических ситуаций или отдельных показателей. Пусть объект исследования — семья. Все факторное (признаковое) пространство разбивается на два подпространства: пространство X = = {X} и пространство Y = {Y}, где компонентами вектора У = 7
= (У{1)> ¦••> У{т)) описывается социально-экономическое поведение семьи (в основном с помощью измерений характеристик бюджета потребляемых денег), а компоненты вектора X' = (л;*1) ,..., хМ) описывают половозрастную и профессиональную структуру семьи, а также среднедушевой доход. Примем в качестве априорного допущения, что отдельные параметры и ситуации в пространстве X в какой-то мере поддаются регулированию, и уж, во всяком случае, легче прогнозируются во времени, чем в пространстве Y. Отсюда следующая логическая схема исследования: производим разбиение обследуемых объектов {Xiy Yt)y i = 1, ..., п, на классы отдельно в каждом из подпространств X и Y; устанавливаем долю представительства классов из X в каждом отдельном классе из Y; используя прогнозирование и регулирование признаков в пространстве X, возможно и модели регрессии Y по X, прогнозируем объем и структуру потребления по стране в целом. Примеры постановок задач, в которых методы классификации используются для прогнозирования параметров миграции «село — город», можно найти в [3, с. 18]. Эффективность и целесообразность применения тех или иных методов классификации, так же как их содержательность, обусловлены конкретизацией исходной математической модели, постановкой задачи. Все зависит оттого, на какой исходной информации строится модель. Пир этом исходная информация может быть двоякой природы: априорные сведения об исследуемых классах (генеральных совокупностях); информация статистическая, выборочная (так называемые обучающие и квазиобучающие выборки, см. определения в § 1 главы 1). Априорные сведения об исследуемых генеральных совокупностях относятся к виду или некоторым общим свойствам закона распределения исследуемого случайного вектора X в соответствующем пространстве и получаются либо из теоретических, профессиональных соображений о природе исследуемого объекта, либо как результат предварительных исследований. Что касается выборочной исходной информации, то ее получение в экономике и социологии, как правило, связано с организацией системы экспертных оценок1 (вопросы, связанные с обработкой экспертных оценок, затронуты в § 4 главы 3 и в § 1 главы 5 настоящей работы). Классификация задач разбиения объектов на однородные группы (в зависимости от наличия априорной и предварительной выборочной информации) и соответствующее распределение по главам и параграфам тематики данной работы представлены в табл. 1. Тематику разбиения многомерных данных на классы подчас трудно отделить от задач снижения размерности исследуемых данных. Подобно тому, как в задачах множественной регрессии и корреляции возникает проблема выделения наиболее существенных, наиболее информатив- 1 Медико-биологические и физико-технические задачи имеют в этом смысле определенное преимущество: там обучающие выборки можно получать с помощью специально организованного контрольного экспериментального исследования. Специфика же социально-экономических исследований практически исключает возможность использования идей и методов контролируемого и планируемого эксперимента. 8
Таблица 1 Априорные сведения о классах (генеральных совокупностях) Некоторые самые общие предположения о законе распределения исследуемого вектора: гладкость, сосредоточенность внутри ограниченной области и т. п. Различаемые генеральные совокупности заданы в виде конечного параметрического семейства законов распределения вероятностей (параметры неизвестны) Различаемые генеральные совокупности заданы однозначным описанием соответствующих законов распределения Предварительная выборочная информация Нет информации Кластер-анализ (таксономия, распознавание образов «без учителя»). Глава 3 Интерпретация исследуемой генеральной совокупности как смеси нескольких генеральных совокупностей. «Расщепление» этой смеси с помощью методов оценивания неизвестных параметров. Глава 2 Классификация при полностью описанных классах (дискриминантный анализ). Глава 1, § 2 Есть квазиобучающие выборки Методы кластер- анализа, дополненные выбором начальных приближений числа и центров классов, их ковариационных матриц Методы расщепления смеси, дополненные оценками, полученными из квазиобучающих выборок. Модификация методов кластер-анализа. Глава 1, § 4 Обучающие выбор Есть обучающие выборки Непараметрические и эвристические методы классификации.Глава 1, §3 Параметрические методы классификации. Глава 1, § 3 ки не нужны ных (с точки зрения полноты и точности описания изучаемой «выходной» характеристики) признаков (факторов-аргументов), в задачах классификации исследователь старается предварительно выяснить, какие из р априори рассматриваемых факторов я*1), ..., х<р> являются наиболее характерными, наиболее определяющими с точки зрения полноты и точности разбиения исследуемых объектов на классы. Решение этой задачи позволит перейти от априорного набора р факторов к меньшему числу р' (// < р) наиболее информативных признаков, и тем самым, снизить размерность пространства, в котором решается задача классификации. Поясним содержательность и актуальность задачи снижения размерности основного факторного пространства, т. е. выявления сравнительно небольшого числа наиболее информативных признаков: известно [5], что если объем исходной («обучающей») выборочной информации, так же как и объем исследуемой совокупности я, лишь незначительно превосходит размерность выборочного пространства р, то среди компонент *<*>, ..., х<?>, по которым производится класси- 9
фикация, могут быть «лишние» («засоряющие», «шумовые»), выбрасывание которых лишь улучшит характеристики точности разбиения на классы (см. аналогичную постановку задачи в регрессионном анализе в [2]); естественно (и целесообразно) стремление исследователя к возможно большей простоте окончательной математической модели задачи. Чем меньшим числом признаков мы обходимся при классификации, тем проще объяснить механизм изучаемого явления, тем нагляднее и содержательнее интерпретация окончательных результатов. Если же нам удалось снизить размерность до р' = 2 или р' = 3, то открывается возможность непосредственной геометрической интерпретации и предварительного визуального анализа; снижение размерности позволяет существенно уменьшить значительные, чисто вычислительные трудности, которые неизбежно возникают при машинной обработке больших массивов информации высокой размерности (оперирование с матрицами высокого порядка, их обращение и т. д.). Можно было бы произвести классификацию типов возникающих здесь задач по схеме табл. 1, однако мы ограничимся лишь замечанием, что сколько-нибудь обоснованное решение задач снижения размерности, по нашему мнению, возможно получить лишь на пути профессионального анализа, дополненного статистическими методами, использующими исходную выборочную («обучающую») информацию. Имеющийся все-таки положительный опыт применения методов, не использующих обучающую информацию,, следует расценивать либо как более или менее неожиданную удачу исследователя, либо (что бывает, к сожалению, значительно реже) как результат осмысленной и обоснованной интерпретации исследуемой реальной схемы в рамках используемой модели (скажем, модели главных компонент или модели факторного анализа). Описание наиболее интересных, с нашей точки зрения, методов снижения размерности, исследование важнейших свойств обсуждаемых процедур, границ их применимости, различные варианты их интерпретации содержатся в главе 4 настоящей работы. Глава 5 посвящена описанию решения реальных социально-экономических задач с использованием методов классификации и снижения размерности. Работа написана: введение, § 1 и 4 главы 1, главы 3, 4, 5 — С. А. Айвазяном; глава 3 — 3. И. Бежаевой; § 2 и 3 главы 1 и глава 2 — О. В. Староверовым. Кроме того, в написании § 3 главы 4 принимала участие С. Г. Сорокина. При создании работы авторы подразумевали возможность чтения двух типов: «потребительского» (чисто прикладного) и «математического». Читатель первого типа — статистик, экономист, социолог и т.,п., может без ущерба для понимания постановок задач и алгоритмов для их решения опускать при чтении доказательства и некоторые свойства алгоритмов и, в частности, должен сосредоточить свое внимание на постановке задач и описаниях алгоритмов, содержащихся в главах 3—5. Читателю второго типа, обладающему необходимой вероятностно-статистической подготовкой, легко доступен весь материал. 10
Авторы признательны А. Н. Колмогорову за любезное разрешение впервые опубликовать в этой работе результаты его исследований и за полезные замечания. Мы благодарны также Л. Ю. Метт за ее большой труд по оформлению рукописи. __ В заключение еще раз предостерегаем читателя от формального пользования математическими методами вообще и изложенными в этой монографии в частности. Ведь «математическая статистика не представляет собой какого-то автомата, в который достаточно заложить статистический материал, чтобы в результате нескольких манипуляций, как на счетной машине, получить готовый результат» (Ш. В. Шарлье).
Глава I КЛАССИФИКАЦИЯ ПРИ ПОЛНОСТЬЮ ОПИСАННЫХ КЛАССАХ ИЛИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК § 1. ОСНОВНЫЕ ПОНЯТИЯ. ТЕРМИНОЛОГИЯ1 1. Многомерная случайная величина — ее наблюдаемые значения Во многих практических задачах исследователю приходится фиксировать одновременно значения нескольких количественных признаков я*1), х<2>, ..., х^ на обследуемом объекте, причем каждый из этих признаков подвержен некоторому неконтролируемому разбросу при переходе от одного объекта к другому, какими бы идентичными между собой не представлялись нам эти объекты. Так, например, исследуя совершенно однородные (по среднедушевому доходу и социально-демографической структуре) семьи с точки зрения структуры их бюджета потребления, т. е. подразумевая под х^\ например, среднедушевую характеристику потребления хлебобулочных изделий, под х^ — потребление молочных продуктов, по х<3> — потребление мясных продуктов, под х<4) — потребление определенного вида благ и т. д., в рублях, обнаружим, что при переходе от обследования одной семьи к другой каждый из измеряемых признаков обнаруживает некоторый неконтролируемый разброс значений. Однако, как легко убедиться, это случайное варьирование признаков, как правило, подчиняется некоторым закономерным тенденциям как в смысле вполне определенных средних уровней, около которых оно происходит, так и.в смысле степени варьирования и взаимной зависимости варьирования. Итак, будем называть многомерной случайной величиной набор количественных признаков определенного физического смысла \jt<P>/ 1 Этот параграф предназначен в основном для читателя, не имеющего практически никакой вероятностно-статистической подготовки. Он содержит весьма сжатое описание лишь тех понятий и идей, общее знакомство с которыми поможет читателю в усвоении остального материала. 12
значения каждого из которых подвержены некоторому неконтролируемому разбросу при повторениях данного процесса, наблюдения, эксперимента. В зависимости от природы области всех мыслимых значений признака, или отдельной компоненты *(/) (/ = 1, 2, ...,. р), этот признак (одномерная случайная величина) называется либо непрерывным — когда область всех мыслимых значений признака xW заполняет отрезок прямой, полупрямую или всю прямую — что мы имеем при измерении *<*> в единицах времени, длины и т. п., либо дискретным— когда область мыслимых значений признака х(/) состоит из отдельных точек, лежащих на числовой прямой: число сбоев в единицу времени некоторого производственного процесса; число членов в наугад выбранной семье и т. п. На практике мы имеем дело с результатами измерений Хь Х2, ..., Хп исследуемой многомерной случайной величины, которые в дальнейшем мы чаще будем называть просто многомерными наблюдениями. Возвращаясь к нашему примеру с обследованием семейных бюджетов, мы под X,-, следовательно, понимаем результат измерения всех р компонент х\1)у ..., х\р) в t-й семье. Заметим, что многомерные наблюдения Xt (i = 1, 2, ..., п) часто бывает удобно геометрически интерпретировать в качестве точек в соответствующем р-мерном пространстве. 2. Генеральная совокупность — выборка. Способы задания генеральной совокупности Генеральной совокупностью называют совокупность всех мыслимых наблюдений, которые могли бы быть сделаны при данном реальном комплексе условий. При этом следует отличать совокупность всех мыслимых наблюдений от области X всех мыслимых значений исследуемой случайной величины X; наблюдений, вообще говоря, «больше», поскольку каждому фиксированному значению из X может соответствовать бесчисленное множество мыслимых наблюдений. Под реальным комплексом условий обычно понимаются объективно существующие условия, определяющие те закономерности, в соответствии с которыми происходит случайное варьирование признаков при повторениях наблюдений. Так, например, анализируя ряд числовых параметров некоторого изделия (например, я*1) — вес, х<2> их*3) —размерные параметры и т. п.) и рассматривая при этом два конкурирующих способа его производства, скажем, два разных технологических режима, естественно интерпретировать каждый из этих способов как генеральную совокупность и столь же естественно ожидать, что закономерности случайного варьирования параметров изделий (х<1>, л:B), хC> ...), например, ширина разброса значений по каждому из параметров будут, вообще говоря, различными при разных способах производства. Точно так же при исследовании семейных бюджетов можно рассматривать в качестве двух различных генеральных совокупностей две раз- 13
личные категории семей, хотя и одинаковой доходной группы, скажем, семьи рабочих и семьи ИТР и служащих (по признаку главы семьи), не определяя при этом объема каждой из этих генеральных совокупностей, который может быть сколь угодно большим. Однако на практике обследование всей генеральной совокупности (всех мыслимых изделий, которые могли бы быть произведены в каждом из сравниваемых технологических режимов, всех мыслимых — а не только реально существующих в данном месте и в данный момент времени — семей рабочих или семей ИТР и служащих и т. д.) либо слишком трудоемко, либо принципиально невозможно. Поэтому исследователь обычно ограничивается лишь некоторой выборкой из анализируемой генеральной совокупности, т. е. конечным рядом многомерных наблюдений Xl9 Х2у ..., Хп A.1) исследуемой случайной величины X. При этом, как правило, мы будем подразумевать, что наблюдения Xt получены с помощью случайного извлечения из исследуемой генеральной совокупности, при котором каждое из мыслимых наблюдений генеральнойсовокупности имеет одинаковый шанс попасть в нашу выборку. А сущность статистических методов как раз и состоит в том, чтобы по некоторой части генеральной совокупности, т. е. выборке, выносить обоснованные суждения о свойствах совокупности в целом. И, наконец, о способах задания генеральной совокупности, т. е. о математически формализованных способах описания того реального комплекса условий, которым определяются закономерности случайного варьирования исследуемых признаков. Обычно здравый смысл подсказывает нам, что если мы случайно извлекаем из совокупности семей определенной доходной группы семью для обследования ее месячного бюджета, то гораздо вероятнее ( 3<л;A)< 6 ( 22<л;A)^25 обнаружить J 12<#<2)<; 14, чем, скажем,] 37<хB)<40 I 9<х<3><12 I 32<х<3><35, где л:*1), х<2> их<3) — среднедушевое потребление соответственно хлебобулочных изделий, молочных и мясных продуктов, выраженное в рублях. И это несмотря на то, что ширина «вилки» для каждого из признаков в том и другом случае одинакова и равна трем рублям. Другими словами, заранее ясно, что если всю р-мерную область X мыслимых значений исследуемой случайной величины X разбить на большое число подобластей ASl9 AS2, ... равного объема, то эти подобласти, несмотря на равный объем, будут далеко не равноправными с точки зрения частоты попадания в них значений многомерных наблюдений A.1), извлекаемых из исследуемой генеральной совокупности. Очевидно, закономерности распределения по области X наблюдаемых значений Xt можно считать заданными, если для любой представляющей практический интерес подобласти AS, образованной из эле- 14
ментов области X, будет задана некоторая численная характеристика Р (AS) степени достоверности того факта, что случайно извлеченное из данной генеральной совокупности наблюдение X окажется принадлежащим именно этой подобласти. Эта численная характеристика Р (AS) называется вероятностью события {X ? AS} («X принадлежит подобласти AS») или вероятностной мерой, заданной на совокупности упомянутых выше подобластей AS, обладает рядом свойств, среди которых отметим следующие1: а) Вероятность любого события заключена между нулем и единицей, т. е. для любой из подобластей AS имеет место соотношение 0 ^ P(AS) ^ < 1. б) Вероятность достоверного события, т. е. события, заключающегося в том, что наблюдение примет одно из всех мыслимых значений, равна единице Р (X) = Р{Х g X} = 1. Отметим здесь же, что в случае непрерывных случайных компонент х(/> вектора X существуют и другие события, вероятность которых равна единице. Такими событиями, в частности, являются все события вида {X ? X}, где X получено из X исключением из последнего любого конечного или даже счетного числа гиперплоскостей типа х<1) = = С (С — вектор, компонентами которого являются произвольные постоянные числаJ. в) Вероятность невозможного события, т. е. события, заключающегося в том, что наблюдение примет значение из области AZ, не пересекающейся с областью всех мыслимых значений X, равна нулю, т. е. Р (AZ) = 0, если AZ не пересекается с X. Отметим, что в случае непрерывных случайных компонент х<х>, ..., х^ существуют и другие события нулевой вероятности. Такими событиями являются, в частности, события вида {*» = С19 *<2> = Са> ..., х^ = Ср}, где Cl9 ..., Ср—любой набор фиксированных чисел, быть может и принадлежащих к области X мыслимых значений X. г) Вероятность суммы непересекающихся событий A^iXtASJ, ..., Ak={XeASk)}> т. е. таких событий, для которых области ASt попарно не пересекаются, равна сумме вероятностей этих событий. В символической записи: Р{Х принадлежит хотя бы одной из областей ASl9 ..., ASfe} = = P(A1+...+Ah)^-P (Аг) + ...+Р (Л ft). При этом области AS* и AS,- называются пересекающимися (пересечение AS* и ASj будем обозначать 1 Мы не приводим здесь системы определений и аксиом, на основании которых вводится современное понятие вероятности, впервые сформулированных А. Н. Колмогоровым [4]. Заметим, что «вероятность события А = {X ? Д5} обозначается Р (AS), Р (А) и Р {X ? AS]. 2 Это положение основано на следующем свойстве того класса непрерывных случайных величин х^1\ которым мы ограничимся в нашем дальнейшем изложении: каково бы ни было отдельное фиксированное значение С, вероятность того, что непрерывная случайная величина примет в точности это значение, т. е. вероятность события {х^=С} всегда равна нулю. 15
AStASj или в терминах событий AtAj), если они имеют хотя бы одну общую точку из X по хотя бы одной дискретной случайной компоненте, или если они имеют хотя бы один, пусть сколь угодно малой длины общий интервал значений, принадлежащих области X по хотя бы одной непрерывной случайной компоненте. Заметим, что такое определение пересекающихся областей (событий) является строгим и совпадает с общепринятым лишь для того класса случайных величин, которым мы ограничиваемся в нашем дальнейшем изложении (см. сноску 2 на стр. 15). д) Условная вероятность Р (А/В) события А = {X ? AS} при условии, что уже имеет место событие В, которое может и не выражаться непосредственно в терминах X и X, определяется с помощью формулы P(AIB)= IS^BL. A.2) Так, если Р (А1В)=Р (А) (в этом случае естественно назвать события А и В взаимно независимыми), то Р(АВ) = Р(А).Р(В). A.3) Отметим, что аксиоматика и определения теории вероятностей построены таким образом, что эмпирическим, или выборочным аналогом понятия вероятности Р (AS), является относительная частота наблюдений из общего числа /г, попавших в заданную область AS. При этом, чем больше объем выборки п, тем ближе в некотором смысле относительная частота Vn(AS) п к вероятности Р (AS), rjxevn(AS) — число наблюдений из выборки A-1), попавших в заданную область AS1. Как же конструктивно реализуется задание генеральной совокупности? Ведь из сказанного выше следует, что для этого мы должны указать правило, по которому практически любой области AS из X сопоставляется некоторое неотрицательное (и не большее единицы) число, т. е. задать так называемую функцию множества на X. Однако оказывается, что в большинстве случаев для этого достаточно задать функцию от р числовых переменных / (и^\ ..., «<*>). Действительно, если исследуемая величина X по своей природе дискретна, то функции / (и*1), ..., и№) следует придать смысл вероятности события или, короче, события {X = U}, где U = (u<l\ ..., и<">)'. Тогда для любой области AS, сформированной из элементов области, воспользовавшись свойством (г), вероятность Р (AS) можно определить как 1 Это есть проявление свойства статистической устойчивости частот, которое заключается в том, что —-— —* Р (AS) при и-* оо(по вероятности), — см. различные определения сходимости в [8]. 16
P(AS)= 2/D%i2,,...,«!rt). Суммирование производится по всем точкам р-мерного пространства X, принадлежащим заданной области AS. Если же исследуемая случайная величина X непрерывна, то функции / (и<г\ ..., и^) придается смысл относительной удельной плотности наблюдений генеральной совокупности, сосредоточенных в непосредственной близости от точки U = (и^\ ..., и^), т. е. в достаточно малой окрестности е (U). Точнее /(?/)= lim -v^(iFJL . A.4) Здесь vn (e (U))—число наблюдений выборки A.1), попадающих в окрестность е (U) точки (/, a Ve(U) — объем этой окрестности. Предел понимается в смысле сходимости по вероятности, см., например, [8]. Другими словами, значение функции f (U) пропорционально вероятности того, что наугад извлеченное из генеральной совокупности наблюдение X окажется принадлежащим достаточно малой окрестности точки U'. В этом случае функцию / (U) называют функцией плотности рас- пределения вероятностей. Ее выборочным аналогом, в соответствии с вышесказанным, будет величина /n(f/)=i!4M' <'-4'> n-VB(V) а вероятность Р (AS) определяется формулой />(AS) = lf(U)dU. A.5) AS Интегрирование производится здесь по р переменным и^\ ..., и^ по всей заданной области AS1. Примеры конкретных функций /(иA\ ..., и^)у задающих генеральные совокупности, читатель может найти, например, в [1], [8]. 3. Числовые характеристики распределения вероятностей многомерной случайной величины Вероятностная мера Р (AS) в виде ли плотности / (U) или в какой- либо другой форме доставляет исчерпывающие сведения о поведении исследуемой случайной величины X. Однако практически зачастую 1 Мы снова вынуждены сделать здесь оговорки, обусловленные недостаточной математической строгостью выбранного нами стиля изложения. Во-первых, признаемся неосведомленному читателю, что в природе бывают одномерные и многомерные случайные величины, не являющиеся, в смысле данных нами определений, ни дискретными, ни непрерывными. Во-вторых, соотношение A.4') читатель должен воспринять лишь как разъяснение статистического смысла функции плотности (когд^а она существует), но§«^тгптг гг определение. 17
можно ограничиться значительно меньшей информацией, а именно несколькими числовыми характеристиками, такими, как центр группирования (вектор а = (а^ ..., а^) средних значений компонент х^\ х<2>, ..., л;(р)), мода, дисперсии и ковариации исследуемых признаков. а) Среднее значение и мода. Вектор средних значений а = (а*1), ..., ...., а^р)) определяется как центр группирования, или «центр тяжести» наблюдений генеральной совокупности. Это значит, что для дискретной случайной величины X его компоненты а(/) вычисляются по формуле а<0 = мх<'>= 2 u\l)f(Ut) (/-1, 2, ..., р). A.6) и.ех Здесь и далее символ М будет означать операцию теоретического усреднения соответствующей случайной величины, так что Мл: читается как «теоретическое среднее значение случайной величины я», или «математическое ожидание случайной величины х». Для непрерывной случайной величины а<о=М*<*>¦= \uWf(U)dU / = A, 2, ..., р). A.6') х И наконец, эмпирическое среднее определяется по наблюдениям Xl9 ..., Хп и с помощью формулы п Другой удобной характеристикой места группировки наблюдений исследуемой генеральной совокупности является так называемая мода, модальное значение, которая определяется как наиболее типичное, наиболее часто встречающееся значение рассматриваемой случайной величины X, а следовательно, как такое значение Xmod = (*то<ь •••> • •••> *mod)'> при котором определенная ранее функция f (V) (вероятность — в дискретном случае и плотность — в непрерывном) достигает своего максимального значениях. б) Ковариации исследуемых признаков. Определим ковариацию cov (*<*>, х<1)) = akl между компонентами х^ и х^1) исследуемой случайной величины X как среднее значение произведения отклонений этих случайных признаков от своих математических ожиданий соответственно от а<*> и а(/>, т. е. okl - cov (*<*>, *<'>) - М {(*<*> — а<*>) (xW—aW)}. 1 Если функция I (V) имеет несколько локальных максимумов, то нам удобно будет определить моду как точку локального максимума, а соответствующую генеральную совокупность назвать многомодальной. 18
Так что в дискретном случае <Уы= 2 Ык)-а{к))(и\1)-а{1))Пий) (k,l = l92,...9p) A.7) utex и в непрерывном — akl= l{ui»-aW)(uW-aW)f(U)dU (М = L 2, ..., р). A.7') х Выборочная ковариация между х(Л) и х(/) определяется, таким образом, по наблюдениям Хъ ..., Хп с помощью формулы S«=-2U*,-*(*W>-*<')) (k, 1=1,2, ...,р), A.7") где выборочные средние x<v> определяются с помощью A.6"). В частном случае k = / формулы A.7), A.7') и A.7") дают дисперсию DxW = ckk = cov (х^\ xW), соответственно теоретическую и выборочную, являющуюся характеристикой степени рассеяния значений случайной компоненты я(Л) относительно своего среднего а(/г). При k Ф I ковариация akl является в некотором смысле характеристикой степени зависимости признаков я<*> и х^1К Так, если признаки *<*> и xW взаимно независимы, то, используя A.3), нетрудно показать, что их ковариация акг равна нулю (обратное утверждение вообще говоря неверно!). Более удобной характеристикой степени тесноты связи между компонентами х№ и я<'> являются нормированные значения ковариаций — так называемые парные коэффициенты корреляции rhi и rhU определяемые соотношениями: fkr Гы = Gkl fkl ^fta"' A.8) <*kl /¦ Gkk °U Матрицы 2 = (aftJ) и R = (rftZ)B = (<ты) и R = (rfcZ)) размера /?X/7 называются ковариационной и корреляционной матрицами исследуемой случайной величины X (соответственно, выборочной ковариационной и выборочной корреляционной матрицами). в) Процентные точки одномерных случайных величин. При пользовании различными статистическими методами (особенно при построении так называемых доверительных интервалов и при статистической проверке гипотез, о которых речь впереди) прибегают к понятию процентная точка одномерной случайной величины. В частности, под 100 9%-ной точкой @ <С q < 1) случайной величины х понимается такое значение uqt для которого вероятность события {х ^ uq) равна q. Очевидно, чем меньшим значением q мы зададимся, тем правее на числовой оси расположится соответствующая процентная точка uq (т. е. тем большим будет значение uq). Воспользовавшись соотношением A.5), 19
позволяющим подсчитывать вероятность события с помощью интеграла от плотности, и применив его к случаю р = 1 (одномерная случайная величина) и AS = [uqy оо), получаем оо P{x?[uqt со)} ;=. Р {х > uq) = \f(u)du, что позволяет дать следующую наглядную интерпретацию понятия 100<7%-ной точки. I \ Рис. 1.1. Геометрическое пояс- / \ нение понятия 100^%-ной точки / \ uq одномерной случайной вели- / \ чины. Заштрихованная пло- / \ щадь под кривой плотности / \ равна q / \ °° Для ряда стандартных распределений существуют специальные таблицы, позволяющие по заданному q находить соответствующую процентную точку uq. 4. Статистическая оценка неизвестных параметров Всякая генеральная совокупность так же, как и любая стохастическая модель (будь то модель регрессионной зависимости, модель главных компонент, модель факторного анализа и т. д., см. ниже) характеризуется набором числовых параметров в = (б*1), ..., 8<т>) . Например, при анализе генеральной совокупности, описываемой многомерным нормальнымраспределениемШ, в качестве таких параметров выступают компоненты вектора средних значений а^\ ..., а^> и элементы ковариационной матрицы Gu (/,/=1,2,..., р)у так что в этом случае размерность т вектора в равна, как легко подсчитать, р + р (р + 1)/2. Однако практически чаще всего точные значения этих «определяющих» параметров неизвестны, и нам приходится судить о них лишь на основании имеющихся в нашем распоряжении результатов наблюдения (выборочных данных). а) Статистика, статистическая оценка, ее свойства. Любую функцию Y (Хь ..., Хп) от результатов наблюдения Хи ..., Хп в вероятностно-статистической литературе принято называть статистикой. Имен- 20
но статистики обычно используются для построения статистических оценок параметров 0, характеризующих исследуемую стохастическую схему, в том случае, когда точные значения этих параметров нам не известны. Мы уже познакомились с рядом статистик и задаваемых ими статистических оценок. Это, например, относительная частота ih (У У \ - V" (AS) Yl(Al> •••* Ati) — > п являющаяся оценкой вероятности Р (AS); выборочная плотность fn (U) A.4'), являющаяся оценкой теоретической плотности / (U) в точке U; выборочные средние jcW и выборочные ковариации аы A.6*) и A.7"), являющиеся оценками соответственно теоретических средних а^ и ковариации акг. Обратим внимание на тот факт, что всякая статистика, а следовательно, и статистическая оценка является величиной случайной: при переходе от одной выборки к другой значения статистической оценки, подсчитанные по одной и той же формуле, например, по A.6"), и при подстановке в нее соответственно разных значений аргументов, будут подвержены некоторому неконтролируемому разбросу. Правда, значения статистической оценки, подсчитанные по разным выборкам, хотя и подвержены разбросу, но должны, если наша оценка «хороша», концентрироваться где-то около истинного, т. е. теоретического значения оцениваемого параметра. Возникает вопрос о требованиях, которые следует предъявить к статистическим оценкам с тем, чтобы эти оценки были в каком-то определенном смысле, «надежными». Эти требования характеризуют следующие три понятия:: состоятельность, несмещенность, эффективность. Состоятельность. Оценка 6W = я|)(/> (Xlt ...., Хп) неизвестного параметра 0(/) называется состоятельной, если по мере роста числа наблюдений п при п ->- оо она стремится (по вероятности) к оцениваемому неизвестному теоретическому значению в^>. Если все компоненты Э(/), (/ = 1, 2, ..., т) вектора оценок в являются состоятельными, то и векторная оценка <Э неизвестного векторного параметра в называется состоятельной. Можно показать, что все вышеупомянутые оценки (ifo, /n, х(/), akh rki) являются состоятельными оценками соответствующих теоретических значений. Требование состоятельности необходимо для того, чтобы оценка имела практический смысл, а потому это свойство должно проверяться в первую очередь. Однако свойство состоятельности недостаточно для полной характеристики хороших свойств оценки. Часто можно предложить несколько состоятельных оценок для одного и того же параметра, например, оценки х{1) иа(/) = (х{т\п (п) + x&lx (я))/2 для а<*> в случае симметричного распределения признака х^К Здесь *m!n (я) и Ятах (я) соответственно минимальное и максимальное значения среди всех п наблюдений компоненты х<1К Точно так же akt и nahl/(n— 1) являются состоятельными оценками для параметра ahi. 21
Какую из состоятельных оценок выбрать? Ответить на этот вопрос позволяют два других свойства оценок. Несмещенность. Оценка 6@ (Xl9 ..., Хп) параметра 6W называется несмещенной, если при любом числе наблюдений п ее среднее значение (математическое ожидание) в точности равно величине оцениваемого параметра, т. е. если М0(/) = 0(/). Если все компоненты 9W (/=1,2, ..., т) вектора оценок в являются несмещенными оценками, то и векторная оценка в неизвестного векторного параметра G называется несмещенной. Удовлетворение требованию несмещенности устраняет систематическую погрешность оценивания, которая, вообще говоря, зависит от объема выборки пив случае состоятельности стремится, как правило, к нулю при п -> оо. Можно, например, показать, что из двух состоятельных оценок Gkt и wkil(n— 1) параметра akt первая является отрицательно смещенной, а именно в то время как вторая оценка — несмещенная. Из этого примера, кстати, видно, что требование несмещенности (при соблюдении требования состоятельности) особенно существенно при малом количестве наблюдений. Эффективность. Представим себе, что мы имеем две состоятельные и несмещенные векторные оценки @г (Хъ ..., Хп) и 02(Xi, ..., Хп) неизвестного векторного параметра G. Для возможности геометрической интерпретации нашего примера будем полагать размерность т векторного параметра равной двум (т = 2). Для анализа свойств конкурирующих оценок будем производить многократное (в нашем примере — двадцатикратное) оценивание неизвестного параметра в = (б*1), 0<2))' тем и другим способом. С этой целью последовательно подсчитываем значения Qlt и 02* (* = 1,2, ..., 20), являющиеся результатом подстановки в функции Gx и 92 i-й по порядку выборки объема п. Извлекаем первую выборку объема п :X1U X2i, ..., Хп1. Используем эти наблюдения в качестве аргументов функций в2 и 02, получаем первую пару оценок 0П и @21. Затем извлекаем вторую выборку объема п : : Х12у Х22, ..., Хп2. Используя эти наблюдения в качестве аргументов тех же функций @х и 02, получаем вторую пару оценок в12 и 622 и т. д. На рис. 1.2 по горизонтальной оси отложены первая компонента оцениваемого параметра 0<х> и первые компоненты ее двух оценок 0W (а) и 02/} (б), а по вертикальной оси — вторая компонента оцениваемого параметра 8<2) и вторые компоненты их двух оценок вIV и 0^V- Таким образом, взаимное расположение точки @(п\ 0(iV) и крестика (б*1), 0<2>) (а) дает наглядное представление о близости оценки вц, полученной первым способом с использованием /-й выборки, к истинному значению оцениваемого параметра. Аналогичная картина для второго спо- 22
соба оценивания представлена на рис. 1.2 (б). Более тесная концентрация оценок, полученных первым способом, около истинного значения, очевидно склонит нас к мысли о большей эффективности оценки 0Х по сравнению с оценкой 62. Именно этот критерий как мера разброса оцененных значений в около истинного значения в в соответствующем /л- мерном пространстве и положен в основу определения эффективности оценки. А именно, оценка 0 параметра 0 называется эффективной, если она среди всех прочих оценок того же самого параметра обладает Рис. 1.2. Два способа состоятельного несмещенного оценивания параметров с точки зрения их эффективности: а) более эффективная оценка; б) менее эффективая оценка наименьшей мерой случайного разброса относительно истинного значения оцениваемого параметра. Строгое определение меры разброса оценки около истинного значения оцениваемого параметра, сформулированное с использованием некоторого m-мерного эллипсоида рассеяния в терминах производных df/dQW, где / (и^\ ..., и^);0) — введенная выше вероятность или плотность, читатель может найти, к примеру, в [1, с. 80—81]. б) Понятие об интервальном оценивании. Построение доверительных областей. Итак, вычисляя на основании имеющихся у нас выборочных данных оценку 9<'> (Хъ ..., Хп) параметра 8W, мы отдаем себе отчет в том, что на самом деле величина 0W является лишь приближенным значением неизвестного параметра 0W даже в том случае, когда эта оценка состоятельна (стремится к 6 с ростом п), несмещенна (совпадает с 8 в среднем) и эффективна (обладает наименьшей степенью случайных отклонений от 8). Естественно возникает вопрос, как сильно может отклоняться это приближенное значение от истинного. В частности, нельзя ли указать такую величину Д, которая с «практической 23
достоверностью», т. е. с заранее заданной вероятностью, близкой к единице, гарантировала бы выполнение неравенства |ео_е«) |<д. Или, что то же, нельзя ли указать такой интервал вида @W — А, в<0 + Д), который с заранее заданной вероятностью, близкой к единице, накрывал бы неизвестное нам истинное значение 6 искомого параметра. При этом заранее выбираемая исследователем вероятность, близкая к единице, обычно называется доверительной вероятностью, а сам интервал @(/) — Л, 8W + А) — доверительным интервалом, или интервальной оценкой, в отличие от точечных оценок 6 о. Заметим, что доверительный интервал по своей природе случаен (потому и идет речь о вероятности накрыть некоторую неизвестную нам, но не случайную точку б*')!), как по своему расположению (ведь 0W — случайная величина), так и, возможно, по своей длине (величина А, как правило, тоже строится как функция выборочных данных Хг, ...., ..., Хп). Отметим также, что ширина доверительного интервала существенно зависит от объема выборки п и от величины доверительной вероятности; она уменьшается с ростом п и увеличивается с приближением доверительной вероятности к единице. Все данные здесь определения и понятия без труда переносятся на случай векторного параметра 0 = (9A), ..., б*))' с заменой доверительного интервала доверительной областью в соответствующем т-мер- ном пространстве. Очертания таких областей даны на рис. 1.2 (а, б). в) Метод максимального правдоподобия для построения оценок неизвестных параметров. Читатель может задаться естественным вопросом: каким образом устанавливаются именно те комбинации результатов наблюдения (статистики), с помощью которых производится (да еще наилучшим в некотором смысле образом!) оценивание того или иного параметра? Каким образом, например, были выявлены оценки. *<*> и akl для параметров а(/) и akl? И как конкретно строить описанные выше доверительные интервалы или области? Оставляя в стороне последний вопрос, коснемся здесь лишь одного из основных методов получения точечных оценок — метода максимального правдоподобия, который приводит обычно к наиболее надежным оценкам [8]. В частности, в широком классе случаев он^приводит к состоятельным, хотя иногда и незначительно смещенным оценкам, которые цри достаточно большом объеме выборки п оказываются наиболее эффективными и нормально распределенными. Последнее свойство используется при построении доверительных интервалов и областей. Кроме того, оценки максимального правдоподобия используют всю информацию о неизвестном параметре, содержащуюся в наблюдениях. Грубо говоря, сущность метода максимального правдоподобия заключается в следующем. Пусть исследуемая вероятностная схема зависит от некоторого неизвестного параметра 6, векторного или скалярного. В нашем распоряжении имеется выборка Хъ Х2, ..., Хп, состоящая из п наблюдений. Тогда в качестве приближенного значения не- 24
известного параметра в — его статистической оценки — выбирают такую величину (вектор) в (Х±, ..., Хп), при которой имеющаяся у нас система наблюдений оказалась бы наиболее вероятной, т. е. при любом другом значении в вероятность получения нашей (или близкой к ней) системы наблюдений была бы меньшей. Так, например, при оценке неизвестного параметра в, от которого зависит плотность распределения вероятностей f (U 10) исследуемой генеральной совокупности, поступают следующим образом. Вводится в рассмотрение так называемая функция правдоподобия ЦХг, Х2 Хп; e) = f(Xl\e).f(X2\@)...f(Xn\@). A.9) Учитывая оговоренную ранее независимость наблюдений Xl9 X2, ..., Хп и опираясь на A.3), нетрудно установить, что значения функции правдоподобия / (Хъ ..., Хп\ 0) прямо пропорциональны вероятности получения нашей или любой другой, близкой к нашей, системы результатов наблюдения. Поэтому естественно определить неизвестное значение параметра 0 таким образом, чтобы именно имеющиеся у нас наблюдения Хъ ..., Хп выглядели наиболее вероятными. Таким значением, очевидно, будет точка 0 максимума (по 0) функции / (Хъ ..., Хп\ 0). Подчеркнем, что Х19 ..., Хп — конкретные наблюдения, представленные вполне определенными числами, так что / (Хь ..., Хп\ 0) рассматривается здесь как функция параметра 0. И, следовательно, оценка 0 = (Ш1*, ..., 0(т>)' определится как решение системы уравнений ( dl(X1 Хп;в) _0 ав<|) A.10) | /=1, 2, ..., т или как решение равносильной ей системы ( д{\пЦХ19...,Хп; 6} Q Ю{1) A.10') ( / = 1, 2, ..., т. Примеры конкретного составления и решения уравнений методом максимального правдоподобия читатель может найти, например, в[1], [8]. 5. Статистическая проверка гипотез Очень часто у исследователя есть основания для формулировки некоторых предположительных утверждений или гипотез относительно природы или величины неизвестных параметров рассматриваемой стохастической схемы. Например, исследователь высказывает предположение: исследуемые наблюдения извлечены из нормальной генеральной совокупности; исследуемые наблюдения извлечены из смеси двух нормальных генеральных совокупностей; вектор средних значений а = = (а*1), а<2>, ...^а^У исследуемых наблюдений равен нулевому вектору 0 = @, 0, ...0)' и т. д. Будем обозначать в дальнейшем высказанное 25
нами предположение с помощью буквы Я. Наша цель проверить, не противоречит ли высказанная нами гипотеза Я имеющимся в нашем распоряжении выборочным данным. Подобная процедура обоснованного сопоставления высказанной гипотезы Я с имеющимися в нашем распоряжении выборочными данными Хъ Х2, ..., Хп осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез. Результат подобного сопоставления может быть либо отрицательным, если данные наблюдений противоречат высказанной гипотезе, а потому от этой гипотезы следует отказаться; либо неотрицательным, если данные наблюдений не противоречат высказанной гипотезе, а потому ее можно принять в качестве одного из естественных и допустимых решений. При этом следует отметить, что неотрицательный результат статистической проверки гипотезы не означает, что высказанное нами предположительное утверждение является наилучшим, единственно подходящим: просто оно не противоречит имеющимся у нас выборочным данным, однако таким же свойством могут наряду с Я обладать и другие гипотезы. Так что даже статистически проверенное предположение Я следует расценивать не как раз и навсегда установленное, абсолютно верное, а лишь как достаточно правдоподобное, не противоречащее опыту утверждение. По своему назначению, по характеру решаемых задач статистические критерии чрезвычайно разнообразны. Однако всех их объединяет общность логической схемы, по которой они строятся. Коротко эту логическую схему можно описать так: 1. Выдвигается гипотеза Я. 2. Задаются величиной так называемого уровня значимости а. Дело в том, что всякое статистическое решение, т. е. решение, принимаемое на основании ограниченного ряда наблюдений, неизбежно сопровождается некоторой, хотя может и очень малой, вероятностью ошибочного заключения как в ту, так и в другую сторону. Скажем, в одном случае из ста мы ошибочно отвергнем нашу гипотезу, в то время как на самом деле она является справедливой; или, наоборот, в какой- то небольшой доле случаев мы можем принять нашу гипотезу, в то время как на самом деле она является ошибочной, а справедливым оказывается некоторое конкурирующее с Я предположение — альтернатива Я*. Так вот, при фиксированном объеме выборочных данных величину вероятности одной из этих ошибок мы можем выбирать по своему усмотрению. Если же объем выборки можно как угодно увеличивать, то имеется принципиальная возможность добиваться как угодно малых вероятностей обеих ошибок при любом фиксированном конкурирующем предположительном утверждении Я*. В частности, при фиксированном объеме выборки обычно задаются величиной вероятности ошибочного отвержения нашей гипотезы — так называемым уровнем значимости а. Выбор величины уровня значимости а зависит от сопоставления потерь, которые мы понесем в случае ошибочных заключений в ту или иную сторону: чем весомее для нас потери от ошибочного отвержения высказанной гипотезы Я, тем меньшей выбирается величина а. Однако поскольку такое сопоставление в большинстве практических задач оказывается весьма затруднительным, часто трудно даже вообще сказать, 26
в какую сторону ошибка является для нас более опасной, то, как правило, пользуются некоторыми стандартными значениями уровня значимости. К таким стандартным значениям можно причислить величины а = 0,1; 0,05; 0,025; 0,01; 0,005; 0,001. Особенно распространенным является величина уровня значимости, равная 0,05. Это означает, в частности, в среднем в 5 случаях из 100 мы будем ошибочно отвергать нашу гипотезу при пользовании данным статистическим критерием. 3. Задаются некоторой функцией от результатов наблюдения (критической статистикой) 7(л) = Т (^i> ^2» ..., Хп). Эта критическая статистика у(/г)> как и всякая функция от результатов наблюдения, сама является случайной величиной (см. выше) и в предположении справедливости нашей гипотезы Н подчинена некоторому хорошо изученному (затабулированному) закону распределения с плотностью 4. Из таблиц этого распределения находятся 100-(l |-)%-ная точка 7а/2П) и 100-а/2%-ная точка Ya/2ax), разделяющие всю область мыслимых значений случайной величины у(п) на три части: область неправдоподобно малых I, неправдоподобно больших III и естественных, или вероятных значений II (рис. 1.3). В тех случаях, когда основную опасность для нашего утверждения представляют только односторонние отклонения, т. е. только слишком маленькие или только слишком большие значения критической статистики ^п\ то находят лишь одну процентную точку: либо 100A —а)%-ную точку Yamin\ которая будет разделять весь диапазон значений v<rt) на Две части: область неправдоподобно малых и область вероятных значений, либо 100а%-ную точку Yamax); она будет разделять весь диапазон значений 7(w) на область неправдоподобно больших и область вероятных значений. 5. Наконец, в функцию у(") подставляют имеющиеся у нас конкретные выборочные данные Хъ ..., Хп и подсчитывают численную величину 7(/г) в нашем примере. Если окажется, что вычисленное значение принадлежит области вероятных значений 7(л)» то гипотеза Я считается не противоречащей данным наблюдения. В противном случае, если у{п) слишком мала или слишком велика, делается вывод, что 7(/г) на самом деле не подчиняется закону /Y (и) (этот вывод, как легко понять, сопровождается вероятностью ошибки, равной а) и это несоответствие мы вынуждены объяснить ошибочностью высказанного нами предположения Н и, следовательно, отказаться от него. И, наконец, несколько слов о том, как в каждом конкретном случае определяется вид критической статистики, т. е. той функции от результатов наблюдения, по численному значению которой мы принимаем окончательное решение об отклонении или о принятии априори высказанной гипотезы Н. Обычно для этого используется прием, известный в литературе как метод отношения правдоподобия. Его сущность — 27
в следующем. Вначале аналогично A.9) строится функция правдоподобия 1н (Xlf ..., Хп) в предположении справедливости высказанной гипотезы Я. Она дает нам количественную меру степени вероятности имеющегося у нас сочетания наблюдений Хъ ..., Хпу подсчитанную в предположении, что высказанная нами гипотеза верна. Затем строится функция правдоподобия / (Хъ ..., Хп) в предположении, что Яне верна, точнее в предположении справедливости какой-либо конкретной альтернативы Я*. r(mtn) • OL г (max) О ос И Рис. 1.3. График плотности распределения y—fy (и) критической статистики 7(п)» имеющего место при условии справедливости проверяемой гипотезы: I — область неправдоподобно малых значений у(п)*> Н— область наиболее вероятных значений Y(n); Ш — область неправдоподобно больших значений Y(n) Здравый смысл говорит о том, что о правомочности сделанного нами предположения можно судить по сопоставлению величин / (Хг, ..., Хп) и 1н (Хъ ..., Хп): которая из них больше, то и предположение более естественно, и больше согласуется с имеющимися у нас наблюдениями Хъ ...,ХП. Другими словами, надо вычислить отношение правдоподобия 'h(*i Хп) и в зависимости от его величины принимать окончательное решение. Очевидно, чем это отношение больше, тем менее правомочной выглядит гипотеза Я и тем скорее мы должны от нее отказаться. 28
Поэтому именно это отношение и используется в большинстве случаев в качестве вышеупомянутой критической статистики у(Л) ~ = у(Хъ .... X»). Доказано [8], что в широком классе случаев критерии, построенные на отношении правдоподобия, являются в некотором определенном смысле наилучшими. 6. Класс как генеральная совокупность. Понятие обучающих и частично обучающих выборок Ставя задачу разбиения имеющихся многомерных наблюдений A.1) или всей области X мыслимых значений исследуемого вектора наблюдений X на однородные в некотором смысле классы, или образы, желательно более четко определить понятие класса. Во всех задачах первых двух глав и в некоторых схемах других глав мы будем понимать под классом генеральную совокупность, описываемую одномодальной функцией (вероятностями или плотностью) / (w<x>, ..., и(р>). Пусть имеется К таких генеральных совокупностей Гь Г2, ..., Г# и пусть Г/j, ..., Г* какие-то k из них (k ^ К), которые представлены в ряду наблюдений A.1). Предположим, что кроме исследуемых наблюдений Хъ ..., Хп, о каждом из которых нам не известно, из какого именно класса оно извлечено, имеется еще некоторое количество s порций выборочных данных вида {Xlv, ..., XmvV} (v=l,2, ..., s), A.11) где mv — число наблюдений в v-й порции. Если об этих дополнительных выборках известно, что и s = k и что v-я выборка извлечена из генеральной совокупности I\v, т. е. имеется по выборке от каждого из классов Ti{J ..., Г^, представленных в A.1), то такие выборки будем называть обучающими. Если же s произвольно, а о каждой выборке вида A.11) известно лишь, что все ее наблюдения извлечены из какого-то одного класса, выбранного из классов Tiv ..., Fik, но неизвестно, представляют ли две такие выборки два различных класса и, соответственно неизвестно, представлены ли в A.11) все классы Г$р ..., Г^, то такие выборки будем называть частично обучающими, В заключение хочется отметить, что по ходу изложения в данной работе используется понятие одномерного и многомерного нормального закона, распределение (многомерное) Уишарта [1], центральное и нецентральное /'-распределение [8],> а также табличные величины, в основном процентные точки, связанные со стандартным нормальным* X2 и /-распределениями одномерных случайных величин [8]. § 2. КЛАССИФИКАЦИЯ ПРИ ПОЛНОСТЬЮ ОПИСАННЫХ КЛАССАХ Излагаемая в данном параграфе постановка задачи является далеко не типичной для социально-экономического профиля исследований. Однако мы остановимся на ней как на наиболее простом случае классификации многомерных наблюдений: помимо того, что эта постановка 29>
является весьма реалистичной в ряде задач промышленной экономики, техники, медицинской диагностики и т. п., она позволяет дать достаточно прозрачную содержательную интерпретацию многим формальным характеристикам и понятиям, используемым в соответствующем математическом аппарате. Перед строгой формулировкой общей постановки задачи продемонстрируем это на одном примере. Пусть некоторое изделие, скажем, радиоэлектронной промышленности, изготовляется в трех различных технологических режимах (например, на трех различных заводах- изготовителях), однако, оптовому потребителю продукция поступает перемешанной, без индексации номера технологического режима на каждом изделии. Задача потребителя заключается в необходимости предварительного разбиения поступающей продукции на три класса в соответствии с принадлежностью изделия к одному из трех технологических режимов изготовления. При этом потребитель при решении задачи должен исходить из результатов измерений определенного набора внешних признаков изделия X' == (х<г\ х^\ ..., х(р))> таких, например, как степень внешних повреждений л;*1), отклонения от номинала некоторых размерных, физических и механических параметров (хBК *C). ...,) и т. п. Займемся формализацией описанного примера. Пусть k — число классов (в нашем примере & = 3), a Qt (i = 1, 2, ..., k) — значение некоторого вспомогательного параметра, определяющего принадлежность изделия к одному из искомых классов — технологических режимов изготовления. В нашем примере, очевидно, под 0* удобно понимать просто номер технологического режима изготовления изделия, т. е. 0Х = 1, 02 = 2, 03 = З1. Пусть nt (i = 1, 2, ..., k) — доля изделий во всей совокупности, произведенных в i-ом технологическом режиме. Другими словами, nt—это вероятность того, что наугад выбранное изделие окажется принадлежащим к i-щ классу, или так называемая априорная вероятность принадлежности наблюдения к *-му классу. Очевидно, характер случайного варьирования значения вышеупомянутого набора внешних признаков X, которое мы будем наблюдать при переходе от одного изделия к другому, осуществляемом внутри одного какого-то класса, будет существенно зависеть от номера класса, к которому принадлежат исследуемые изделия, т. е. от конкретного значения параметра 0. Выборочная иллюстрация этого варьирования внутри классов, для случая р= 2, представлена на рис. 1.4. Как известно, закономерности случайного варьирования признаков описываются соответствующими законами распределения вероятностей (см. предыдущий параграф). Поэтому введем в рассмотрение вероятности (или функции плотности распределения вероятностей) / (и^\ и^\ ..., ц(р) | 0.) = д. (|7), характеризующие возможность того, что исследуемый признак X' = (л:*1), ...,*<*>), зафиксированный на случай- 1 Возможна и другая интерпретация параметра 9;. Например, под 9* можно понимать среднее время бесперебойной работы изделий, изготовленных в i-u технологическом режиме. Выбор интерпретации параметра Э зависит от конкретных условий и целей исследования. 30
но выбранном изделии /-го класса, примет значение, равное или достаточно близкое к V = (аA), ..., и^). И, наконец, поскольку набор признаков X, как правило, не определяет наверняка номер технологического режима, при котором изготовлялось соответствующее изделие, то при любом правиле классификации, опирающемся на X, неизбежно возникают потери от отнесения объекта i-то класса к классу с номером /, которые мы будем в дальнейшем обозначать с помощью С (j/i). Рис. 1.4. Результаты измерения внешних признаков (х^\ ..., х<р>) исследуемых изделий, изготовленных в различных технологических режимах, представленные графически: в первом режиме точками; во втором — крестиками; в третьем — кружочками Очевидно, выбор правила классификации рассматриваемых объектов сведется, таким образом, к выбору способа разбиения всего пространства X возможных значений исследуемого признака X на три области: Slf S2, S3. Пример соответствующего разбиения приведен на рис. 1.4. Тогда наблюдение Хи т. е. 1-е изделие, относится к *-му классу, если оказалось, что оно попало в область St. При этом естественно искать такое разбиение S = {Sly S2y S3}, при котором минимизировались бы (в некотором смысле) потери от неправильной классификации. Один из возможных подходов минимизации потерь, так называемый байесовский подход, состоит в следующем. При классификации /-го объекта потери равны Сг (j \ i) = С (/1 i)f а при классификации п объектов общие (суммарные) потери равны п 2 Сг (/1 i) = пС (/ | i) и будут расти с ростом числа объектов. Поэтому минимизируют относительные потери, т. е. — tcl(j\i) = C(j\i). „/// 31
Выясним статистический смысл этой суммы. Обозначим через п (i)— общее число объектов i-ro класса, а через т (j | i) — число объектов i-ro класса, отнесенных к классу /. Тогда, собирая слагаемые с одним и тем же j и одним и тем же /, получим, что Sc,(/|i)=:—2 Scaiomyio = 1 п п ет m(j\i) n(i) =-S Sc(/|o /=1 / = 1 /l@ Л Замечая, что при п ->- оо отношение -^-^- стремится по вероятности к априорной вероятности щ, а отношение *I*' стремится в том же смысле к вероятности Р (/1 i) отнести объект класса i к классу /, получаем — 2 с, (л о-Is 2с(/|/)Р(/|/)я,-, Я /=1 /» 1 /=1 & Г ? -SUiSc(/iop(/IO /= 1 L /= 1 Символ —у означает сходимость по вероятности при п -> оо. Таким образом, если теперь через Ct обозначить 2 С (/1 t)P (/1 i)— средние потери, или математическое ожидание потерь при определении класса объектов, принадлежащих в действительности к классу i9 то 1 п относительные суммарные потери — 2 Ct (/ \ i) при большом числе п п /=i k объектов будут примерно равны величине 2л^Сг-, т. е. средним потерям, возникающим при данном правиле определения класса произвольно взятого объекта. Легко обнаружить, что при специальном виде потерь (О, / = /, минимизация относительных потерь эквивалентна максимизации вероятности правильной классификации. Действительно, ?c(/|i)P(/IO Л 1=1 /=" U=i -с?Я|Г? «= 1 U= 1 Я (/10 =с2я,[1-Р(*|/)] = i=i =c[i-Si«i',(ilo]. 32
k Мы воспользовались тем, что 2Р (///) = 1 для любого /. Поэтому часто /=i говорят не о потерях, а о вероятности неправильной классификации или об ошибках классификации. Меняя правила разбиения области X на подобласти Sx, S2, S3, мы можем изменять относительные потери, добиваясь их минимума, или уменьшать ошибки неправильной классификации. Таким образом, в нашем примере каждый класс i был связан с набором измеряемых признаков известной функцией ft (U). Предполагалась известной также вероятность nt встретить объект /-го класса при случайном извлечении изделия из всей совокупности, кроме этого, считалось возможным численное определение потерь С (//*), возникающих при отнесении изделия к /-му классу, в то время как оно в действительности принадлежит к классу i. 1. Постановка задачи в терминах статистических решающих правил Говоря о полностью описанных классах, мы будем предполагать что известны: 1) ft (U) — плотности распределения вероятностей исследуемого признака в предположении, что соответствующие наблюдения производятся в пределах 1-го класса (/ = 1, 2, ..., &); 2) nt — априорные вероятности классов ( 2 nt = 1); 3} С (jli) — потери, которые происходят при отнесении наблюдения из класса i к классу / (i, / = 1, 2, ..., k). Таким образом, произвольное наблюдение Хг может быть интерпретировано как наблюдение из генеральной совокупности, описываемой смесью k классов с плотностью вероятностей A(tf)=2NiMtf). где U принадлежит некоторой области X р-мерного пространства, а именно X = {U : A (U) Ф 0}. Пусть ф (U) однозначные функции на X, принимающие только k значений. Обозначим их dl9 d2y ..., dk. В этом случае значению dt = = ф (Xi) мы приписываем смысл решения: отнести наблюдение Xt к классу i. Такие функции обычно называются решающими. Очевидно, каждая такая решающая функция ф (U) определяет разбиение множества Хна k подмножеств Sb S2, ...ySknSi = {U : ф (U) = = dt). Вместо множества решающих функций ф (U) можно рассматривать множество всевозможных разбиений S = {Slt S2, ..., Sk} области k X на подмножества1 Sb ..., Sk такие, что St fl Sj = 0 и X = U St. 1 Здесь использована общепринятая теоретико-множественная символика: k под А Г) В, наряду с А В, понимается пересечение областей А и В, под и^г = /=1 = S1U ,52U , •••, (J Sk — объединение, теоретико-множественная сумма областей Slt S2, ..., Sk, а под 0 — так называемое пустое множество. 2 Зак. 358 33
Так как каждому разбиению 5 можно поставить в соответствие решающую функцию ф (?/), а каждой функции ф (U) можно поставить в соответствие разбиение S, то эти задачи являются эквивалентными. Зафиксируем некоторую функцию ф (U) и рассмотрим средние потери. Очевидно, для наблюдений, принадлежащих к *-му классу, математическое ожидание потерь для заданного решающего правила ф (U) будет равно с,м=2 S c{j\i)fi{V)du. /=1 {?/:<p(C/)=rfj} Соответственно средние потери будут равны с{ф} = Цс|{Ф>я|-Ц S fs^cyio/f(^ dU, так как наугад выбранное наблюдение принадлежит классу i с вероятностью л*. Если мы хотим так классифицировать наблюдения {X J, чтобы средние потери были минимальными, то нам следует так решать задачу выбора функции ф (U) (разбиения S = {S1? ..., Sk} множества X), чтобы свести к минимуму величину С {ф}. Если нам удалось найти такую функцию ф* (U) (такое разбиение S* = {S*, SI, ..., SI}), что С* {ф} = min С (ф), то говорят, что найде- ф но байесово решение задачи классификации, или байесово решающее правило. Принципиальное решение задачи построения байесовских решающих правил известно [1], [8]. Оказывается, области классификации Sf,S2, ...,S|(S* fl S* =0 при i Ф j и S* (J Si U ••• U St = X), при которых математическое ожидание потерь минимально, определяются следующим образом: область Sm состоит из тех точек t/, для которых 2 пгГг(и)С(т\1)< 2я;М?/)С(/|0 /=i /=i / =?tn i ф j /=1,2,...,Л; i=f=m. Другой, эквивалентный в смысле потерь способ состоит в том, что для наблюдения Хг (I = 1, ..., п) вычисляется величина &} W = - 2 щ U (х,)с (/1 о (/ =-= 1,..., Л) и Хг относится к классу i0> если 6*0 (Хг) =тах б7- (Х{). Выбор того или иного способа построения областей St зависит от конкретных условий задачи. 34
Особенно простой вид решение задачи приобретает, когда потери от неправильной классификации одинаковы, т. е., скажем, C(j\i) = l прИ i ф j и С (/ 10 = 0 ПРИ i = /• В этом случае решение отнести Хг к классу i0 будет сделано тогда, когда fin (Xl) Я| т. е. itiJ^iXu^njfjiXi), или иначе _2—->_, или In — ^ In — для всех / = 1, ..., k. Pj(Xt) ^ я|0 2. Решающие правила в случае нормальных классов Предположим, что плотности ft (U) нормальны с разными средними а, но с одинаковыми ковариационными матрицами 2, т. е. ft (U) ? g N (aiy 2). В случае, когда потери от неправильной классификации равны между собой, области S* определяются из условия S? = {t/:ln|^=[t/--^(ai + al)]'s-4a/-fl,]> >ln— для t = !,...,?, iy= А. Это означает, что границы областей, задаваемые так называемыми дискриминантными функциями, имеют вид гиперплоскостей в исследуемом р-мерном факторном пространстве, а соответственно сами дискри- минантные функции линейны. Аналогично поступают и в случае, когда априорные вероятности л* неизвестны. В этом случае рассматриваются дискриминантные функции (и соответствующие им плоскости) вида вЛ (U) = [U - -L (а, + a,)]' 2 (aj - а,) - с, + ct = 0. При этом область Sj (/ = 1, 2, ..., &) формируется из тех точек (/, для которых 6^ (U) > 0 при всех i = 1, 2, ..., &; f =^= /, т. е. Sj-={U:8n(U)^0, i= 1,2 ?;М=/}. Постоянные с, и с,, входящие в уравнение дискриминантной функции, определяются так, чтобы средние потери (Ct и С/), возникающие при классификации объектов соответственно /-го и /-го классов, были бы равны между собой. Напомним, что средние потери Сг — k = 2 С (v|/)P (v I /). Учитывая постулированное ранее взаимное равенст- v=l во потерь С (v | /), легко понять, что это требование равносильно такому определению констант ct и cjf при котором оказываются равными между собой вероятности Р (/1 /) правильной классификации объектов /-го класса. 2* 35
Для реализации этого подхода используют тот факт, что (k— ^-мерные случайные векторы-столбцы ЬГ(Х), компонентами которых являются (k — 1) случайные величины6^ (X) + Cj—ct (i = 1, 2, ..., k), но (l Ф /), имеют нормальную плотность распределения /J (и^\ ..., и^-^) с компонентами вектора средних значений вида Zy^-L^j-aiYZ-Haj-ai) (f= 1,2, ...,*; но i^j) и элементами ковариационной матрицы вида oW = (aj — <ttY Я-ЧЪ — Ъ) (/,/=-1,2, ...,*; но /#/ и /=^у). Поэтому константы q и с;-, в конечном счете, определяются из условия взаимного равенства величин рц\п= 1-1 I - I 7fe",I^ ^"х 'r^i erej-ierej+i crck xdz<l)...dz(k-l). При разных ковариационных матрицах классов и разных векторах средних значений используется аналогичный подход, который приводит, правда к нелинейным (квадратичным) дискриминантным функциям и соответствующим наилучшим граничным поверхностям. В частности, решение вопроса об отнесении точки U к /-му классу (области Sj) производится с помощью функций e^^=--iini2^i--f («/-^гг-ч^-^+^яу, если я,- известны, и с помощью функций 6, (V) = —^ W—а№Тх W — — aj) + Cj, если априорные вероятности nj неизвестны. Это показывает, что границы наилучших областей состоят из кусков поверхностей второго порядка. Константы можно определить из тех же соображений, что и выше, только более громоздким образом. 3. Метод классификации наблюдения, не принадлежащего к одному из известных классов На практике следует учитывать ситуации, в которых наблюдение X может не принадлежать ни к одному из известных классов. Однако общей теории, которая бы включала эту возможность, до сих пор нет. Более того, иногда нет возможности приписать априорную вероятность новому классу и оценить потерю от пропуска нового класса, т. е. потери от отнесения наблюдения из нового, неизвестного класса к какому-либо ранее известному классу. Но все-таки некоторые частные случаи этой общей ситуации можно исследовать. Пусть число классов k = 2 и они нормальны со средними ах и а2> и ковариационными матрицами Sj = 22 = 2. Тогда имеется возможность проверить гипотезу о том, что X€#(Mi + M2> 2). А,1 + Ья-1. 36
Другими словами, основная гипотеза состоит в том, что наблюдение X получено из нового нормального класса, центр которого расположен на прямой, соединяющей точки аг и а2. Описанная ранее процедура приводит к линейной разделяющей функции. Поэтому если рассмотреть, например, наблюдение Хг и Х2, то как Х1у так и Х2 будут отнесены к одному из заданных классов (Хг — к классу 2, г Х2 — к классу 1), хотя интуитивно ясно, что Хг может и не принадлежать к классу 2, хотя и относится к некоторому новому классу, центр которого лежит на прямой, соединяющей центры заданных двух классов, Рис. 1.5. Классификация наблюдений Х\ и Х2 с учетом возможности извлечения наблюдения из нового класса ,B) • Хо * / /Граница _ Sj и S2 —zd а Х2 по-видимому, получено из класса, центр которого не находится даже на прямой, соединяющей точки аг и а2. Рис. 1.5 отражает эту ситуацию при /7 = 2. Известно [8], что при справедливости основной гипотезы статистика {Х-аХЪ-ЧХ-аД- [(Х-д,)' S-MX-fli)]' (аг—а,)' ^-1(а2—а1) A.12) распределена как х2 с р—1 степенями свободы, где р — размерность наблюдения X. Это дает возможность не присоединять наблюдение X ни к одному из классов N (а1у 2) и iV (а2> 2) и, более того, отвергнуть гипотезу о том, что наблюдение X извлечено из нового класса, центр которого лежит на прямой, соединяющей центры заданных классов. Если величина A.12) статистически значима, т. е. больше, например, 5%-ной точки ^-распределения с (р—1) степенями свободы, то наблюдение X не следует относить ни к одному из классов, несмотря на то, что использование линейной разделяющей поверхности, или линейной дис- криминантной функции привело бы к этому. 37
Если же величина A.12) мала, статистически незначима, то следует проводить дальнейший анализ, основанный на статистиках (а2—ai)'S_1(«2—aj поскольку в отношении классификации наблюдения остаются еще три возможности: либо X принадлежит к классу 1, либо X принадлежит к классу 2, либо X принадлежит к некоторому новому классу, центр которого лежит на прямой, соединяющей центры заданных двух классов. Первое решение (X ? Sj) следует принимать в случае ф^г^ и одновременно ifjL > Xo.osOI- Второе решение (X ? S2) принимается в случае \p2<\JI и одновременно ^2<Хо,о5A). И наконец, если min (фь г|J) ^ ^ Хо,о5 A), то принимается решение о принадлежности наблюдения X к новому классу с центром, лежащим на прямой, соединяющей центры заданных двух классов. Применение описанной процедуры к наблюдениям Хг и Х2, изображенным на рис. 1.5, дало следующие решения: ни Х1у ни Х2 не принадлежат к заданным классам St и S2; если центр нового класса, к которому принадлежит наблюдение Хъ лежит на прямой, соединяющей центры заданных двух классов, то о наблюдении Х2 нельзя сказать даже этого. 4. Решающие правила, допускающие неопределенные решения Рассмотрим еще один случай классификации наблюдения X, принадлежащего к одному из k классов, но в ситуациях, когда кроме решений dj — отнести наблюдение к классу /, возможно решение d0 — воздержаться от отнесения наблюдения к какому-либо классу. В этом случае необходимо, кроме С (j | i) знать еще С @1 /) — потери от принятия решения d0t когда X принадлежит к классу i. В этом случае функции, приведенные в п. 1 настоящего параграфа, будут иметь вид bj(U)=--l>ntfi(U)C(j\i), /-0,1,2 k i= l и решение dt (i = 0, 1, 2, ..., k) будет приниматься в том случае, когда 6* (X) = max 8j (X). Иногда в этой работе мы будем говорить о функциях 6j (X) как о решающих функциях. Это не приведет к путанице, но позволит не вводить новый термин, дискриминантный информант, если следовать [8]. 1 Здесь и в дальнейшем %? (т) —100а%-ная точка %2-распределения с т степенями свободы. 38
Рассмотрим области принятия решений dj в случае, когда С (О1 i) = = г (t = 1,2, ..., k), C(i\i) = 0(i= 1, 2 k), C(/11) = 1, при / = 1, 2, .., &, но / Ф i (j Ф 0). Легко проверить, что при г > 1—^ решение d0 приниматься никогда не будет, поэтому будем предполо- гать, что г <; 1 jr-. В случае k = 2 области принятия решения d0, dx, d2 U: с» < In /2 (С/) /l(t/) «ч}> 1 I 2 /i(i/)J {" So = \U : с, < In МЧ 2 Г "-^- fl(u) где Ci = In — -^—, c2=ln — ——- зависят только от отношения -гттк, которое называют обычно отношением правдоподобия (см. § 1 настоящей главы). Рассмотрим более подробно случай, когда величина X принадлежит к какому-либо из двух нормальных распределений с разными средними значениями аи но с одинаковыми ковариационными матрицами 2. В этих предположениях lnT7S- = -f/'S-1(fli-a.) + 4-(a. + ei)'2:-1(ei-fl.) /1 \У) *> и известно [1], что эта величина распределена по нормальному закону tf(-jpp-p) при *etf(oi,2), ^(~ТР'Р) ПРИ Х^Л/(а2,^ где р = (аг—а2)'2-1 (аг — а2). Легко подсчитать, что вероятности Р (у | i) принятия решения d7-, когда X принадлежит классу /, выражаются в этом случае следующим образом: р@|0 = ф (С1+(~^Ур/2 )-ф (С2~ур-)<р/2)• РA|»>.1-Ф(с'+(-1),р/2), РB|0 = 1-Ф(^ + <-2Iр/2У где Ф (и) — функция распределения стандартного нормального закона [8]. 39
Если вероятности пг и я2 неизвестны, но заданы вероятности правильной классификации Р A 11) и РB|2), и константы сг и с2 можно определить из приведенной выше системы уравнений: ci = -ij—uiVp> с2 =—|- + и21/р, где щ — решение уравнения Р (I \i) = Ф (ut) (i = 1,2) и q > с2 при Р > («1 + и2J. При р = (их + w2J область принятия решения d0 вырождается, при р < («1 + и2J получить вероятности Р A1 1) и Р B 12) невозможно. Если /,A/) б #(а, 20, то |пм^=т(^_а),Bг1~22)(^"а) и ошибки Р (j\i) будут зависеть от распределения квадратичной формы (X—а)'(?тг — 2J1) (X—а), которая распределена как величина р 26*2/, где zt — независимые стандартные нормальные случайные /=i величины, р—размерность Х> Ъ% = 1—А,* и Xt — корни уравнения IS21-^Sr1|--o. Используя это, можно получить ошибки классификации для классов с одним средним и разными эллипсоидами рассеивания. § 3. КЛАССИФИКАЦИЯ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК 1. Параметрические методы классификации Классификация многомерных наблюдений размерности /?, когда имеются выборки из каждого класса, называется обычно классификацией при наличии обучающих выборок, или проще, классификацией с учителем. Объем обучающей выборки из класса i будем обозначать rrii (i = 1, 2, ..., k). Хорошо изученным является случай, когда известны виды плотностей классов / (U | 00, где 0,- — неизвестные параметры, возможно, векторные. Этот случай обычно называется параметрическим. В параметрическом случае вид разделяющей поверхности известен (см. § 2, п. 2) с точностью до параметров, зависящих от Qt (i = 1,2,.., k) и классификация, т. е. разбиение X, состоит в том, чтобы по обучающей последовательности определить параметры разделяющих функций, задающих границы исходных областей St. Естественно, что в общем случае параметры разделяющих (дискри- минантных) функций не совпадают с параметрами 0*> определяющими распределение внутри каждого класса. Например, § 2, в п. 2 данной 40
главы были приведены линейные разделяющие функции, общий вид которых 6u(U) = b'U+b0. При этом, например, вектор-столбец Ъ зависит от i и / и может быть выражен через параметры 6 распределения нормальных классов i и / с разными средними at и а7- одинаковыми ковариационными матрицами 2, так 6 = S(^-«i)- Обычным является следующий подход: по обучающей последовательности определяют оценки параметров Qt (i = 1, 2, ..., k) и, как в предыдущем параграфе, определяют разделяющие поверхности, вернее, оценки этих поверхностей 8U (U) или функций 6^ ((/). Метод получения вида разделяющих поверхностей 6^ (U) или функций 6^ (U) был достаточно подробно описан в предыдущем параграфе и сводился к методу отношения правдоподобия, где константы ct были известны, если известны априорные распределения и потери от неправильной классификации, или неизвестны, если не было данных о потерях и априорных вероятностях. Но и в том и в другом случае метод отношения правдоподобия был наилучшим. Будем обозначать этот критерий, т. е. систему областей, определенных неравенствами -t^^c через L(c). Два метода классификации Lx и L2 называются асимптотически подобными над семейством плотностей F = {/ (U | 0)}, если для любых 8 > 0 и / (U | 0) ? F и для достаточно больших mt (i = 1, 2, ..., k), независимо от того, каким из / (U | 0) описывается распределение случайной величины X, вероятность того, что Lx и L2 дадут один и тот же результат классификации больше чем 1—е. Если критерии L и L (с) асимптотически подобны над F, то критерий L называют L (с)-состоятельным над F. Приведем общий результат [11] о состоятельности правил классификации на два класса. Теорема 1. Если для каждого ?/, за исключением множества Vq f (U | 0) — вероятности нуль, плотности / (U | 0) — непрерывные функции векторного параметра 0 и 0 — состоятельная оценка параметра 0, то правило классификации /0/1 ёг) f(U\§z)>Cm L (с) — состоятельно над семейством F = {/ (U | 0*), I = 1, 2}. Заметим, что часто семейство F состоит из распределений одного вида, например, нормальных, но с неизвестными средними и ковариационными матрицами. 41
Рассмотрим далее более подробно некоторые частные случаи. а) Классификация, основанная на F-распределении. В работе [2] предлагается следующий способ классификации нормальных наблюдений, когда неизвестны средние значения и ковариационные матрицы, т. е. / (U | 0г) — нормальные плотности, а 0$ состоит из вектора средних a'i=(a\1\ а\*\ ...,ajp)) и элементов матрицы 2. Таким образом, неизвестный параметр в имеет размерность р + ^ = J . Предполагается также, что потери от ошибочных классификаций одинаковы. Пусть Xu,X2iy..., Xm.t выборка объема mi из класса /. Тогда, принимая 1 mi «i = — 2 ^*» «г /=i 2(^1-Ь,)(А-Л-а,)', ~1 mi-1/Г в качестве оценок а(- и 2 г- классифицируют наблюдение X по максимуму величины б, (X) = /,.*,_, &(*)). где /р, mj_p — плотность F-распределения с /? и т% — р - степенями свободы, а и(X) = (w;~pO; tt-«.)'2r' u-s.). При предположении, что 2Х = 22 = ... = 2ft= 2, классификацию можно уточнить в смысле сближения ошибок неправильной классификации точного и приближенного (по оценкам 2 и at) методов, если за оценку матрицы 2 принять матрицу /Ч j Ь ХЧ 2d = mi + m2+...+mk—k ^ (m*~~ *) ^i' а вместо величины /* (X) взять величину т ( 2 mi—k—p + 1 p(mi-i)(l3 т-ь) Тогда классификация сводится к отысканию максимума величины т.е. X относят к классу i0, если 8* ^64(Х)(* = 1,2, ... ,?). 42
Можно показать, что предполагаемый метод асимптотически подобен методу максимального правдоподобия. Кроме этого он легко обобщается на случай, когда потери от ошибок классификации разные. б) Классификация, основанная на оценке дискриминантной функции. При классификации объектов на два класса можно использовать другой способ, а именно строить разделяющую поверхность с помощью отношения правдоподобия. Пусть Xliy X2iy..., Xm.i (i = 1, 2) обучающие последовательности из р-мерных нормальных совокупностей с разными неизвестными средними а1у а2 и одинаковыми, но неизвестными ковариационными ма- 1 mi трицами 2. Используя оценки средних значений at = — 2 Xjt и оцен- ку общей ковариационной матрицы •ч 2 mi мы можем подставить их вместо неизвестных значений в отношение правдоподобия. В этом случае получим, как было показано в предыдущем параграфе, линейную разделяющую поверхность (оценку дискриминантной функции) $12 = tf'S" («1— а2) J^x — а2)' %~1 (ах —а2) + с, где параметр с выбирается в зависимости от вероятностей ошибок классификации. Для равных вероятностей ошибок классификации параметр с = 0. Известно [1], что при т1 ->¦ со ит2->оо предельным распределением для б12 при с = 0 будет Л^р,р), если ?/ = ХеЛГ(Ох,2) и N [~Т р9 р)9 еСШ U = -XeN(a292)y где р — расстояние Махалонобиса между классами, т. е. Р = (а1->а2у%-1(ах—а2). Это означает, что при достаточно больших mt (i = 1, 2) вероятность неправильной классификации наблюдения X ? М (аь2) будет задаваться приближенным соотношением где __ y=-V± + 0(±). 2 \ Щ ! ф (у) — функция распределения стандартного нормального закона [81. 43
В работе [6] доказано, что разделяющую поверхность можно передвигать до тех пор, пока ошибки классификации обучающих последовательностей не сравняются. Правда, это доказательство существенно опирается на предположения о нормальности распределений и о равенстве ковариационных матриц. Кроме этого предполагается, что объемы обучающих последовательностей одинаковы (т1 = т2). Доказано, что точка z0 — пересечения поверхности 812 с прямой, соединяющей центры классов ах и а2 при т1 = т2 ->- оо распределена по нормальному закону со средним значением Мг0 = ^~^и дисперсией .(-ff.) [¦-.(-Щ Dzn- 2m1[o'(J^L а количество ошибочно классифицируемых точек v (г0) при тх ->- оо нормально со средним т ф(^) и дисперсией 1-*{-Щ\-»{-Щ ГПл Можно, по-видимому, показать, что такой метод улучшения положения делящей поверхности L (с)-состоятелен над семейством нормальных распределений с одинаковыми ковариационными матрицами и разными средними. Аналогичные результаты справедливы для числа классов k > 2. Привлекательность линейной классификации привела к тому, что в работе [10] линейная классификация применяется и для разделения нормальных совокупностей с разными ковариационными матрицами. В работе [3] предлагается распространить этот метод для классификации совокупностей с поверхностями постоянного уровня, состоящими из концентрических эллипсоидов. Известно [3], однако-, что методы линейной классификации не являются L (^-состоятельными уже над семейством нормальных распределений с разными средними и разными ковариационными матрицами. 2. Непараметрические методы классификации В настоящем параграфе рассматриваются методы оценки плотнос- стей и методы классификации наблюдений, не предполагающие известных (с точностью до параметров) плотностей наблюдений, принадлежащих к разным классам. Однако мы будем предполагать наличие обучающих выборок из каждого класса. В параметрических задачах классификации эти выборки служили для оценки неизвестных параметров 44
гЩ плотностей, т. е. для оценок самих этих плотностей. В непараметрических задачах они необходимы также для оценки плотностей, только теперь это будут так называемые непараметрические оценки плотностей, в некотором смысле — многомерный аналог гистограммы. Методы классификации, опирающиеся на эти оценки, как и в работе [7] будем называть локальными, так как отнесение наблюдения Z к тому или иному классу будет зависеть от ближайших к нему точек обучающих последовательностей. Поэтому требуются до- х' полнительные предположения относительно понятия близости наблюдаемых точек. а) Методы, использующие понятие близости. Понятие близости можно задавать, например, следующим образом. Определим в пространстве наблюдаемых признаков X' = = (хA\ *<2>, ..., *<*)) некоторую окрестность v0 точки О = @, 0, .., 0). Задаваясь произвольным действительным числом г > 0 и сопоставляя каждой точке U из окрестности нуля v0 точку rU'=(ru<x), гы<8\ ..., ruW), мы получим отображение окрестности v0 в некоторую подобную ей окрестность v0 (r). Меняя г, будем иметь систему подобных окрестностей {v0 (r)} около точки 0. Тогда для произвольной точки Z при заданном виде окрестности нуля v0 можно рассмотреть соответствующие подобные окрестности (см. рис. 1.6). vz(r) = {rU + Z, Uev0}. Таким образом, очевидно, что при заданных v0u Z для любой р-мерной точки факторного пространства X ? X можно определить множество действительных чисел Rx таких, что если только г ? Rx> то X ? vz(r). Соответственно полагают, что из двух точек XwY точка X расположена ближе к точке Z (в смысле окрестности v0), чем точка Y> если mlnRx < min RY. Обычно понятие близости точек наиболее естественно вводится через расстояние р (X, Z) в пространстве признаков. В этом случае области vz {r) превращаются в систему «сфер» радиуса г и центром в точке Z. Приведем вначале несколько способов классификации объекта Z, а затем остановимся более подробно на различных локальных оценках плотностей и отношений правдоподобия в точке Z, на основании которых производится классификация. 45 г О) гA) Рис. 1.6. Подобные области v0, vo(r), vz(r)
Методы классификации точки Z могут состоять в следующем. 1) В зависимости от объемов обучающих выборок определяется число к: — рассматривается к ближайших kZточек из обучающих выборок; — точка z относится к тому классу i, из которого в числе к ближайших точек присутствует больше точек, чем точек из любого другого класса j Ф i {} = 1, 2, ..., k). При двух классах и нечетном к этот метод наиболее хорошо изучен [12] и обязательно относит точку Z к одному из классов. 2) В зависимости от объемов ть обучающих выборок класса i выбираются числа kf. — около точки Z для каждого i строится окрестность vz (pi) наименьшего радиуса pt такая, что она содержит не менее kt точек из обучающей выборки класса i. Заметим, что определенный таким образом радиус р* является величиной случайной; — точка Z относится к тому классу i9 для которого р, ^ р7- (/ = = 1,2, ...,*).. 3) По непараметрическим оценкам плотностей около точки Z и, следовательно, по оценке функций 6^ (Z) (или разделяющих поверхностей), точка Z относится к одному из классов аналогично тому, как это делалось в § 2 настоящей главы. Приведем некоторые общие результаты, которые показывают состоятельность наиболее изученного метода классификации (метод 1) на два класса при k-^оо и т = т1 = т2 ->- оо. Через / (U) обозначим плотность распределения точек, принадлежащих к одному классу, а через vr — число точек обучающей последовательности, попавших в область vz (/"). Теорема 2 [11]. Если / (U) — непрерывная функция в точке Z и т { / (U)dU-> оо при к ->- оо, т-+ оо, то величина т J f(U)dU vz (г) является состоятельной оценкой плотности / (U) в точке Z. Для евклидова расстояния и сферы vz (r) аналогичные результаты получены в работе [14]. Если т1 Ф т2 и точки обучающих последовательностей {Xtl} и {Xj2} упорядочены в порядке возрастания расстояний р (Z, Хп)у р (Z, Xj2) от точки Z и взята k-я по расстоянию от Z точка X ? 6 {Хц} О {Х7-2}, то через т (тх) будем обозначать число точек из последовательности {Хц}у с меньшими (не большими) чем р (X, Z) расстояниями до Z, а через п (т2) — число таких же точек из последовательности {Xj2}. В этом случае справедлива следующая теорема. Теорема 3[7]. Если плотности fx (U) и /2 (U) разных классов непрерывны в точке Z и число к = к (тъ т2) выбрано так, что к ->- оо (к/т2) ->- 0, (к//п2) -> 0 при т1 -»• оо, т2 -> оо (но при этом сх <— < 46
ч m (mi) < c2), то величина nv * является состоятельной оценкой для отнс- шения плотностей '*; • . В случае, когда семейство плотностей {/ (U | 0)} параметрическое и /i (U) = f (U I 61) и /2 ((/) = / ((/ I 02), но используется непараметрический критерий для классификации точки Z, известна [11]. Теорема 4. Если для всех 0 и для почти всех U (по мере / (U | 0)) оценка / (U) состоятельна для / (U | 0), то правило классификации /(t/|62) > ' L (с) состоятельно над семейством {/ (U | 0)}. С помощью теоремы 2 в работе [7] строится состоятельная оценка для ft (U) (i = 1, 2) (метод 2) ki — l где р — размерность каждого наблюдения, а к/ — фиксированное число точек в области vz(Pi). В этом случае ft (U) — асимптотически несмещенная (при т, ->• ->- оо) оценка ft (U) и ее можно использовать для оценки отношения плотностей. Если области vz (pi) различны для распределений /х (U) и для /2 (?/), a pj такие, что в область vz (p*) попадает равно кх и к2 точек последовательностей {Xtl} и {Xj-2}, объемов т1 и т2, то /2(Z) №2—1)лц V Pi У является состоятельной оценкой отношения правдоподобия в точке Z. При тг = т2 и кх = к2 это правило совпадает с известным [11] при к = 2kl — 1 (метод 1). В работе [7] предлагается выбирать величину 4 для т1 = т2. Отличаясь от параметрических методов меньшими требованиями на плотности, локальный метод имеет ряд существенных недостатков. Отметим лишь некоторые из них: при оценке отношения правдоподобия /х (U)/f2(V) используются лишь точки, входящие в уменьшающуюся с ростом min {m1,m2} окрестность классифицируемой точки Z. Это приводит к тому, что порядок сближения (при min {тъ т2} ->¦ оо) этого метода с наилучшим (основанном на fx (U)/f2 (U)) хуже, чем для параметрических процедур, которые используют все данные обучения при классификации точки Z; локальный метод классификации требует большей вычислительной работы при классификации новых данных, чем при параметрическом 47
методе классификации и наличии обучения. Например, при классификации нормальных наблюдений с помощью линейной разделяющей поверхности достаточно знать лишь р + 1 чисел, а при локальном методе классификации требуется помнить все р (т1 + т2) чисел. Локальный метод, устраняя одну трудность — наличие сведений об общем виде распределения наблюдений,—сразу же заменяет ее другой — трудностью выбора расстояния между точками-наблюдателями. Эту трудность можно преодолеть, как будет показано ниже, заменив ее другой неопределенностью. Остановимся коротко на некоторой модификации правила классификации A), описанного выше. Эта модификация для двух классов описана, например, в работе [13] и состоит в том, что можно для точки Z принимать, как описано в § 2, п. 4, три решения: dt — отнести точку к классу i (i'=l, 2) и d0 — воздержаться от принятия решения. Предлагается следующая процедура: в зависимости от т1 и т2 —числа точек обучающих последовательностей выбираются числа к и к'^ [к/2] + 1; выбираются к ближайших к точке Z точек из множества т1 + т2 точек обучающих выборок; точка Z относится к классу i (i = 1, 2), если в числе к ближайших точек имеется более к' точек из обучающей выборки класса /. Если же этого не происходит, то принимается решение d0. Это означает, что в числе ближайших к Z точек примерно поровну точек классов 1 и 2. В работе [13] показано, что при априорных вероятностях классов ль Щ = (/Их + т2) я* и rrit ->¦ оо, к-> оо, предлагаемая процедура сходится к байесовской, описанной в § 2, п. 4, т. е. является L (с) состоятельной. Очевидно, что при к нечетном и к' = [к/2] + 1 эта процедура совпадает с описанной в работах [11] и [12]. б) Методы, использующие понятия весовой функции. В пространстве выборочных точек можно отказаться от введения расстояния, не изменяя при этом качества алгоритмов классификации (состоятельность и т. д.). Но в этом случае приходится вводить произвольную функцию веса К (яA), хB), ..., л:^)), которая должна удовлетворять следующим условиям [26]. Функция К должна быть неотрицательна, симметрична, монотонно-мажорируема и интегрируема, т. е. К(*A), х<2>, ..., хЧ»)^0; К(х<1>, ХB)9 тшт9 *<р)) = К(±*A), ±*B), .... ±х(р)); К(х<1>, xWt...,xM)^Q(xM9 xB>, ..., *<">), где Q(xll\x[2\...9x\»)^QMl\ *?>,.., *П при x\l)>xf\ -J-oo -J- оо -f- оо J J ... J Q(*<1>, *<2), ...,*<Р>)ЛкA>, djc<2> dx<P><0O. — OO — OP OO 48
Вполне естественно, что в качестве весовой функции К(*A),*B\..., #(/?)) можно взять любую интегрируемую в области от 0 до оо и неотрицательную функцию ф (г) одномерного параметра, где вместо аргумента z стоит норма ||Х||. Если ср (z) еще и монотонно убывающая функция, то последние условия автоматически выполняются. Условие j Q(Z)dZ<Z < оо без ограничения общности можно заменить условием §Q(Z)dZ = = 1 и взять вместо функции веса К (X) мажоранту Q(X), если мажоранта симметрична. Если выбрать еще/? последовательностей В1т> 1 р В2т, ..., ВРт, таких, что Bjm-+oo при т ->- оо, а — П Bjm ->- 0 при tn /=i т-^оо, то можно получить оценку плотности в точке Z = (zA)9 2B), ...,*<">) т р где Х\ = (x\l\ x\2\ ..., x\p)) (i = \t 2, ..., tn)—точки обучающей выборки из какого-либо класса. В этом случае при вышеприведенных условиях можно доказать [16], что оценка fm (z^\ z<2>, ..., z<*>) состоятельна в точках непрерывности Z плотности / (Z), а величина /m(Z)-/(Z) у -^ П ^TOjK»(Z)dz асимптотически (т -*¦ оо) нормальна с математическим ожиданием О и единичной дисперсией. Легко проверить, что последовательности BJm = mA+v удовлетворяют всем необходимым условиям. Для таких последовательностей сходимость оценки fm (Z) к плотности / (Z) определяется скоростью убывания дисперсии, равной = т {+р!4 Следовательно, скорости сближения оценок в методах, описанных в работе [7] и в работе [16], совпадают для этого частного случая и рав- ны тB+р/2>. Очевидно, что функции Ф(г) = *-*'(с>0), (a + te»)-1, (^12?Jит.д., на которых основаны методы классификации с помощью так называемых потенциальных функций (см. главу III), удовлетворяют всем необходимым условиям построения локальных оценок плотностей. 49
В работе [5] доказано, что оценка плотности с весовой функцией р sin x^ К(хA), х^\ ...,*<*>) = П —ттт— обладает всеми приведенными выше свой- /=l X{t) сгвами, хотя функция К(*A\ хB),..., *(р)) может принимать и отрицательные значения. Поэтому от условия неотрицательности можно отказаться. в) Эвристический метод классификации1. Пусть имеется обучающая выборка {Xtl} (i = 1, 2, ..., mt\ I = k = 1, 2, ..., k) объема т = 2m., и эта выборка разбита на& классов Slf S2j ..., Sk. Предъявляется элемент Z ? X, подлежащий классификации, ^производится подсчет числа голосов Г (Z, Sz) за /-й класс следующим образом. Выбирается р' < /?, где р — размерность пространства X и рассматриваются любые р' координат р-мерного вектора X. Пусть этот набор координат обозначен через П, а через \\Z — Х||п для любого Z ? X обозначается величина Т/2 (z</> — х</)J. г /еп Введем функцию П, при || Z—Х||<8, /?n(Z,X)=j0> при ||Z_X||>8< Возьмем любой вектор Х*г ? Sj. Определим величину r(Z,Xu)^^Rn(Z,Xu). п Суммирование здесь ведется по всевозможным наборам р' координат из р (число таких наборов равно Срр'). Тогда величина T(Z, Sj) равна r(z,s,)= 2Г(гд«). Пусть задано некоторое число [л ^ 1. Вектор Z ? X относится к тому классу /, при котором r(Z,S;.) ^r для всех / Ф I. Если такого / не существует, то вектор Z не может быть классифицирован. В целях проверки качества классификации описанный выше алгоритм применяется для классификации элементов обучающей выборки. Затем подсчитывается некоторая величина Е, характеризующая, качество алгоритма, которая выражается через число неправильно классифицированных объектов и через число объектов не классифицированных в процессе работы алгоритма. Очевидно, что значение Е зависит от F, е, 4ц). Выбираются те значения 6, е, и, при которых Е достигает экстремума. 1 Этот метод разработан Ю. И. Журавлевым (ВЦ АН СССР). 50
§ 4. КЛАССИФИКАЦИЯ С ЧАСТИЧНЫМ ОБУЧЕНИЕМ. ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ В области социально-экономических исследований сравнительна распространены ситуации, в которых исследователю неизвестно заранее сколько типов (классов, объектов) представлено в изучаемой выборке {Xj} = Xi9 Х2, ..., Хп, однако, предварительные сведения или специальные экспертные оценки помогают выделить определенные, как правило, небольшие «порции» данных вида {Хц} из выборки {X,} или помимо нее, о каждой из которых известно, что эта порция представляет лишь один какой-то класс. Учитывая определение частичной обучающей выборки, данное в § 1 настоящей главы, естественно назвать подобные задачи классификацией при наличии частичного обучения. В этом параграфе мы рассмотрим процедуру классификации на неизвестное число классов при наличии частичного обучения и ее свойства применительно к одной частной схеме. Предположим, что каждый из векторов наблюдений Xj исследуемой выборки извлечен из какой-то нормальной генеральной совокупности принадлежащей семейству {N(ab 2)},/=l, 2,..., К, где *¦© вектор средних значений, а 2 = (вц) — матрица ковариаций компонент исследуемых случайных величин X/, общая для всех рассматриваемых генеральных совокупностей. Предположим также, что (т—s) > (р—1), где, как и прежде, т—общее число наблюдений, составляющих s частичных обучающих выборок. Введем в рассмотрение априорные вероятности яг (/ = 1,2,..., К) появления объекта /-го класса, или иначе пг — это удельный вес /-го класса среди всех исследуемых классов. При этом, вообще говоря, аи 2, К и пг (I = 1, 2, ..., К) нам неизвестны, а К может быть и + оо. Будем для определенности предполагать, что наблюдения, участвующие в частичных обучающих выборках, не входят в состав исследуемой выборки {Х7}. Этого всегда можно добиться с помощью предварительного исключения этих наблюдений из состава выборки {Xj}. 1. Описание процедуры классификации Следуя [9] и [15], определим понятие минимального дистанционного разбиения S*(Z) = {S1(Z), S2(Z) Sk(Z)} 51
относительно заданных центров Z =- (Zx, Z2, ..., Zk) и заданного числа классов k. Выше и далее Zt — вектор в рассматриваемом нами р-мерном пространстве/?^) с заданной в нем метрикой р. В соответствии с этим разбиением класс St (Z) состоит из точек пространства R(p\ ближайших в смысле метрики р к Ziy причем точки, равноотстоящие от нескольких центров Zif относятся к классу с наименьшим индексом. Так что, если ввести множества1 SUZ) = {X:XeR^K p(XfZl)<p(XfZi)f /=1,2,...,Л>, то S1(Z) = S[(Z)9 s,(Z)=s;(Z)ns1(Z), Sfc(Z) = SI(Z) П CnS^Z) \/ = l Пусть v — номер шага процедуры классификации, что в нашем случае совпадает с текущим номером последовательно извлекаемых из {Xj} наблюдений Xv. Сущность описываемой процедуры в предварительном (по v) уточнении «центров тяжести» классов Z(v> =(Ziv, Z2v> ••, Zk (v) v) и их числа k (v), а затем использование получаемой на последнем п-м шаге последовательности центров Z<n) для образования классов S^Zi")), S%{ZW),...,Sk{n){ZW) с помощью определенного выше минимального дистанционного разбиения S*<V)(Z<">). Введем в рассмотрение р (X, Y) — расстояние махаланобисского типа между случайными векторами X nY в исследуемом р-мерном пространстве RM p*(X,Y) = (X~Yy%-i(X-Y), где 2 — ковариационная матрица и для X и для Y. Пусть 2 — оценка максимального правдоподобия с устраненным смещением для 2, построенная по совокупности частичных обучающих выборок, f2 (X, Y) = (X — Y)' 2-1 (X—Г), а V; (V) х. (v) = —!_ у хп 1 Черта сверху используется как знак теоретико-множественного дополнения, т. е. множество 5= R(-P) \S состоит из всех точек пространства Rip), не принадлежащих к множеству S. 52 •
арифметическое среднее v^ (v) наблюдений, выбранных некоторым образом из v первых членов последовательности {Х7}, причем, вообще говоря, МХц = aiU где ац— какие-то векторы средних, возможно и повторяющихся, из числа clj (/ = 1, 2, ...,), ранее рассмотренных. И, наконец, обозначим р /v . n_ Vj(v) m—s—p+\ %Л/ у *<i (V + 1) — — . — р (Zf-v, Av+ i), Vi(v)+1 (m—s)p где v г-(v)—число точек из последовательности Хь Х2, ..., Хп, участвующих в вычислении переменного центра тяжести 1-го клас- са jl /<у v* (v+ 1) + v7- (v+ 1) (m —s) p На первом шаге процедуры из случайной последовательности берется Хх и принимается в качестве центра первого класса, т. е. при v = = 1,М1) = 1 и ZW = (Zu) = (Хг). На втором шаге процедуры (v = 2) извлекаем Х2 и подсчитываем fliB)=4 OT-S-P+1 p»(Zu, Х2). 2 (m—s)p Если /?! B) > Fa (р, m—s—/? + 1), где Fa (q, r)—100а%-ная точка центрального F-распределения с числами степеней свободы числителя и знаменателя соответственно q и г, то Х2 принимается в качестве центра второго класса, т. е. k B) = 2 и гB>,-(г12>222) = (хг,х2). Если же /?! B) ^ Fa (р> гп—s—р + 1), то Х2 присоединяется к первому классу, центр которого пересчитывается Zl2 = Лг = и, следовательно, k B) = 1, Z<2> = (Z12) =(X1). На (v + 1)-м шаге процедуры вначале подсчитывается величина #mm(v+l)= min /?,(v+l)=,/?/§(v+l). K/<*(v) Если #min(v+l)>Fa(p, m —S —p+1), то *(v+l)-*(v)-f-l, Z<v-bD = (Zi.v+1, Z2.v+1, ...,ZMv+i).v+i)-- -=(Zlv, Z2VJ •¦•» Zfc.(v) v, Xv_j- l) и переходит к следующему шагу, т. е. к рассмотрению точки Xv+2. Если же Rmln (v + 1) ^ Fa (р, m—s—р + 1), то точка Xv+i относится к /0-му классу, центр которого пересчитывается по формуле ^„^v-t- i) vit(v) + I 53
Этап А. Положив в остальных классах X,{v+l) = Ziv, подсчитываем величины Ciol(v+ 1), /= 1,2, ..., ?(v), j=f=i0. Если окажется, что С/./>+1) = min CioI>Fa(p,m—s—p+l). A.13) K/<ft(v) то полагают ft(v+l)=fe(v), 2/tV+1=X;(v+l) (i=l,2, ...,t(v)) и переходят к следующему шагу, т. е. к рассмотрению точки Xv+2 Если же Ci9l.(v+l)<Fa(p,m-s-p+l)9 то центр тяжести класса с номером i = min (t0, /0) пересчитывается по формуле У* Гг I П v/.(v+1)^<v+l)+^,^+1)^^+1) U ~*~ ' v/f(v+l) + v/§(v+l) а для i Ф i0 и i Ф /0 X* (v + 1) = Xt (v + 1) причем классам с порядковыми номерами max (i0f /0) + 1, ..., k (v) присваиваются номера на единицу меньшие (за счет «исчезновения» класса с порядковым номером, равным max (i0> j0)). Далее повторяется процедура А с заменой i0 на i и Xt на X* до тех пор, пока не окажется выполненным соотношение A.13), либо не останется всего лишь один класс. Последним (п + 1)-м шагом процедуры является реализация минимального дистанционного разбиения Sk^n)(Z^) относительно k (n) — точки Z(">, полученной на предыдущем шаге. Замечание 1. При сравнительно небольших объемах исследуемых выборок п можно использовать один из двух, или оба сразу вспомогательных приема: циклическое продолжение выборки, т. е. реализация описанной процедуры на искусственно удлиненных последовательностях вида Xit Х2, ..., Лп, Лх, Л2, ..., Лп, Хъ Л2, ..., Хп\ многократное повторение процедуры на различных вариантах последовательностей Xi{, Xi2, ..., Xin из случайно перетасованных Xt с целью выбора наиболее воспроизводимых результатов разбиения. Замечание 2. В целях ускорения сходимости описанной процедуры целесообразно воспользоваться частичными обучающими выборками для образования «нулевого приближения» Z<°> центров тяжести классов по правилу Z<°> = (Z10, Z20, ...,ZS,0), где Z,o = *;-— У Хп (/=--1,2 s) m'/=i 54
средние арифметические, построенные по наблюдениям 1-й частичной обучающей выборки. Соответственно k @) = s. После этого проводятся все необходимые циклы этапа А и подсчет Ctj @) f, / = 1, 2, ..., s до тех пор, пока не окажется выполненным соотношение A.13), либо не останется всего лишь один класс. Затем извлекается наблюдение Хг и выполняются все необходимые вычисления (v + 1)-го шага процедуры при v = 0 и т. д. 2. О некоторых свойствах, используемых в процедуре статистик Следующие результаты поясняют смысл описанной процедуры классификации и использованных в ней статистик и процентных точек. Лемма 1. Оценкой максимального правдоподобия (с устраненным смещением) для 2 по совокупности квазиобучающих выборок является матрица вида s mj I = 1 / = 1 и xi= ~z~ 2 хп> mi /=i s где m= 2 Щ- Лемма 2. Статистика (m—s)^ может быть представлена в виде m — s (m-s)S= 2 YhY'k, k=\ где Yk независимы и Yk? N@, 2) Аля k=-1, 2, ..., m—s. Лемма 3. Пусть Y = (Хг — "X,-), где - 1 % - 1 V' yi /=i y*= i причем Xr^N{arlt 2), X„k^N{aqk, 2). Тогда—2^2—F'^"^ подчинено нецентральному F-распределе- Vi+Vj нию F^(p, m—s—p+1), где параметр нецентральности x'-2*.-r2«-. • X 55
В частности, когда все яГ/ и аЯк равны между собой, то распределение центральное, т. е. А, = 0. Для доказательства сформулированных лемм достаточно воспользоваться приемами и результатами работы [1], и в частности: в лемме 1 составить функцию правдоподобия и воспользоваться леммами 3.2.1— 3.2.3 [ 1, с. 66—69]; в лемме 2 при анализе блочно-диагональной матрицы ортогонального преобразования, переводящего Хп в Yь воспользоваться теоремой 3.3.1 и леммой 3.3.1 [1, с. 74—75]; р лемме 3 воспользоваться нашей леммой 2 и теоремой 5.2.2 из [1, с. 148]. В конечном счете исследователя, естественно, интересуют характеристики качества описанной процедуры и в частнрсти: насколько точно число классов k (/г), полученное в результате нашего алгоритма, характеризует истинное число классов kny представленных в последовательности {Xj}? какова доля неправильно расклассифицированных объектов, а точнее — вероятность неправильной классификации в данном алгоритме? Ответы на поставленные вопросы можно было бы получить с помощь ю анализа вероятностей Ain) . 1 <8 ^71 где е — некоторое фиксированное положительное число и ан — вероятность того, что наблюдение, принадлежащее к *-му классу, будет отнесено, в результате применения нашей процедуры, именно к этому, i-му классу. Сформулированные выше свойства используемых в данной процедуре статистик должны помочь нам в этом анализе. В частности, интересно было бы получить описание функции Лл,е (ос, Р, К) в оценке вида 1??-1|<е)<1-ДП|в(а, р, К), К I J где а — введенный ранее уровень используемой в процедуре процент-- ной точки ^-распределения, К — максимальное число классов,, из которых извлекаются наблюдения {Xj}, n — общее число наблюдений, подлежащих классификации, p = p{i*<P.> {py m_s_p+i)<Fa(Pf m_s_p+ i)}f р0= min p(at, aj), Ki, i <K a X (po) — параметр нецентральности F-распределенной случайной величины, — некоторая известная монотонно возрастающая функция аргумента р0. При этом, очевидно, р = Р (р0)-монотонно убывающая (до нуля) функция ро, а Дя§ 8 (а, р, К) — монотонно возрастающая функция по а, р и К, и монотонно убывающая функция по е и п. Если Д„, 8 (а, Р, К) ->¦ 0 при п ->- оо и при любых фиксированных е, а, Р и /С, то естественно называть соответствующую процедуру классификации ^-состоятельной.
Глава II КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ. ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ: РАСЩЕПЛЕНИЕ СМЕСЕЙ НА ОСНОВЕ ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ § 1. СМЕСИ И УСЛОВИЯ ИХ РАЗЛИЧИМОСТИ Прежде чем приходить к формальному описанию смеси, остановимся на простейшем примере. Допустим, что необходимо распознавать рукописные цифры, соответствующие 0, 1, 2, ..., 9. Каждая цифра, например 8, может быть написана многими способами, соответствующими почеркам различных людей. Таким образом, мы будем иметь дело с целой группой написаний, которые относятся к понятию цифры 8, т. е. будем иметь дело с однородной группой написаний. Но различных цифр десять, поэтому можно говорить о смеси десяти однородных групп, соответствующих различным цифрам. Следовательно, при разбиении совокупности рукописных цифр на группы мы сталкиваемся со смесью не более чем десяти однородных в некотором смысле групп. При разбиении совокупности городов (семей, производственных предприятий, стран) на однородные группы, естественно, могут наблюдаться аналогичные явления. Поэтому каждая однородная группа обладает какими-то общими признаками и каждый объект этой группы может иметь индивидуальные (случайные) отличия. Говоря более формально, каждая однородная группа может быть представлена в виде генеральной совокупности, задаваемой своей функцией плотности распределения вероятностей f(U\Q)9 где параметр 0 может играть, например, роль номера класса. Часто при классификации объектов, как в нашем примере, имеют дело не с одной, а с целой серией (конечной или бесконечной) однородных групп, каждая из которых представлена в некоторой пропорции, т. е. имеют дело со смесями однородных групп. При этом возникает задача: выяснить, имеем ли мы дело со смесью или с одной однородной группой, другими словами, не является ли смесь однородных в некотором смысле групп, однородной группой в том же самом смысле. 57
1. Математическая постановка задачи Пусть имеется семейство плотностей распределений F = {/(t/|0); в 6 /?«с= /?«, ие&) и пусть G = {G @)} — семейство смешивающих распределений. Мы не включаем в G неинтересный для нас случай так называемых вырожденных распределений I, т. е. таких функций G @), которые имеют скачок от 0 до 1 в одной точке. Функция плотности распределения, или Л ((/) = $/(?/| 6) dG(G) (интеграл в смысле Лебега-Стильтье- са) называется смесью (G-смесью) семейства F. Когда G @) пробегает все точки класса G(J I, то Л (U) пробегает класс Н, называемый классом смесей. Класс смесей Н различим, или проще, смесь h (U) различима, если из равенства h(U)~lf{U\B)dG(B)=lf(U\B)d&(Q) следует, что G @) = G* F) для всех G @) ? G U I- Если все смешивающие функции имеют скачки в конечном числе дискретных точек, а в остальных точках не изменяются, то класс смесей называется классом конечных смесей. Возможность различимости класса конечных смесей {k k h (?/): h (?/)=:? С,/(?/|в,), C^OSC^l, f(U\Q) €F, k = l, 2, ...J означает, что из соотношения S cjtf/ie,)- | cfjf(u\Q}) /= i /==i следует kx = k\ для любого 1 ^ i ^ k найдется 1 ^ /<i?i такое, что Сг = C'j и f(U\ 0*) = /(?/ | 0/). Примеры различимых и неразличимых смесей появятся несколько позже. 2. Некоторые свойства классов различимых смесей Семейство F аддитивно замкнуто, если для любых 02 и 02 /(t/|e1)*/((/|e2)=/(t/|91+e2) и /(t/|61+e2)e^- Символ * означает обычную операцию свертки, т. е. / (С/1 в,) * / (U | в,) = J / (?/-У 100 / (К | в2) dF. 58
Если G — одномерный параметр, т. е. т = 1, то класс смесей Я аддитивно-замкнутого семейства F ={/((/ I 6); Э cz R1; U^Rp различим [10, 11]. Для конечных смесей известно еще несколько свойств [7]. Для различимости класса конечных смесей конечного семейства F = [fx (?/), /2 (U)> •••> fk(U)> U 6 R1] необходимо и достаточно, чтобы существовало k действительных чисел Ulf i/2, ..., Uj, •••, Uh, для которых II г"' и матрица | J ft (U) dUy 1 ^ /, ,/ ^ k\\ была бы невырождена. Отсюда, —оо в частности, следует, что классы конечных смесей конечного семейства нормальных и Г-распределений различимы. Для различимости класса Н конечных смесей, но бесконечного семейства F необходимо и достаточно, чтобы семейство F (U | 0) = и J f (U\B) dU было линейно, независимо по параметрам 0 [7]. Отсюда следует, что: — семейство Fx конечных произведений (р — целое положительное число множителей) экспоненциальных распределений различимо, т. е. образует класс различимых смесей; — семейство р-мерных нормальных распределений F2 образует различимые конечные смеси; — семейство F=F1UF2 образует различимые конечные смеси; — множество конечных смесей распределений Коши различимо; — / (U | 0) — плотность распределения с одномерным параметром 0. Семейство F плотностей / (U | 0) с параметром сдвига образует различимые конечные смеси. Таким образом, очень широкий класс конечных смесей различим. Чтобы не создалось ложного впечатления, что неразличимых смесей нет, приведем несколько примеров. Пример 1. Рассмотрим семейство одномерных нормальных распределений, задаваемых плотностями /(?/|0), где 0 ? /?2, U ? 7?1, 0' = (у, а2), т. е. неизвестно ни математическое ожидание уу ни дисперсия а2. Рассмотрим класс нормальных смешивающих распределений (/ @) = / @ \а9 а2)}, где а и а2 — какие-либо неизвестные числа. В этом случае смесь h(U) = lf(U\Q)f(Q)de-=f(U\a, о* + о*) принадлежит семейству нормальных распределений и поэтому может быть представлена следующим образом f(U\a, ol + o*)^lf(U\y, a2)/(t/|a, o\)dy = = lf(U\y, s*)f(U\a, s\)dyy если s\ + s* = o* + <5\. Наконец, / (U |a, a2 + a?) = J/ (U\y, aj + a2) dG (y)9 где G (y) 6 I и имеет скачок в точке а. Это значит, что нормальная смесь h (U) = = / (U\a9 a2 + a2) может быть представлена несколькими раз- 59
ными способами, т. е. является либо одним представителем класса, либо бесконечной смесью различных представителей этого же класса. Другими словами, специальная смесь различных наборов из представителей нормального класса, о котором мы ничего не знаем (т. е. ни средних, ни дисперсий) опять является набором представителей из того же нормального класса. А это означает, что о нормальной совокупности можно говорить как об однородной группе, так и о некоторой специальной смеси бесконечного числа однородных нормальных групп. Пример 2. Пусть семейство состоит из равномерных распределений с неизвестными параметрами, т. е. 6' = (а, а) ? R2 и плотность f(U\Q) = f(U\a,o) = О при U>a + o, — при а—a^U^a+o, 2а к ^ О при U<.a—o. Рассмотрим класс конечных G-смесей, когда функция G F) = G (а) имеет лишь два скачка, что соответствует смешиванию двух различных однородных классов. Легко проверить (рис. 2.1), что для любого X (О < X < 1) f(U\a9o)=-.kf(U\a—a(l — k)9 oX) + (\—X)f(U\a + oly a A-Х)). Это означает, что смешивающая функция G% (а) делает два скачка величины % и A — Я) и если Хх Ф Я2, то G^x (а) Ф G%2 (а). Аналогично можно произвести разбиение для любого числа классов. Другими словами, однородная группа представителей, которые могут появиться равновероятно в любой точке неопределенной области, может трактоваться как смесь (даже конечная) однородных групп представителей, однородных в том же смысле. Но если об области, где могут появляться представители, кое-что известно, например, в нашем случае о = 1/2, то равномерное распределение уже нельзя разбить на смесь двух равномерных распределений с а = 1/2. Пример 3. Рассмотрим семейство двумерных равномерных распределений на секторах круга единичного радиуса с центром в точке (О, 0). Сектор задается начальным направлением <р и углом при вершине р > 0, т. е. F ={/(?/1 в), где U ? R\ (<р, р) = в' ? Я2}. Таким образом, для любых ф, рь p2 ($г + Р2 ^ 2я). ^/(^|ф> M + 7nrirf(U\4 + Pi> Ра) = /(*/|ф. Pi+P«). Р1 + Р2 Р1 + Р2 что означает, что семейство смесей F неразличимо. Следовательно, равномерное распределение на круге с плотностью / (U | 0, 2я) ? F можно представить в виде -±-/(*/|<р, я)+-1-Д?/|ф + я, п). Это означает, что возможно любое разделение точек на два класса прямой, проходящей через центр (см. рис. 2.2). 60
PjlX) T 3\ 2\- Класс I i / ЛГЭ 0,33 0,5 1,0 . w ;h <rr 2 ^rI=j I Класс Л 0,33 0,5 1,0 Смесь млассоб I и Е (Ш и Ш) ifyM 0,5 1,0 Класс Ш ' Яш~2 -К \W ПШ*2 0,5 I I I i Класс Ш W 1 1 1 , 0,5 10 Рис. 2.1. Пример неразличимых смесей: произвольное разбиение точек, равномерно распределенных на отрезке прямой, на два класса 6В
Мласе I —Ul§ Хласс П -А Смесь классов Рис. 2.2. Пример неразличимых смесей: произвольное разбиение точек, равномерно распределенных на секторах круга, на два класса 62
§ 2. РАЗЛИЧИМЫЕ СМЕСИ И ОЦЕНКА ПАРАМЕТРОВ В практических ситуациях обычно имеют дело с наблюдениями Хь Х2, ¦.., Хп, которые следует разнести в несколько однородных групп (классов). Выше мы видели, что это можно сделать объективно только в том случае, когда наблюдения Xj (j = 1, 2, ..., п) получены из различимой смеси, плотность которой далее будет обозначаться через h ((/). Мы будем предполагать, что смесь h (U) является конечной смесью. Это ограничение объясняется тем, что по конечному числу п наблюдений нельзя определить бесконечное число компонент смеси. Мы будем предполагать также, что существуют плотности / (U | 9) у каждой составляющей смеси, причем функции f(U\Q) — известные функции своих аргументов (/ив. Ранее было показано (см. главу I), что наблюдения Xj можно- достаточно хорошо классифицировать, если удается хорошо оценить параметры 9* и вероятности п1у и число компонент 6, которые определяют смесь Л(?/)=2 ntf(U\Qt). Таким образом, для того, чтобы различить смесь h (U) или классифицировать Xj из выборки {Xj} (j = 1, 2, ..., п) следует оценить: — число классов (компонент), входящих в смесь, т. е. число k различных функций / (U | 6,-) в смеси; — доли каждого класса — вероятности зг*; — распределение каждого класса, т. е. оценить параметр 9^ или функцию / (U\ Qt). Это означает, что следует оценить по данным Хъ Х2, ..., Хп параметр G, компонентами которого являются числа k пъ я2, ...„ k "л (S«« = i), e1( e2,..., eft) т. е. 9 = (&, п1У я2, ..., nh9 91у 92, ,.., 0fe). Отсюда следует, что при неизвестном k не определена даже размерность пространства неизвестных параметров. В работе [6] доказано, что существуют состоятельные оценки всех этих параметров. Идея доказательства состоит в следующем. Различимость смеси h (U) = J/ (U | 6 dG (9) означает, что по h (V) ? Н функция G (9) = Gh (9) определена однозначно для любой h ? Н (см. § 1 гл. II). По результатам наблюдений Хъ X2l ..., Xnt полученным из смеси к ((/), строится подходящая состоятельная оценка плотности смеси h (U) (см. § 3 гл I). Затем строится G (9) = Gh (9), которая оказывается состоятельной оценкой G (9). Метод, которым доказано существование состоятельных оценок, мало пригоден для практических целей классификации. Поэтому в практических задачах еще более ограничивают класс смесей. Обычно рассматривается следующая схема (модель) получения наблюдений Xjt 63
Пусть имеется целочисленная случайная величина v (номер класса), принимающая значения 1, 2, ...» М (М — возможное число классов) м с вероятностями р19 р2У ..., Рм BiPi = !)• Для каждого значения v известно семейство плотностей Fv = {/(C/|e; v), ?/?Х, Эбв}, где 6 — конечное множество точек Э (не более чем М0) и 9 — параметр, принимающий какое-либо случайное, с распределением pv F), но фиксированное значение для всей выборки {Х\9 Х\, ..., ХУ,...}. Выборка получена по следующему правилу: на каждом шаге t вначале разыгрывается значение v с вероятностями ри не зависящими от t, затем для каждого v = i выбирается 9^ ? в,-, если этого не было сделано раньше, с помощью известного распределения pt (9) и, наконец, по / (U | 9V; v) разыгрывается значение Xvt (t = 1, 2, ...). Таким образом, мы сталкиваемся с последовательностью точек Xiy которые распределены по закону м хм0 HU)= 2 f(U\Qt)ni9 i = \ где / (V | 9j) = / (U | 9, i), a nt = pt (9) pt — вероятность того, что параметр принял значение 9^. Некоторые pt могут быть равны нулю, поэтому действительное число классов k ^ М. В этой модели мы имеем дело уже с пространством фиксированной размерности, поэтому задача классификации (различения смеси) несколько упрощается, так как нам следует оценить только параметры 6,- и лг-, т. е. параметр 9 = (яг, 9^) по наблюдениям Xj из смеси h (U). Дальнейшее упрощение модели уже связано с предположениями типа: а) вероятности pt — известны, б) вероятности pt (9) — известны. В работе [8] приводится несколько алгоритмов состоятельного оценивания параметра 9, когда предположение а) не выполнено, а предположение б) выполнено. В предположении о различимости м смесей, состоящих из компонент семейств Fv (т. е. h (U) (? U ^v) v=l и при некоторых дополнительных, довольно общих предположениях доказано, что байесовские оценки 9 для 9 единственны и состоятельны. Более того, существуют числа с, 0<с<оо, п0>0и зависящее от функций / (U | 9) число s > 9 такие, что при п> п0 М{\\§ — 9j|2}<m-s. В работах [5] и [9] приводится обзор методов различения смесей, когда выполнены предположения а) и б) вместе. Эти методы основаны на определении апостериорных вероятностей параметров 9^ по априорным и имеют ряд серьезных недостатков как теоретического, так и вычислительного планов. Далее мы остановимся подробнее на одном специальном случае оценки параметров смеси, для которого вычислительные процедуры достаточно просты и хорошо обоснованы. 64
§ 3. СМЕСИ И МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 1. Общие свойства метода Рассмотрим задачу классификации наблюдений, когда известны виды плотностей, каждая из которых определяет однородную генеральную совокупность —класс. Параметры совокупности неизвестны, наблюдаемые р-мерные точки Хх, Х2, ..., Хп независимы и получены из смеси k классов. Априорные вероятности л* появления точки из класса с номером i (i = 1, 2, ..., k) неизвестны. Таким образом, наблюдения Хъ Х2, ..., Хп можно рассматривать как выборку из генеральной совокупности с плотностью распределения A(tf)-2*i/(tf|e,), где / (U | 0*) — плотность распределения вероятностей в j-m классе, который определяется векторным параметром Qt. В предположении, что смесь h (U) — различима, можно ставить задачу о классификации членов последовательности {Xj} nak классов. Задача классификации была бы решена, если бы удалось оценить неизвестные nt и 0* по результатам наблюдений Хъ Х2, ..., Хп. Подход, использующий метод максимального правдоподобия для оценивания параметров nt и 0г-, рассмотрен в работах [2], [3], [4]. Обозначим набор всех неизвестных параметров через 0. Таким образом, если все 0* различны, то k 0 = (ях, я2, ..., nh9 0Ь 02, ..., 0^), 2 Я| = 1. i — 1 Если неизвестные параметры 0* каждого класса распадаются на два множества Qlt и 02*, таких, что 0ц меняются при переходе от класса к классу, а 02* одинаковы для всех классов @2j = 02), то k Q^(nu я2, ... ,nfe, 0Ш 012,..., 6Ш 02), 2 Я| = 1. Аналогично можно поступить, если известно, что n?l = я,-2 = — ... = Я; И Т. Д. В принятых обозначениях логарифмическая функция правдоподобия имеет вид lnL@)- 2 lnh(Xj)= 2 In /=i /=i 2 Я,/(Х;|0,) = 1 Требуется определить такую точку 0, для которой lnL@)-max lnL@), ее в где 0 — множество допустимых значений параметров. Обозначим через Р (i \ Xj) вероятность наблюдать класс i при получении точки 3 Зак- 358 65
Xj, тогда в соответствии с правилом вычисления условных, в данном случае так называемых апостериорных вероятностей piw- ;"f'*'|e" . 2 *if(Xj\b) i= i k Введем вспомогательные величины gtj > 0, такие, что 2j gtj = * для любого /. В этом случае выражение для In L @) можно представить в виде 1п1(е)=? iftjin^+S 2ftiin/(^|e,)- /= 1 / = 1 1 = 1 /==1 -ii^-n ;"(*" / = 1 и использовать итерационную процедуру для определения точки 0, в которой достигается максимум In L @). Итерационная процедура состоит в следующем. Пусть на шаге t процедуры получено значение Q{t) ={п{\\ п^К ... ..., 4°, 0{°, 02°, ...,8i°X при ^ = 0 0(О) —начальные данные. Положив i»i')/(x,|en /=1 следует определить такие величины 0(/+1) и я(' + 1), для которых выражения t^lnfiXjlQ,) 0=1,2,...,*) и величина 2 ( 2 g-^ In лг достигают максимума. Легко обна- /=i\/ = i " / k п ружить, что максимум величины 2 Т ёа ln nt по я* ПРИ условии i-i/-1 2 я^ = 1 достигается в точке t = i я. / = ' " Ly „to 66
поэтому 1 п ] = 1 Определить максимум выражения 2 g|fln/(X,|9,) (*=1, 2, ...,*) по 6; гораздо проще, чем определить максимум выражения для inLF) по б = (я1э л2,..., яЛ, ех, е2,..., еА). Далее (см. п. 2 § 3 главы II) будут приведены выражения для 6(/+,), которые максимизируют 2 er^in/^ie,) /=i при заданных^ для частного случая, когда f(U\Qt) — плотности нормального распределения. Зная теперь 6(/ + 1) и n{t. + l\ можно продолжить итерационную процедуру с е('+1>=МнЛ 4'+1).-> «Ь'+1), e?+,), е?+1\ ...,ei'+,))., Прежде чем излагать основные результаты об итерационной процедуре, приведем несколько замечаний и обратим внимание читателя на то, что вспомогательные величины имеют смысл апостериорных вероятностей, а именно «<}> = р<'Ч*|Х,). Замечание 1. Полезно знать поведение lnlFc'+1)) = 2 2 р(° (i\Xi)\nn{ii + l) + + Н РщA\Х3)\п[{Х^ + Х))- / = 1 /=1 i = 1 при возрастании числа итераций /, чтобы в случае сходимости быть уверенным в сходимости к максимуму. Замечание 2. Если Qt = F1Ь 62), то полезно знать процедуру, которая давала бы максимум величине 2 2я°^1^Iп/(^|0п» ад по всем ви и 02. 3* 67
Замечание 3. Для целей классификации следует знать поведение Р«> (i | Xj) с ростом t, так как в случае сходимости Р@ (/1 Xj) к величине Р (i | Xj) имеется возможность классифицировать наблюдение Xj. Для этого можно использовать правило классификации, состоящее в том, что наблюдение Xj относится к классу i0y если P(i0\Xj) = maxP(i\Xj). В работе [2] доказана Теорема 1. Если 6@ и б*'*1) значения 6 на *-м и (t + 1)-м шагах приведенной ранее итерационной процедуры и 8<*> Ф 0('+1), тогда 1п1(е«+1>)>1п1(в<'>). Можно доказать1, что справедлива Теорема 2. Если In L (9)< с < оо для 8 g 0 и Р«> (i | X,) и р(И-п (i|Xj) величины, полученные на t-м и (t + 1)-м шагах итерационной процедуры, то lim [Р«+п (| |Х,)—Р«> (i |Х,)] = 0. /->оо Рассмотрим подмножество 60 множества 0, состоящее из таких точек, которые не изменяются за один шаг итерационной процедуры. Это множество естественно назвать множеством неподвижных точек. Можно доказать [2], что справедлива Теорема 3. Если множество неподвижных точек 0О состоит из изолированных точек 8 = (ях, я2,... , nh, 9X, 62, ..., 9*) ? 0О, то при числе итераций t ->- оо 9<'> сходится к одной из точек 9 и эта точка является решением системы уравнений (d\nL(Q) _Q ainL(e)_x==0 (/=1> 2 ^ ^ | Ялг=ь I ^jij i=1 Система уравнений, записанная в теореме 3, является хорошо известной системой уравнений правдоподобия, которая может быть 1 В работе [2] не указано условие ограниченности In L @), которое необходимо для доказательства теоремы 2. 68
для 0* = @1Ь 02), как указано в [4], представлена в виде 1 /=i 2 f 23 P(i\Xj)dlnf{x^Slu ^2>1 =o (t = i, 2,..., *). Множество решений уравнений правдоподобия 62 шире, чем множество неподвижных точек 0О итерационной процедуры, так как кроме точек максимумов множество &х содержит множество точек минимумов функции правдоподобия, некоторые точки перегиба и т. д. Поэтому естественнее находить процедуры определения максимума \t\~L @), а не процедуры решения уравнений правдоподобия. 2. Смеси нормальных классов Исследуем теперь задачу оценки параметров смеси, состоящей из известного числа k классов. При этом известно также, что каждый объект X класса i представляет собой элемент нормальной генеральной совокупности N (aiy 2) и аь различны для разных классов, а 2 совпадают, но неизвестны компоненты ни at (i = 1, 2, ..., k), ни 2. Кроме того, неизвестны априорные вероятности классов nt (i = 1, 2, ..., k). Легко проверить [3], что в этом случае Pd\Xj)= lx*la'lXi+M , 2ехр[а*Х7- + Рг] t = i где аг=--2-1аг и Р« = — а'2-1«* + 1п я,. Учитывая результаты предыдущего параграфа, нам следует определить процедуру, которая максимизировала бы InLt = 2 P<'4i\X})ln .i-(*,-ef)'Z-l(X,-e<)' .Bя> ,Р/2|У|1/2 для at и 2, или, учитывая замечание 2, определить процедуру, которая максимизировала бы k S 1п?.,= _ i | я»(<|х,)|,Г ' 1' „„.'т^-^'-^-Ч, /=!/=! 1_Bл)Р/2|2|1/2 J 69
если только PW(i\Xi) = g\*) каким-либо способом уже получены. Эта процедура даст нам величины 6(//+1)-=а/'+1) для (t+l)-ro шага и 6B'+1) =2(*+п по Данным Q\*i и 02°. Две последующие теоремы k определяют точку максимума для In Lt и 2 In Lt в итерационной процедуре, приведенной в п. 1 настоящего параграфа. Для простоты их формулировки будем опускать индекс t, подчеркивающий связь с шагом процедуры. Если последовательность gtj (i = 1, 2, ..., k\ j = 1, 2, ..., n) такова, что n n Su>0, 2 gu=gi>0, S ?« = "> /=1 «=1 то справедливы следующие теоремы. Теорема 4. Пусть gi} — определенная выше последовательность и f(U | 6г)—р-мерные нормальные плотности, такие, что бг=^гг-, Sj). Тогда для любых векторов-столбцов Хи Хг, ..., Хп величины In Lt (i = 1, 2 п) достигают максимума при 1 " ^t = —^SuXj, 8i /-i 2,=т-2 *«*(**-«') w-*!)'- " /=. Теорема 5. Пусть gtj — определенная выше последовательность и / (U\Qi)—/7-мерные нормальные плотности, такие, что 0* = = (at, 2), тогда для любых векторов-столбцов Хъ Х2, ..., Хп величина k S Ь ij достигает максимума при i=i Л П УК у k ^i 2 g»Xh 2=т 2 2*"(*'-*><*'-*>' ft/-i -- /-1/-1 max V lnL,^--^[lnBjt)]-^-ln У|. • г = 1 При доказательстве этих теорем используется следующая Лемма. Пусть Xlf X2i ..., Хп—р-мерные векторы-столбцы^^О для / = 1, 2, ..., п и gx + g2 + ... + gn = g > 0. Тогда для любого / 2 &(Х,-1)(Х,-1)' = 2 ^(XJ—a)(XJ~aL^(a-/)(a-/)/, /=i /=i где 1 " 8 i~i 70
Доказательство этой леммы совершенно аналогично доказательству леммы 3.2.1 из работы [1, с. 66]. Далее, используя рассуждения, аналогичные тем, которые приведены в работе [1, с. 66—67], получим, что 2 lnZ.f=—?-1пBя) 2 2 g,j + -^\n\W\ S 2 gu- __Ltr(y i Ai)—L s «r.c^-ajx^-ax где ^=^2i. abS. Результат леммы 3.2.2 из [1, с. 67] завершает доказательство теоремы 5. Теорема 4 доказывается аналогично. Таким образом, показано, что при заданных где «I (О = 2G)' 5/° и р, (/) = -La't (t) 2G/ а% (t) + In nj«, величины Л /=i/=i ap=^i- максимизируют 2 lnLj. Далее легко получить, что й|/+1)=-^2^)('1^) и и = \щ , а/ , 2л*+1)г Если существуют пределы t-*oo t-+oo t=l, 2,..., ft, "m 2@ = 1» t-*oo 71
то точка 6 = (яь я2, ..., лк, аъ а2, ..., ak, 2) является точкой максимума функции правдоподобия, возможно, правда, что этот максимум является локальным. Легко видеть, что в качестве начальных данных можно задать не точку 8<°> = (п\°\ ..., л^0), ai0), ..., a{k°\ 2@)), а набор величин а* @), bt @)» с помощью которых можно получить Р<°) (i\Xj) и т. д. Именно такая итерационная процедура предлагается в работе [3]. Замечание. Точки, для которых Р (i \ Xj) = l/k являются неподвижными точками итерационной процедуры, но представляют собой посторонние точки, так как в этом случае at = a (i = 1, 2, ..., k). В случае двух классов (k = 2), как показано в работе [3], процедура сильно упрощается. Для произвольных а' @) = (аг @), ..., ak @)) и Р @), имеем Р<°> A1 Xj) = 1 , 1 1+ехр[а'@)Х, + Р@)] p@)B\Xj)=--l-PW(\\Xj)f v pt*4i\xs)x, п 2 pwv\Xj) n@).___L V p@)(i\X}). /=1 Далее определяются уточнения а и р* следующим образом: V-l(g<<»-aW) <*(!)- 1_я@)A_я@))(аA0)_аB0))' v-i (а@). где v=-±-S{xr-x)(Xj-Jcy, П ** /=1 п А Подставляя а A) и р A) вместо а @) и Р @), можно итерационную процедуру продолжить до тех пор, пока значения а и р не перестанут изменяться. Далее, после того как значения аир установятся, можно определить оценку ковариационной матрицы +'(*,- а2)(^-а2)'РB|Х,)].
Естественно точку Xj отнести к классу 1, если Р A1 Xj) > Р B | Xj). Это означает, что Р A \Xj) > 1/2. Отсюда следует, что X, будет отнесена к классу 1, если a'Xj + $< 0, или к классу 2, если а'Х,+ + Р > 0. Следовательно, аХ + р = 0 будет оценкой, разделяющей поверхности классов 1 и 2, а а и Р —оценками параметров разделяющей поверхности (см. § 2 главы I). Основные трудности этого метода классификации состоят в том, что скорость сходимости итерационного процесса зависит от расстояния Махаланобиса р (аъ а2) между классами и от начальных значений. Более того, может быть несколько локальных максимумов и требуется, изменяя начальные данные, определить абсолютный максимум. Грубо говоря, итеративный процесс сходится к абсолютному максимуму а, Р (при k = 2), из точек а @), р @), если угол между аиа@) менее 45°. Это ясно показывает возрастание трудностей при росте размерности. Если точка а @) выбрана случайно, то вероятность выполнения этого условия при р = 5 равна 0,076, при р= 10 — 0,01, при р = 15 — 0,001, при р = 20 — 0,0002 [3]. Поэтому при больших размерностях наблюдений (р > 10) требуется эту размерность снизить (например, методом главных компонент; см. ниже, главу IV). Пример неограниченной функции правдоподобия. Рассмотрим простейший случай, когда число классов ^ = 2 и наблюдаемые величины Xj (} = 1, 2, ..., п) являются одномерными (р = 1). Плотность распределения (Ц-сцJ h(U\ni,ai,oi)^h(U) = nx—^-e 2о* + ~]/2яо1 (С/-а2)а + я2-——е 2 , ~|/2л а2 где Jtx, я2, аъ а2, аь а2 являются неизвестными параметрами (щ + + зх2 = 1). В этом случае функция правдоподобия п П h(Xj) = L(nl9 я2, а19 а2, а19 а2). Рассмотрим поведение h (U) как функции от 0 = (яь аи ot). Если ai Ф Xjy то h (Xj \nidiOi) является ограниченной функцией, так как (xj-aiJ *г-±-е ^ <-—+ *-'/* V2not V23t\Xj—ai\ для любых Jij и ог. Если же Я;>0 и at = Xh то h (Xj\nl9 л2, Хи а2> <*ъ ^г) стремится к бесконечности как A/ог) при ot-+0. Однако, 73
учитывая конечность предела h (Xt) при I Ф j \\тк{Хг\пъ я8, Xj9 аа, ах, а2)^—^-е 2а* , получаем, что при ах = X, и ах -^ 0, функция L (jtlf я2, X,, а2, а1э а2) стремится к бесконечности как \1а1 для любого л± Ф 1 и любых а2 и а2, чего не происходит при а2 = ах, так как при g2 = <Ji = о \imL(nl9 я2, Xj, a2, а, а) = 0. Таким образом, любой набор nlf я2, ах = Х7-, а2, ах = 0, а2 > 0, пг + п2 = 1 и 0 < % < 1 обращает в бесконечность функцию правдоподобия. Обобщение примера на многомерные смеси нормальных классов не представляет труда. Для этого достаточно рассмотреть случай, когда компоненты наблюдений Xj какого-либо класса i линейно зависимы, т. е. 12 | ->¦ 0 при at = Xj. Пример показывает, что возможны ситуации, когда не выполняются условия теоремы 2 (п. 1 § 3) — условия сходимости итерационной процедуры для получения оценок максимального правдоподобия.
Глава III КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ. НЕПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ: МЕТОДЫ КЛАСТЕР-АНАЛИЗА, ТАКСОНОМИЯ § 1. ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ В этой части работы рассматривается следующая задача. Совокупность исследуемых объектов, каждый из которых задан многомерным наблюдением, т. е. набором из р замеренных на нем признаков X, требуется разбить на однородные в некотором смысле группы. Так же, как и в главе II, мы не располагаем здесь обучающими выборками. Более того, в отличие от главы II в данном случае практически отсутствует и априорная информация о характере распределения измерений X внутри классов (если не считать самых общих предположений, относящихся либо к компактности или ограниченности диапазона изменений компонент вектора X, либо к свойствам непрерывности и гладкости соответствующих законов распределения). Полученные в результате разбиения группы обычно называются кластерами (таксонами, образамиI, методы их нахождения — кластер-анализом (соответственно численной таксономией или распознаванием образов с самообучением). При этом исследователь с самого начала должен четко представлять, какую из двух задач классификации он решает. Решает ли он обычную задачу типизации, при которой исследуемую совокупность элементов (наблюдений) следует разбить на сравнительно небольшое число областей группирования (аналоги интервалов группирования при обработке одномерных наблюдений) так, чтобы элементы одной такой области лежали друг от друга по возможности на небольшом расстоянии. Либо он пытается определить естественное расслоение исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные друг от друга части. 1 Cluster (англ.) — скопление, группа элементов, характеризуемых каким- либо общим свойством. Тахоп (англ.) — систематизированная группа любой категории. 75
Заметим сразу, что если первая задача, задача типизации, всегда имеет решение, то при второй постановке результат может быть отрицательным: может оказаться, что множество исходных наблюдений не обнаруживает естественного расслоения на кластеры, например образует один кластер. В некоторых случаях исследуемые наблюдения Xl9 ..., Хп нам будет удобно интерпретировать в качестве выборки из /?-мерной генеральной совокупности, определяемой/как правило, неизвестной нам вероятностной мерой Р, задание которой, как известно (см. § 1 главы I), равносильно заданию определенного правила однозначного сопоставления каждой, представляющей практический интерес подобласти AS из исследуемого факторного пространства X некоторого неотрицательного, действительного, не превосходящего единицы числа P(AS), являющегося мерой достоверности события {XgAS}, т. е. события, заключающегося в том, что случайно извлеченное из генеральной совокупности наблюдение окажется принадлежащим именно заданной подобласти AS1. Тогда задача классификации заключается в разбиении факторного пространства X на какое-то число непересекающихся областей. Для упрощения дальнейших обозначений будем называть такую схему вероятностной модификацией задачи кластер- анализа. Заметим, что эта модификация используется, как правило, лишь при исследовании свойств различных процедур. Необходимость разбиений совокупности объектов на однородные группы часто возникает как в социально-экономических исследованиях (см. «Введение» и главу V настоящей работы, а также [25], [24], [26], [75], [18]), так и в научно-технических, приводимых в биологии [8], [62], [71], палеонтологии, геологии и географии [11], [46], медицине [44], почвоведении [65], документалистике [60], [61], метеорологии [29]. 1. Расстояния между отдельными объектами и меры близости объектов Наиболее трудным и наименее формализованным в данной задаче является пункт, связанный с определением понятия однородности объектов. В общем случае понятие однородности объектов задается либо введением правила вычислений расстояния р (Xif Xj) между любой парой объектов исследуемого множества {Xl9 X2, ..., Хп}, либо 1 Для сравнительно широкого класса так называемых непрерывных случайных величин задание вероятностной меры Р может быть осуществлено с помощью некоторой специальной функции f, («**\ ..., и*р)), называемой функцией плотности распределения от р переменных, где р — размерность исследуемого признака X. В этом случае при заданном А5 вероятность р (Д5) подсчитывается по формуле P(bS)= Г /(«<'>,..., u^)du^\..., du<">. ?s 76
заданием некоторой функции г (Хь Xj), характеризующей степень близости (сходства, подобия) объектов с номерами / и /. Если задана функция р (Xt, Xj), то близкие в смысле этой метрики объекты считаются однородными, принадлежащими к одному классу. Естественно, при этом необходимо сопоставление р (X*, Xj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему. Аналогично используется для формирования однородных классов и упомянутая выше мера близости г (Xt, Xj), при задании которой мы должны помнить о необходимости соблюдения следующих естественных требований: требования симметрии (г (Хь Xj) = г (Xj, Xt)); требования максимального сходства объекта с самим собой (г (Xiy Xt) = max r (Xt, Xj)) и требования при заданной метрике МОНОТОННОМУ 5р2 го убывания г (Хь Xj) по р (Хи Xj), т. е. из р (Xh, X,) > р (Хь Xj) должно с необходимостью следовать выполнение неравенства г (Xk, Хг) < Г (Xt, Xj). Конечно, выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему. При этом решение данного вопроса зависит в основном от главных целей исследования, физической и статистической природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Так, например, если из конечных целей исследования и из природы вектора X следует, что понятие однородной группы естественно интерпретировать как генеральную совокупность с одновершинной плотностью (полигоном частот) распределения и если, к тому же, известен общий вид этой плотности, то естественно воспользоваться общим подходом, описанным в главе II настоящей работы. Кстати, если известно, что наблюдения X извлекаются из нормальных генеральных совокупностей с одной и той же матрицей ковариаций, то естественной мерой отдаленности двух объектов друг от друга является, как видели в § 4 главы I, так называемое расстояние Махаланобиса. В качестве примеров расстояний и мер близости, сравнительно широко используемых в задачах кластер-анализа, приведем здесь следующие: — общий вид метрики махаланобисского типа. В общем случае зависимых компонент хA>, xB>, ..., х&) вектора наблюдений X и их различной значимости в решении вопроса об отнесении объекта (наблюдения) к тому или иному классу обычно пользуются обобщенным («взвешенным») расстоянием махаланобисского типа, задаваемым формулой Ро(Х(., X,) - У (X, -X,)' А' 2 Л (Xt^Xj) . Здесь 2 — ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения Xiy а Л — некоторая симметричная неотрицательно-определенная матрица «весовых» коэффициентов Лтд> которая чаще всего выбирается диагональной [38], [57]. 77
Следующие три вида расстояний хотя и являются частными случаями метрики ро, все же заслуживают специального описания; — обычное евклидово расстояние Р?(хг> x,) = l/W."-41)LW2)-42,L...+W)-xr)J. К ситуациям, в которых использование этого расстояния можно признать оправданным, прежде всего относят следующие: — наблюдения X извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей вида а2-/, т. е. компоненты X взаимно независимы и имеют одну и ту же дисперсию; — компоненты х^\ л;<2\ ..., х^ вектора наблюдений X однородны по своему физическому смыслу, причем установлено, например, с помощью опроса экспертов, что все они одинаково важны с точки зрения решения вопроса об отнесении объекта к тому или иному классу; — факторное пространство совпадает с геометрическим пространством нашего бытия, что может быть лишь в случаях р = 1, 2, 3, и понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве, например классификация попаданий при стрельбе по цели; — «взвешенное» евклидово расстояние Рв?(xit х,) = >roIW,)-4,)L«),W2)-^))* + ...+»,Wp)-*y>)8. Обычно применяется в ситуациях, в которых нам так или иначе удается приписать каждой из компонент х^ вектора наблюдений X некоторый неотрицательный «вес» cofe, пропорциональный степени его важности с точки зрения решения вопроса об отнесении заданного объекта к тому или иному классу. Удобно полагать при этом 0 ^ cofe ^ 1, k= 1, 2, ..., р. Определение весов юЛ связано, как правило, с дополнительным исследованием, например получением и использованием обучающих выборок, организацией опроса экспертов и обработкой их мнений, использованием моделей факторного анализа. Попытки определения весов coft только по информации, содержащейся в исходных данных [15], [75], как правило, не дают желаемого эффекта, а иногда могут лишь отдалить нас от истинного решения. Достаточно заметить, что в зависимости от весьма тонких и незначительных вариаций физической и статистической природы исходных данных, можно привести одинаково убедительные доводы в пользу двух диаметрально противоположных решений этого вопроса: выбирать соЛ пропорционально величине среднеквадратической ошибки признака л;<*> [26], либо — пропорционально обратной [!] величине среднеквадратической ошибки этого же признака [77], [15], [75]; — Хеммингово расстояние. Используется как мера различия объектов, задаваемых дихотомическими признаками. Оно задается с по- 78
мощью формулы ря(Х|. *;)=?|45)-*П s= 1 и, следовательно, равно числу vtj несовпадений значений соответствующих признаков в рассматриваемых t-м и /-м объектах; — другие меры близости для дихотомических признаков: Меры близости объектов, описываемых набором дихотомических признаков, обычно основаны на характеристиках v^, V/}} и vij=vtf} + + V//\ где v-/} (v//}) — число нулевых (единичных) компонент, совпавших в объектах Xt и Xj. Так, например, если из каких-либо профессиональных соображений или априорных сведений следует, что все р признаков исследуемых объектов можно считать равноправными, а эффект от совпадения или несовпадения нулей тот же, что и от совпадения или несовпадения единиц, то в качестве меры близости объектов Хь и Xj используют величину r{XitXj)=H. Р Весьма полный обзор различных мер близости объектов, описываемых дихотомическими признаками, читатель найдет в [6], [14], [71]; — меры близости и расстояния, задаваемые с помощью потенциальной функции. Во многих задачах математической статистики, теории вероятностей, физической теории потенциала и, как выяснилось, теории распознавания образов, или классификации многомерных наблюдений, оказываются полезными некоторые специально устроенные функции К (Х9 Y) от двух векторных переменных ХиУ, а чаще всего просто от расстояния р (X, Y) между этими переменными, которые мы, следуя [3], будем называть потенциальными1. Так, например, если пространство X всех мыслимых значений исследуемого вектора X разбито на полную систему непересекающихся од- носвязных компактных множеств или однородных классов Sl9 ..., Sfe, и потенциальная функция К (X, Y) определена для X ? X и Y ? X следующим образом К(Х Y) = \l>ecmX€SJ> YeSjyj = 1,2, ...,? ' 10, в противном случае, то с помощью этой функции удобно строить обычные эмпирические гистограммы (оценки плотности распределения Jn (?/)) по имеющимся наблюдениям Uu U2, •-., Un. Действительно, легко видеть, что w(si(U))'n ,Г1 nV(si(U)) 1 В некоторых работах можно встретить по существу те же функции, но под другим названием, например, window — «окно» [64], [58]. Определение «потенциальные функции» [3] обосновывается тем, что примером подобных зависимостей в физике является потенциал, определенный для любой точки пространства, но зависящий от того, где расположен источник потенциала. Строгого математического описания класса потенциальных функций в литературе нет, а поскольку оно нам не понадобится, мы этим также не будем заниматься. 79
где v (U) — число наблюдений, попавших в класс Sj (?/), содержащий точку U, a WSjW)—объем области Sj{U) (геометрическую интерпретацию для одномерного случая см. на рис. 3.1). Если в исследуемом факторном пространстве X задана метрика р (U, V), то можно не связывать себя заранее зафиксированным раз- SM —sr' ~Sf -~S3^ -Sc -s6- Рис. З.1. График гистограммы fn (U), построенный с помощью разбиения на группы выборочной совокупности Х\, ••• , Хп. Размерность совокупности p=i биением X на классы, а задавать К (U, V) как монотонно убывающую функцию расстояния р (U, V). Например, K(U, V)=e-ep*(f.V); a>0, K(U, V) = [\ + ap*(U, VOP1, «>0. C.2) Другие способы выбора потенциальной функции по расстоянию р можно найти в [3]. Приведем здесь еще лишь одну достаточно общую форму связи между р (?/, V) и К (U, V), в которой расстояние р выступает как функция некоторых значений потенциальной функции К р(?/, V)-=YK(U, U)+K(V, V)-2K(U, V). C.3) В частности, выбрав в качестве K(U, У) скалярное произведение векторов U и Vу т. е. положив K(U,V) = (U,Y)= 2jm(/)°(/)' мы получим по формуле C.3) обычное евклидово расстояние р?. 80
Легко понять, что и в случае задания потенциальной функции в виде соотношений C.2), формулы C.1) позволяют нам строить статистические оценки плотности распределения C.1), хотя график функции fn (U) будет уже не ступенчатым, а сглаженным. Легко также понять, что при отсутствии метрики в пространстве X и при ее наличии функции K(U, V) естественно могут быть использованы в качестве меры близости объектов U и V, а также объектов и целых классов и классов между собой. В первом случае эта мера позволяла получить, правда, лишь качественный ответ: объекты близки, если U и V принадлежат одному классу, и объекты далеки — в противном случае; во втором случае мера близости является количественной характеристикой. Позже мы еще вернемся к потенциальным функциям и к их использованию в задачах классификации. а) О физически содержательных мерах близости объектов. В некоторых задачах классификации объектов, не обязательно описываемых количественно, естественнее использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содержательные числовые параметры, так или иначе характеризующие взаимоотношения между объектами. Примером может служить задача классификации с целью агрегирования отраслей народного хозяйства, решаемая на основе матрицы межотраслевого баланса [18]. Таким образом, классифицируемым объектом в данном примере является отрасль народного хозяйства, а матрица межотраслевого баланса представлена элементами s^-, где под stj подразумевается сумма годовых поставок в денежном выражении i'-й отрасли в /-ю. В качестве матрицы близости {г^} в этом случае естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормировкой понимается преобразование, при котором денежное выражение поставок из i-й отрасли в /-ю заменялось долей этих поставок по отношению ко всем поставкам г-й области. Симметризацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, например, в [18] близость между i-й и /-й отраслями выражалась либо через среднее значение их взаимных нормированных поставок, либо через комбинацию из их взаимных нормированных поставок. б) О мерах близости числовых признаков (отдельных факторов). Как упоминалось, решение задач классификации многомерных данных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих существенно сократить размерность исходного факторного пространства, выбрать из компонент л;*1), ..., х(/?) наблюдаемых векторов X сравнительно небольшое число наиболее существенных, наиболее информативных. Для этих целей бывает полезно рассмотреть каждую из компонент х^\ ..., х^ в качестве объекта, подлежащего классификации. Дело в том, что разбиение признаков л;*1), ..., х^ на небольшое число однородных в некотором смысле групп позволит исследователю сделать вывод, что компоненты, входящие в одну группу, в определенном смысле сильно связаны друг с другом и несут информацию о каком-то одном свойстве исследуемого объекта. Следовательно, можно надеяться, 81
что мы не понесем большого ущерба в информации, если для дальнейшего исследования оставим лишь по одному представителю от каждой такой группы. Чаще всего в подобных ситуациях в качестве мер близости между отдельными признаками xW и х^\ так же как и между наборами таких признаков, используются различные характеристики степени их кор- релированности, и в первую очередь коэффициенты корреляции. Подробнее об этом см. главу IV настоящей работы. Завершая изложение, посвященное введению понятий расстояний и мер близости, характеризующих отдельные объекты, и их краткому обзору, сошлемся на работы [71], [63], [67], [14], [6], в которых эти вопросы рассмотрены весьма подробно. 2. Расстояние между классами и мера близости классов При конструировании различных процедур классификации {кластер-процедур) в ряде ситуаций оказывается целесообразным введение понятия расстояния между целыми группами объектов, так же как и понятия меры близости двух групп объектов. Приведем здесь примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть St — /-я группа (класс, кластер) объектов, nt — число объектов, образующих группу St, вектор X(i)— арифметическое среднее векторных наблюдений, входящих в S,, другими словами, X (/) — «центр тяжести» f-й группы, а р (Slt Sm) — расстояние между группами Sz и Sm. Ниже приводятся примеры наиболее употребительных и наиболее общих расстояний и мер близости между классами объектов: — расстояние, измеряемое по принципу «ближайшего соседа» «nearest neighbour» [28], [55], [41], [71] Pmin(S„SJ= min р(ВД-); C.4) XieSh XjeSm — расстояние, измеряемое по принципу «дальнего соседа» «furthest neighbour» [55], [42] Pmax(S„Sm)= max p{XifXj)i C.5) xi*sixjesm — расстояние, измеряемое по «центрам тяжести» групп [55], [42] p(S/fSm)=.p(X@,X(m)); C.6) — мера близости групп, основанная на потенциальной функции [10] r(ShSm)=-L- 2 2 K(Xi9Xj)i ninmxiesl Xjesm — расстояние, измеряемое по принципу «средней связи». Это расстояние определяется [55], [42] как арифметическое среднее всевоз- 82
можных попарных расстояний между представителями рассматриваемых групп, т. е. Pcp(S„SJ=— 2 2 p(Xi9Xs). C.7) V niflm XteSt Xj6Sm Естественно задать вопрос: а нельзя ли получить достаточно общую формулу, определяющую расстояние между классами по заданному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмотренные выше виды расстояний? Изящное обобщение такого рода, основанное на понятии так называемого «обобщенного среднего», а точнее — степенного среднего, было предложено А. Н. Колмогоровым1. Обобщенное (по Колмогорову) расстояние между классами или обобщенное /(-расстояние вычисляется по формуле [пщт x.eSi x-esm В частности, при г->оо и при г->—оо имеем: p<*>(S„Sm) = pmax(S|tSm), pw.(S„Sm) = pmln(S„Sm). C.8) 1 Под обобщенным средним величин с19 с2, ¦.., cN понимается выражение вида ( 1 Ы MF (съ с%, ..., cN) = F'1 — 2J F {ct) ), в котором F (и) — некоторая функция и соответственно F-1— преобразование, обратное к F. Частным случаем обобщенного среднего является степенное среднее, определяемое как М, I 1 N \- Нетрудно показать, что (при С( > 0, i = 1, 2,..., N) M_OQ(cli ca,...,cN)= min (ct)9 l< / < N M+00(cl9ci9...9cN) = max (ц)9 ^ 1 < i < N M0 (clt c2>. •., cN) = j П ct \N —геометрическое среднее, 1 N Mi (cly c2y •-, слг) = ~ГГ 2 Ci —аРиФметическое среднее. " i = \ Все излагающиеся ниже определения и результаты, опирающиеся на понятие степенного среднего (обобщенное /(-расстояние между классами р*^ (Sj, Sm)> мера концентрации Zr (S), соответствующая разбиению S, мера внутриклассового рассеяния Q^ (Si) и т. п.) заимствованы из доклада А. Н. Колмогорова^ прочитанного им на семинаре по математической статистике межфакультетской лаборатории статистических методов МГУ, 27 апреля 1972 г. 83
Очевидно, также 9^(SlySm)^Pcp(ShSm). Из C.8) следует, что если S (m, q) = Sm[}Sl группа элементов, .полученная путем объединения кластеров Sm и Sqy то обобщенное Л-расстояние между кластерами S( и S (m, q) определяется формулой: р<*> (S, 3{т, ф) = N^(S,.W+«,Ipy(St,5,)m Отметим, что понятие расстояния между группами элементов особенно важно в так называемых агломеративных иерархических кластер- процедурах, поскольку принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп сначала самых близких, а потом все более и более отдаленных друг ют друга. Подробнее об агломеративных иерархических процедурах см. ниже. Учитывая специфику подобных процедур для задания расстояния между классами оказывается достаточным определить порядок пересчета расстояния между классом St и классом S(m, q) = SmU«Sg, являющимся объединением двух других классов Sm и Sqf по расстояниям р1т = р (Sz, Sm), plq = р (Sl9 Sq) и pmq = p(SmtSq) между этими классами. В [55] предлагается следующая общая формула для вычисления расстояния между некоторым классом St и классом .S(m, q): Р/ {т. g)^P (St, S (m,q)) - aplm + $plq + vpmg + б | p/m — plq |, C.9) где a, p, 7 и S — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на решение той или иной экстремальной задачи. Так, например, полагая а = |3 = —8 = у И7 = 0, мы, как легко видеть, приходим к расстоянию, измеряемому по принципу ближайшего соседа. Если же положить a = |3 = б — у и у = о, то расстояние между двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу дальнего соседа. И наконец, выбор коэффициентов соотношения C.9) по формулам приводит нас к расстоянию рср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого. То, что формула для р/ (m, q) и, в частности, выбор коэффициентов а, р, у и б в этой формуле, зачастую определяют нацеленность соответствующей агломеративной иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле опре- 84
деляет ее оптимальную критерийную установку, поясняет, например, следующий результат [76]. Оказывается, если для вычисления р/ (m, q) воспользоваться следующей модификацией формулы C.9): Рм«.7) =—; ;—Р/«Н ; г—Р'? ; т—Pw w.iuj то соответствующий агломеративный иерархический алгоритм обладает тем свойством, что на каждом шаге объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внутри классов. Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов. 3. Порог Под порогом подразумевается обычно то число, с которым сравнивается расстояние между объектами (классами) или мера близости объектов для того, чтобы определить, можно ли отнести рассматриваемые два объекта (либо объект и класс, либо два класса) к одному общему классу. При конструировании классификационной процедуры порог может задаваться и как величина постоянная, не изменяющаяся в течение всей процедуры, и как величина переменная, меняющаяся по определенным правилам при переходе от одного этапа процедуры к другому (см. § 3 настоящей главы). 4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров Естественно попытаться определить сравнительное качество различных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть одно разбиение другому. С этой целью в постановку задачи кластер-анализа часто вводится понятие так называемого функционала качества разбиения Q E), определенного на множестве всех возможных разбиений. Функционалом он называется потому, что чаще всего разбиение S задается, вообще говоря, набором дискриминантных функций бх (X), б2 (X), .... Тогда под наилучшим разбиением S* понимается то разбиение, на котором достигается экстремум выбранного функционала качества. Надо сказать, что выбор того или иного функционала качества, как правило, осуществляется весьма произвольно и опирается скорее на эмпирические и профессионально-интуитивные соображения, чем на какую-либо строгую формализованную систему. 85
Мы приведем здесь примеры наиболее распространенных функционалов качества разбиения и попытаемся обосновать выбор некоторых из них в рамках одной из моделей статистического оценивания параметров. Пусть исследователем уже выбрана метрика р в пространстве X и пусть S = (Sly S2, ..., Sk) некоторое фиксированное разбиение наблюдений Хъ Х2, ..., Хп на заданное число k классов Sl9 S2, ..., Sfe. За функционалы качества часто берутся следующие характеристики: — сумма («взвешенная») внутриклассовых дисперсий Qi(S)=2 2 Р2№Д@) (З.П) z-i xiesl весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [125], [11], [105], [107], [75], [76] и др.; — сумма попарных внутриклассовых расстояний между элементами Q.(S)=S 2 р*(*1.ВД i=ixitx.esl либо i=\ ni xv Xjest в большинстве ситуаций приводит к тем же наилучшим разбиениям, что и Qi (S), и тоже используется для сравнения кластер-процедур [70], [45], [7]; — обобщенная внутриклассовая дисперсия Q3 (S) является, как известно [4, с. 231], одной из характеристик степени рассеивания многомерных наблюдений одного класса (генеральной совокупности) около своего «центра тяжести». Следуя обычным правилам вычисления выборочной ковариационной матрицы, — отдельно по наблюдениям, попавшим в какой-то один класс S, Q.(S) = detB »i^i). (ЗЛ2> где под det А понимается «определитель матрицы А», а элементы wqm (/) выборочной ковариационной матрицы Wb класса St подсчи- тываются по формуле «WW = — 2 (x{V-x{g)(l))(x{V-x(m)(l)) <7,т=1,2,...,М3.13> «г xtest где X/v)—v-я компонента многомерного наблюдения Xiy axW (I) — среднее значение v-й компоненты, подсчитанное по наблюдениям 1-го класса. 86
Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества разбиения, в котором операция суммирования Wt по классам заменена операцией умножения Q4(S)=n №Wt)ni. Как видно из формул C.12 и 3.13), функционал Q3 (S) является средней арифметической (по всем классам) характеристикой обобщенной внутриклассовой дисперсии, в то время как функционал Q4 (S) пропорционален средней геометрической характеристике тех же величин. Заметим, что использование функционалов Q3 (S) и Q4(S) является особенно уместным в ситуациях, при которых исследователь, в первую очередь, задается вопросом: не сосредоточены ли наблюдения, разбитые на классы Sl9 S2, ..., Skt в пространстве размерности меньшей, чем р? Замечание. При вероятностной модификации схем кластер- анализа соответственно видоизменится запись приведенных выше функционалов. Так, например, QI(S)=2 l?(X,X(l))P(dX). '=16, где X(/) = -V \ XP(dX) или <Й (S) = J] -1- I $ p* (X, Y) P (dX) P(dY). C.14) i = i ^\:>i)slsl а) Общий вид функционала качества разбиения, как функции ряда параметров, характеризующих межклассовую и внутриклассовую структуру наблюдений. Зададимся вопросом: нельзя ли выделить такой достаточно полный набор величин ux(S)t w2(S),..., характеризующих как межклассовую, так и внутриклассовую структуру наблюдений при каждом фиксированном разбиении на классы S, чтобы существовала некоторая функция Q (иъ иъ ...) от этих величин, которую мы могли бы считать в каком-то смысле универсальной характеристикой качества разбиения. В частности, в качестве таких величин ui = ui E), и2 = и2 (S), ... можно рассмотреть, например, некоторые числовые характеристики: степени близости элементов внутри классов («j); степени удаленности классов друг от друга (и2)\ степени «одинаковости» распределения многомерных наблюдений внутри классов (и3); степени равномерности распределения общего числа классифицируемых наблюдений п по классам (а4). Что касается установления общего вида функции Q (иъ и2> и3> и4), то без введения дополнительной априорной информации о наблюдениях Xt (характере и общем виде их закона распределения внутри 87
классов и т. п.) единственным возможным подходом в решении этой задачи, как нам представляется, является экспертно-эксперименталь- ное исследование. Именно с этих позиций в [12] сделана попытка определения общего вида функции Q. Чтобы определить рассмотренные в этой работе величины иъ и2, и3и и4, введем понятие кратчайшего незамкнутого пути (КНП), соединяющего все п трчек исходной совокупности в связный неориентированный графе минимальной суммарной длиной ребер1. Под длиной ребра понимается расстояние между соответствующими точками совокупности в смысле выбранной метрики. Построение такого графа можно начать с парц наиболее близких точек. Если таких пар несколько, то выбирается любая из этих пар. Пусть это будут наблюдения с номерами i0 и /0. 3ajем с помощью сравнения расстояний р (Х/о, Xj)(j=\,2,...9n; /^*0,/V=/0) и p(Xlo,Xq)f где q =1,2,..., п\ цф]^ и цф'г^ определяется точки Хт{1о) и ХтAо)—наименее удаленные соответственно от точек Х^ и Xj и выбирается ближайшая из них Хт , т.е. Хт = Хт(/ >, если р(Х/о, Xmiio))<p(XJo, XmUo)) и Хто = Хт(/о), если р(Х/о, Хт(/ор<р(Х/о,Хт(/о)J. Затем точка XmQ „пристраивается" к той из точек Xi и X/ , к которой она ближе. Далее сравниваются расстояния Р (Xi0, Xj), р (Х/о, Xq) и р (Х/По, Xv)(/, ц,чф i0; /, ц^Ф /0 и /, q, v ф m0) и т. д. Очевидно, «разрубая» s ребер такого графа, мы будем делить совокупность на s+1 классов. Пусть pi (/) — i-e ребро части графа, отнесенной к /-му классу. Всего таких ребер, как легко видеть, будет щ — 1. И пусть pmln (р) — минимальное из ребер, непосредственно примыкающих к ребру р- и относящихся к /-му классу, если таковое имеется. Занумеруем в определенном порядке граничные, разрубленные ребра А,ь Ха, ..., ^ft_i таким образом, чтобы имелось взаимно-однозначное соответствие между номерами граничных ребер и номерами примыкающих к ним классов, за исключением одного, геометрически представленного одним из «хвостов» графа. На рис. 3.2 представлено изображение кратчайшего незамкнутого пути. Выбрасывая ребра I, II, III, получаем четыре связных графа, что соответствует разбиению совокупности на четыре группы. Обозначим с помощью \ одно из таких ребер /-го класса. 1 Использование КНП в задачах классификации имеет длинную историю. Методы классификации, основанные на КНП, использовались для решения задач в области антропологии, биологии, сельского хозяйства, лингвистики (см., например, Gzekanowski J. Zur Differentialdiagnose der Neandertalgruppe, Kor-blatt Dtsch. Ges. Antrop. 1909, XL, s. 44—47; F 1 о г e k K., L u k a s - zewiczJ., Perkal H., SteinhausH., ZubzyckiS. Sur la liaison et la division des points d'un ensemble fini. Coll. Math., 1951, 2, p. 282—285). 2 Если p (Xf , Xm (/0)) = P (Xj , Xm (/ ))> то в качестве Хт можно выбрать любую из точек Хт (*0) и Хт (/ ). 88
Теперь, следуя [12], мы определим величины ut следующим образом: к 1 = 1 где р(/)=(| Pi С)) /(«/ - 1)- средняя длина ребер 1-го класса; м« = 1 *-1 п<0 PriVn (Л/) Л —1 / = 1 ^ и4 = А* П /=i п Рис. 3.2. Графическое изображение кратчайшего незамкнутого пути Эмпирический перебор различных вариантов общего вида функции Q в сочетании с анализом результатов экспертных оценок качества всевозможных разбиений привели авторов [12] к следующей формуле: QE) = ln{- [«,(S)]e[«4(S)]» (l+[«iE)]c)(l+[(S)]d) C.15) где a, by с и d — некоторые неотрицательные параметры, оставляющие исследователю определенную свободу выбора в каждом конкретном случае. Авторы [12] отмечали хорошее согласие своих экспериментов с экспертными оценками при a=^b = c = d= 1. Из смысла величины щ (i = 1, 2, 3, 4) следует, что лучшим разбиениям соответствуют большие численные значения функционала Q, так что в данном случае требуется найти такое разбиение S*, при котором Q E*) = max Q (S). s Конечно, данный выбор количественного и качественного состава величин ut и, в еще большей степени, их точное определение являются чисто эвристическими и подчас просто спорными. Это относится, в первую очередь, к величине и3. Поэтому читатель должен принимать описанную здесь схему не как рекомендацию к универсальному использованию функционалов типа C.15) в задачах кластер-анализа, но лишь как описание конкретного примера одного из возможных подходов при выборе функционалов качества разбиения. б) Функционалы качества разбиения при неизвестном числе классов. В ситуациях, когда исследователю заранее не известно, на какое число классов подразделяются исходные многомерные наблюдения Хъ Х29 ..., Хпу функционалы качества разбиения Q (S) выбирают чаще всего в виде простой алгебраической комбинации (суммы, разности, произведения, отношения) двух функционалов /х (S) и /2 (S), один 89
из которых 1г является убывающей (невозрастающей) функцией числа классов k и характеризует, как правило, внутриклассовый разброс наблюдений, а второй 12 является возрастающей (неубывающей) функцией числа классов k. При этом интерпретация функционала /2 может быть различной. Под /2 понимается иногда и некоторая мера взаимной удаленности (близости) классов, и мера тех потерь, которые приходится нести исследователю при излишней детализации рассматриваемого массива исходных наблюдений, и величина, обратная так называемой «мере концентрации» всей структуры точек, полученной при разбиении исследуемого множества наблюдений на k классов. В [41], например, предлагается брать /i(S)=S 2 р (**>*(')) / = 1 X. € Sl И I2(S) = ck(S), где k (S) — число классов, получающихся при разбиении S, а с — некоторая положительная постоянная, характеризующая потери исследователя при увеличении числа классов на единицу. Другой вариант функционалов качества такого типа можно найти, например, в [10], где полагают «№~TS3iriJ1'№-*>. Здесь К (X, Y) — упомянутая выше потенциальная функция, а г (Siy Sj) — мера близости r-го и /-го классов, основанная на потенциальной функции C.6). Очевидно, в первом случае мы будем искать разбиение S*, минимизирующее значение функционала Q(S) = I1(S) + I2(S), C.16) в то время как ео втором случае требуется найти разбиение S0, которое максимизировало бы значение функционала Q* (S) = Ц (S) + Г2 (S). C.17) Весьма гибкой и достаточно общей схемой, реализующей идею одновременного учета двух функционалов, нам представляется схема, предложенная А. Н. Колмогоровым (см. сноску к стр. 83). Эта схема опирается на понятия меры концентрации Zr(S) точек, соответствующей разбиению S, и средней меры внутриклассового рассеяния 1(ГК) (S), характеризующей то же разбиение «S. 90
Под мерой концентрации ZT (S) предлагается понимать величину " ~\ v№) У C.18) гдеу (Xt) — число элементов в кластере, содержащем точку Xh а выбор числового параметра г находится в распоряжении исследователя и зависит от конкретных целей разбиения. При выборе г полезно иметь в виду следующие частные случаи Zr (S): к где k—число различных кластеров в разбиении S; k log Z0(S) = 2 — log— —естественная информационная мера кон- /= 1 п п центрации; 1^(8)= max f-^Y, 1 < i < k \ П ) Z^o(S)- min (S±); Заметим, что при любом г предложенная мера концентрации имеет минимальное значение, равное — , при разбиении исследуемого множества на п одноточечных кластеров и максимальное значение, равное 1, при объединении всех исходных наблюдений в один общий кластер. При конструировании и сравнении различных кластер-процедур полезно иметь в виду, что объединение двух кластеров St и Sm в один дает прирост меры концентрации Zx (S), равный Л^Ч-К^ + ЛтР-лГ Определение средней меры внутриклассового рассеяния I{rK) (S) также опирается на понятие степедного среднего. В частности, полагают 1 где под ir(S)- tl i= 1 Qr>(S,) = l-L У 4 x.est x{est 2 Pr (*>.**) C.19) 91
понимается обобщенная средняя мера рассеяния, характеризующая класс St. Числовой параметр г здесь, как и прежде, выбирается по усмотрению исследователя. Полагая LvW xtes(X) J где, как и прежде, S(X) — кластер, в который входит наблюдение X, a v(X) — число элементов в кластере S, (X), формулу C.19) можно переписать в виде I{rK)(S) = Mr(QirK)(X1), ..., Q{rK)(Xn)) = [i— При конструировании и сравнении различных кластер-процедур полезно иметь в виду, что объединение двух кластеров Sj и Sm в один дает прирост величины п [I{rK) (S)]r, непосредственно характеризующей среднюю меру внутриклассового рассеяния, равный A[rt(/(«y] = -i^{2[pW(SbSm)]8- ni+nm Очевидно, если ориентироваться на сокращение числа кластеров при наименьших потерях в отношении внутриклассового рассеивания, не обращая внимания на меру концентрации, то естественно объединять два кластера, для которых минимальна величина А (п lll^Y). Если же одновременно ориентироваться и на рост взвешенной концентрации ZxE), то объединение кластеров естественно подчинить требованию минимизации иеличины А Г" (/^У] AZi(S) ^ {2 [р(*> (Slt Sm)y- [Q<«> (S,)]'-[Q<*> (Sm)yy в) Формулировка экстремальных задач разбиения исходного множества на классы. Вариант 1: комбинирование функционалов качества. Требуется найти такое разбиение S*, для которого некоторая алгебраическая комбинация функционала, характеризующего среднее внутриклассовое рассеяние C.20), и функционала, характеризующего меру концентрации полученной структуры C.18), достигала бы своего экстремума. В качестие примеров можно привести комбинации Q (S) 92
и Q' (S), задаваемые формулами C.16) и C.17), а также более общие- выражения вида a-MSj + PMS) и [MSJIMMS)]*, C.21V где /,E)^/^E), /2(S)-^f а а и Р — некоторые положительные константы, например, a = р = 1. Вариант 2: двойственная формулировка. Требуется найти разбиение S*, которое, обладая концентрацией Zr (S*), не меньшей заданного порогового значения Z0, давало бы наименьшее внутриклассовое рассеяние I{rK)(S*) или в двойственной подстановке: при заданном пороговом значении 10 найти разбиение S* с внутриклассовым, рассеянием I{rK) (S*) </0и наибольшей концентрацией Zr (S*). г) Функционалы качества и необходимые условия оптимальности разбиения. Естественно попытаться проследить, в какой мере выбор того или иного вида функционала качества определяет класс разбиений, в котором следует искать оптимальное. Приведем здесь некоторые результаты, устанавливающие такого рода соответствие. Утверждение 1: для функционалов типа Qx C.11). Будем предполагать используемую метрику евклидовой. Обозначим через^ Е = (Elt ..., Ek) группу из k /7-мерных векторов Ej (} = 1, ..., k), а через S (Е) = (Sx (E), ..., Sk (E)) — так называемое минимальное дистанционное разбиение, порождаемое точками Е = (Еъ ..., Ek). А именно, Si (Е) = {Х:р(Х, ?!)<?(*,?,), / = 2, ...,*}, 52 (Е) = 5"х (Е) П {X : р (X, Е2) < р (X, Е,), } Ф 2}, S^EJ^S^Ejn ... nSM(E)n{^:p(^?ft)<p№?;), }ФЩ\ Таким образом, класс Sj (E) состоит из тех точек пространства X,. которые ближе к Ej, чем ко всем остальным Et (i ф j). Если для некоторых точек из X самыми близкими являются сразу несколько векторов Ej (j = 1, ..., k), то мы относим эти точки к классу с минимальным индексом. Разбиение S = (Su ..., Sk) называется несмещенным разбиением, если это разбиение с точностью до множеств меры нуль совпадает с минимальным дистанционным разбиением, порождаемым иекторами средних Хг = -1- j XP (dX), где Pt = J P (dX). В работе [33] показано, что минимальное значение функционала Qi (S) = 2 J P2 (^» Xj) P (dX) достигается только на несмещенных 1 Здесь и в дальнейшем Si означает дополнение множества 5г- до всего пространства X, т. е. совокупность всех наблюдений (элементов пространства X), не входящих в состав S;. 93.
разбиениях. Это означает, что оптимальное разбиение обязательно должно быть несмещенным. Утверждение 2: для функционалов от разбиений на два класса. Следующее утверждение относится к довольно широкому классу функционалов качества разбиения совокупности на два класса. Разбиение на два класса может быть задано с помощью так называемой разделяющей функции. А именно, точки пространства X, на которых разделяющая функция принимает неотрицательное значение, относятся к одному классу, а остальные — к другому. Поэтому поиск класса оптимальных разбиений в этом случае эквивалентен поиску класса оптимальных разделяющих функций. Для иллюстрации дальнейшего изложения будем рассматривать вероятностную модификацию функционала Q2 C.14). Пусть расстояние р (X, Y) задается с помощью соотношения C.3) потенциальной функцией вида K(X,Y)= 2Я?Ф|(Х)ф,(К), где cpj (X) (i = 1, ..., N) — некоторая система функции на X. Функционал Q'2 через потенциальную функцию К (X, Y) выражается следующим образом: Q'2(S) = 2[K(X,X)P(dX)-2± $5 K{X9Y)P(dX)P(dY)- X Fl St St -2-1$ \K{X,Y)P{dX)P{dY). ^2 S2 S2 Поскольку в правой части этого равенства первый интеграл не зависит от разбиения, то минимум функционала Q'2 (S) достигается на тех разбиениях, на которых функционал Q2(S)=1$ ^K(X,Y)P(dX)P(dY) + + 1$ lK(X,Y)P(dX)P(dY) F2 s2 S2 достигает максимума. Введем в рассмотрение спрямляющее пространство Z, координаты zW векторов Z ? Z которого определяются соотношениями г(')-х|Ф|(Х) (* = 1,..., ло. В спрямляющем пространстве Z вероятностной мерой Р, заданной в исходном пространстве X, индуцируется своя вероятностная мера P{ZK Однако в целях упрощения обозначений мы будем опускать 94
верхний индекс Z у этой новой меры. Что касается функционала Q2 (S), то в спрямляющем пространстве он примет вид Q2 (S) = ± [j ZP (dZ)J + ± [ $ ZP (dZ)J. Пусть Mjv>= $ZvP(dZ) (v=0, 1, ..., r; i=l, 2). Здесь Z2/- [(Z, Z)]/—числа, Z2/*1 r= [(Z, Z)]/Z —векторы. В работе [7] формулируется утверждение, устанавливающее класс функций в спрямляющем пространстве Z, среди которых следует искать разделяющую функцию, доставляющую экстремум функционалу качества разбиения. А именно, показано, что если функционал качества Ф является дифференцируемой функцией от M/v) (v =1, ..., r)r а вероятностное распределение Р<2> сосредоточено на ограниченном множестве Z и обладает непрерывной плотностью, то если экстремум функционала Ф достигается на некоторой разделяющей функции,, то этот же экстремум достигается на разделяющей функции, являющейся полиномом r-й степени вида: /(Z)= S (cv, Zv), V = i где __ _дФ___дФ_ a (cv, Zv), означает при четном v произведение чисел cv и Zv, а при нечетном v — скалярное произведение векторов cv и Zv. Для функционала Q2 сформулированное означает, что класс разделяющих функций, среди которых надо искать наилучшее в спрямляющем пространстве разбиение, имеет вид /(Z) = (c, Z)-a, где c==a«__a«_iBe2/M1_Ms\ C22> и dPi дР2 [Pj \P2) ' Класс разделяющих функций в спрямляющем пространстве очевидным образом определяет класс разделяющих функций в исходном пространстве X. Если К (X, Y) = (X, Y) является скалярным произведением векторов X и Y, то спрямляющее постранство Z совпадает с исходным 95
лостранством X, а метрика, задаваемая потенциальной функцией К (X, У), совпадает с обычной евклидовой метрикой. Функционалы 0,2 и Q'2, рассматриваемые относительно этой метрики, совпадают с точностью до константы. В этом случае, как нетрудно видеть, разбиение, задаваемое разделяющей функцией / (Z), является несмещенным разбиением. д) Функционалы качества разбиения как результат применения метода максимального правдоподобия к задаче статистического оценивания неизвестных параметров. Приведем здесь пример, иллюстрирующий возможность обоснования выбора общего вида функционала качества разбиения на классы в ситуациях, в которых исследователю удается «втиснуть» свою задачу в рамки одной из классических моделей. Пусть априорные сведения позволяют определить i-й однородный класс (кластер) как нормальную генеральную совокупность наблюдений с вектором средних at и ковариационной матрицей 2*. При этом at и 2Ь вообще говоря, неизвестны. Нам известно лишь, что каждое из наблюдений Хи Х2У ..., Хп извлекается из одной из k нормальных генеральных совокупностей N (#ь2*), 1 = 1, 2, ..., k. Задача исследователя — определить, какие пх из п исходных наблюдений извлечены из класса N (аи 2Х), какие п2 наблюдений извлечены из класса N (a2, 22) и т. д. Очевидно, числа пъ пъ ..., nk, вообще говоря, также неизвестны. Если ввести в рассмотрение вспомогательный векторный параметр Y = (Yi> Уъ •••> Уп)у в котором компонента yt определяет номер класса, к которому относится наблюдение Xiy т. е. yt = /, если Хг ? N (аь 2Z), / = 1, 2, ..., /г, то задачу разбиения на классы можно формулировать как задачу оценивания неизвестных параметров уъ у2, ..., уп при «мешающих» неизвестных параметрах at и 2Ь i = 1, 2, ..., k. Обозначив весь набор неизвестных параметров с помощью 9, т. е. ^ = (уу Яь ..., ak, 2Ь ..., 2fe) и, пользуясь известной [4] техникой, получаем логарифмическую функцию правдоподобия для наших наблюдений Хъ Х2, ..., Хп. /(в) = -4 2[S М-щуЪгЧЪ-ай + ъЫт]. C.23) Как известно, оценка 6 параметра 6 по методу максимального правдоподобия находится из условия / (9) = max Z (9). е Поэтому естественно было бы попытаться найти такое разбиение 7 на классы SXf S2, ..., Sft, а также такие вектора средних аь и ковариационные матрицы 2 *, при которых величина —2/ (9) достигала бы своего абсолютного минимума1. 1 Оговоримся сразу, что даже факт состоятельности полученных при этом оценок 6 остается под сомнением, поскольку размерность неизвестного векторного параметра Э превосходит в данном случае общее число наблюдений, которыми мы располагаем. «96
При известном разбиении у оценками максимального правдоподобия для ах будут «центры тяжести» классов X<v>(/)=_L У хь /=1,2, ..., k. ni xiesl Подставляя их в C.23) вместо аг и воспользовавшись очевидными тождественными преобразованиями, приходим к эквивалентности задачи поиска минимума функции —21 @), определенной соотношением C.23), и задачи поиска минимума выражения S[S (X.-X^^y^i^Xi-X^m+n.logl^W C.24) i=\ xiesl или, что то же, выражения k S [trnlWl^TX+n*tog|2z|]. C.25) В последнем выражении Wx выборочная ковариационная матрица, вычисленная по наблюдениям, входящим в состав /-го класса C.13). Анализ выражений C.24) и C.25) в некоторых частных случаях немедленно приводит к следующим интересным выводам: — если ковариационные матрицы исследуемых генеральных совокупностей равны между собой и известны, то задача оценивания неизвестного параметра 8 по методу максимального правдоподобия равносильна задаче разбиения наблюдений Xt на классы, подчиненной функционалу качества разбиения вида Q± (S), в котором под расстоянием р подразумевается расстояние Махаланобиса; — если ковариационные матрицы исследуемых гениальных совокупностей равны между собой, но не известны, то, подставляя в C.25) вместо 2 z === 2 ее оценку максимального правдоподобия 1=\ убеждаемся в эквивалентности задачи оценивания (по методу максимального правдоподобия) параметра 0 и задачи поиска разбиения наблюдений Xt на классы, наилучшего в смысле функционала качества QS(S)\ — если ковариационные матрицы исследуемых генеральных совокупностей не равны между собой и не известны, то, подставляя в C.25) вместо 2^ их оценки максимального правдоподобия Wh убеждаемся в эквивалентности задачи оценивания по методу максимального правдоподобия параметра 0 и задачи поиска разбиения наблюдений Xt на классы, наилучшего в смысле функционала качества Q4 (S). В [68] авторы пытаются конструировать алгоритмы, реализующие идею получения оценок максимального правдоподобия для параметра в. Однако нам представляется главная ценность подобного подхода 4 Зак 358 S7
лишь в его методологической, качественной стороне, в том, что он позволяет строго осмыслить и формализовать некоторые функционалы качества разбиения, введенные ранее чисто эвристически. Конструктивная же сторона подобного подхода упирается в трудно преодолимые препятствия вычислительного плана, связанные с колоссальным количеством переборов вариантов уже при сравнительно небольших размерностях р и объемах выборки. 5. Эталонные точки Под эталонными точками группы обычно понимают точки в исследуемом р-мерном факторном пространстве, которые по какому-либо правилу могут быть выбраны в качестве представителей этой группы. На «старте» алгоритма классификации в качестве эталонных точек выбираются, как правило, наблюдения из обучающих или квази- обучающих выборок (если таковые имеются). В дальнейшем, т. е. в ходе итерационного процесса комплектования классов, в качестве эталонных точек берут, например, «центры тяжести» соответствующих групп, полученных к данному промежуточному этапу алгоритма классификации. § 2. ОСНОВНЫЕ ТИПЫ ЗАДАЧ КЛАСТЕР-АНАЛИЗА И ОСНОВНЫЕ ТИПЫ КЛАСТЕР-ПРОЦЕДУР Во-первых, целесообразно подразделение всех задач кластер- анализа на два основных типа Ъг и Б2 в зависимости от объема п совокупности классифицируемых наблюдений Хъ Х2у ..., Хп. К типу Ъг отнесем задачи классификации сравнительно небольших по объему совокупностей наблюдений, состоящих, как правило, не более чем из нескольких десятков наблюдений. Сюда, по-видимому, могут быть отнесены задачи классификации некоторых макрообъектов, таких, как страны, города, фирмы, предприятия, типы технологических процессов и т. п. К типу Б2 будем относить задачи классификации достаточно больших массивов многомерных наблюдений (п — порядка нескольких сотен и тысяч; классификация индивидуумов, семей, изделий, некоторых промышленных и технических микрообъектов). Подобное разделение задач классификации на два типа хотя и условно, но весьма необходимо, и в первую очередь с точки зрения принципиального различия идей и методов, на основании которых конструируются кластер-процедуры в том и в другом случае. Например, для задач типа Б2 целесообразно построение процедур последовательного типа, обладающих достаточно хорошими, хотя бы асимптотическими по п свойствами. С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на три основных типа: а) число классов априори задано; 98
б) число классов неизвестно и подлежит определению (оценке); в) число классов неизвестно, но его определение и не входит в условие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, состоящей из п объектов (многомерных наблюдений). Под иерархическим деревом понимается последовательность пар {(Vi, S(X)), (v2, S<2)), ..., (vtt S(/))}, где vt — строго возрастающая или строго убывающая последовательность, S(/) — разбиение объектов на классы, соответствующие уровню vt (i = 1, ..., t). Рис. 3.3. Иерархическое дерево как геометрическое представление результата действия иерархической процедуры разбиения наблюдений на классы: а) агломеративное дерево; б) дивизимное дерево Иерархическое дерево может быть двух типов. Если S<x> — разбиение, состоящее из п одноэлементных классов, а каждый класс разбиения S^+v является объединением одного или более классов разбиения S<<> и разбиение S<*> содержит один класс, то иерархическое дерево {(vl9 SA)), ..., (vj, S(/))} называется агломеративным. Если же Si1) — разбиение, состоящее из одного класса, совпадающего с множеством всех исходных наблюдений, а каждый класс разбиения SW является объединением одного или более классов разбиения S(/+!), то {(vlf SA)), ...» (vb S^)} — дивизимное иерархическое дерево. На рис. 3.3 схематически изображены два типа иерархических деревьев. Каждая вершина дерева изображает класс объектов. В соответствии с подразделением задач кластер-анализа на типы можно выделить следующие три основных типа обслуживающих их кластер-процедур: — процедуры иерархические (агломеративные и дивизимные). Предназначены в основном для решения задач типа (в). Что касается объема классифицируемой совокупности, то формально иерархические процедуры применимы и для задач Бь и для задач Б2. Однако посколь- 4* 99
ку эти процедуры основаны на переборе элементов матрицы расстояний р (Xt, Xj) (или матрицы соответствующих мер близости), то конструктивно реализуемыми их можно признать лишь в пределах задач типа Бх. Следует отметить, что иерархические процедуры применяются иногда и для решения задач типов Б1а и Б1б (см. ниже); — процедуры параллельные. Предназначены для решения задач типов Б1а и Б1б. Они реализуются с помощью итерационных алгоритмов, на каждом шаге которых одновременно (параллельно) используются все имеющиеся у нас наблюдения; — процедуры последовательные. Предназначены в основном для решения задач типов Б2а и Б2б. Они реализуются с помощью итерационных алгоритмов, на каждом шаге которых используется лишь небольшая часть, например одно из исходных наблюдений, а также результат разбиения на предыдущем шаге. § 3. ОПИСАНИЕ КЛАСТЕР-ПРОЦЕДУР И ИХ ОСНОВНЫХ СВОЙСТВ 1. Иерархические процедуры Как отмечалось выше, принцип работы иерархических агломера- тивных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных друг от друга (приближенных друг к другу). При этом агломеративные процедуры начинают обычно с объединения отдельных элементов, а дивизимные — с разъединения всей исходной совокупности наблюдений. С некоторой точки зрения иерархические процедуры, по сравнению с другими кластер-процедурами, дают более полный и тонкий анализ структуры исследуемого множества наблюдений. Привлекательной стороной подобных алгоритмов является и возможность наглядной интерпретации проведенного анализа. Легко себе представить также использование иерархических процедур и для решения задач кластер- анализа типов (а) и (б), т. е. для разбиения наблюдений на какое-то объективно обусловленное число классов, заданное или известное. При решении задач типа(а) для этого, очевидно, следует продолжать реализацию иерархического алгоритма до тех пор, пока число различных классов не станет равным априори заданному числу k. При решении задач типа (б) естественно было бы подчинить правило остановки иерархической процедуры одному из критериев качества разбиения [10]. К недостаткам иерархических процедур следует отнести громоздкость их вычислительной реализации. Соответствующие алгоритмы на каждом шаге требуют вычисления всей матрицы расстояния, а следовательно, емкой машинной памяти и большого времени. Поэтому реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, оказывается либо невозможной, либо нецелесообразной. Кроме того, имеется широкий класс достаточно естественных примеров, в которых иерархические процедуры, даже подчиненные 100
на каждом шаге Некоторому критерию качества разбиения, приводят для любого наперед заданного числа кластеров k к разбиению, весьма далекому от оптимального в смысле того же самого критерия качества. Если прибавить к этому широкое экспериментальное подтверждение того же эффекта [28], то можно прийти к выводу, что «конечная неоптимальность» оптимального иерархического алгоритма является скорее правилом, чем исключением. Специфический характер метода образования групп, свойственный иерархическим процедурам, оказывается, по-видимому, слишком жестким ограничением с точки зрения экстремального подхода к решению задач классификации наблюдений при определенном числе классов. Приведем некоторые примеры иерархических алгоритмов: — агломеративный иерархический алгоритм «ближайшего соседа» (или «одной связи»). Этот алгоритм исходит из матрицы расстояний между наблюдениями, в которой расстояние между кластерами определено по формуле C.4). На первом шаге алгоритма каждое наблюдение Xt (i = 1, 2, ..., п) рассматривается как отдельный кластер. Далее на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров и соответственно по формуле C.4) пере- считывается матрица расстояний, размерность которой, естественно, снижается на единицу. Работа алгоритма заканчивается, когда все исходные наблюдения объединены в один класс. Поскольку расстояние между любыми двумя кластерами в этом алгоритме равно расстоянию между двумя самыми близкими элементами, представляющими свои классы, то получаемые в итоге кластеры могут иметь достаточно сложную форму, в частности, они не обязаны быть выпуклыми; ведь два элемента (наблюдения) попадают в один кластер, если существует соединяющая их цепочка близких между собой элементов. Это обстоятельство можно отнести как к достоинствам алгоритма, так и к его недостаткам. Для устранения опасности появления случайных, не характерных для исследуемого явления объединений [77] предложена модификация алгоритма «ближайшего соседа». Эта модификация состоит в том, что элементы исследуемой совокупности включаются в рассмотрение в порядке убывания плотности наблюдений в их окрестности, причем плотность оценивается как величина, обратная расстоянию до самого дальнего из т элементов, ближайших к данному. Целое число т назначается заранее из некоторых априорных соображений и, по смыслу использования в процедуре, определяет число элементов (в количестве т + 1) в кластере, являющемся наиболее представительным, наиболее населенным среди всех кластеров, образующихся на первом шаге процедуры. А кластеры эти образуются по следующему правилу. Из элементов исследуемой совокупности (Xt), занумерованных в порядке возрастания расстояния Rt (m) от каждого из них до самого дальнего из т ближайших к нему соседей, выбираются вначале т точек, попавших в окрестность точки Хг радиуса Яг (т), и из этих (т+1) точек формируется первый кластер Sv Затем берется следующая по порядку точка Хи из числа п — т— 1 оставшихся, т. е. не попавших в кластер Sl9 и к ней «притягиваются» для образования следующего 101
класса все точки, из числа не попавших в кластер Slf попадающие в ее окрестность радиуса Ri2 (m), и т. д. Следует отметить, что описанная модификация алгоритма ближайшего соседа, оставаясь агломе- ративной процедурой, уже не является, строго говоря, процедурой иерархической, так как не предусматривает в качестве обязательного итога объединение всех наблюдений в один класс. Существуют и другие способы устранения цепочечного эффекта при образовании классов с помощью алгоритма ближайшего соседа. Наиболее простым и естественным из них можно признать, например, введение ограничения сверху на максимальное расстояние между элементами одного класса: если при формировании классов для некоторых элементов получаемого кластера взаимное расстояние превысит некоторый заданный порог, то эти элементы следует разнести по какому-то дополнительному правилу в разные классы. Отметим, что существует тесная связь между алгоритмом ближайшего соседа и различными алгоритмами, основанными на представлении матрицы расстояний в виде графа [8], [13], [46]: — агломеративные иерархические алгоритмы «средней связи», «полной связи» (или «дальнего соседа») и «минимального внутриклассового разброса». Эти алгоритмы отличаются от описанного выше алгоритма «ближайшего соседа» лишь способом вычисления расстояния между классами. В алгоритме средней связи под расстоянием между кластерами понимается среднее из расстояний между всевозможными парами представителей этих кластеров, и следовательно, это расстояние вычисляется по формуле C.7). В алгоритме полной связи (или дальнего соседа) расстояние между двумя кластерами определяется как расстояние между двумя самыми отдаленными друг от друга представителями своих кластеров, т. е. вычисляется по формуле C.5). В оптимальном иерархическом алгоритме (в алгоритме минимального внутриклассового разброса) расстояние между кластерами определяется по формуле C.10); — К-обобщенная иерархическая процедура, т. е. обобщенная по Колмогорову. Поскольку все вышеперечисленные виды расстояний между кластерами могут быть получены в качестве частных случаев обобщенного расстояния Колмогорова C.8), то нам представляется естественным ввести понятие /(-обобщенной иерархической процедуры. Очевидно, в класс /(-обобщенных иерархических процедур следует включить все обычные иерархические алгоритмы, использующие в качестве расстояний между кластерами обобщенное расстояние Колмогорова C.8) при том или другом конкретном выборе числового параметра г; — процедуры иерархические, использующие понятие порога. Общая схема подобных процедур отличается от обычной логической схемы ранее описанных иерархических процедур лишь дополнительным заданием последовательности, как правило, монотонной, порогов сг,\с2, .., си которые используются следующим образом. Для определенности дадим пояснения для агломеративных процедур. На первом шаге алгоритма попарно объединяются элементы, расстояние между которыми не превосходит величины съ либо мера близости которых 102
не менее с±. На втором шаге алгоритма объединяются элементы, или группы элементов, расстояние между которыми не превосходит съ либо мера близости которых не менее с2, и т. д. Очевидно, при ct = оо или при сравнении мер близости, при ct = 0, на последнем t-м шаге все элементы исходной совокупности окажутся объединенными в один общий класс. Заметим, однако, что объединение в кластеры, подчиненные подобным пороговым иерархическим алгоритмам, приводит к образованию, вообще говоря, пересекающихся промежуточных классов, которые могут не расцепиться вплоть до последнего шага. Поэтому эффективность подобных процедур, возможность выбора подходящих пороговых значений си ..., ct существенно зависят от внутренней геометрической структуры исходного множества наблюдений. В частности, пороговые иерархические процедуры оказываются уместными и достаточно эффективными в ситуациях, когда отсутствует (или слабо выражен) цепочечный эффект в структуре исходной совокупности наблюдений и когда последние, естественно, распадаются на какое-то количество достаточно отдаленных друг от друга отдельных скопле- лений точек в исследуемом факторном пространстве. Примеры пороговых иерархических процедур читатель может найти, в частности, в [30], [51]. 2. Параллельные кластер-процедуры В алгоритмах кластер-анализа реализуется обычно одна из двух основных родственных идей, которой исследователь хочет подчинить свое разбиение на классы. Это либо идея оптимизации разбиения в смысле заранее выбранного функционала качества разбиения, либо идея образования кластеров по принципу определения мест наибольшей сгущенности (плотности, концентрации) точек наблюдений в рассматриваемом факторном пространстве. Коль скоро характер параллельных процедур предусматривает одновременный обсчет всех исходных наблюдений на каждом шаге алгоритма, то естественно попытаться решать поставленную задачу с помощью обычного перебора различных вариантов разбиения. Однако, нетрудно подсчитать, что уже при общем числе классифицируемых точек п (порядка нескольких десятков) полный перебор всех вариантов разбиения на заданное, а тем более на неизвестное число классов является практически неосуществимым.Следовательно, основной смысл конструирования различных параллельных алгоритмов классификации — в указании способа сокращения числа перебора вариантов, в описании пути, приводящего, быть может, лишь к приближенному решению поставленной задачи, но пути конструктивного реализуемого и не слишком дорогого. а) Алгоритмы, связанные с функционалами качества разбиения, К таким алгоритмам следует, в первую очередь, отнести алгоритмы «последовательного переноса точек из класса в класс» [42], [45], [63]. Эти алгоритмы отправляются от некоторого начального разбиения 5° = {S[°\ ..., Si0)}, полученного произвольно или с помощью какого- 103
либо из методов предварительной обработки исходных наблюдений. Вычисляется значение принятого критерия качества разбиения Q (S), например, вида C.11) при заданном числе классов k, или вида C.21) при неизвестном числе классов. Затем каждое из наблюдений Хг поочередно перемещается во все кластеры, рассматривается как самостоятельный кластер, если число кластеров неизвестно, и оставляется в том положении, которое соответствует наилучшему значению функционала качества Q. Работа алгоритма заканчивается, когда перемещения наблюдений перестанут приводить к улучшению (в смысле Q) разбиения. Часто описанный алгоритм применяют несколько раз к одной и той же исходной совокупности наблюдений, начиная с разных начальных разбиений S<°), и выбирают в итоге наилучший (в смысле Q) вариант разбиения. Другие возможности сокращенного перебора вариантов разбиения с целью определения оптимальной в смысле C.15) кластер-процедуры описаны в [12]. Одним из распространенных приемов такого рода является предварительное агрегирование исходных объектов, т. е. некоторое предварительное разбиение исследуемой совокупности наблюдений на классы, после которого с полученными классами обращаются как с отдельными точками и находят наилучшие разбиения уже методом полного перебора вариантов. По поводу методов предварительной обработки исходных наблюдений см. ниже, п. 6. Сокращения числа переборов различных вариантов разбиения можно добиться и ограничив класс всевозможных разбиений, в котором отыскивается экстремум функционала качества Q разбиениями некоторого специального вида. Например, в [69] предложен метод (правда, только для случаев р = 1 и р = 2) построения процедуры, оптимальной в смысле некоторого критерия качества лишь в классе разбиений, для которых линейные оболочки каждого из классов являются выпуклыми. В работе [52] сделана попытка использования метода динамического программирования (в задаче сокращения числа переборов различных вариантов разбиения на кластеры). И хотя обсуждаемая в этой работе процедура не требует полного перебора вариантов, но и сокращенный перебор остается для большинства реальных задач практически трудноосуществимым. б) Алгоритмы, использующие понятие эталонных точек (множеств). Опишем общую формальную схему одного достаточного широкого класса алгоритмов, реализация которой может приводить как к параллельным, так и к последовательным кластер-процедурам. Под эталонными множествами Е1у Е2, ..., Ek будем понимать каким-то образом, в частности случайным, сформированные непересекающиеся подмножества исходной совокупности наблюдений {Хъ Хъ ..., Хп) заранее определенных объемов, соответственно тъ т2, ..., mk. Как правило, тг + т2 + ... + mk составляет лишь незначительную долю от общего числа исходных наблюдений п. В частном случае тг = т2 = ... = mh = 1 будем иметь набор k эталонных точек. Пусть для любого набора эталонных множеств Е = {El9 Е2, ..., Ek), для любого наблюдения Xit для любой группы исходных 104
наблюдений А и для произвольного J = 1, 2, ..., ? заданы некоторые специальные функции q> (Xt, А) и *ф (Xt> Sl9 Е), характеризующие меру типичности точки X* как представителя группы точек А (меру однородности наблюдений Xt и группы наблюдений А) и меру типичности точки Xt как представителя класса Sz, построенного с использованием эталонного множества Et из Е. Будем для определенности считать, что чем меньше значения функций ф и г|), тем типичнее соответствующая точка в указанном выше смысле. Тогда общая схема эталонных алгоритмов может быть представлена следующим образом. При заранее заданном числе классов k каким-то образом (случайным, с помощью обучающих выборок, из экспертно-профессиональ- ных соображений или с помощью методов предварительной обработки исходных данных) выбираются числа тъ т2, ..., mk и начальная система эталонных множеств Е<°> = {?(i0>, Е{20\ ..., ?*0)}. Класс S\0)формируется из наблюдений, наиболее типичных с точки зрения представительства эталона Е\°\ т. е. Sj0) = {*< : ф(Х{, ?}»>)< <p(X|t ?}°>), /=1, 2, .... *, /*/}. Если оказывается, что ф (Xt, E\0)) = <p(Xit ?}0))» то можно условиться относить наблюдение Xt к тому из классов S}0) и S}°\ который обладает меньшим порядковым номером. Затем строится новая система эталонных множеств Е = {?(i1>, E?\ ...,?*1)}, в которой эталон ?/1} формируется из тг точек, дающих т1 наименьших значений функции ty (X, S/0), Е@)). После этого по тому же правилу строят новое разбиение SA> = {Si1), S2X), ..., S*1*}, но уже относительно эталонов ЕA> и т. д. Итерации продолжают до тех пор, пока не получат устойчивых классов, т. е. до такого номера v, при котором S<v> = S^*1*. Если число классов, на которое требуется разбить исходную совокупность наблюдений, заранее не известно, то в описанную схему необходимо ввести некоторые дополнения. В частности, на начальном этапе устанавливаются: числа &<°>, тъ т2, ..., /п*<оь система эталонных множеств Е<°> = {Е\0), Е2°\ ..., ?лН)}, атакже величина ф0—минимально возможная типичность точки, представляющей свой класс, и % — минимально возможная нетипичность двух разных классов1. Как и прежде, вначале подсчитываются <p(Xjf ?|0>) для всех наблюдений (i = 1, 2, ..., я) и для всех эталонов (/=1,2, ..., &<°>). Последовательно для каждого i определяются эталоны Е{$)9 для которых данное 1-е наблюдение является наиболее типичным, т. е. Ф(*|.Щ>)= min <p(X„?j0>). 1 </<*<°> 1 В наиболее общих процедурах «пороги» ф0 и ф0, так же как и общее число n(v) элементов (/i(v) < /г), составляющих классы S\v), ..., S^ задаются переменными, т. е. изменяющимися по определенному правилу^при переходе от одного этапа алгоритма к другому (см., например, процедуру,"описанную в §4 главы I). 105
Если ф(Хх, E\°(i)) ^фо» то наблюдение Хх включается в состав класса S/%; если же ф(Хх, ?(/и))>Фо> то наблюдение Хг принимается одновременно за новый эталон Е$о) + 1 и за новый класс S^@) . Затем та же процедура сравнения производится с ф(Х2, ?/@B)) и т. д. до ф(Хп, ?/%)). Пусть в результате у нас образовалась на этом этапе алгоритма &@) @) классов и столько же эталонов Ё = {?A0), ..., ^ico)@)}. очевидно k{0) @)>&@). После этого полученные классы S{°\ S[°\ ..., S$l)i0) проверяются на значимое попарное различие с помощью порога ip0, а именно, если С/ = Ж0), Si0))= т\г 2 *<*«. S„ E<0)) + + -2 *tt,.Se, Е<0>I<г|>0, ** xjesl J то классы S^0) и S\0) объединяются в один класс S(<7, t) с номером z (q, /), равным min (9, /), и с эталоном E$t l)y состоящим из max (mq, mt) наблюдений, дающих соответствующее число наименьших значений функции г|э (X, Sz{qt />, Е<°>). Последовательное вычисление величин гр (S{q°\ 5{0)) и их сравнение с % производится до тех пор, пока не окажется, что min г^/^яро. q, I Это означает окончание первой итерации алгоритма и образование новой системы эталонов ЕA> = {Е\1}у ..., E{k\\)} и соответствующих значимо различимых классов S<0> = {S\°\ Sr>°\ ..., S*(i)}. Затем процедура повторяется применительно к эталонам Е*1) и т. д. до получения устойчивого разбиения S<v) всех исходных элементов на некоторое число классов №v+lK Описание подобной схемы, но лишь для случая априори заданного числа классов k и постоянного числа классифицируемых (на каждом шаге алгоритма) элементов n<v> = п было дано в [39]. Для этого частного случая в данной работе приводятся результаты исследования сходимости эталонных алгоритмов, подчиняющихся описанной выше общей логической схеме. Чтобы сформулировать главный результат этого исследования, введем здесь некоторые новые определения и понятия. Будем называть последовательность наборов эталонных множеств Ed) = {Е^\ ..., ??*>} сходящейся к Е (lim Е<п> = Е), если, начиная П-+оо с некоторого достаточно большого номера п0 Е<л> = Е, при всех п ^ По. Будем называть набор эталонных множеств Е = {Еъ .»., Ek) локально оптимальным, если для всех Xt (i = 1, 2, ..., п) любого 106
эталонного элемента I из множества Ej (т. е. t?Ej) и любого / = 1, 2, ..., к. V(Xi9 Sj, Е)>г|)(/, SJt E). Заметим, кстати, что в алгоритме работы [33] (см. пример 1) набор эталонных точек Е = {еъ е2, ..., ek) будет локально оптимальным, если эталонные точки еъ еъ .., ek совпадают со средними групп задаваемого ими разбиения, т. е. являются несмещенными. ^Определим далее для любых двух наборов Е = {Еъ ..., Ek} иЕ= {Е1у ..., Eh} величину А(Е, Е)= 2 2 *(X,Sj9 E). Из вышесказанного следует, что качество процедуры классификации определяется удачным (или неудачным) выбором функций ф и ар. Естественно попытаться сформулировать какие-то необходимые условия, которым должны удовлетворять эти функции, т. е. сузить класс функций, среди которых следует вести поиски нужных нам Ф и if. Одно из таких условий сформулируем следующим образом: из А (Е, Е) <! А (Е, Ё) должно всегда следовать, что А(Е, Е)<А(Е, Е). C.26) Другими словами, если некая суммарная характеристика степени типичности эталонных точек Ej (из эталона Е) как представителей классов Sj (Е), построенных по другому эталону Е лучше, чем та же характеристика для эталонных точек Ej (по которым и строятся классы Sj(E)), то переход к классам Sj (E), построенных по первому эталону Е может только улучшить эту суммарную характеристику степени типичности эталонных точек Е. Легко проверить, что условие C.26) окажется выполненным, если определять Xt6E. t|>(X,S„E) = q>(XtS,). И наконец, будем полагать, что ф(Хг,5;)^ф(Хг,5г) при }ф1. C.27) Оказывается, что если функции ф и i|) в эталонном алгоритме выбраны таким образом, что выполняются условия C.26) и C.27), то после- 107
довательность наборов эталонных множеств E<rt) сходится и ее предел является локально-оптимальным1. При конструировании функций <р (X, А) и г|> (X, Slf E) можно использовать заданную метрику (расстояние между точками) р (X, Y) или меру близости г (X, У), а также подходящим образом выбранный вариант обобщенного расстояния C.9). Используются, в частности, следующие способы задания ф и г|э: Ф(х,Л)= 2 р(х9хё)9 xteA Ф(Х, Л)=р(Х,Х(Л)), где X (Л) — одна из разновидностей среднего значения всех наблюдений Хи принадлежащих группе А. Например, X (А) может быть обычным арифметическим средним, т. е. «центром тяжести» группы Л. ф (X, Sl9 Е) •-¦= -r-k -j. L/ = i J *(XfSl,E) = 9(X,Sl). в) Примеры параллельных кластер-процедур, укладывающихся в описанную общую схему. Пример 1. Если каждое из эталонных множеств Е\0) состоит лишь из одной точки e{i°\ т. е. т1 = т2 = ... = mk = 1, а исследуемое р-мерное факторное пространство является евклидовым, то при выборе функции ф и ф по формулам Ф(Х,?,)=рЬ(Х.*|), *(*,«„ Е) = 2 pi (*,*,), xiesl полученный по описанной выше схеме (для случая заранее заданного числа классов k) алгоритм совпадает с алгоритмом, описанным в [47], и является модификацией известного алгоритма из [33] для ситуации, в которой априори не известен вид плотности распределения исследуемого признака X. Пример 2. В [49] предлагается алгоритм разделения исследуемой совокупности наблюдений на два класса, причем для удобства предполагается, что наблюдения исследуемой совокупности центрированы, т. е. х-4- 2х,-о. /== 1 1 Этот результат приведен в [39] без доказательства. Там же замечено, что условие C.26) является слишком сильным, так как во многих ситуациях Е*я* сходится, даже если оно не выполнено. Что касается условия C.27), то оно носит технический характер и обычно обходится с помощью специальной договоренности относительно правила отнесения наблюдения Xt к одному из классов в случае совпадения двух или большего числа минимальных значений ф (Хи Sj) при фиксированном L 108
Очевидно, это не ограничивает общность рассматриваемой схемы. В алгоритме используются два эталонных множества, каждое из которых состоит из произвольно выбранной единственной точки, т. е. Е@> = {е\°\ е{20)}- На нулевом шаге алгоритма отнесение наблюдения Xi(i = 1, 2, ..., п) к одному из двух классов S\0) и S20> зависит от знака скалярного произведения (Xt, а0), где а0 = (е\0) — е{20)). Так что класс 5(i0) будет состоять из всех тех Хи для которых (Xiy а0) ^ 0, а класс S{20) — из всех тех Xiy для которых (X*, а0) < 0. Далее производится пересчет эталонов по формулам где Р/Х) -- (Xt, a0) и т. д. На (v+ 1)-м шаге алгоритма эталоны определяются по формулам eiv+1)= 2 Piv)x*.4v+I>=- 2 p!v)x*, xtes\v) хгб4У) где p<v) = (Xu otv). Заметим, что av+1 =e{v+,)-4v+I)= I №,av)^= | ( 2 tf> <#>)*„ т. e. otv+ j = Ax Ax otv = n№avt где Ax — (p X n) — матрица наблюденных компонент x\r) (i = 1, 2, ..., n; r = 1, 2, ...,p), а 1У — выборочная ковариационная матрица исследуемого признака X. Легко видеть, что если в вышеописанной общей схеме (при k = 2) определить q> (X, ?j) = (X, ег), I = 1, 2, а в качестве функции я|) (X, Si, E) взять любую функцию, принимающую (при фиксированном I) минимальное значение в точках Х<') = 2 х x.ese X(Xi9 ег — е2) Хи то мы придем к только что описанному алгоритму разделения исходной совокупности на два класса1. ПримерЗ. Рассмотрим теперь серию алгоритмов, объединенных названием «Форель» [12], [16]. Общую для этих алгоритмов идею проиллюстрируем на примере алгоритма «Форель-1». Пусть совокупность {Хх, Х2, ..., Хп} нужно разбить каким-то образом на некоторое число классов (заранее не известное). Пусть 1 п — X = — 2 Xi и /?0 — радиус минимальной гиперсферы с центром в X, содержащей все точки исследуемой совокупности. Зададим произвольный радиус R < R0 и рассмотрим процедуру выделения классов для заданного /?¦ Из любой точки Xt = Xl9 принятой за центр, радиусом 1 В качестве ij? (X, 5/, Е) можно взять, например, г|) (X, Si, Е) = [xiesl ) 109
R описывается гиперсфера Сг. Находится центр тяжести Х2 точек совокупности, попавших _в Сг. Из Х2 радиусом R описывается гиперсфера С2 и определяется Х3 центр тяжести точек исследуемой совокупности, попавших в С2. Процедура построения гиперсфер и точек Xh повторяется до тех пор, пока точки Xk не перестанут меняться. Точки совокупности, попавшие в «остановившуюся» гиперсферу, принимаются за первый класс Si. Для всех оставшихся точек, т. е. не попавших в класс Si, вновь применяется описанная выше процедура, выделяющая еще один класс S2 и т. д. до тех пор, пока все точки совокупности не будут распределены по классам. Применение описанного алгоритма для ряда последовательных значений i?<v) = R0 — vA, (д = ^~, v = 1, 2, ..., N — l) позволяет ориентировочно оценить наиболее предпочтительное число классов для данной совокупности объектов. При этом основанием для выбора числа классов может служить многократное повторение одного и того же числа классов для нескольких последовательных значений /?<v> и его резкое возрастание на следующем шаге. Если ставится задача разбить совокупность на заданное число классов, то одна из модификаций алгоритма «Форель-1» — «Форель-2» методом последовательных приближений позволяет находить минимальный радиус RmiXi, дающий разбиение на заданное число классов. В общем случае с помощью алгоритмов типа «Форель» можно разбивать исследуемую совокупность на классы, имеющие более сложную форму, чем гиперсферы. А именно, такие классы аппроксимируются несколькими гиперсферами. Пусть нужно разбить совокупность на k классов. Процедура аппроксимации состоит в следующем. Находим такое R, при котором совокупность разбивается на т>А классов с центрами (выборочными арифметическими средними каждого класса) Хъ ..., Xm. Затем строится КНП (см. стр. 88) для точек Хъ ..., Хт. Пусть длины отрезков — Яь Я,2> ..., A,w_x между двумя последовательными центрами в этом кратчайшем пути, занумерованы в порядке убывания их величин. «Разрубив» ребро А,ь получим два подграфа КНП. Тогда все точки, принадлежащие классам с центрами, входящими в состав первого подграфа КНП, объединяются в один класс, остальные — в другой. Затем разрубается ребро Я2,... и так до тех пор, пока мы не получим нужное число классов. Покажем теперь, как процедура выделения одного класса точек из совокупности, являющаяся основой алгоритмов типа «Форель», может быть изложена в рамках описанной выше общей схемы «эталонных алгоритмов». Выделение класса точек из совокупности эквивалентно разделению совокупности на два класса. В качестве набора эталонных множеств Е = (El9 Е2) будем брать две точки L = (еъ е2). Функцию Ф (X, ег) определим следующим образом: ф (X, е^ =*= р? (X, ех); Ф (Хь е2) = R. Функция г|) (X, Sj, E) может быть определена многими способами, например так: iKXfS|fE)= 2 pl(X,X,).
3. Исследование иерархических и параллельных процедур «на допустимость» По аналогии с понятием допустимого решающего правила из теории решающих функций хотелось бы ввести понятие допустимой кластер-процедуры, которое позволило бы нам ограничить поиски оптимального в некотором смысле алгоритма классификации лишь относительно узким классом допустимых процедур. К тому же понятие допустимости дает в руки исследователя инструмент для первого (качественного) сравнения различных типов кластер-процедур аналогично тому, как при использовании различных статистических оценок мы, должны убедиться в принадлежности рассматриваемой оценки (и соответствующей процедуры оценивания) к классу состоятельных. В литературе известно несколько различных определений допустимости [42], [64], [67]. Выбор того или иного из них зависит от содержания и природы исходных данных в каждой конкретной задаче. Ниже приводится достаточно широкий набор вариантов понятия «допустимость», позволяющий исследователю подобрать наиболее подходящий для себя вариант, исходя из конкретной специфики своей задачи: — допустимость в классе образов. Пусть S = {Sly S2, ..., Sk} некоторое разбиение исходной совокупности элементов Хъ Х2, ..., Хп, занумерованных для удобства таким образом, что si = {^i> •••» xj}> S2=-{XIl + i, ...,Х/2}, ..., Sk = {X/h_i+u ...УХп}. И пусть Yl9 ..., Yn — некоторое произвольное переупорядочивание элементов исследуемой совокупности. Тогда разбиение S' = (S{, ..., Sk), где s; --= {y19 .... YJt), s; = {Yh+l9 .... Г/Л...-, s* = OVi+b — y»> называется образом разбиения S. Разбиение S называется допустимым в классе образов, если не существует образа S', равномерно лучшего, чем S, в том смысле, что p(Xit Х7.)<р(Г„ Yj), если пары {Xt, Xj) и (К„ Yj) C.28) лежат в одном классе разбиения 5 и S' соответственно; p(X|f XjJ*p<yi9 Yj)t если пары (Xt Xj) и (Yt, Y,) C.29) лежат в разных классах разбиения S и 5' соответственно. Причем по крайней мере одно из неравенств C.28), C.29) выполняется строго. Это означает, что разбиение является допустимым в классе образов, если его нельзя улучшить переупорядочиванием объектов. Соответственно алгоритм называется допустимым в классе образов, если он приводит к допустимому в классе образов разбиению; — допустимость выпуклая. Разбиение S = (Sly ..., Sh) (и соответствующий алгоритм) называется выпукло допустимым, если выпуклые оболочки групп Si, ..., Sk не пересекаются; — допустимость связная. Во многих практических задачах от алгоритма не целесообразно требовать выпуклой допустимости. Например, если из априорных соображений следует, что при разбиении могут III
оказаться естественными (сточки зрения их содержательной интерпретации) классы, подобные тем, которые изображены на рис. 3.4. Свойство связной допустимости является ослаблением свойства выпуклой допустимости для случая, когда число измеряемых признаков р = 2. Для формулировки этого свойства для любого множества А объектов совокупности построим сеть La- Сетью La точек множества А называется кратчайший незамкнутый путь точек А. Разбиение S = = (Si, ..., Sfc) называется связно допустимым, если Lsv ..., Lsk попарно не пересекаются. Соответственно алгоритм называется связно допустимым, если он приводит к связно допустимому разбиению; — допустимость по отношению к хорошей структуре данных. Пусть исследуемая совокупность имеет ярко выраженные отдельные классы объектов или метрика р, заданная на совокупности, однозначно определяет иерархическое дерево [48], [51].;Тог- да естественно требовать от алгоритма, чтобы даваемое им разбиение совпадало с априори известным решением. Будем говорить, что совокупность Xlt ..., Хп имеет хорошую структуру, если выполнено одно из трех условий: а) существует разбиение S, для которого значение меры близости (расстояния р) для элементов одного класса одно и то же и равно гг (соответственно pi). Одной и той же является и мера близости (расстояние) для элементов разных классов. Пусть она равна г2 (соответственно р2). Тогда г2 < гг (или р2 > р2); б) существует разбиение S с заданным априори числом классов, равным k такое, что все внутриклассовые расстояния меньше, чем все межклассовые расстояния; в) существует иерархическое дерево, по которому с помощью того или иного правила можно восстановить заданную меру близости (расстояние). В таких случаях говорят [48], [51], что мера близости (расстояние) имеет полную структуру дерева1. Рис. 3.4. Пример связно допустимого, но не выпукло допустимого разбиения совокупности на группы 1 Эта фраза может пониматься, например, в следующем смысле. Пусть речь идет об алгомеративных иерархических деревьях. Рассмотрим иерархическое деревот—сокращенное обозначение вместо употреблявшегося paHee{(Vj, S*1*),..., (v/, «S^)}. Введем ряд обозначений. Будем через А обозначать множество вершин дерева т. Под вершинами на каждом уровне vz- мы понимает классы разбиения S(/) (/=1 t). Классифицируемые элементы Хг Хп очевидно, входят в А. Для а, Ь ? А будем говорить, что а < Ь, если «поднимаясь вверх» по иерархическому дереву из вершины а, мы обязательно проходим через Ь. Деревом подобия (т, а) называется дерево т и функция а на множестве вершин А, удовлетворяющая условиям: а (а) < а (Ь), если b < а. Пусть supx (а, Ь) — вершина дерева т, в которой впервые объединяются вершины а, Ь. Мера близости г имеет точную структуру дерева, если для некоторого дерева подобия (т, а) г {Xt, Xj) = о (supt (Xj, Xj)). 112
Алгоритм называется допустимым по отношению к хорошей структуре исследуемой совокупности, если при хорошей структуре совокупности он приводит к естественному в смысле этой структуры раз: биению. Остановимся теперь на более специфичных условиях, важных в некоторых приложениях; — допустимость относительно дублирования. Алгоритм называется допустимым относительно дублирования, если после многократного дублирования произвольного числа раз одной или нескольких точек совокупности Xl9 ..., Хп и повторения алгоритма, границы классов в разбиениях не меняются; — допустимость относительно дублирования классов. Алгоритм, дающий разбиение S, называется допустимым относительно дублирования по классам, если после дублирования любого класса разбиения произвольное число раз (все точки данного класса дублируются одно и то же число раз) и после повторения алгоритма получаемое разбиение совпадает с S; — допустимость относительно выбрасывания классов. Пусть в результате действия алгоритма получено разбиение совокупности на k классов S = (Si, ..., Sk) и пусть элементы некоторого класса, скажем Sj, выбрасываются из совокупности. Алгоритм называется допустимым по отношению к выбрасыванию классов, если после применения алгоритма к оставшимся элементам совокупности после выбрасывания, скажем, элементов класса Sj мы получаем разбиение S' на k—1 групп S{,..., S?_i, причем, разбиение S' с точностью до упорядочения классов совпадает с разбиением (Si,..., ..., Sj-l9 S^+i, ..., Sfc). — допустимость монотонная. Алгоритм называется монотонно допустимым, если монотонное преобразование, примененное к мере близости (расстоянию) не влияет на результат разбиения. Таблица 3.1 Типы алгоритмов nt S* Пз П4 п6 о о «3 СО х с я о + + — + — са 3 ю _ — — + + Варианты понятия «допустимость» СМ II о. к я я со к ю о + — — + + относительно хорошей структуры о ч о 3 CQ ¦— + + + — 5 1 aw + 4- X X относительно о а я к >о и п» + + — — — о со 2* о я « о Ч S О >>« ч па х + + + — — 1 § Л К О выбр ванн клас + + + + X к се В О н о Я о S i- + — — — Примечание. Символы означают: (+) —удовлетворение процедуры свойству допустимости; ( — ) —отсутствие этого свойства; (X) — неприменимость понятия допустимости для алгоритмов данного типа. 113
Приведем в заключение результаты исследования некоторых типов иерархических и параллельных кластер-процедур с точки зрения их допустимости в различном смысле [42]. Через Пь П2, П3 будем обозначать иерархические алгоритмы, использующие понятие близости между группами cpmin (Su SJ, pmax (Sb SJ, p (Sh Sm) соответственно, через П будем обозначать алгоритмы, минимизирующие функционалы типа Qlf Q2 путем простого перебора; через П5—алгоритмы, условно минимизирующие функционалы типа Qx и Q2. Это отвечает ситуациям, когда поиск оптимального алгоритма приводится лишь в пределах некоторого специального класса алгоритмов. Ниже дана таблица с результатами исследования алгоритмов Пх — П& на допустимость. 4. Последовательные кластер-процедуры Если число п классифицируемых наблюдений Хъ Х2, ..., Хп достаточно велико (от несколько сотен и более), то как мы уже отмечали, реализация кластер-процедур иерархического и параллельного типов практически невозможна. В этих случаях пользуются итерационными алгоритмами, на каждом шаге которых последовательно обсчитывается лишь небольшая часть исходных наблюдений, например одно из них. В том, что п велико, имеются не только неудобства, но и свои преимущества. В частности, это позволяет исследовать асимптотические (по п) свойства соответствующих процедур, аналогичные, например, свойствам состоятельности, асимптотической несмещенности и т п., анализируемым в теории статистического оценивания и статистической проверки гипотез. Как и в параллельных алгоритмах, основными средствами и идеями, при конструировании последовательных кластер-процедур являются: мера близости или расстояние между группами; порог; эталонные множества или точки; функционал качества разбиения. Так же, как и прежде, более простой, а главное всегда имеющей решение, является обычная задача типизации, при которой исходное множество многомерных наблюдений разбивается на определенное число «областей группирования» по принципу наперед заданной взаимной близости элементов, отнесенных к одной области группирования. Простейшим примером такого рода является разбиение на интервалы группирования исходной выборки одномерных наблюдений, особенно необходимое как раз при достаточно больших объемах выборки я. Именно такую задачу решает, например, простой последовательный алгоритм [70], [73], использующий понятие порога с. В этом алгоритме случайным образом выбирается точка Хъ которая объявляется центром ех первой группы. Затем точка Х2 относится к первой группе, если Р (^2> ei) ^c. В противном случае Х2 принимается за центр второй группы Хг = е2 и т. д. На 1-й шаге, когда уже имеется г групп, точка Хг либо становится центром (г + 1)-й группы, либо относится к той из групп, для которой р (Xh ej)^c. Если таких групп несколько, то выбирается та, к центру которой точка Хг ближе всего; если и таких групп несколько, то устанавливаются некоторые соглашения о том, куда относить Xt в этом случае. 114
Остановимся далее на описании двух наиболее общих и наиболее исследованных последовательных кластер-процедурах (и некоторых их модификациях), допускающих, в частности, интерпретацию в вероятностных терминах. а) Алгоритм Б2а1. Метод ^-средних [56]. Пусть наблюдения Xi, X2, .".., Хп требуется разбить на заданное число k (k<^ri) однородных (в смысле некоторой метрики р) классов. Смысл описываемого алгоритма — в последовательном уточнении эталонных точек E<v) = {e[v), 4V)» ••» 4V)} (v — номер итерации, v = 0, 1, 2, ...) с соответствующим пересчетом приписываемых им «весов» Q<v> = {co<v), (o?v>, ..., (d?v)}. При этом нулевое приближение Е<°> строится с помощью случайно выбранных первых k точек исследуемой совокупности, т. е. со|0) = 1, i = l,2,..., *. Затем на 1-м шаге «извлекается» точка Xfe+1 и выясняется, к какому из эталонов е\0) она оказалась ближе всего. Именно этот, самый близкий к Xk+1 эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Xk+1 (с увеличением на единицу соответствующего ему веса), а все другие эталоны остаются неизменными (с прежними весами) и т. д. Таким образом, пересчет эталонов и весов на v-м шаге, т. е. при извлечении очередной точки X^+v, происходит по следующему правилу: ' (Лч) p(v—1) iv ^—fi ±^ еслир(Х*+„, еГ+1))- еГ>- т cd<v> + 1 = min р(Х ejv-D), е{У~1) в противном случае, + 1, если p(X*+v, e\v 1}) = min p(X*+v, ef ~| (v-i) <;< l со} , в противном случае, i=l, 2, ..., k. При этом если обнаруживается несколько (по i) одинаковых минимальных значений р (X*+v> ef~~l), то можно условиться относить точку Xk+v к эталону с минимальным порядковым номером. При достаточно большом числе итераций, или при достаточно больших объемах классифицируемых совокупностей п и при весьма широких ограничениях на природу исследуемых наблюдений, дальнейший пересчет эталонных точек практически не приводит к их изменению, т. е. имеет место сходимость (в определенном смысле) E<v> к некоторому пределу при v->-oo. Если же в какой-то конкретной задаче исследователь не успел добраться до стадии практически устойчивых (по v) значений эталонных точек, то пользуются одним из двух вспомогательных приемов. Либо «зацикливают» алгоритм, «прогоняя» его после рассматривания послед- 115
ней точки Хп = Xk+(n-k) снова через точку Хх, затем Х2, и т. д., либо производят многократное повторение алгоритма, используя в качестве начального эталона Е<°) различные комбинации из k точек исследуемой совокупности и выбирая для дальнейшего наиболее повторяющийся (в некотором смысле) финальный эталон E<"-*>. Окончательное разбиение S исследуемой совокупности многомерных наблюдений на k классов производится в соответствии с правилом описанного выше минимального дистанционного разбиения S (Е) относительно центров тяжести (эталонов) Е = Е(л~ft), которое, кстати, является частным случаем разбиений ранее описанной общей схемы эталонных алгоритмов, получающихся при Ф(Х, Я,) = р(Х, ?,), т. е. Sl(E) = {X:p(X, ?,)<р(Х, Ej); / = 1, 2, ...,*; ]ф1}. Если оказывается, что р (X, Ег) = р (X, ?/), то точку X относят к тому из классов Si и S;, который обладает меньшим порядковым номером. Свойства алгоритма Б2а1. Для описания интересных свойств метода ?-средних введем, следуя [33] и [56], некоторые понятия и определения. Условимся интерпретировать исходное множество наблюдений Хь Х2, ..., Хп"как случайную выборку из п независимых наблюдений, извлеченную из генеральной совокупности, описываемой некоторой (неизвестной нам) вероятностной мерой, определенной в рассматриваемом /7-мерном факторном пространстве X исследуемых признаков. Подробнее о смысле меры Рем. на стр. 14. При этом будем предполагать, что мера Р сосредоточена на замкнутом, ограниченном, выпуклом множестве X, т. е. jxP (dX) — 1, причем для каждого открытого множества AS P (AS) > 0. Пусть S = {Si, ..., Sh} — некоторое разбиение пространства X на k непересекающихся множеств Sx, ..., Sfe, так что теоретико-множественная сумма (объединение) всех этих множеств дает X. Под &—средним X(S) = (X1(S)9 X2(S), ..., Xk(S)), порожденным разбиением S = {SV S2, ..., Sk} будем понимать набор векторов каждый из которых является условным средним (центром тяжести) наблюдений своего класса, т. е. j* XP(dX) X,(S) = -^ , C.30) J P[dX) si 116
В покомпонентной записи формула C.30) имеет вид $*<'>Р,(Лс<'>) -1 si I p,W>) Здесь Sn — проекция р-мерного множества St на ось х^, a Pi (dxW) вероятностная мера на прямой, задающая частное распределение компоненты *<'> в соответствии с законом P(dX), т. е. р,(<**<'>)= S S ... S S ... S />№. *<1> *<2) *</-1) *('+!> *0» Под S(E)-{S1(E), S2(E), ../,15ft(E)} будем подразумевать разбиение, полученное в соответствии с общей схемой эталонных алгоритмов на основании эталонов Е = {Еъ Е2У ..., ..., Ek} и функции ф(Х, Ег) = р(Х, Ег). Группа эталонных точек Е = {?lt E2, ..., Ek) называется несмещенной ^-точкой, если X[S(E)] = E, т. е. если центры тяжести классов, построенных с помощью эталонных точек Е ={ЕЪ Е2, ..., Ek}, совпадают с самими эталонными точками. В тех случаях, когда это не вызовет путаницы, будем для упрощения записи обозначать X[S(E)] = X(E). Введем в рассмотрение следующие характеристики внутриклассового рассеяния, соответствующие разбиению S(E): Qi(E)= S $P2[(X, Xt(E))P(dX)t Qi(E)= 2 $№> eu)P(dX). i= 1 S, Описанный выше метод Передних при довольно широких предположениях относительно вероятностной меры Р обладает следующими свойствами1: — свойство несмещенности метода ^-средних. Оказывается, что применительно к методу ^-средних имеет место следующий аналог за- 1 Соответствующие доказательства и точную формулировку условий, накладываемых на вероятностную меру Р, читатель может найти в [56]. 117
кона больших чисел: « (V) )->-0 при п->- оо с вероятностью единица. Здесь Е (V) V,v> 4V) ^V)j—эталоны на v-м шаге алгоритма, AT(E(V)) = XI [S(E(V)I—условные средние классов S<-v), полученных с помощью минимального , дистанционного разбиения относительно эталонов Е , a P/v ¦= ^_ ________— __^ =p(^jv))—вероятностная мера соответствующих классов; — свойство стационарности функционала качества разбиения. Последовательность случайных величин Qx (E<v>) сходится почти всюду и lim Qx (E<v>) равен (с ве- V->oo роятностью единица) Qx (E) для некоторого разбиения S (Е), для которого X [S (Е)] является несмещенной ^-точкой. Указанное свойства алгоритма Б2а1 означает, что разбиение, задаваемое этим алгоритмом, с ростом объема п исследуемой выборки стремится к некоторому несмещенному разбиению, на^котором значение функционала Q± (E) совпадает со значением функционала Qx (E). Очевидно, что Qx (Е) > & (Е) для любых Е. Кроме того, как указывалось выше (см. стр. 93), минимальное значение функционала Qt (E) достигается на несмещенных разбиениях. Все это позволяет надеяться, что в достаточно общих ситуациях при больших объемах выборочных совокупностей алгоритм Б2а1 строит разбиение, близкое к наилучшему в смысле функционала QX(E), а следовательно, и в смысле функционала О^Е). Возможны случаи, когда в результате действия алгоритма ъ2а1 при неограниченном увеличении объема выборочной совокупности будут получаться разбиения, на которых значение функционала Qx (E) не минимально, а максимально. Рассмотрим следующий пример. Допустим, что исследуемая выборка является выборкой из генеральной совокупности, распределение которой сосредоточено в вершинах прямоугольника, одна сторона которого несколько больше другой, и зададимся целью разбить исследуемое пространство на два класса. Перенумеруем точки генеральной совокупности, в которых сосредоточено распределение, так как это показано на рис. 3.5. Пусть вероятности появления каждой из точек 1, 2, 3, 4 одинаковы. Предположим, что при слу- Рис. 3.5. Пример действия алгоритма Бга1: при неограниченном увеличении выборочной совокупности получаются разбиения с максимальным значением Qi (Е) 118
чайном извлечении наблюдений из генеральной совокупности первые четыре точки извлечены последовательно из вершин с номерами соответственно 1, 2, 3, 4. Тогда, если стороны а и Ъ прямоугольника удовлет- воряют неравенствам -^-о—< а< о, то, как легко видеть, в результате действия алгоритма Б2а1 после обработки первых четырех точек эталонные точки Е<2> = (е[2>, 42)) будут лежать одна против другой на серединах длинных сторон прямоугольника. Нетрудно показать, что в какой бы последовательности ни появились затем выборочные точки (из вершин 1, 2, 3 и 4), эталонные точки е[1> и 4° (* = 3, 4,...) будут двигаться по соответствующим длинным сторонам прямоугольника до тех пор, пока они не подойдут слишком близко к вершинам этого прямоугольника. Из усиленного закона больших чисел следует, что с положительной вероятностью этого не произойдет. Другими словами, с положительной вероятностью алгоритм Б2а1 отнесет точки 1, 3 к одному классу, а точки 2, 4 — к другому классу. А при этом разбиении значение функционала Qx (E) максимально. И, наконец, приведем пример ситуаций, в которых может произойти определенного рода «зацикливание» алгоритма Б2а1. Рассмотрим двумерную генеральную совокупность, распределение которой совпадает с равномерным распределением на круге. Пусть Хг, ..., Хп — выборка из этой генеральной совокупности. Мы хотим с помощью алгоритма Б2а1, используя выборку Хъ ..., Хп, разбить совокупность на два класса. Нетрудно видеть, что в этом случае множество несмещенных точек совпадает с семейством точек Е = (еъ е2), лежащих друг против друга на диаметре круга на одинаковом фиксированном расстоянии от центра круга, и значение функционала Qx (E) для всех этих точек одно и то же. Кроме того, в этом случае можно показать, что с вероятностью 1 2 P^PeW, Х,(Е(у)))^0, при v + oo. /= 1 Здесь Xt (E<v))—среднее i-й части минимального дистанционного разбиения S (Е<*>) (i = 1, 2). Этот пример показывает, что указанные выше свойства алгоритма Б2а1 не исключают возможность того, что мы, строя последовательно эталонные точки, будем бесконечное число раз обходить окружность, на которой расположены несмещенные точки. Прежде чем переходить к описанию следующих последовательных алгоритмов, заметим, что алгоритм Б2а1 близок к параллельному алгоритму типа Дидея, а именно, к алгоритму примера 1 стр. 108. Разница этих двух алгоритмов состоит лишь в том, что в алгоритме Б2а1 на v-м шаге эталонные точки выбираются с помощью k + v первых рассмотренных точек выборки, а в алгоритме примера 1 на v-м шаге эталонные точки выбираются с использованием всех точек выборки Хъ ..., Хп. б) Алгоритм Б2б1. Алгоритм Б2а1 может быть обобщен на случай решения задач, для которых заранее число классов неизвестно. 119
Для этого следует задаться двумя константами Ф0 и Y0, названными в [54] соответственно мерой грубости и мерой точности. Работа алгоритма Б2б1 также состоит в последовательном построении эталонных точек ?V = (зд ^ Bl(v)) и весов со^, ..., (o^(V), но число классов k (v) может меняться при этом от итерации к итерации. На нулевом шаге итерации берется любое начальное k @) и полагается со? = 1, E? = Xj (/=1, ..., А@)). Затем производится процедура «огрубления» эталонных точек. А именно, подсчитывается расстояние между двумя ближайшими эталонными точками и сравнивается это расстояние с заданной мерой грубости Ф0. Если это минимальное расстояние меньше Ф0, то соответствующая пара эталонных точек заменяется их взвешенным средним с весом, равным сумме соответствующих двух весов. Процедура огрубления заканчивается тогда, когда расстояние между любыми двумя эталонными точками не меньше чемФ0. Пусть ^результате процедуры огрубления мы имеем число эталонных точек k @) (k @) ^k @)), эталонные точки Е) (/ = 1, .... й @)) и веса со? (/ = 1, ..., Л @)). На первом шаге итерации извлекается точка Хцо)+\ и вычисляется расстояние от Х*(о)-н до ближайшей к ней эталонной точки Е] (/ = 1,..., k @)). При этом если это расстояние большего, то Х*@) +1 объявляется новой эталонной точкой Ek{Q) + \ = Х^о)-^! с весом <*>цо)+\ = 1, а все остальные эталонные точки и соответствующие им веса остаются неизменными. Если это минимальное расстояние меньше чем Y0, то самый близкий к ХА(о)+1 эталон заменяется эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки Xk@)+ \. Вес точки Xjfe(o)-f i считается равным 1. Вес этого нового эталона равен сумме весов объединяемых точек (старого эталона и точки Х^@)+1). Все остальные эталоны и соответствующие веса остаются неизменными. Таким образом, пересчет эталонов и весов в этом случае происходит точно так же, как и в алгоритме Б2а1. После процедуры огрубления эталонных точек переходят ко 2-му шагу итерации и так далее. Выбирая различные константы Ф0, ^о» мы будем с помощью алгоритма Б2б1 получать различные разбиения. Выбор величин Ф0 и ?0 можно считать удачным, если разбиение, соответствующее этим величинам, признается оптимальным или с точки зрения экспертов, или в смысле принятых функционалов качества разбиения. в) Алгоритм Б2а2 [7]. В этом алгоритме для задачи разделения совокупности на два класса на каждом шаге итерации строятся разделяющие гиперповерхности произвольного вида, а не только гиперплоскости, как это делается в алгоритмах Б2а1, Б2б1. Опишем работу этого алгоритма. Пусть на элементах факторного пространства X задана потенциальная функция специального вида, а именно: К(Х. К)= S *?Ф|(Х)Ф|(П. / =1 120
где {ф* (X) (I = 1, 2, ..., N)} — некоторый набор известных функций от р переменных. В процессе работы алгоритма последовательно по точкам выборочной совокупности Хх, ..., Хп производится построение двух функций Ф^> (X), <D?V> (X) и двух чисел а<*) и aBv>, определяющих v-e приближение разделяющей поверхности /<v> (X) в форме /(v) (X) = <D(v> (X)—Ф<*> (X) — (a<v)_a<v)). Если на (v+1)-m шаге алгоритма /(v> (Xv+i)^0, то считается что Xv.{-i 6 S?v>, в противном случае Xv+1 € SBV). Пусть к (v + 1)-му шагу в процессе работы алгоритма vx точек из Х19 ..., Xv были отнесены к 5jv) и v2==v—гхбыли отнесены kS<v). На (v+1)-m шаге алгоритма построение Ф^+i) (Х), Ф^+1)(л;), a?v+!), а<*+!) производится следующим образом: а) если Xv+i €S?V>, то Ф^+1)(Х)^Ф^) (X) + yVt[K(X, Xv+0-Ф^ (*)Ь a(v+i) =a(v) + Yvf [0(v) (xv+1)-2a(v)], 0(v+D(X) = Of)(A)f a(V+l) =a(V); б) если Xv+1 eS<v>, то ф^+1)(Х) = Ф^)(Х), a[v+n = a<v>, 0<v+ О (X) = OJv> (X) + vv, [/C (X, Xv+ О -Ф<*> (X)], ajv+i) =a(v> +Vv«mv)(Xv+i)-2a(v)]. Начальные значения величин, входящих в рекуррентные соотношения C.31), определяются по точкам Хь Х2, а именно: фB) (X) = К(X, Хх), ap) - *(**'Xl) , C.31) ФB)(Х) = /С(Х,Х2), ар): К (Х2, Х2) В качестве последовательности yv выбирается некоторая убывающая последовательность положительных чисел. Обычно берут yv =—. В спрямляющем пространстве Z[(cm. стр. 94) этот алгоритм последовательно строит гиперповерхности вида fW (Z) =-(c(v>_4*>, Z)-(ap)-ap)). Рекуррентные соотношения C.31) в спрямляющем пространстве Z имеют вид: а) если Zv+i ?Siv), то Civ+i) =civ)+7vi(Zv+i-c<v)), a(v+i) =aiv) + Tvi[(civ)f zv+1)-2aiv)lf a(v+D = a<2v>; 121
б) если Zv+i€S?v), то 4v+1) = 4v) + Yv2(Zv+1-<t>), a(v+i)==a(v)+Tv;[(c(v), Zv+1)-2a(v)]. Здесь, как и раньше Zv+1 ? S[v) (Zv+1 6 S?v))> если p) (Zv+ i) > ^0 (/<v) (Zv) < 0), Vj—число элементов из Zl9 ..., Zv, отнесенных к классу Sx, v2 = v—vx. Начальные значения определяются по точкам Zx, Z2. с<2> = Zx, c«> = Z2, a<*> = -&?-, a\ = -&f-. Если /С (X, F) = (Ху Y) — является скалярным произведением векторов X и F, то спрямляющее пространство Z совпадает с пространством X. Тогда алгоритм Б2а 2 на каждом шаге разбивает совокупность Хна два класса гиперплоскостями. Только в начальный момент это разбиение является минимальным дистанционным разбиением, т. е. совпадает с разбиением, задаваемым алгоритмом Б2а г. Свойства алгоритма Б2а 2. Пусть плотность распределения / (X) — дифференцируемая функция, обращающаяся в нуль вне некоторого ограниченного множества. За функционал качества возьмем Q'2 (S) C.14). Пусть последовательность yV9 участвующая в работе алгоритма Б2а 2, удовлетворяет следующим пяти условиям: 1) последовательность yv монотонно не возрастает; оо 2) ряд 2 Tv расходится; v=l 3) существуют два таких числа a > 0 и X > 0 и такой номер я0, что (l_2Tv + aY$-x)(-2MX<l (v>/io) V Vv+l/ оо и ряд 2 Yj+X сходится; v=l 4) для любого числа Р > 0 найдется такое Lx (Р), что как только Vv2> р, то 5) для любого L2 > 0 найдутся N (L2) и % (L2) > 0, такие, что 2 Vj>L2, v>N{L2). 122
Этим условиям удовлетворяет, например, последовательность Yv^—7=i-, где 0<е<—. В работе [7] применительно к спрямляющему пространству Z показано, что с вероятностью 1 разбиение, задаваемое алгоритмом Б2а2, при неограниченном увеличении объема выборочной совокупности приближается к классу разбиений, среди которых находятся оптимальные, в смысле Q'2 (S) (см. стр. 95I. В заключение отметим экспериментально установленный факт: в довольно общих ситуациях алгоритмы Б2а ь Б2а 2 дают при больших объемах исследуемых совокупностей устойчивые и близкие к оптимальным (в смысле соответствующих функционалов) разбиения, хотя упомянутые выше теоретические свойства алгоритмов и не гарантируют нам этого. 5. Последовательные кластер-процедуры и метод стохастической аппроксимации Большое число последовательных кластер-процедур может быть получено с использованием метода стохастической аппроксимации. Опишем в чем состоит этот метод. Пусть некоторый вектор Y является случайным вектором, индуцирующим в пространстве своих возможных значений вероятностную меру Рх> зависящую от некоторого фиксированного векторного параметра X. Рассмотрим функцию т (X) = { YPX (dY) — так называемую функцию регрессии Y по X. Допустим, что при некотором вещественном векторе а уравнение т (X) = а C.32) обладает единственным корнем Э. Ставится задача отыскать этот корень. Если бы распределение Рх было известно при всех значениях X, то мы могли бы найти корень 0 прямо из уравнения C.32). Но часто возникают ситуации, в которых распределение Рх неизвестно и, следовательно, неизвестен вид функции т (X). Метод стохастической аппроксимации предлагает итерационную процедуру для оценки 9 с помощью наблюдений над случайным вектором Y при различных значениях X. Итерационная процедура метода стохастической аппроксимации для этой задачи имеет вид: 6<v+n=6<v>+Yv(a—Kv), C.33) где 6<v> — v-e итерационное значение неизвестного параметра, а Yv — v-e наблюдение исследуемого случайного вектора. В качестве начального значения 0*1) можно брать любой вектор. 1 Имеется в виду, что параметры разделяющей гиперплоскости данного алгоритма с вероятностью единица стремятся (при п —» оо) к параметрам а и с, определяемым по формулам C.22). 123
При определенных условиях на вид функции т (X), на Рх и на последовательность уп доказаны теоремы о сходимости описанной процедуры к корню уравнения C.33) ([9], [36] — [40]). Сходимость может пониматься в разных смыслах (в среднем квадратичном, почти всюду и т. д.). Легко понять, что задача поиска единственного экстремума некоторой исследуемой функции R (X), точный вид которой может быть неизвестен, сводится к задаче оценки единственного корня уравнения dR (X) = 0, которое является частным случаем уравнения C.32). Поэтому для оценки единственного экстремума исследуемой функции можно использовать описанную выше итерационную процедуру C.33). Перейдем непосредственно к задачам кластер-анализа. Пусть X (как и раньше) — пространство всевозможных значений признаков исследуемых объектов. Будем считать, что на X задана плотность вероятности / (X). Предположим, что задано разбиение S пространства X на k непересекающихся областей S = {Slt ..., Sfe}. Допустим, что для каждой области St разбиения S заданы функции потерь Ft (X, S), которые оценивают потери при попадании объекта X в область S* (i = 1, ..., *). Рассмотрим выражение R(S)=-%\Fl(X, S)f(X)dX, определяющее суммарные потери классификации S (суммарная функция потерь). Задача классификации в данной постановке может рассматриваться как задача нахождения такого разбиения S пространства X, при котором R (S) минимально. Пусть Е = (ег , ..., eh) — некоторые эталонные точки разбиения 5, ех — эталонная точка области St (i = 1, ..., k) например, пусть ег — условные средние i-й области разбиения S. Предположим, далее, что функции потерь Ft (X, S) являются функциями лишь от эталонных точек Е, т. е. Ft (X, S) = F, (X, Е). Тогда R (S) = R (E). Задача классификации в этом случае сводится к задаче нахождения разбиения S*, для эталонных точек которого R (Е*) минимально. Необходимые условия минимума R (Е) имеют вид [32]. ?$V./,(X, E)/(X)dX = 0, C.34) Fj(X, E)-Ft(X, E) = 0, C.35) для всех X, принадлежащих границе областей Sh Sj (i, j = = 1, ...,?; i=f /) здесь yeF = (—?— F, —%—F, ..., —^— F\— градиент функции F ' I de{jl) deW де\Я } по направлению, задаваемому вектором ej ) . 124
Уравнения C.35) определяют границы между соседними областями при тех значениях эталонных точек Е, которые удовлетворяют уравнениям C.34). При некоторых, не очень жестких предположениях на функции потерь Ft (X, Е) [32], разбиение S, удовлетворяющее уравнениям C.34) и C.35), может однозначно восстанавливаться по этим функциям. А именно, х ? Si9 если Ft (X, Е) — Fj (X, Е) < 0, для всех /V=iV Видно, что функции потерь Ft (X, Е) имеют при этом тот же смысл, что и функции ф (X, St) — меры типичности точки X, как представителя группы St (см. стр. 105). Таким образом, при некоторых предположениях, зная функции потерь, можно строить оптимальное разбиение S по оптимальным эталонным точкам, которые определяются как решения уравнений C.34), C.35). Процедура стохастической аппроксимации для оценки корня уравнений C.34), C.35) имеет вид C.33). ^>=^-1>_^)Г | Xi(Xv, E(v-i>)v^/Y(Xv, E<v-0I, где (e[v\ ..., 4V)) = E(V)—v-я итерация" в процессе оценивания корня уравнения C.35), Х,(*,Е)={': 1, если X?Si9 если X$St. В зависимости от вида функций Ft (X, Е), т. е. от вида экстреми- зируемого функционала R (S), получаются различные итерационные процедуры. Рассмотрим некоторые из них. Воспользуемся переходом в так называемое спрямляющее пространство Z (см. стр. 94), сопоставив каждой /?-мерной точке X из исходного пространства X Л/'-мерную точку (К <PiW Z(X)= : \ kN q>N (X) Здесь {фх (X), ..., ф# (X)} —набор известных функций от р переменных, a it — некоторые константы. Таким образом, любое множество Л из X отобразится в соответствующее множество A ={Z (X) : X 6 А} из Z. В частности, любая система эталонных точек е = {еъ ..., е^) отобразится в соответствующую ей систему эталонных точек Е = {eXt ..., ek) ^ Z Пусть Ft(X, Е)Н*(Х)-*||Г+ 2 KII2. т=\ (т Ф i) 125
Тогда алгоритм стохастической аппроксимации для поиска экстремума функционала tf(E)=2[|Z(X)-eJ2+ 2|emf дает следующее описание v-й итерации соответствующей вычислительной процедуры. После завершения предыдущей (v—1)-й итерации и по «предъявлении» Xv вычисляется величина Zv = Z (Xv) и отыскивается такой номер /0 A <! /0 ^ Ь)> Для которого при всех / = 1, 2, ..., k (j=i0) оказываются выполненными соотношения ((^-"-^Г"), 2V)<0. После этого определяются: ~(v> =е{Г1)- У{ГХ) Се(Г{)- 2v), C-36) (/=1,2,..., k\ j=hi0). Нетрудно убедиться в том, что если k — 2, то приведенный алгоритм при соответствующем подборе уп совпадает с алгоритмом работы [10] в том случае, когда потенциальная функция К (X, Y) может быть представлена в виде ряда К (X, Y) = 2 И Ф* W Ф| 00 = B (*), 2 (У)). / = 1 Действительно, пусть е^-1* = . 2Z (X), где суммирование ведется по всем тем элементам множества {Хь ..., Xv_ {}t которые до (v — 1)-го шага относились к Sj-й группе, a (v — 1O- — число таких элементов (/ = 1, 2). Согласно алгоритму [10] элемент Xv относится к Sl9 если на v-м шаге (Aiv-!,-eB?-,>), Zv)>0. Это же можно записать в эквивалентной форме с помощью соотношений C.36), в которых нужно положить у{У~1) = /v_n. • Пусть Ft = || Z — et f и k = 2. Величина Z = Z (X) определяется по Хтак же, как и в п. (а). Алгоритм стохастической аппроксимации в этом случае запишется в виде: 4V) = ?,»-»—Y<v-i > (i'v-i) -Zv), если ||1<v-» > f—||е^-»> ||2—(e(xv-i >—4V~' >) Zv < 0, e(v) -^(v-D—^v-l) (g(v-l)_Zv), 3v)=^v-l), если ||eBv-i)|2_|^v-i)||2 + (e7v-i)_e7v-i))Zv>0. 126
Очевидно, что этот алгоритм близок к алгоритму работы [7], когда N К (Xf Y) = 2 ^н ф* (X) Фг (F), хотя полностью и не совпадает с ним. В описанном только что алгоритме в отличие от алгоритма из [7]. Каждое v-e приближение разделяющей гиперплоскости (в спрямляющем пространстве Z) проходит через середину отрезка e\v) — eBv)- Пусть теперь Ft(Xy Е) = ||Х — etf. В этом случае алгоритм стохастической аппроксимации для нахождения экстремума функционала R (S) совпадает с алгоритмом [56]. Действительно, алгоритм стохастической аппроксимации задается следующей итерационной процедурой. Отыскивается такой номер /0 A ^ /0 ^ ^), для которого при всех i = 1, 2, ..., k (i Ф i0) оказываются выполненными соотношения: lkiv-1)f-ik<-r1)f+(^(v-1)-4v~1))^v<o и полагают eiy)=e(V-l)_y(V-l)(e(V-l)_Xj для всех -^ _? ^ но .^.^ 6. Замечание о методах предварительной обработки классифицируемых наблюдений Предварительная обработка данных преследует в основном две цели: 1) техническую, связанную с сокращением времени и уменьшением машинной памяти, необходимых при использовании алгоритмов классификации; 2) теоретическую, направленную на улучшение результатов действия применяемых алгоритмов. К основным приемам, с помощью которых исследователь добивается достижения сформулированных выше целей, можно отнести: — агрегирование данных, заключающееся в переходе от классификации исходных элементов к классификации объектов, каждый из которых представляет собой ту или иную форму выражения целой группы заведомо однородных исходных элементов; — выбор начальных приближений для эталонных точек (е<0)), для неизвестного числа классов (&@)), для искомого разбиения (S<°>), для пороговых значений с<0> и т. п.; — некоторое упорядочивание исходных наблюдений, ориентированное, например, на принадлежность рядом стоящих элементов к одному (общему) классу, или на последовательное убывание определенным образом заданной величины, характеризующей плотность наблюдений в окрестности соответствующей точки, и т. д. Конечно, первое, что следует испробовать при решении этих задач, — это профессиональный, экспертный подход. И лишь затем можно воспользоваться формальными эвристическими приемами. Некоторые из них мы здесь опишем. — некоторые методы «анализа мод». 127
Первая процедура [77] состоит в том, что для каждой точки Xt исследуемой совокупности вычисляется оценка плотности, / (Xt) = = ' , где v (r, i) — число точек совокупности, попавших в сферу радиуса г с центром в точке Xt. После этого можно, задавшись некоторым порогом с, выбрать все точки Xt с плотностью f(Xu)>c. Многие кластер-процедуры целесообразно применять сначала лишь к тем точкам совокупности, которые удовлетворяют этому условию. Остальные совокупности по некоторому правилу затем разносятся по уже сформированным классам. Примером применения такого рода процедуры может служить ее использование при работе иерархического алгоритма, основанного на принципе ближайшего соседа (см. стр. 101). Эта процедура направлена на устранение «цепочечного» эффекта алгоритма. Процедура упорядочения классифицируемых точек по моде, входящая в состав модификации иерархического алгоритма ближайшего соседа (см. стр. 101), может использоваться в качестве предварительной обработки при выборе начальных эталонных точек в эталонных параллельных алгоритмах; — упорядочение по принципу принадлежности «соседей» к одному классу. В работе [10] прежде чем пользоваться агломеративной иерархической процедурой с мерой близости между группами, равной П1П™\х% xJ*sm предлагается произвести некоторое переупорядочивание исследуемых объектов. А именно, первый объект выбирается случайным образом Хг = Хг. Затем в качестве Х2 выбирается элемент совокупности X|(f —2, ..., я), для' которого К{Х2, Х1)=тах/С(^, Хх). Затем выбирается элемент таким образом, чтобы хг 2 К(Х39 Х;) = тах 2 K(Xi9 Xj) и т. д. То есть за Xj берется точка, ближайшая к группе Si.l=--(Xl, ..., Iti-i) в смысле меры близости между группами 8г^=(Хг)9 S^-i — = (ХХ, ...,ад, равной riS^S^^^—'^KiXi, X,). Такое переупорядочивание обладает следующей важной особенностью. Если совокупность распадается некоторым образом на классы, то сначала будут перебираться элементы из одного класса, затем из 128
другого класса и т. д. Причем на границе между классами величина г (Siy S?_i) будет резко убывать. Поэтому это переупорядочивание можно использовать для получения некоторого начального разбиения перед применением алгоритма, что и делается в [10]. При этом, как указано в [10], уменьшается и время счета, описанного в этой работе алгоритма. Кроме того, с помощью описанной процедуры можно предварительно оценить число классов разбиения, следя за скачками функции r{Su SH1), [31, стр. 124]. Перечисленными примерами, очевидно, не ограничивается множество возможных предварительных процедур, которые могут выбираться в зависимости от вида каждого конкретного алгоритма классификации и типа реальных классифицируемых данных. Заметим, что любой классифицирующий алгоритм может служить процедурой предварительной обработки для некоторого другого алгоритма классификации, используемого в качестве основного. § 4. КЛАССИФИКАЦИЯ ОБЪЕКТОВ, ОПИСЫВАЕМЫХ НЕ ТОЛЬКО КОЛИЧЕСТВЕННЫМИ ПРИЗНАКАМИ (АКСИОМАТИЧЕСКИЙ ПОДХОД; ОБРАБОТКА ЭКСПЕРТНЫХ МНЕНИЙ) Описанное выше множество кластер-процедур может быть использовано для объектов, имеющих числовые признаки. Однако во многих практических исследованиях (например, в социологических) признаки бывают не только количественными. Естественно различать три типа признаков: 1) количественные — если значениями признака являются числа (например, возраст, заработная плата и т. д.); 2) ранговые (качественные) — если значения признака не являются числами, но характеризуют различную степень проявления этого признака. То есть между значениями признака имеется естественное упорядочение (например, квалификация изменяется от «высокой» до «низкой», степень удовлетворенности своей работой и т. д.); 3) номинальные (классификационные) — если значения признака не являются числами и не связаны естественным упорядочением (например, профессия, причина выезда из данного города и т. д.). При исследовании объектов с ранговыми признаками обычно каждому значению приписывается некоторый балл. Применение к таким балльным признакам общих кластер-процедур и связанное с ними применение к балльным признакам арифметических операций требует, вообще, говоря, обоснования в каждом конкретном случае. Разработка этих обоснований еще только начинается [23]. Еще сложнее обстоит дело с обработкой номинальных признаков. Иногда значениям номинальных признаков приписывают баллы или эвристические показатели в соответствии с какой-либо содержательной гипотезой или мнениями экспертов. В работах [19] — [22] предложен возможный путь создания аппарата обработки признаков любого типа и намечены применения этого аппарата к задачам кластер-анализа. 5 Зак. 358 129
Будем считать, что каждый из р измеряемых признаков объекта принимает лишь конечное число значений тг (i = 1, ..., р). Каждый 1-й признак естественным образом задается разбиением S^ совокупности на rtii групп. А именно, для элементов из одной группы разбиения S<*> значение i'-го признака одно и то же. Задача разбиения совокупности объектов на группы на основе р измеряемых признаков может быть поставлена теперь следующим образом: по данным разбиениям S*1), ..., S^> построить разбиение S исследуемой совокупности, наиболее «близкое» ко всем «однопризна- ковым» разбиениям (или наиболее «согласованное» со всеми однопри- знаковыми разбиениями). Понятие разбиения наиболее «согласованного» с несколькими разбиениями, может возникнуть и в других ситуациях [2]. Например, допустим, что в результате применения нескольких алгоритмов или в результате опроса нескольких (т) экспертов получено несколько разбиений SA>, SB), ..., S(/ra> совокупности из п объектов. Нужно найти разбиение S, которое в некотором естественном смысле было бы наиболее согласовано со всеми ими, являясь их «концентрированным» выражением. В простейшем случае, когда число заданных разбиений мало, по сравнению с числом исследуемых объектов, часто в качестве согласованного разбиения S выбирают пересечение исходных разбиений, а именно: классы разбиения S = (Sl9 ..., Sk) — непустые множества, имеющие вид St = S^nS^f] - П5?\ где S\lt\ ..., S^ —классы исходных разбиений S*1), ..., S(m> соответственно, а наборы (ilt h> •••» im) формируются всеми возможными способами *i € П> ••• > &iJ> Здесь kj — число классов в разбиении S<'>. Однако, как правило, подобного рода согласованные разбиения не представляют практического интереса, так как оказываются в большинстве случаев малосодержательными и слишком дробными: общее число k различных классов такого разбиения, как легко подсчитать, может достигать величины kx k2 ... km. Поэтому рассмотрим другие подходы к определению единого согласованного разбиения. В общем случае принцип согласования исходных разбиений определяется заданием некоторой функции F (SA), ..., S<m>) со значениями в пространстве разбиений, т. е. правилом построения S по данным разбиениям S<X), ..., SW. В случае, когда мы ограничиваемся лишь упорядоченными разбиениями1 S, S^\ ..., S<m\ Эрроу [34] сформули- 1 Разбиение S = {Sx, ..., S^} называется упорядоченным, если задано правило линейного упорядочения классов S( (считается, что нумерация классов соответствует этому упорядочению). Очевидно, числовые и ранговые признаки определяют упорядоченное разбиение. 130
ровал 5 аксиом — естественных требований, которым должна удовлетворять функция Fy и показал, что не существует функции F, одновременно удовлетворяющей всем пяти аксиомам. В [20] рассматривается применение метода Эрроу к случаю, когда и аргументы функции F и ее значения не упорядочены. Показано, что естественные требования (аналогичные аксиомам Эрроу) приводят к пересечению разбиений как единственному принципу согласования. В наиболее часто встречающихся ситуациях, когда число классов согласованного разбиения ограничено заранее, в [20] доказана теорема о невозможности выбора согласованного разбиения. Можно показать, что при некотором смягчении требований к функции F, а именно, при отказе от одной из приведенных в [20] пяти аксиом, общий вид согласованного разбиения, содержащего не более чем k классов, задается следующей формулой F(Sil\ ..., S(m))=S(/), т. е. среди исследуемых разбиений найдется такое, которое может быть принято в качестве согласованного1. Более плодотворным подходом к решению задачи выявления единого согласованного разбиения объектов на классы нам представляется подход, основанный на понятии «расстояния между разбиениями», обсуждаемый, в частности, в [19] — [21]. Остановимся на нем несколько подробнее. Пусть с каждым разбиением S связана квадратная булева матрица {S<» '} (i, j = 1, ..., п) следующим образом: если S — неупорядоченное разбиение, то S1* = 1 тогда и только тогда, когда объекты Xt и Xj лежат в одном классе разбиения, а если S — упорядоченное разбиение, то S*' = 1 тогда и только тогда, когда объект Xt находится в классе, совпадающем или предшествующем классу объекта Xj. Упорядоченным разбиениям ставятся в соответствие блочно-тре- угольные, а неупорядоченным — блочно-диагональные булевы матриц. Определение. Разбиение S находится между разбиениями S*1) и S<2> (лежит между S*1) и S<2>) тогда и только тогда, когда для любых Xt и Xj S(i)//<S'/<SB)'/> S(l)//, 5i2)ii — элементы булевых матриц, соответствующих разбиениям SA) и SB) соответственно или для всех Xiy Xj, выполнены неравенства S<2>'/ <5<*' < S< W. Определение. Расстоянием d (SA>, S<2>) между разбиениями SA> и S<2) называется функция, удовлетворяющая некоторым естественным требованиям (аксиомам). А к с и о м а 1. Расстояние d E<x>, S<2>) обладает следующими свойствами геометрического расстояния: а) d(S{l\ SB))>0 и d(SD), SB))-0 тогда и только тогда, когда разбиения SA) и 5B) совпадают; б) d(SA), SB))=:d(SB), SA)); 1 Этот результат сообщен нам Б. Г. Миркиным. 5* 131
в) для любых разбиений S, SA), SB) d(SA\ SB))<d(SA), S) + d(S, SB)), причем точное равенство достигается, если «разбиение S лежит между разбиениями S<x> и SB>». Аксиома 2. Эта аксиома основана на требовании равноправия всех объектов Xt (i = 1, ..., п) исследуемой совокупности относительно расстояния d (S*1), S<2>). Если разбиение S^> получено из разбиения S*1) перестановкой некоторых объектов, а разбиение S<2> из S<2> той же самой перестановкой, то d (S^>, S<2>) = d (SA), «S<2>). Аксиома З. Если разбиения S<x> и S<2> совпадают всюду, за исключением множества ?, являющегося объединением некоторых подклассов и в разбиении S<x> и в разбиении S<2\ то d (S^\ S<2>) вычисляется так, как если бы рассматривались лишь разбиения множества Е. Аксиома 4. Эта аксиома задает масштаб измерения — максимальное расстояние между разбиениями совокупности Xt (i = 1, ..., п) В работах [19] — [22] показано, что перечисленные аксиомы однозначно определяют функцию расстояния между разбиениями и 4E0), SB))=_L 2 |SA,»'-SB)"|. C.37) Тогда в качестве единого согласованного разбиения относительно заданного набора S<1>, ..., S(m) можно использовать, например, так называемую медиану S(med>, определяемую соотношением 2 d(Simed\ S(v))-min 2 d(S, S(v)), V=l S6# v=l либо «среднее» разбиение S, определяемое условием 2 d2(S, S(v)) = min 2 d2(S, S(v)), v=i sew v=i где H — некоторое множество допустимых разбиений (упорядоченных или находящихся «между» заданными и т. п.). В [20] автор обращает внимание читателей на опасность универсальности расстояния C.37), используемого как для упорядоченных, так и для неупорядоченных разбиений. В случае большого объема исследуемой совокупности (п — велико) и малого числа классов k информация об их упорядочении невелика, в то время как значение функции расстояния может зависеть очень сильно от того, упорядочено разбиение или нет. Например, если S*1) — неупорядоченное разбиение, a S<2> получено из него упорядочением классов, то d (S*1), S<2>) может достигать значения /г/8. Переформулируем понятия «расстояния» и «между» для разбиений 132
в терминах так называемых матриц сопряженности [21]. Пусть сначала разбиения S*1) и S<2> не упорядочены и Sit, = Sjl) fl 5j2). Количество объектов в S\l\ S]2\ Stj будем обозначать соответственно через я* > Я/ \ я*7'. Матрицей сопряженности называется следующая таблица: / a11a12...aua[l> \ / a2la22 ... а2га^ \ \ a<*> a<2> ... a)i2> n / Здесь k и / соответственно число классов в разбиениях S*1) и S<a>. В терминах матрицы сопряженности расстояние d (S<x>, S<a>) выражается следующим образом: d(s«\ s*4J± Г ^ W1)J+ 2 ОТ- 2 ^ <«иН • а отношение «между» описывается следующим образом: разбиение S -{Sl9 ..., SJ находится между SA> ={SA2), ..., S^} и SA> = = {S(i2), ..., S\2)) тогда и только тогда, когда его классы предста- вимы в виде Sr= (J Sw или Sr-= [}Sijy t б / / е j где / — некоторое подмножество множества чисел A, ..., k)9 a J — подмножество множества A, ..., I). Рассмотрим несколько подробнее частный случай т = 2 (согласования двух разбиений). Определим согласованное разбиение в максимальном смысле, т. е. выберем такое допустимое разбиение S ? #, на котором достигает минимума max[d(SA), S), d(S9 SB))] • C.38) В [20] показано, что множество допустимых разбиений, удовлетворяющих C.38), может быть многочисленным и недостаточно компактным, что методологически является довольно справедливым, так как использование столь малой предварительной информации не должно давать возможности сделать сколько-нибудь однозначный вывод. Это означает, что использование только концепции расстояния в общем не достаточно для формирования принципа согласования разбиений. Возможные пути формирования принципа согласованности могут состоять в объединении подхода Эрроу с концепцией расстояния [20].
Глава IV МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ В J настоящей главе мы остановимся на некоторых линейных методах сокращения размерности факторного пространства, т. е. пространства исследуемых признаков. Во многих исследовательских работах исходное число р рассматриваемых, т. е. замеряемых на исследуемых объектах, признаков довольно велико, но тем не менее эти измерения следует обработать и осмыслить. Для наглядности картины, простоты интерпретации и упрощения счета очень часто необходимо представить каждое из наблюдений в виде набора чисел, состоящего из существенно меньшего (чем р) количества признаков. При этом оставшиеся признаки могут либо выбираться из числа исходных, либо определяться по какому-либо правилу по совокупности исходных признаков, например как линейные комбинации последних. При формировании новой системы признаков к последним предъявляются разного рода требования, такие, как наибольшая информативность с точки зрения правильного разбиения наблюдений на классы, взаимная некоррелированность, наименьшее искажение внутренней и внешней геометрической структуры множества исходных наблюдений и т. п. В зависимости от варианта формальной конкретизации этих требований мы будем приходить к тому или иному алгоритму снижения размерности. § 1. МЕТОД ГЛАВНЫХ КОМПОНЕНТ Главные компоненты представляют собой новое множество исследуемых признаков УA), УB>, ..., уь\ каждый из которых получен в результате некоторой линейной комбинации, непосредственно измеренных на объектах, исходных признаков хA), хB), ..., х^К Полученные в результате такого преобразования новые признаки уA), уB), ..., у^р) обладают рядом удобных статистических свойств. В частности они упорядочены по степени рассеяния в изучаемой совокупности объектов; первый признак обладает наибольшей степенью рассеяния, т. е. наибольшей дисперсией. Действительно, во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интере- 134
суют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому. Так, например, при классификации «семей-потребителей» с целью выявления типологии потребления многие из замеряемых по каждой из семей признаков, таких, как душевое потребление хлеба, масла, мыла и некоторых других основных статей, вряд ли будут обнаруживать существенное различие, следовательно, не сыграют почти никакой роли в процедуре обоснованного разбиения совокупности исследуемых семей на различные типы потребителей. С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения одного из двух признаков (размер-рост), являющихся какими-то производными от измерений ряда параметров фигуры. При этом мы, конечно, теряем какую-то долю информации (портной измеряет пять-шесть признаков на своем клиенте!), как бы огрубляя (агрегируя) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводится система, использующая три признака, каждый из которых является некоторой комбинацией от большего числа непосредственно замеряемых на объекте параметров. Для пояснения сущности того линейного преобразования исходной системы признаков, которое приводит к так называемым главным компонентам, рассмотрим его геометрическую интерпретацию на примере двумерной системы наблюдений (jcJ11, х\2)), i = 1, 2, ... п, извлеченной из нормальной генеральной совокупности со средним значением а = (яA), а{2)) и ковариационной матрицей / ol гсх^Х и<1|а>0 >0. Здесь с? и а! — дисперсии компонент, соответственно х{1) и х{2\ г г — коэффициент корреляции между ними. Геометрически это означает, что точки (*}1}, х\2)) будут располагаться примерно в очертаниях эллипсоидов рассеивания вида (см. рис. 4.1 а) -rbr[(^=^-r-»r(^=^)x В этом случае для изучения (х{1\ х{2)) удобно перейти к новым координатам (уш9 у{2)) с помощью преобразования: у<1)=(*<1)_ an))cosa + ('A;B)_aB))sina> r/B)^_(^(l)_a(l))sina + (^Bj_aB))C0Sa> где 135
хЮ с \ /'\ X f / / / ^~ 7 01 / / / t -x(D 136 Рис. 4.1. Эллипс рассеяния исследуемых наблюдений и направление координатных осей главных компонент уМ и г/<2>: а) умеренный разброс точек; б) отсутствие разброса точек в направлении второй главной компоненты (вырожденный случай)
После этого преобразования точки (#A), #B)) также будут распределены нормально, но компонента у<{) уже не будет зависеть от у<2К Кроме того, если выбрать направления так, что D*/*1) ^ D#<2>, то геометрически это будет означать следующее: сначала производится перенос начала координат в точку (аA\ яB))> а затем оси поворачиваются на угол а так, чтобы ось г/*1* шла вдоль главной оси эллипсоида рассеивания (рис. 4.1а). Чем ближе \r | к единице, тем теснее группируются наблюдения около главной оси эллипсоида рассеивания (т. е. около новой оси #A)) и тем менее значащим для исследователя является разброс точек в направлении оси #B>, а следовательно, и сама эта координата. В предельном случае \г\ = 1, исследуемые наблюдения в координатах (*/A), */B),) вообще не отличаются по координате */<2> (см. рис. 4.16). 1. Определение гдавных компонент Будем предполагать, что исследуемые наблюдения Хи Х2, ..., ,... Хп извлечены из некоторой р-мерной генеральной совокупности (т. е. совокупности всех мыслимых наблюдений), определяемой соответствующей вероятностной мерой. Однако для приводимых здесь понятий из всех характеристик исследуемой генеральной совокупности существенное значение имеет лишь ковариационная матрица 2 = (<т^), где ai,=M(jc<')-a<'))(jc</)—а<Л), i, /=1, 2, ..., р. Здесь a,w компоненты вектора а средних значений признаков х^К Поскольку, как легко видеть, элементы а*7- матрицы Е не изменятся при замене признаков xW признаками lew = х^ — с<') (c<*> — произвольные постоянные числа), то будем в дальнейшем считать, что вектор средних значений а = 0, чего всегда можно добиться, рассматривая в качестве исходных признаков л;*1), xW х^ не сами измерения Xv1}> *v2)> ...,^vP) (v = 1, 2, ..., л), а их отклонения от своих выборочных средних значений, т. е. полагая где *«>=~ ±xW. DЛ) п v=l Назовем первой главной компонентой исследуемой генеральной совокупности наблюдений такую нормированную линейную комбинацию р исходных признаков х^),д:<2>, ..., х<р>, у"> = 111хЫ + 112хт+ ... + /1р*(р>=/;х D.2) (здесь /; = (/ц, /i2, ...,/ip), причем 1{г + /22 + ••• + 1\р = 1), которая среди всех прочих нормированных линейных комбинаций хA>, *<2), ..., х^ обладает наибольшей дисперсией. 137
И вообще, i-й главной компонентой исследуемой генеральной совокупности (/ = 2, 3, ..., р) будем называть такую нормированную линейную комбинацию р исходных признаков л;*1*, х&\ ..., х^ yd) = lnx + li2 *<*> +... + /|р *<*> = 1?Х, D.3) которая среди всех прочих линейных нормированных A2ц + /?2 + +... + /Д, = 1) комбинаций, некоррелированных со всеми предшествующими главными компонентами уA\ ..., г/(/-1> (т. е. cov(#<'>, у{1)) = = М (#М #('>) = О для /<0, обладает наибольшей дисперсией. Из определения следует, что, во-первых, главные компоненты #A>, #B>, ..., у№ занумерованы в порядке убывания их дисперсий, т. е. DyW^DyW ^ ... ^D*/M, причем легко подсчитать Dy<<> - М (/ЬЛ)» -М(// XX' /f) - #2 /, D.4) и, во-вторых [2, с. 371], вектор 1и определяющий преобразование пере- хода от**1), я<2>, ..., #<р> кyW является так называемым i-u собственным вектором ковариационной матрицы 2, т. е. его компоненты ltlf р It** ..., 1ц> определяются как нормированное B 12ц = 1) решение си- стемы уравнений (S-^,/)/, = 0f D.5) где Хг — i-й по величине корень уравнения |2-Я/1 = 0. D.6) Под | М | подразумевается определитель матрицы М, под /—так называемая единичная матрица, а под X — неизвестное число [2]. Из сопоставления D.4), D.5) и D.6) вытекает, что Оу@=,Х.. D.7) Таким образом, ковариационная матрица 2 у главных компонент УA)> У{2), •••> У{р) будет иметь вид /К 0 ,0 \о о ,о Опираясь на то, что преобразование //и /12 ... lip г —I 2l 22 "" 2р \ \'pl 'p2 •'• 'Рр с помощью которого осуществляется переход от исходных компонент X к главным компонентам Y (Y = LX), является ортогональным [2], 138
нетрудно выразить исходные переменные х<п, л:B), ..., *<*> через главные компоненты хи)=1иуи) + 1иУ{2) + -+!ргУ(Р) D.9) (в матричной записи X = L'Y), а также показать [2, с. 376], что обобщенная дисперсия |2у| и сумма дисперсий (DyM + D*/<2> + ... + + D#(p>) главных компонент равны обобщенной дисперсии | 2 | и сумме дисперсий (Dx^ + Dx<2) + ... + D*<*>) исходных признаков. Это дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемого пространства. Действительно, анализируя изменение относительной доли дисперсии Я(Р')- Dx{l) + Dx{2) + ...+Dxip) ^1 + ^2+••• + ^p D.10) W 0.9 0,8 0,7 0.5\ 9H =*=^x=-4 A < p' ^ /?), вносимой первыми p' главными компонентами, в зависимости от числа этих компонент, можно разумно определить число компонент, которое целесообразно оставить в рассмотрении. Так, при изменении q (р')> изображенном на рис. 4.2, очевидно целесообразно было бы сократить размерность пространства с р = 10 до р' = 3, так как добавление всех остальных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на 10%. Замечание 1. В реальных задачах точное знание ковариационной матрицы 2 является скорее исключением, чем правилом. Поэтому в тех случаях, когда 2 неизвестна, данное выше определение следует использовать применительно к выборочной ковариационной матрице 2, элементы которойЪц подсчитываются на основании имеющихся у нас наблюдений Xl9 Х2, ..., Хп по формуле 1 2 3 4 5 6 8 9/0 Рис. 4.2. Изменение относительной доли суммарной дисперсии исследуемых признаков, обусловленной первыми рг главными компонентами, в зависимости от р' (случай р-10) D.11) 139
в которой Xv<7) — значение q-й компоненты исследуемого вектора X, замеренное на v-м объекте, х^ — соответствующее центрированное наблюдение, а х№ — среднее значение q-и компоненты по всем обследованным объектам, т. е. *<*> = (*<*> + *<*> + ... +х%)/п. Главные компоненты, вычисленные на основании элементов Оц выборочной матрицы 2, называют обычно выборочными главными компонентами, или главными компонентами выборки, в отличие от главных компонент генеральной совокупности. В тех случаях, когда нам важно будет отличать главные компоненты выборки от главных компонент генеральной совокупности, мы будем снабжать первые (и все их характеристики) «крышками» сверху, например, уО)9 %и jt и т. д. Замечание 2. Использование главных компонент оказывается наиболее естественным и плодотворным в ситуациях, в которых все компоненты л;*1*, х<2), ..., #(р) исследуемого вектора X имеют общую физическую природу и соответственно измерены в одних и тех же единицах. К таким примерам можно отнести исследование структуры бюджета времени индивидуумов (все х^ измеряются в единицах времени), исследование структуры потребления семей (все *(*> измеряются в денежных единицах), исследование общего развития и умственных способностей индивидуумов с помощью специальных тестов (все х<*> измеряются в баллах), разного рода антропологические исследования индивидуумов (все х^ измеряются в единицах меры длины) и т. д. Если же различные признаки я*1*, x<2>, ..., х^ измеряются в различных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях исследователь предварительно переходит к вспомогательным безразмерным признакам x*v\ например, с помощью нормирующего преобразования *М1) = _^- ( 1 = 1> 2—> Р\ D.12) Уон \ v -= 1, 2, ..., п ) где а а соответствует обозначениям формул D.1) и D.11), а затем строит главные компоненты относительно этих вспомогательных признаков X* и их ковариационной матрицы 2Х*, которая, как легко видеть, является одновременно выборочной корреляционной матрицей R исходных наблюдений Xt. Замечание 3. В некоторых задачах оказывается полезным понятие так называемых обобщенных главных компонент, при определе- р нии которых оговаривают более общие (чем 2 /?/ = 1) ограничения на коэффициенты lih т. е. требуют, чтобы ? 2 tij<»kjlik = h k= i /н i 140
где (Dfcj — некоторые дополнительно введенные веса. Очевидно, при cofeJ- = 1 при k = j и cofeJ- = 0 при k Ф \ мы имеем обычное условие нормировки коэффициентов lti и обычные главные компоненты. Можно показать [29], что при такой модификации условий нормировки коэффициенты U = (lilf li2i ..., lip)\ с помощью которых обобщенные главные компоненты у^ выражаются через исходные признаки л;*1*, х<2>, ..., хМ D.1 и 4.2), определяются как решения уравнений B-*iQ)/i = o, где %i — 1-й по величине корень уравнения B-Й2) = 0э D.5') D.6') а матрица Q = (согу), /,/=1,2,...,/?, — некоторая положительно определенная матрица весов. При этом, как и прежде, дисперсия обобщенной главной компоненты у^ равна Ki9 a yW и уМ при 1Ф\ взаимно некоррелированы. Заметим, кстати, что если в качестве матрицы весов выбрать матрицу О Q. '22 О Рр . то, как легко показать, обобщенные компоненты (в метрике Q), построенные по исходным признакам х^\ ..., х&\ совпадут собычны- ми компонентами, построенными по вспомогательным безразмерным (нормированным) признакам я**1), ..., x*w D.12). Проиллюстрируем определение главных компонент на численном примере, заимствованном из [26]. Пример 1. По данным измерений (в мм) длины (хA)), ширины (xW) и высоты (хC>) панциря 24 особей (п = 24) одного из видов черепах по формуле D.11) определена выборочная ковариационная матрица /451,39 271,17 168,70 2 =B71,17 171,73 103,29 \168,70 103,29 66,65 Решая, в соответствии с D.6), кубичное уравнение (относительно X) вида 1451,39—% 271,17 168,70 I ] 271,17 171,73 — К 103,29 -=0, 168,70 103,29 66,65—К\ находим Кх = 680,40, Х2 = 6,50, К3 = 2,86. 141
Подставляя последовательно численные значения Хг, Х2 и Я3 в систему D.5) и решая эти системы относительно неизвестных lt = (liu /ia, hsY (i = 1, 2, 3), получаем / 0,8126 \ / — 0,5454 \ /_0,2054\ 'i = ( 0,4955 J, /. = ( 0,8321 , /8 = 1—0,2491 J. \ 0,3068/ \ 0,1006/ \ 0,9465/ В качестве главных компонент получаем г/(П=0,81л;<1)+0,50д:<2) + 0,ЗЫ3>, уB) = — 0,55*<» + 0,83х<2> +0,Юх<3>, y(Z) = _0,21x(D_0,25jc<2) +0,95хC). Здесь под х<г\ л;<2> и л;<3> подразумеваются в соответствии с D.1 отклонения размеров длины (я?1*), ширины (З2)) и высоты (x<3>) панциря от своих средних значений. Вычисление относительной доли суммарной дисперсии, обусловленной одной, двумя и тремя главными компонентами, в соответствии с формулой D.10) дает я A)=ттгтг=°'9864> q B) = -ЩЬ— =0,9958, ?C)=1. Отсюда можно сделать вывод, что почти вся информация о специфике размеров панциря данного вида черепах содержится в одной лишь первой главной компоненте, которую и естественно использовать при соответствующей классификации исследуемых особей. 2. Экстремальные свойства главных компонент. Их интерпретация а) Свойство наименьшей ошибки «автопрогноза» или наилучшей самовоспроизводимости. Можно показать [27], [29], [28], что с помощью первых р' главных компонент #A), #B), ..., у{р,) (р' < р) исходных признаков х*1), х<2>, ..., х^ достигается наилучший прогноз этих признаков среди всех прогнозов, которые можно построить с помощью р' линейных комбинаций набора из р произвольных признаков. Поясним и уточним сказанное. Пусть мы хотим заменить исходный исследуемый р-мерный вектор наблюдений X на вектор Y = (у^\ */B\ ••-, У{р,)) меньшей размерности /?', в котором каждая из компонент являлась бы линейной комбинацией р исходных (или каких- либо других, вспомогательных) признаков, теряя при этом не слишком много информации. Информативность нового вектора Y зависит от того, в какой степени р' введенных линейных комбинаций дают возможность «реконструировать» р исходных (измеряемых на объектах) при- 142
знаков. Естественно полагать, что ошибка прогноза X по У (обозначим ее б) будет определяться так называемой остаточной дисперсионной матрицей вектора X при вычитании из него наилучшего прогноза по Y, т. е. матрицей А = (А*./), где д„=м {(^-Д ьпу'1)) (*(/)-Д ьпу{1))\ • Здесь 2 ЬцУ{1) — наилучший, в смысле метода наименьших квадра- тов, прогноз л;<*> по компонентам у<!), */<2),..., у(р'\ т. е. б = /(Д), где / (А) — некоторая функция (качества предсказания) от элементов остаточной дисперсионной матрицы А. Рао [29] решал задачу наилучшего прогноза X только в классе р' линейных комбинаций от исходных признаков х^\ ..., л;(р) и рассмотрел естественные меры ошибки прогноза, такие, как / (А) = tr (А) = Ап + Д22 + ... + АРр D.13) и /(A)=|A|| = l/i SA«, D.14) tr (А) и || А | называются соответственно следом и евклидовой нормой матрицы А. Он показал, что функции D.13) и D.14) одновременно достигают минимума тогда и только тогда, когда в качестве yW, y<2\ ..., ,..., #(р'* выбраны первые р' главных компонент вектора X, причем величина ошибки прогноза б явным образом выражается через последние р — р' собственных чисел Яр+1, ..., Хр исходной ковариационной матрицы 2 или через последние р — р' собственных чисел ^р'+ъ •••> ^р выборочной ковариационной матрицы 2,построенной по наблюдениям Х1э Х2, ..., Хп. В частности, при f(A) = tr(A): 6 = V + i + V + 2 + ... + bp; при f(A) = IA||: б = /Я«. + 1+^ + 2 + ... + ^. В работах [27] — [28] эта схема обобщена на случай произвольных предсказывающих признаков z^\z^\ ...,z<^) и более широкого класса функций / (А) и показано, что min / (А) достигается тогда и только тогда, когда в качестве исходных предсказывающих признаков z*1), ..., 2^> берутся сами исследуемые (измеряемые) признаки х^\ х<2\ ..., х<р\ а в качестве р' линейных комбинаций (предикторов) УA), #B\ •••> У{р,) от них выбраны первые р' главных компонент вектора X. При этом величина ошибки прогноза б, как и прежде, определяется лишь р — р' последними собственными значениями Хр>+1, ^р'+2> •••> ^р исходной ковариационной матрицы 2. В эту схему укладывается, в частности, случай / (А) = | А |, в котором, кстати, б = Хр+1 -hp'+z- ... • kp. Поясним идею описания (прогноза) исходных признаков х^\ х&\ ..., х&) с помощью меньшего чем р числа их линейных комбинаций на примере 1. 143
В этом примере, как мы видели, р = 3. Зададимся целью снизить размерность исходного факторного пространства до единицы (р' = 1), т. е. описать все три признака с помощью одной линейной комбинации от них. В соответствии с описанным выше экстремальным свойством «автопрогноза» главных компонент возьмем в качестве этой единственной линейной комбинации первую главную компоненту, т. е. переменную ум =0,81*<1> +0,50*<2> 4-0,ЗЫ3>. Метод наименьших квадратов приводит к следующему правилу вычисления неизвестных коэффициентов Ьц [1, с. 125]. , _ cov(s(/), f/A)) _ °П — ТТТ ~г 0,81 cov (*A), х(/)) + 0,50cov (*B), *(t)) + 0,31 cov (*<3>, x{i)) Подставляя в эту формулу значения cov (х^\ хЩ, взятые из ковариационной матрицы 2 (см. стр. 141), получаем хо> = ЬпуМ+вМ =0,805^<1> +гМР xW = b21yW+sW^0A93yW + sW, *<з> = &810<з> + в<8)=о,31О^1>+в<3>, где е<*> — случайные (остаточные) ошибки прогноза исходных компонент xW = xW —xW по первой главной компоненте yW. Если в качестве относительной ошибки прогноза исходного признака *<*> по первой главной компоненте уМ рассмотреть величину 6* = (De<'VDx<'>)«100%f to несложные подсчеты дают бх = 1%, б2 = 2% и б3 = 4%. Суммарная характеристика относительной ошибки прогноза признаков х^\ л;<3> и я<3> по уМ (в соответствии с вышеописанным) может быть подсчитана по формуле бсум. отн = ЮО°/о —(-^ = 100% ¦ Л Ь'А» _ 0 420/о в б) Свойства наименьшего искажения геометрической структуры исходных точек (наблюдений) при их проектировании в пространство меньшей размерности р\ «натянутое» на р' первых главных компонент. Всякий переход к меньшему числу (/?') новых переменных у^\ ..., ..., у{р'\ осуществляемый с помощью линейного преобразования (матрицы) С = (сц), —i = l, 2, ..., р\ j = 1, 2, ..., р, т. е. у«)-= 3 cuxW (f = l, 2,..., р'), или в матричной записи Y = CX D.15) 144
нам удобнее будет рассматривать теперь как проекцию исследуемых наблюдений Xl9 Х2, ..., Хп из исходного факторного пространства X в некоторое подпространство меньшей размерности Yp>. Геометрическая интерпретация сформулированных выше экстремальных свойств «автопрогноза» (самовоспроизводимости) главных компонент позволяет получить следующие интересные факты. Свойство 1. Сумма квадратов расстояний от исходных точек- наблюдений Хи Х2, ...,ХП до пространства, натянутого на первые р' главных компонент, наименьшая относительно всех других подпространств размерности р\ полученных с помощью произвольного линейного преобразования исходных координат. Это свойство станет понятным (в свете вышеописанного экстремального свойства «автопрогноза»), если напомнить, что сумма квадратов расстояний от исходных точек до подпространства, натянутого на р' первых главных компонент, есть не что иное, как умноженная на п (общее число наблюдений) суммарная дисперсия остаточных компонент (ошибок прогноза) е*1*, е<2), ..., е<р\ следовательно, эта сумма квадратов равна п (V+1 + ЯР'+2 + ... + ?Р). Наглядным пояснением этого свойства может служить рис. 4.1а, на котором ось */<*) соответствует подпространству, натянутому на первую главную компоненту (т. е. р = 2 и р' = 1), а сумма квадратов расстояний до этого подпространства есть сумма перпендикуляров, опущенных из точек, изображающих наблюдения Xt = (х\1\ х\2)), на эту ось (сама ось у^ может быть интерпретирована в данном случае как линия ортогональной регрессии ч*<2> по *<¦>), см. [I.e. 127]. Свойство 2. Среди всех подпространств заданной размерности р' (р' < р), полученных из исследуемого факторного пространства X с помощью произвольного линейного преобразования исходных координат л;*1), х<2>, ..., х(р\ в подпространстве, натянутом на первые р' главных компонент, наименее искажается сумма квадратов расстояний между всевозможными парами рассматриваемых точек-наблюдений. Поясним это свойство. Пусть Yр> (С) — подпространство размерности /?', натянутое на координаты */A), #B), ..., */(р/), получаемые из исходных координат я*1 >, хB), ...9хМ с помощью произвольного линейного преобразования D.15), а Уь ..., Yn — проекции исходных наблюдений Хъ ..., Хп в подпространство Yp> (С), т. е. запись исходных наблюдений в координатах подпространства Y р> (С). Введем в рассмотрение величины Mp=t S (Xt-XtHXt-x,)', Mp> (Q= S 2 <Уг-У3)<Уй-У,)'9 выражающие суммы квадратов расстояний между всевозможными парами имеющихся у нас наблюдений соответственно в исходном пространстве X и в подпространстве Yp> (С). 145
Из простых геометрических соображений очевидно, что всегда МР>(С)^МР при р'<р. Рассматривая в качестве меры искажения суммы квадратов попарных взаимных расстояний между точками-наблюдениями величину МР—МР'(С), можно показать (см. [29]), что Мр-Мр> (LP0 = min {Мр—Мр> (С)} = с = П2 (%p> + i + V + 2 + -. + К)> где Lp> — матрица размера р' X р, строками которой являются первые р' собственных векторов /(, /?, ..., 1Р> исходной ковариационной матрицы 2 (т. е. подпространство Yp» (Lp>) является подпространством, натянутым на первые р* главных компонент вектора наблюдений X). Свойство 3. Среди всех подпространств заданной размерности р' (р' < Р)> полученных из исследуемого факторного пространства X с помощью произвольного линейного преобразования исходных координат jc<!>, ..., #(р), в пространстве, натянутом на первые/?' главных компонент, наименее искажаются расстояния от рассматриваемых точек-наблюдений до их общего «центра тяжести», а также углы между прямыми, соединяющими всевозможные пары точек-наблюдений с их общим «центром тяжести». Поясним это свойство. Рассмотрим матрицу G размера (р X п) «центрированных» наблюдений х\1) = хI) — *<*>. Здесь, как и прежде, Xj=(x)l)f..., х]р)у—исходные наблюдения, а х<1) = (х[1)+х^ +... + +1с{пIп—среднее арифметическое по всем наблюдениям 1-го признака, rX\ Л2 ... Xn y , vB) B) B) у Лр) ЛР) Лр), Введем в рассмотрение матрицу размера (п X п) H=G'G = (hJq)t и Я=\. 2,..., п. Нетрудно установить геометрический смысл элементов этой матрицы: ^=i(^)J=s(^)-p')J- это квадрат расстояния от точки-наблюдения Xj до общего «центра тяжести» X, а 146
величина, пропорциональная косинусу угла между прямыми, соединяющими точки Xq и Xj с центром тяжести X. Если рассмотреть, кроме того, матрицу G (С) наблюдений Yly ..., ...,УП, являющихся проекциями исходных (центрированных) наблюдений Xlf ..., Хп в подпространство Ур> (С) и соответствующую ей матрицу Н (С) = G' (Q-G (С), то оказывается, что ]Я-#(М1 = т1пЦЯ-Я(С)| = с где под || Л || понимается, как обычно, евклидова норма матрицы Л, a LP' соответствует ранее введенным обозначениям. Кстати, из описанного выше следует, что естественной мерой относительного искажения геометрической структуры исходной совокупности наблюдений при их проектировании в пространство меньшей размерности, натянутое на первые р' главных компонент, является величина х(ро-1-?(рЭ---*'+1+-+я,р Ai + А2 + •.. + Лр либо величина Т(Р') л 2 . л 2 . , л 2 М +А2 + ...+Лр При неизвестной истинной ковариационной матрице 2 ее собственные значения Яь ..., Хр следует заменить собственными значениями \, ..., ..., %р выборочной ковариационной матрицы 2 и соответственно снабдить «крышками» сверху характеристики к и у степени искажения геометрической структуры исследуемой совокупности наблюдений. 3. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез Смысл математико-статистических методов, как известно, состоит в том, чтобы по некоторой части исследуемой генеральной совокупности (т. е. по выборке, или, что то же, — по ограниченному ряду наблюдений Хъ Х2, ..., Хп) выносить обоснованные суждения о ее свойствах в целом. Применительно к нашей задаче нас, в первую очередь, будет интересовать, как сильно свойства и характеристики выборочных главных компонент могут отличаться от соответствующих свойств и характеристик главных компонент всей генеральной совокупности, и, в частности, как эта мера отличия зависит от объема выборочной совокупности (я), по которой эти выборочные главные компоненты были построены. Так, например, для изучения природы внутренних связей между характеристиками различных статей семейного бюджета потребления и для 147
выявления небольшого числа наиболее существенных в этом смысле показателей исследователь может обследовать какое-то количество (п) семей и по полученным результатам наблюдения Xl9 Х2, ..., Хп построить главные компоненты у^1\ у&\ ...,у(р'). Однако, увеличивая объем выборки я, т. е. добавляя к нашим наблюдениям результаты наблюдения по дополнительно обследованным семьям, естественно ожидать, что пересчет главных компонент с учетом добавленных наблюдений, вообще говоря, изменит (хотя, быть может, и незначительно) ранее полученные значения интересующих нас характеристик: Ки 1Ь (i = 1,2, ..., р) и т. п. В то же время существует, по-видимому, такое (столь большое) п, дальнейшее увеличение которого уже не будет практически приводить к изменению основных характеристик главных компонент (другими словами, мы вправе ожидать, что главные компоненты выборок достаточно большого объема практически совпадают с главными компонентами всей генеральной совокупности). Выяснению некоторых вопросов, связанных с оценкой близости различных выборочных (yU\ lu Xt) и теоретических (*/(/), /*, Xt) характеристик главных компонент, и посвящен настоящий пункт. При этом, приведенные ниже результаты исследований неизменно опираются на допущение нормальности исследуемой генеральной совокупности и взаимной независимости извлеченных из нее наблюдений. Как и прежде под Хъ Х2у ..., Хп мы будем понимать центрированные наблюдения, которые, строго говоря, даже при независимых исходных наблюдениях уже не будут независимыми. Однако при достаточно больших п мы можем пренебречь этим эффектом нарушения независимости. Таким образом, Xt?N (О, 2), i = 1, 2, ..., п (как следует из предыдущего, вектор средних значений а = Ж X определяет лишь точку в р-мерном пространстве, в которую переносится начало координат при переходе к главным компонентам, и мы с самого начала будем считать этот перенос уже осуществленным). а) Вспомогательные факты, относящиеся к свойствам выборочных характеристик главных компонент [2], [26], [14], [15], [20], [21], [4]. Если все характеристические корни Х1у Х2у ..., Хр ковариационной матрицы 2 различны, что и имеет место в большинстве приложений анализа главных компонент, то справедливо следующее: — характеристические корни \у %2у... Др и соответствующие им собственные векторы 11у /2, ..., /Р выборочной ковариационной матрицы 2 являются оценками максимального правдоподобия для соответствующих теоретических характеристик (соответственно Хъ Я2, ..., Хр и /ь /2, ..., /р) и обладают всеми хорошими свойствами этих оценок (состоятельность, асимптотическая эффективность). Следовательно, выборочные главные компоненты уЮ=%Х (i-=l, 2,..., Р) можно интерпретировать как оценки главных компонент t/(/) всей генеральной совокупности. Если среди характеристических корней Хи Х2у ..., Хр встречаются равные между собой, то оценки максимального 148
правдоподобия для Xt и lt определяются иначе. Аналогичные результаты имеют место и при оценке характеристических корней и соответствующих им собственных векторов корреляционной матрицы; — величины у^ГГ(^-Я;) (* = 1. 2,..., р) асимптотически (по /г -> оо ) нормальны со средним значением 0 и с дисперсией, равной 2 %], и независимы от других выборочных характеристических корней; — вектор YK^ld-li) (i = l, 2,..., р) асимптотически (по п -»- оо ) подчиняется многомерному нормальному распределению с вектором средних значений О и с ковариационной матрицей Заметим, что этот результат имеет место для всякого kt, отличного от всех остальных характеристических корней, каждый из которых может иметь произвольную кратность; — выборочный характеристический корень %t распределен асимптотически (по п ->¦ оо ) независимо от компонент соответствующего ему собственного вектора lt (i = 1, 2, ..., р)\ — ковариация между r-й компонентой выборочного собственного вектора /* и q-ft компонентой выборочного собственного вектора /7- равна (n-l)(kt-Xj)*9 Следующий факт [4] относится к весьма специфической ситуации, характеризуемой так называемым «эффектом большой размерности», когда, несмотря на достаточно большой объем выборки м, поведение выборочных характеристик обнаруживает неожиданные особенности из-за соизмеримо (с п) большого значения размерности р\ при этом для вывода этого факта не требуется нормальности исходных наблюдений; — если компоненты xW вектора наблюдений X взаимно независимы и пронормированы таким образом, что JVLc<*> = 0 и D*<'> = 1, причем существуют все моменты М (*W)V, и если объем выборки п и размерность р одновременно достаточно велики, причем Нт^^. = с @<с<оо), П-*оо И 149
то распределение случайно выбранного из последовательности %l9 Я2, ..., Яр характеристического корня «слабо сходится»1 к некоторому предельному распределению (сосредоточенному на конечном отрезке), моменты которого задаются формулой. V 5vf(A,)v = i-4- S с? у (у—О (у—0 — (у—/+ 0 (v—/+i) (у— /) ' /«1 Ь2.2 ..././•(/+1) (v=l, 2...) так что м?=-1, Ш?=-1 +с, ЛМ3^ 1 + 3с + с2 и т. д. Здесь с — некоторая постоянная величина, причем ()<!?< оо ). Заметим, что примером подобного соотношения между объемом выборки и размерностью может служить задача, описанная в § 1 главы V, в которой п = 74, а р = 32 (так что {pin) = 0,43). В заключение приведем два факта, относящихся к ситуациям, в которых компоненты нормального вектора наблюдений X взаимно независимы: — пусть X ? N(a, 2), гдедовариационная матрица имеет диагональный вид, т. е. cov (xV\ *<'>) = 0 при i Ф j9 i, ] = 1, 2, ..., /?. И пусть \ги\ — определитель выборочной корреляционной матрицы, построенной по наблюдениям (Xlf ..., Хп). Тогда при достаточно больших п (п ->- оо ) статистика критерия отношения правдоподобия для проверки гипотезы о диагональном виде Е может быть определена в виде 7 = — [п ?-i—J In \тц|, а для ее функции распределения справедливо приближенное соотношение {Y<"}«P{x2(-^=^-)<« при относительной ошибке, не превосходящей сотых долей процента; — пусть наблюдения Xj извлечены из так называемой сферической /7-мерной нормальной совокупности N (а, а2У), т. е. компоненты каждого из векторов Xj взаимно независимы и имеют одинаковые дис песий Dx)l\ равные а2. Тогда ковариационная матрица 2 = a2J имеет единственный корень (кратности р), оценкой максимального правдоподобия для которого является величина %~ 2 2 Ф0-?0I. D-!б) *=1/=i причем величина Я/а2 распределена по закону %2 (р (п — 1)). Статистика критерия отношения правдоподобия для проверки гипотезы о сферичности распределения исследуемого вектора наблюде- 1 Последовательность функций Fn (х)9 в частности последовательность функций распределения, называется слабо сходящейся (при л—»оо) к функции F (х), если Fn (x) сходится к функции на множестве ее точек непрерывности. 150
нии имеет вид l*Sl со = - I7"f и при достаточно больших п (л -> оо ) *-{-(.-1-К±^I..<«}-Я{1'(^-1)<.} при относительной ошибке данного приближенного соотношения, не превосходящей сотых долей процента. б) Применения свойств выборочных характеристик главных компонент. Опишем некоторые методы построения разного рода интервальных оценок для интересующих нас неизвестных характеристик главных компонент и статистической проверки гипотез, относящихся к этим характеристикам: — интервальная оценка (доверительный интервал) для f-го характеристического корня A,j. Она получается (при больших п) с учетом асимптотической нормальности статистики |Лг — 1 (кь —А,*). А именно: <**< *' , D.17) 1 + 2 и±]/^т '-"«lj/^t где данное неравенство справедливо с вероятностью 1 — а (величиной а заранее задаемся), а иа — 100•-« %-ная точка стандартного нормаль- "S z ного распределения (находится из таблиц). Возвращаясь к примеру 1, по формуле D.17), находим 95%-ный (а = 0,05) доверительный интервал для наименьшего характеристического корня Xs по его выборочному значению А,3 = 2,86. В этом случае п = 24, и а = 1,96, так что 1,81 < Х3 < 6,78. ~2 Возможно обобщение асимптотического (по п -> оо ) доверительного интервала на случай кратных, т. е. повторяющихся корней. Если г — кратность корня Я*, то 100 A — а) — процентный доверительный интервал для неизвестного значения %t задается неравенством li <*,< *' D.18) где 2 r 2 r ^i — \^i + Л|+1 + ... + ty+r-l)' 151
Однако откуда мы можем знать, что неизвестный характеристический корень Xt имеет кратность и, в частности, кратность, равную г? Этот вопрос может быть решен с помощью следующего критерия, предложенного в [15]; — проверка гипотезы о равенстве нескольких (а именно г) характеристических корней: Xt = Xi+l = ... = Xi+r.v Очевидно, альтернативой к этой гипотезе является утверждение, что не все корни среди ^ь ^«+1» •••> ^i+r-i равны между собой. Оказывается, в предположении справедливости проверяемой гипотезы статистика l + r-l / i+r-l \ Tr = (n_l) 2 lnL + (n~l)r\n[ — 2 %i) D.19) l**i \ г /=* / распределена (асимптотически по п -> оо) по закону %2 с (г (г + 1)/2) — — 1 степенью свободы. Поэтому гипотеза Xt = Xi+X = ... = Xi+r_t отвергается (с вероятностью ошибиться, равной а), если Vr>x. (d^»_,), где Ха(#0 — 100 а%-ная точка %2-распределения с т степенями свободы. Заметим, что особый интерес может представить специальный случай i = р —г + 1, т. е. проверка гипотезы о равенстве последних г собственных значений X, что будет означать независимость и сферичность г последних признаков исследуемого вектора наблюдений. Возвратимся к примеру 1. Тот факт, что оценка второго собственного значения (Х2 = 6,50) попадает в доверительный интервал для Х3 (см. выше), приводит нас к мысли, что, возможно, Х2 = Хв. Проверим эту гипотезу. В нашем случае п = 24, р = 3, i = 2, г = 2, так что у2^ — 23(ln6,50 + ln2,86)+46ln6'50 + 2>86 = 3,70. А поскольку 5Со,о5 B) = 5,99 и, следовательно, Y2<X0,05B), то гипотезу Х2 = Х3 следует принять. Но тогда нужно пересчитать доверительный интервал для Х2 с учетом его кратности (в соответствии с D.18)). Несложные подсчеты (при а = 0,05 и, соответственно, иа = и0г025 = 1,96) дают: 2,62 < Х2 ^ 6,21, ~2 где последнее неравенство будет справедливо в среднем в 95 случаях из 100; — проверка гипотезы о независимости признаков л:*1*, х&\ ..., х^9 являющихся компонентами вектора наблюдений X. Такая проверка нужна для установления целесообразности применения метода главных компонент: ведь, если признаки являются взаимно независимыми, то переход к главным компонентам сведется по существу лишь к упорядочиванию исходных признаков по принципу убывания их дисперсий. 152
Воспользуемся статистикой критерия отношения правдоподобия для проверки гипотезы о диагональном виде ковариационной матрицы с целью проверки независимости компонент вектора наблюдений в следующем примере. Пример 2 [2]. Исследовалось время, затрачиваемое работниками швейной фабрики на выполнение различных элементов операции глаженья одежды. Операцию глаженья можно разделить на следующие шесть элементов: 1) одежда размещается на гладильной доске (л:*1*); 2) разглаживаются короткие швы (%<2)); 3) одежда перекладывается на гладильной доске (я<3>); 4) разглаживаются длинные швы на три четверти (#<4>); 5) разглаживаются остатки длинных швов (#<5>); 6) одежду вешают на вешалку (л;F>). В этом случае Xv представляет собой вектор измерения над v-m индивидуумом. Компонента #<<> —это время, затраченное на выполнение i-ro элемента операции, п = 76. Данные (время в секундах) обработаны, получены выборочные вектор среднего значения и ковариационная матрица / 9'47\ / 25,56 \ - / 13,25 1 flr=l 31,44 1 \ 27,29 / \ 8,70 / /2,57 0,85 1,56 1,79 / 0,85 37,00 3,34 13,47 2- 1,56 3,34 8,44 5,77 1,33 0,421 7,59 0,52 \ 2,00 0,50 1 . \ 1,79 13,47 5,77 34,01 10,50 1,77 / \ 1,33 7,59 2,00 10,50 23,01 3,43/ Выборочные стандартные отклонения равны A,604; 6,041; 2,903; 5,832; 4,798; 2,141). Выборочная корреляционная матрица R = (гу) имеет вид: /1,000 0,088 0,334 0,191 0,173 0,123 \ /0,088 1,000 0,186 0,383 „ J 0,334 0,186 1,000 0,343 R=s\ 0,191 0,384 0,343 1,000 \ 0,173 0,262 0,144 0,375 \0,123 0,040 0,080 0,142 0,262 0,040 1 0,144 0,080 1 0,375 0,142 1 1,000 0,334 / 0,334 1,000/ " Для исследователей представляет интерес проверка гипотезы о взаимной независимости шести случайных величин. Часто при изучении 153
затрат времени предлагается новая операция, в которой элементы комбинируются иным способом. В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выброшены. Если оказываются независимыми величины, обозначающие время, затрачиваемое на различные элементы операции, то естественно считать, что и в новой операции они останутся независимыми. Тогда распределение затрат времени на новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями, вычисленными для остальных элементов. Кроме того, нас интересует возможность выделения небольшого количества вспомогательных признаков (двух-трех), с помощью которых мы могли бы производить некоторую содержательную классификацию исследуемых работников (в том или ином смысле). В этой задаче отношение правдоподобия V равно | R \ = 0,472. Так как объем выборки велик, то можно пользоваться теори ей асимптотических разложений. В нашем случае у = — [п ^i—J In | R | = — ^- In 0,472= = 54,1, а р (р — 1)/2 = 15. Задавшись уровнем значимости критерия а = 0,01 (вероятность ошибочно отвергнуть проверяемую гипотезу), находим (из таблиц) величину 1%-ной точки ^распределения с 15 степенями свободы: Xo,oi A5) = 30,6. Поскольку у> 5Co,oi A5), то гипотезу следует отвергнуть, т. е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать независимыми; — статистическая проверка некоторых предположений (гипотез) относительно собственных векторов lt ковариационной матрицы исследуемых признаков (i — 1,2,..., р). Пусть у нас есть основания предполагать, что «нагрузки» всех признаков на первую главную компоненту равны между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е. / _/ _ _/ _ 1 *11 — П2 " ••• — 11Р — ,_ > V Р или, напротив, что некоторые из признаков, скажем х^—1) и х^\ вообще не влияют на первую главную компоненту (т. е. l\(P—i) = l±P = = 0), в то время как остальные р — 2 признака влияют на нее симметрично, т. е. /п = /12 = ... = /i<p_2) = ,/—^ и т. д. у р—2 Для решения подобных вопросов можно использовать статистический критерий равенства i-ro собственного вектора неизвестной ковариационной матрицы некоторому заранее заданному вектору lt. В [151 показано, что гипотеза lt — lt должна быть отвергнута (с вероятностью ошибиться, т. е. с уровнем значимости критерия, приблизительно равной а), если окажется, что у<°>=(л—1) 154 x?(p-i)>
где подразумевается, что характеристический корень Xit оценка которого %i участвует в выражении для критической статистики, имеет кратность, равную единице, а все остальные величины соответствуют ранее введенным обозначениям; — проверка гипотезы о равнокоррелированности всех р исходных признаков, т. е. гипотезы Гц = г°, где гь/— парный коэффициент корреляции между признаком xW и признаком л;*'') [26]. Эта гипотеза означает, что последние р — 1 характеристических корней корреляционной матрицы равны между собой. Кроме того, постулируемый здесь специальный вид корреляционной матрицы допускает простые явные выражения в виде решений соответствующих характеристических уравнений (Я2 = 1 + (р — 1)_г°, К2 = ... = А,р =1 — г°, уЫ = = (*<*>+ Ж*) + ... + *<*>)/]/> и т. д. [26, с. 244]. Оказывается, гипотезу ги = г° следует отвергнуть (с вероятностью ошибиться, приблизительно равной ос), если ^-^[,|,(^-)--.||1(?.-ч']>й(ишг=э). v ' L(/</) J где Гц — выборочные парные коэффициенты корреляции между *<*> и х^\ подсчитанные по наблюдениям Хъ Х2, ..., Xnt a 1 ^ - р 2 v=l Р у p(p-i) ,*-, а ф I) и> с_ (р—1)»B—7)Р р-(р-2)A-г)а ' Кстати, в нашем примере 1 корреляционная матрица /1,0000 0,9740 0,972б\ ?=0,9740 1,0000 0,9655 \0,9726 0,9655 1,0000/ Несложные подсчеты дают: гх-=0,9733, г2 = 0,9698, г3 = 0,9691, г = 0,9707, так что в конечном счете Б0о) = 0,825. Задавшись уровнем значимости а = 0,05^ и отыскав по таблицам Хо,о5 B) = 5,99, приходим к выводу, что гипотеза о равнокоррелированности всех трех исходных признаков может быть признана непро- тиворечащей имеющимся у нас результатам наблюдения, 155
4. Главные компоненты в задачах классификации а) Общие идеи использования главных компонент в задачах классификации. Дуализм в постановке задачи. Очевидно, возможность геометрической интерпретации и возможность наглядного представления исследуемых наблюдений Х[ = (х\г\ ... , х\р)) A=1,2, ... , п) существенно облегчает решение задач по их классификации, и в частности проведение таких этапов, как предварительный анализ классифици- J •13 •12 •IS i •18 •# « •33 •40*37 •21 •25 •39^31 • 32 >16 •17 №•9 m w60 '43 X . •51 •54 •57 •56*51 *59 •49WSS •ЗЗ •52 Рис. 4.3. Расположение проекций 18-мерных наблюдений на плоскость первых двух главных компонент у{1), у{2) руемых наблюдений, выбор метрики, выбор начальных приближений для неизвестного числа классов k, для системы эталонных множеств Е, наконец, для самого искомого разбиения S. Так, например, одного взгляда на рис. 4.3, на котором изображены проекции тридцати одного (п = 31) восемнадцатимерного наблюдения (р = 18) на плоскость первых двух главных компонент (построенных по исходным 18признакам х^\ #<2>,..., #<18>), достаточно, чтобы обнаружить четкое распадение исследуемой совокупности наблюдений на 3 класса1. 1 Данные заимствованы из работы [3]. В ней, в частности, исследовалась возможность разбиения испытываемых экземпляров растений (помидоров) в пространстве признаков, характеризующих различные процессы роста растений, на однородные группы. Эти группы должны были выявить, в конечном счете, на- 156
А попробовал бы исследователь уловить это распадение непосредственно в исходном восемнадцатимерном пространстве X! Источником нашего оптимизма в отношении результатов использования такого проектирования исследуемых многомерных наблюдений на плоскость являются, как легко сообразить, геометрические экстремальные свойства главных компонент, в частности вышеупомянутые свойства 1 — 3, в соответствии с которыми проектирование исходной совокупности наблюдений в пространство меньшей размерности, «натянутое» на р' первых главных компонент (р' < /?), наименее искажает ее геометрическую конфигурацию. Перед тем как перейти к некоторым конкретным примерам применения главных компонент в задачах классификации обратим внимание читателя на возможную двойственность (дуализм) в интерпретации многомерного наблюдения XI = (х\1\х\2\ ..., х\р)) вообще, и в постановке задачи при эксплуатации метода главных компонент в частности- Действительно, если в матрице наблюдений (Xl9 Х29..., Хп) = го> У(П : : y(i) v<2) Y<2) : : v<2) i л 1 л2 . . "п рассматривать в качестве наблюдения столбцы Xit то классифицируемыми объектами (в количестве п штук) будут объекты, на каждом из которых было замерено по р признаков х<1\ я<2>, ..., *<?>, так или иначе характеризующих его состояние. Если же в качестве «наблюдения» рассматривать строки Х%' = (х&\ х^\ ..., х^) этой матрицы, то классифицируемыми объектами будут уже сами признаки (в количестве р штук), рассматриваемые, соответственно, в n-мерном пространстве X*. Очевидно, задачи классификации в одном (X) и в другом (X*) пространстве преследуют совершенно разные цели. Относительно целей классификации в пространстве X мы уже говорили. Что же касается классификации в пространстве X* (т. е. классификации самих признаков) то наличие небольшого (сравнительно с р) числа однородных групп признаков позволяет сделать вывод о близости (коррелированное™, взаимном дублировании) признаков, входящих в одну группу, и, в конечном счете, существенно снизить размерность исходного факторного личие трудноулавливаемых различий в исходных условиях выращивания (при постановке эксперимента эти условия предполагались, — и как выяснилось, необоснованно! — одинаковыми для всех растений). Кстати, при исследовании было обнаружено, что первые две главные компоненты у^ и #B) содержат 80% от общей суммарной дисперсии всех 18 исходных признаков. При этом первую главную компоненту (у^) удалось интерпретировать как характеристику общего состояния растения, в то время как вторая главная компонента (#*2)) характеризовала процесс фотосинтеза. 157
пространства X, оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы. Замечаниео необходимости нормировки в пространстве X*. Классифицируя признаки, необходимо помнить, что два признака Х$ и Х% естественно считать близкими не только в случае сравнительной малости расстояния р (Х$, Х*т) (евклидовою типа) между ними, но и в случае их достаточно простой взаимной зависимости, например Х% — сХт, где с — некоторый скалярный множитель. Для того чтобы это оказалось учтенным при проектировании «наблюдений» X*, Х5, ..., ..., Хр в пространство меньшей размерности с помощью метода главных компонент, необходимо предварительно (до применения метода) соответствующим образом пронормировать исходные данные в пространстве X*, например, переходя к «наблюдениям» **=И (v=-l,2,...,p), где x{v) -= I 2 *!v))/tt—среднее арифметическое v-ro признака, подсчитанное по п исходным наблюдениям. И, наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходимой нормировки иногда еще дополнительно центрируют рассматриваемые наблюдения Х$, т. е. переходят, в конечном счете, к наблюдениям Х~* V* *У* V — Ay A-y> где X* — среднее арифметическое (центр тяжести) наблюдений Х\, Л2, ... , Ар. В дальнейшем мы, как правило, будем предполагать вспомогательные операции нормировки и центрирования в пространстве X* выполненными, но в целях упрощения обозначений, будем опускать две верхние волнистые черточки при записи соответствующих пронормированных и процентрированных наблюдений. б) Применение главных компонент при анализе структуры семейного потребления. В процессе исследований по проблеме «Типология потребителей и потребления» нами решалась следующая частная задача. Объект исследований — семья. Набор измеряемых на каждом «объекте» признаков — удельные характеристики потребления (в расчете на одного члена семьи в единицу времени) по различным статьям расходов (табл. 4.1), — всего в количестве 31 штуки (р = 31I. На первом этапе исследований была отобрана так называемая «контрольная» выборка семей небольшого объема (п = 106). 1 Постановка задачи обсуждалась и принималась совместно с Н. М. Рима- шевской. Подбор и оформление исходных данных этого примера, их содержательный анализ был проведен Л. А. Левковой. В вычислительной части работы принимал участие П. Ф. Андрукович. 158
Таблица 4.1 Признак *<*> жB) *<3> хш Х(Ь) д;<6) хA) х(8) ха» ХП0) *<11) ХI2) *<13> *<14> *<1б) *A6) хA1) хA$) *<!*» Содержание признака Сумма затрачиваемая на (в руб., в удельном исчислении) ткани готовую одежду (без меховой) меховую одежду трикотаж обувь книги, газеты музыкальные инструменты спорт мебель предметы домашнего обихода хлебобулочные изделия овощи мясные продукты рыбные продукты молочные продукты жиры яйца сахар кондитерские изделия Признак *<20> хB1) *<22> *<23> Я<24) д;Bб) Я<26) Х<27> *<28) *<29) дC0) дЧЗ!) 1 Содержание признака Сумма, затрачиваемая на (в руб., в удельном исчислении) общественное питание (включая расходы временно выехавших членов семьи) культурно-просветительные мероприятия транспорт услуги почты и телеграфа жилищно-коммунальные расходы продукты растительного происхождения продукты животного происхождения услуги (включая хB1) и хB4), плюс бытовые и т. п.) общественное питание (исключая расходы временно выехавших членов семьи) все продовольственные товары алкогольные напитки все промышленные товары Результаты проектирования тридцати одного 106-мерного наблюдения X*' = DV), *<v)> -. *№б)> v = lf 2, ..., 31 — на плоскость первых двух главных компонент (у*, у%) представлены на рис. 4.4. Читатель, по-видимому, согласится с нами, что если разбить исследуемые признаки на пять условных классов так, как это сделано на рис. 4.4, то это даст пищу для достаточно естественного содержательного анализа взаимосвязей, существующих между исследуемыми признаками (лишь «расходы на кондитерские изделия» *<19> дали, вряд ли поддающиеся содержательной интерпретации результаты проектирования: они оказались почему-то в классе, объединяющем в себе расходы на услуги и на наиболее необходимые промышленные товары). в) Применение главных компонент при анализе производительности труда рабочих^ Различные показатели производительности труда Z' = (z(I), z<2\-..., z<m>) характеризуют, как известно, отношение реально произведенной продукции к затратам труда на ее производство. Задача изучения зависимости показателей производительности труда от набора регулируемых (и нерегулируемых) признаков X' = = (л;*1),^2), ..., *(?)), характеризующих технический и организационный уровень производства, личные качества рабочих, социаль- 159
но-демографические условия их жизни, постоянно (и правомерно) привлекает к себе пристальное внимание исследователей. Однако среди различных возможных подходов к решению этой задачи мы бы выделили следующие две схемы исследования. 1 /.17 f .15 1 у /~ Л /1 ' / / /23 { 1 1 - \*21 / \ уГ •16 •18 9 13 • 12 \ • 2 \ •5 1 22*47 •«?/ ' •4 / ^ У •26 X \ •29 ) • 25 ] / у; Рис. 4.4. Расположение проекций 106-мерных наблюдений (из двойственного пространства X*) на плоскость первых двух главных компонент (у*, у I ). Исследование взаимосвязей между признаками, характеризующими структуру и объем семейного потребления Схема 1. 1) Разбиение исследуемой совокупности рабочих на однородные группы в пространстве объединенных признаков (Х\ Z'), например, с помощью главных компонент, построенных по набору признаков Я*1*, *<*>, ...,*</», ZA), ...,Z<">. 2) Статистическое исследование зависимостей типа Z = ft (X), произведенное отдельно внутри каждой однородной группы, выявленной на первом этапе (i — номер группы, внутри которой анализируется искомая зависимость). 160
Схема 2. 1) Разбиение исследуемой совокупности рабочих на однородные группы в пространстве признаков-аргументов X, например, с помощью главных компонент, построенных по набору признаков я*1*, х<2>, ..., х^К 2) Расщепление вектора признаков-аргументов X' = (х^{\х^2\ ..., ..., *<">) на два подвектора: подвектор X*1*' = (х<1\ л:<2>, ..., х^) признаков (как правило, труднорегулируемых), описывающих технический и организационный уровень производства (q < p), и подвектор ХB)' = (x^+D, х^+2\ ..., хМ) признаков (регулируемых), описывающих социально-демографические условия труда. Затем разбиение исследуемой совокупности рабочих на однородные группы S{{), 5^>, ..., Sk\}B подпространстве X*1* «нерегулируемых» признаков, а также на однородные группы 5[2\ S?2), ..., S^} в подпространстве Х<2> «регулируемых» признаков. 3) Статистическое исследование зависимостей типа Z = /(.,(XB,|X(.)€S(.,) (/=1J ^ и Z = /!2)(X(,)|XBNSn (/ = 1,2,..., ft,), произведенное отдельно внутри каждой однородной группы подпространства Х<]> (при аргументах Х<2>) и подпространства Х<2> (при аргументах Х<!>). Здесь означает, векторную функцию от (р— q) переменных *<H-Uf х(ч+2\ ..., *<?), описывающую зависимость Z от Х<2> при условии, что значения «нерегулируемых» аргументов х({\ *<2>, ..., х^ принадлежат области SI}. Аналогично определяется векторная функция //2>. Ниже приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам (п = 100) льнокомбината «Красная текстильщица» г. Нерехта Костромской области, составляющим более 80% всей численности ткачих комбината1. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 в вышеописанных схемах исследования. Обозначение и содержание восемнадцати исследуемых признаков (р = 18) приведены в табл. 4.2. Расщепление вектора признаков-аргументов X на два подвектора носит, очевидно, условный характер и зависит как от конкретных условий производства, так и от конкретных целей исследования. В нашем случае в подвектор ХA) были включены первые 9 компонент вектора X. Учитывая разнородный физический смысл единиц измерения исследуемых восемнадцати признаков, до применения метода главных компонент все эти признаки были пронормированы с помощью своих 1 Данные заимствованы из [4], а также из работы П. Ф. Андруковича, М. В. Друцкой, К. С. Кузнецовой, А. А. Назарова «Применение метода главных компонент для анализа производительности труда рабочих». —Сб.: Проблемы уровня жизни. М., ЦЭМИ АН СССР, 1972. 6 Зак. 358 161
Таблица 4.2 Признак Содержание признака Признак Содержание признака Показатели эффективности труда: условно-натуральный показатель часовой выработки рабочего (в метро- уточинах) выполнение нормы-выработки (в процентах) заработная плата (в руб.) Z<2> 2C) Показатели состояния и степени использования оборудования: хA) 1 производительность ткацкого станка (в метро- уточин в час) скорость ткацкого станка (ударов в мин.) ширина суровой ткани (метров) простой оборудования (в процентах) межремонтный цикл (месяцев) *<2> Ассортимент вырабатываемой продукции (в качестве сырья): д:F) I номер уточной пряжи *G) | число обрывов нитей основы на 1000 м одиночной нити сортность ткани К<8> Показатели специализации рабочих мест: *(9) | количество артикулов, вырабатываемых на рабочем месте Показатели социально-демографических условий: *A0> | трудовой стаж по специальности (лет) возраст (лет) образование (классов) число несовершеннолетних детей в семье среднедушевой доход семьи (руб.) среднедушевой размер жилой площади (кв. м) *<12) *<14> хнь) выборочных среднеквадратических отклонений s, т. е. был осуществлен переход к новым (безразмерным) признакам ,<*>. 7@ где ;<«>. ~т <-—*- г — Sz(» Г( ) х х X = SxU) 1 п — V 2U) п 2 Zm> т— 1 (*=1, 2, (/-1, 2, п 3), • ¦ • » п V т=\ 15), d su — У (ит — иJ (и = г<я или и = *</>), п т~ 1 Проекция исследуемых ста (п = 100) восемнадцатимерных (р = 18) наблюдений на плоскость первых двух главных компонент #(l> (X, Z) и #B) (X, Z), построенных по всем рассматриваемым признакам, представлена на рис. 4.5. Анализ нагрузок исходных признаков на первые две главные компоненты так же, как и тщательное рассмотрение рис. 4.5, позволяет интерпретировать первую главную компоненту у^ как агрегирован- 162
ную характеристику эффективности и организационно-технических условий труда ткачих, тогда как вторая компонента #<2> характеризует различия между ткачихами, связанные с социально-демографическими и, в первую очередь, с возрастными особенностями (на первые две компоненты, как выяснилось, приходится 63,1% общей суммарной дисперсии признаков). Действительно, вверху по оси yW резко выделяется группа молодежи. Ниже оси yW расположена основная масса ткачих среднего и старшего возрастов. ^ о о дк о0° I*) • ,(') ¦•. Возрос тной признак: л до 25лет о 25-40 лет о свыше АО лет Рис. 4.5. Результаты исследования типологических групп рабочих, имеющих сходные производственные и социальные условия Производительность труда- ¦ низкая I средняя Ш высокая Ось уA) в свою очередь делит каждую из этих групп на отдельные подгруппы в зависимости от производственных условий и уровня выработки. Как среди молодежи, так и среди работниц старших возрастов слева выделяются ткачихи, находящиеся в более сложных условиях и имеющие низкую выработку (затушеванные геометрические фигуры). Но если среди ткачих старших возрастов работницы с низкой выработкой составляют всего 14%, то среди молодежи их более 30%. Таким образом, примерно треть молодежи имеет низкую выработку. Это связано с тем, что молодые ткачихи работают в более сложных производственных условиях. В то же время основная группа молодежи D5%), которая поставлена в более благоприятные производственные условия, имеет высокую выработку. В первой же группе только 19% ткачих старших возрастов имеют высокую выработку. На рис. 4.6 представлено расположение тех же ста наблюдений {ткачих) в плоскости первых двух главных компонент */<!> (X*1)) и 6* 163
< • ^ Ф 4 • < • 4 Ф • 4 • • < Ф Ф 1 • • • • J • » Ф Ф Ф • • • » • • » • » Ф Ф ' » Ф Ф 1 л Ф • • • • • > • Ф > • • • • • • > • • • • • • О Ф Ф • vflt • ф • • • фф ф ффффф ф ф ф ф ф ф • _ф_ф—ф ф • • • ф ф * -ффф ффффф** ф ф ф к ф ф ффф ф ' ф ф ф ффф ффф ф ф ф • • ф ф ,(') Рис. 4.6. Исследование типологических групп рабочих, имеющих сходные условия о-рганизационной и технической оснащенности производства: а) расположение проекций 9-мерных наблюдений Х{^ (t=l, 2, ..., 100) на плоскость первых двух главных компонент t/A) (ХМ), yW (Ж1)); б) расположение проекций шестимерных наблюдений Х\2) (t=l, 2, ..., 100) на плоскость первых двух главных компонент уМ (XW), t/<2) (XW) 164
уB)(Х(П)) построенных по подвектору признаков X<D (рис. 46, а), и в плоскости первых двух компонент г/<!> (Х<2>) и #<2> (Х<2)), построенных по подвектору социально-демографических признаков Х<2) (рис. 4.66). На обоих рисунках обозначено весьма четкое разделение исследуемых наблюдений на группы. Остановимся несколько подробнее на анализе рис. 4.66. Мы видим, по первой главной компоненте ^(^(Х*2)) вся совокупность наблюдений делится на две группы, одна из которых B1 человек), как выяснилось, молодежь со стажем <! 5 лет, характеризующаяся чрезвычайно близкими значениями всех семи социально- демографических показателей — возраст, количество детей и т. д. Вторая группа — ткачихи с большим стажем работы, гораздо более сильно отличающиеся друг от друга по значениям признаков хМ A = 10, И, ..., 15). Сами компоненты у({) (Х<2>) и yW (X<2>) имеют довольно естественную интерпретацию. Первая главная компонента у<1> имеет большие нагрузки для признаков, характеризующих возраст, стаж (общий и на данном предприятии) и количество детей, а также образование ткачихи. Последний признак имеет знак, противоположный знаку первых четырех из упомянутых выше признаков, вследствие того, что средний уровень образования возрос за последнее время, и поэтому ткачихи старших возрастов имеют преимущественно 8-классное образование, а недавно поступившие на работу ткачихи — в среднем 10-классное образование. Вторая главная компонента #<2> дифференцирует ткачих по материально-жилищным условиям, которые зависят в основном от числа нетрудоспособных членов семьи, в данном случае — от числа детей, так как сравнительно большие нагрузки на эту компоненту имеют признаки х<13), x<14) и %A5>. Из распределения ткачих на плоскости этих двух компонент видно, что на второй компоненте существенные отличия наблюдаются только среди ткачих старших возрастов, в то время как молодые ткачихи близки друг к другу по этой характеристике. Это расположение является естественным следствием более разнообразных жизненных условий, в которых живут ткачихи старших возрастов, по сравнению с молодежью, потому что большинство молодых ткачих живет в общежитии, не имеет еще семьи и детей. Заметим в заключение, что весьма интересный пример применения главных компонент, в прямой и двойственной постановках задачи, связанный со статистической обработкой экспертных оценок, применительно к задаче классификации картин абстрактной живописи, читатель найдет в [17]. § 2. ФАКТОРНЫЙ АНАЛИЗ Предпосылкой для появления метода факторного анализа можно, по-видимому, считать естественное желание связать корреляцию между р наблюдаемыми признаками xA), ..., х(р) с тем фактом, что эти переменные зависят (линейно или нет) от меньшего числа других, непосредственно неизмеряемых («скрытых») переменных у^х\ ..., yW* 165
(pr <p), которые в дальнейшем стали называть общими1 факторами и которые чаще всего удобнее конструировать так, чтобы они оказались взаимно некоррелированными. Поскольку в общем случае нельзя считать, что каждый из наблюдаемых признаков зависит лишь от р' каких-то (одних и тех же для всех признаков) общих факторов, то постулируется, что исходный (наблюдаемый) признак х(/> зависит также от некоторой «специфической» (для себя) остаточной (или «шумовой») случайной компоненты uW. В литературе по факторному анализу иногда не указывается конечная цель исследования, которая по существу заключается в максимальном уменьшении числа ненаблюдаемых общих факторов с одновременной минимизацией зависимости *(/) от своих специфических факторов-компонент и<«>; эта цель может быть достигнута лишь приближенно. В некотором смысле общие факторы можно считать причинами, а наблюдаемые (измеряемые на объектах) признаки—следствиями. Принято считать научное исследование такого рода успешным, если большое число следствий удалось объяснить малым числом причин. Другими словами, факторный анализ можно рассматривать как метод сжатия информации или, что то же, как метод снижения размерности исходного факторного пространства X, поскольку корреляция между исследуемыми признаками означает их избыточность, а сведение многих избыточных признаков к немногим вспомогательным признакам (общим факторам), свободным от избыточности, и является задачей сжатия информации (снижения размерности). Следует признать, что в силу ряда исторических причин и, в частности, из-за субъективных пристрастий и специфических интересов многочисленных исследователей, работавших в этой области, собственно вероятностно-статистические аспекты этого важного раздела многомерного статистического анализа, каковым, по нашему мнению, является факторный анализ, долгое время были преданы некоторому забвению, а интерпретации и анализу различных факторных моделей была присуща некоторая неопределенность. Однако в последнее двадцатилетие появился ряд интересных именно вероятностно-статистических исследований этого метода [16], [30], [18], среди которых работу Андер,- сона и Рубина [16] можно выделить как основополагающую. Мы кратко остановимся здесь лишь на линейных моделях факторного анализа, причем, так же как и в предыдущем параграфе, посвященном главным компонентам, оставим в стороне вычислительные аспекты метода [9], [22]. При разработке моделей факторного анализа исследователю приходится последовательно решать следующие вопросы: — существования модели, заключающийся в том, что далеко не для всякого набора признаков X' = (х<1\ ..., х(р)) можно (при заданном р' <С р) построить модель факторного анализа, т. е. указать такие об- 1 Распространенный в литературе перевод «соттеп factor» как простой фактор, а не общий фактор, не несет в себе главной смысловой нагрузки этого термина: ведь смысл каждой из переменных в том, что она является общей для всех исходных признаков х^1\ ..., х^рК 166
щие факторы */A), ..., #(р/) (или доказать их существование), которые полностью объяснили бы существующую корреляцию между различными парами л;(/> и х^К При каком характере связей между исходными признаками х^1\ ..., х^р\ т. е. при каких корреляционных (ковариационных) матрицах R = (rtj) B = (а^)), а также при каком соотношении между числом наблюдаемых признаков р и числом скрытых общих факторов р' ( < р) сделанное допущение о наличии определенных связей между х^ (i = 1, 2, ..., р), с одной стороны, и уМ (/ = 1, 2, ..., р') — с другой, является обоснованным и содержательным? — в этом и заключается вопрос существования модели; — единственности (идентификации) модели. Оказывается, что если р, 2 и р' таковы, что допускают построение модели факторного анализа, то определение соответствующих факторов У = (#A), ..., У{р,)) и коэффициентов линейного преобразования Q = (qij), связывающего X и Y, не единственно. Спрашивается, при каких дополнительных ограничениях на матрицу преобразования Q и на ковариационную матрицу V = (vtj) остаточных специфических факторов uU\ ..., u{p> определение параметров искомой модели факторного анализа будет единственным? — алгоритмического определения структурных параметров модели: при заданной ковариационной матрице 2 исходных признаков и известном числе общих факторов р' (и в предположении, что решение задачи определения структурных параметров Q и V существует) как конкретно вычислить неизвестные параметры модели? — статического оценивания (по наблюдениям Хи Х2, ..., Хп и при заданном р') неизвестных структурных параметров модели; — статистической проверки ряда гипотез, связанных с природой модели и значениями ее структурных параметров, таких, как гипотеза об истинном числе р' общих факторов, гипотеза адекватности принятой модели по отношению к имеющимся результатам наблюдения, гипотеза о значимом отличии от нуля интересующих нас коэффициентов qt1 линейного преобразования и т. п.; — построения статистических оценок для ненаблюдаемых значений общих факторов у<1\ ..., у(р,). Кроме сформулированных выше вопросов, которых мы в той или иной мере коснемся в нашем изложении, мы затронем здесь вопросы соотношения моделей факторного анализа с моделями главных компонент и регрессии, а также некоторых направлений их модификации и использования. 1. Модель факторного анализа, ее интерпретация Как и в предыдущем параграфе, будем для удобства полагать исследуемые наблюдения Xl9 X2, ..., Хп центрированными. Переход от исходных наблюдений Хъ Х2, ..., Хп к центрированным осуществляется с помощью простого переноса начала координат в «центр тяжести» исходного множества наблюдений, т. е. *<4*> = х<*> — х^\ i = A,2, ..., л). 167
D.20) Тогда описанная выше линейная модель факторного анализа формализуется с помощью соотношений X-.= QY+U, или в покомпонентной записи, *(/,= 2 ЯиуМ + иМ (/-1, ...,р). Здесь Q = (qu) — прямоугольная матрица размера р X р' коэффициентов линейного преобразования (нагрузок общих факторов на исследуемые признаки), связывающего исследуемые признаки х^ с ненаблюдаемыми (скрытыми) общими факторами уA\ ..., #<*'>, а вектор-столбец U = (и<1\ ..., и<р'>) определяет ту часть исследуемых признаков, которая не может быть объяснена общими факторами, в том числе uW включает в себя, как правило, ошибки измерения признака xW. Применительно к каждому конкретному наблюдению Xv (v = 1, 2, ..., п) соотношение D.20) дает XV-=QYV+UV или в покомпонентной записи X' <0_ V п .„</). „(О V 2 ЯиУ^) + и^) (/-= 1, ...,/?; v = 1, ..., л). D.20') Будем предполагать, что вектор остаточных специфических факторов U подчиняется р-мерному нормальному распределению N (О, У), не зависит от Y и состоит из взаимно независимых компонент, т. е. его ковариационная матрица V = M(UU') имеет диагональный вид, где по диагонали стоят элементы vH — DuW. Вектор общих факторов Y = (yW, ..., у{р,))\ в зависимости от содержания конкретной задачи, может интерпретироваться либо как //-мерная нормальная случайная величина со средним MY = 0 (в силу центрированности исходных наблюдений) и с ковариационной матрицей специального вида JAYY' = 71, либо как вектор неизвестных неслучайных параметров, вспомогательных переменных, значения которых меняются от наблюдения к наблюдению. При последней интерпретации вектора общих факторов более правильной является запись модели в виде D.20'), причем условия центрированности независимости и нормированности дисперсий компонент вектора Y в этом случае имеют вид: - yyv=of т 2 V=l v=l 1 Требование независимости компонент у^ и нормированности их дисперсий объясняется в основном соображениями идентификации модели, см. выше, стр. 167 168
Однако при обоих вариантах интерпретации вектора общих факторов Y исследуемый вектор наблюдений X оказывается нормально распределенной р-мерной случайной величиной: при первом варианте как линейная комбинация двух нормальных случайных векторов (У и (/), а при втором варианте за счет нормальности специфических факторов и^К При этом из D.20) и из сделанных выше допущений немедленно следует, что М*<о = 0, ( р' v= 1 р' v v= 1 или в матричной записи мх=о, > ? = QQ' + V. (/, / --=!,...,/?) D.21) Примером достаточно прозрачной интерпретации модели факторного анализа может служить ее формулировка в терминах так называемых интеллектуальных тестов. При этом наблюдение по признаку хI) выражает отклонение оценки, например, в баллах, данной /-му индивидууму на экзамене по i-му тесту, от некоторого среднего уровня. Естественно предположить, что в качестве ненаблюдаемых общих факторов у<1\ ..., */(р,), от которых будут зависеть оценки индивидуумов по всем р тестам, выступят такие факторы, как характеристика общей одаренности индивидуума уA\ характеристики его математических #<2), технических у<3> или гуманитарных */<4> способностей. Отметим, что соотношения D.20) в точности воспроизводят модели множественной регрессии и дисперсионного анализа [26], в которых под yW (i = 1, 2, ..., р') понимаются так называемые независимые переменные (факторы-аргументы). Однако принципиальное отличие модели факторного анализа от регрессионных схем и дисперсионного анализа состоит в том, что переменные у(*\ выступающие в роли аргументов во всех этих моделях, не являются непосредственно наблюдаемыми в моделях факторного анализа, в то время как в регрессионном и в дисперсионном анализе значения #(/> измеряются на исследуемых объектах. Замечание. Связь метода главных компонент и метода факторного анализа. Рассмотрим следующую общую схему, включающую в себя в качестве частных случаев обе сравниваемые модели. Примем гипотезу, что существуют такие взаимно некоррелированные факторы У{1), У{2\ ... (быть может, в неограниченном числе), что хЫ=а11уЫ+а1%ут+ ... *B> = я21*/AЧ-а22*/B> + xto = aplyU) + aP2yW + или в матричной записи X = AY. D.22) 169
где о случайных переменных уA\ #<2>, ... без ограничения общности можно предположить, что DyW = 1. Очевидно, представление D.22), если оно существует, не единственно, так как переходя от У с помощью произвольного ортогонального преобразования С к новым переменным Z = CY будем иметь вместо D.22) X - BZ. D.23) Исследователю не известны коэффициенты atjy но он хочет научиться наилучшим (в некотором смысле) образом аппроксимировать признаки х*1), ..., х(р\ с помощью линейных функций от небольшого (заранее определенного) числа т факторов у({) (т), ..., г/<ш> (т), которые поэтому естественно назвать главными или общими. Аппроксимация признаков X с помощью у^ (т), ..., #(т> (т) означает представление X в виде D.22), но с «урезанной» суммой, стоящей в правой части, т. е. X(m) = AmY(m), где Ат — матрица, составленная из первых т столбцов матрицы Л, aY(m) = (у*1* (m), ...,ye*>(m)'. Оказывается, что по-разному формулируя критерий оптимальности аппроксимации X с помощью Y (т), мы придем либо к главным компонентам, либо к общим факторам. Так, например, если определение элементов матрицы Ат подчинить идее минимизации отличия ковариационной матрицы 2 исследуемого вектора X от ковариационной матрицы 2^ = Аш*А'т аппроксимирующего вектора X (га) (в смысле минимизации евклидовой нормы || 2—2 ? ||), то yW (т) определяется пропорционально i-й главной компоненте вектора X, в частности i_ yd) (т) = К 2 yW, где Xt — i-й по величине характеристический корень ковариационной матрицы 2, а #<«>— i-я главная компонента X; i-й столбец матрицы А (га) (i = 1, ..., m) есть ]/%/*, где/$ — собственный вектор матрицы 2, соответствующий характеристическому корню ki. Если же определение аппроксимирующего вектора Х(т) = BmY(m) подчинить идее максимального объяснения корреляции между исходными признаками х^ и *</> с помощью вспомогательных (ненаблюдаемых) факторов уA> (га), #<2) (га), ..., у(т) (га) и, в частности, идее минимизации величины и - /> COV (xU), xin) — cov(xU)(m)t *(/)(m)) D.24) при условии неотрицательности величин Оц — Dx{l) (га), то можно показать [29], [16], что i-я строка оптимальной в этом смысле матрицы преобразования Вт состоит из га факторных нагрузок общих факторов #0) (га), ..¦,#("*> (т) на i-й исходный признак *<*> в модели факторного 170
анализа вида D.20). Другими словами, сущность задачи минимизации (по BmnY (т)) величины D.24) состоит в следующем. Первый из т дб- щих факторов у*1* (т) находится из условия, чтобы попарные корреляции между исходными признаками были как можно меньше, если влияние на них этого фактора у^ (т) учтено. Следующий общий фактор г/<2) (т) находится из условия максимального ослабления попарных корреляционных связей между исходными признаками, оставшихся после учета влияния первого общего фактора у{1) (га) и т. д. Из сказанного, в частности, следует, что методы главных компонент и факторного анализа должны давать близкие результаты в тех случаях, когда главные компоненты строятся по корреляционным матрицам исходных признаков, а остаточные дисперсии Va сравнительно невелики. Замечание. Вопрос о существовании модели факторного анализа. По-видимому, не всякая ковариационная матрица 2 допускает представление вида D.21), а следовательно, не всякий вектор наблюдений X допускает интерпретацию в рамках модели факторного анализа типа D.20). Очевидно, условия представимости вектора наблюдений X в рамках модели факторного анализа должны формулироваться в терминах свойств ковариационной матрицы 2, а также в виде некоторых соотношений между размерностью исходного пространства р и числом общих факторов р'. Одним из наиболее общих (но малоконструктивных) результатов такого рода является, например, следующее утверждение: для того чтобы вектор X допускал представление вида D.20), необходимо и достаточно, чтобы существовала диагональная матрица V с неотрицательными элементами такая, что матрица 2 — V была бы неотрицательно-определенной и имела бы ранг/?'. Более детальное и конструктивное исследование условий существования модели факторного анализа читатель сможет найти, например, в [16]. Заметим лишь, что изучение проблемы существования (разрешимости уравнений D.20)) модели факторного анализа дает основу для построения различных статистических критериев адекватности модели по отношению к исследуемым наблюдениям Хг, Х2, ..., Хп. 2. Вопросы идентификации модели факторного анализа Будем в дальнейшем предполагать, что имеется по меньшей мере одно решение (Q, V) уравнений D.21). При исследовании вопроса единственности решения системы D.21) относительно (Q, V) (при заданных аи) следует различать два аспекта проблемы. Во-первых, надо понять, при каких дополнительных условиях на искомую матрицу нагрузок Q и на соотношение между р и р\ не может существовать двух различных решений QA) и QB> таких, чтобы одно из них нельзя было бы получить из другого с помощью соответствующим образом подобранного ортогонального преобразования С (единственность с точностью до ортогонального преобразования, или с точностью до вращения факторов). Оказывается [16], достаточным условием единственности такого рода является требование к матрице Q, чтобы при вычеркивании из нее любой строки оставшуюся матрицу 171
можно было бы разделить на две подматрицы ранга р\ откуда автоматически следует требование Р'<"^- D.25) Можно показать, что для р' = 1 и р' = 2 это условие является одновременно и необходимым, откуда, в частности, следует, что случаи (р = 2, р' = 1) и (р = 4, р' = 2) не допускают идентификации модели факторного анализа в указанном выше смысле (более подробное исследование идентификации/Этого типа можно найти в [16]). Будем предполагать далее, что имеется по меньшей мере одно решение (Q, V) системы D.21) и что оно единственно с точностью до ортогонального преобразования. Вставляя в уравнения D.21) вместо найденного решения (Q, V) другую пару матриц (QC, V), где С — матрица (размера р' X р) любого ортогонального преобразования, легко убедиться, что и она (эта пара матриц) удовлетворяет данной системе уравнений. Следовательно, возвращаясь к модели D.20), получаем, что наряду с общими факторами У = (У{1)> --у У{р,)У можно рассмотреть (при тех же нагрузках qij) общие факторы Z = CY. Поскольку, как известно, ортогональное преобразование координат Y геометрически означает вращение осей У{1\ ...,*/(р/) около начала координат на некоторый угол, то получается, что при отсутствии дополнительных условий на природу искомой матрицы нагрузок Q общие факторы */A), ..., #<?'> могут быть определены лишь с точностью до вращения системы координат в соответствующем //-мерном пространстве. Существует несколько вариантов дополнительных условий на класс матриц Q, в котором следует искать решение системы D.21), обеспечивающих уже окончательную однозначность решения (Q, V). От конкретного содержания этих условий зависит и способ численного выявления структуры искомой модели и соответственно способ статистического оценивания неизвестных параметров qij, Va и факторов yW. Поэтому мы остановимся на них параллельно с описанием методов статистического исследования модели факторного анализа. 3. Определение структуры и статистическое исследование модели факторного анализа Итак, в распоряжении исследователя — последовательность многомерных наблюдений Хъ Х2, ..., Хп, и он хочет с помощью модели D.20) перейти от исходных коррелированных признаков *п>, л:,<2)..., ..., х(р\ являющихся компонентами каждого из наблюдений, к меньшему числу некоррелированных вспомогательных признаков (общих факторов) у^х\ ..., у(р'К Для этого надо суметь определить оценки неизвестных нагрузок qij, остаточных дисперсий Ъц и, наконец, самих общих факторов у(*К 172
Как упоминалось, в основной модели D.20) при р' > 1 оказывается слишком много неизвестных параметров для их однозначного определения. Поэтому вначале исследователь должен выбрать какую-то систему дополнительных априорных соотношений, связывающих неизвестные параметры модели, которые делают решение задачи однозначным и позволяют получить относительно простое частное решение системы D.21). Затем он может отказаться от этих дополнительных соотношений, подбирая с помощью подходящего ортогонального преобразования (вращения осей) тот вариант оценок нагрузок Щц и остаточных дисперсий viU который ему кажется предпочтительнее в основном с точки зрения возможности содержательной интерпретации получаемых при этом общих факторов и их нагрузок. а) Различные варианты дополнительных априорных соотношений между qtj и viU постулируемых исследователем с целью однозначной идентификации анализируемой модели: 1) решение (Q, V) системы D.21) ищется лишь в классе таких матриц Q и Vy для которых матрица Q'VQ имеет диагональный вид, причем диагональные элементы этой матрицы различны и упорядочены в порядке убывания1; 2) из всех решений системы D.21) выбирается лишь то, для которого матрица Q'Q диагональна, причем все диагональные элементы различны и упорядочены (в порядке убывания); 3) решение системы D.21) ищется лишь среди таких матриц Q, которые для заранее заданной матрицы (размера р X р') В = (Ьц), —i = = If •••, Ру j = 1» •••! р' ранга р' удовлетворяют требованию 'Q = D=\ /du 0 .. 1 d2l a22 • \dp> i dp'2 ¦ .. 0 .. 0 •• dP' p' В частности, выбор P-P' i . . . о о. ГЛГ в = [ / о. . . о о.. . / о... о 1 В некоторых случаях к этому условию добавляется требование специального вида матрицы остаточных дисперсий, а именно V = а2/. 173
приводит к ограничению на Q типа (Яи 0 ... О \ q2l <722 ... О 1 Яр' \Яр'2 ---Яр' р' I Яп Яр2 ••• Ярр' I что означает: первый исходный признак х^1) должен выражаться только через один первый общий фактор уA\ второй признак л;B> — через два общих фактора #A) и уB> и т. д. Можно, кстати, показать, что при соответствующем выборе вспомогательной матрицы В определение искомых параметров модели приводит к решению ранее сформулированной экстремальной задачи D.24). Содержательную интерпретацию условий 3) следует искать в ситуациях, когда исследователь располагает некоторой априорной информацией, из которой можно, во-первых, извлечь реальный гипотетический смысл общих факторов и, во-вторых, постулировать наличие определенного числа нулевых элементов в матрице нагрузок Q (с более или менее точным указанием их «адреса»), что означает априорное отрицание зависимости исходных признаков х<{) от некоторых из общих факторов #(/> (/ = 1, 2, ..., р'). Эта же идея реализуется и в других, менее формализованных вариантах дополнительных условий («простые структуры», «нулевые элементы в специфических позициях» [16]), на которых мы здесь не будем останавливаться. б) Описание о0щего итерационного подхода к выявлению структуры модели факторного анализа. Конкретная реализация этого подхода зависит от выбора варианта идентифицирующих условий типа 1)—3). Как правило, исследователю известна лишь ковариационная матрица 2 (или ее выборочное значение 2, пока мы их различать не будем). Логическая схема итераций следующая: во-первых, задаемся некоторым нулевым приближением V{0) матрицы V; во-вторых, используя D.21), получаем нулевое приближение Y@) = 2 — 1/@) матрицы W = QQ' = 2 — V; в-третьих, по f с помощью некоторого специального приема (см. ниже) последовательно определяем нулевые приближения я{0)> Я[°\ ...,?^ Для столбцов <7i, Яъ •••> Яр' матрицы Q. Затем определяем следующее (первое) приближение Vil) и т. д. Что касается специального приема определения столбцов qt (i = 1, 2, ..., р') матрицы Q при известной матрицей = QQ', то он опирается на тот факт, что матрица 4я может быть представлена в виде У= Я1Я1 + Я2Я2 + ... + Яр'Яр" Используя специфику выбранных идентифицирующих условий определяют вначале столбец q±. Затем переходят к матрице ?х = 4я — Я1Я1 = Я2Я2 + ... + Яр'Яр' и определяют столбец q2 и т. д. 174
Так, например, в случае «обобщенного условия треугольное™» 3) этот прием дает: ?> = B'Q==(d1,d„ ...,dp-). Здесь dt — i-й столбец матрицы D; Ч'В = QQ'B = QD' =-- q1 d[ + ... + qp- d'p>, Bn?B = B'QQ'B = Diy = dLd'1+ ... + dp-d'p.. Последние два матричных уравнения можно расписать в виде: Vbr=q1dil + ... + gtdtl(i= 1,2,..., р'), b'iVbt = dndn+ ... +dndi; (/</, i-1, ...,p'). Отсюда можно последовательно находить 2. I _ чь D'26) du J В случае условий идентификации типа 1) легко проверить, что столбцы qlf ...,qP' являются первыми р' обобщенными собственными векторами (в метрике V) матрицы 4я, т. е. являются решением уравнения Vq.-hVq.^O (* = 1,...,р'). D.27) где %i — /-й по величине характеристический корень уравнения \V — W\-=0. D.27') Поэтому общая итерационная схема определения структуры модели реализуется здесь в такой последовательности: У@) ->¦ ^@) = 2 — 1/@) _> Q(o> _ решение уравнений D.27) -> W^ = Q(°> Q(°>' -> _> yd) = 2 — ?<!) -> Q*1* — решение уравнений D.27) и т. д. Аналогичная реализация общей итерационной схемы определения структуры модели имеет место и в случае условий идентификации типа B), с той только разницей, что уравнения D.27) и D.27') следует заменить уравнениями 4fy-*,?, = 0, |?—Я/| = 0 (/=1,2, ...,р'). D.28) в) Статистическое оценивание факторных нагрузок qtj и остаточных дисперсий Va. Оценивание производится либо методом максимального правдоподобия (см. § 1 главы 1), либо так называемым центроид- ным методом. Первый метод используется обычно при идентифицирующих условиях типа 1) и 2), хотя дает эффективные оценки для qtj и Va, но требует постулирования закона распределения исследуемых величин (разработан он лишь в нормальном случае), а также весьма обременительных вычислений. Что касается центроидного метода, который используется при идентифицирующих условиях типа 3), то, давая 175
оценки, близкие к оценкам максимального правдоподобия, он, как и всякий непараметрический метод, является более «устойчивым по отношению к отклонениям от нормальности исследуемых признаков и требует меньшего объема вычислений. Однако из-за определенного произвола в его процедуре, которая вскоре будет приведена, статистическая оценка метода, исследование его выборочных свойств (в общем случае) практически невозможны. Можно представить себе проведение подобных исследований лишь в каких-то специальных случаях, один из которых намечен, например, в [16]. Общая схема реализации метода максимального правдоподобия следующая. Составляется логарифмическая функция правдоподобия, как функция неизвестных параметров qu и vit, отвечающая исследуемой модели, т. е. учитывающая нормальность Хь ... , ХПУ модель D.20) и соответственно D.21); дополнительные идентифицирующие условия 1) или 2). С помощью дифференцирования этой функции правдоподобия по каждому из неизвестных параметров и приравнивания полученных частных производных к нулю получается система уравнений, в которой известными величинами являются выборочные ко- вариации oijy а также числа р и р\ а неизвестными — искомые параметры qtj и vH. И, наконец, предлагается вычислительная (как правило, итерационная) процедура решения этой системы. За подробностями мы отсылаем читателя к [9], [22] и [16]. Заметим, что реализация описанной выше (для случаев 1) и 2)) обшей итерационной вычислительной схемы с заменой неизвестной ковариационной матрицы исходных признаков 2 ее выборочным аналогом 2 приведет нас как раз к оценкам максимального правдоподобия параметров Qu и vit (i = l,2 , ... , р; j = 1,2, ... , р'). Отметим также, что в [16] при достаточно общих ограничениях доказана асимптотическая нормальность оценок максимального правдоподобия Q и V, что дает основу для построения соответствующих интервальных оценок. Как было отмечено, центроидный метод является одним из сггособов реализации вычислительной схемы D.26), приспособленной для выявления структуры модели факторного анализа и оценки неизвестных параметров в случае идентифицирующих условий типа 3). Этот метод поддается весьма простой геометрической интерпретации. Отождествим исследуемые признаки хA\ ..., х^ с векторами, выходящими из начала координат некоторого вспомогательного р-мерного пространства, построенными таким образом, чтобы косинусы углов между *<'> и хМ равнялись бы их парным корреляциям (ги), а длины векторов xW — стандартным отклонениям соответствующих переменных (а]/2). Далее изменим на время, если необходимо, направления, т. е. знаки отдельных векторов так, чтобы как можно больше корреляций стало положительными. Тогда векторы будут иметь тенденцию к группировке в одном направлении в пучок. После этого первый общий фактор уМ определяется как нормированная (т. е. как вектор единичной длины) сумма всех исходных векторов пучка и, следовательно, он будет проходить каким-то образом через середину (центр) этого пучка; отсюда название «центроид» для общего фактора в этом случае. 176
Переходя затем к остаточным переменным x<n) = xW—ЧпУ{1), подсчитывая ковариационную матрицу 2A) = 2 — Qi4i Для этих оста" точных переменных и проделывая относительно д:(П) иИШ всю ту же самую процедуру построения пучка и т.п., выделяем второй общий фактор («второй центроид») у<2> и т. д. Формализация этих соображений приводит к следующей итерационной схеме вычислений по определению факторных нагрузок qu и остаточных дисперсий vti с учетом описанной ранее вычислительной схемы D.26). Задаемся некоторым начальным приближением V<°> для дисперсий остатков У. Обычно полагают [9, 42]. vu^Oull — max |гя|]. (/ Ф i) Подсчитываем ?<°) = 2 — У<°). Выбираем в качестве нулевого приближения 6^°> первого столбца bL вспомогательной матрицы В столбец, состоящий из одних единиц @) Ъ Далее в соответствии с D.26) определяем нулевое приближение q{°> первого столбца матрицы нагрузок 4i 1 • F@)>@) 6@)J Затем вычисляется матрица Ч^°> = ^(О)—q{0)q{0)' и определяется нулевое приближение q{20>> второго столбца матрицы нагрузок g(o)= I^ _t D.29) (б<°>><°>40))* где вектор bB0) состоит только из + 1 или —1, а знаки подбираются иа условия максимизации знаменателя правой части D.29) и т. д. Получив, таким образом, нулевое приближение Q<°) = (q{°\ ..., q{p>]) для матрицы нагрузок Q, вычисляем уо> = 2 —Q(°)Q@)' и переходим к следующей итерации. При этом матрица BW не обязана совпадать с В(°К Кстати, как нетрудно усмотреть из вышесказанного, i-R столбец матрицы В задает веса, с которыми суммируются векторы одного пучка для образования *-го общего фактора («центроида»). Поскольку смысл центроидной процедуры — в простом суммировании векторов пучка; она иногда так и называется — «процедура простого суммирования», то исследователю остается определить лишь нужное направление каждого из векторов пучка, т. е. знаки единиц, образующих столбцы bt. 177
Непосредственная ориентация (при подборе знаков у компонент вектора bi) на максимизацию выражений 6(v)>(v)l bM хотя и несколько сложнее реализуема, чем некоторые эвристические приемы, опирающиеся на анализ знаков элементов остаточных матриц ?,._! [9, стр. 41—46], но быстрее и надежнее приводит к выделению именно таких центроидов, которые при заданном р' будут обусловливать возможно большую часть общей дисперсии исходных признаков, т. е. минимизировать дисперсию остаточных компонент ut. Заметим, что если не все исходные ковариации о^- положительны, может быть целесообразным использование и в качестве Ь[0) вектора, состоящего как из -Итак и из —1. Отметим также, что недостатком центроидного метода является зависимость центроидных нагрузок qtj от шкалы, в которой измерены исходные признаки. Поэтому исходные признаки х(/) обычно нормируют с помощью среднеквадратических отклонений а)/2, так что выборочная ковариационная матрица 2 заменяется во всех рассуждениях выборочной корреляционной матрицей R- Анализируя описанную выше процедуру центроидного метода, нетрудно понять, что построенные таким способом общие факторы могут интерпретироваться как первые р' «условных» главных компонент матрицы 2 — У, найденные при дополнительном условии, что компоненты соответствующих собственных векторов могут принимать лишь два значения: плюс или минус единица. г) Оценка значений общих факторов. Эта задача является одной из основных задач исследования. Действительно, мало установить лишь сам факт существования небольшого числа скрыто действующих общих факторов у<г\ ..., у{рУ, объясняющих природу взаимной коррелированное™ исходных признаков в основную часть их дисперсии. Желательно непосредственно «выловить» эти общие факторы, описать их в терминах исходных признаков и постараться дать им удобную содержательную интерпретацию. Мы приведем здесь идеи и результаты двух распространенных методов решения этой задачи, предложенных в разное время Бартлеттом A938 г.) и Томсоном A951 г.). В обоих случаях мы предполагаем задачу статистического оценивания неизвестных нагрузок Q' = (qtj) и остаточных дисперсий V = (г>ц) уже решенной. Первый метод (метод Бартлетта) рассматривает отдельно для каждого фиксированного номера наблюдения v (v = 1, 2, ..., п) модель D.20) как регрессию признака xv по аргументам q.\9 q.2> ..., q.Pi\ при этом верхний индекс i = 1, 2, ...,/? у признака (и соответствующий первый нижний индекс у нагрузок) играет в данном случае роль номера наблюдений в этой регрессионной схеме, так что /=1 178
Таким образом величины #У\ #v2\ ..m*/vP) интерпретируются как неизвестные коэффициенты регрессии xv no q.ly q.2, ..., q.P'. В соответствии с известной техникой метода наименьших квадратов (с учетом «неравноточности» измерений, т. е. того факта, что вообще говоря D x(/i) Ф Dx <'*> при ix Ф г2), определяющей неизвестные коэффициенты регрессии Yv = (y{vl\ ..., */vP))' из условия ±-LU>-iyl»q„J- =-mi Y получаем [2] KV = (Q' У^)^ y~lXv (v=l, ..., л). D.30) Очевидно, если исследуемый вектор наблюдений X нормален, то эти оценки являются одновременно и оценками максимального правдоподобия. Нестрогость данного метода — в замене истинных (неизвестных нам) величин qtj и Va их приближенными (оценочными) значениями qtj и Va. Второй метод (метод Томсона) рассматривает модель D.20) как бы «вывернутой наизнанку», а именно как регрессию зависимых переменных yll\ ..., ур' по аргументам хA), ..., х<?К Тогда коэффициент ты ctj в соотношениях / = i или в матричной записи Y = СХ, где С — матрица коэффициентов ctj размера р' X /?, находятся в соответствии с методом наименьших квадратов из условия п Р' i t-\ P - //Л2 п р' / р \2 2 2 Ы°- 2 ^4'М =min 2 Sfyi0- 2 ^'М .D.31) V=li = l\ 1 = 1 ) Ci) V=1M\ /=1 / Поскольку решение экстремальной задачи D.31) выписывается, как известно [2], в терминах ковариаций х(,'> и г/<'>, то отсутствие наблюдений по зависимым переменным yW> можно компенсировать знанием этих ковариаций, так как легко подсчитать, что хМ м{ y{i)'Uxll)' — xlp)>y")'->ytP'>)\ ,М>'> I _(QQ' + v Q\ "I Q' & 179
Отсюда, используя известные формулы метода наименьших квадратов, получаем (с заменой матрицы Q, V и Г их выборочными аналогами) Yv=(l+r)~lQ'V-lXv (v=lf 2 я), D.32) где матрица Г (размера р X р) определяется соотношением Сравнение выражений D.30) и D.32) позволяет получить явное соотношение между решением по методу Бартлетта У(Б) и решением, предложенным Томсоном У<Т). у(Б> =;(/ + Г-1)>>(Т). Если элементы матрицы Q'V^Q достаточно велики, то эти два метода будут давать близкие решения. д) Статистическая проверка гипотез. Проверка гипотез, связанных с природой и параметрами используемой модели факторного анализа, составляет один из необходимых моментов исследования. К сожалению, теория статистических критериев применительно к моделям факторного анализа разработана весьма слабо. Пока удалось построить лишь так называемые критерии адекватности модели, т. е. критерии, предназначенные для проверки гипотез типа гипотезы Я0, заключающейся в том, что исследуемый вектор наблюдений X допускает представление с помощью модели факторного анализа D.20) с данным (заранее выбранным) числом общих факторов р'. При этом критическая статистика у (Х1у ..., XJ, т. е. функция от результатов наблюдения, по значению которой принимается решение об отклонении или непротиворечивости высказанной гипотезы Н0, зависит от вида дополнительных (идентифицирующих) условий модели. Так, если рассматривается модель с дополнительными идентифицирующими условиями вида 1), т. е. дополнительно постулируется диагональность матрицы Г = Q'V^Q, то гипотеза Н0 отвергается (с вероятностью ошибиться, приблизительно равной а) в случае yi(Xv ..., Xn) = n(ln\V | + In | / + Г | - In | 2I)>XSK)> где число степеней свободы ^ = -^[(р-р'J~(Р + р')У, его положительность обеспечивается условием D.25), а Ха (vi)> как и ранее величина 100 а %-ной точки %2-распределения с vt степенями свободы (находится из таблиц). На языке ковариационных матриц гипотеза Я0 означает в данном случае, что элементы матрицы 2 —(QQ' + V) должны лишь статистически незначимо отличаться от нуля, или, что эквивалентно, матрица 2 — V должна иметь ранг, равный /?'. А это, в свою очередь, означает что последние р—р' характеристических корней ЗСР'+1, ..., Хр урав- 180
нения |S — V—XV \ — 0 должны лишь незначимо отличаться от нуля. Кстати, статистика Vi (Х1у ..., Хп) может быть записана в терминах этих характеристических корней, а именно Если же в качестве идентифицирующих условий дополнительно к D.20), или, что то же, к D.21), постулируется наличие какого-то заранее заданного числа т нулевых нагрузок qiS из общего числа р • р' на определенных («специфических») позициях, то гипотеза Я0 отвергается (с вероятностью ошибиться, приблизительно равной а) в случае у^Х,, ..., Xn) = n(\n\V \+ ln\Q' V-1 tV~l Q\- -1п|Г|-1п|2|)>ХаК), где число степеней свободы v* = -TP(p—1)—(р-р'—т)- Иногда удобнее вычислять критическую статистику y2(Xl9 •¦•> Хп) в терминах характеристических корней гъ г2, ..., гр (занумерованных в порядке убывания их величин) выборочной корреляционной матрицы R исследуемого вектора наблюдений X: yt{xlt...,xn) = (n->*±».-2-?) X (р—р'Iп X Статистики уг (Хъ ..., Хп) и у2 (Х1у ..., Хп) получены в результате реализации известной схемы критерия отношения правдоподобия. Пользуясь этой схемой можно построить аналогичные критерии адекватности и для некоторых специальных вариантов центроидного метода [9, с. 50]. Однако из-за слишком узких рамок такой модели эти критерии, с нашей точки зрения, не представляют достаточного интереса. До сих пор не удалось построить многомерной решающей процедуры типа р' B), т. е. оценки для неизвестного числа общих факторов /?'. В настоящее время приходится ограничиваться последовательной эксплуатацией критериев адекватности Я0 : р' = р'0 (р'0 — заранее задано) при альтернативе Нх: р' > р'0. Если гипотеза Н0 отвергается, то переходят к проверке гипотезы Н'0 : р' = р[ + 1 при альтернативе Н[: р'>ро+\ и т. д. Однако по уровням значимости а каждой отдельной стадии такой процедуры трудно сколько-нибудь точно судить о свойствах всей последовательной процедуры в целом. 181
Пользуясь асимптотической нормальностью оценок Q и V, можно было бы попытаться строить критерии для проверки гипотез, касающихся значений факторных нагрузок, например, гипотез о том, что некоторые признаки не зависят от заранее определенных факторов, т. е. что на определенных местах матрицы Q стоят элементы, статически незначимо отличающиеся от нуля. Однако построение этих критериев затруднено из-за вычислительно-нереализуемого вида ковариационных матриц оценок фи V [16]. Правда, это затруднение можно обойти, используя в качестве приближенного решения критерий незначимого отклонения от нуля множественного коэффициента корреляции между заданным исследуемым признаком х(/) и заранее определенным набором факторов у^*\ y{iz)y ..., уия) (q <!/?')• Для этого, естественно, придется предварительно оценить значения этих факторов у{и\ ..., #(V , а затем воспользоваться известной техникой [2, с. 126]. 4. Факторный анализ в задачах классификации Выше уже была отмечена близость моделей главных компонент и факторного анализа. Поэтому замечания, сформулированные в п. 4 предыдущего параграфа и относящиеся к общим идеям использования главных компонент в задачах классификации и к так называемому дуализму в постановке задачи, в полной мере относятся и к модели факторного анализа. Будет полезно пояснить это на конкретном примере с использованием специфики и терминологии именно факторного анализа. В табл. 4.3 приведены коэффициенты корреляции между отметками по шести школьным предметам, подсчитанные по выборке из 220 учащихся 19]. Таблица 4.3 Содержательный Отметка по: гэльскому языку *A) английскому языку истории *<3) арифметике хи) алгебре х{Ъ) геометрии *<6) Номер признака 1 | 2 1 0,439 0,410 0,288 0,329 0,248 0,439 1 0,351 0,354 0,320 0,329 3 0,410 0,351 1 0,164 0,190 0,181 4 0,288 0,354 0,164 1 0,595 0,470 5 | 6 0,329 0,320 0,190 0,595 1 0,464 0,248 0,329 0,181 0,570 0,464 1 Нагрузка факторов на признаки */i 0,606 0,611 0,458 0,683 0,686 0,575 Иш 0,337 0,197 0,384 —0,365 —0,335 —0,212 В последних двух столбцах таблицы даны факторные нагрузки qily qi2 на исследуемые признаки в бифакторной модели (р' = 2), подсчитанные по приведенной здесь корреляционной матрице с помощью центроидного метода. Простой анализ величин и знаков этих нагру- 182
зок склоняет нас к тому, чтобы интерпретировать первый фактор у^ как фактор общей одаренности, а второй фактор yW как фактор гуманитарной одаренности. В прямой постановке задачи классификации (т. е. при классификации обследованных учащихся) исследователь должен был бы, в первую очередь, определить, как эти два общие фактора yW и у^ выражаются через исходные признаки л;*1), х<2>, ..., л;<6); затем подсчитать значения (//vU, y{v2)) (v = 1, 2, ..., 220) этих двух факторов для каждого из обследованных учеников и, наконец, нанести 220 точек (y{v\ */v2)) на плоскость у*1) 0 #<2>. Расположение «точек-учеников» на плоскости позволило бы исследователю получить ряд вспомогательных сведений, ^цB} полезных при формулировке окончательных выводов (наличие четко выраженных «сгущений точек» — классов, их число, их интерпретация и т. п.I. Кстати метод Томсона D.32) дает в качестве оценки общих факторов выражения: | / %хB) 0,5 V- yi» - 0,245jc<1> + 0,208*<2> + + 0,158х<3> +0,278х<4>+ 0,271%<5> + + 0,157хF>, уB) = 0,352хП) + + 0,20UB) + 0,309*<3> — 0,35Ы4> - —0,303х<5>—0,126л:(б>. -0,5 7Ю К- _1_ \ \ as •х(*) 10) \ ц(') Рис. 4.7. Изображение исходных признаков x<*\ ..., х^ в плоскости двух общих факторов у^\ yW При обратной (двойственной) постановке задачи, т. е. при классификации исследуемых признаков л^1), я*2), ..., хF), оказывается полезной следующая геометрическая интерпретация общих факторов и исходных признаков. Рассмотрим рис. 4.7, на котором осями координат являются общие факторы */<Х) и уB\ а координаты точек (у\\\ y\f) = (qil9 qi2) определяются нагрузками i-го исходного признака на общие факторы (i = 1, 2, ..., 6). Соответственно точку (<7ц, qt2) удобно интерпретировать как изображение i-ro исходного признака х(/). Расположение точек на рис. 4.7 свидетельствует о естественном распадении совокупности исходных признаков на две группы: группу гуманитарных признаков (хA), х<2\ x<3>) и группу математических признаков (я<4\ х<5>, х^). Кстати, подобная геометрическая интерпретация помогает выбрать вращение системы общих факторов, наиболее подходящее с точки зрения возможности их содержательной интерпретации. Дело в 1 Аналогичную задачу классификации ткачих при исследовании их производительности труда см. в п. 4 предыдущего параграфа. 183
том, что как мы уже отмечали, параметры модели факторного анализа, в том числе и сами общие факторы #A>, */<2>, ..., у{р'\ определяются не однозначно, а лишь с точностью до некоторого ортогонального преобразования, т. е. с точностью до вращения осей у^\ #B\ •••, У{р) в пространстве. При этом выбор окончательного решения, т. е. закрепление системы */A), */B),..., у{р,) в определенном положении, находится в распоряжении исследователя. Другими словами, исследователь должен решить вопрос: как, располагая некоторым частным решением */<х>, у<2\ ..., у<р'), полученным, например, с помощью центроидного метода, выбрать такое ортогональное преобразование, такой поворот осей ^х>, */<2>, ..., у&'\ при котором получаемые при этом новые общие факторы #<*>, */<2>, ..., ytp'i допускают наиболее естественную и убедительную содержательную интерпретацию. Рассматривая расположение исходных признаков в плоскости #A) 0 */<2) или в пространстве, натянутом на первые три общих фактора, естественно повернуть координатную систему таким образом, чтобы координатные оси прошли через наиболее четко выраженные сгущения точек-признаков (см. поворот, намеченный пунктирными осями у^1) и */<2> на рис. 4.7). При этом иногда бывает полезно отказаться от ортогональности общих факторов, переходя к ^косоугольной системе координат. § 3. ЭВРИСТИЧЕСКИЕ МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ Описанные выше методы сокращения размерности факторного пространства (метод главных компонент и модели факторного анализа) допускали интерпретацию в терминах той или иной строгой вероятностной модели и, следовательно, подразумевали возможность исследования свойств рассматриваемых процедур в рамках теории математической статистики (см. п. 3., § 1,2 настоящей главы). В данном параграфе речь пойдет о методах, подчиненных некоторым частным целевым установкам (наименьшее искажение геометрической структуры исходных «выборочных точек», наименьшее искажение их эталонного разбиения на классы и т. д.), но не формулируемых в терминах вероятностно-статистической теории *. Процедура выбора той или иной целевой установки, подходящей именно для данной конкретной задачи, практически не формализована, носит эвристический характер, т. е., как правило, обусловливается лишь опытом и интуицией исследователя. Поэтому мы и будем называть такие методы эвристическими. Надо признаться, что при отсутствии априорной или выборочной предварительной информации о природелсследуемого вектора наблюдений и о генеральных совокупностях, из которых эти наблюдения извлекаются, точно в таком же невыгодном положении находятся методы, факторного анализа и главных компонент. Однако для них 1 Отсутствие строгой вероятностно-статистической модели, лежащей в основе тех или иных методов, не исключает возможности использования отдельных вероятностно-статистических понятий и соответствующей терминологии, как это имеет место, например, в методе экстремальной группировки факторов, в методе корреляционных плеяд и некоторых других. J 84
все-таки существует принципиальная возможность теоретического обоснования (при наличии соответствующей дополнительной информации), в то время как эвристические методы не претендуют и на это. Хочется подчеркнуть, что факт описания здесь методов снижения размерности, не использующих предварительной информации, например, обучающих или квазиобучающих выборок, следует расценивать лишь как следствие признания неизбежности ситуаций, в которых мы такой информации не имеем, но не как стремление рекламировать эти методы в качестве наиболее эффективных. В действительности же обоснованное и эффективное решение задач снижения размерности без слепой надежды на удачу, можно, по нашему мнению, получить лишь на пути глубокого профессионального анализа, дополненного статистическими методами, использующими предварительную выборочную (обучающую) информацию. 1. Методы, не использующие обучающих выборок а) Нелинейное отображение выборочных точек в пространство меньшей размерности, наименее искажающее их геометрическую конфигурацию. Пусть, как обычно, Х1$ Х2, ..., Хп—результаты ^-мерных наблюдений, «снятые» на п исследуемых объектах. И пусть d*^- = = РЕ(Х*> Xj) = 1/ 2 (*iv)r— */v)J — евклидово расстояние между * v=l точками Xt и Xj в исходном р-мерном пространстве. Метод, предложенный в работе [31], состоит в нелинейном однозначном отображении п данных точек (векторов) из р-мерного исходного факторного пространства Rp в пространство меньшей размерности. Особенно важны отображения в двух- или трехмерное пространство (/?' = 2,3), так как полученная там конфигурация из п точек поддается непосредственному графическому изображению. Ставится цель минимально (в некотором смысле) исказить исходную конфигурацию из п точек. Опишем этот метод и укажем некоторые возможности его модификации. Пусть в результате некоторого однозначного отображения (проекции) П имеющиеся у нас исходные многомерные наблюдения Xt = \ 42) |, 1 = 1,2,..., п JfK преобразованы (спроектированы) в соответствующие п наблюдений Yt = \ У?] 1, f-1,2 я, 185
расположенные в пространстве Rp' меньшей размерности, т. е. Yt = = П (Xt). При переходе от конфигурации Х1у Х2, ..., Хп к конфигурации Yl9 Y2, ..., Yn, попарные расстояния d*,- между исходными точками Xt и Xj преобразуются в расстояния du = pE (Yt, Yj). В качестве меры искажения конфигурации исходных точек введем величину Д, которую естественно рассматривать как функцию от переменных y\v) (v = = 1, 2, ..., /?', i = 1, 2, ..., п).\ ^\*/1 ,?/1 , ••¦, ?/л } — п ^Tj .« / < / Предлагается следующая эвристическая итерационная процедура подбора переменных y\v) с целью минимизации функции а ( A) B) (/?') (р')\ гт л 1 V ldb — dij(m)]2 A(iTi \ г/1 \ ...,#i \ ...,Уп ')• Пусть Aw =— 2, ^ п ошибка отображения после m-й итерации, где с= 2 d*/ и dD-(m) = *'</ 1/ 2 [yiV)(m)~f//V)(^)]2- Следующая (m + 1)-я итерация за- y^(m+l) = y^(m)-a»iv(m)9 дается: t..(V)/#M_Ln_ff(v) где вЛ(т)= аЛ- ' а2Д" т / v ^т а а определено эмпирически (автор [31] использовал а ж 0,3 или 0,4). На первом шаге итерационной процедуры набор YlyY2, ..., Yn фиксируется случайным образом или находится с помощью метода главных компонент (см. § 1 настоящей главы). На ряде примеров удалось показать, что данная процедура приводит к отображению П, которое достаточно хорошо сохраняет некоторые геометрические свойства исходной конфигурации точек. Так, в качестве исходных данных брались 9 точек, расположенных на прямой в R* на равных расстояниях друг от друга; после применения к ним описанной выше процедуры, задающей преобразование П, на плоскости были получены точки, лежащие на одной прямой. При отображении конфигурации из 8 точек, лежащих на окружности в R9 на равных расстояниях друг от друга, и центра этого круга, на плоскости R2 были получены точки, лежащие практически на ок- 186
ружности, и центр круга. В обоих случаях начальное приближение на плоскости выбиралось случайно, а Д= 106; исходные данные одномерны в 1-м и двумерны во 2-м случае, поэтому отображение на плоскость можно провести с нулевой ошибкой. При отображении набора из 30 точек, равномерно распределенных на 3-мерной спирали, была получена конфигурация из точек на синусоидальной кривой и примерно равноотстоящих друг от Друга. Следующий пример показывает, что метод нелинейных отображений может давать лучшие результаты, чем метод главных компонент [30]. Даны 5 сферических 4-мерных гауссовских распределений специального вида, из каждого делается выборка по 15 точек. Оказалось что при нелинейном отображении исходной конфигурации в R2 на плоскости можно выделить 5 групп точек, причем эти группы соответствуют исходным группам. При отображении методом главных компонент удается выделить только 4 группы точек. Две исходные группы точек после проектирования на плоскость оказались полностью «перекрытыми». Во всех рассмотренных примерах сходимость алгоритма была получена за 20 и менее шагов. Возможности применения данного метода ограничены, с одной стороны, видом или сложностью распределений, из которых были сделаны выборки, и, с другой стороны, общим количеством точек. При попытке применить алгоритм для анализа выборок из очень сложных распределений высокой размерности оказалось, что ошибка отображения слишком велика (А > 0,1), и двумерная конфигурация резко искажает исходную. В то же время есть основания предполагать, что описанный метод может быть успешно использован для анализа таких данных, которые содержат выборки из гиперсферических и гиперэллиптических распределений. Отметим, что данный метод требует большого объема оперативной памяти машины, поэтому общее число точек ограничено (у автора [31] максимальное значение п — 250). При п > 250 целесообразно объединять наблюдения в группы и заменять группу некоторым ее представителем (например, центром группы), сокращая таким образом число векторов («Замечание о методах предварительной обработки' классифицируемых наблюдений» см. в конце главы III). Данная процедура сравнительно проста, она не зависит от вида распределений элементов выборки, не требуется никакой априорной информации об этих распределениях. Можно предложить следующие два видоизменения данного алгоритма. Во-первых, рассмотрим i < I При растяжении каждого вектора Yt в X раз (Yt = kYt) расстояние 187
между преобразованными точками так же, как легко видеть, растянется в А, раз, т. е. dtJ = pE (Yt, Yj) = Xdih так что / < / i < / / < / " _,_, U2-Uu+ й-г^Ь' \ i < i / \ i < i Из D.33) следует, что min А (X) достигается при Х = , 2 №;) U < / 2 D/4I • / < / J D.33) D.34) В то же время очевидно, что наилучшее в смысле минимума функции ошибки А значение X равно 1 (иначе конфигурацию можно «растянуть», уменьшив значение А), следовательно. «.< / i < / dU D.35) Представляется целесообразным на каждом шаге итерационной процедуры «растягивать» все векторы в X раз по формуле D.34), уменьшая тем самым значения функции ошибки. Из сказанного следует, что условие D.35) является необходимым условием минимума функции ошибки в смысле преобразования «растяжения» всех векторов конфигурации. Во-вторых, оставаясь в рамках тех же качественных критериев близости конфигураций исходной и преобразованной совокупностей точек, можно предложить использовать вместо функции ошибки А более гладкую (бесконечно дифференцируемую) функцию новых координат, например: Ш*~ S(»1V)-»H2 v=l 2 К/]2 '<' i < / (</J Рассмотрим подробнее случай р' = 2. Обозначим 7 -(у^ *<2> -<2л-1) ~<2п)\_/ A) ,/2) „A) „B)\
вектор в 2 /г-мерном пространстве; f 2n~ || Z ||= 1/ ^ [^(v)]2—норма вектора Z, » v= 1 V=l 2n (Zx, Z2) = 2 z{v)Z2V) — скалярное произведение векторов Z2 и Z2 v= 1 1 V K^/J - (г<2,-1) - гB/- °J - (zBi'> - гB/)J]2 i Ю'*<' (</J = 1 у ;y [(<*?/)' - (г(^~»_ гB/~1)J_ (гB0_ 2B/)J]2 2 «,)» /= 2 |Г, (</J Выпишем в явном виде первые производные функции Д: —^— = -— х &B/-1) с " (гB«-1)_гB,--1))[D/J-(гB'-')-гB/-')J_(гB0_гB/)J]2 Л Ю2 -?*—=-— х дг<2') с » (гB0 _ 2B/)) [(^J_ (гB.--1)_ гB/-1)J_ (гB,) _ г<2/))«]1 где с- 2 (<*?/)»• * < / Пусть *o>=2<2>=z<3>=o, г<4)>о. Тогда легко показать, что выполняются следующие условия: A (Z) > О, 189
Q = {Z : A (Z) ^ с} — ограниченное множество, где с — произвольная константа, — градиент функции A (Z) удовлетворяет условию Липшица на множестве Q, так как A' (Z) — непрерывно дифференцируемая вектор- функция. Следовательно, для нахождения минимума функции A (Z) применим метод сопряженных градиентов [11], а именно, следующую итерационную процедуру Z(m + \)- = Z{m) 4- amU(m), U(m)=--A'lZ(m)] + $mU(m-l) m---0, 1, ..., где Z(m) и U(m) —векторы, полученные на /n-м шаге, а коэффициенты ат и Рт находятся из условий: ат : A [Z (m) — amU (т)] = min A [Z (т) — aU(m)]y а а ^ (A' [Z(m)],S'[Z (m)]-V [Z(m-l)]) |K[Z(m-l)]!,2 Можно доказать, что для любого начального приближения такой алгоритм сходится в смысле Jim I A'[Z(/n)l| =-¦=(), m->oo где под lim ф (т) понимается так называемый нижний предел функ- т-*оо ции ф(т), т. е. sup inf ц>{п). Заметим, что экспериментальные ис- т п>т следования метода сопряженных градиентов показывают, что на практике наблюдается не только сходимость на подпоследовательностях (т. е. по нижнему пределу), но и обычная сходимость, т. е. lim ||A' [Z(m)]\\ = 0. m-*oo б) Метод экстремальной группировки признаков. При изучении сложных объектов, заданных многими параметрами, возникает задача разбиения параметров на группы, каждая из которых характеризует объект с какой-либо одной стороны. Но получение легко интерпретируемых результатов осложняется тем, что во многих приложениях измеряемые параметры (признаки) лишь косвенно отражают существенные свойства, которыми характеризуется данный объект. Так, в психологии измеряемые параметры — это реакции людей на различные тесты, а выражением существенных свойств, общими факторами, являются такие характеристики, как тип нервной системы, работоспособность и т. д. 190
Оказывается, что во многих случаях изменение какого-либо общего фактора сказывается неодинаково на измеряемых признаках, в частности, исходная совокупность из р признаков обнаруживает такое естественное «расщепление» на сравнительно (с р) небольшое количество групп, при котором изменение признаков, относящихся к какой-либо одной группе, обусловливается в основном каким-то одним общим фактором, своим для каждой такой группы. После принятия этой гипотезы разбиение на группы естественно строить так, чтобы параметры, принадлежащие к одной группе, были коррелированы сравнительно сильно, а параметры, принадлежащие к разным группам — слабо. После такого разбиения для каждой группы признаков строится случайная величина, которая в некотором смысле наиболее сильно кор- релирована с параметрами данной группы; эта случайная величина интерпретируется как искомый фактор, от которого существенно зависят все параметры данной группы. Очевидно, подобная схема является одним из частных случаев общей логической схемы факторного анализа. В отличие от ранее описанных классических моделей факторного анализа при так называемом экстремальном подходе [5], группировка признаков и выделение общих факторов делаются на основе экстремизации некоторых эвристически введенных функционалов. Разбиение, оптимизирующее данный функционал, называется экстремальной группировкой параметров. Таким образом, под задачей экстремальной группировки набора случайных величин л;*1), л:<2>, ..., х^> на заранее заданное число классов р' понимают отыскание такого набора подмножеств Si, 52, .., р' Sp* натурального ряда чисел 1, 2, ..., р, что |J Si = {1, 2, ..., р}у /=i a Si П Sg = 0 при / =? <?, и таких р' нормированных (т. е. с единичной дисперсией DfW = 1) факторов /<*>, /<2>, ..., /<*'>, которые максимизируют какой-либо критерий оптимальности. Следуя [5], остановимся здесь на алгоритмах для двух различных критериев оптимальности. Первый алгоритм экстремальной группировки признаков в качестве критерия оптимальности использует функционал Л = 2 [сог (**'>, /<!>)]2+ ... + 2 [сог (*<*>, р'>)]2, в котором под cor (x, /) понимается обычный парный коэффициент корреляции между признаком х и фактором / [1]. Обозначим At = = {x{i\ i 6 Si}, /=1,2, ..., p'. Максимизация функционала Jx (как по разбиению признаков на группы Аъ ..., Ар*$ так и по выбору факторов /<*>, /<2), ...,/№')) отвечает требованию такого разбиения параметров, когда в одной группе оказываются наиболее «близкие» между собой, в смысле степени коррелированности, признаки: в самом деле, при максимизации функционала J± для каждого фиксированного набора случайных величин /<х), /<2>, ..., /<р'>, в одну 1-ю группу будут попадать такие признаки, которые наиболее сильно коррелированы с величиной /О; в то же время среди всех возможных наборов случайных 191
величин /W, /<2>, ..., /<"'> будет выбираться такой набор, что каждая из величин /(/) в среднем наиболее «близка» ко всем признакам своей группы. Очевидно, что при заданных классах Sl9 52, ..., Sp* оптимальный набор факторов /W, /<2>, ..., /<?') получается в результате независимой максимизации каждого слагаемого 2 [cor(*«>, J«>)]« (/=1,2, ...,р'), iest откуда p' max Ji= У\ hjy fO>.f<2>..... /@ / = i где A,z— максимальное собственное значение матрицы 2Ь составленной из коэффициентов корреляции переменных, входящих ъ Аг. При этом оптимальный набор факторов /<'), /=1,2,...,// задается формулами: /(/)-- , i6Sl « = 1,2 р\ D.36) 1/ 2 «i'N'4 где г„= cor (*<*>, *<'>), a aW = (af,af, ..., <*?>) — собственный вектор матрицы 2 и отвечающий максимальному собственному значению Xlf т. е. С другой стороны, считая известными факторы /W, /<2>,..., f(p'\ нетрудно построить разбиение Sb S2, ..., Sps максимизирующее /2 при фиксированных /W, /<2>, ..., }ip'\ а именно: S,-{*: cor2 (*«•>, P)>cor2(x<<>,/<«>) для всех q= 1,2,..., р\ D.37) Заметим, что соотношения D.36) и D.37) являются необходимыми условиями максимума Ух. Для одновременного нахождения оптимального разбиения Sly S2, ..., Sp> и оптимального набора факторов /<х>, /<2>, ..., /<?'> предлагается итерационный алгоритм, чередующий выбор оптимальных (по отношению к разбиению, полученному на предыдущем шаге) факторов и выбор разбиения оптимального к факторам, полученным на предыдущем шаге. Пусть на v-м шаге итерации построено разбиение параметров на группы Alt ..., ЛР'. Для каждой такой группы параметров строят факторы /v ^ по формуле D.36) и новое (v + 1) разбиение параметров A\v+l\ ..., Л}^+1) в соответствии с правилом: параметр л:(/) относится к группе i4lv+1), если сог2(х{1\ /</>)> cor2 (x(<?). №) (/= 1, 2, ..., р'). D.38) 192
Если для некоторого параметра #<*> найдутся два или более факторов таких, что для хМ и этих факторов в D.38) имеет место равенство, то параметр л;(/> относится к одной из соответствующих групп произвольно. Очевидно, что на каждом шаге итераций функционал Ух не убывает, поэтому данный алгоритм будет сходиться к максимуму. Максимум может быть локальным. Для описания второго алгоритма экстремальной группировки признаков введем функционал J* = 2 | сог(х<'\/A)I+ 2 Icor (*<'>,/<2>)|+ ... + 2 | cor (*«">, f(p'))\. /esi test i?sP' В содержательном смысле функционал J2 похож на функционал Jl9 и его максимизация также соответствует основному требованию к характеру разбиения признаков на группы. В [5] показано, что имеет место следующее утверждение. Необходимыми и достаточными условиями максимума функционала У2 являются: — разбиение параметров на группы Аъ ..., Av> таково, что функционал / = 1 * е st (где gt — некоторые числовые коэффициенты, равные либо +1 либо —1) достигает максимума как по разбиению на группы, так и по значениям коэффициентов gt. Здесь под^Ог понимается, как обычно, дисперсия случайной величины z; — факторы /(/) определяются соотношениями fit) = iesi _. D.39) i/ 2 si-sms Логическая схема доказательства этого факта следующая. Сначала, варьируя функционал J2 и используя метод множителей Лагранжа для учета условия D/W = 1, показывают что в точке максимума функционала У2 фактор /<*> имеет вид D.39). Затем доказывается, что если /W имеет вид D.39), то при любом наборе коэффициентов gt = ±1 и любом разбиении параметров на группы имеет место соотношение J2 ^ ^ У3» а если же «^з достигает максимума, то J2 = J3. Из этого утверждения следует, в частности, что для нахождения групп St и факторов /О достаточно максимизировать функционал J3. При фиксированном разбиении на группы функционал J3 достигает максимума тогда, когда для каждого / соответствующие коэффициенты gt максимизируют величину: DBft*(/))- D.40) /6 5, 7 Зак. 358 193
Поэтому естественно воспользоваться рекуррентной процедурой максимизации J3. В процедуре циклически перебираются переменные л;*1), х<2), ..., х(р\ и на каждом шаге принимается решение об отнесении очередного параметра л;('> к одной из групп А1у ..., Ар> и определяется знак gt. Пусть к v-му шагу алгоритма построены разбиения параметров на группы А^\ ..., А{р\ вычислены коэффициенты g\v\ g{2v\ ..., gpV), равные плюс или минус единице, и пусть на этом шаге рассматривается признак *w 6 Mv)- Тогда строятся р' вспомогательных коэффициентов g/?t!) Ц = 1, • •, р') по формуле ^.r+') = sign 2 tf>.ru (у^/I и для всех / = 1, 2, ..., р' вычисляются разности ДГ ° = Kd[2 eJ^^ + eJ^0^] - /^' -Vd[2 «Г^Т ' Затем выбирается такой номер 1 = 1*, что А(^+1)= max Ajv+1), к/ </>' и признак #<<> исключается из группы Atn присоединяется к группе Л/*; остальные группы признаков на этом шаге не меняются. В результате получаем новое разбиение признаков — ^(v-fl) ^(v+D A(V>+1). Новые значения коэффициентов g^t*1* определяются по формулам: На следующем (v + 1)-м шаге алгоритма рассматривается параметр xU+l), если / Ф р, и х^\ если i = р. Процедура заканчивается, если при рассмртрении всех признаков очередного цикла сохранились как разбиения признаков на группы, так и значения всех коэффициентов; полученное разбиение и значения коэффициентов рассматриваются как оптимальные. II при *>0, О при # = 0, — 1 при л;<0. 194
Для демонстрации сходимости метода к локальному максимуму в [5] доказывается, что на каждом шаге алгоритма значение У3 не убывает. Нетрудно проследить идейную близость метода экстремальной группировки признаков с методами, опирающимися на логическую схему факторного анализа. Так, например, отправляясь от общей модели вида <7=1 (см. D.9) и D.20)), первую компоненту /<*> и «нагрузки» llt в методе главных компонент можно определять, как мы видели (см. п. 2 § 1 глава IV) из условия минимума выражения /= 1 при нормирующем ограничении Решение этой условно-экстремальной задачи очевидным образом сводится к нахождению максимума выражения р 2 [сог(х«'\ /d*]2 при условии D/<1> = 1. Для построения следующего фактора /<2> (второй главной компоненты рассматриваются случайные величины Х(/2)=Х@ _ СОГ (ХA> ,/A))./(П. Для этих случайных величин аналогичным образом находится следующий фактор /<2> и так далее. Очевидно, что при реализации первого алгоритма метода экстремальной группировки признаков для каждой группы признаков Aj строится фактор, имеющий смысл 1-й главной компоненты для этой группы в смысле метода главных компонент. В центроидном методе (см. § 2 глава IV) общий фактор ищется в виде р)= S ft*", D.41) где gt = ±1 и gt выбирается так, чтобы максимизировать величину Сравнение выражений D.41) и D.42) с выражениями D.39) и D.40) показывает, что максимизация функционала J2 приводит к построению 7* 195
для каждой группы признаков фактора, отличающегося на некоторый множитель от первого общего фактора, который был бы построен для этой группы центроидным методом. в) Метод корреляционных плеяд. Задача разбиения признаков на группы часто имеет и самостоятельное значение. Например, в ботанике для систематизации вновь открытых растений делают разбиение набора признаков на группы, так, чтобы 1-я группа характеризовала бы форму листа, 2-я группа — форму плода и т. д. В связи с этим и возник эвристический метод корреляционных плеяд [7], [12], [13]. Метод корреляционных плеяд так же, как и метод экстремальной группировки, предназначен для нахождения таких групп признаков— «плеяд», что корреляционная связь, т. е. сумма модулей коэффициентов корреляции, между параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из разных групп (межплеядная) — мала. А именно, по определенному правилу по корреляционной матрице признаков образуется чертеж-граф, который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подграфов, и образуют плеяду. Рассмотрим корреляционную матрицу R = (rij)> /, /= 1, 2, ..., р исходных признаков. Нарисуем р кружков; внутри каждого кружка напишем номер одного из признаков. Каждый кружок соединяется линиями со всеми остальными кружками; над линией, соединяющей /-й и /-й элементы (ребром графа), ставится значение модуля коэффициента корреляции \гц\. Полученный таким образом чертеж рассматриваем как исходный граф. Задавшись (произвольным образом или на основании предварительного изучения корреляционной матрицы) некоторым пороговым значением коэффициента корреляции г0, исключаем из графа все ребра, которые соответствуют коэффициентам корреляции, по модулю меньшим г0. Затем задаем некоторое гх > г0 и повторяем описанную процедуру. При некотором достаточно большом г граф распадется на несколько подграфов, т. е. таких групп кружков, что связи (ребра графа) между кружками различных групп отсутствуют. Очевидно, что для полученных таким образом плеяд внутриплеядные коэффициенты корреляции будут больше г, а межплеядные — меньше г. В другом варианте корреляционных плеяд [7] предлагается упорядочивать признаки и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе. Упорядочивание производится на основании принципа максимального корреляционного пути, а именно: все р признаков связываются при помощи (р—1) линий (ребер) так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: в корреляционной матрице находится наибольший по абсолютной величине коэффициент корреляции, например \rhm\ = r^ (коэффициенты на главной диагонали матрицы, равные единице, не р ассматр и ваются). 196
Рисуем кружки, соответствующие параметрам х^ и х<т>, и над «связью» между ними пишем значение г*1). Затем, исключив г*1), находим наибольший коэффициент в m-м столбце матрицы (это соответствует нахождению признака, который наиболее сильно после х^ «связан» с x№) и наибольший коэффициент в 1-й строке матрицы (это соответствует нахождению признака, наиболее сильно после х^т\ «связанного» с х^1К Из найденных таким образом двух коэффициентов корреляции выбирается наибольший — пусть это будет \г^ \ = г<2). Рисуем кружок х^\ соединяем его с кружком xW и проставляем значение г<2>. Затем находим признаки, наиболее сильно связанные с хО, х^т) и xU\ и выбираем из найденных коэффициентов корреляции наибольший. Пусть это будет \rjq\ = r<3>. Требуем, чтобы на каждом шаге мы получили новый признак, поэтому признаки, уже изображенные на чертеже, исключаются, следовательно, цф1, Цфт, цФ\. Рисуем кружок, соответствующий x^q\ соединяем его с х^ и т. д. На каждом шаге находятся параметры, наиболее сильно связанные с двумя последними рассмотренными параметрами, а затем выбирается один из них, соответствующий большему коэффициенту корреляции. Процедура заканчивается после (р—1)-го шага; граф оказывается состоящим из р кружков, соединенных (р—1) линией. Затем -задается пороговое значение г, а все линии, соответствующие меньшим чем г коэффициентам корреляции, исключаются из графа. Назовем незамкнутым графом такой граф, для которого для любых двух кружков существует единственная траектория, составленная из линий связи, соединяющая эти два кружка. Очевидно, что во втором варианте метода корреляционных плеяд допускается построение только незамкнутых графов, а в первом варианте такое ограничение отсутствует. Поэтому разбиения на плеяды, полученные разными способами, могут не совпадать. В работе [10] приводятся результаты экспериментальной проверки алгоритмов экстремальной группировки параметров, а также сравнение полученных результатов с результатами, даваемыми методом корреляционных плеяд. Эксперимент проводился на физиологическом материале: исследовались влияния шумов и вибрации на работоспособность и самочувствие. Снимались 33 признака (р = 33), из них 7 параметров, характеризующих температуру тела; 4 — кровяное давление; 14 — аудиометрию (т. е. порог слышимости на заданной частоте); 2 —дыхание; 4 — силу и выносливость рук и 2 (обособленных параметра) — пульс и скорость реакции. С точки зрения физиолога «идеальным» было бы разбиение, при котором все характеристики температур образовали бы отдельную группу; параметры, характеризующие давление — свою отдельную группу и т. д., обособленные параметры образовали бы группы, состоящие из одного элемента. Наиболее близким к «идеальному» оказалось разбиение, полученное вторым алгоритмом экстремальной группировки, хотя алгоритм и присоединяет обособленные параметры к другим груп- 197
пам. Наименее точные (среди трех сравниваемых алгоритмов) результаты дал метод корреляционных плеяд. г) Снижение размерности с помощью кластер-процедур. В ряде ситуаций удобно рассматривать признаки х('"> (i = 1, 2, ..., р), как одномерные наблюдения и использовать многократное повторение этих наблюдений (на п исследуемых объектах) для введения и вычисления таких естественных мер близости между объектами (признаками) х(/) и хМ, какими являются в данном случае абсолютная величина коэффициента корреляции ги или корреляционное отношение т^- (по поводу вычисления ги и т]0-, и их свойств (см., например, [I]I. Следуя идее обобщенного (степенного) среднего (см. § 1 главы III), введем в качестве меры близости групп признаков Ах и Aq величину *$---\^ 2 1 \ra\f. D.43) где т — некоторый числовой параметр, выбор конкретного значения которого находится в нашем распоряжении, a mv — число признаков, составляющих группу Av. Аналогично вводится средняя мера близости R (A i) признаков, входящих в одну группу *D) = *|?} = (Л- 2 2 \га?У . D.44) Если желаемая размерность р' (р' < р) задана заранее, то исходные р признаков х*1), хB>, ..., х&) разбивают на р' однородных групп одним из двух способов: либо последовательно объединяя в одну группу два наиболее близких, в смысле Гц или Rtf признака (или признак и группу, или две группы) до тех пор, пока не останется ровно р' групп (иерархическая кластер-процедура), либо находя такое разбиение исходных признаков на р' групп, при котором усредненная мера вну- тригрупповой близости признаков ~R(x)-{\ ?«,[*№)* была бы максимальной. Последнего обычно удается добиться с помощью простого перебора вариантов, так как общее число признаков /?, как правило, не превосходит несколько десятков, а р' — несколько единиц. После этого от каждой группы следует отобрать по одному пред- 1 Если для описания меры близости между х^ и х^ используется корреляционное отношение, то предварительно целесообразно произвести симметризацию этой меры, рассматривая в качестве симметричной характеристики степени близости этих признаков величину т)^- = -у (y\ij + т]/г)> гДе ^ij обычное корреляционное отношение переменной х^ по переменной х^ [1, с. 108]. 198
ставителю, используя для этого технику метода главных компонент или факторного анализа (отдельно внутри каждой группы). Если же желаемая размерность р' заранее не определена, то разбиение исходных признаков на группы, а следовательно, и выбор неизвестного р\ можно подчинить задаче максимизации функционала типа R^ + Zx, где Zx — введенная в предыдущей главе мера концентрации разбиения, т. е. Здесь v(*W) — число признаков в группе, содержащей признак х^К Можно воспользоваться также и двойственной формулировкой экстремальной задачи разбиения объектов (признаков) на неизвестное число групп (см. § 1, глава III). 2. Выявление наиболее информативных признаков при наличии обучения Исследователь находится в несравненно более выгодных условиях, если он располагает так называемыми обучающими выборками, т. е. порциями (пусть небольшими) наблюдений Х1Ь Хи, ..., ХЩ1 (t-1, 2, ..., k, m=-m1 + m2 + ...+mk), D.45) о каждой из которых известно, что она извлечена из какого-то одного класса (представляет один из исследуемых «образов»), причем эти порции представляют все k исследуемых классов (образов). При наличии обучающих выборок D.45) и при заданном алгоритме классификации б задачу выявления наиболее информативных признаков можно сформулировать следующим образом: для любого наперед заданного р' < р указать такой набор признаков ДУ>F) - (х<4 *<*>, ..., хР'% D.46) отобранных из числа исходных р признаков я*1), я<2), ..., х&\ классификация по которому (т. е. при игнорировании всех остальных р — р' признаков) с помощью заданного алгоритма б т элементов обучающей выборки приводила бы к наименьшей средней доле ошибочно расклассифицированных наблюдений D.45). То есть подвектор Х<р/> (б) вектора X должен обладать тем свойством, что -= J ^Х^'НЬ)) = m.n ? угF;^>) D47) «=1 mi Х(Р') /= 1 mi 199
Здесь vt (б; Х^'>) — число неправильно расклассифицированных (с помощью алгоритма 6) наблюдений f-й обучающей выборки (при классификации по набору признаков Х^Г) размерности р'). Если известны априорные вероятности nt (i = \> 2, ..., k) появления наблюдения i-vo класа (т. е. пь — это удельный вес наблюдений 1-го класса в совокупности всех мыслимых наблюдений), то набор Х<р'> (б) определяют из условия минимизации взвешенной средней доли ошибочно расклассифицированных наблюдений обучающих выборок, т. е. ~ V v^("(p/)F)) • V v,-F;X<p')) tA лоч Я = 2а ni — — = min 2j ni -LLJ " • D.48) а) Методы перебора вариантов. Будем называть пространство XV* размерности р' <р наиболее информативным (относительно заданного алгоритма классификации б), если его координаты Х(р"> обладают свойством D.47) (или свойством D.48) в байесовской постановке, т. е. при наличии априорных вероятностей nt). Очевидно, наиболее информативное подпространство Х<^'> может быть определено с помощью метода полного перебора вариантов, при котором для каждого из Ср вариантов наборов' из р' признаков подсчитывается средняя доля q ошибочно расклассифицированных наблюдений обучающих выборок и выбирается тот набор, при котором q = q = min. Однако такой метод требует огромного объема вычислений. Объем вычислений можно сократить, использовав метод Монте-Карло или метод случайного поиска. Метод Монте-Карло отличается от полного перебора тем, что значения q находятся не для всех подпространств размерности р\ а только для некоторых. Эти подпространства выбираются случайным образом из множества всех подпространств в предположении, что все подпространства равновероятны. Назовем эффективным подпространством признаков такие подпространства Хэф\ на которых значения q отличаются от минимального значения q на некоторую достаточную малую величину г (г задается заранее). Случайный поиск ведется до нахождения любого Х^ф*. Поясним на примере, насколько метод Монте-Карло может уменьшить число «перебираемых» подпространств по сравнению с методом полного перебора. Пример. Пусть k=3, р=17, признаки распределены нормально с одной и той же ковариационной матрицей во всех трех классах, причем корреляция для различных пар признаков колеблется от 0,01 до 0,9; т = 250 (тх = 84, т2 = 92, т3 = 74). Алгоритм классификации б задается соответствующим образом построенной (см. главу I) линейной дискриминантной функцией. Для нахождения Х(р/> и Xi%} для р' ='3 проводился полный перебор подпространств (С^7 = 680), и для каждого подпространства находилось значение v = v2 + v2 + v3, чего, как легко видеть, 200
достаточно для оценки q в случае пх-=- л2 = ... = nk = — и т1ж т2ж ... жтк. k Был построен график дискретной функции N (v), показывающий, сколько подпространств соответствует различным значениям v. Оказалось, что v = vmin = 88, и нашлось только одно подпространство Х<3>, для которого v = 88. Пусть Хэф — любое подпространство, для которого v ^ 95. Из графика N (v) было определено, что таких подпространств всего 16. Следовательно, при независимой выборке подпространств P{v<95> = -^-~-?. 1 ' С}7 680 Можно показать, что с вероятностью 0,95 хотя бы одно из 126 случайно выбранных подпространств окажется Хэф. Таким образом метод Монте-Карло с высокой степенью вероятности (в среднем в 95 случаях из ста) даст значительный выигрыш в вычислениях: 126 подпространств вместо 680. Метод, названный случайным поиском с адаптацией (СПА), [8], является улучшением метода Монте-Карло. В отличие от чистого метода Монте-Карло этот метод состоит в случайном поиске подпространства ХЭф^') с «поощрением» и «наказанием» отдельных признаков, х^х\ х<1\ ..., хМ. Для этого в начале поиска задаются вероятности выбора п1у зх2, ..., пр каждого из признаков хA), х<2), ..., л^; если перед началом поиска нет информации о предпочтительности выбора какого- либо признака, то полагаем ях = я2 — » ••> = яр = —. «Поощрение» и «наказание» признаков х^1\ л;<2>, ..., хМ сводится к изменению вероятностей пъ я2, ..., яр выбора признаков на следующих этапах поиска в зависимости от результатов предыдущих этапов. Предполагаем, что пг = я2 = ... = nh и тг « т2 « ..., ж mk, и в качестве оценки информативности подпространства рассмотрим k v = 2 vt —общее число неправильно расклассифицированных наблю- дений обучающих выборок. После анализа некоторого числа г случайно выбранных подпространств Х[р'\ Хгр'\ ..., Х{/ ] находим подпространства Xi.mfn и Xi.max, дающие минимальное vmin и максимальное vmax значения из всех г подсчитанных значений v. Далее, увеличиваем вероятность выбора каждого из признаков составивших A'bmin на некоторую добавочную вероятность h. После такого поощрения проводим наказание признаков, на которых построено Xmal* уменьшая вероятности выбора на величину h. Значения Vi .min и Vi.max посылаем в рабочие ячейки уг и у2. При измененных вероятностях выбора каждого из признаков х^х\ х<2>, ..., я<р> с помощью соответствующим образом построенного случайного эксперимента получаем новую группу подпространств и на- 201
ходим X^in и x?f,Jaxf соответствующие v2mln и v2max. Новое поощрение и пересылку v2min в ячейку уг делаем только тогда, если v2miIX < < vimin» а наказание и пересылку v2max в ячейку у2, если v2raax > Далее поступаем аналогично. В результате такого поиска получаем в ячейке уг некоторое vmln = min {v/.min }г. Поиск прекращается, если содержимое ячейки уг сохраняется на протяжении некоторого -числа групп. За подпространство Хэф* принимается подпространство, соответствующее vmln. Метод СПА был использован для нахождения Х^ в уже рассмотренном примере, т. е.: р = 17; р' = 3; k = 3; mx = 84; т2 = 92; m3 = 74. Поиск 8г проводился без поощрения и наказания, поиск б2 — с поощрением и наказанием (h = 0,013). При поиске б3 первоначальные вероятности выбора признаков (я,) устанавливались различными в соответствии со значениями средней доли ошибочно расклассифици- руемых наблюдений обучающих выборок (q)9 полученными отдельно для каждого из признаков, т. е. при р' = 1. Число г подпространств, анализируемых на каждом этапе алгоритма, равно 10. На рис. 4.8 изображена сходимость величины V/.min к vmln при различных видах поиска. На оси абсцисс откладывается суммарное число подпространств/?, которые были рассмотрены к данному моменту поиска. Из рис. видно, что при поиске б3 понадобилось всего 4 группы D0 подпространств) для получения vmin = 88 (а при методе б2 —120). Этот эксперимент показывает целесообразность применения данного метода для определения наиболее информативной системы признаков. В общем виде вопрос о выборе г и h не решен. Вероятно, что чем больше г и меньше Л, тем больше вероятность получения Х(р') и тем больше потребуется мащинного времени. Предполагается также, что с увеличением числа сочетаний выигрыш в количестве вычислений, который дает данный метод по сравнению с методом полного перебора, увеличивается. 1 Заметим, что при неограниченном поощрении и наказании признаков не исключена ситуация, в которой вероятность выбора некоторого признака я/ окажется или отрицательной, или большей единицы. Конечно, вероятность такого события очень мала (вследствие малости h и большого числа признаков), и, кроме того, в рассмотренных в работе [8] примерах показано, что на практике алгоритм сходится значительно раньше, чем вероятность выбора какого-либо из признаков окажется близкой к 0 или 1. Тем не менее целесообразно ввести следующее ограничение: пусть 0 < Мх < М2 < 1, где Мг и М2 — некоторые заранее выбранные числа. В случае, если на 1-м шаге окажется, что щ — h < Мг или яг- + h > М2, где х^ — некоторый признак, попавший в подпространство, дающее соответственно V;. min или V;. тах, то положим на (/ + 1)-м шаге: Jt^ = Мг или щ = М2. При этом наказание или поощрение остальных признаков нужно провести таким образом, чтобы jtx + ... + Лр = 1. 202
б) Последовательное рассмотрение отдельных признаков {метод Кендалла), В работе [25] предлагается метод построения наиболее информативного набора признаков, не зависящий от типа распределения. Рассматривается задача распознавания двух образов, т. е. решается вопрос, как зная 2 обучающие выборки из двух многомерных генеральных совокупностей, определить, к которой из этих совокупностей относится некоторый элемент. Метод, которым решается задача, состоит в том, что признаки сначала упорядочиваются «по старшин- ^^ _] i i i i_ 20 40 60 80 100 ПО № 160 Рис. 4.8. Сравнение различных алгоритмов поиска наилучшей комбинации признаков ству», в порядке убывания их информативности, а затем строится решающее правило, по которому по значению старшего признака некоторого элемента либо можно отнести этот элемент к одной из генеральных совокупностей, либо перейти к следующему по старшинству признаку. В случае, если после перехода к самому младшему признаку по его значению нельзя распознать данный элемент, задача остается нерешенной. Рассмотрим пример: генеральные совокупности — это 2 сорта ириса: «Разноцветный» и «Вирджиния». Берется по 50 цветков каждого сорта и делается 4 линейных измерения специального вида (ширины лепестков и т. д.). Следуя [25], обозначим эти четыре признака через PLy PW, SLt SW. Данные измерений двух сортов ириса по 4 переменным приводятся в табл. 4.4. 203
Таблица 4.4 SL 7,0 6,4 Сорт «Разноцветный» SW 3,2 3,2 PL 4,7 4,5 PW 1,4 1,5 SL 6,3 5,8 Сорт « SW 3,3 2,7 Зирджиния» PL 6,0 5,1 PW 2,5 1,9 0,1. Примечание. В каждом столбце по 50 значений, измерения производили с точностью до Используя табл. 4.4, составляем таблицу частостей по каждому из признаков. Так, в табл. 4.5 приведены частости для признака PL двух сортов ириса. Этот признак, как выяснится позже, является старшим в данной зад&че. Таблица 4.5 Значения переменных 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0 5,1 Сорт «Разноцветный» 25 4 7 3 5 2 1 1 1 Сорт «Вирджиния» — 1 — — 2 3 3 7 Значения переменных 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 1 Сорт «Разноцветных» — — — — — — — Сорт «Вирджиния» 2 2 2 3 6 — 3 13 Примечание. В правой части таблицы приводится количество цветков, мерение по PL равно данному значению. для которых из- Из* таблицы видно, что по переменной PL множества измерений цветков обоих сортов пересекаются на отрезке D.5; 5.1); т. е. левее отрезка попадают только измерения «Разноцветного», правее только «Вирджиния», а внутри отрезка содержатся измерения обоих сортов. Обозначим этот отрезок через RPl, а через Npl — число цветков обоих сортов, измерения которых по PL попадают вне отрезка RpL. Аналогично введем Nsl> Npw, Nsw- По табл. 4.5 подсчитаем NpLy Npw> Nsl и Nsw- Оказалось, что Npl = 63; Npw = 62; a Nsl < NPW, Nsw < Npw- Следовательно, по переменной PL можно распознать максимальное число элементов (цветков), поэтому считаем PL — старшим признаком, PW — следующим по старшинству, так как Nsw и Nsl < < Npw и" строим следующее решающее правило: PL < 4,4 «Разноцветный» / ч ) rw ^ г\ относим цветок к сорту _> (*) \ PL > 5,2 r J «Вирджиния» 4,5^PL<!5,1 переходим к следующему по старшинству признаку. 204
Всего элементов, которые нельзя распознать по PL, т. е. тех, для которых значения PL попадают в Rpl,—37 C7 = 50 + 50—63). Выбе- раем эти элементы из табл. 4.4 и составляем для них по PW таблицу, аналогичную таблице 4.5, отражающую распределение частостей для 37 элементов, не распознанных по PL. Затем находится Rpw, строится решающее правило по PW аналогично (*), определяется старший из оставшихся признаков. После построения решающего правила для «самого младшего» признака процедура распознавания заканчивается. Элементы, которые нельзя распознать с помощью такой процедуры, считаются неопределенными. Этот метод очень прост: никаких вычислений, кроме подсчета случаев, в нем не содержится. Процедура распознавания не зависит от вида распределений совокупностей; не требуется никакой априорной информации об этих распределениях. При применении процедуры выясняется, какой из признаков более информативный в том смысле, по какому из них можно определить большее число случаев. Если с помощью такой процедуры удается распознать очень мало случаев, рекомендуется перейти к новым координатам. Попробуем наглядно пояснить смысл этой рекомендации. Из рис. 4.9 видно, что Rx{i) и Rx{2) велики, и по признакам х*1* и х<2> не удается распознать ни одного элемента. После поворота осей (переход к координатам #A) и #<2>) получаем области Л, Б, С, Д в которых можно распознать элементы, и область Е — «область неопределенности». В общем случае предлагается переходить к координатам, совпадающим с главными компонентами одной из выборок. Но вопрос о том, действительно ли при этом уменьшится число неопределенных элементов, не исследован. Естественным критерием качества такой процедуры можно считать долю «неопределенных» точек по аналогии с долей ошибочно оаспознанных точек. 205 Рис. 4.9. Переход к новым координатам в методе Кендалла
Глава V РЕШЕНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЗАДАЧ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ КЛАССИФИКАЦИИ И СНИЖЕНИЯ РАЗМЕРНОСТИ § 1. ЭКСПЕРТНО-СТАТИСТИЧЕСКИЙ МЕТОД ПОСТРОЕНИЯ НЕИЗВЕСТНОЙ ЦЕЛЕВОЙ ФУНКЦИИ И ЕГО ПРИМЕНЕНИЕ 1. Объект, его выходное качество и входные параметры. Понятие целевой функции Пусть исследуемый объект (страна, предприятие, семья и т. д.) характеризуется неким «выходным качеством» уу которое априори обусловливается (не обязательно однозначно, детерминированно) набором поддающихся учету и измерению «входных параметров» х<1\ ..., х^К Так, уровень общественного благосостояния страны у, по-видимому, в значительной мере характеризуется структурой и объемом потребления различных благ и услуг х*1*, ..., хМ *. Точно так же эффективность работы предприятия у определяется в основном совокупностью таких входных параметров, как себестоимость продукции л:<1>, ее реализуемость х<2>, текучесть кадров х<3>, фондоотдача х<4> и т. п. В том же плане можно рассмотреть пример, в котором объектом исследования являются здания (жилые, производственные или административные), а выходной характеристикой качества — величина, обратная степени их износа г/. При этом в качестве входных параметров хA>, ..., х^ естественно принять различные стандартные технические характеристики, поддающиеся непосредственному измерению и описывающие отдельные стороны общего понятия — степени износа всего здания. И, наконец, можно рассмотреть задачу оптимизации структуры личного (семейного) потребления2. Здесь объектом исследования является семья, выходным качеством у — степень оптималь- 1 В зависимости от конкретизации постановки задачи различные факторы, не вошедщие в состав «аргументов» х^\ ..., х^ (социальные, политические, географические и др.), либо должны быть приблизительно одинаковыми по всем обследуемым объектам, либо войдут в «остаточную» случайную компоненту, объясняющую стохастичный характер зависимости у от х^ \ ••¦, * • 2 Точный смысл понятия оптимизации будет ясен из дальнейшего изложения. 206
ности ее социально-экономического поведения, а входными параметрами хA), ..., х(р) —характеристики структуры потребления различных благ и услуг. Перечень подобных задач представлен в табл. 5.1Л Таблица 5.1 Объект 1. Эксплуатируемый объект (жилые и изводственные постройки, единицы технической оснащенности и т.п.) 2. Предприятие 3. Семья 4. Спортсмен, участник матча в одном из игровых видов спорта, например, в хоккее Компоненты вектора наблюдений (входные параметры) Текущие значения параметров эксплуатируемого объекта, фиксируемые в официальной документации Показатели эффективности работы предприятия Показатели циально-экономического поведения семей (бюджет времени, денег и т. Д-) Показатели скоростной и силовой выносливости, выполнения ряда технических элементов и тактических приемов в процессе игры Вид экспертной оценки Определение общего процента износа Группировка предприятий по качеству их работы Группировка семей с точки зрения прогрессивности и общественной полезности их но-экономического поведения [ Оценка за игру, выставляемая спортсмену тренером или специальной смотровой комиссией, жюри Конкретный смысл выходного качества объекта Общий показатель износа эксплуатируемого объекта Характеристика качества работы предприятия Характеристика прогрессивности и общественной полезности циально-экономического поведения семьи Характеристика эффективности и мастерства спортсмена, проявленных в данной игре Цель исследования Определение общего показателя износа только по текущим значениям официальных параметров* Ранжирование и сопоставление предприятий по качеству их работы* Ранжирование и сопоставление семей с точкк зрения прогрессивности i и общественной полезности их циально-экономического поведения* Определение лучших игроков соревнования, турнира, сезона*, разработка индивидуальных планов тренировки спортсмена * Без привлечения экспертов. 1 В табл. 5.1 приведены лишь те из конкретных задач, подпадающих под описываемую здесь весьма общую и актуальную, с нашей точки зрения, схему исследования, с которыми мы в той или иной мере сталкивались в нашей практике. В ней не упомянуты, например, задачи промышленно-технического и медико- биологического профиля, для которых данная постановка особенно естественна и плодотворна. 207
Специфика рассматриваемой здесь схемы, ее отличие от классических регрессионных моделей в том, что упомянутое выше выходное качество г/, как правило, не поддается непосредственному количественному измерению, для него не существует (в данный момент) объективно обусловленной шкалы. Как правило, информация, которую человек в подобных ситуациях может извлечь относительно выходного качества г/, это соотношение порядка, а именно: для заданных п объектов тем или иным способом проранжировать их характеристики, выходного качества, например, в порядке убывания, т. е. получить подстановку вида 1,2, ..., п9 Эта подстановка означает, что Уи>У1й> ->У1п-г>Угп> EЛ) т. е., что iyfi из рассмотренных объектов лучше (точнее — не хуже) всех остальных объектов, с точки зрения анализируемого выходного качества, за ним идет объект с порядковым номером i2 и т. д. Если выходное качество у все-таки имеет количественную природу (т. е. налицо существование определенной шкалы в измерении у), то знак >- в E.1) может быть заменен обычным знаком ^, а сформулированное выше допущение об определяющей роли входных параметров х({\ ..., #(р) может быть формализовано с помощью модели y=f(xwt .... *с>) + 6. Здесь /(хA), ¦ .., хЩ — некоторая функция от входных параметров, а б — остаточная случайная компонента, учитывающая, в частности, влияние множества факторов, не вошедших в состав входных параметров, и не зависящая от х^\ ..., #<p). Будем в дальнейшем обозначать с помощью Y (X) = Y (хAЧ ..., я(р)) значение у при величинах входных параметров, равных X' = (л:*1), ..., -*<р>), усредненное по всем мыслимым значениям случайных и неучтенных факторов б. Определение. Целевой функцией исследуемого выходного качества у называется любое преобразование вида Ф (*<¦>, ..., *<">) = Ф(*), сохраняющее заданное соотношение порядка для усредненных значений выходного качества Y (л;<1), ..., х(р)), т. е. обладающее тем свойством, что из Yix>Yi.> ...>Yin9 где 1 lk * \Xik > -' Xlk У 208
с необходимостью следует выполнение неравенств 9(Хг,)>ф(Х,1)>...>Ф№11I и наоборот, из последней серии неравенств с необходимостью вытекает выполнение соответствующих неравенств для Yt . Очевидно, данное здесь определение целевой функции неоднозначно. Действительно, если ф (X) есть целевая функция и U (ср) — любая взаимно-однозначная монотонно возрастающая функция, то всякая функция вида ¦ (X) = U [Ф (X)] также будет целевой функцией. Это означает, что наше допущение о наличии определенной шкалы в измерении играет во многих случаях чисто вспомогательную роль и не нацеливает нас на поиск, связанный с ее выявлением. Ведь в соответствии с данным определением, само значение целевой функции не отражает никакой реальной, физически содержательной количественной закономерности. Реальные закономерности отражаются только соотношениями «больше» или «меньше» между значениями этой функции для различных наборов величин входных параметров X = (х^\ ..., л;^>). Тем самым эти соотношения отражают предпочтение с точки зрения анализируемого выходного качества одних значений X перед другими. Поэтому в задачах, в которых возможно регулирование значений X (в некоторой допустимой области), наиболее рациональным управлением естественно признать то, которое максимизирует, при заданных ограничениях на X, значения целевой функции. Заметим, кстати, что данное здесь общее определение целевой функции допускает ее содержательную социально-экономическую интерпретацию в качестве различных глобальных и частичных целевых функций потребления, используемых и интенсивно обсуждаемых в ряде наиболее интересных, с нашей точки зрения, работ современных экономистов [1] — [4], [6], [7], [9], [10]. 2. Исходные статистические данные по входным параметрам Предварительный выбор входных параметров производится экспертным путем после четкого определения конечных целей исследования и, в частности, — понятия интересующего нас выходного качества. Как правило, предварительный набор входных параметров бывает чрезмерно обширным (слишком велико общее число входных параметров р), что порождает значительные вычислительные и интерпретационные трудности. Поэтому до проведения соответствующего статистического обследования объектов требуется произвести тщательный экспертно-профессиональный анализ по отбору небольшого числа наиболее информативных (с точки зрения их влияния на исследуемое выходное качество) входных параметров. Результаты произведенного затем статистического обследования объектов могут быть сведены в табл. 5.2. 8 Зак. 358 209
Номер входного параметра 1 2 Р 1 *<!> х\2> ХМ Т а б л и ца 5.2 Номер объекта 2 | ... | п 4П 42) ЛР) х2 vB) Г(Р) ИЛИ Е рицы G- редставлены в виде мат- / 42) \ 4Р) 4°. xif> . 4Р). ..*i!)\ ¦*Л. ..#4 В качестве одного из предварительных этапов обработки исходных данных G иногда полезно произвести так называемую процедуру уравновешивания элементов исходной матрицы G, нормировку матрицы G по строкам и столбцам одновременно. Для проведения такой процедуры можно использовать, например, алгоритм, предложенный в [5]. Подобная нормировка приводит исходную матрицу к виду, как правило, более удобному с точки зрения различных вычислительных процедур, а также с точки зрения всякого рода сопоставлений и геометрической интерпретации результатов исследования (в случаях /? ^ 3). Будем считать в дальнейшем, что матрица исходных данных G уже прошла процедуру уравновешивания элементов. Очень важным предварительным этапом исследования является максимально возможное снижение размерности факторного пространства, т. е. определение небольшого числа наиболее информативных входных параметров. Если вышеупомянутый экспертно-профессиональный анализ оказался недостаточным для решения этой задачи (общее число р входных параметров осталось чрезмерно большим, например, соизмеримым или даже превосходящим число обследуемых объектов п)у то целесообразно прибегнуть к помощи различных формальных методов, описанных, в частности, в предыдущей главе. 3. Выбор общего вида аппроксимации для целевой функции. Использование экспертных данных для оценивания неизвестных параметров аппроксимирующей функции Процесс параметризации задачи заключается в выборе общего вида целевой функции. Этот выбор, как правило, не удается подкрепить исчерпывающим теоретическим обоснованием, а потому с этого момента мы имеем дело не с целевой функцией ф (X), а с некоторой ее аппроксимацией ф (X). Это не должно смущать исследователя. Напротив, оперирование с аппроксимацией избавляет нас от необходимости постулирования существования самой целевой функции (что в ряде ситуаций является весьма спорным моментом): в то время как сама целевая функция как объективно существующая универсальная скалярная характеристика выходного качества может и не существовать, ее аппроксимация имеет определенный условный смысл и может плодо- 210
творно использоваться как некая вспомогательная характеристика в ограниченном интервале времени и при некоторых заранее оговоренных условиях. Имея в виду достаточную однородность обследуемых объектов по всем неучтенным переменным, т. е. по переменным, не вошедшим в состав я*1), ..., х&\ и ограниченность интервала времени, в течение которого мы собираемся использовать искомую аппроксимацию целевой функции, а также реализуя идею разложения любой функции в ряд Тейлора, мы ограничимся в нашем дальнейшем изложении аппроксимациями линейного и квадратичного вида, т. е. Фа(Х)= 2 М1 /=1 ф2(Х)= S м@+ 2 ьихмхи>. /=i /,/=1 Для определения неизвестных коэффициентов Ь% и Ьц предлагается использовать результаты экспертного опроса, которые могут быть представлены в разных вариантах. а) Ранжирование объектов как результат .экспертного опроса. Пусть т экспертами произведено ранжирование п объектов. Результаты ранжирований могут Табли^ца^б.З быть сведены в следующую табл. 5.3. Здесь i)—порядковый номер, который приписан k-u экспертом /-му объекту в процессе упорядочивания всех объектов по степени убывания характеристики их выходного качества. При этом каждый из экспертов должен производить упорядочивание объектов независимо от всех остальных. В тех случаях, когда эксперт не в состоянии различить несколько объектов по их выходному качеству, он должен приписать каждому из этих объектов порядковый номер, равный среднему арифметическому из тех порядковых номеров, которые им «причитаются». Например, присудив первые два места объектам А и В, эксперт не смог различить следующую за ними группу из четырех объектов. Поскольку этим четырем объектам полагалось бы присвоить номера 3, 4, 5 и 6, то каждый из этих объектов получит порядковый номер, равный 4,5 = 3+4+5+6 . Номер эксперта 1 2 т Номер обследуемого объекта 1 М i<2> Лт) 11 2 | 12 12 Лт) 12 ... п «12) п Лт) 1п 1 При содержательной конкретизации постановки задачи коэффициенты bi и btj часто удается наполнить реальным физическим смыслом [2], [6]. 8* 211
При обработке экспертных данных необходимо произвести проверку компетентности выбранного круга экспертов и, в частности, произвести проверку гипотезы Я0, заключающейся в том, что все возможные варианты ранжирований равновероятны. Эта гипотеза означает, что каждый эксперт с равной вероятностью выбирает любое из возможных ранжирований, и результаты ранжирований не отражают никакого объективного упорядочивания. Проверка гипотезы Я0 производится следующим образом. Рассмотрим k-ю строку табл. 5.3, т. е. вариант ранжирования k-м экспертом п объектов. Пусть при этом ранжировании объекты разбиваются на N упорядоченных классов, в каждый класс входят объекты с одинаковым порядковым номером. Обозначим через P\k\ ..., P\k) классы, содержащие более чем один элемент, а через t\k\ ..., t\k) — число элементов в каждом из этих классов соответственно. Определим для k-то ранжирования величину Подсчитаем далее статистику, численное значение которой характеризует степень согласованности мнений всех экспертов, так называемый коэффициент конкордации (согласованности) Кендалла: т2(п3—п) где т(/г + 1) п / т \2 /=i \k=\ ) Заметим, кстати, что максимальное значение коэффициента конкордации W равно 1 и достигается при абсолютном совпадении ранжировок всех экспертов, а минимальное значение W равно нулю и достигается в случае справедливости гипотезы Я0, т. е. при отсутствии какой бы то ни было согласованности в мнениях участвовавших в обследовании экспертов. Как показано в [8], если выполнена гипотеза Я0, то распределение величины ~y log Г^-L приближенно равно Z распределению Фишера со.степенями свободы 2(т— 1) 2 1 т* \i2 (W) m va = (m—l)vx, где m 7\ И-гг М-2j a.(W) = — , l*„ = — (n2-l)~ — T«>. ^w> тЦп-1) / » у ' ^u 12 V ' 2 B \*<2i = 1 212
При больших п и т ( n<J) в предположении справедливости гипотезы #0 удобно использовать в качестве приближения для распределения случайной величины т (п— 1) W распределение %2 (п — 1). Допустим, что все т ранжирований не содержат классов с одинаковыми номерами. В этом случае в предположении справедливости гипотезы Н0 в [8] затабулировано точное распределение W для следующих значений параметров: п = 3, т = 2, ..., 10; п = 4, т = 2, ..., 6; п = 5, т = 3. Пользуясь таблицами точных распределений, или же соответствующими приближениями, можно, задавшись определенным уровнем значимости, построить критическую область для проверки справедливости гипотезы Я0. Если значение статистики W попадет в эту критическую область, гипотеза Н0 отвергается с заданным уровнем значимости. Так, например, при достаточно большом числе экспертов (т -»- оо) и при числе объектов я > 7 мы можем, как указывалось, воспользоваться фактом приближенной х2 (п—1)-распределенности статистики т (п—\)W. Поэтому нежелательную для нас гипотезу Н0 следует отвергнуть лишь в том случае, если окажется, что т (п—\)W >> ХаХ X (я — 1), где W подсчитанный по вышеприведенной формуле коэффициент согласованности мнений всех экспертов, a xd (п—1)—100 а%-ная точка х2-распределения с п—1 степенями свободы (находится из таблиц по заданной величине уровня значимости критерия а). После предварительной обработки результатов экспертного ранжирования мы переходим к выбору функции ф (X), а именно к выбору вектора b = F1у 62,..., 8Р) (в дальнейшем, для удобства изложения, мы будем всюду иметь дело только с линейной аппроксимацией целевой функции). Для наилучшего выбора аппроксимирующей функции может быть предложен следующий подход. Любая функция ц>г (X) = р = 2 ?й*(/) задает некоторое ранжирование исследуемых объектов. Пусть ij{b) —порядковый номер, приписанный /-му объекту при использовании целевой функции фх (X) со значением векторного параметра, равным Ь. Вычислим коэффициент ранговой корреляции Спир- мэна между этим ранжированием и ранжированием k-vo эксперта, а именно Г т 6 2 (dpy + TM+TW р<*> ф) =--1 —Lz^j я3 —3 Здесь d{fk) = \ *'}л> — ij (b)\, а Т (Ь) — величина E.2), вычисленная для ранжирования с помощью 9i(X). В качестве оценки для b нужно m брать вектор 6, при котором величина 2 9{к) Ф) максимальна. k=\ При выборе фх (X) могут быть использованы и другие коэффициенты ранговой корреляции, например коэффициент ранговой корреляции т Кендалла, коэффициент конкордации и т. п. 8* 213
Остановимся теперь на других возможных вариантах информации о выходном качестве. б) Разбиение объектов на классы как результат экспертного опроса. Пусть т экспертами п объектов разбиты на классы (N^k)—число классов в й-м экспертном разбиении), близкие в смысле выходного качества у. Пусть Р<*) — разбиение, предложенное k-м экспертом. Для любых двух разбиений Р и Q может быть введена мера близости между этими разбиениями (см. § 4 главы III): где Ри d{P,Q)=±2 \Pii-Qul * i,i = \ если объекты Xi7 Хг находятся в одном классе разбиения Р\ если объекты Хь Хг находятся в разных классах разбиения Р, a qti определяется аналогично для разбиения Q. р Пусть фх(Х) = 2 Ьг xW — некоторая линейная аппроксимация у. Задавшись некоторым е ;> 0, можно с помощью щ (X) построить разбиение п объектов на классы. В один класс при этом попадут те объекты, у которых 0 ^ фх (X) <С е, в другой — те, у которых е ^ ^ Фх (X) << 2е и т. д. Полученное разбиение Р зависит, очевидно, от значений е и Ь. Подбираются такие значения 8 и Ьу чтобы величина т 2^<*> была минимальна. Здесь d<*> = d{Pik\ P). k=\ Для наилучшего выбора вектора коэффициентов Ъ можно использовать также так называемый «метод голосования», предложенный Ю. И. Журавлевым (см. также § 3 главы I). При любом г > 0 с по- р мощью линейной функции фх (X) = 2 &z х{1) строится разбиение п i=\ объектов следующим образом. Пусть в разбиениях классы занумерованы и /-й класс в &-м экспертном разбиении. Для любого объекта Xj подсчитывается величина г U,, *>{*>) = 2 nx,,xz), *1*п .<*) где Г (*,,*,) = 1, если О, если 2М*H-*!0) <е, i = \ >8. Объект Xj относится к тому классу, для которого величина Г(Ху, P\fc)) максимальна: Полученное разбиение обозначим через 2н
P{k) (e, b). Вычислим расстояние d<*> = d(P<*>, P<*>(e, b)). Подбирая m значения е, b> при которых 2 d{k) минимальна, найдем лучшие k=\ оценки для вектора 6. в) Оценка объектов в баллад как результат экспертного опроса. Пусть теперь т экспертами произведена оценка в баллах п объектов. Тогда для оценки вектора b в линейной аппроксимации фх (X) может быть использован метод наименьших квадратов. А именно, пусть 1-й объект получает от &-го эксперта балл w\k) (i = 1, ..., п\ k = = 1, ..., m). Мы считаем, что w\k)= 2 blX\l)+e\k) (i = l, ..., n\ A=l, ..., m). i = \ Относительно случайных ошибок e\k) мы предполагаем, что они независимы, нормально распределены и Me\k)=0, De\k) =^о*. В этом случае наилучшей оценкой для вектора b является вектор, минимизирующий величину т п / р \ 2 2 2 К- 2*,*!0 • k=ii=\\ l=\ J Этот вектор находится как решение системы линейных уравнений п Л т п р 2 хр± 2 wlk)-= 2 2 M°*P; /=i, 2 Р. /=i m k=\ i=\l=\ Если D e\k) = (о\к)У, то за оценку метода наименьших квадратов для вектора b берется вектор, минимизирующий величину т п / р \ 2 Примечание 1. Метод наименьших квадратов, вероятно, может быть использован для нахождения вектора бив случае ранжирования экспертами п объектов (случай а). При этом, полагая у$ = п = 2j i(jk\ находится вектор 6, минимизирующий А= 1 П ( Р \2 2 (л- 2&,*Н • Примечание 2. Иногда удобно пользоваться единым вариантом экспертной оценки объектов. Можно показать, что в случае ран- 215
жировки объектов (случай а) наилучшим способом получения такого единого варианта является приписывание каждому объекту" ранга, равного медиане ряда рангов, присвоенных ему всеми экспертами. Получение единого экспертного варианта в случае оценки объектов в баллах (случай в) состоит, как легко понять, в вычислении арифметических средних оценок для каждого объекта, правда, лишь после исключения резко выделяющихся (некомпетентных) экспертных оценок. 4. Некоторые замечания по использованию экспертно-статистического метода в задаче оптимизации структуры фондов потребления Замечание 1. Смысл и место целевой функции в задаче оптимизации структуры потребления. В данном случае целевую функцию «функцию общественного благосостояния», по нашему мнению, не следует интерпретировать как некую объективно существующую универсальную характеристику благосостояния общества, но лишь как удобный вспомогательный аппроксимационный инструмент при решении задачи оптимизации структуры потребления. При этом все этапы применения описанного здесь формального аппарата должны сопровождаться проведением подробнейшего политического, экономического, социологического, психологического и биологического анализа различных аспектов этой сложной комплексной проблемы (при отборе стран—объектов обследования; при отборе входных параметров; при выборе общего вида аппроксимации и т. д.). В этом, как нам кажется, наша точка зрения близка к позиции, сформулированной в выводах работы [11]. Замечание 2. Требование однородности объектов по неучтенным переменным. Несмотря на то, что вектор входных переменных (х<г\ ..., х^) должен отражать структуру потребления благ и услуг, понимаемых в самом широком смысле, ряд важных факторов и переменных остается при этом за рамками исследования. К таким факторам относятся политические, географические, психологические, историко-этногра- фические и другие характеристики стран. Поэтому для того, чтобы предлагаемый метод был эффективным, необходимо потребовать, чтобы он применялся лишь к совокупности стран, приблизительно однородных с точки зрения упомянутых выше неучтенных факторов. Во всяком случае, бессмысленно было бы сопоставлять с помощью экспертно- статистической аппроксимации целевой функции страны различных формаций, скажем, социалистические и капиталистические. Замечание 3. О выборе входных параметров. Трудности реализации экспертно-статистического метода в данной задаче. При выборе входных параметров приходится одновременно считаться с двумя противоречивыми требованиями. С одной стороны, для достаточно полной характеристики структуры потребления, ее прогрессивности желательна весьма насыщенная система показателей, отражающих соотношение отдельных частей потребления на разных 216
уровнях агрегации и при различных аспектах классификации. В качестве одного из вариантов такой системы можно предложить, например, следующую (вариант предложен Н. М. Римашевской). Система показателей макроструктуры фондов потребления страны. I уровень. 1) Доля потребляемых благ в общем объеме потребления благ и услуг. 2) Доля благ и услуг, потребляемых за счет коллективных фондов общества. 3) Доля благ и услуг, потребление которых связано со всесторонним развитием личности. II у р о в е н ь. 1) Доля продуктов питания в общем объеме потребляемых благ. 2) Доля благ и услуг, направленных на удовлетворение потребностей в образовании, в общем объеме потребления. 3) Доля благ и услуг, направленных на удовлетворение потребностей в культуре и информации, в общем объеме потребления. 4) Доля бесплатного потребления культуры и информации в общем объеме потребляемых этого рода благ и услуг. 5) Доля натурального потребления продуктов питания в общем объеме потребления продуктов питания. III у р о в е н ь. 1) Доля потребления хлеба и хлебобулочных продуктов в общем объеме питания. 2) Доля потребления фруктов в общем объеме питания. 3) Доля расходов на мебель и другие предметы длительного пользования в общем объеме расходов на жилище. 4) Доля расходов на личный транспорт в общем расходе на транспорт. 5) Доля общественного питания в общем объеме потребления продуктов питания. 6) Доля расходов на профилактику в общем объеме расходов на здравоохранение. 7) Расход на книги, газеты и журналы в общем расходе на культуру и информацию. 8) Расход на спортивный инвентарь в общих расходах на промышленные товары. 9) Расходы на спорт в общих расходах на спорт, отдых, развлечения. 10) Расход на туризм в общих расходах на спорт, отдых, развлечения. С другой стороны, специфика данной задачи такова, что представляет исследователю скудное количество исследуемых объектов (однородных стран), а потому вынуждает нас ограничиться лишь показателями 1-го уровня и, возможно, отдельными (наиболее информативными, важными) показателями 2-го уровня. Ведь мы не можем обойти ограничения, в соответствии с которым число неизвестных параметров функции фх (X) не может превосходить числа обследуемых объектов, а это накладывает ограничение на размерность р вектора входных параметров. В этом смысле в гораздо более выгодном положении находятся реальные задачи такого же типа, описанные в табл. 5.1. 217
5. Построение целевой функции для оценки мастерства спортсменов. На примере данных чемпионата мира по хоккею, Москва, 1973 г. Эту задачу мы решали по заказу Отдела хоккея Комитета по физической культуре и спорту Совета Министров СССР. Знание целевой функции позволяет в данном случае: 1) производить формализованную оценку мастерства хоккеиста, проявленного им в данном матче или серии матчей, юснованную только на знании отдельных числовых показателей, характеризующих его игру; 2) наиболее целесообразно строить индивидуальные планы тренировок, особое внимание уделяя совершенствованию тех компонент игры, которые вошли в целевую функцию с относительно большими весами и за счет которых, следовательно, можно добиться наиболее существенного прироста в оценках мастерства. Как и в любой работе такого профиля, в данной работе следует выделить следующие семь основных этапов: этап 1: постановка задачи; этап 2: предварительный отбор входных параметров; этап 3: организация экспертных обследований; этап 4: организация службы наблюдений, т. е. съема значений входных признаков; этап 5: вывод целевой функции (определение ее общего вида и вычисление весовых коэффициентов); этап 6: экспериментальная проверка адекватности целевой функции; ^ этап 7: рабочая эксплуатация целевой функции. Практически на всех этапах работа проводилась при систематических контактах и консультациях с представителями «заказчиков», и в первую очередь с Б. А. Майоровым г. а) Предварительный отбор входных параметров. Отправляясь от согласованного со специалистами предварительного набора показателей индивидуального мастерства хоккеистов, была составлена и размножена среди экспертов «Анкета-вопросник» со следующим текстом: «Оцените, пожалуиства, исходя из 100-балльной системы оценок, сравнительную значимость каждого из нижеприведенных факторов (показателей качества* игры хоккеиста), так или иначе учитываемых при сравнительной характеристике степени мастерства, проявленного игроками в данном соревновании. Если Вы считаете, что в указанном ниже перечне факторов не учтены какие-либо из существенных, на Ваш взгляд, числовых показателей качества игры хоккеиста, дополните его, пожалуиства, точным описанием смысла этих неучтенных величин». 1 В различных частях и стадиях информационного и математического обеспечения этой большой комплексной работы участвовали также С. С. Шаталин (постановка задачи), С. П. Забаринская и В. И. Орлов (программирование на ЭВМ), В. В. Когутовский и Ю. В. Брыкин (организация службы наблюдения), М. Д. Ильменский (непосредственная эксплуатация ЭВМ). 218
В результате статистической обработки таких анкет1 был определен окончательный набор входных параметров. Их перечень см. в табл. 5.5. б) Организация экспертных обследований. Экспертные оценки мастерства хоккеистов, участвующих в матче, нам были нужны на двух стадиях: на стадии так называемого «обучения», когда эти оценки используются для такого подбора весовых коэффициентов при отдельных показателях целевой функции, при котором формализованный метод оценивания дает, грубо говоря, те же самые баллы, что и экспертный; и на стадии экспериментальной проверки адекватности выведенной целевой функции, когда оценки, полученные с помощью целевой функции, просто сравниваются с соответствующими экспертными оценками. Соответственно, было два этапа работы экспертов. «Обучение» включало в себя три контрольных матча календаря первенства СССР февраля 1973 г. (матчи «ЦСКА — Химик», «Крылья Советов — Динамо» и «ЦСКА—Спартак»). На этой стадии эксперты должны отбираться особенно тщательно. Среди наших экпертов были, в частности, Б. Майоров, В. Старшинов, Ю. Морозов, В. Карпов, Ю. Баулин, В. Егоров, И. Ромишевский, Н. Пучков и др. видные специалисты отечественного хоккея. Экспериментальная проверка адекватности целевой функции производилась на всех 30 матчах первенства мира, на каждом из которых соответствующие анкеты заполнялись членами специальной бригады экспертов, состоящей, как правило, из 10—^человек. Подобная анкета, заполненная одним из экспертов по результатам матча второго круга «СССР—ЧССР», представлена ниже. АНКЕТА-ВОПРОСНИК Эксперту-специалисту спортивной игры «Хоккей» Оцените пожалуйства, исходя из 100-балльной системы оценок, сравнительную степень мастерства, проявленного участниками сегодняшнего соревновения. При этом Вы можете не оценивать действия всех участников сегодняшней встречи. Однако желательно, чтобы Вы включили в число оцениваемых не менее двенадцати лучших, на Ваш взгляд, хоккеистов данного матча. Место 1 2 3 4 5 Номер игрока 17 13 16 2 6 Коман- ' да СССР СССР СССР СССР СССР Балл 85 90 85 85 85 Место б 8 9 9 1 ю Номер игрока 3 22 20 8 7 Команда СССР СССР ЧССР ЧССР ЧССР Балл 75 70 70 70 75 1 Место 11 12 13 14 Номер игрока 14 3 9 4 Коман- j да ЧССР ЧССР СССР ЧССР Балл 75 70 75 75 1 Среди ответивших на вопросы анкеты были такие признанные авторитеты отечественного и мирового хоккея, как А. II. Чернышев, Б. А. Майоров, Б. П. Кула!ни, И. А. Ромишевский. 219
Статистическая обработка этих анкет — вывод среднего балла каждому участнику матча с предварительным исключением резко выделяющихся экспертных оценок, позволила получить единый экспертный вариант оценки мастерства хоккеистов. Отметим, что степень согласованности мнений всех экспертов относительно ранжирования участников матчей оказалась, как правило, весьма высокой: парные коэффициенты ранговой корреляции Спирмэ- на были на уровне 0,7~0,9, а коэффициент конкордации Кендалла — порядка 0,5 ~ 0,7 (но не ниже чем 0,35), и всегда «с запасом» выдерживал статистическую проверку на значимое отличие от нуля, см. п. 3 настоящего параграфа. в) Сбор статистической информации и построение целевой функции. И на первых трех контрольных матчах первенства СССР, и на всех матчах первенства мира служба наблюдения выдавала нам, в конечном счете, информацию по форме, пример которой (на результатах матча второго круга «ФРГ — Польша») приведен в табл. 5.4. Использование моделей и методов, описанных в п. 3 (в) настоящего параграфа и основанных на информации, содержащейся в анкете и в табл. 5.4, позволило получить в результате соответствующей статистической обработки данных по контрольным матчам три варианта линейных аппроксимаций целевых функций1: — вариант целевой функции, оценивающей индивидуальное мастерство защитника: ^защ(*A)> ..., x({l)) = 10 + 4x^ + xW + 4xW + xW + + x^ + 0,2xW+3xW+xW+xW', — вариант целевой функции, оценивающей индивидуальное мастерство нападающего: ^наЛ*0^ .... x(")) = 8x^ + xW + xW + 0,5xW + + х^+0,2х^ + х(*)+х^ + 3х([°); — вариант целевой функции, оценивающей универсальное мастерство хоккеиста, т. е. позволяющей сравнивать между собой защитников и нападающих: W(xW, ..., х^) = 15 + 6х^ + х^+2х^+х^+0у5х^) + + 0,2х<6> +4х<8> -f 2jk<9> +x<10>. Отметим, что систематический пересчет весовых коэффициентов по накапливающимся итогам матчей чемпионата мира выявил факт "относительной стабилизации значений весовых коэффициентов, что дает основание надеяться на содержательность и объективность полу- 1 В системе наблюдений был упущен фактор х( \ поэтому он временно выпал из нашего дальнейшего рассмотрения. Весовые коэффициенты проходили стадию уточнения и на первых мачтах чемпионата мира. И наконец, в рамках линейных аппроксимаций значения целевых функций в ряде случаев, например в матчах, закончившихся с разницей в 12 и более шайб, могут превышать максимально допустимую оценку 100 баллов. В этих редких случаях мы доопределяли целевую функцию значениями, равными 99 баллам. '220
Таблица 5.4 X \ Н азвани е и \ обозначение \ фактор о в \ \ Номер \ игрока \ \ 1 Защитники 2 3 Нападающие 9 10 га СО О Л Ч Ь С У со о я ю ь ! "- га \ ? ч Ч со О у *0> 2 0 0 0 0 а о vo * 3 а н S s •9-га «•2 ?! 3 м «о *<2> 3 2 0 2 3 о S и 1 л я 5 f- = У га о, о. о t-VO я о 3 = я я л <=С У X 58 *C) 4 2 0 4 1 3 га 3 о 5 о ? ю ~ н со с я ч о. У с я 3- >> *<4> 5 22 11 7 15 о мик рока m U м я га о а я я •о 2- У О У Я S* га га Си S хE> 6 га в* У а. У X 3 3* О о ч я *<6) 7 X 3 я я я $f н5 J3 У я а 3* У о с ga Ч я ? с IT с *<7> 8 X 3 « я * я s га 5 а со о s я о G.G* га с сш о о ч * У У я о ^? ,< 8) 9 Команда Польши 1 0 1 —1 21 7 9 14 — — — — 0 0 0 0 К ' У я «о м е- я н У У У 2 2 = 3" s к у д s сч 5 ио C.SVO а я ш g га я о." а 2 у н 2 S ° 5 * i и х з *<9> 10 5,9 0,5 1,7 1,5 X 3 ч о л о >>* g* ° о .5 О Ег о „A0) 11 2 0 0 0 я S о ! о и О •е- 3 га s s и *<П) 12 2 2 2 2 Примечание. Содержание таблицы как не имеющее принципиального значения в описании сущности метода дано в сокращенном виде. ченного с помощью этих целевых функций формализованного метода оценивания мастерства хоккеистов. Последующая экспериментальная проверка оправдала эти надежды. г) Экспериментальная проверка и рабочая эксплуатация полученных целевых функций. Тридцатикратное сопоставление экспертной и формализованной (т. е. произведенной с помощью целевых функций) оценок мастерства хоккеистов на матчах чемпионата мира, так же как и тщательный профессиональный анализ накопленного итога показал устойчивую обоснованность и профессиональную глубину выводов, полученных с помощью целевых функций. В табл. 5.6 приведен накопленный итог чемпионата по показателям индивидуальных действий двенадцати лучших защитников и двадцати лучших нападающих, определенных с помощью целевых функций соответственно №3ащ № и ^пап W> выписанных выше. Заметим, что выявленные нами кандидатуры на лучшего защитника, лучшего нападающего, так же как и состав символической сборной мира, практически совпали с мнением специальных жюри чемпионата и прессы1. 1 В символическую сборную, названную в результате специального опроса журналистов, вместо Васильева вошел Сальминг (Швеция), хотя директоратом ЛИГХ Васильев официально провозглашен лучшим защитником чемпионата! 221
XBJ.XHHW s Bwado эонфвс1хгП (OOO^-incOOOCOINNO им^оаро 5I4HhBtf^ к e ; .2* «я s 11 c— T~ c_ ^ о юпо)юоп- omotsco CD U5-Nin-4-SO(MNainWNNCO МЮ вдээ вн 149 CCCTfOCOOOt^cO—«ОСОСЧСЧ o-onoco*--HOosoow->«ooo HhBtf эс!эи эиньох <N СЧ <М СЧ —-* — <N — — — -и ЮС7ЭО «—' CO CO cT> C7> -^ cji TfcN^fCOCO—*СОЮг*«сО СЧ — <M<M—< — .-< — — -*—*.-.«—<—.~.«-^~-« s * ™XO Effi О 5 i49yern 14CI09JLO 8Hh0dlJ O00C0<Mt--00C0~ — —<t^-t^.00000000CT>OCDcC i ° о -, я ч х 5 OQ аз 3^ 00 WBJ.odoe ou имэос1д eoiroj эинен -OdHlDHDDV stosco —оо — ол —со ЮСО^ОСМСЧСООЦ-*.—нос- COCOtf3cO<MlftTfr>. rciroj О Tft- —'CO—< О О О —• ©<N OOCOQ'ttO^ O5COt>-CMt^C0COt^<NCMCOCNCOTt" a, p, a, °-Q«, й< sa. -, », ,-, К К К 88888*8 s8gf 88||yggs8 e BModJH dawoH COlOCNt^-^COt^COCNl'-CiOi 11/u o\* 3 ca c; 3 л у ^ о со a 3 at I 5: ca = 2, <у ; са С- со О СУ г> ;q^^^3ffi о ё s s : с- 5 °з ^ <*> v ; 'iTCNKco-: —«сч со >*• ю ее г~ ее ст. о — с i^ '^ t-- «С О О 222
Таким образом, по итогам чемпионата мира компьютер определил следующих лучших игроков: лучший защитник Васильев № 6 СССР лучший нападающий Петров № 16 СССР Символическая сборная мира: вратарь Холечек № 2 ЧССР правый защитник Васильев № 6 СССР левый защитник Гусев № 2 СССР правый нападающий Михайлов № 13 СССР центральный нападающий Петров № 16 СССР левый нападающий Харламов № 17 СССР § 2. ВЫЯВЛЕНИЕ ОСНОВНЫХ ТИПОВ ГОРОДОВ РСФСР С ТОЧКИ ЗРЕНИЯ ИХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО ОБЛИКА 1. Постановка задачи Эта задача возникла как промежуточный этап решения проблемы, посвященной достаточно детализированному анализу подробных статических данных о городах РСФСР и нацеленной на выявление наиболее характерных черт и закономерностей в социально-экономическом облике среднего по величине типичного российского города. Проводить подробный, кропотливый анализ по каждому из городов РСФСР (включающий в себя достаточно сложную систему опросов и анкетирования населения) было практически нереально из-за трудоемкости. Поэтому мы попытались предварительно выявить число и состав различных типов в совокупности исследуемых городов, выявление этих типов производить по набору (л;*1), ..., х^>) достаточно агрегированных признаков, характеризующих каждый город с точки зрения уровня образования его жителей, половозрастного состава и характера занятости. Затем, получив, так или иначе, в выбранном р — мерном пространстве разбиение исследуемых городов на какое-то количество типов (однородных классов) и отметив в каждом классе наиболее характерные, города, т. е. наблюдения, «точки», наиболее близко располагающиеся к «центрам тяжести» своих классов, можно рекомендовать их для дальнейшего, уже более детализированного обследования. При этом, очевидно, мера репрезентативности (представительности) отобранных «типичных» городов определится удельным весом количественного состава точек данного класса среди всех рассматриваемых «точек»-городов. Было рассмотрено всего п = 74 города РСФСР (их перечень и результаты классификации, полученные различными методами, см. в табл. 5.6) с численностью населения от 100 до 500 тыс. человек1. 1 Наше внимание к этой проблеме привлекла Н. М. Римашевская. Она же предоставила п^м исходные данные, участвовала в содержательном анализе промежуточных этапов решения. Из авторов данной книги наиболее активное участие в решении этой задачи принимал О. В. Староверов. 223
Таблица 5.6 7 № п/п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 Название города | 1 Новошахтинск Уссурийск Чебоксары Березники Серпухов Белово Новомосковск Орехово-Зуево Норильск Армавир Рубцовск Стерлитамак Анжеро-Судженск Махачкала Черемхово Подольск Ленинск-Кузнецкий Ангарск Калуга Петрозаводск Вологда Каменск-Уральский Ставрополь Бийск Курган Смоленск Сызрань Орел Тюмень Владимир Липецк Златоуст Копийск Дзержинск Орджоникидзе Кострома Тамбов Чита Улан-Удэ Орск Комсомольск-на- Амуре Рыбинск Шахты Таганрог Калининград Курск Ульяновск Брянск Рязань Мурманск Г розный 1 1 . 1 2 1 2 3 1 2 1 1 2 1 2 4 4 1 3 1 2 1 1 3 3 3 4 3 4 3 3 4 3 3 3 3 4 1 1 3 3 3 3 3 4 4 4 1 4 3 3 5 3 3 3 3 1 1 2 3 1 2 3 4 5 1 1 4 3 2 4 4 1 2 1 4 1 3 3 2 2 4 2 4 4 2 2 2 2 3 4 4 1 4 2 i 4 2 2 2 4 4 4 1 4 з 1 2 4 2 з 3 9 Номер метода 1 3 1 4 1 2 3 4 5 1 4 2 2 2 4 4 1 3 1 2 1 2 5 3 1 3 4 5 4 2 5 4 з 2 3 2 4 1 4 5 3 5 2 2 4 4 2 4 3 3 5 2 3 3 2 2 4 5 1 2 3 4 5 1 4 5 2 5 4 4 1 3 1 5 1 2 3 3 3 4 3 4 2 3 4 3 2 3 2 4 1 4 3 5 з 2 2 4 4 5 4 5 3 3 5 3 3 2 3 классификации 1 5 1 6 1 2 3 4 5 1 4 5 3 5 4 4 1 3 1 5 1 3 5 2 2 4 3 4 2 3 4 3 2 3 3 4 1 4 3 5 3 2 2 4 4 5 4 5 3 з 5 3 3 2 2 1 6 1 * 1 2 3 4 5 1 4 4 3 2 4 4 1 2 1 4 1 3 3 2 2 4 2 4 4 2 2 3 2 3 4 4 1 4 2 4 2 2 2 4 4 4 1 4 3 2 4 2 3 3 2 1 7 8 гг 2 3 4 4 1 1 4 3 2 4 1 1 2 1 4 1 3 5 2 2 4 2 2 3 2 1 5 2 3 2 4 1 4 2 4 2 2 2 1 4 4 1 4 2 5 4 2 5 3 2 '' ? 19 1 2 3 3 4 1 1 4 4 2 3 1 1 2 1 4 1 3 5 5 5 3 2 1 3 5 1 5 5 4 5 3 1 3 2 4 2 2 5 1 3 4 1 4 5 5 4 5 5 3 2 224
Таблица 5.6 (продолжение) № п/п 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 Название города 1 Томск Киров Пенза Архангельск Калинин Оренбург Кемерово Прокопьевск Ижевск Владивосток Астрахань Барнаул Магнитогорск Краснодар Тула Хабаровск Иваново Нижний Тагил Иркутск Новокузнецк Ярославль Красноярск Воронеж 1 1 2 3 3 5 3 5 3 3 3 3 3 3 3 4 3 5 3 3 4 3 4 3 3 3 2 3 1 2 4 4 2 3 2 4 1 4 3 2 4 4 2 4 2 4 4 2 4 4 3 1 з 1 Номер 3 4 3 2 3 3 3 3 2 1 2 3 3 2 4 5 3 3 3 4 3 4 2 3 5 метода 4 ~ 3 5 5 3 5 3 2 1 4 3 5 2 4 3 5 2 5 4 3 4 5 2 3 классификации 5 ! 6 3 5 5 2 5 3 4 1 4 3 5 3 4 5 5 2 5 4 3 4 5 3 3 6 7 2 4 4 3 3 2 4 1 4 3 2 4 4 2 4 2 4 4 2 4 4 3 3 7 8 2 4 5 2 4 2 2 1 4 2 2 3 1 5 4 2 4 4 5 1 4 3 1 5 1 8 9 5 4 4 5 4 5 5 1 4 5 5 4 3 5 4 2 4 4 8 1 4 3 5 В качестве компонент *<»> (i = 1, 2, ..., р) вектора наблюдений X рассматривались 32 переменные х<1\ ..., *<32) (р = 32), каждая из которых измерялась в удельном числе жителей города (приходящемся на каждую тысячу населения), обладающих некоторым определенным признаком. При этом первые четыре признака (л:A)—хD)) относились к уровню образования: высшее образование, незаконченное высшее, среднее специальное или общее образование, семилетнее образование; начальное образование; следующие двенадцать (л;*5) —х<16>) — к половозрастному составу; пять признаков (хA7> —*B1)) описывали социальный характер занятости населения, а остальные (x<22> — хB9)) описывали распределение населения по различным областям материального и нематериального производства и выделили источники основных доходов (x<30> — л;<32>): пенсионеров, стипендиатов и жителей города, занятых в сфере материального производства (подробнее см. табл. 5.7). Данные по каждому городу брались по переписи населения от 15 января 1959 г. Интерпретируя, таким образом, каждый из 74 обследованных городов как точку в соответствующем тридцатидвухмерном пространстве, мы поставили перед собой следующие задачи: — снизить размерность исследуемого тридцатидвухмерного факторного пространства (до р' = 2, 3 или 5) с помощью метода главных компонент (см. § 1 главы 4); 225
Таблица 5.7 Признак 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Обозначение признака ХA> *B> *C> *<4> л:<5> *<6> *<7> *<8> х(9> х<10> *<"> ^A2) ^A3) *<14> ^.A6) хив) х<17> ^A8) *<19> ^B0) ^B1) ^B2) ^B3) ^B4) д^B5) #B6) *<27) д;B8) ^B 9) д;C0) *C1) ^C2) Описание признака Число жителей города, приходящееся на каждую тысячу городского населения с образованием: высшим незаконченным высшим, средним специальным или средним общим семилетним начальным Мужчин: в возрасте: до 1 года от 1 до 2 лет от 3 до 6 лет от 7 до 15 лет от 16 до 17 лет от 18 до 25 лет от 26 до 29 лет от 30 до 39 лет от 40 до 49 лет от 50 до 59 лет свыше 59 лет занятых в сфере материального производства и непроизводственной сфере рабочих ' иждивенцев рабочих служащих иждивенцев служащих занятых в сфере материального > производства в промышленности: рабочих служащих в строительстве: рабочих служащих в отрасли «связь»: рабочих служащих в торговле и общественном питании: рабочих служащих пенсионеров получающих различного рода стипендии занятых в сфере материального производства
— применить «метод k - средних» и «метод потенциальных функций» (см. § 3 главы 3) для классификации городов в исходном пространстве и в пространстве сниженной размерности; — с помощью экспертов (специалистов по экономической географии) получить контрольное («экспертное») разбиение исследуемой совокупности городов на однородные классы и произвести сравнение различных вариантов формального (машинного) разбиения как между собой, так и с экспертным разбиением; — получить содержательные выводы произведенного численного анализа, позволяющие описать качественный и количественный состав основные однородных групп городов и выявить наиболее типичных представителей от каждой из групп. 2. Снижение размерности с помощью главных компонент Анализ главных компонент вектора X' = {х^\ ..., л;<32)), построенных по выборочной корреляционной матрице размерности 32 X 32 (для экономии места эта матрица здесь не приводится), показал, что первая главная компонента характеризует города в основном с точки зрения удельного веса прослойки населения детского (до 8 лет) и пожилого (после 40 лет) возраста, а также имеющего законченное или незаконченное высшее образование. В то же время вторая главная компонента имеет социальный смысл, характеризуя города с точки зрения удельного веса прослойки населения, занятой в сфере материального производства или непроизводственной сфере (или, что практически дублирует этот признак, — имеющий возраст между восемнадцатью и сорока годами). На рис. 5.1. показано, как меняется доля суммарной дисперсии q (/?), заключенной в р' первых главных компонентах вектора X, описанного в табл. 5.7. при изменении р' (см. формулу 4.10). Из рисунка Мы видим, что на первые две главные компоненты приходится 51%, на первые три — 67%, а на первые пять — 78% от суммарной меры случайного рассеяния исследуемых точек-городов. Поэтому в дальнейшем наряду с наглядно интерпретируемыми случаями р' = 2 и р' = 3 классификация городов будет производиться также по пяти главным компонентам (р = 5). 227 Рис. 5.1. Изменение доли суммарной дисперсии q(p'), заключенной в р' первых главных компонентах вектора X
На рис. 5.2 представлены проекции исследуемых тридцатидвухмерных точек-городов на плоскости двух первых главных компонент у^ и уB). Анализ рис. 5.2 склоняет к мнению, что в данной задаче вряд ли можно ожидать достаточно явного распадения исследуемой совокупности точек-городов на четко выраженные «сгущения»», однородные классы. Однако пять слабо выраженных сгущений мы все-таки можем условно наметить. На рис. 5.2 они обведены пунктирными .33, C°) I I •59 ./7 •6 / 22/ У / ^ / / / / .40 У / 43 ~"\ • 7 .41.71 .32 *34 .60 •12 \ т64 .69 У / / .31 391 •24/ /лиг 25 • ft /18 N •50\ \ •63 45\ 73Л уB) •10 {-51 \ •62 © • 35 •38 .37 / .65/ •29 •67 •44 \ ?42 72 • •36 %48 •53 •20.70 •55 *54 \то •52 * •56 •46 •28.19 66 *74 •2^ -уП \ \ © •39 .3 .49 ' '•5 У Рис. 5.2. Расположение проекций 32-мерных точек- кость первых двух главных компонент -городов на плос- линиями и обозначены с помощью Г — 5° (нумерация классов не соответствует той, которая принята в табл. 5.6). Это дает нам первое (приближенное) представление о числе однородных классов (типов городов) и их составе. 3. Сравнительный анализ результатов классификации городов Во-первых* наша выборка из 74 городов была предъявлена специалисту по экономической географии для разбиения на однородные (с его точки зрения) классы. При классификации городов эксперт исходил в основном из своих представлений о них и практически не использовал данных, описываемых вектором признаков X' = (л^1),..., л;<32>). Основными критериями, на которые ориентировался эксперт, 228
являлись промышленный и культурный облик города, его административный статус. В связи с этим эксперт не дал четкого разбиения всех городов на однородные группы. Правда, число условных групп &, на которые, в конечном счете, эксперт счел возможным раабить предъявленные ему города, совпало с тем, которое мы ориентировочно наметили, анализируя рис. 5.5 (и в том, и в другом случае k = 5). При этом к первому классу эксперт отнес в основном шахтерские центры и центры химической промышленности. Ко второму — города с обрабатывающей промышленностью и областные центры тяжелого машиностроения, к третьему — небольшие областные центры обрабатывающей промышленности и областные центры тяжелого машиностроения, к четвертому — центры тяжелого машиностроения, химической промышленности и города горнодобывающей и металлургической промышленности, к пятому — несколько специфических, с его точки зрения, городов. В табл. 5.6 приведены результаты разбиения исследуемой совокупности городов на заданное число k=5 классов, произведенного восемью различными способами. При этом под номером 1 подразумевается экспертный метод классификации, под номерами 2^5 — классификация методом потенциальных функций (№ 2 — по всем 32 признакам, № 3 — по первым двум главным компонентам, § 4 — по первым трем главным компонентам, № 5 — по первым пяти главным компонентам), под номерами 6~8 — классификация методом ^-средних (№6 — по всем признакам и при предъявлении «наблюдений» в том порядке, как они занумерованы в табл. 5.7; № 7 — по всем признакам при обратном порядке предъявления «наблюдений»; № 8— по всем признакам и при предъявлении городов в порядке: 38, 39,..., 74; 1, 2,..., 37). Как и следовало ожидать, формальные разбиения весьма хорошо согласуются с приближенным графическим разбиением, намеченным в плоскости двух первых главных компонент (см. рис. 5.2). Однако намеченные на рисунке классы 4° и 5° оказались, грубо говоря, объединенными в один класс («класс 3») в экспертном варианте разбиения. Проведенное исследование подтвердило также тот факт, что при сравнительно небольших объемах классифицируемых наблюдений (а у нас п = 74, при размерности р = 32!) результат разбиения, получаемого с помощью асимптотически «хорошего» метода k - средних, существенно зависит от порядка предъявляемых наблюдений. Чтобы не утомлять читателя, мы не будем приводить здесь результаты подробного сопоставления различных разбиений, произведенного с помощью различного рода «расстояний между разбиениями» (см. § 4 главы 3), так называемых «таблиц сопряженности», критериев х2 и т. п. 4. Выводы и замечания Классификация городов, произведенная с помощью различных вариантов методов разбиения многомерных наблюдений на классы, не обнаружила естественного и достаточно явного разделения городов на 229
однородные классы. Это склоняет нас к выводу, что из двух вариантов постановки задачи разбиения многомерных наблюдений на классы в данном случае естественнее исходить из так называемой «обычной задачи типизации», при которой исследователь не ставит перед собой цели выявить наличие естественных «сгустков» (скоплений) наблюдений, лежащих на некотором взаимном удалении, но не разбивающихся — каждое — на столь же удаленные друг от друга части. В результате проведенного решения предложено несколько сравнительно близких вариантов решения задачи типизации городов и описано, как в каждом из вариантов определить наиболее типичного представителя группы. Для этого надо определить точку-город, наиболее близко отстоящую от «центра тяжести» соответствующей группы (области группирования). В частности, к таким «типичным представителям» наиболее представительной группы городов (на рис. 5.2 она составляет объединение групп 4° и 5°) могут быть отнесены города Кострома (точка № 36), Таганрог (№ 44), Архангельск (№ 55) и некоторые другие. Наблюдаемое различие в экспертном и машинном разбиении городов на группы в какой-то мере можно объяснить и тем, что эксперт производил разбиение на основании своих профессиональных знаний, опыта, интуиции и т. п., относящихся к облику анализируемых городов периода 1967—1969 гг., в то время как машинная классификация опиралась на данные 1959 г.
ЛИТЕРАТУРА Введение 1. Андерсон Т. Введение в многомерный статистический анализ. М., Физ- матгиз, 1963. 2. Д у б с о н М. С, С о р о к и н а С. Г., Т ю р и н Ю. Н. Об оптимальном выборе факторов в задаче множественной регрессии. — В сб.: Математические методы и модели в экономике. Вып. 3. М., «Наука», 1972. 3. Распознавание образов в социальных исследованиях (под редакцией Н. Г. За- горуйко и Т. И. Заславской). Новосибирск, «Наука», СО АН СССР, 1968. 4. Р о з и н Б. Б. и др. Группировка предприятий отрасли методами теории распознавания образов. «Экономика и математические методы», 1969, т. V, вып. 3, с. 353—365. 5. Ш у р ы г и н А. М. Выбор параметров для классификации двух нормаль- ных/ювокупностей с равными ковариациями. — В сб.: Статистические методы классификации, изд. МГУ, 1969, с. 47. 6. W i 1 k s S. S. Multivariate statistical outliers. Sankhya, The Jndian J. of Statistics,25, s. A. p. 407—426. Глава I 1. Андерсон Т. Введение в многомерный статистический анализ. М., Физ- матгиз, 1963. 2. Благовещенский Ю. Н. F — метод классификации для нормальных совокупностей: В сб.: Статистические методы классификации. Вып. 1. Препринт № 6, изд. МГУ, 1969. 3. Благовещенский Ю. Н., МешалкинЛ. Д. Линейная классификация распределений с поверхностями постоянного уровня, состоящими из концентрических эллипсоидов. — В сб.: Статистические методы классификаций. Вып. 1. Препринт № 6, изд. МГУ, 1969. 4. Колмогоров А. Н. Основные понятия теории вероятностей. М., Гостехиздат, 1936. 5. К о н а к о в В. Д. Непараметрическая оценка плотности распределения вероятностей. — «Теория вероятностей и ее применения», Т. 17, № 2, 1972. 6. М е ш а л к и н Л. Д. Об одном методе эмпирического улучшения положения плоскости классификации. — В сб.: Статистические методы классификации. Препринт № 6, изд. МГУ, 1969. 7. М е ш а л к и н Л. Д. Локальные методы классификации. — В сб.: Статистические методы классификации. Вып. 1. Препринт № 6, изд. МГУ, 1969. 8. Р а о С. Р. Линейные статистические методы и их применения. М., «Наука», 1968. 9. Шлезингер М. И. О самопроизвольном различении образов. — В сб.: Читающие автоматы. Киев. «Наукова думка», 1965. 10. Anderson Т. W., Bahadur R. R. Classification into Multivariate Normal Distributions with Different Covariance Matrics. Ann. Math. Stat , 33, № 2, 1962. 11. Fix E., Hodges J. L. Nonparametric Discrimination, 1. Consistency Properties. Tech. Report 11, Randolph Field, Texas, 1951. 12. F i x E., Hodges J. L. Nonparametric Discrimination, 2. Smoll Sample Preformance. Tech. Report 11, Randolph Field, Texas, 1951. 13. H e 1 1 m a n M. E. The Nearest Neighbor Classification Rule with a Reject Option. IEEE Trans. Sist Sci Cybernetics, 6, № 3, 1970. 14. Loftsgaarden D. 0.,QuesenberryC. P. A Nonparametric Estimate of a Multuvariate Density Function. Ann., Math. Stat., 36, № 3, 1965. 15. M а с Q u e e n J. Some methods for classification and analysis of multivariate observation. Proc. Fifth Berkeley Symp. Math. Stat. a. Probab., 1967, 1> p. 281—297. 16. M u г t h у V. К- Nonparametric Estimation of Multivariate Densities with Applications. Multivariate Analysis, 1966, Proc. Intern. Symp. held in Dayton Ohio. June 14—19, 1965. 231
Глава II 1- Андерсон Т. Введение в многомерный статистический анализ. М., Физматгиз, 1963. 2. Шлезингер М. И. Взаимосвязь обучения и самообучения в распознавании образов. — «Кибернетика», 1968, № 2, с. 81—8ф. 3. D а у N. Е. Estimating the Components of a Mixture of Normal Distributions. — «Biometrika», 56, № 3, 1969. 4. D а у N. E. Divisive Cluster Analysis and a Test for Multivariate Normality. Тезисы сообщения на сессии Международного Статистического института. Лондон, 1969. 5. F г а 1 i k S. С. Learning to Recognize Pattern without a Teacher. IEEE Trans. 1967, IT—13, № 1. 6. Y а к о w i t z S. A. A Consistent Estimator for the Identification of Finite Mixtures. Ann. Math. Stat., 40, № 5, 1969, p. 1728—1735. 7. Y а к о w i t z S. A., Spragins J. On the Identifiability of Finite Mixtures. Ann. Math. Stat., 39, № 1, 1968, p. 209—214. 8. P a t r i с Е. А., С о s t e 1 1 о J. P. On Unsupervised Estimation Algorithm. IEEE Trans., IT—16, №5, 1970, p. 556—569. 9. S p r a g i n s J. Learning without a Teacher. IEEE Trans. 1966, 11 — 12, № 2, 1966, p. 223—230. 10. T e i с h e r H. Identifiability of finite Mixtures. Ann. Math. Stat., 34, № 4, 1963, 1265—1269. 11. T e i с h e r H. Identifiability of Mixtures. Ann. Math. Stat., 32, № 1, 1961, p. 244—248. Глава III 1. Айвазян С. А. Статистическое исследование зависимостей. М., «Металлургия», 1968. 2. Айвазян С. А., Б е ж а е в а 3. И. Об экспертно-статистическом методе аппроксимации неизвестной целевой функции. Труды Всесоюзной научно- технической конференции «Применение теории вероятностей и математической статистики в народном хозяйстве», 1972. 3. Айзерман М. А., БраверманЭ. М.,Розоноэр Л. И. Метод потенциальных функций в теории обучения машин. М., «Наука», 1970. 4. Андерсон Т. Введение в многомерный статистический анализ. М., Физматгиз, 1963. 5. Аркадьев А. Г.,Браверман Э. М. Обучение машины классификации объектов. М., «Наука», 1971. 6. Б о н н е р Р. Е. Некоторые методы классификации. — В сб.: Автоматический анализ сложных изображений. М., «Мир», 1969. 7. Браверман Э. М. Метод потенциальных функций в задаче обучения машины распознаванию образов без учителя. — «Автоматика и телемеханика», 1966, № 10, с. 100—121. 8. В ы х а н д у Л. К. Об исследовании многопризнаковых биологических систем. — В сб.: Применение математических методов в биологии, т. 3. изд. ЛГУ, 1964, с. 19—22. 9. Г л а д ы ш е в Е. Г. О стохастической аппроксимации. —«Теория вероятностей и ее применение», 1965, т. 10, № 2. 10. Д о р о ф е ю к А. А. Алгоритмы обучения машин распознаванию образов без учителя, основанные на методе потенциальных функций. — «Автоматика и телемеханика», 1966, № 10, с. 78—87. 11. Е л к и н а В. Н., Е л к и н Е. А., Загоруйко Н. Г. О возможности применения методов распознавания образов в палеонтологии. — «Геология и геофизика», 1967, № 9. 12. Е л к и н а В. Н., Загоруйко Н. Г. Количественные критерии качества таксономии и их использование в процессе принятия решений. — В сб.: Вычислительные системы. Вып. 36. Новосибирск, «Наука», 1969. 13. Е л к и н а В. Н., Бахмутова И. В., Тимиров В. С. Программы таксономии.—В сб.: Вычислительные системы. Вып. 45. Новосибирск, «Наука», СО АН СССР, 1971, с. 3-55. 232
14. Житков Г. Н. Некоторые методы автоматической классификации. — В сб.: Структурные методы опознавания и автоматическое чтение. Всесоюзный институт научной и технической информации. М., 1970. 15. Журавлев О. Г., Торговицкий И. Ш. Оптимальный метод объективной классификации в задачах распознавания образов. — «Автоматика и телемеханика», 1965, № 11. 16. 3 а г о р у й к о Н. Г. Методы распознавания и их применения. М., «Советское радио», 1972. 17. К е м е н и Д ж., С н е л л Д ж. Кибернетическое моделирование. Некоторые приложения. М., «Советское радио», 1972. 18. Л у м е л ь с к и й В. Я. Агрегирование матрицы межотраслевого баланса с помощью алгоритма диагонализации матрицы связи. — «Автоматика и телемеханика», 1970, № 9, с. 69—72. 19. М и р к и н Б. Г. Об одном подходе к обработке нечисловых данных. — В сб.: Математические методы моделирования и решения экономических задач. Под ред. К. А. Багриновского. Новосибирск, СО АН СССР, 1969. 20. Миркин Б. Г. Об аксиоматических подходах к согласованию классификаций (доклад, представленный на конференцию «Логика и методология», Вроцлав, 1971). 21. Миркин Б. Г., Черный Л. Б. Аксиоматический подход к измерению близости между различными классификациями объектов данного множества. — В сб.: Математические методы моделирования и решения экономических задач. Под ред. К. А. Багриновского. Новосибирск, СО АН СССР, 1969. 22. М и р к и н Б. Г., Черный Л. Б. Об измерении близости между различными разбиениями конечного множества объектов. — «Автоматика и телемеханика». 1970, № 5, с. 120—127. 23. Психологические измерения. Сборник переводных статей (под редакцией А. Д. Мешалкина). М,, «Мир», 1967. 24. Распознавание образов в социальных исследованиях (под ред. Н. Г. Загоруй- ко и Т. И. Заславской). Новосибирск, «Наука», СО АН СССР, 1968. 25. Р о з и н Б. Б. и др. Группировка предприятий отрасли методами теории распознания образов. — «Экономика и математические методы», 1969, т. V, вып. 3. 26. Р о з и н Б. Б. Распознавание образов в экономических исследованиях. М., «Статистика», 1973. 27. С е б а с т и а н Г. С. Принятие решений при распознавании образов (Пер. с англ.), Киев, «Техника», 1965. 28. Т е р е х и н А. Т. Методы кластер-анализа и их применения в социологических и экономических исследованиях. (Диссертация на соискание ученой степени кандидата технических наук, МГУ, 1972). 29. Т е р - М к р т ч я н С. Г. Об ожидаемой оправдываемости прогноза в схеме квадратичного дискриминантного анализа. «Статистические методы анализа и прогноза метеорологических полей». Труды гидрометеорологического научно-исследовательского центра СССР. Вып. 44, Л., 1969. 30. Торговицкий И. Ш. Распознавание образов при отсутствии процесса обучения. — В сб.: Вопросы бионики, 1967. 31. Ц ы п к и н Я. 3. Основы теории обучающих систем. М., «Наука», 1970. 32. Ц ы п к и н Я. 3., К е л ь м а н с Г. К. Рекуррентные алгоритмы самообучения. Изв. АН СССР.—«Техническая кибернетика», 1967, § 5, с. 70—80. 33. Ш л е з и н г е р М. И. О самопроизвольном различении образов. — В сб.: Читающие автоматы. Киев. «Наукова думка», 1965. 34. Arrow К. Social Choice and Individual Values. J. Wiley, 1951; 2 ed. 1963, 3 ed. 1966. 35. В a 1 1 G. H., Hall D. I. Isodata, a novel methods of data analysis and pattern classification. Stanford Res. Inst. Calif., 1965. 36. Blum J. A. Appoximation methods which converges with probability one. Ann. Math. Stat., 25, № 2, 1954, p. 382—386. 37. В 1 u m J. A. Multidimensional stochastic approximation procedures. Ann. Math. Stat., 25, № 4, 1965, p. 734—744. 38. Bolshev L. N. Cluster analysis. Bull. Int. Stat. Inst., № 43, 1969, p.441 — 425. 233
39. D i d ay E. Une nouvelle methode en classification automatique et reconnaissance des formes. La methode des nuee dinamique. Rev. Stat, Appl., 19, 1971, p. 19—34. 40. D v о r e t s к у A. On Stochastic Approximation. Proc. 3 Berkley Symp. Math. Stat, a Probab., № 1, 1956. 41. E d w a r d s A. W. F., С a v a 1 1 i -S f о r z a L. L. A method for cluster analysis. Biometrics. 21, p. 362—375. 42. F i s h e r L., Jonh W. Van Ness. Admissible clustering procedures.— «Biometrika», 58, № 1, 1971, p. 91 — 104. 43. F о r t i e r J. J., Solomon H. Cluctering procedures, «Multivariate Analysis», ed. by Krishnaiah, N. Y., Acad. Press, 1966, p. 493—506. 44. F r a s e r P. M., Baron D. N. Taxonomic procedures applied to liver disease. Proc. Soc. Med., 1968, 61, p. 23—26. 45. F r i e d m a n H. P., Rubin J. On some invariant criterion for grouping data. J. Amer. Stat., Ass. 1967, 62, p. 1159—1178. 46. Gower I. C. Classification and geology. Rev. Intern. Stat. Inst., 1970, 38, p. 35—40. 47. Gower J. C, Ross G. J. S. Minimum spanning trees and single linkage cluster analysis. Appl. Stat., 1969, 18, p. 54—64. 48. H a r t i g a n J. A. Representation of simularity matrices by trees. J. Am. Stat. Ass., 1967, 62, p. 1140—1158. 49. H о Y., Agrawala A. K. On self learning sheme of Nage and Shelton. Proc. IEEE, 55, № 10, 1967. 50. Ja n с е у R. С Multidimentional group analysis. Austr. J. Bot., 1966, 14, p. 127. 51. J ardine N., S i b s о n R. The construction of hierarchic and non- hierarchic classifications. Сотр. J., 1968, 11, p. 177—184. 52. J e n s e n R. E. A dinamic programming algorithm for cluster analysis. Oper. res., 1969, 17, p. 1034—1957. 53. J о h n s о n S. C. Hierarchical clustering schemes. Psychometrika, 1967, 32, p. 241—245. 54. К i e f e r J., W о 1 f о w i t z J. Stochastic estimation of the maximum of a regression function. Ann. Math. Stat., 23, N° 3, 1952, p. 462—446. 55. L a n с e G. N., Williams W. T. A general theory of classificatory sorting strategies. I. Hierarchical systems. Сотр. J., 1967, 9. p.* 373—380. 56. Ma с Queen J. Some methods for classification and analysis of miltiva- riate observation. Proc. Fifth Berkeley Symp. Math. Stat. a. Probab., 1967, 1, p. 281—297. 57. M о r r i s о n D. G. Measurement problems in cluster analysis. Management Science, 13, p. B775—B780. 58. M u r t h у V. К. Nonparametic Estimation of Multivariate Densities wich Applications. Multiv. Anal., 1966, Proc. Intern. Symp. held in Dayton Ohio. June 14—19, 1965. 59. N a g e G., Shelton G. L. Self corrective caracter recognition system. IEEE Trans, 1966, IT-12. 60. N e e d n a m R. M. Application of the Theory of cumps. Mech. Translat., 1965, 8, p. 13. 61. N e e d h a m R. M., Jones R. S. Keywords and clumps. J. Doc, 1964, 20, p. 5. 62. Numerical taxonomy. Ed. by Gole A. J. Acad. Press, 1969. 63. О r 1 о с i L. Information Theory models for hierarchic and non-hierarchic classifications. Nume rical, taxonomy, ed. by Cole A. J. Ld. — N. Y. Acad. Press., 1969, p. 148—164. 64. P a r z e n E. On. the estimation of probability density function and the mode. Ann. Math. St, 1962, 33, p. 1065—1076. 65. R а у n e г J. H. Classification of soils by numerical methods J. Soil Sci., 17, p. 79—92. 66. R о b b i n s N., Monro S. A. Stochastic Approximation method. Berkley Symp. Math. Stat. a. Probab., 1956, № 1. 67. Rubin J. Optimal classification into groups: an approach for solving taxonomy problem. J. Theor Biol., 1967, 15, p. 103—144. 234
68. S с о t t A. J., S у m о n s M. J. Clustering methods based on Likelihood ratio criteria. —«Biometrics», 1971, 27. p. 387. 69. Scott A. J., S у m о n s M. J. On Edwards and Cavalli—Sforza method of cluster analysis. — «Biometrics», 1971, 27, p. 217—219. 70. S e b e s t у е n G. Pattern recognition by adaptive proccess of sample set construction. Trans. IRE, 1962, IT-8, № 5. 71. S о к a 1 R. R., S n e a t h P. H. A. Principles of numerical taxonomy. Ld., Freeman, 1963. 72. S о r e n s e n T. A. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application to analysis of the vegetation on Danish commons. Biol. Skr., 1948, 5, p. 1—34. 73. W a 1 t z M. D., F у К- S. A heuristic approach to reinforcement learning control systems. IEEE Trans. AC—10, 1965, №4. 74. W a r d J. H. Hierarchical grouping to optimize an objective function. J. Amer. Stat. Ass., 1963, 58, p. 236—244. 75. Wi llmott A. J., G r i m s h a w P. N. Clucter analysis in social geography. Numerical taxonomy Ld. — N. Y., Acad. Press., 1969, p. 271—281. 76. W i s h a r t D. An algorithm for hierarchical classification — «Biometrics», 22, 1969, p. 165—170. 77. W i s h a r t D. Mode an alysis: a generalization of nearest neighbour which reduce a chaining effect. Nume rical. Taxonomy. Ld. — N. Y., Acad. Press., 1969, p. 282—311. Глава IV 1. Айвазян С. А. Статистическое исследование зависимостей. М., Металлургия, 1968. 2. Андерсон Т. Введение в многомерный статистический анализ. М., Физ- матгиз, 1963. 3. Андрукович П. Ф. Некоторые свойства главных компонент. (Диссертационная работа, представленная на соискание ученой степени кандидата технических наук). МГУ, 1972. 4. А р х а р о в Л. В. О предельных теоремах для характеристических корней выборочных ковариационных матриц при больших размерностях. — В сб.: Статистические методы классификации. П. МГУ, 1972. 5. Б р а в е р м а н Э. М. Методы экстремальной группировки параметров задача выделения существенных факторов. Автоматика и телемеханика, 1970, № 1. 6. Ватанабе С. Разложение Карунена-Лоэва и факторный анализ. Теория и приложения. — В сб.: Автоматический анализ сложных изображений. М., «Мир», 1969. 7. В ы х а н д у Л. К- Об исследовании многопризнаковых биологических систем. — В сб.: Применение математических методов в биологии. III, ЛГУ, 1964. 8. Л б о в Г. С. Выбор эффективной системы зависимых признаков. Вычислительные системы. Вып. 19. Новосибирск, 1965. 9. Л о у л и Д., Максвелл А. Факторный анализ как статистический метод. М., «Мир», 1967. 10. Л у м е л ь с к и й В. Я- Агрегирование объектов на основе квадратичной матрицы. Автоматика и телемеханика, 1970, № 1. 11. П о л я к Б. Т. Метод сопряженных градиентов. Труды 2-й зимней школы по математическому программированию и смежным вопросам. Вып. 1, 1969. 12. Т е р е н т ь е в П. В. Метод корреляционных плеяд (серия «Биология»). Вестник ЛГУ, 1969, № 9. 13. Т е р е н т ь е в П. В. Дальнейшее развитие метода корреляционных плеяд. — В сб.: Применение математических методов в биологии, 1960, № 1. 14. Anderson T. W. The asymptotic distribution of certain characteristic roots and vectors. Proc. 2 Berkley Symp. Math. Stat. Probab., Univ. Calif. Press, 1951, p. 103—130. 15. Anderson T. W. Asymtotic theory for principal component analysis. Ann. Math St. 1963, 34, p. 122—148. 235
16. Anderson T. W., Rubin H. Statistical inference in factor analysis. Proc. 3 Berkeley Symp. Math. Stat, and Probab. Univ. Calif. Press, 1956, 5, p. 11—50. 17. A n d r u к о v i с h P. F. a. o. Abstract painting as a specific—Generale— Language. A Stat. Appr. to the problem. Metron» XXIX, 1971, № 1—2. 18. В art let t M. S. Factor analysis in psychological as a statistician sees it Uppsala, Almqvist and Wiksell, 1953, p. 23—34. 19. Fukunaga K., KoontzWarren L. G. Application of the Kurhu- nen—Loeve expansion to feature selection and ordering. IEEE Trans. Сотр., 1970, с — 19, №4, p. 311—318. 20. G i r s h i с к M. A. Principal Components. J. Am. St. Ass. 1936, 31, p 519—528. 21. G i r s h i с к М. A. On the sampling theory of roots of determinantial equations. Ann. Math. St. 1939, 10, p. 203—224. 22. H a r m a n H. H. Modern factor analysis. Univ. Chicago Press, 1960. (русский перевод: Г. Харман. Современный факторный анализ. М., «Статистика», 1972). 23. Н о 1 z i n g e r K-, Harraan H. Factor Analysis. Univ. Chicago Press, 1941. 24. J e f f e r s J. N. R. Two case studies in the application of principal component analysis. Appl. Stat., 16, № 3, 1967. 25. К e n d a 1 1 M. G. Discrimination and Classification. Multivariate Analysis Proc. Intern. Symp. held in Dayton, June, 1965, p. 165—185. 26. M о r r i s о n D. F. Multivariate statistical method. McGrom. Hill Book Company. N. Y., 1967. 27. О k о m о t о М. Optimality of Principal Components Multivariate Analysis. Proc. 3 Int. Symp., Dauton, 1967. 28. О k о m о t о M., Kanazawa M, Minimization of Eigenvalues of a matrix and optimality of principal components. Ann. Math. St. 39, № 3, 1968. 29. Rao C. R. The use and interpretation of principal component analysis in appiied research, Sankhya (A), 1964, 26, № 4, p. 329—358. 30. R а о С. R. Estimation and tests of significance in factor analysis. Psycho- metrika, 1955, 20, p. 93—111 31. Sammon H. A nonlinear mapping for Data Structure Analysis. IEEE Trans. Сотр., 1969, с — 18, № 5, p. 401—409. Глава V 1. ВальтухК. К- Пропорции развития и удовлетворения потребностей.— В сб.: Проблемы народного хозяйства. Вып. 2. Новосибирск, «Наука», СО АН СССР, 1969. 2. В о л к о н с к и й В. А. Об объективной математической характеристике народного потребления. — В сб.: Народнохозяйственные модели. Теоретические вопросы потребления. М., Изд-во АН СССР, 1963, с. 201. 3. Г р а н б е р г А. Г. Целевая функция общественного благосостояния и критерии оптимальности в прикладных народнохозяйственных моделях. — В сб.: Проблемы народнохозяйственного оптимума, М., «Экономика», 1969. 4. Л ь ю с Р. Д., Р а й ф X. Игры и решения, М., Изд. иностр. лит., 1961. 5. Ц1 а к и н В. В. Уравновешивание матрицы данных. — В сб.: Социология и математика. Новосибирск, «Наука», СО АН СССР, 1971. 6. Benar d J. Quelques aspects theorique des biens collectif sous tutelle. Le roppot sur «Conference sur la planification et le marche», Liblic—Tchecoslo- vaqiue, 4 au 8 Mai, 1970. 7. HothakkerH. S. Revealed preference and utility function, Economet- rika, 17, № 2, 1949, p. 195. 8. К e n d a 1 1 M. G. Rank correlation methods. 2 ed. N. Y., Hafner, 1955. 9. R a d e r T. The existence of utility function to represent preferences. Rev. econom. stud., 1963, №3. 10. U s a w a H. Preference and rational choice in the theory of consumption. Math, methods soc. sci. Proc. of 1 Stanford symp., 1960. 11. W i d m a i e r H. P. R о 1 о f f O, Fr an k J. Public and private expenditure. Plan Europe 2000. Copyring 1970, Europ. cult, found. Amsterdam — The Netherland.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Аксиоматический подход к классификации объектов 129 Алгоритм «ближайшего соседа» 101 — «дальнего соседа» («полной связи») 102 — иерархический 100 — , основанный на эталонных множествах (точках) 104 — последовательного переноса точек из класса в класс 103 Анализ главных компонент 134 — — мод 127 — факторный (см. Факторный анализ) 165 Аппроксимация стохастическая 123 — неизвестной целевой функции 206 , 210 , 218 , 220 Асимптотические свойства процедуры 98 , 117 , 123 оценок 21 , 22 , 46 , 49 Байеса решающие правила 31 , 34 Близость точек 45 , 76 Вероятности неправильной классификации 32 , 35 — правильной классификации 32 , 35 Вероятностная мера 15 — модификация задачи кластер-анализа 76 , 87 Вероятность априорная 30 , 51 — события 15 — условная 16 Вес 78 Весовая функция 48 Весовые коэффициенты 78 Вращение системы факторов 172 , 183 Выборка 13 Генеральная совокупность 13 Гипотеза 26 Гистограмма 79 Главные компоненты 134 , 137 — — выборочные 140 — — , распределение 149 — — , оценка максимального правдоподобия 148 Городов классификация 222 Двойственная задача (главных компонент) 156 — постановка экстремальной задачи (в кластер-анализе) 93 Дискриминантная функция 35 , 43 Дисперсия выборочная 19 — обобщенная 86 Доверительный интервал 19 , 23 , 24 Допустимость выпуклая 111 — в классе образов 111 — монотонная 113 — относительно дублирования ИЗ — по отношению к структуре 112 — разбиения 111 — связная 111 Дуализм 156 Евклидово расстояние 78 Единственность модели факторного анализа (см. идентификация модели факторного анализа) 167 Идентификация модели факторного анализа 167 , 172 Иерархическая процедура 99 Иерархические процедуры (агломератив- ные , дивизимные 84 , 99 , 100 /г-обобщенные 102 Иерархическое дерево (агломеративное , дивизимное) 99 Информативность системы признаков 198 Класс 29 Кластер-анализ 75 Кластер-процедуры (агломеративные , иерархические) 84 , 99 Ковариационная матрица 19 — — выборочная (эмпирическая) 19 Ковариация 18 — выборочная (эмпирическая) 19 Корреляционная матрица 19 — — выборочная (эмпирическая) 19 Корреляция парная 19 Косинус угла между векторами 147 Коэффициент корреляции 19 Кратчайший незамкнутый путь 88 Критерий асиптотически подобный 41 — отношения правдоподобия (см. метод отношения правдоподобия) 237
Критерий проверки гипотез 26 — L (с) — состоятельный 41 Критическая статистика 21 Линейная классификация 35 , 43 Максимум дисперсий линейных комбинаций 137 Матрица межотраслевого баланса 81 Мера близости объектов 77 — — классов 82 Мера грубости 120 — концентрации 90 — рассеяния средняя (обобщенная) 86 — точности 120 Метод Бартлетта (оценка общих факторов в факторном анализе) 178 Метод классификации локальный 45 — — непараметрический 44 , 45 — — параметрический 40 — — эвристический 50 — корреляционных плеяд 195 — максимального правдоподобия 24 , 65 — отношения правдоподобия 27 — Томсона (оценка общих факторов в факторном анализе) 178 — экспертно-статистический (построения целевой функции) 206 — экстремальной группировки признаков 189 Минимальное дистанционное разбиение 51 Мода 18 Модальное значение 18 Модель дисперсионного анализа 169 — множественной регрессии 169 — факторного анализа 167 , 168 Наилучшее (линейное) предсказание 143 Нагрузки 168 Независимость событий 16 Несмещенность метода к-средних 117 — оценки 22 Норма матрицы (евклидова) 143 Обобщенная дисперсия 86 Обобщенное среднее 83 Обобщенное к-расстояние 83 Обратная задача (в анализе главных компонент) , см. двойственная задача Обучающие выборки (обучение) 8 , 29 Общий фактор 66 Окрестность 45 — подобная 45 Оценка максимального правдоподобия 24 — нагрузок 175 — несмещенная 22 — плотности , непараметрическая 45 , 46 , 47 — отношения правдоподобия 47 Оценка разделяющей поверхности 43 — состоятельная 21 — статистическая 20 — эффективная 22 Ошибки классификации 26 Перебор 199 Плотность распределения 17 Поверхность постоянного уровня плотности 44 Подобие методов классификации 41 Порог 85 Потенциальная функция 49 , 79 Потери 31 — при правильной классификации 31 Правила байесовские (решающие) 34 Признаки качественные 5 , 129 — классификационные 5 , 129 — количественные 5 , 129 Принцип «ближайшего соседа» 82 — «дальнего соседа» 82 — «средней связи» 82 — «центра тяжести» 82 Проверка гипотез статистическая 26 , 147 , 179 Пространство спрямляющее 94 Прогноз 143 Процедура иерархическая 98 — — агломеративная 99 — — дивизимная 99 — параллельная 100 , 103 — последовательная 100 , 113 — «К-обобщенная» 102 Процентная точка 19 Прямая задача (в анализе главных компонент) 157 Разбиение допустимое 111 — минимальное дистанционное 51 , 93 — несмещенное 93 Разделяющая функция (см. функция дискриминантная) Различимость смеси 57 , 58 — — конечной 58 — G-смеси 58 Распознавание образов без обучения 8 , 9 — — с обучением 8 , 9 Распределение нормальное 29 — — стандартное 29 — равномерное 60 — Стьюдента 29 — Фишера 29 — Уишарта 29 — х2 29 — F 29 , 42 Расстояние Махаланобиса 77 — между классами 82 — — объектами 76 — — разбиениями 131 — обобщенное 83
Расстояние хеммингово 78 — евклидово 78 ~ — — «взвешенное» 78 Решающая функция , см. функция решающая 33 Свертка распределений 58 Семейство распределений 58 , 59 аддитивно замкнутое 58 След матрицы 143 Смесь классов 57 — конечная 58 — различимая 57 , 58 — G 58 Смещение 22 Снижение размерности 183 Собственный вектор матрицы 138 Собственное число матрицы 138 Состоятельность оценки 21 — метода классификации 41 Социально-экономические задачи 206 Среднее значение 18 Среднее значение выборочное (эмпирическое) 18 — к 116 Статистическая оценка (см. оценка статистическая) 20 Стационарность функционала качества разбиения 118 Стохастическая аппроксимация (см. аппроксимация стохастическая) Структура простая 174 Структура факторной модели 172 Существование модели факторного анализа 166 Таксон 75 Таксономия 75 Уровень значимости 26 Факторное пространство 8 Факторный анализ 165 Функционал качества разбиения 85 Функция веса (весовая) 78 Функция дискриминантная 35 — плотности 17 — потенциальная 79 — потерь (см. потери) — правдоподобия (логарифмическаяJ5 , 65 — решающая 33 — смешивающая 58 Характеристические векторы матрицы 138 — корни 138 Целевая функция 206 , 208 Центр тяжести класса 52 , 116 Цетроидный метод 175 Циклическое продолжение выборки 54 , 115 Экспертные оценки 211 Эллипсоид рассеяния 136 Эмпирическое среднее (см. среднее значение эмпирическое) 18 Эталонные точки 98 — множества 104 — алгоритмы 104 Эффективность оценки 22
ОГЛАВЛЕНИЕ Введение 3 Глава I. Классификация при полностью описанных классах или при наличии обучающих выборок 12 § 1. Основные понятия. Терминология 12 § 2. Классификация при полностью описанных классах 29 § 3. Классификация при наличии обучающих выборок 40 § 4. Классификация с частичным обучением. Параметрический случай 51 Глава II. Классификация без обучения. Параметрический случай: расщепление смесей на основе оценки неизвестных параметров 57 § 1. Смеси и условия их различимости 57 § 2. Различимые смеси и оценка параметров 63 § 3. Смеси и метод максимального правдоподобия 65 Глава III. Классификация без обучения. Не параметрический случай: методы кластер-анализа, таксономия 75 § 1. Общая постановка задачи. Основные понятия и определения 75 § 2. Основные типы задач кластер-анализа и основные типы кластер- процедур 98 § 3. Описание кластер-процедур и их основных свойств 100 § 4. Классификация объектов,описываемых не только количественными признаками (аксиоматический подход; обработка экспертных мнений) 129 Глава IV. Методы снижения размерности 134 § 1. Метод главных компонент 134 § 2. Факторный анализ 165 § 3. Эвристические методы снижения размерности 184 Глава V. Решение социально-экономических задач с использованием методов классификации и снижения размерности 206 § 1. Экспертно-статистический метод построения неизвестной целевой функции и его применение 206 § 2. Выявление основных типов городов РСФСР с точки зрения их социально-экономического облика 223 Литература 231 Предметный указатель 237