Текст
                    Р. Дуда, П. Харт
Распознавание
образов
и анализ сцен
Перевод с английского
Г. Г. ВАЙНШТЕЙНА и
А. М. ВАСЬКОВСКОГО
Под редакцией
В. Л. СТЕФАНЮКА
ИЗДАТЕЛЬСТВО «МИР» МОСКВА 1976


PATTERN CLASSIFICATION AND SCENE ANALYSIS Richard O. Duda Peter E. Hart Stanford Research Institute Menlo Park, California A WILEY-INTERSCIENCE PUBLICATION JOHN WILEY & SONS New York London Sydney Toronto 1973
УДК 82-500.222.001.57 Тематика книги связана с исследованиями по созданию интегральных роботов, способных к целе- целенаправленным действиям в сложных условиях. В по- последние годы такие исследования интенсивно прово- проводятся в разных странах. В книге полно и системати- систематически изложены методы распознавания образов и дан анализ пространственных сцен по их плоскому изобра- изображению. Существующие в области распознавания образов методы авторы рассматривают с новых, нестан- нестандартных точек зрения. В конце каждой главы приво- приводится список задач. Книга доступна широкому кругу читателей, интересующихся или работающих над созданием искусственного интеллекта. Она может служить хоро- хорошим вводным курсом для студентов, специализирую- специализирующихся в этой области. Редакция литературы по математическим наукам 20204-018 041 @1)-76 186 ® ПеРев°Д на русский язык, &Мир», 1976
ОТ РЕДАКТОРА ПЕРЕВОДА Предлагаемая советскому читателю книга сразу после выхода английского издания стала популярной среди тех, кто так или иначе связан с областью, для которой даже такой широкий термин, как «распознавание образов», быть может, не является исчерпываю- исчерпывающим. Дело в том, что в связи с бурным развитием нового научного направления, посвященного исследованию «искусственного интел- интеллекта», а в особенности с попытками построения «разумных» робо- роботоподобных устройств, проблема образного восприятия внешнего мира стала приобретать новые оттенки. Этот факт нашел свое отражение и в терминологии, принятой в книге, и в ее построении: книга состоит из двух более или менее самостоятельных частей—классификация образов и анализ сцен. Под классификацией образов в ней подразумевается то, что можно было бы назвать статистическим распознаванием образов. Существен здесь вероятностный характер появления тех или иных образов и такой же характер наблюдения их параметров. Подобным вопро- вопросам посвящен ряд прекрасных отечественных монографий и иных публикаций, которые авторам книги также хорошо известны. Поскольку термин «классификация образов» не является ши- широко принятым в нашей литературе, то мы позволили себе употре- употребить в названии русского перевода книги более привычное «рас- «распознавание образов». Несмотря на классичность :бсгдьдаи»ства тем, затрагиваемых в первой части, она привлекает вшадаЩ^'бшагодаря удачной ком- компоновке материала, что позволило авторам при небольшом объеме нарисовать весьма полную картину достижений и проблем, харак- характерных для этой области. Хотелось бы указать на совсем уже прак- практические соображения, для которых также нашлось место в этой части книги,— это обсуждение соотношения между числом при- признаков и объемом выборки, необходимым для надежной класси- классификации, влияние фактора размерности и др. Что касается второй части книги, посвященной анализу трех- трехмерных сцен по их двумерной проекции, то.она во многом представ- представляется новой для советского читателя. Ее содержание составляют результаты интенсивного развития методов анализа плоских изоб- изображений с помощью ЭВМ, вызванных главным образом потребно- потребностями построения систем «глаз — рука» или интегральных роботов. В этой связи полезно упомянуть, что авторы работают как раз в той лаборатории искусственного интеллекта Станфордского ис-
От редактора перевода следовательского института в США, где и была создана наиболее впечатляющая конструкция интегрального робота — робот «Шейки», в основе деятельности которого лежит самостоятельное зрительное восприятие внешнего мира. Данная книга уже заслужила ряд хороших отзывов, в частности ее рекомендовал своим читателям международный журнал «Artificial Intelligence», и мы думаем, что она будет хорошим дополнением к книгам по искусственному интеллекту, в течение ряда лет выпу- выпускаемым издательством «Мир». В. Л. Стефанюк
ПРЕДИСЛОВИЕ При написании данной книги мы ставили своей целью дать систематическое изложение важнейших разделов распознавания образов — области науки, связанной с машинным распознаванием тех или иных закономерностей при наличии шума или в сложных условиях. Стимулированное вычислительной техникой распозна- распознавание образов вступило в пору расцвета в начале 60-х годов и более десяти лет энергично развивалось. Такому росту содействовало привлечение многих других дисциплин, таких, как математическая статистика, теория связи, теория коммутационных схем, теория управления, исследование операций, биология, психология, линг- лингвистика и вычислительные науки. Читатели, знакомые с литера- литературой, оценят, насколько все они оживили Данную область. Такая широта создает также и значительные трудности при на- написании книги. Единой теории распознавания образов, включающей все главные разделы, нет, ибо каждой области применения свой- свойственны одной ей присущие особенности, в расчете на которые и строится соответствующий подход. Наиболее развитым разделом, не связанным областью применения, является теория классифи- классификации, составляющая предмет первой части книги. Для классифи- классификации образов, представленных абстрактно в виде векторов, пред- предлагаются формальные математические процедуры, основанные на статистической теории принятия решений. Попытки отыскать универсальные, независимые от области при- приложения процедуры для построения этих векторных представлений не дали пока общих результатов. Наоборот, каждая конкретная область задач характеризуется набором процедур, соответствующих ее специфическим свойствам. Среди различных областей, представ- представляющих интерес, наибольшее внимание до настоящего времени привлекала область изображений. Кроме того, работы по этой тематике развивались от классификации изображений к их анализу и описанию. Систематическому изложению этих вопросов в связи с анализом зрительных сцен посвящена часть II данной книги. Так как теории и методы распознавания образов по своему ха- характеру являются математическими дисциплинами, то необходимо остановиться на уровне математической строгости, принятом в нашем изложении материала. Откровенно говоря, он невысокий. Нас гораздо больше беспокоила возможность разобраться и понять, нежели построить строгое математическое обоснование задачи.
8 Предисловие Это нашло отражение в множестве поясняющих примеров, правдо- правдоподобных доводах и обсуждениях поведения решений. Наравне с этим мы избегали пользоваться теорией меры и попытались обой- обойтись без таких тонкостей, как сходимость последовательностей случайных величин, обоснование применения дельта-функций и возможность патологических случаев. Мы все же предполагаем наличие у читателя общего представления об основных разделах прикладной математики, включая теорию вероятностей и линейную алгебру; для понимания гл. 8 также окажется полезным знакомство с преобразованиями Фурье. Требуемая математическая подготовка должна соответствовать уровню аспиранта первого года обучения по специальностям вычислительная наука, электротехника и ста- статистика. В связи с тем что распознавание образов представляется весьма специальной областью, возможно, имеет смысл особо отметить методологическую гибкость курса по этому предмету. Многое заим- заимствовав из различных разделов математики, а также других ранее упомянутых дисциплин, распознавание образов служит почти идеальным средством представления различных вопросов в единых рамках. Тем студентам, для которых распознавание образов как таковое не представляет самостоятельного интереса, все же целе- целесообразно овладеть знаниями и развить мастерство, которое сослу- сослужит им хорошую службу при других обстоятельствах. Курсы лекций для аспирантов, основанные на материале данной книги, читались нами в Калифорнийском университете в Беркли и в Станфордском университете. Каждая из двух частей этой книги может быть сравнительно неплохо изучена в течение полусеместра и достаточно глубоко — за семестр. При более сжатых сроках мы рекомендуем работать с отдельными разделами из большинства глав: одни главы прорабатывая основательно, а другие — нет. Как и всегда, интересы преподавателя должны определять окон- окончательный выбор материала. Мы полагали также, что эта книга окажется полезной и для специалистов-прикладников, и с этой целью попытались сделать материал более доступным. Где возможно, мы старались пользо- пользоваться общепринятыми обозначениями и включили в книгу обшир- обширный указатель. Каждую главу завершают библиографические и исторические замечания и полезный, как мы надеемся, список ли- литературы. Хотя большие списки литературы и создают впечатление завершенности книги, на самом деле публикации появляются столь интенсивно, что полноты достичь нельзя, и мы не притязали на это. Весьма полезным при работе над данной книгой оказалось со- сотрудничество с многими организациями и отдельными лицами. Прежде всего мы хотим поблагодарить Отдел информационных систем Научно-исследовательского управления военно-морских сил за финансирование по контракту № 0014-68-С-0266. Факультеты
Предисловие электротехники и вычислительных наук в Беркли и Станфорде предоставили возможность проверить материал на учебной ауди- аудитории. В центре по искусственному интеллекту при Станфордском научно-исследовательском институте по инициативе руководителей д-ра Ч. А. Розена и д-ра Б. Рафаэля нам были созданы идеаль- идеальные условия для работы. Хотя мы не в состоянии перечислить всех, кто помог нам своими замечаниями, особо хотелось бы поблагодарить д-ра Н.Дж. Нильсона за его многочисленные пред- предложения по улучшению рукописи. Считаем своим долгом побла- поблагодарить д-ра Т. О. Бинфорда, д-ра Т. М. Ковера, К. Л. Фен- нема, д-ра Г. Ф. Гронера, Д. Дж. Холла, д-ра М. Е. Хелмана, д-ра М. А. Касслера и д-ра Дж. X. Мансона за их ценные замеча- замечания. Кроме того, нам хочется поблагодарить д-ра Р. К. Синглтона за его участие в работе над примерами гл. 8. И наконец, с удоволь- стием выражаем признательность неутомимой К. Л. Спенс за. пере- перепечатку различных вариантов рукописи. Р. О. Дуда, П. Е. Харт
Часть I КЛАССИФИКАЦИЯ ОБРАЗОВ Глава 1 ВВЕДЕНИЕ 1.1. МАШИННОЕ ВОСПРИЯТИЕ Стремление расширить область применения цифровых вычис- вычислительных машин существует со времени их появления. В известной мере это связано с требованиями практики, с поиском наиболее эффективных способов деятельности. Отчасти это вызвано также вполне понятным стремлением к усовершенствованию конструкции или способов программирования с целью придать машинам новые, ранее недоступные им функции. Так или иначе обе эти причины имеют отношение к определенному разделу науки об искусственном интеллекте, который мы будем называть машинным восприятием. Способность машины воспринимать окружающий мир в настоя- настоящее время крайне ограниченна. Для преобразования света, звука, температуры и т. п. в электрические сигналы созданы разнообраз- разнообразные датчики. Если окружающая среда контролируется достаточно четко, а сигналы по своему смыслу просты, что имеет, например, место при применении обычных устройств ввода в ЭВМ, то задача восприятия оказывается несложной. Но, как только вместо считы- считывания перфокарт или магнитных лент от машины требуется чтение рукописного текста или расшифровка биомедицинских фотографий, вместо задач ввода данных приходится иметь дело с гораздо более сложными задачами их интерпретации. Та видимая легкость, с которой животные и даже насекомые справляются с задачами восприятия, одновременно и ободряет, и обескураживает. Психологические и физиологические исследо- исследования дали ряд интересных результатов, касающихся процессов восприятия животными. Тем не менее этого пока недостаточно для воспроизведения процессов восприятия с помощью ЭВМ. Особую привлекательность этому вопросу придает и то обстоятельство, что восприятие есть нечто известное по опыту каждому, а вместе с тем. на деле никем не понятое. Бесполезными оказываются и попытки
12 Гл. 1. Введение исследования сущности восприятия посредством самоанализа из-за того, что, по-видимому, большинство обычных процессов восприя- восприятия протекает подсознательно. Парадоксально, что все мы хорошо владеем восприятием, но никто из нас не знает о нем достаточно. Неполнота теории восприятия не помешала человеку попытаться решить менее сложные задачи. Ряд таких задач связан с классифи- классификацией образов — отнесением материальных объектов или явлений к одному из нескольких предопределенных классов. В результате широкого исследования вопросов классификации была получена абстрактная математическая модель, составившая теоретическую основу для разработки устройства-классификатора. Естественно, что для каждой отдельной области применения тре- требуется в конечном счете собрать воедино специфические характе- характеристики конкретной задачи. Наибольшее внимание среди множества таких областей привлекли задачи, относящиеся к изображениям. Цель данной книги — систематически изложить основные принципы теории классификации образов и тех методов анализа сцен, которые представляются наиболее широко применимыми и интересными. 1.2. ПРИМЕР Чтобы пояснить характер задач, с которыми в дальнейшем придется иметь дело, рассмотрим следующий, несколько надуман- надуманный пример. ¦ Решение Рис. 1.1. Схема системы классификации. Допустим, что на некоторой деревообделочной фабрике, выпу- выпускающей изделия из древесины различных сортов, требуется ав- автоматизировать процесс сортировки обрабатываемой древесины по пород? дерева. Первоначально решено попытаться разделять дре- древесину пород березы и ясеня по ее внешнему виду. Система, пред- предназначенная для выполнения этой задачи, может быть построена по схеме, изображенной на рис. 1.1. Полученное в камере изображение древесины передается на выделитель признаков, назначение кото- которого с остоит в уменьшении объема данных измерением конкретных «признаков» или «свойств», отличающих вид древесины березы и ясеня, Далее эти признаки (точнее, измеренные значения этих
1.2. Пример 13 признаков) подаются на классификатор, предназначенный для оценки представленных данных и принятия окончательного решения относительно типа древесины. Рассмотрим, по какому принципу могут быть построены выде- выделитель признаков и классификатор. Допустим, что на фабрике нам сообщили, что окраска березы обычно светлее, нежели ясеня. Таким образом, яркость оттенка древесины становится очевидным призна- признаком, и можно попытаться распознавать древесину, наблюдая по- попросту, превышает или нет ее средняя яркость х некоторое крити- критическое значение х0. Для выбора величины х0 можно взять несколько кусков древесины той и другой породы, измерить их яркость и Рис. 1.2. Гистограмма яркости (по оси ординат— число кусков древесины; 1 — ясень, 2 — береза). оценить результаты измерений. Допустим, что все это проделано и построены гистограммы, приведенные на рис. 1.2. Рассматривая гистограммы, можно установить, что береза обычно светлее ясеня, но вместе с тем очевидно, что один этот критерий не достаточно надежен. Вне зависимости от выбора х0 отличить березу от ясеня только по яркости невозможно. При поиске других признаков можно попытаться воспользо- воспользоваться тем соображением, что волокна ясеня обычно более заметны. Хотя измерить этот признак значительно труднее, чем среднюю яр- яркость, однако можно предположить, что заметность волокон можно оценивать по амплитуде и частоте появлений на изображении пере- переходов от темного к светлому. Таким образом, теперь мы имеем два признака для распознавания древесины — яркость хх и заметность волокон х2. Выделитель признаков сводит, таким образом, каждую из картинок к точке или вектору признаков х двумерного простран-
14 Гл. 1. Введение ства, где -т- хг Наша задача заключается теперь в разделении пространства признаков на две области, все точки одной из которых соответст- соответствуют березе, а другой — ясеню. Предположим, что мы определили значения векторов признаков для наших кусков древесины и по- получили разброс точек, показанный на рис. 1.3. Анализ графика приводит к следующему правилу распознавания полученных дан- данных: считать, что данная дре- древесина есть ясень, если вектор признаков попадает выше пря- прямой АВ; в противном случае считать, что это береза. Несмотря на то что разделе- разделение взятых кусков посредством данного правила достаточно хо- хорошее, нет никакой гарантии, «I что так же хорошо оно будет и Рис. 1.3. Диаграмма разброса векторов по отношению к новым кускам, признаков (¦ — ясень, О — береза). Безусловно, разумнее было бы взять еще несколько кусков и посмотреть, какая часть из них будет определена правильно. Таким образом, мы приходим к заключению, что поставленная задача включает в себя и элементы статистики, в связи с чем может потребоваться поиск такой процедуры классификации, которая сделает вероятность ошибки минимальной. Говоря об этом, следует помнить, что в качестве примера была выбрана простая задача. Значительно реальнее задача сортировки древесины на много различных классов. В частности, чтобы отличить дуб от березы и ясеня, вполне могут потребоваться и такие менее очевидные признаки, как «ровность волокон». При большем числе классов и признаков, возможно, придется отказываться от графи- графического способа представления классификатора. Поэтому для даль- дальнейшего изложения вопроса потребуется развить теоретические основы метода. 1.3. МОДЕЛЬ КЛАССИФИКАЦИИ Рассмотренный пример содержит многие элементы наиболее распространенной абстрактной модели распознавания образов — модели классификации. Модель эта состоит из трех частей — дат- датчика, выделителя признаков и классификатора. Датчик восприни- воспринимает воздействие и преобразует его к виду, удобному для машинной обработки. Выделитель признаков (называемый также рецептором,
1.4. Описательный подход 15 фильтром свойств, детектором признаков или препроцессором) выделяет из входных данных предположительно относящуюся к делу информацию. Классификатор на основе этой информации относит эти данные к одной из нескольких категорий. Обсуждение принципа действия или конструкции датчика не входит в задачи данной книги. Выделение признаков и класси- классификация, напротив, представляет для нас интерес. С точки зрения теории провести черту между этими двумя действиями можно весьма условно. Идеальный выделитель признаков предельно упрощает работу классификатора, тогда как при наличии всемогущего клас- классификатора не требуется помощь выделителя признаков. Различие это хотя и весьма важно, но делается оно, исходя скорее из прак- практических, нежели теоретических соображений. Вообще говоря, задача выделения признаков более специализи- специализирована по сравнению с задачей классификации. Хороший выдели- выделитель признаков, предназначенный для сортировки древесины, при- принесет, по-видимому, малую пользу при сравнении отпечатков паль- пальцев или классификации клеток крови. Однако большое число тех- технических приемов было развито в связи с задачей извлечения полезной информации из изображения. Часть II данной книги как раз посвящена описанию этих методов и их свойств. Задача классификации по существу представляет собой задачу разбиения пространства признаков на области, по одной для каж- каждого класса. Разбиение это в принципе надо производить так, чтобы не было ошибочных решений. Если этого сделать нельзя, то желательно уменьшить вероятность ошибки, или если ошибки имеют различную цену, то сделать минимальной среднюю цену ошибки. При этом задача классификации превращается в задачу статистической теории принятия решений, широко применяемую в различных областях теории распознавания образов. Этому и ряду других вопросов, относящихся к теории классификации, по- посвящена часть I данной книги. 1.4. ОПИСАТЕЛЬНЫЙ ПОДХОД В области распознавания образов и машинного восприятия су- существует много задач, для которых модели классификации совер- совершенно не пригодны. Например, при анализе фотографии следов частиц в пузырьковой камере требуется не просто классификация, а описание картины. Такое описание должно содержать информа- информацию как об отдельных частях картины, так и о связи между ними. В принципе оно должно непосредственно отражать структуру, присущую исходной сцене. Рассмотрим, например, простую сцену, показанную на рис. 1.4. Возможно, что для некоторых целей окажется вполне удовлетво- удовлетворительным простейшее описание вроде «на письменном столе» или
16 Гл. 1. Введение «стоит телефон». Более полный анализ должен включать перечень всех основных имеющихся объектов — телефона, бумаги, чашки, карандашей, ластика и т. д. При еще более полном анализе будут выявлены отношения между этими объектами, что может вылиться в выражение «(Два карандаша на пачке бумаги) перед (чашка слева от (ластик перед телефоном))». Задача анализа видимой сцены и получения ее структурного описания оказывается очень трудной. Приемлемая для всех форма- Рис. 1.4. Простая сцена. лизация этой проблемы, аналогичная модели классификации, едва лишь выявляется из работ, выполненных к настоящему моменту. Были предприняты попытки заимствовать понятия из теории фор- формальных языков и построить лингвистическую модель для анализа сцен. При этом сцена рассматривается как выражение на языке, грамматика которого определяется допустимыми структурными отношениями. Исходя из этой формулировки, анализ сцен можно рассматривать как процесс грамматического разбора, в результате которого описание всей сцены получается в виде композиции взаи- взаимосвязанных подсцен. Методы использования структурных отношений .между элемен- элементами картины с целью ее анализа и создания полезного описания не исчерпываются лингвистической моделью. Хотя общей идейной основы, объединяющей все эти методы, еще не создано, тем не менее был разработан ряд интересных процедур для конкретных задач, которые носят эвристический характер. Эти процедуры сами по себе можно подвергнуть рассмотрению, и изучением этого общего вопроса описательного подхода к анализу сцен заканчивается часть Ц,
1.5. Обзор содержания книги 17 1.5. ОБЗОР СОДЕРЖАНИЯ КНИГИ ПО ГЛАВАМ Часть I данной книги в основном посвящена вопросам стати- статистики. В гл. 2 ставится задача классификации в терминах теории принятия решений и обосновывается общая структура оптималь- оптимального классификатора. Задача эта решается, исходя из предположе- предположения, что все относящиеся к ней распределения вероятностей из- известны. Остальные главы части I связаны со способами представ- представления, когда вероятностная структура задачи не известна. В гл. 3 предполагается, что известно все, что относится к задаче, за исключением некоторых параметров распределения. Описыва- Описываются процедуры оценки параметров, исходя из требования макси- максимального правдоподобия и с использованием байесовского подхода для оценки. В случае когда ни один из обычных способов оценки параметров не подходит, можно прибегнуть к непараметрическим методам. При использовании таких процедур, рассматриваемых в гл. 4, вместо знания вида распределения потребуется большое число выборок. В гл. 5 производится параметризация классификатора и рас- рассматриваются различные методы прямого определения классифи- классификатора непосредственно по измеряемым значениям признаков. Эти методы, идущие от линейного дискриминанта Фишера, включают общеизвестный персептрон и процедуры сглаживания, оценки среднеквадратичной ошибки, стохастическую аппроксимацию, по- потенциальные функции и линейное программирование. Часть I завершается гл. 6, в которой рассматриваются различные приемы обучения и группирования без учителя. Часть II открывается гл. 7, где рассматриваются процедуры представления изображений и выполнения таких основных опера- операций, как повышение резкости, сглаживание, сравнение с эталоном и разбиение на однородные области. В гл. 8 развивается понятие пространственной фильтрации и дается интерпретация некоторых из этих операций в частотной области. Большое число методов описания линий и форм на изображении является предметом гл. 9. Здесь описываются топологические, линейные и метрические свой- свойства формы, а также ряд методов описания, основанных на этих свойствах. В гл. 10 и 11 содержатся важные математические сведения, относящиеся к изображениям трехмерных объектов. В гл. 10 вы- выводятся уравнения перспективного преобразования и показывается, как их можно с пользой применить к анализу сцен. В гл. 11 иссле- исследуется вопрос о проективных инварианта^,,, т. е. о величинах, ос- остающихся неизменными на различных изображениях одного и того же объекта. Наконец, в гл. 12 обсуждаются некоторые из наиболее важных современных подходов к сложной задаче полного анализа зрительных сцен.,
18 Гл. 1. Введение 1.6. БИБЛИОГРАФИЧЕСКИЕ СВЕДЕНИЯ Число публикаций, относящихся к распознаванию образов и анализу сцен, выросло настолько, что даже по специальным во- вопросам изданы сотни работ. Списки литературы в конце каждой главы позволят читателю ознакомиться с историей вопроса и по- получить исходные сведения, чтобы в дальнейшем перейти к углуб- углубленному изучению. Дополнительные сведения читатель может получить и из других работ и ряда полезных обзорных статей. В качестве краткого обзора работ из области распознавания образов как одного из разделов науки об искусственном интеллекте можно рекомендовать важную статью Минского A961). Интересен также обзор работ, относящихся к моделям классификации, про- проведенный Надем A968). В книге Нильсона A965) хорошо объяснены основные принципы классификации. Ясный и наиболее современный обзор опубликован Хо и Агреулой A968). Исчерпывающий обзор методов, применяемых для извлечения признаков из изображений, опубликован Левайном A969). Общие принципы автоматического преобразования изображения описаны Хокинсом A970) и система- систематически изложены в научном труде Розенфельда A969). Имеется множество интересных направлений, относящихся к изложенным в данной книге вопросам, но не вошедших в нее. Чи- Читателям, интересующимся выделением образов и кодированием изображений, можно было бы рекомендовать обзор Хуанга, Шрай- бера и Третьяка A971). Обзоры Колерса A968) и Гоуса A969) будут особенно полезны для тех, кто увлекается интереснейшей областью восприятия человека и животных. Те, кого интересует философская сторона вопроса, найдут весьма ценными книги Вата- набе A969) и Бонгарда A967). И наконец, читатели, интересующиеся практическим применением положений теории, найдут большое количество библиографических ссылок в литературном обзоре Сти- венса A970). СПИСОК ЛИТЕРАТУРЫ Бонгард М. Проблема узнавания, М., «Наука», 1967. Ватанабе (Watanabe M. S.) Knowing and Guessing (John Wiley, New York, 1969). Гоус (Gose E. E.) Introduction to biological and mechanical pattern recognition, in Methodologies of Pattern Recognition, pp. 203—252, S. Watanabe, ed. (Academic Press, New York, 1969). Колере (Kolers P. A.) Some psychological aspects of pattern recognition, in Recognizing Patterns, pp. 4—61, P. A. Kolers and M. Eden, eds. (MIT Press, Cambridge, Massachu- Massachusetts, 1968).
Список литературы 19 Левайн (Levine M. D.) Feature extraction: a survey, Proc. IEEE, 57, 1391—1407 (August 1969). Минский (Minsky M.) Steps toward artificial intelligence, Proc. IRE, 49, 8—30 (January 1961); also in Computers and Thought, pp. 406—450, E. A. Feigenbaum and J. Feldman, eds. (McGraw-Hill, New York, 1963). Нильсон (Nilsson N. J.) Learning Machines (McGraw-Hill, New York, 1965). [Русский перевод: Обу- Обучающиеся машины, М., «Мир», 1967.] Надь (Nagy G.) State of the art in pattern recognition, Proc. IEEE, 56, 836—862 (May 1968). Розенфельд (Rosenfeld A.) Picture Processing by Computer (Academic Press, New York, 1969). [Русский перевод: Распознавание и обработка изображений, М., «Мир», 1972.] Стивене (Stevens M. Е.) Research and development in the computer and information sciences. Vol. 1. Information acquisition, sensing, and input — a selective literature review, National Bureau of Standards Monograph 113, Vol. 1 (March 1970). Хокинс (Hawkins J. K.) Image processing principles and techniques, in Advances in Information Systems, Vol. 3 pp. 113—214, J. T. Tou, ed. (Plenum Press, New York and London, 1970). Xo и Агреула (Ho Y. С., Agrawala A.) On pattern classification algorithms: introduction and survey, Proc. IEEE, 56, 2101—2114 (December 1968). Хуанг, Шрайбер и Третьяк (Huang Т. S., Schreiber W. F., Tretiak O. J.) Image Processing, Proc. IEEE, 59, 1586—1609 (November 1971).
Глава 2 БАЙЕСОВСКАЯ ТЕОРИЯ РЕШЕНИЙ 2.1. ВВЕДЕНИЕ Байесовская теория принятия решений составляет основу ста- статистического подхода к задаче классификации образов. Этот подход основан на предположении, что задача выбора решения сформули- сформулирована в терминах теории вероятностей и известны все представ- представляющие интерес вероятностные величины. В данной главе изложены основные положения этой теории и показано, что ее можно рас- рассматривать просто как формализацию общепринятых приемов. В последующих главах рассматриваются задачи, возникающие в случаях, когда вероятностная структура известна не полностью. Прежде чем дать в разд. 2.2 общее строгое изложение байесов- байесовской теории решений, остановимся на конкретном примере. Вернем- Вернемся к рассмотренной в гл. 1 задаче построения классификатора, различающего два вида древесины — ясень и березу. Предположим, что наблюдателю, следящему за выпуском древесины с завода, представляется настолько трудным предсказать, какого вида дре- древесина появится следующей, что последовательность ее видов ка- кажется ему случайной. Используя терминологию теории решений, можно сказать, что появление куска древесины того или иного вида означает, что природа пришла в одно из двух состояний — древесина оказывается либо ясенем, либо березой. Обозначим состояния природы символом со, причем для ясеня со = со!, а для бе- березы со=со2. Состояние со может рассматриваться как случайная величина в том смысле, что состояние природы не предсказуемо. Если фабрика выпускает ясеня столько же, сколько березы, то можно сказать, что следующий кусок в равной мере может ока- оказаться или ясенем, или березой. В общем случае предположим, что существует некоторая априорная вероятность P(a>i) того, что следующий кусок окажется ясенем, и Р (со2) — что это будет береза. Эти априорные вероятности отражают исходное знание того, с какой степенью уверенности можно предсказать ясень или березу до их действительного появления. Предполагается, что величины и Р(со2) неотрицательны и сумма их равна единице1). *) При обозначениях обычно используется прописная Р для функции рас- распределения и строчная р для функции плотности распределения вероятностей. Функция плотности распределения вероятностей неотрицательна, и интеграл от нее равен единице.
2.1. Введение 21 Допустим сначала, что требуется решить, какой из видов дре- древесины появится следующим, не видя ее. Единственная инфор- информация, которой мы располагаем, это величины априорных вероят- вероятностей. Если решение необходимо принять, исходя из столь малой информации, то разумно воспользоваться следующим решающим правилом: принять решение со1( если P(coi)>P(co2), и ю2 в про- противном случае. Эта процедура может показаться странной в том смысле, что в любом случае принимается одно и то же решение, хотя и известно о возможности появления обоих видов древесины. Насколько она Рис. 2.1. Пример плотности распределения, условной по классу. хороша, зависит от величины априорных вероятностей. Если P(coi) намного больше, чем Р(ш2), то наше решение отдавать пред- предпочтение о)! должно большей частью оправдываться. Если Р(а>х)~ = Р(со2), то у нас 50 шансов из 100 быть правыми. Вообще веро- вероятность ошибки равна в данном случае меньшей из величин Р (он) и Р (со2), а из дальнейшего станет видно, что при таких условиях никакое другое правило решения не даст меньшей вероятности ошибки. В большинстве случаев при выборе решения не ограничиваются столь малой информацией. В нашем примере в качестве определяю- определяющего признака можно взять яркость х оттенка древесины. Разные куски древесины выглядят светлее или темнее, так что естественно выразить это различие с помощью вероятностных законов, а х рассматривать как непрерывную случайную величину, распреде- распределение которой зависит от состояния природы. Пусть р (я|со;) — условная плотность распределения величины х в состоянии о>7-, т. е. функция плотности распределения случайной величины х при условии, что состояние природы есть aj. В этом случае различие между p{x\u>i) и р(х|со2) отражает различие яркости от- оттенков ясеня и березы (рис. 2.1).
22 Гл. 2. Байесовская теория решений Допустим, что известны как априорные вероятности Р(со;), так и условные плотности р(х|со7-). Предположим далее, что мы измеряем яркость оттенка древесины и находим, что это есть х. Ответ на вопрос, в какой мере это измерение повлияет на наше представление об истинном состоянии природы, дает правило Байеса: „, , » p(x\(Of)P((Oj) щ р(х) где />(*)= 2 Р(* (<»;)• B) Правило Байеса показывает, как наличие измеренной величины х позволяет из априорной вероятности Р (со;-) получить апостериорную 1,0 0,8 0,6 0,4 0,2 0,0 Рис. 2.2. Апостериорные вероятности для Р(ш1)=2/3, Р(ш2)=1/3. вероятность Р ((Hj\x). Зависимость Р (со;-[я) отх для случая Р (со1)=2/3 и Р(сог)=1/3 показана на рис. 2.2. Если при наблюдении получено значение х, для которого P(a>i\x) больше, чем Р(со2|л;), то естест- естественно склониться к решению, что истинное состояние природы есть <ах. Аналогично, если P((o2|je) больше, чем P(coi|*), то естественно склониться к выбору со2. Чтобы обосновать это, вычислим вероят- вероятность ошибки при принятии решения, когда наблюдалось определен- определенное значение х: Р (ошибка m = Р{<а1\х), если принимается решение со2, Я (со21 л:), если принимается решение й>х. Очевидно, что в каждом из случаев, когда наблюдается одно и то же значение х, вероятность ошибки можно свести к минимуму, принимая решение со,, если Р (ы^х^Р (а>2\х), и (о2, если Р(щ\х)> >P(coi|#). Разумеется, мы не можем дважды наблюдать точно то же самое значение величины х. Будет ли это правило минимизи- минимизировать среднюю вероятность ошибки? Да, поскольку средняя веро-
2.2. Байесовская теория решений — непрерывный случай 23 ятность ошибки определяется выражением СО Р (ошибка) = ) Р (ошибка, х) dx = = § Р (ошибка | х) р (х) dx, — со и если для каждого х вероятность Р (ошибка|х) достигает наимень- наименьшего значения, то и интеграл должен быть минимальным. Этим мы обосновали следующее байесовское решающее правило, обеспечиваю- обеспечивающее наименьшую вероятность ошибки: (Oj, если Р (а>11 х) > Р (со21 х); Принять решение г (о2 в противном случае. Самим видом решающего правила подчеркивается роль апосте- апостериорных вероятностей. Используя уравнение A), можно выразить это правило через условные и априорные вероятности. Заметим, что р(х) в уравнении A) с точки зрения принятия решения роли не играет, являясь всего-навсего масштабным множителем, обеспечи- обеспечивающим равенство Р(со1|х)+Я(сй2|х)=1. Исключив его, получим следующее решающее правило, полностью эквивалентное преж- прежнему: ©!, если р (х | coj Р (щ) > р (х | со2) Р (со2); Принять решение v (о2 в противном случае. Чтобы пояснить существо вопроса, рассмотрим крайние случаи. Пусть для некоторого х получено, что /j(x|coi)=/j(x|co2), так что конкретное наблюдение не дает информации о состоянии природы. В этом случае решение, которое мы примем, целиком зависит от априорных вероятностей. С другой стороны, если /3(coi)=/3((o2), то состояния природы априорно равновозможны, и вопрос о при- принятии решения опирается исключительно на p(x\wj)— правдопо- правдоподобие (Hj при данном х. В общем случае при выборе решения важны обе указанные величины, что и учитывается правилом Байеса, обеспечивающим наименьшую вероятность ошибки. 2.2. БАЙЕСОВСКАЯ ТЕОРИЯ РЕШЕНИЙ — НЕПРЕРЫВНЫЙ СЛУЧАЙ Дадим более строгую формулировку ранее рассмотренных сооб- соображений, сделав четыре следующих обобщения: 1) Допускается использование более одного признака. 2) Допускаются более двух состояний природы. 3) Допускаются действия, отличные от решения о состоянии природы.
24 Гл. 2. Байесовская теория решений 4) Вводится понятие функции потерь, более общее, нежели вероятность ошибки. Сами обобщения и связанные с ними усложнения формул не должны затенять того обстоятельства, что в основном речь идет о явлениях, по существу таких же, как в рассмотренном простом примере. Так, использование большего числа признаков приводит всего-навсего к замене скалярной величины х вектором признаков ху Рассмотрение более чем двух состояний природы позволяет про- провести полезные обобщения при незначительном усложнении выра- выражений. Применение действий, отличных от классификации, прежде всего означает возможность отбрасывания, т. е. отказа от принятия решения в неопределенных ситуациях, что целесообразно, если непринятие решения не обходится слишком дорого. Применение функции потерь позволяет точно установить цену каждого действия. Теоретически это также дает возможность рассматривать ситуации, при которых некоторые виды ошибок имеют большую цену в срав- сравнении с другими, хотя большинство изящных аналитических ре- результатов достигается в предположении, что все ошибки равно- равноценны. Отнеся сказанное к вступлению, перейдем к формальному изложению теории. Пусть Q = {a>i, ..., cos} есть конечное множество из s состояний природы и А = {аи ..., аа} есть конечное множество из а возмож- возможных действий. Пусть Х(аг|со^) — потери, связанные с принятием действия ah когда состояние природы есть (uj. Пусть вектор при- признаков х есть d-компонентная векторная случайная величина, и пусть p(x\b3j) является функцией условной по состоянию природы плотности распределения случайной величины х, т. е. функцией плотности х при условии, что состояние природы — со,. Наконец, пусть Я(со7) априорная вероятность того, что состояние природы есть со7-. Тогда апостериорная вероятность Р(а>}\х) может быть вычислена из р(х\(л}) посредством байесовского правила: р (х I и.) Р (ш.) *KI»H Pi) ' C) где Р(х)= 2 Жсо,.)/>(«,). D) Предположим, что мы наблюдаем определенное значение х и собираемся произвести действие at. Если текущее состояние при- природы есть Ы), то мы понесем потери А.(аг|сй,). Так как P((Oj\x) есть вероятность того, что действительное состояние природы — со}, то ожидаемые потери, связанные с совершением действия at, равны
2.2. Байесовская теория решений — непрерывный случай 25 просто Д(а,|х)=2Ма/|©/)/>(«)у|х). E) Согласно терминологии теории решений, ожидаемые потери называются риском, a R {at\x) — условным риском. Всякий раз при наблюдении конкретного значения х ожидаемые потери можно свести к минимуму выбором действия, минимизирующего условный риск. Покажем теперь, что это и есть оптимальная байесовская решающая процедура. Выражаясь формально, задача состоит в том, чтобы по P((Oj) найти байесовское решающее правило, которое бы свело к минимуму общий риск. Решающее правило есть функция а(х), которая под- подсказывает, какое действие следует предпринять при любом из воз- возможных результатов наблюдений *). Более точно, для любого х решающая функция принимает одно из а значений аь ..., аа. Общий риск R — это ожидаемые потери, связанные с данным правилом принятия решений. Так как R (аг|х) есть условный риск, связанный с действием аг, а это действие определяется решающим правилом, то общий риск выражается формулой R = J R (а (х) | х) р (х) dx, F) где символом dx мы обозначаем бесконечно малое приращение объема, а интеграл берется по всей области существования при- признака. Ясно, что если а(х) выбрано таким образом, что величина R(a(x)\\) имеет наименьшее значение для каждого х, то и общий риск будет минимальным. Этим объясняется следующая формули- формулировка байесовского решающего правила: для минимизации общего риска требуется вычислить условный риск согласно выражению «(сх,|х)=2^(а,|«;.)Р(со/|х) E) для г = 1, ..., а и выбрать действие ah при котором R (аг|х) минима- минимален. (Заметим, что если минимум R (аг|х) достигается более чем для одного действия, то не имеет значения, какое из этих действий принято; здесь пригодно любое правило, снимающее неопределен- неопределенность.) Получающийся минимальный общий риск называется байе- байесовским риском, соответствующим наилучшему возможному образу действия. *) Читателю, знакомому с теорией игр, оно известно как детерминированное решающее правило. В теории игр на месте природы выступает злонамеренный противник, который может извлечь пользу из детерминированной стратегии, так что часто оказывается выгодным рандомизированное решающее правило. Однако в нашем случае рандомизированное правило преимуществ не дает. С ма- математической иллюстрацией этого читатель встретится в задаче 8.
26 Гл. 2. Байесовская теория решений 2.3. КЛАССИФИКАЦИЯ В СЛУЧАЕ ДВУХ КЛАССОВ Применим полученные результаты к исследованию задач клас- классификации в случае двух классов. В этом случае действие ах соот- соответствует принятию решения, что истинное состояние природы есть «I, a действие а2 — что истинное состояние есть со2. Для простоты записи пусть lkij=lk(ai\(aj) — потери вследствие принятия решения сог при истинном состоянии природы соу-. Тогда в соответствии с уравнением E) условный риск запишется в виде R R (at («. x) = x) = X21P (со, |xL |x)H -X 1-Я, 22P («2 |x), |x). Существует ряд способов записи решающего правила с минималь- минимальным риском, каждый со своими небольшими преимуществами. Ос- Основное же правило заключается в выборе со1( если R (а^х)^^ (а2|х). На языке апостериорных вероятностей это правило состоит в вы- выборе соь если Обычно потери в случае ошибки больше, чем при правильном принятии решения, так что оба коэффициента Я,21—hi и К12—Я,22 положительны. Таким образом, наше решение главным образом определяется более правдоподобным состоянием природы, хотя и требуется масштабирование апостериорных вероятностей соответ- соответствующими разностями потерь. Пользуясь правилом Байеса, можно заменить апостериорные вероятности априорными и услов- условными плотностями, в результате чего получим эквивалентное пра- правило: принять решение соь если (hi—ku)p (хЮР (coj)> (k12—122)р (х|со2)Р (со2). Из вполне логичного предположения, что Я,21>^1Ь непосред- непосредственно вытекает другое правило: принять решение соь если Р (х | v>i) . Ai2 — X22 P((o2) р(х|ш2) Я21 — V Р(ш1) ' Такая запись решающего правила подчеркивает зависимость плот- плотностей распределений от х. Величина /?(х|со;), рассматриваемая как функция от со;, называется правдоподобием со7- при данном х, а /?(х|со1)//?(х|со2) — отношением правдоподобия. Таким образом, байесовское решающее правило можно сформулировать как реко- рекомендацию выбирать решение coi в случае, если отношение правдопо- правдоподобия превышает пороговое значение, не зависящее от наблюдае- наблюдаемого х.
2.4. Классификация с минимальным уровнем ошибки 27 2.4. КЛАССИФИКАЦИЯ С МИНИМАЛЬНЫМ УРОВНЕМ ОШИБКИ Обычно в задачах классификации каждое состояние природы связывается с одним из с различных классов, а действие at интер- интерпретируется как принятие решения, что истинное состояние при- природы есть (Oj х). Если выбрано действие at, а истинное состояние природы есть <?>j, то решение верно в случае, если i—j, и ошибочно при 1Ф]. Если ошибки нежелательны, то естественно было бы об- обратиться к поиску такого решающего правила, при котором до- достигается наименьшая средняя вероятность ошибки, или наимень- наименьший уровень ошибок. В качестве функции потерь для такого случая особый интерес представляет так называемая симметричная, или нуль-единичная, функция потерь G) Эта функция связывает отсутствие потерь с правильным реше- решением и приписывает единичные потери любым ошибкам. Все ошиб- ошибки, таким образом, имеют одинаковую цену. Риск, соответствующий такой функции потерь, и есть в точности средняя вероятность ошиб- ошибки, так как условный риск выражается формулой с R (а, | х) = 2 Я (а,. | со,) Р (со,-1 х) = /=1 E) а Р(сог|х) есть условная вероятность того, что действие at верно. Байесовское решающее правило, минимизирующее риск, рекомен- рекомендует применять то действие, при котором условный риск минимален. Таким образом, чтобы получить наименьшую среднюю вероятность ошибки, мы должны выбрать такое i, для которого апостериорная вероятность Я(сог|х) максимальна. Иными словами, для минимиза- минимизации уровня ошибок следует руководствоваться таким правилом: принять решение со,-, если Р (со,-1х) > Р(со;.| х) для всех \ф1. *) В данном случае a=s—c есть число классов. Иногда бывает полезно оп- определить действие ac + t как отказ от принятия решения; этот случай рассмат- рассматривается в задачах 6 и 7.
28 Гл. 2. Байесовская теория решений 2.5. КЛАССИФИКАТОРЫ, РАЗДЕЛЯЮЩИЕ ФУНКЦИИ И ПОВЕРХНОСТИ РЕШЕНИЙ 2.5.1. СЛУЧАЙ МНОГИХ КЛАССОВ Допустимы различные способы описания классификаторов. Один из способов, дающий нечто вроде канонической формы клас- классификатора, состоит в представлении его посредством системы разделяющих функций gt(x), i=l, ..., с. Говорят, что классификатор Вектор примаков 9i 9z m 9c 9iM \ * * * I max Устройство сравнения -*Oa(x) Решение Рис. 2.3. Схема классификатора образов. ставит в соответствие вектор признаков х классу соь если справед- справедливо неравенство 8i (х) > §j (х) Для всех / ^ »• (9) Классификатор, таким образом, рассматривается как устрой- устройство, вычисляющее с разделяющих функций и выбирающее реше- решение, соответствующее наибольшей из них. Такое представление классификатора изображено в виде блок-схемы на рис. 2.3. Это естественный и простой способ представления байесовского классификатора. В общем случае положим gt(x)=—R(at\x), так как наибольшая из разделяющих функций будет тогда соответст- соответствовать наименьшему условному риску. В случае классификации с минимальным уровнем ошибки задачу можно еще упростить, принимая gi(x)=P(<?>i\x), так что наибольшая по величине разде- разделяющая функция будет соответствовать наибольшей апостериорной вероятности. Ясно, что выбор разделяющих функций не единствен. Всегда можно, не влияя на решение, умножить разделяющие функции на положительную константу или прибавить к ним какую-либо константу. Более того, если заменить каждую из gi(x) на f(gi(x)),
2.5. Классификаторы, разделяющие функции и поверхности 29 где / — монотонно возрастающая функция, то результирующая классификация не изменится. Это обстоятельство может привести к существенным аналитическим и расчетным упрощениям. В част- частности, при классификации с минимальным уровнем ошибки любой из следующих вариантов приводит к одинаковым результатам, ,р(* ! I Границы областей решений р(х\а,)Р(а,) Граница области решения" S Рис. 2.4. Примеры областей решений и их границ. хотя некоторые и могут оказаться намного проще других с точки зрения понятности или удобства вычислений: A0) (И) 8i (х) = Р (X | И,') Р (<¦>/) 2 Р (х | со/) Р / = i gi(x) = p(x\<s>i)P(<t> gi (x) = log р (х | ш,) -f log Р (со,-). A2) A3)
30 Гл. 2. Байесовская теория решений Решающие правила остаются эквивалентными независимо от разнообразия этих форм записи разделяющих функций. Действие любого из решающих правил состоит в том, чтобы разбить про- пространство признаков на с областей решений Ш,и ..., еЙ.с. Если ока- оказывается, что gt [x)>g] (х) для всех }Ф1, то считаем, что х нахо- находится в области сЯ( и, согласно решающему правилу, со значением х следует сопоставить состояние сог. Области разделяются границами областей решений — такими поверхностями в пространстве призна- признаков, вдоль которых совпадают наибольшие (для каждой точки х.— Ред.) из разделяющих функций (рис. 2.4). Для соприкасающихся областей сЯ; и ell; уравнение разделяющей их границы имеет вид Ых)=Ых). A4) Хотя данное уравнение в зависимости от выбранного вида раз- разделяющих функций может принимать различную форму, границы областей решений остаются, конечно, одними и теми же. Для точек, лежащих на границе, задача классификации определяется не един- единственным образом. В случае байесовского классификатора для каждого из решений получаем одно и то же значение условного риска, так что не важно, как будет разрешена эта неопределенность. Вообще говоря, данная проблема разрешения неопределенности при непрерывных функциях плотности условного распределения является чисто теоретической задачей. ^.5.2. СЛУЧАЙ ДВУХ КЛАССОВ Хотя два класса — это лишь частный случай многих классов, обычно его исследуют отдельно. Вместо использования двух раз- разделяющих функций gi и gi и сопоставления значений х и состояния х, хг +1 а, -/ Вектор Пороговый Решение признаков злемент Рис. 2.5. Схема классификатора образов для двух классов. со! при gi>gi чаще принято определять одну разделяющую функ- функцию: g(x)=gi(x)-gt(*) A5) и применять следующее правило: принять решение соь если g(х)>0; в противном случае — принять решение со2- Классификатор для
2.6. Вероятности ошибок и интегралы ошибок 31 двух классов может, таким образом, рассматриваться как устрой- устройство, вычисляющее единственную разделяющую функцию g(x) и классифицирующее х в соответствии с алгебраическим знаком ре- результата (рис. 2.5). Из всевозможных видов записи разделяющей функции, дающей минимальный уровень ошибки, особенно удобны два: ^(х) = Р(со1|х)-Р(со2|х), A6) 2.6. ВЕРОЯТНОСТИ ОШИБОК И ИНТЕГРАЛЫ ОШИБОК Представляя классификатор как устройство для разбиения про- пространства признаков на области решений, можно глубже разоб- разобраться в работе байесовского классификатора. Рассмотрим сначала и>1) Р(ыг) р(х\щ)Р(ы,) Рис. 2.6. Составляющие вероятности ошибки. случай двух классов и предположим, что классификатор разделяет пространство на две области сЯх и cfr2- Возможны два типа ошибок классификации: когда наблюдаемое значение х попадает в область §12, в то время как истинное состояние природы есть щ, либо когда х попадает в оЯь а истинное состояние природы — со2. Так как эти события взаимоисключающие и составляют полное множество событий, то Р (ошибка) = = 5 p(x|co1)P(co1)dx+ 5 />(x|@2)PK)dx. Этот результат для одномерного случая иллюстрируется рис. 2.6. Два слагаемых в этом выражении, по существу, представляют площади, накрываемые «хвостами» функций p(x|(oi)/)((oi). В силу
32 Гл. 2. Байесовская теория решений произвольного выбора eRi и eR2 вероятность ошибки в примере не столь мала, как могла бы быть. Ясно, что, смещая границу области решений влево, можно свести на нет площадь темного «треугольни- «треугольника» и тем самым уменьшить вероятность ошибки. Вообще, если р(х|@1)/)((й1)>'/?(х|(й2)^>(«2), то выгоднее иметь х в области cRb чтобы вклад в интеграл был меньше; именно это и достигается при- применением байесовского решающего правила. В случае многих классов больше возможностей допустить ошиб- ошибку, чем оказаться правым, так что проще вычислять вероятность верного решения. Ясно, что с Р (отсутствие ошибки) = 2 Р (х € «&/» и/) = с = 2 \р{*\щ)Р{щ)с1х. 1-1 эй Полученный результат остается в силе независимо от способа разбиения пространства признаков на области решений. Байесов- Байесовский классификатор делает эту вероятность максимальной за счет выбора областей, для которых интегрируемые величины наиболь- наибольшие, так что никакое другое разбиение не приведет к меньшей вероятности ошибки. 2.7. НОРМАЛЬНАЯ ПЛОТНОСТЬ Структура байесовского классификатора определяется в основ- основном типом условных плотностей /?(х|сог). Из множества исследо- исследованных функций плотности наибольшее внимание было уделено многомерной нормальной плотности распределения. Следует при- признать, что это вызвано в основном удобством ее аналитического вида. Вместе с тем многомерная нормальная плотность распределе- распределения дает подходящую модель для одного важного случая, а именно когда значения векторов признаков х для данного класса сог пред- представляются непрерывнозначными, слегка искаженными версиями единственного типичного вектора, или вектора-прототипа, fX;. Именно этого ожидают, когда классификатор выбирается так, чтобы выделять те признаки, которые, будучи различными для образов, принадлежащих различным классам, были бы, возможно, более схожи для образов из одного и того же класса. В данном разделе приводится краткое описание свойств многомерной нормальной плотности распределения, причем особое внимание уделяется тем из них, которые представляют наибольший интерес для задач клас- классификации.
2.7. Нормальная плотность 33 2.7.1. ОДНОМЕРНАЯ НОРМАЛЬНАЯ ПЛОТНОСТЬ Рассмотрим сначала одномерную нормальную функцию плот- плотности для которой со ?[*]= J xp(x)dx = p B1) (х-цJ/Ф)^ = а*. B2) — 00 Одномерная нормальная плотность распределения полностью определяется двумя параметрами — средним значением |х и диспер- дисперсией а2. Для простоты уравнение B0) часто записывается в виде p(x)~N(\i, а2), что означает, что величина х распределена нор- нормально со средним значением ц и дисперсией а2. Значения нормаль- нормально распределенной величины группируются около ее среднего зна- значения с разбросом, пропорциональным стандартному отклонению а; при испытаниях примерно 95% значений нормально распределен- распределенной величины будет попадать в интервал \х—\\2 2.7.2. МНОГОМЕРНАЯ НОРМАЛЬНАЯ ПЛОТНОСТЬ Многомерная нормальная плотность распределения в общем виде представляется выражением ] B3) где х есть d-компонентный вектор-столбец, р. есть d-компонентный вектор среднего значения, 2 — ковариационная матрица размера dxd, (х—|ш)* — транспонированный вектор х—|ш, 2— матрица, обратная 2, а |2 | — детерминант матрицы 2. Для простоты выра- выражение B3) часто записывается сокращенно в виде p(x)~N(}i, S). Формально можно написать ?[] B4) B5) где ожидаемое значение вектора или матрицы находится поэлемент- поэлементным вычислением математических ожиданий компонент. Выражаясь конкретнее, если xt есть i-я компонента х, |хг есть г-я компонента (*, a otj есть (/-/)-я компонента 2, то получаем B6)
34 Гл. 2. Байесовская теория решений ati=El(xt-Vit)(xr^ij)l B7) Ковариационная матрица 2 всегда симметрична и положительно полуопределена. Ограничимся рассмотрением случаев, когда 2 положительно определена, так что ее детерминант строго положи- положителен *). Диагональный элемент ан есть дисперсия xt, а недиаго- недиагональный элемент оц есть ковариация xt и xj. Если xt и Xj статисти- статистически независимы, то 0^=0. Если все недиагональные элементы равны нулю, тор(х) сводится к произведению одномерных нормаль- нормальных плотностей компонент вектора х. Нетрудно показать, что любая линейная комбинация нормально распределенных случайных величин также распределена нормально. В частности, если А есть матрица размера dxn, а у=Л'х есть я-компонентный вектор, то р(у)~Л'(Afii, Л*2Л). В частном слу- случае, если А есть вектор единичной длины а, то величина у=Л*х является скаляром, представляющим проекцию вектора х на на- направление а. Таким образом, а*2а есть дисперсия проекции х на а. Вообще знание ковариационной матрицы дает возможность вычис- вычислить дисперсию вдоль любого направления. Многомерная нормальная плотность распределения полностью определяется d+d(d-{-\)/2 параметрами — элементами вектора сред- среднего значения р. и независимыми элементами ковариационной мат- матрицы 2. Выборки нормально распределенной случайной величины имеют тенденцию попадать в одну область или кластер (рис. 2.7). Центр кластера определяется вектором среднего значения, а фор- форма — ковариационной матрицей. Из соотношения B3) следует, что точки постоянной плотности образуют гиперэллипсоиды, для ко- которых квадратичная форма (х—ц)*2-х(х—ц) постоянна. Главные оси этих гиперэллипсоидов задаются собственными векторами 2, причем длины осей определяются собственными значениями. Ве- Величину г« = (х-цУ2-Чх-ц) B8) иногда называют квадратичным махаланобисовым расстоянием от х до р.. Линии постоянной плотности, таким образом, представляют собой гиперэллипсоиды постоянного махаланобисова расстояния до ц. Объем этих гиперэллипсоидов служит мерой разброса выборок относительно среднего значения. Можно показать, что объем ги- гиперэллипсоида, соответствующего махаланобисову расстоянию г, равен V = Vd\?,\4*rd, B9) 1) Если выборки значений нормально распределенной величины принадлежат некоторому линейному подпространству, то |2|=0, и р(х) вырождено. Это слу- случается, если, например, одна из компонент вектора х обладает нулевой дисперсией либо две компоненты оказываются идентичными. Мы специально исключаем такие случаи.
/'¦ Рис. 2.7. Представление нормальной плотности а — в виде функции двух переменных, б —на диаграмме разброса.
36 Гл. 2. Байесовская теория решений где Vd есть объем d-мерной единичной гиперсферы, равный ^р- при четном d, Т)! (зо, - при нечетном d. -., Таким образом, при заданной размерности разброс выборок изменяется пропорционально величине |2 |'/i. 2.8. РАЗДЕЛЯЮЩИЕ ФУНКЦИИ ДЛЯ СЛУЧАЯ НОРМАЛЬНОЙ ПЛОТНОСТИ Как мы видели в разд. 2.5, классификация с минимальным уровнем ошибки может осуществляться посредством разделяющих функций вида ,). A3) Это выражение легко оценивается в случае, когда многомерная плотность р(х|Ю() нормальна. Пусть /?(x|©j)~W(щ2г). Тогда, согласно выражению B3), имеем St W = - у (*-№)' ^Г1 (х — I*/)—4 log 2я~ —i-log | S,| +log/»(©,)¦ C1) Рассмотрим этот результат в некоторых частных случаях. 2.8.1. СЛУЧАЙ 1: 2,=а2/ Эта простейшая ситуация возникает тогда, когда признаки ста- статистически независимы и имеют одинаковую дисперсию а2. Кова- Ковариационная матрица при этом становится диагональной, превра- превращаясь в произведение а2 на единичную матрицу /. Выборки при этом попадают внутрь одинаковых гиперсферических кластеров, причем каждый кластер t-ro класса имеет своим центром вектор средних значений |ш.г. Здесь значительно упрощается расчет опре- определителя и матрицы, обратной 2г; они равны соответственно |2г|= =сы и 2f1== A/cr2)/. В соотношении C1) можно пренебречь несуще- несущественными постоянными слагаемыми |2г| и (d/2)log 2я, так как их значения не зависят от i. В результате разделяющие функции при- принимают простой вид: Si (х) = - Ц^ + log Р Ы, C2)
2.8. Разделяющие функции для случая нормальной плотности 37 где || -И — евклидова норма, т. е. C3) Если для всех с классов априорные вероятности Р(со;) равны, то слагаемое logP(cOj) также становится несущественной адди- аддитивной константой, которой можно пренебречь. Оптимальное ре- решающее правило формулируется в этом случае очень просто: чтобы определить класс вектора признаков х, следует измерить евклидово расстояние ||х—pt\\ от х до каждого из с векторов средних значений и отнести х к классу, соответствующему ближайшему среднему значению. Такой классификатор называют классификатором по ми- минимуму расстояния. Если каждый из векторов средних значений считать идеальным прототипом или эталоном для образов своего класса, то это по существу будет процедура сравнения с эталоном. Если априорные"вероятности не равны, то, согласно соотношению C2), квадрат расстояния ||х—ц,4||2 должен быть нормирован по дисперсии а2 и смещен на величину log P2 (юг); поэтому в случае, когда х одинаково близок к двум различным векторам средних значений, при принятии решения следует предпочесть класс, ап- априорно более вероятный. На самом деле нет необходимости вычислять расстояние в каж- каждом из этих случаев. Раскрытие квадратичной формы (х—|иц)'(х—цг) приводит к выражению [x'x2Jx + ri]+ log Я К), являющемуся квадратичной функцией х. Вместе с тем квадратичный член х*х, неизменный для любого i, представляет собой постоянное слагаемое, и им можно пренебречь. В результате получаем экви- эквивалентную линейную разделяющую функцию вида ft(x)=w,'x+tt;rt, C4) где1) W/ =-а» ft C5) Классификатор, основанный на использовании линейных раз- разделяющих функций, называется линейной машиной. Классификатор *) Читатели, знакомые с теорией выделения сигналов, узнают здесь корре- корреляционный детектор. Разделяющая функция g,-(x) определяет взаимную корре- корреляцию входной величины х и заданного опорного сигнала ц,-. Константой w^ учитывается как энергия опорного сигнала, так и априорная вероятность его появления.
38 Гл. 2. Байесовская теория решений -XI I Гранина оВластей решений Рис. 2.8. Границы областей решений при использовании классификатора по минимуму расстояния. а — задача для двух классов, б — задача для четырех классов. этого типа обладает многими свойствами, интересными с теорети- теоретической точки зрения; некоторые из них будут подробно обсуждаться в гл. 5. Здесь же заметим просто, что поверхности решений в слу- случае линейной машины явятся частями гиперплоскостей, опреде- определяемых линейными уравнениями gi(x)=gj(x). Для данного част- частного случая это уравнение можно записать в виде w*(x—х,) = 0. где C7) C8)
2.8. Разделяющие функции для случая нормальной плотности 39 C9) Это уравнение определяет ортогональную вектору w гипер- гиперплоскость, проходящую через точку х0. Поскольку w=|uii—|ш;, гиперплоскость, разделяющая Stt и 91], будет ортогональна прямой, соединяющей средние значения. Если Р((о()=/э((О;), то точка х0 находится посередине между средними значениями, а гиперпло- гиперплоскость проходит через середину отрезка, соединяющего средние значения перпендикулярно ему (рис. 2.8). Этого следовало бы ожи- ожидать по той причине, что классификатор в данном случае есть клас- классификатор по минимуму расстояния. Если Р(сог)=^Я(со;), то точка х0 смещается, удаляясь от более вероятного среднего значения. Вместе с тем следует заметить, что если дисперсия а2 мала по срав- сравнению с квадратом расстояния ||щ—\ij\\2, то положение границы областей решений сравнительно мало зависит от точных значений априорных вероятностей. 2.8.2. СЛУЧАЙ 2: 2,-=2 В другом простом случае ковариационные матрицы для всех классов одинаковы. Геометрически это соответствует ситуации, при которой выборки попадают внутрь гиперэллипсоидальных областей (кластеров) одинаковых размеров и формы, с вектором средних значений в центре каждой. Не зависящими от i слагаемыми [2|| и (d/2)log 2я в соотношении C1) можно пренебречь. В результате получаем разделяющие функции вида &(х) =_l(x_|»/)*S-4x-ft) + logP(o)/). D0) Если априорные вероятности Р(а>г) для всех с классов равны, то слагаемым logP (юг) можно пренебречь. Оптимальное решающее правило в этом случае снова оказывается очень простым: для клас- классификации вектора признаков следует определить квадратичное махаланобисово расстояние (х—(л^Е-^х—цЦ от х до каждого из с векторов средних значений и отнести х к классу, соответствую- соответствующему ближайшему среднему значению х). Как и прежде, в случае неравных априорных вероятностей, при принятии решения не- несколько большее предпочтение отдается классу, априорно более вероятному. *) К альтернативной интерпретации можно прийти, подвергая координаты признаков линейному преобразованию с таким изменением масштабов и поворотом осей, при котором гиперэллипсоиды постоянного махаланобисова расстояния превратятся в гиперсферы. Такое преобразование упрощает задачу, сводя ее к случаю, рассмотренному в предыдущем разделе, и позволяя махаланобисово расстояние рассматривать в преобразованном пространстве как евклидово.
40 Гл. 2. Байесовская теория решений При раскрытии квадратичной формы (х—ц,)*2-х(х—цг) обна- обнаруживается, что квадратичное слагаемое х*2-1х не зависит от i. Исключая его, снова получим линейные разделяющие функции вида &(х) = шфс+ш/в, D1) Я, / где w, = 2->, D2) И 1 __ / vi_t Грешит областей решений •X) Рис. 2.9. Граница областей решений при использовании классификатора по миниму- минимуму махаланобисова расстояния. D3) Так как разделяющие функции линейны, границы областей решений в этом слу- случае становятся гиперплоско- гиперплоскостями (рис. 2.9). Для смеж- смежных eRj и «R/ граница между ними описывается уравне- уравнением w'(x-xo) = O, где и log Р (со,-) Р (СОу) D4) D5) D6) Так как направление вектора w=S ~х (|лг—1*7) в общем случае не совпадает с направлением р.*—fi/, то гиперплоскость, разделяющая ?Цг и ей;, вообще говоря, не ортогональна отрезку, соединяющему средние значения. Вместе с тем в случае равных априорных вероят- вероятностей она пересекает этот отрезок в точке х0, находящейся посе- посередине между средними значениями. При неравных априорных вероятностях граничная гиперплоскость смещается, удаляясь от более вероятного среднего значения. 2.8.3. СЛУЧАЙ 3: ПРОИЗВОЛЬНЫЕ 2; В общем случае многомерного нормального распределения ко- ковариационные матрицы для каждого класса различны. В выражении C1) можно пренебречь только слагаемым (d/2)log 2я, так что по- получаемые разделяющие функции оказываются существенно квад- квадратичными: i D7)
2.8. Разделяющие функции для случая нормальной плотности 41 где Г, = —J-Sf1, D8) w^Zf1»*/, D9) wi0 = - 1|*{2гV,- —j log | 2? | + log P (со,). E0) Границы областей решений представляют собой гиперквадрики и могут принимать любую из общих форм — гиперплоскостей, я. :> Рис. 2.10. Виды границ областей решений в общем случае двумерного нормаль- нормального распределения. а — круг, б — эллипс, в — парабола, г — гипербола, д — прямые. гиперсфер, гиперэллипсоидов, гиперпараболоидов или разного вида гипергиперболоидов. То, каким образом могут возникнуть эти различные виды гиперквадрик, изображено для двумерного случая
42 Гл. 2. Байесовская теория решений на рис. 2.10. Так как переменные xlt х2 независимы для фиксиро- фиксированного класса, их ковариационные матрицы диагональны. По- Поверхности решений различаются исключительно из-за различия между дисперсиями. Сами дисперсии обозначены пронумерованными контурами постоянной плотности вероятности. На рис. 2.10 (а) дисперсии для р(х|соа) меньше, чем для р(х\а>^). Поэтому более вероятно, что выборки, принадлежащие классу 2, окажутся вблизи среднего значения для этого класса, а из-за центральной симметрии граница решения образует окружность, внутри которой лежит |ш2. При растяжении оси х2, как показано на рис. 2.10 (б), граница решения вытягивается в эллипс. Рис. 2.10 (в) иллюстрирует случай, когда обе плотности имеют одинаковые дисперсии в направлении хи но в направлении х2 дисперсия для p(x|coi) больше, чемдля/?(х|соа). Таким образом, выборки с большим х2, вероятнее, принадлежат классу 1, а граница решения представляет собой параболу. С ро- ростом хх дисперсия для /?(х|(о2) меняется как на рис. 2.10 (г) и гра- граница превращается в гиперболу. Наконец, особый случай симмет- симметрии, когда гиперболическая граница вырождается в пару прямых, приведен на рис. 2.10 (д). 2.9. БАЙЕСОВСКАЯ ТЕОРИЯ РЕШЕНИЙ — ДИСКРЕТНЫЙ СЛУЧАЙ До сих пор предполагалось, что вектор признаков х может быть любой точкой d-мерного евклидова пространства. На практике компоненты вектора х часто оказываются бинарными или тер- тернарными переменными, так что х может принять одно из т диск- дискретных значений vb ..., vm. Функция плотности р(х|со,-) в таких случаях становится сингулярной, а интегралы вида \p(x\(s>,)dx превращаются в суммы где P(vh\(Oj) — условная вероятность того, что x=vft при условии, что состояние природы есть со,-. Байесовское правило принимает вид ^К-|х) = р\х) E1) где P(x)=i]P(x|co,)/>(co,.). E2) Определение условного риска R(at\x) при этом не изменяется, так что основное байесовское решающее правило остается прежним: для того чтобы общий риск был наименьшим, следует выбирать такое действие ah для которого R(at\x) минимален. Основное пра-
2.10. Независимые бинарные признаки 43 вило минимизации уровня ошибки посредством максимизации апо- апостериорной вероятности также не изменяется, так что, пользуясь правилом Байеса, получим следующие эквивалентные разделяющие функции: ( (|) E3) E4) g, (х) = log Р (х | щ) + log P (со/). E5) Для случая двух классов часто более удобны разделяющие функции вида g(x) = PK|x)-PK|x), E6) 2.10. НЕЗАВИСИМЫЕ БИНАРНЫЕ ПРИЗНАКИ В качестве примера типичной задачи классификации при диск- дискретных значениях признаков рассмотрим случай двух классов, в каждом из которых компоненты вектора бинарны и условно независимы. Пусть для определенности x=(jc1( ..., xd)f, где ком- компоненты вектора х равны либо 1, либо 0, причем />i=Pr(*i=l|a>i) Это модель задачи классификации, в которой каждый из при- признаков несет ответ типа «да» — «нет». В случае pi>qi следует ожи- ожидать, что t'-й признак будет чаще давать ответ «да» при состоянии природы соь нежели при <os. В предположении условной независи- независимости можно записать Р(х|шг) в виде произведения вероятностей для компонент х. Записать это удобнее следующим образом: со,) = n Отношение правдоподобия при этом определяется выражением d ' Pi \*> a из E7) получим выражение для разделяющей функции
44 Гл. 2. Байесовская теория решений Видно, что данное уравнение линейно относительно xt. Таким образом, можно написать d g(x)= Sb/ где Посмотрим, к каким выводам можно прийти на основании полу- полученных результатов. Напомним прежде всего, что в случае g(x)>0 принимается решение а>и а в случае g(x)^.O — решение со2. Мы уже убедились, что g(x) представляет собой взвешенную комбинацию компонент вектора х. Величиной веса wt измеряется значимость ответа «да» для xt при классификации. Если Pi=qi, то величина х, не несет информации о состоянии природы, так что шг=0. В слу- случае Pi>qi имеем 1—pt<.\—qt, так что вес wt положителен. Следо- Следовательно, в этом случае ответ «да» для xt дает wt голосов в пользу coi. Кроме того, при любом постоянном ^<1, чем больше ри тем больше и wt. С другой стороны, при Pi<.qt величина wt становится отри- отрицательной, и ответ «да» дает \wt\ голосов в пользу со2. Величины априорных вероятностей Р(сог) проявляются в выра- выражении разделяющих функций только через так называемый поро- пороговый вес w0. Увеличение Р (щ) приводит к увеличению w0, склоняя решение к со*, тогда как уменьшение />(<о1) оказывает противопо- противоположное действие. Геометрически векторы v^ можно представить вершинами d-мерного гиперкуба. Поверхность решения, опреде- определяемая уравнением g(x)=0, представляет собой гиперплоскость, отделяющую вершины «j от вершин сог. Положение этой гиперпло- гиперплоскости в дискретном случае можно, очевидно, изменять множеством способов, не пересекая вершин и не изменяя вероятности ошибки. Каждая из этих гиперплоскостей представляет оптимальную раз- разделяющую поверхность, обеспечивая оптимальный образ действия. 2.11. СОСТАВНАЯ БАЙЕСОВСКАЯ ЗАДАЧА ПРИНЯТИЯ РЕШЕНИЙ И КОНТЕКСТ Вернемся к ранее рассмотренному примеру разработки класси- классификатора для сортировки двух видов древесины — ясеня и березы. Первоначально было принято, что последовательность видов дре- древесины настолько непредсказуема, что состояние природы пред- представляется чисто случайной переменной. Не отказываясь от этого, предположим, что последовательные состояния природы могут и
2.11. Составная байесовская задача принятия решений 45 не быть статистически независимыми. Например, если даже априор- априорные вероятности для ясеня и березы оказываются равными, то может оказаться, что при появлении некоторого куска древесины более вероятно, что несколько последующих кусков будут того же самого вида. В этом случае последовательные состояния природы нахо- находятся в некоторой зависимости, которую можно использовать для улучшения образа действия. Это один из примеров ориентации на контекст при выборе решения. Способ использования такой информации будет несколько варь- варьироваться в зависимости от того, есть ли возможность дожидаться выхода п кусков древесины, после чего принимать все п решений сразу, или же принимать решение надо при появлении каждого куска древесины. Первая задача называется составной задачей принятия решений, а вторая — последовательной составной задачей принятия решений. Рассмотрим первый случай как более нагляд- наглядный. Для формулировки задачи в общем виде обозначим п состояний природы вектором со=(соA), ..., со («))*, где co(t) относится к од- одному из с значений соь ..., сос. Пусть Р(ы) есть априорная вероят- вероятность п состояний природы. Пусть Х=(хи ..., х„) есть матрица, определяющая п наблюдаемых векторов признаков, где xt есть век- вектор признаков, получаемый при состоянии природы со (г). И наконец, пусть р(Х\а>)—функция плотности условного распределения ве- величины X при условии, что множество состояний природы есть со. В этом случае апостериорная вероятность состояния со определяется выражением 1^р±, E8) где р(Х) = 2,р(Х\а)Р(а). E9) Для составной задачи принятия решений в общем случае можно определить матрицу потерь и отыскивать решающее правило, минимизирующее составной риск. Данная теория строится п® аналогии с ранее рассмотренной простой задачей принятия реше- решения, приводя в итоге к тому, что оптимальная процедура состоит в минимизации составного условного риска. В частном случае, если при правильном решении потери отсутствуют и если все ошибки имеют одинаковую цену, то процедура сводится к вычислению Р ((о\Х) для всех и и выбору такого <о, апостериорная вероятность которого наибольшая. Так как при этом требуется проделать все необходимые вычис- вычисления для определения Р((а\Х), задача на практике часто оказы- оказывается чересчур громоздкой. Если каждая из компонент со (г) может принимать одно из с значений, то необходимо рассмотреть сп воз-
46 Гл. 2. Байесовская теория решений можных значений со. Задача несколько упрощается в случае, когда распределение вектора признаков xt зависит от соответствующего состояния природы со (t) и не зависит от других векторов признаков и состояний природы. Общая плотность р{Х\а) определяется при этом просто произведением плотностей компонент p(Xj|co(t)): = ft «) = Пр(х,ХО)- F0) Таким образом, вычисление р(Х\(а) при этом упрощается, однако все еще сохраняются трудности определения априорной вероятности Р(со). Эта вероятность, отражающая взаимосвязь состояний природы, лежит в основе составной байесовской задачи принятия решения. Поэтому задачу вычисления Р(<ш) нельзя упро- упрощать, вводя предположение о независимости состояний природы. Кроме того, на практике обычно стараются каким-нибудь способом избавиться от вычисления Р(ы\Х) для всех с" возможных значе- значений со. Оставим эти задачи предметом для дополнительных раздумий, а читателей, интересующихся дальнейшими подробностями, отош- отошлем к соответствующей литературе. 2.12. ПРИМЕЧАНИЯ Таким образом, мы закончили изложение байесовской теории решений, остановившись особо на случае многомерного нормаль- нормального распределения. Соображения, положенные в ее основу, весьма просты. Для того чтобы сделать общий риск минимальным, необ- необходимо выбирать такое действие, при котором будет минимален ус- условный риск, соответствующий выражению В частности, чтобы сделать минимальной вероятность ошибки при классификации, следует всегда выбирать такое из состояний природы, для которого апостериорная вероятность Я(соу|х) имеет наибольшее значение. Величины апостериорных вероятностей в соответствии с правилом Байеса определяются по априорным веро- вероятностям Р(СО;) и условным плотностям p(x\(Oj). Основная трудность использования этих рекомендаций состоит в том, что в большинстве прикладных задач неизвестны условные плотности p(x\(i>j). В некоторых случаях можно предположить некоторый вид функций плотности, однако значения характеризу- характеризующих их параметров остаются неизвестными. Типичен, например, случай, когда либо известно, либо можно предположить, что плот- плотности распределений имеют вид плотностей многомерных нормаль-
2.13. Библиографические и исторические сведения 47 ных распределений, но векторы средних значений и ковариацион- ковариационные матрицы неизвестны. Чаще же об условных плотностях из- известно еще меньше, и нужно обращаться к процедурам, в которых конкретные предложения относительно плотностей меньше влияют на результаты. Большинство последующих разделов части I данной книги как раз и будут посвящены различным процедурам, разработанным для решения этой проблемы. 2.13. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ Теория принятия решений связывается с именами многих из- известных математиков-статистиков, так что этому вопросу посвящено большое число научных работ. Среди общепринятых учебников по теории принятия решений имеются работы Вальда A950), Блекуэл- ла и Гиршика A954) и более элементарная книга Чернова и Мозеса A959). Интерес представляет также работа Фергюсона A967), в которой рассматривается ряд вопросов статистики с точки зрения принятия решений. Теория принятия решений тесно связана с теорией игр, развитой в классическом труде Неймана и Моргенш- терна A944) и в работе Льюса и Райфы A957). Основополагающий труд по теории принятия решений Неймана и Пирсона A928, 1933) посвящен вопросам проверки гипотез, с использованием в качестве критерия вероятности ошибки. Даль- Дальнейшее развитие эта теория получила у Вальда A939), который ввел понятия потерь и риска. Определенный круг задач связан с исполь- использованием функций потерь и априорных вероятностей. На практике же многие статистики не применяют байесовский подход отчасти из-за того, что имеют дело с задачами, решение в которых прини- принимается лишь однажды (в связи с чем теряет смысл понятие средних потерь), отчасти из-за отсутствия приемлемого способа определения априорных вероятностей. Ни одно из указанных обстоятельств не представляет серьезных трудностей при решении типичной задачи распознавания образов, поэтому классический байесовский подход в данном случае наиболее прост и целесообразен. Чоу A957) одним из первых применил байесовскую теорию принятия решений к задаче распознавания образов. В свой анализ он ввел отказ от принятия решения, а в дальнейшем установил основное соотношение между величинами ошибки и коэффициентом отказов (Чоу, 1970). Точный расчет вероятности ошибки весьма сложен, в связи с чем большинство опубликованных результатов связано с определением границ для уровня ошибки (Альбрехт и Вернер, 1964; Ча и Чуй, 1967; Лейниотис и Парк, 1971). Разделяю- Разделяющие функции к задаче классификаций были применены Фишером A936); его подход будет рассмотрен в гл. 4. Мы используем это понятие, следуя Нильсону A965). Андерсон A958) детально ис-
48 Гл. 2. Байесовская теория решений следовал случай многомерного нормального распределения и получил квадратичные разделяющие функции несколько иного вида. Мэ- рилл и Грин A960) показали, как можно применить это решение при распознавании образов. Купер A964) исследовал другие не- непрерывные распределения, для которых применение линей- линейных и квадратичных разделяющих функций является оптималь- оптимальным. Согласно Нильсону A965), линейные разделяющие функции для случая двоичных независимых переменных (и многомерных, распределенных по закону Бернулли) получены Дж. В. Джонсом, хотя впервые публикации по этому вопросу появились у Минского A961) и в дальнейшем с различными обоснованиями опубликованы Уиндером A963) и Чоу A965). Казмирчаком и Штейнбухом A963) получены оптимальные квадратичные разделяющие функции для случай тернарных независимых переменных; случай этот легко обобщить для вывода полиномиальных разделяющих функций п-й степени, .определяющих условия оптимальности для случая (и+1)- арных независимых переменных. Если не требовать независимости переменных, то даже для случая бинарных переменных понадо- понадобятся полиномы более высоких степеней. После разбора в гл. 4 полиномиальных представлений совместных вероятностей вопрос этот станет более ясным. Высокая степень полиномов, содержащих большое количество переменных, естественно, нежелательна из-за усложнения расчетов. Поэтому в случаях, когда оптимальная разделяющая функция нелинейна, тем не менее возникает потребность найти оптимальную линейную разделяющую функцию. Однако часто выявляются весьма серьезные трудности при выводе линейной разделяющей функции, удовлетворяющей требованию минимального риска. Кро- Кроме полученного Андерсоном и Бахадуром A962) решения общего многомерного нормального случая для двух классов, других общих решений получено не было. Вместе с тем, как будет показано в гл. 5, решения многих задач можно найти, применяя другие кри- критерии, помимо критерия минимума риска. Общая байесовская теория составных решений связана с более разнообразными задачами, нежели ранее описанная простая байе- байесовская теория. Объяснение основных положений теории составных решений дано Абендом A966); им же приведен ряд важных ссылок на соответствующие работы по статистике. Оптимальные процедуры распознавания для случая марковской зависимости состояний природы предложены Равивом A967) и Абендом A968), причем Равив сообщает о результатах применения этих процедур при рас- распознавании стандартного английского текста. В работе Абенда, Харли и Кенала A965) показано, как можно распространить мар- марковский подход с одномерной ситуации на двумерные. Эффективная с точки зрения удобства вычислений методика описана Райзманом
2.13. Библиографические и исторические сведения 49 и Эрихом A971), указавшими на ряд работ по учету контекста в распознавании. Заметим в заключение, что в части I данной книги везде мол- молчаливо подразумевается, что до того, как принимается решение, производится измерение всех d компонент вектора признаков. Воз- Возможен и другой способ, с использованием дерева решений, при котором оценка признаков производится последовательно вплоть до момента, когда решение становится возможным. Статистический анализ такого подхода требует учета цены измерения признаков и цен получаемых ошибок и составляет предмет теории последова- последовательного анализа (Вальд, 1947; Фу, 1968). Слейгл и Ли A971) по- показали, как к задачам такого вида применять методы, разработан- разработанные для исследования деревьев в теории игр. СПИСОК ЛИТЕРАТУРЫ Абенд (Abend К.) Compound decision procedures for pattern recognition, Proc. NEC, 22, 777—780 A966). Абенд (Abend K.) Compound decision procedures for unknown distributions and for dependent states of nature, in Pattern Recognition, pp. 207—249, L. Kanal, ed. (Thompson Book Co., Washington, D. C, 1968). Абенд, Харли и Кенал (Abend К., Harley Т. J., Kanal L. N.) Classification of binary random patterns, IEEE Trans. Info. Theory, 1T-11, 538—544 (October 1965). Альбрехт и Вернер (Albrecht R., Werner W.) Error analysis of a statistical decision method, IEEE Trans. Info. Theory, IT-10, 34—38 (January 1964). Андерсон (Anderson T. W.) An Introduction to Multivariate Statistical Analysis (John Wiley, New York, 1958). Андерсон и Бахадур (Anderson Т. W., Bahadur R. R.) Classification into two multivariate normal distributions with different covari- ance matrices, Ann. Math. Stat., 33, 422—431 (June 1962). Блекуэлл и Гиршик (Blackwell D., Girschick M. A.) Theory of Games and Statistical Decisions (John Wiley, New York, 1954). [Русский перевод: Теория игр и статистических решений, М., ИЛ, 1958.] Вальд (Wald A.) Contributions to the theory of statistical estimation and testing of hypotheses, Ann. Math. Stat., 10, 299—326 A939). Вальд (Wald A.) Sequential Analysis (John Wiley, New York, 1947). Вальд (Wald A.) Statistical Decision Functions (John Wiley, New York, 1950). Казмирчак и Штейнбух (Kazmierczak H., Steinbuch К.) Adaptive systems in pattern recognition, IEEE Trans, on Elec. Сотр., ЕС-12, 822—835 (December 1963). Купер (Cooper P. W.) Hyperplanes, hyperspheres, and hyperquadrics as decision boundaries, in Com- Computer and Information Sciences, pp. Ill—138, J. T. Tou and R. H. Wilcox, eds. (Spartan, Washington, D. C, 1964).
50 Гл. 2. Байесовская теория решений Лейниотис и Парк (Lainiotis D. G., Park S. К.) Probability of error bounds, IEEE Trans. Sys. Man Cyb., SMC-I, 175—178 (April 1971). Лыос и Райфа (Luce R. D., Raiffa H.) Games and Decisions (John Wiley, New York, 1957). [Русский перевод: Игры и решения, М., ИЛ, 1961.] Минский (Minsky M.) Steps toward artificial intelligence, Proc. IRE, 49, 8—30 (January 1961). Мэрилл и Грин (Marill Т., Green D. M.) Statistical recognition functions and the design of pattern recognizers, IRE Trans. Eke. Сотр., ЕС-9, 472—477 (December 1960). Неймаи и Пирсон (Neyman J., Pearson E. S.) On the use and interpretation of certain test criteria for purposes of statistical inference, Biometrica, 20A, 175—240 A928). Нейман и Пирсон (Neyman J., Pearson E. S.) On the problem of the most efficient tests of statistical hypotheses, Phill. Trans. Royal Soc. London, 231, 289—337 A933). фон Неймаи и Моргеиштерн (von Neumann J., Morgenstern O.) Theory of Games and Economic Behavior (Princeton University Press, Prince- Princeton N. J., First Edition, 1944). [Русский перевод: Теория игр и эконо- экономическое поведение, М., «Наука», 1970.J Нильсон (Nilsson N. J.) Learning Machines (McGraw-Hill, New York, 1965). [Русский перевод: Обучающиеся машины, М., €Мир», 1967.] Равив (Raviv J.) Decision making in Markov chains applied to the problem of pattern recognition, IEEE Trans. Info. Theory, IT-13, 536—551 (October 1967). Райзман и Эрих (Riseman E. M., Ehrich R. W.) Contextual word recognition using binary digrams, IEEE Trans. Сотр., С-20, 397—403 (April 1971). Слейгл и Ли (Slagle J. R., Lee R. С. Т.) Applications of game tree searching techniques to sequential pattern recognition, Com. ACM, 14, 103—110 (February 1971). Уиндер (Winder R. O.) Threshold logic in artificial intelligence, Artificial Intelligence, IEEE Special Publication, S-142, 107—128 (January 1963). Фергюсон (Ferguson T. S.) Mathematical Statistics: A Decision Theoretic Approach (Academic Press, New York, 1967). Фишер (Fisher R. A.) The use of multiple measurements in taxonomic problems, Ann. Eugenics, 7, Part II, 179—188 A936); also in Contributions to Mathematical Statistics (John Wiley, New York, 1950). Фу (Fu K. S.) Sequential Methods in Pattern Recognition and Machine Learning (Academic Press, New York, 1968). Ча и Чуй (Chu J. Т., Chueh J. C.) Error probability in decision functions for character recognition, J. ACM, 14, 273—280 (April 1967). Чернов и Мозес (Chernoff H., Moses L. E.) Elementary Decision Theory (John Wiley, New York, 1959). Чоу (Chow С. К.) An optimum character recognition system using decision functions, IRE Trans. on Eke. Сотр., EC-6, 247—254 (December 1957).
Задачи JH Чоу (Chow С. К.) Statistical independence and threshold functions, IEEE Trans, on Com., EC-14, 66—68 (February 1965). Чоу (Chow С. К.) On optimum recognition error and reject tradeoff, IEEE Trans. Info. Theory, IT-16, 41—46 (January 1970). Задачи 1. Пусть условные плотности для одномерной задачи и двух классов заданы распределением Коши: Считая, что />(со1)=Р(ю2), покажите, что />(со1|х)=/>(ю2|а;) при х=(\/2)(а1-\-а2). Набросайте график Р(со1|л:) для случая а1=3, a2=5, 6=1. Как ведет себя Р(щ\х) при х-*—оо?+оо? 2. Используя условные плотности из задачи 1 и полагая априорные вероят- вероятности равными, покажите, что минимальная вероятность ошибки определяется выражением Р (ошибка) = -g- ctg я2— 26 Рассмотрите это выражение как функцию величины I (а2—о 3. Рассмотрите следующее решающее правило для одномерной задачи и двух классов: принимать решение щ в случае, если х>9; в противном случае прини- принимать решение ю2. Покажите, что при использовании этого правила вероятность ошибки определяется выражением Р (ошибка) = Р (wj) \ р (х | щ) dx + Р (ю2) \ р (х | ю2) Ае. -оо в Покажите посредством дифференцирования, что для получения наименьшего значения Р (ошибка) необходимо, чтобы величина 9 удовлетворяла выражению р(е|(В1)Р(со1)=р(9|(й2)Р((В2). Проверьте, однозначно ли определяется этим выражением величина 9. При- Приведите пример, когда величина 9, удовлетворяющая данному уравнению, на самом деле соответствует максимальной вероятности ошибки. 4. Пусть cojnax(x) есть состояние природы, для которого Р(ютах|х)^Р(ю,-|х) для любого i, i=l с. Покажите, что Р(ютах|х)^1/с. Покажите также, что в случае принятия решения по правилу минимального уровня ошибки средняя вероятность ошибки определяется выражением Р (ошибка) = 1 — V Р (юшах | х) р (х) dx. На основании полученных результатов покажите, что Р (ошибка) < (с—1)/с. Опишите случай, при котором Р(ошибка)=(с—1)/с;
52 Гл. 2. Байесовская теория решений 5. Для неотрицательных чисел а и b покажите, что min(a, Ь)<.УаЬ. На ос- основании этого покажите, что для байесовского классификатора на два класса уровень ошибки должен удовлетворять требованию 1 Р (ошибка) < V Р К) Р (со,) р < у р, где р — так называемый коэффициент Бхаттачария, равный p=J[p(x|(Bl)p(x|co2)l1/2rfx. в. Во многих задачах классификации образов допускается выбор: или отнести данный образ к одному из с классов, или отказаться принять решение. Такой отказ вполне допустим, если он не обходится слишком дорого. Пусть { 0, »=/; I, /=1 с, X(а/1©/)=•{ К, «=с+1. \ л3 в остальных случаях, где %г — потери, возникающие из-за выбора (с+1)-го действия, состоявшего в отказе от принятия решения, a Xs — потери из-за ошибки, связанной с подменой класса. Покажите, что минимальный риск достигается, если принять решение со; в случае Р(ю,|х)>/>(шу|х) для всех /ив случае Р(ш,-|х)>1—Ar/Xs, с отбрасыва- отбрасыванием прочих решении. Что произойдет в случае Хг=0? Что произойдет в случае Kr>Xs? 7. Пользуясь результатами, полученными при решении задачи 6, покажите, что следующие разделяющие функции оптимальны: (р (х | со,) Р (at), i=l, ..., с, Изобразите эти разделяющие функции и области решений для одно- одномерного случая и двух классов при p(x\a1)~N (I, 1), p(x\a2)~N (—1, 1), Р (<*)!)=/> (со2)= 1/2 и Xr/Xs= 1/4. Опишите качественно, что произойдет при воз- возрастании Xr/%s от 0 до 1. 8. Предположим, что детерминированную решающую функцию а(х) мы заме- заменим рандоминизированным правилом, т.е. вероятностью />(а,|х) принятия дей- действия а,- при наблюдаемом значении х. Покажите, что риск в этом случае опреде- определяется выражением J] Я/|х) Покажите, кроме того, что R можно минимизировать, выбирая Р(а;|х)=1 для действия о,-, связанного с наименьшим условным риском Я(а,-|х), т. е. что рандомизация в данном случае никакой выгоды не дает. 9. Рассмотрим многомерную нормальную плотность, для которой 0,у=О, а 0,-;=о^. Покажите, что Л {=1 Опишите контуры постоянной плотности; запишите выражение для махала- нобисова расстояния от х до ц,.
Задачи53 10. Пусть р(х|(й,-)-~#(ц/, о3) для одномерной задачи и двух классов при Р((о1)=Р((ог)=1/2. Покажите, что минимальная вероятность, ошибки опреде- определяется выражением а где а=|^2—(J.il/2o. Рассмотрите неравенство Покажите, что Ре стремится к нулю при стремлении |(д,а—fa\la к бесконеч- бесконечности. 11. Пусть р(х|со;)~Лг (ц,', о2/) для d-мерной задачи и двух классов при Р(со1)= =Р(ю2)=1/2. Покажите, что минимальная вероятность ошибки определяется выражением p*= ]_ Г где а= ||ц2—^Ц/го. Пусть Цг=0 и ца= (ц, .... ц)'. Используя неравенство из задачи 10, покажите, что Ре стремится к нулю при стремлении о к бесконечности. Выразите смысл этого результата словами. 12. Пусть р(х|(о,-)~Л/(ц;, 2) для d-мерной задачи и двух классов с произ- произвольными априорными вероятностями; рассмотрим махаланобисово расстояние а) Покажите, что градиент величины г? определяется выражением б) Покажите, что уг? указывает одно и то же направление вдоль любой пря- прямой, проходящей через ц,-; в) Покажите, что уг? и y/i указывают противоположные направления вдоль прямой, соединяющей ц,х и ца. г) Покажите, что оптимальная разделяющая гиперплоскость касательна к гиперэллипсоидам постоянной плотности распределения в точке пересечения раз- разделяющей гиперплоскости с прямой, проходящей через fa и ц2. 13. В предположении, что А,2Х>ЯП и А,12>Я22, покажите, что в общем случае разделяющая функция, дающая минимум риска для независимого бинарного случая, описанного в разд. 2.10, определяется выражением g(x)=w'x+a>0, где w неизменна, a w0 есть d w° ~?* log 1— ^ g P (a) ~^~ ёк —К, i=i 12 14. Пусть компоненты вектора х=(х1 х$ бинарны A или 0). Пусть также Р(сау) есть априорная вероятность состояния природы ау(/=1, .... с), и пусть - ¦ 1 |w/), / = 1, ..., d, /=1 с, с компонентами х,-, статистически независимыми для всех х в
54 Гл. 2. Байесовская теория решений Покажите, что минимальная вероятность ошибки получается при использо- использовании следующего решающего правила: принять решение щ, если g* (х)>?;-(х) для всех /, где * 4 gj(х) = ? *l 1о§ Г=ПГ+Иl0g A ~ 15. Пусть компоненты вектора х= (xlt ..., х^* тернарны A, 0 или —1) с ве- вероятностями причем компоненты Х{ статистически независимы для всех х в шу. Покажите, что можно получить решающее правило с минимальной вероят- вероятностью ошибки, используя разделяющие функции gy(x), представляющие собой квадратичные функции компонент х,\ Попробуйте обобщить результаты решения задач 14 и 15. 16. Пусть х распределен так же, как в задаче 14, с=1, a d нечетно, пусть также рц = р> 1/2, i=\ d, рц=\—р, i=\, .... d. а) Покажите, что решающее правило по минимуму уровня ошибки при этом имеет вид 4 принять решение ю^ если 2 xi > ^. б) Покажите, что минимальная вероятность ошибки определяется выраже- выражением в) Чему равен предел Ре (d, p) при р-> 1/2? г) Покажите, что Pe{d, p) стремится к нулю при d-юо. (Это трудно выпол- выполнить без привлечения закона больших чисел. Вместе с тем важно почувствовать, почему это соотношение верно, и для тех, кто Этим интересуется, но не распола- располагает временем для самостоятельного вывода, мы рекомендуем книгу В. Феллера «Введение в теорию вероятностей и ее приложения» (М., «Мир», 1967, т. I).
Глава 3 ОЦЕНКА ПАРАМЕТРОВ И ОБУЧЕНИЕ С УЧИТЕЛЕМ 3.1. ОЦЕНКА ПАРАМЕТРОВ И ОБУЧЕНИЕ С УЧИТЕЛЕМ В гл. 2 рассматривались вопросы разработки оптимального классификатора в случае, когда известны априорные вероятности P(a>j) и плотности p(x\o)j), условные по классу. К сожалению, на практике при распознавании образов полная вероятностная струк- структура задачи в указанном смысле известна далеко не всегда. В ти- типичном случае имеется лишь неопределенное общее представление об исследуемой ситуации и некоторый набор конструктивных вы- выборок — конкретных представителей образов, подлежащих класси- классификации х). Задача, следовательно, заключается в том, чтобы найти способ построения классификатора, используя эту информацию. Один из подходов к задаче заключается в ориентировочной оценке неизвестных вероятностей и плотностей по выборкам и по- последующем использовании полученных оценок, как если бы они были истинными значениями. Оценка априорных вероятностей в типичных задачах классификации образов не представляет большой трудности. Иначе обстоит дело с вопросом оценки условных по классу плотностей. Имеющееся количество выборок всегда пред- представляется слишком малым для их оценки, и если размерность вектора признаков х велика, то задача сильно усложняется. Труд- Трудность значительно уменьшится, если возможна параметризация условных плотностей, исходя из общего представления о задаче. Допустим, например, что есть некоторые основания предпо- предположить, что />(х|<о^) соответствует нормальному распределению со средним значением р} и ковариационной матрицей 2^ хотя точные значения указанных величин неизвестны. Это упрощает задачу, сводя ее вместо определения функции /?(х|соу) к оценке параметров цу и 2j. Задача оценки параметров, относящаяся к классическим зада- задачам математической статистики, может быть решена различными способами. Мы рассмотрим два общепринятых способа — оценку по максимуму правдоподобия и байесовскую оценку. Несмотря на *) В литературе по математической статистике выборка объема п соответствует набору л таких представителей. Считая каждый из представителей выборкой, мы следуем практике, принятой в технической литературе. Статистикам следо- следовало бы каждую из рассматриваемых здесь выборок считать выборкой единичного объема.
56 Гл. 3. Оценка параметров и обучение с учителем то что результаты часто оказываются весьма близкими, подход к решению при применении этих способов принципиально различен. При использовании методов максимального правдоподобия зна- значения параметров предполагаются фиксированными, но неизвест- неизвестными. Наилучшая оценка определяется как величина, при которой вероятность реально наблюдаемых выборок максимальна. При бай- байесовских методах параметры рассматриваются как случайные переменные с некоторым априорно заданным распределением. Ис- Исходя из результатов наблюдений выборок, это распределение пре- преобразуют в апостериорную плотность, используемую для уточнения имеющегося представления об истинных значениях параметров. Как мы увидим, в байесовском случае характерным следствием привлечения добавочных выборок является заострение формы функции апостериорной плотности, подъем ее вблизи истинных значений параметров. Это явление принято называть байесовским обучением. Следует различать обучение с учителем и обучение без учителя. Предполагается, что в обоих случаях выборки х полу- получаются посредством выбора состояния природы со/ с вероятностью Р(<»>]), а затем независимого выбора х в соответствии с вероятност- вероятностным законом p(x\<uj). Различие состоит в том, что при обучении с учителем известно состояние природы (индекс класса) для каж- каждого значения, тогда как при обучении без учителя оно неизвестно. Как и следовало ожидать, задача обучения без учителя значительно сложнее. В данной главе будет рассмотрен только случай обучения с учителем, рассмотрение же случая обучения без учителя отложим до гл. 6. 3.2. ОЦЕНКА ПО МАКСИМУМУ ПРАВДОПОДОБИЯ 3.2.1. ОБЩАЯ ИДЕЯ МЕТОДА Предположим, что мы разбили множество выборок на классы, так что получено с классов выборок 3?и ..., $"с, причем выборки в каждом классе !%) получены независимо в соответствии с вероят- вероятностным законом p(x\(uj). Предполагается, что плотность р(х\а>}) задана в известной параметрической форме и, следовательно, одно- однозначно определяется вектором параметров в^. Мы могли, например, получить распределение /?(х|со;)~./У(ц,, 2,), в котором компоненты 97- составлены из компонент fi/ и 2^. Чтобы явно выразить зависи- зависимость /з(х|ооу) от в/, запишем р(х|юу) в виде1) р(х|ш/, в;). Задача состоит в использовании информации, получаемой из выборок, для удовлетворительной оценки векторов параметров вь ..., 8С. 1) Некоторые авторы предпочитают запись вида р(х|<о,-; в,), так как, строго говоря, обозначение р(х|(Оу, ву) подразумевает, что Qj есть случайная переменная. Мы пренебрежем этим различием в обозначениях и будем считать fy обычным пара- параметром при анализе по максимуму правдоподобия и случайной переменной при байесовском анализе.
3.2. Оценка по максимуму правдоподобия 57 Для облегчения задачи предположим, что выборки, принадле- принадлежащие SCU не содержат информации о в^, если i=?j, т. е. предпола- предполагается функциональная независимость параметров, принадлежащих разным классамг). Это дает возможность иметь дело с каждым клас- классом в отдельности и упростить обозначения, исключив индексы принадлежности классу. В результате получается с отдельных задач, формулируемых следующим образом: на основании множе- множества X независимо полученных выборок в соответствии с вероят- вероятностным законом р(х|6) оценить неизвестный па- раметрический вектор в. Предположим, что X содержит п выборок: •2*={хь ..., хп}. Так как выборки получены незави- независимо, имеем ), A) Рассматриваемая как & в функция ОТ 0, ПЛОТНОСТЬ Рис. 3.1. Оценка по максимуму правдопо- р{ЖЩ называется праедо- добия для параметра 0. подобием величины в отно- относительно данного множества выборок. Оценка по максимуму прав- правдоподобия величины в есть по определению такая величина в, при которой плотность p(W\Q) максимальна (рис. 3.1). Интуитивно это означает, что в некотором смысле такое значение величины в наилучшим образом соответствует реально наблюдаемым выборкам. Для целей анализа обычно удобнее иметь дело с логарифмом правдоподобия, нежели с самой его величиной. Так как логарифм есть монотонно возрастающая функция, то максимуму логарифма правдоподобия и максимуму правдоподобия соответствует одна и та же величина 6. Если р{3?Щ есть гладкая дифференцируемая функция в, то 8 определяется посредством обычных методов диффе- дифференциального исчисления. Пусть 9 есть р-компонентный вектор 6= FЬ ..., 0J,)*, пусть также ve — оператор градиента, (Э0! д B) *) Иногда это и не имеет места, например когда все выборки входят в одну и ту же ковариационную матрицу. Что следует делать в таких случаях, показано в задаче 6.
58 Гл. 3. Оценка параметров и обучение с учителем и пусть / (в) — функция логарифма правдоподобия C) Тогда J D) 2 Vegp(ft]) E) Л— 1 Совокупность условий, необходимых для определения оценки по максимуму правдоподобия величины 9, может быть получена, таким образом, из решения системы р уравнений уа /=0. 3.2.2. СЛУЧАЙ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ: НЕИЗВЕСТНО СРЕДНЕЕ ЗНАЧЕНИЕ Для иллюстрации применения полученных результатов к кон- конкретному случаю предположим, что выборки производятся из нормально распределенной совокупности со средним значением ц и ковариационной матрицей 2. Для простоты сначала рассмотрим случай, когда неизвестно только среднее значение. Тогда lg{B Если отождествить 9 и ц, то из уравнения E) увидим, что оценка по максимуму правдоподобия для ц должна удовлетворять урав- уравнению 2 (*ц) я— 1 После умножения на 2 и преобразования получим Этот результат весьма убедителен. Он свидетельствует о том, что оценка по максимуму правдоподобия при неизвестном среднем по совокупности в точности равна среднему арифметическому выбо- выборок — выборочному среднему. Если представить п выборок геомет- геометрически в виде облака точек, то выборочное среднее будет центром этого облака. Помимо всего, выборочное среднее имеет ряд досто- достоинств с точки зрения статистических свойств, в связи с чем эта
3.2. Оценка по максимуму правдоподобия 59 весьма наглядная оценка часто оказывается предпочтительнее, не говоря уже о том, что она представляет максимально правдоподоб- правдоподобное решение. 3.2.3. ОБЩИЙ МНОГОМЕРНЫЙ НОРМАЛЬНЫЙ СЛУЧАЙ В общем и более типичном многомерном нормальном случае неизвестны как среднее ц, так и ковариационная матрица 2. Как раз эти неизвестные параметры и образуют компоненты парамет- параметрического вектора 8. Рассмотрим одномерный случай, приняв 6x=u и 0а=оа. Здесь имеем 1 26*т 2в| J Тогда уравнение E) приводит к следующим условиям: k=\ Ad я где 01 и §з — оценки по максимуму правдоподобия соответственно для 6X и 02. После подстановки n=0i, a\=Q2 и несложных преоб- преобразований получим следующие оценки по максимуму правдопо- правдоподобия для ji и а2: А=1 п **-М.)8. (8) " k=i Хотя анализ многомерного случая в основном носит аналогич- аналогичный характер, он значительно более трудоемок. Из литературы *) хорошо известно, что оценка по максимуму правдоподобия для ц х) Т. Андерсон, Введение в многомерный статистический анализ, гл. 3, М., Физматгиз, 1963.
60 Гл. 3. Оценка параметров и обучение с учителем й 2 дается выражениями в ?=41>* (9) Таким образом, еще раз подтверждается, что оценка по мак- максимуму правдоподобия для среднего значения вектора — это вы- выборочное среднее. Оценка по максимуму правдоподобия для кова- ковариационной матрицы — это среднее арифметическое п матриц (xft—n)(Xft—цI. Так как подлинная ковариационная матрица и есть ожидаемое значение матрицы (х—ц) (х—ц)', то полученный результат также весьма естествен. 3.3. БАЙЕСОВСКИЙ КЛАССИФИКАТОР Читателям, знакомым с математической статистикой, известно, что оценка по максимуму правдоподобия для ковариационной матрицы смещена, т. е. ожидаемое значение 2 не равно 2. Не- Несмещенная оценка для 2 задается выборочной ковариационной мат- матрицей Очевидно, что 2=[(/г—\)/п]С, так что эти две оценки, по суще- существу, совпадают при большом п. Однако наличие двух сходных и тем не менее разных оценок для ковариационной матрицы смущает многих исследователей, так как, естественно, возникает вопрос: какая же из них «верная»? Ответить на это можно, сказав, что каж- каждая из этих оценок ни верна, ни ложна: они просто различны. На- Наличие двух различных оценок на деле показывает, что единой оцен- оценки, включающей все свойства, которые только можно пожелать, не существует. Для наших целей сформулировать наиболее жела- желательные свойства довольно сложно — нам нужна такая оценка, которая позволила бы наилучшим образом проводить классифика- классификацию. Хотя разрабатывать классификатор, используя оценки по максимуму правдоподобия для неизвестных параметров, обычно представляется разумным и логичным, вполне естествен вопрос, а нет ли других оценок, обеспечивающих еще лучшее качество ра- работы. В данном разделе мы рассмотрим этот вопрос с байесовской точки зрения.
3.3. Байесовский классификатор 61 3.3.1. ПЛОТНОСТИ, УСЛОВНЫЕ ПО КЛАССУ Сущность байесовской классификации заложена в расчете апо- апостериорных вероятностей Р(сог|х). Байесовское правило позволяет вычислять эти вероятности по априорным вероятностям P(a>i) и условным по классу плотностям p(x\(Oi), однако возникает во- вопрос: как быть, если эти величины неизвестны? Общий ответ таков: лучшее, что мы можем сделать,— это вычислить Р(сог|х), исполь- используя всю информацию, имеющуюся в распоряжении. Часть этой информации может быть априорной, как, например, знание о виде неизвестных функций плотности и диапазонах значений неизвест- неизвестных параметров. Часть этой информации может содержаться в множестве выборок. Пусть 3? обозначает множество выборок, тогда мы подчеркнем роль выборок, сказав, что цель заключается в вычислении апостериорных вероятностей Р((йг\х,&). По этим ве- вероятностям мы можем построить байесовский классификатор. Согласно байесовскому правилу г), U>^XL. A2) 2/ 1=1 Это уравнение означает, что мы можем использовать информа- информацию, получаемую из выборок, для определения как условных по классу плотностей, так и априорных вероятностей. Мы могли бы придерживаться этой общности, однако впредь будем предполагать, что истинные значения априорных вероятно- вероятностей известны, так что P(o),|^)=P(co,). Кроме того, так как в данном случае мы имеем дело с наблюдаемыми значениями, то можно разделить выборки по классам в с подмножеств 9Ги ..., !%с, причем выборки из Жг принадлежат сог. Во многих случаях, в част- частности во всех, с которыми мы будем иметь дело, выборки из SCj не оказывают влияния на р(х|со,-, X), если 1Ф). Отсюда вытекают два упрощающих анализа следствия. Во-первых, это позволяет нам иметь дело с каждым классом в отдельности, используя для опре- определения p(x\(t>i, Ж) только выборки из 5Сг. Вместе с принятым нами предположением, что априорные вероятности известны, это следствие позволяет записать уравнение A2) в виде р (со, | х, Ж) = /<*!«* ¦**>*(«*> , A3) | х) Заметим, что в данном уравнении каждая вероятность и функция плотно- плотности условны по отношению к множеству выборок. То обстоятельство, что данное уравнение и есть просто байесовское правило, становится более ясным, если опу- опустить общие величины, входящие в виде условий. Читатель может найти этот прием полезным при интерпретации сходных уравнений в других местах данной главы.
62 Гл. 3. Оценка параметров и обучение с учителем Во-вторых, так как каждый класс может рассматриваться незави- независимо, можно отказаться от ненужных различий классов и упростить записи. По существу, здесь имеется с отдельных задач следующего вида: требуется определить р(х\&), используя множество SC вы- выборок, взятых независимо в соответствии с фиксированным, но неизвестным вероятностным законом р(х). Это и составляет главную задачу байесовского обучения. 3.3.2. РАСПРЕДЕЛЕНИЕ ПАРАМЕТРОВ Хотя требуемая плотность р(х) неизвестна, предположим, что она имеет известную параметрическую форму. Единственно, что предполагается неизвестным, это величина параметрического век- вектора в. Тот факт, что р(х) неизвестна, но имеет известный парамет- параметрический вид, выразим утверждением, что функция р(х|в) полно- полностью известна. При байесовском подходе предполагается, что неизвестный параметрический вектор есть случайная переменная. Всю информацию о в до наблюдения выборок дает известная апри- априорная плотность р(8). Наблюдение выборок превращает ее в апо- апостериорную плотность p(Q\&), которая, как можно надеяться, имеет крутой подъем вблизи истинного значения в. Основная наша цель — это вычисление плотности р(х\&), до- достаточно достоверной для того, чтобы прийти к получению неиз- неизвестной р(х). Это вычисление мы выполняем посредством интегри- интегрирования объединенной плотности р(х, Q\S) по 9. Получаем причем интегрирование производится по всему пространству пара- параметра х). Теперь р(х, ЩЗ?) всегда можно представить как произве- произведение р(х|6, &)р(в\&). Так как х и выборки из SC получаются независимо, то первый множитель есть просто р(х|в). Распределе- Распределение величины х, таким образом, полностью известно, если известна величина параметрического вектора. В результате имеем в. A4) Это важнейшее уравнение связывает «условную по классу» плот- плотность р (х|^*) с апостериорной плотностью р F |.?") неизвестного па- параметрического вектора. Если вблизи некоторого значения в функ- функция р(В\Я?) имеет острый пик, то р(х\&)&р(х\§), так что решение может быть получено подстановкой оценки в, в качестве истинной величины вектора параметров. Вообще, если существует большая *) На протяжении данной главы областью интегрирования для всех интегра- интегралов будет все упомянутое пространство.
3.4. Обучение при восстановлении среднего значения 63 неопределенность относительно точного значения G, это уравнение приводит к средней плотности р (х|9) по возможным значениям 0. Таким образом, в случае, когда неизвестные плотности имеют из- известный параметрический вид, выборки влияют на р(х\&) через апостериорную плотность ЩЗ?) 3.4. ОБУЧЕНИЕ ПРИ ВОССТАНОВЛЕНИИ СРЕДНЕГО ЗНАЧЕНИЯ НОРМАЛЬНОЙ ПЛОТНОСТИ 3.4.1. СЛУЧАЙ ОДНОЙ ПЕРЕМЕННОЙ: В данном разделе мы рассмотрим вычисление апостериорной плотности рЩЗ?) и требуемой плотности p{x\SP) для случая, когда р(х|ц.)~М (ц.,2), а вектор среднего значения ц есть неизвестный вектор параметров. Для простоты начнем с одномерного случая, при котором а«), A5) где единственной неизвестной величиной является среднее значение ц. Предположим, что любое исходное знание, которое мы можем иметь о (х, можно выразить посредством известной априорной плот- плотности р((х). Кроме того, можно предположить, что р (ц) ~ JV (М«, о$), A6) где (х0 и о% известны. Грубо говоря, величина |х0 есть наше лучшее исходное предположение относительно ц,, а ojj отражает неуверен- неуверенность в отношении этого предположения. Предположение о том, что априорное распределение для ц, нормальное, в дальнейшем упростит математические выражения. Однако решающее предположение за- заключается не столько в том, что априорное распределение |х нор- нормально, сколько в том, что оно существует и известно. Выбрав априорную плотность для ц,, можно представить ситу- ситуацию следующим образом. Вообразим, что величина (х получена из множества, подчиняющегося вероятностному закону р((х). Будучи однажды получена, эта величина представляет истинное значение (х и полностью определяет плотность для х. Предположим теперь, что из полученного множества независимо взято п выборок хи ... . . . , хп. Положив SC={xu . . ., хп}, воспользуемся байесовским правилом, чтобы получить выражение
64 Гл. 3. Оценка параметров и обучение с учителем где а — масштабный множитель, зависящий от X, но не зависящий от ц. Из этого уравнения видно, как наблюдение выборочного мно- множества влияет на наше представление об истинном значении ц, «превращая» априорную плотность р (ц) в апостериорную плот- плотность р(ц[^).Таккакр(х?|ц)~М(ц,о2)ир(ц)~Л%о, ol), то имеем где множители, не зависящие от \и, включены в константы а' и а". Таким образом, р(ц,\&), представляющая собой экспоненциальную функцию квадратичной функции от ц, также является нормальной плотностью. Так как это остается в силе для любого числа выборок, то р (\и\&) остается нормальной, когда число п выборок возрастает, и р ((х \3f) называют воспроизводящей плотностью. Если восполь- воспользоваться p(nl#')~./V(|An, a\), то значения |х„ и а\ могут быть найде- найдены приравниванием коэффициентов из уравнения A8) соответствую- соответствующим коэффициентам из выражения Отсюда получаем jr = T* + ir B0) и где /п„ есть выборочное среднее k- B2) Решая уравнения в явном виде относительно (хп и а%, получаем B3 B4)
3.4. Обучение при восстановлении среднего значения 65 Из этих уравнений видно, как комбинация априорной информа- информации и эмпирической информации выборок дает апостериорную плот- плотность p(\i[fc). Грубо говоря, \in представляет наше лучшее предпо- предположение относительно \л после наблюдения п выборок, а о* отражает нашу неуверенность относительно этого предположения. Так как а% монотонно убывает с ростом п, стремясь к о2/л при стремлении п к бесконечности, каждое добавочное наблюдение уменьшает нашу 2,0 S - -J -2 -1 О 1 2 3 Ч 5 Рис. 3.2. Обучение среднему при нормальной плотности. неуверенность относительно истинного значения (х. При возраста- возрастании п функция p(\i\&) все более заостряется, стремясь к дельта- функции при /г->-оо. Такое поведение обычно называется байесов- байесовским обучением (рис. 3.2). Вообще цп представляет линейную комбинацию т„ и \и0 с неот- неотрицательными коэффициентами, сумма которых равна единице. Поэтому значение ц„ всегда лежит между тп и ц0- При ао^=0 ве- величина [х„ стремится к выборочному среднему при стремлении п к бесконечности. Если ао=0, то получаем вырожденный случай, при котором априорная уверенность в том, что ^=[i0, настолько
66 Гл. 3. Оценка параметров и обучение с учителем тверда, что никакое число наблюдений не сможет изменить нашего мнения. При другой крайности, когда ао^>а, мы настолько не уве- уверены в априорном предположении, что принимаем цп=т„, исходя при оценке (х только из выборок. Вообще относительный баланс ме- между исходным представлением и опытными данными определяется отношением о2 к о*, называемым иногда догматизмом. Если дог- догматизм не бесконечен, то после получения достаточного числа вы- выборок предполагаемые конкретные значения ц.о и al не играют роли, а (х„ стремится к выборочному среднему. 3.4.2. СЛУЧАЙ ОДНОЙ ПЕРЕМЕННОЙ: р(х\&) После получения апостериорной плотности p{\i\&) остается только определить «условную по классу» плотность р(х\3?У). Из уравнений A4), A5) и A9) имеем =1 ?к ехр [- где Следовательно, поскольку плотность р(х\&) как функция х пропорциональна ехр [—(Vi) (л—Цп)*/(а*+а8„)], то плотность р (х\&) распределена нормально со средним ц,„ и дисперсией аг+а%: р (*|#)~ #((*„, аг + ^). B5) Другими словами, для получения «условной по классу» плотно- плотности р(х\&), имеющей параметрическую форму р(;ф)~./У (щ а2), следует просто заменить ц на (х„ и а2 на аг+а%. По сути дела, с ус- условным средним цп обращаются так, как если бы оно было истин- истинным средним, а увеличение дисперсии характеризует дополнитель- дополнительную неопределенность х из-за недостаточно точного представления о среднем значении ji. Это и является окончательным результатом: плотность р(х\&) есть требуемая условная по классу плотность р(л;|со;-, 3Cj), которая с априорными вероятностями Р (со/) составляет вероятностную информацию, требуемую для построения байесов- байесовского классификатора. *) Напомним, что для простоты мы не различаем классы, но все выборки здесь принадлежат одному и тому же классу, скажем со,-, так что р(х\2О на деле есть р (*!©/, #)
3.4. Обучение при восстановлении среднего значения 67 3.4.3. СЛУЧАЙ МНОГИХ ПЕРЕМЕННЫХ Исследовать случай многих переменных можно, непосредственно обобщив случай с одной переменной. Поэтому мы ограничимся лишь беглым наброском относящихся к нему доказательств. Как и прежде, положим, что р(х\ц)~Ы(ц,1.) B6) р(|»)~ЛГ(ц„2,), B7) где 2, 2 о и щ предполагаются известными. После того как получено множество SC, содержащее п независимых выборок хь . . ., хп, можно применить байесовское правило и получить выражение которое представим в виде р (ц| #) = <*"'ехр[—j-Gi-fc.WOi-ii Таким образом, p(\i\&)~N(>лп, 2„), и мы снова получили вос- воспроизводящую плотность. Приравнивая коэффициенты, получим уравнения, аналогичные B0) и B1): Zj^nS-i + ZjT1 B8) и 2^nn-n2-»mn + 20-Vo, B9) где тп есть выборочное среднее n Решение этих уравнений относительно цп и 2И можно облегчить, если принять во внимание матричное тождество (Л + В) = А (А + В)-1 В = В{А + В)-1 А, справедливое для двух любых невырожденных матриц А к В раз- размера dxd. После несложных преобразований приходим к окон- окончательному результату: I i(l)Vo C1) C2)
68 Гл. 3. Оценка параметров и обучение с учителем Для доказательства того, что p(x\&)~N(ц„, 2+Е„), надо, как и прежде, произвести интегрирование Вместе с тем к тому же результату можно прийти с меньшими затратами, если принять во внимание, что х можно рассматривать как сумму двух случайных переменных — случайного вектора ца, такого, что p(\}\%)~N (\ап, 2J, и независимого случайного вектора у, такого, что p(y)~Af (О, 2). В связи с тем что сумма двух незави- независимых нормально распределенных векторов есть также нормально распределенный вектор со средним значением, равным сумме сред- средних значений, и ковариационной матрицей, равной сумме ковари- ковариационных матриц, получим C3) что и завершает наше обобщение. 3.5. БАЙЕСОВСКОЕ ОБУЧЕНИЕ В ОБЩЕМ СЛУЧАЕ Только что мы видели, каким образом может использоваться бай- байесовский подход для получения требуемой плотности р (х\&) в кон- конкретном случае многих нормально распределенных переменных. Этот подход можно распространить на любую ситуацию, при которой допускается параметризация неизвестной плотности. Основные допу- допущения при этом следующие: 1). Вид плотности р(х|9) предполагается известным, хотя точное значение параметрического вектора 9 неизвестно. 2). Предполагается, что наше исходное представление о величине 9 основано на известной априорной плотности р(9). 3). Все прочие знания о 9 мы получаем из множества SC, содер- содержащего п выборок хь . . ., х„, извлекаемых независимо в соответ- соответствии с неизвестным вероятностным законом р(х). Основная задача состоит в вычислении апостериорной плотно- плотности рЩ&), так как, имея ее, можно посредством соотношения A4) вычислить р(х\&): $|. A4) Согласно байесовскому правилу, имеем C4) а в соответствии с предположением о независимости 6|9). C5) П
3.5. Байесовское обучение в общем случае 69 Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений A4) и C4). Предположим, что р(&Щ имеет острый пик при 0=8. Если априорная плотность рF) при 0=8 не равна нулю и не претерпевает больших изменений в окрестности этой точки, то р(Щ&) также имеет пик в этой точке. Из A4), таким образом, сле- следует, что р{х\&) будет примерно представлять р(х|8), и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик p(S\Q) не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истин- истинного значения величины 8, то способ использования имеющейся информации для расчета требуемой плотности p{x\SP) подсказыва- подсказывается байесовским решением. Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов. Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости р (х\&) к р (х). Сначала кратко обсудим во- вопрос сходимости, а позже вернемся к вопросу о вычислениях. Для четкого обозначения числа выборок в.множестве, использу- используем запись вида &n={xu . . ., х„}. Далее из соотношения C5) для п>1 получим р (JT- | в) = р (х„ 1 в) р (ДГ--11 в). Подставляя это выражение в C4) и применяя байесовское правило, получим для определения апостериорной плотности сле- следующее рекуррентное соотношение: (8 1^-1). C6) Многократно применяя эту формулу с учетом того, что р ( =рF), получим последовательность плотностей рF), pF|xi), р (8|xlt x2) и т. д. Это и есть так называемый рекурсивный байесовский подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельта-функции Дирака с центром вблизи истинного значения параметра, то это часто называют бай- байесовским обучением. Для большинства обычно встречающихся плотностей р(х|6) последовательность апостериорных плотностей сходится к дельта- функции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение 8, которое приводит р(х|6) к такому соответствию с реальностью, т. е. что 8 может быть однозначноопределено из р(х|6). В этом случае говорят, что плот- плотность р(х|8) идентифицируема. Для строгого доказательства схо- сходимости при указанных условиях нужна точная формулировка тре-
70 Гл. 3. Оценка параметров и обучение с учителем буемых свойств величин р (х|0) и р (8) и тщательное обоснование вы- выводов, но серьезных трудностей это не представляет. Существуют, однако, случаи, при которых одно и то же значение р (х|в) получается более чем для одного значения 9. В таких слу- случаях величина 0 не может быть определена однозначно из р (х|0), а р (Q\?n) будет иметь пик вблизи каждого из указанных значений 0. К счастью, эта неопределенность исчезает при интегрировании соот- соотношения A4), так как р(х|0) одинакова для всех указанных зна- значений 0. Таким образом, р(х\.Т") будет неизбежно сходиться к р(х) независимо от того, идентифицируема или нет р(х|0). Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя. 3.6. ДОСТАТОЧНЫЕ СТАТИСТИКИ На практике формальное решение задачи, задаваемое A4), C4) и C5), лишено привлекательности из-за большого объема вычисле- вычислений. В задачах классификации образов нередко приходится иметь дело с десятками и сотнями неизвестных параметров и тысячами выборок, что крайне затрудняет непосредственное вычисление и составление таблиц для р(&\&) или р{Щ%). Вся надежда на то, что для преодоления трудности вычислений можно будет найти пара- параметрическую форму р(х|0), которая, с одной стороны, будет соот- соответствовать, существу поставленной задачи, а с другой стороны, даст возможность получить удовлетворительное аналитическое ре- решение. Рассмотрим, какого рода упрощения можно достичь при решении задачи обучения среднему значению в случае многих нормально распределенных переменных. Если предположить, что априорная плотность р(ц) нормальна, то апостериорная плотность p(\i\&) также будет нормальной. В равной степени важно и то, что, согласно C1) и C2), главная цель наших действий по обработке данных — это просто вычисление выборочного среднего тп. В этой статистике, вычисление которой не требует сложных математических преобра- преобразований, содержится вся информация, получаемая из выборок и требуемая для получения неизвестного среднего по множеству. Может показаться, что простота эта связана всего лишь с еще одним хорошим свойством, присущим именно нормальному распределению, а в других случаях ее трудно было бы ожидать. Хотя это в большой степени и верно, однако существует группа распределений, для ко- которых можно получить решения, удобные с точки зрения вычисле- вычислений, причем простота их применения заложена в понятии достаточ- достаточной статистики. Прежде всего заметим, что любая функция выборок является статистикой. Грубо говоря, достаточная статистика s есть такая
3.6. Достаточные статистики 71 функция г) выборок 5С, которая содержит полную информацию об оценке некоторого параметра 0. Интуитивно может показаться, что под этим определением достаточной статистики подразумева- подразумевается удовлетворение требованию p(9|s, &)=p(Q\s). Отсюда, одна- однако, последует необходимость обращения с 8 как со случайной вели- величиной, из-за чего придется ограничиться байесовским подходом. Стандартное определение поэтому формулируется в следующем виде: говорят, что статистика s будет достаточной для 8, если р (SC |s, 8) не зависит от 8. Полагая 8 случайной величиной, можно написать „/els .зч-"(-У 1*>е>Р(е1'> откуда становится очевидным, что р @|s, &)=p (9|s), если s достаточ- достаточна для 9. И обратно, если s есть статистика, для которой р (8 |s, 3?)= =p(8|s), и если p(8|s)#0, то легко показать, что р{&\&, 8) не за- зависит от 8. Таким образом, интуитивное и стандартное определения, по сути дела, эквивалентны. Основной теоремой для достаточных статистик является теорема факторизации, которая утверждает, что s достаточна для 8 тогда и только тогда, когда p(%"\Q) можно представить как произведение двух функций, одна из которых зависит только от s и 9, а другая — только от выборок. К достоинствам теоремы следует отнести то, что при определении достаточной статистики она позволяет вместо рас- рассмотрения сравнительно сложной плотности p{&\s, 0) воспользо- воспользоваться более простой функцией вида К тому же, согласно теореме факторизации, выясняется, что свойства достаточной статистики полностью определяются плотно- плотностью р (х|9) и не связаны с удачным выбором априорной плотности р(9). Доказательство теоремы факторизации для непрерывного случая несколько затруднительно, так как включает вырожденные ситуации. В связи с тем что это доказательство все же представляет определенный интерес, мы приведем его для простейшего дискрет- дискретного случая. Теорема факторизации. Статистика s достаточна для 9 тогда и только тогда, когда вероятность P(S\Q) можно за- записать в виде произведения p(#\Q)=g(s, 8)Л (Я- C7) Доказательство, а) Допустим сначала, что s достаточна для 0, т. е. P(&\s, 9) не зависит от 9. Так как наша цель состоит х) При необходимости различать функцию и ее значение будем использовать запись s=(f>(.2?).
Гл. 3. Оценка параметров и обучение с учителем в том, чтобы показать, что Р(&\8) можно представить в виде про- произведения, сосредоточим внимание на выражении РC?Щ через P{SP\s, 9). Проделаем это, суммируя совместные вероятности P(SP, sj8) для всех значений s: Но, поскольку s=q> (SP), возможно лишь одно значение для s, так что Кроме того, так как, согласно предположению, Р (SC |s, 0) не зависит от 0, первый множитель зависит только от 37. Отождествляя P(s|9) cg(s, 0), можно видеть, что вероятность Р(^|0) представима в виде произведения, что и требовалось доказать. б) Для того чтобы показать, что из существования представления Р (&\Q) в виде произведения g(s, 0) h C?) следует достаточность ста- статистики s для 0, надо показать, что такое представление означает независимость условной вероятности P(#*|s, 0) от 0. Так как s= =<р(^), то установление величины s сводит возможные множества выборок к некоторому множеству SC. Формально это означает, что &={&\<f(&)=s}. Если SC пусто, то никакие заданные значения выборок не могут привести к требуемой величине s, и P(s|0)=O. Исключив такие случаи, т. е. рассматривая только те значения s, которые могут быть получены, придем к выражению »|в) Знаменатель выражения можно вычислить, просуммировав зна- значения числителя для всех значений SC'. Так как числитель будет ра- равен нулю в случае SC§J%, то можно ограничиться суммированием только для 3D'?.&'. Таким образом, Но в соответствии с соображениями, которыми мы руководство- руководствовались ранее, P(SC, s| 0)=Р(^'|9),так как s=qi(^). Кроме того, следует иметь в виду, что, согласно принятой гипотезе, Р( —g{s, Q) h(ff). Таким образом, приходим к выражению (|1
3.6. Достаточные статистики 73 которое не зависит от 8. Отсюда, согласно определению, s достаточ- достаточна для 8. Как будет показано, существуют простые способы построения достаточных статистик. Например, можно определить s как вектор, компоненты которого представлены п выборками \и . . ., х„, так что g(s, Q)=p(&\9) и h(&)=\. Можно даже построить скалярную достаточную статистику, пользуясь приемом вписания цифр в деся- десятичных разложениях компонент для п выборок. Достаточные ста- статистики такого сорта существенного интереса не представляют, так как не приводят к более простым результатам. Возможность пред- представления функции р(&\в) в виде произведения g(s, 0) h{SC) ин- интересна только в случае, когда функция g и достаточная статистика s просты *). Следует также заметить, что выражение рC?\в) в виде произве- произведения g(s, 8) h(S), очевидно, не единственно. Если /(s) есть любая функция от s, то g'(s, 8)=/(s) g(s, 8) и h'(X)=h(&)/f($) есть эк- эквивалентные множители. Такого рода неопределенность можно ис- исключить, введя понятие ядра плотности 8is- 9) , C8) g(s, 9)d9 которое инвариантно для этого вида оценок. Каково же значение достаточных статистик и ядер плотности при оценке параметров? Общий ответ состоит в том, что функции плот- плотности, содержащие достаточные статистики и простые ядра плот- плотности, используются при практическом оценивании параметров для классификации образов. В случае оценки по максимуму правдопо- правдоподобия, когда отыскивается величина 8, которая максимизирует p(SP\Q)=g(s, 8) h(SC), можно вполне удовлетвориться величиной g(s, 8). В этом случае нормирование посредством C8) не дает боль- больших преимуществ, если g(s, 8) не проще, чем g(s, 8). Удобство при- применения ядра плотности выявляется в байесовском случае. Если подставить в C4) p(^|8)=g(s, 8) h(&), то получим C9) Если наше апостериорное знание о 0 очень неопределенно, то р (8) близка к постоянной, мало меняясь с изменением 8. Если р (8) близка к равномерной, то р (в|^) примерно равна ядру плот- плотности. Грубо говоря, ядро плотности представляет апостериорное 1) В математической статистике есть соответствующее нашим требованиям понятие минимальной достаточной статистики. Однако и минимальная достаточ- достаточная статистика не представляет значительного интереса, если не упрощает вы- вычислений.
74 Гл. 3. Оцецка параметров и обучение с учителем распределение параметрического вектора в случае, когда априорное распределение равномерно1). Даже когда априорное распределение сильно отличается от равномерного, ядро плотности обычно дает асимптотическое распределение вектора параметров. В частности, когда р(х|в) не дифференцируема и число выборок велико, g(s, 8) обычно имеет острый пик при некотором значении 0=8. Если апри- априорная плотность р@) непрерывна при 8=8 и р@) не равна нулю, то функция р(Щ&) приближается к ядру плотности g(s, 0). 3.7. ДОСТАТОЧНЫЕ СТАТИСТИКИ И СЕМЕЙСТВО ЭКСПОНЕНЦИАЛЬНЫХ ФУНКЦИЙ Рассмотрим применение теоремы факторизации для получения достаточных статистик на примере хорошо знакомого случая нор- нормального распределения при p(x|0)~N @, 2). Имеем «expf—J-e«2-» В этом разложении первый множитель выделяет зависимость Q) от 9, а согласно теореме факторизации, видно, что статисти- п ка 2j x* достаточна для 0. Конечно, любая взаимно однозначная функция этой статистики также достаточна для 8, в частности и выборочное среднее также достаточно для 8. Исходя из этой статистики, можно написать g(mn, 6)=exp [-•2- х) Если пространство параметров конечно, мы в самом деле можем считать распределение р(в) равномерным. Хотя в случае непрерывного пространства параметров равномерное распределение невозможно, такое приближение часто и здесь оказывается удовлетворительным.
3.7. Достаточные статистики и экспоненциальные функции 75 Воспользовавшись формулой C8) или непосредственной подста- подстановкой, можно получить ядро плотности — 2 я Из этого выражения сразу же выясняется, что га„ и есть оценка по максимуму правдоподобия для 0. Байесовскую апостериорную плотность можно получить из g{mn, 9), выполняя интегрирование согласно C9). Если априорная плотность близка к равномерной, то р(Ъ№=Ц(тя, 0). Такой же общий подход возможен и при определении достаточ- достаточных статистик для других функций плотности. В частности, он применим к любому из членов экспоненциального семейства, группы функций распределения и плотностей, имеющих простые достаточ- достаточные статистики. В число членов экспоненциального семейства вхо- входят нормальное, экспоненциальное, релеевское, пуассоновское и многие другие известные распределения. Все они могут быть запи- записаны в виде р (х 10) = а (х) ехр [а @) + b @)' с (х)]. D0) Таким образом, получаем D1) где можно принять 8 = 4ЕС<**>. D2) {a@) + b(e)'s}] D3) U«W. D4) Выражения функций распределения, достаточных статистик и ненормированных ядер для некоторых обычно встречающихся чле- членов экспоненциального семейства приведены в табл. 3.1. Вывод из этих выражений оценок по максимуму правдоподобия и байесов- байесовских апостериорных распределений вполне обычная вещь. Выраже- Выражения, за исключением двух, приведены для случая одной переменной, хотя и могут быть использованы для случаев с многими перемен- переменными, если можно допустить статистическую независимость *). J) Если быть более точным, то необходимо предположить, что р(\\(о;-, 9у)= = П p(Xi\<Hj, Ьф. Когда в литературе встречается утверждение, что «признаки предполагаются статистически независимыми», то почти всегда под этим подра- подразумевается, что дни независимы внутри класса.
Таблица 3.1 Общий вид распределеиий из экспоненциального семейства Наименование Нормальное, с одной пере- переменной Нормальное, с многими пере- переменными Экспоненци- Экспоненциальное Релея Максвелла Распределение , .д. -ш/ 82 — A/2) ба (X—6t)' р (я) в ' ®2 '* * с~A/2) <х-в1>*в» (х-в.) \ 0 в противном случае \ 0 в противном случае 1 0 в противном случае Область определе- определения е2 > о в2 поло- положительно опреде- определена 6> 0 6> 0 6> 0 s п _ *=1 _ 1 % ч — Ч^1 1 _ 1 п п п [g (s. б)]1/" 2
Гамма Бета Пуассона Бернулли Биномиальное Полиномиаль- Полиномиальное { 8*'+1 e в* у 0 в противном случае / "Г /А 1 А 1 O'i / 1 1 D-i —г~ Оя-f- Zl ft/» vft Р(*|в) J ГF1+1)Г(92+1)Х U X> ' \ 0 в противном случае р (у 1 О\ _5 о~9 r n 1 9 JC . \pl X) . P (x I G) TT ^*' ^c 0 1^ 62>0 62>-l 6 >0 o<e<i o<e< l -f n \l/a~] n _ Л *=I Г/ П \l/rt ~) / n \ 1/л 1 y^ л /<—у * n 1 у л ь 1 B= 1 n J. i У • —j— 1 j ^ T /fl —!— A j rt\ г(в1+1)г(е2+1) 6^A —Q)m-s d
78 Гл. 3. Оценка параметров и обучение с учителем Было бы приятно отметить в заключение, что полученные резуль- результаты составляют набор средств, достаточный для решения большин- большинства задач из области классификации образов. К сожалению, все обстоит иначе. В применении ко многим случаям указанные члены экспоненциального семейства с их плавным изменением и однооб- однообразием формы не представляют хорошего приближения реально встречающихся плотностей. Часто применяемое упрощающее пред- предположение о статистической независимости далеко не всегда ока- оказывается справедливым. В случае когда применение функции из экспоненциального семейства и дает хорошее приближение неиз- неизвестной плотности, обычно бывает необходимо оценивать множество неизвестных параметров, а в распоряжении имеется только огра- ограниченное число выборок. Как мы увидим, это может привести к тому, что оптимальные оценки дадут малоудовлетворительные ре- результаты, и даже к тому, что «оптимальные» системы будут выпол- выполнять свои функции хуже, нежели «почти оптимальные». 3.8. ПРОБЛЕМЫ РАЗМЕРНОСТИ 3.8.1. НЕОЖИДАННАЯ ТРУДНОСТЬ В применении к случаям многих классов нередко приходится сталкиваться с задачами, содержащими до ста признаков, особенно если эти признаки бинарные. Исследователь обычно полагает, что каждый признак может быть полезен хотя бы для одного разделения. Он может и сомневался, что каждый из признаков обеспечивает не- независимую информацию, но заведомо излишние признаки им не при- привлекались. Для случая статистически независимых признаков имеются ре- результаты некоторых теоретических исследований, которые подска- подсказывают нам, как поступить наилучшим образом. Рассмотрим, на- например, многомерный нормальный случай для двух классов, когда p(x\o)j)~N (\ij, 2), /=1, 2. Когда априорные вероятности равны, то нетрудно показать, что байесовский уровень ошибки определя- определяется выражением ^J[H"' D5) где г2 есть квадратичное махалонобисово расстояние г* = (ц1—ц2)* Е^—ц2). D6) Таким образом, вероятность ошибки убывает с ростом г, стремясь к нулю при стремлении г к бесконечности. В случае независимых пе- переменных 2=diag (of, . . . , а§) и D7)
3.1?. Проблемы размерности 79 Отсюда видно, что каждый из признаков влияет на уменьшение вероятности ошибки. Наилучшими в этом смысЛе являются те приз- признаки, у которых разность средних значений велика по сравнению со стандартными отклонениями. Вместе с тем ни один из признаков не бесполезен, если его средние значения для разных классов раз- различны. Поэтому для дальнейшего уменьшения уровня ошибки надо, очевидно, ввести новые, независимые признаки. Хотя вклад каждо- каждого нового признака и не очень велик, однако если беспредельно уве- увеличивать г, то вероятность ошибки можно сделать сколь угодно-ма- угодно-малой. Естественно, если результаты, получаемые при использовании данного множества признаков, нас не устраибают, можно попытать- попытаться добавить новые признаки, особенно такие, которые способствуют разделению пар классов, с которыми чаще всего происходила пута- путаница. Хотя увеличение числа признаков удорожает и усложняет выделитель признаков и классификатор, оно приемлемо, если есть уверенность в улучшении качества работы. При всем этом, если вероятностная структура задачи полностью известна, добавление новых признаков не увеличит байесовский риск и в худшем случае байесовский классификатор не примет их во внимание, а если эти признаки все же несут дополнительную информацию, то качество работы должно улучшиться. К сожалению, на практике часто наблюдается, что, вопреки ожи- ожиданиям, добавление новых признаков ухудшает, а не улучшает ка- качество работы. Это явное противоречие составляет весьма серьез- серьезную проблему при разработке классификатора. Главный источник этого можно усмотреть в конечности числа исходных выборок. В це- целом же данный вопрос требует сложного и тонкого анализа. Про- Простейшие случаи не дают возможности экспериментального наблю- наблюдения указанного явления, тогда как случаи, близкие к реальным, оказываются сложными для анализа. С целью внести некоторую ясность, обсудим ряд вопросов, относящихся к проблемам размер- размерности и объема выборки. В связи с тем что большинство результатов анализа будет дано без доказательств, заинтересованный читатель найдет соответствующие ссылки в библиографических и историче- исторических замечаниях. 3.8.2. ОЦЕНКА КОВАРИАЦИОННОЙ МАТРИЦЫ Начнем наш анализ с задачи оценки ковариационной матрицы. Для этого требуется оценить d (d+1)/2 параметров, из которых d диагональных элементов и d(d—1)/2 независимых недиагональных элементов. Сначала мы видим, что оценка по максимуму правдопо- правдоподобия
Гл. 3» Оценка параметров и обучение с учителем представляет собой сумму я—1 независимых матриц размера dxd единичного ранга, чем гарантируется, что она является вырожденной при n^.d. Так как для нахождения разделяющих функций необ- необходимо получить величину, обратную 2, у нас уже есть алгебраи- алгебраические условия, связывающие по крайней мере d+l выборок. Не- Неудивительно, что сглаживание случайных отклонений для получения вполне приемлемой оценки потребует в несколько раз большего числа выборок. Часто встает вопрос, как быть, если число имеющихся в распоря- распоряжении выборок недостаточно. Одна из возможностей — уменьшить размерность, либо перестраивая выделитель признаков, либо вы- выбирая подходящее подмножество из имеющихся признаков, либо некоторым образом комбинируя имеющиеся признаки1). Другая возможность — это предположить, что все с классов входят в одну ковариационную матрицу, т. е. объединить имеющиеся данные. Можно также попробовать найти лучшую оценку для 2. Если есть какая-нибудь возможность получить приемлемую априорную оцен- оценку So, то можно воспользоваться байесовской или псевдобайесов- псевдобайесовской оценкой вида Л,20+A—Я-J. Если матрица 20 диагональная, то уменьшается вредное влияние «побочных» корреляций. С другой стороны, от случайных корреляций можно избавиться эвристиче- эвристически, взяв за основу ковариационную матрицу выборок. Например, можно положить все ковариации, величина коэффициента корреля- корреляции в которых не близка к единице, равными нулю. В предельном случае при таком подходе предполагается статистическая незави- независимость, означающая, что все недиагональные элементы равны нулю, хотя это и может противоречить опытным данным. Даже при полной неуверенности в правильности такого рода предположений получае- получаемые эвристические оценки часто обеспечивают лучший образ дей- действий, нежели при оценке по максимуму правдоподобия. Здебь мы приходим к другому явному противоречию. Можно быть почти уверенным, что классификатор, который строится в предпо- предположении независимости, не будет оптимальным. Понятно, что он будет работать лучше в случаях, когда признаки в самом деле неза- независимы, но как улучшить его работу, когда это предположение не- неверно? Ответ на это связан с проблемой недостаточности данных, и пояснить ее сущность в какой-то мере можно, если рассмотреть ана- аналогичную поставленной задачу подбора кривой по точкам. На рис. 3.3 показана группа из пяти экспериментальных точек и не- некоторые кривые, предлагаемые для их аппроксимации. Экспери- Экспериментальные точки были получены добавлением к исходной параболе независимого шума с нулевым средним значением. Следовательно, если считать, что последующие данные будут получаться таким же г) Мы еще вернемся к вопросам уменьшения размерности в гл. 4 и 6.
3.8. Проблемы размерности 81 образом, то среди всех полиномов парабола должна обеспечить наи- наилучшее приближение. Вместе с тем неплохое приближение к име- имеющимся данным обеспечивает и приведенная прямая. Однако мы знаем, что парабола дает лучшее приближение, и возникает вопрос, достаточно ли исходных данных, чтобы можно было это предполо- предположить. Парабола, наилучшая для большого числа данных, может оказаться совершенно отличной от исходной, а за пределами приве- приведенного интервала легко может одержать верх и прямая линия. Отлично аппроксимируются при- приведенные данные кривой десятого порядка. Тем не менее никто не бу- будет ожидать, что полученное та- таким образом предполагаемое реше- решение окажется в хорошем соответ- соответствии с вновь получаемыми данны- данными. И действительно, для получе- получения хорошей аппроксимации пос- посредством кривой десятого порядка потребуется намного больше выбо- выборок, чем для кривой второго по- порядка, хотя последняя и является частным случаем той. Вообще надежная интерполяция или экстраполяция не может быть достиг- достигнута, если она не опирается на избыточные данные. Рис. 3.3. Подбор кривых по задан- заданным точкам. 3.8.3. ЕМКОСТЬ РАЗДЕЛЯЮЩЕЙ ПЛОСКОСТИ Наличие избыточных данных для классификации столь же важно, как и для оценки. В качестве сравнительно простого примера рас- рассмотрим разбиение d-мерного пространства признаков гиперпло- гиперплоскостью \у*х+ОДо=О; Допустим, что имеется общее расположение п выборочных точек1), с каждой из которых можно сопоставить метку ©! или со2. Среди 2" возможных дихотомий (разделений на два клас- класса) п точек в d-мерном пространстве имеется некоторая доля f(n, d), так называемых линейных дихотомий. Это такая маркировка то- точек, при которой существует гиперплоскость, отделяющая точки, помеченные юь от точек, помеченных со2. Можно показать, что эта х) Говорят, что точки в d-мерном пространстве находятся в общгм расположе- расположении, если никакое из подмножеств, содержащих (<i+l) точек, не попадает в одно (d—1)-мерное подпространство.
82 Гл. 3. Оценка параметров и обучение с учителем доля определяется выражением 1, i=0 D8) График этой функции для разных значений d приведен на рис. 3.4. Заметим, что все дихотомии для d+1 и менее точек линейны. Это значит, что гиперплоскость не ограничивается требованием пра- Рис. 3.4. Доля линейных дихотомий п точек в d-мерном пространстве. вильной классификации d-\-\ или меньшего числа точек. Фактиче- Фактически при большом d, пока п не составляет значительной части от 2(d+l), это не означает, что задача начинает становиться трудной. При значении числа п=2 (d+1), которое иногда называется емкостью гиперплоскости, половина из возможных дихотомий еще линейна. Таким образом, избыточность для построения линейных разделя- разделяющих функций до тех пор не будет достигнута, пока число выборок в несколько раз не превзойдет размерности Пространства признаков. 3.8.4. УРОВЕНЬ ОШИБКИ, УСРЕДНЕННЫЙ ПО ЗАДАЧАМ Приведенные примеры позволяют, таким образом, заключить, что при малом числе выборок вся проблема в том, что разрабаты- разрабатываемый классификатор не будет хорошо работать при получении новых данных. Мы можем, таким образом, полагать, что уровень ошибки явится функцией числа п выборок, убывающей до некото- некоторого минимального значения при стремлении я к бесконечности.
3.8. Проблемы размерности 83 Чтобы исследовать это теоретически, требуется выполнить следую- следующие действия: 1) произвести оценку неизвестных параметров по выборкам; 2) применить эти оценки для определения классификатора; 3) вычислить уровень ошибки полученного классификатора. В целом такой анализ очень сложен. Проведение его зависит от многих причин — частных значений получаемых выборок, спо- способа их использования для определения классификатора и неиз- неизвестной вероятностной структуры, положенной в основание расчетов. Однако аппроксимируя неизвестные плотности гистограммами и усредняя их соответствующим образом, можно прийти к некоторым интересным выводам. Рассмотрим случай с двумя классами, предполагаемыми равно- равновероятными. Предположим, что пространство признаков мы разби- разбили на некоторое число т отдельных ячеек ч$и . . ., ^т. Если в пре- пределах каждой из ячеек условные плотности p(x|(O!) и р(х|(о2) за- заметно не изменяются, то вместо того, чтобы отыскивать точное зна- значение х, потребуется лишь определить, в какую из ячеек попадает х. Это упрощает задачу, сводя ее к дискретной. Пусть pt~ Р(х? #,|<»i) и <7;=.Р(х€ #(|<»2). Тогда, поскольку мы предположили, что Р (а>х)— =Р((оа)=1/2, векторы р= (рь . . ., ртУ и q= (qu . . ., qm)* опреде- определят вероятностную структуру задачи. Если х попадает в #,-, то байесовское решающее правило выразится в принятии решения a>i, если p{>qi. Получаемый байесовский уровень ошибки опреде- определится выражением 1 m <Р («I P. q)=2-?nnn[p,-, q,]. Если параметры р и q неизвестны и должны быть оценены по множеству выборок, то получаем уровень ошибки, больший, чем байесовский. Точный ответ будет зависеть от взятого множества вы- выборок и способа построения по ним классификатора. Допустим, что одна половина выборок помечена ©ь а другая ю2, причем пц пред- представляет число выборок с пометкой ю7-, попавших в ячейку #,-. До- Допустим далее, что мы строим классификатор, пользуясь оценками по максимуму правдоподобия pi=2nnln и qi=2niiln, как если бы они и были истинными значениями. Тогда новый вектор признаков, по- попадающий в #,-, будет отнесен к <ли если пг{>п1%. Со всеми этими предположениями вероятность ошибки для получаемого классифи- классификатора определится выражением ПЦ>П12
84 Гл. 3. Оценка параметров и обучение с учителем Чтобы оценить вероятность ошибки, надо знать истинные значе- значения условных вероятностей р и q и множество выборок или по мень- меньшей мере числа пц. Различные множества из п случайных выборок приведут к различным значениям Р(е|р, q, SC). Для усреднения п случайных выборок по всем возможным мно- множествам и получения средней вероятности ошибки Р(е|р, q, JP) можно использовать тот факт, что числа пи распределены по поли- полиномиальному закону. Грубо говоря, это даст типичный уровень ошибки, который можно ожидать для п выборок. Однако оценка этого среднего уровня потребует еще решения второстепенной за- задачи — оценки величин р и q. Если р и q различаются сильно, то средний уровень ошибки будет близок к нулю; при сходных р и q он приближается к 1/2. Радикальным путем устранения этой зависимости решения от задачи будет усреднение результатов решения всех возможных задач. Для этого следует выбрать некоторое априорное распределение не- неизвестных параметров р и q, а затем усреднить Р(е|р, q, n) в соот- соответствии с этими р и q. Получаемая усредненная по задачам вероят- вероятность ошибкиР(е\т, п) будет зависеть только от числа т. ячеек, числа п выборок и вида априорного распределения. Выбор априорного распределения является, несомненно, тон- тонким моментом. Стараясь облегчить задачу, мы можем принять ве- величину Р близкой к 0, а стараясь ее усложнить — близкой к 1/2. Априорное распределение следовало бы выбирать соответствующим тому классу задач, с которым мы обычно встречаемся, однако не яс- ясно, как это сделать. Можно просто предположить эти задачи «рав- «равномерно распределенными», т. е. предположить, что векторы р и q распределены равномерно на симплексах pu&zO, 2 Р(= 1, ==l- Г. Ф. Хугсом, предположившим такой подход, проведе- проведет 2 27 ны необходимые вычисления, результаты которых представлены графиками рис. 3.5. Рассмотрим некоторые приложения его резуль- результатов. Заметим сначала, что эти кривые представляют Р как функцию числа ячеек для постоянного числа выборок. Если число выборок бесконечно, то становятся верны оценки по максимуму правдоподо- правдоподобия, и Р для любой задачи будет средним значением байесовского уровня ошибки. Кривая, соответствующая Р(е\т, оо), быстро убы- убывает от 0,5 при т= 1 до асимптотического значения 0,25 при стрем- стремлении т к бесконечности. Не удивительно, что Р=0,5 при т=\, так как в случае всего лишь одного элемента решение должно ос- основываться только на априорных вероятностях. Эффектно и то, что Р стремится к 0,25 при стремлении т к бесконечности, так как эта величина находится как раз посередине между предельными значе-
3.8. Проблемы размерности 85 ниями 0,0 и 0,5. Столь большое значение уровня ошибки свидетель- свидетельствует лишь о том, что в этой средней величине отражено множе- множество безнадежно трудных задач, связанных с классификацией. И конечно, не следует считать, что «типичная» задача распознавания образов может иметь такой уровень ошибки. Однако самая интересная особенность этих кривых заключается в том, что для каждой из них, соответствующей конечному числу выборок, имеется оптимальное число ячеек. Это непосредственно связано с тем, что если при конечном числе выборок использовать ) i i I 1111 т 100 юоо Рис. 3.5. Усредненный по задаче уровень ошибки (по данным Г. Ф. Хугса, 1968. Здесь п — число выборок, т — число ячеек). излишнее количество признаков, то качество работы ухудшится. Почему это так, в данном случае ясно. Во-первых, увеличение числа ячеек позволяет легче различать р(х|<д)!) и р(х|со2) (представляемые векторами р и q), тем самым способствуя улучшению качества ра- работы. Если, однако, число ячеек становится слишком большим, то не хватит выборок, чтобы их заполнить. В конечном счете число выборок в большинстве ячеек окажется равным нулю, и для клас- классификации придется вернуться к неэффективным априорным веро- вероятностям. Таким образом, при любом конечном п величина Р{е\т,п) должна стремиться к 0,5 при стремлении т к бесконечности. Значение т, для которого Я (е,| т, п) достигает минимума, чрез- чрезвычайно мало. При числе выборок п=500 эта величина лежит где-то около т=20 ячеек. Допустим, что мы сформировали ячейки посред- посредством разбиения каждой оси на / интервалов. Тогда для d призна- признаков получим m—ld ячеек. Это будет означать, что при 1=2, т. е.
86 Гл. 3. Оценка параметров и обучение с учителем предельно грубом квантовании, использование более четырех-пяти бинарных признаков ухудшит, а не улучшит качество работы. Та- Такой результат весьма пессимистичен, но не более чем утверждение о том, что средний уровень ошибки равен 0,25. Приведенные численные значения получены в соответствии с априорным распреде- распределением, выбранным для конкретной задачи, и могут не иметь отно- отношения к частным задачам, с которыми можно еще столкнуться. Ос- Основной замысел проведенного анализа состоит в том, чтобы усвоить, что качество работы классификатора безусловно зависит от числа конструктивных выборок и что при заданном числе выборок увели- увеличение числа признаков сверх определенного может оказаться вред- вредным. 3.9. ОЦЕНКА УРОВНЯ ОШИБКИ Существуют по меньшей мере две причины, чтобы пожелать уз- узнать уровень ошибки классификатора. Первая причина — это оценить, достаточно ли хорошо работает классификатор, чтобы счи- считать его работу удовлетворительной. Вторая состоит в сравнении качества его работы с неким конкурирующим устройством. Один из подходов к оценке уровня ошибки состоит в вычислении его, исходя из предполагаемой параметрической модели. Например, при разделении на два класса в случае многих нормально распре- распределенных величин можно вычислить Р (е) посредством уравнений D5) и D6), подставляя оценки средних значений и ковариационных матриц неизвестных параметров. Такой подход связан, однако, с тремя серьезными трудностями. Во-первых, оценка таким способом Р(е) почти всегда оказывается излишне оптимистичной, так как при этом будут скрыты особенности, связанные со своеобразием и непредставительностью конструктивных выборок. Вторая труд- трудность заключается в том, что всегда следует сомневаться в справед- справедливости принятой параметрической модели; оценка работы, осно- основанная на той же самой модели, не внушает доверия, за исключе- исключением случаев, когда она неблагоприятна. И наконец, в большинстве общих случаев точное вычисление уровня ошибки очень трудно, даже если полностью известна вероятностная структура задачи. Эмпирический подход, позволяющий избежать указанных труд- трудностей, состоит в экспериментальных испытаниях классификатора. На практике это часто осуществляется подачей на классификатор системы контрольных выборок с оценкой уровня ошибки по части выборок, классификация которых оказалась неверной. Излиш- Излишне говорить, что контрольные выборки должны быть отличными от конструктивных, иначе оцениваемый уровень ошибок окажется излишне оптимистичным1). Если истинный, но неизвестный уровень *) В ранних работах по распознаванию образов, когда эксперименты нередко проводились с весьма малым количеством выборок, при проектировании и испы-
3.9. Оценка уровня ошибки 87 ошибки классификатора равен р и если классификация k из п неза- независимых, случайно взятых контрольных выборок неверна, то рас- распределение k биномиально х): *A—р)"~*. D9) Таким образом, неверно классифицированная часть пробных вы- выборок и есть в точности оценка р по максимуму правдоподобия: Свойства этой оценки для параметра р биномиального распре- распределения хорошо известны. В частности, на рис. 3.6 изображены гра- графики зависимости величины 95%-ного доверительного интервала от р и п. Для заданного значения р вероятность того, что истинное значение р лежит в интервале между нижней и верхней кривыми при заданном числе п пробных выборок, равна 0,95. Из кривых видно, что, пока п не очень велико, оценку по максимуму правдопо- правдоподобия следует принимать с осторожностью. Например, если не было ошибок на 50 пробных выборках, то истинный уровень ошибок лежит в пределах от 0 до 8%. Чтобы быть вполне уверенным в том, что ис- истинный уровень ошибок менее 2%, классификатор не должен оши- ошибиться более чем на 250 пробных выборках. Потребность в данных для построения классификатора и доба- добавочных данных для его оценки представляет дилемму для проекти- проектировщика. Если большую часть своих данных он оставит для проекти- проектирования, то у него не будет уверенности в результатах испытаний. Если большую часть данных он оставит для испытаний, то не полу- получит хорошего устройства. Хотя вопрос о том, как лучше разделить множество выборок на конструктивное и контрольное подмножества, в какой-то мере исследовался и много раз обсуждался, однако окон- окончательного ответа на него все еще нет. таниях классификатора нередко использовались одни и те же данные. Такой неверный подход обычно назывался «испытанием по тренировочным данным». Родственная, хотя и менее очевидная задача соответствует случаю, когда класси- классификатор подвергается многим последовательным усовершенствованиям, прово- проводимым на основании повторных испытаний при одних и тех же эксперименталь- экспериментальных данных. Такого вида «испытание по тренировочным данным» часто кажется привлекательным до получения новых пробных выборок. *) Чтобы это предположение оказалось верным, состояния природы должны выбираться случайно. В результате в задачах со многими классами некоторые классы могут вообще не быть представлены. Чтобы обойти эту неприятность, явно вызванную малым числом выборок, обычно принято делать число пробных выборок для каждого класса хотя бы грубо соответствующим априорным вероят- вероятностям. При этом оценка уровня ошибок уточняется, однако точный анализ усложняется.
88 Гл. 3. Оценка параметров и обучение с учителем В действительности, чтобы построить классификатор и испытать его, имеется много способов и помимо разделения данных. Напри- Например, можно многократно повторять процесс, каждый раз исполь- используя различное разделение и усредняя оценки получаемых уровней ошибок. Если не важны затраты на вычисления, то имеются веские аргументы в пользу того, чтобы проделать это п раз, используя каждый раз п—1 выборок для проектирования и только одну вы- 0,7 OS 0,9 7,0 Рис. 3.6. Доверительные интервалы для оценок по уровню ошибки (Хайлиман, 1962). борку для испытания. Основное преимущество такого подхода со- состоит в том, что при каждом проектировании используются факти- фактически все выборки, что дает возможность получить хорошее устрой- устройство, а с другой стороны, в испытаниях также используются все выборки. Эта процедура, которую можно назвать «поштучным ис- исключением», особо привлекательна, если число имеющихся выборок слишком мало. Если же число выборок очень велико, то, вероятно, достаточно разделить данные отдельно на конструктивное и кон- контрольное множества. Так как руководящих принципов для проекти- проектировщика в промежуточных ситуациях не существует, по крайней мере утешительно иметь большое число различных приемлемых ва- вариантов решения.
3.10. Библиографические и исторические сведения 89 ЗЛО. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ Оценка параметров составляет основной предмет математической статистики, весьма полно представленный во многих классических трудах, таких, как работы Хоула A971) и Уилкса A962). Обычно на практике применяются оценки по максимуму правдоподобия и байесовские оценки, причем в качестве последних часто использует- используется среднее значение апостериорного распределения р Щ&). Оценка по максимуму правдоподобия введена Р. А. Фишером, указавшим на многие ее замечательные свойства. К таким свойствам, в частно- частности, относится возможность избежать решения сложного вопроса выбора соответствующей априорной плотности р(8). Необдуманное применение лапласовского принципа недостаточ- недостаточного основания для введения предположения о равномерных априорных распределениях, а также принятие предположения о случайности параметра, который всего-навсего неизвестен, столь сурово осуждались Фишером и Нейманом, что принципиальная основа байесовской оценки стала пользоваться дурной репутацией. В последние годы байесовским методам возвращена их былая респек- респектабельность, что отчасти объясняется той легкостью, с которой они связывают известными условиями неизвестные параметры. С введением новых принципов, таких, как принцип максимума энтропии, разъяснились некоторые старые парадоксы (Джайнес, 1968). Более спорная, но тем не менее живительная поддержка была оказана «субъективистской» или «индивидуалистской» школой ста- статистиков, рассматривающей априорные распределения как средство выражения нашего представления о неизвестных параметрах (Сэ- видж, 1962). Так как в обычных условиях байесовские оценки и оценки по максимуму правдоподобия приводят примерно к одним и тем же результатам, то, если объем выборки достаточен, принци- принципиальное различие этих оценок редко имеет важные последствия. Байесовский подход к обучению при распознавании образов основан на предположении, что подходящим путем использования выборок при неизвестных условных плотностях является вычис- вычисление P(u>i\x, &) (Браверман, 1962). Абрамсоном и Браверманом A962) получено рекуррентное байесовское решение для обучения среднему в случае нормальной плотности, а Кин A965) развил это решение на случай, когда неизвестны вектор среднего значения и ковариационная матрица. Байесовское обучение для ряда неста- нестационарных и отличных от нормального случаев исследовалось Байснером A968) и Ченом A969). Как пример использования байе- байесовского обучения в самом общем смысле Лейниотисом A970) уста- установлена связь между нормальным решением для случая многих переменных и хорошо известными результатами из других областей, а именно кальмановской фильтрацией в теории управления и корреля- корреляционно-оценочным детектированием в теории связи. Чином и Фу
90 Гл. 3. Оценка параметров и обучение с учителем A967) исследовалась сходимость этих оценок посредством сопостав- сопоставления байесовского обучения и стохастической аппроксимации. Хорошее, сжатое изложение вопросов сходимости предложено Аоки A965). Получение простого выражения для апостериорной плотности p(Q\&) обычно требует тщательного выбора априорной плотности р(в), так называемой «естественно сопряженной» плотности. Спред- жинсом A965) показано, что существенное упрощение при исполь- использовании воспроизводящих плотностей получается не за счет какого- либо особого свойства априорной плотности, а благодаря наличию простой достаточной статистики для р (х|Э). Введение достаточных статистик — еще один вклад Фишера. Строгое обоснование теоремы факторизации получено Леманом A959), а анализ плотностей, приводящих к простым достаточным статистикам, проведен Дынки- ным A951). Проблемы, связанные с увеличением размерности, ясно разоб- разобраны в статье Кенала и Чандрасекарана A968), оказавшей влияние и на наше отношение к данному вопросу. Задачи эти не сводятся только к параметрическим методам; кстати, применение к ним непа- непараметрических методов более строго будет изложено в гл. 4 и 5. Хотя задачами такого рода насыщены многие из практических про- проектов, в ранних изданиях им уделялось мало внимания, видимо, в связи со сложностью анализа. Однако следы этих задач можно ус- усмотреть в частых замечаниях о возможном несоответствии или не- непредставительности имеющихся данных. Кенал и Рендал A964), рассмотрев задачу оценки ковариационных матриц, пришли к оцен- оценке, предложенной для частного случая Т. Дж. Харли, и сочли ее весьма важной. Исчерпывающие исследования, касающиеся линей- линейного разделения, и распространение их на другие виды разделяющих поверхностей опубликованы Ковером A965), указавшим на возмож- возможность их применения при обработке конструктивных выборок. Олейс A966) рассмотрел задачу оценки, в которой переменные были рас- распределены нормально, а для неизвестных параметров использова- использовались оценки по максимуму правдоподобия. На основании проведен- проведенного анализа им были обоснованы условия, при которых увеличение числа переменных может повлечь за собой рост ожидаемого квадра- квадратичного отклонения, он же пришел к мысли, что сходные явления возможны и в задачах классификации. К сожалению, в простых слу- случаях это явление места не имеет. Результаты, полученные Чандра- секараном A971), показывают, что если признаки статистически независимы, то эффект этот не проявляется никогда. Таким образом, это явление относится к трудным для анализа зависимым случаям. Хугс A968) предложил усреднение по задачам и разрубил этот гордиев узел, объединив задачи классификации всех типов — с пол- полной зависимостью, полной независимостью и все промежуточные случаи. Так как усредненный по задачам уровень ошибки сначала
Список литературы 91 убывает до некоторого минимума, а затем возрастает с ростом числа признаков, то можно прийти к заключению, что такое поведение типично при ограниченном числе выборок. Нами приведены ре- результаты для случая, когда два класса предполагаются одинаково правдоподобными. Хугсом рассмотрены также уровни ошибок для случаев произвольных априорных вероятностей, но разъяснение этих результатов слишком трудно, поскольку они бывают иногда даже хуже, чем при учете только априорных вероятностей. Абенд и Харли A969) пришли к выводу, что это поведение обусловлено использованием оценок по максимуму правдоподобия вместо байе- байесовских, а Чандрасекаран и Харли A969) получили и исследовали усредненный по задачам уровень ошибки для байесовского случая. При равенстве априорных вероятностей и равенстве числа выборок в каждом классе результаты байесовских оценок и оценок по мак- максимуму правдоподобия оказываются одинаковыми. Другим источником дискуссий в ранних работах по распозна- распознаванию образов явился вопрос об оценке действия и сравнении раз- различных классификаторов. Частично это можно представить из за- заметок по распознаванию рукописных букв, опубликованных в июне 1960 г. и марте 1961 г. в IRE Transactions on Electronic Computers. Общая процедура использования некоторых выборок для построе- построения и резервирования запаса для контроля часто называется удер- удержанием или Я-методом. Исследования Хайлимана A962) указывают на необходимость чрезвычайно большого числа пробных выборок, однако Кенал и Чандрасекаран A968) показали, что анализ, по су- существу, и предназначен для случая многих выборок. Проведенное Лахенбруком и Миккей A968) исследование методом Монте-Карло явилось свидетельством превосходства метода поштучного исклю- исключения, который они назвали (/-методом. Хотя при применении этого метода и требуется я-кратное построение классификатора, они по- показали, что по крайней мере в случае нормального распределения работа, связанная с повторным обращением ковариационных мат- матриц, может быть значительно уменьшена посредством применения тождества Бартлетта (см. задачу 10). Введенные Фукунагой и Кес- селем A971) простые'и точные формулы свидетельствуют о том, что дополнительных расчетов в этом случае требуется совсем немного. СПИСОК ЛИТЕРАТУРЫ Абенд, Харли (Abend К., Harley Т. J., Jr.) Comments 'On the mean accuracy of statistical pattern recognizers', IEEE Trans. Info. Theory, IT-15, 420—421 (May 1969). Абрамсон, Браверман (Abramson N., Braverman D.) Learning to recognize patterns in a random environment, IRE Trans. Info. Theory, IT-8, S58—S63 (September 1962). Аоки (Aoki M.) On some convergence questions in Bayesian optimization problems, IEEE Trans. Auto. Control, AC-10, 180—182 (April 1965).
92 Гл. 3. Оценка параметров и обучение с учителем Байснер (Beisner Н. М.) A recursive Bayesian approach to pattern recognition, Pattern Recognition, 1, 13—31 (July 1968). Браверман (Braverman D.) Learning filters for optimum pattern recognition, IRE Trans. Info. Theory, IT-8, 280—285 (July 1962). Джайнес (Jaynes E. T.) Prior probabilities, IEEE Trans. Sys. Sci. Cyb., SSC-4, 227—241 (September 1968). Дынкин Е. Б. Необходимые и достаточные статистики для семейства распределений вероятностей, УМН, 6:1, 68—90 A951). Кенал, Рендал (Kanal L. N.. Randall N. С.) Recognition system design by statistical analysis, ACM, Proc. 19th Nat. Conf., pp. D2.5-1 — D2.5-10 (August 1964). Кенал, Чандрасекаран (Kanal L. N., Chandrasekaran B.) On dimensionality and sample size in statistical pattern classification, Proc. NEC, 24, 2—7 A968); also in Pattern Recognition, 3, 225—234 (October 1971). Кин (Keehn D. G.) A note on learning for gaussian properties, IEEE Trans. Info. Theory, IT-11, 126—132 (January 1965). Ковер (Cover Т. М.) Geometrical and statistical properties of systems of linear inequalities with appli- applications in pattern recognition, IEEE Trans. Elec. Сотр., EC-14, 326—334 (June 1965). Лейниотис (Lainiotis D. G.) Sequential structure and parameter-adaptive pattern recognition — part I: supervised learning, IEEE Trans. Info. Theory, IT-16, 548—556 (September 1970). Лахенбрук, Миккей (Lachenbruch P. A., Mickey M. R.) Estimation of error rates in discriminant analysis, Technometrics, 10,1—11 (Feb- (February 1968). Леман (Lehmann E. L.) Testing Statistical Hypotheses (John Wiley, New York, 1959). Олейс (Allais D. C.) The problem of too many measurements in pattern recognition and predictibn, IEEE Int. Con. Rec, Part 7, 124—130 (March 1966). Спреджинс (Spragins J.) A note on the iterative application of Bayes' rule, IEEE Trans. Info. Theory, IT-11, 544—549 (October 1965). Сэвидж (Savage L. J.) The Foundations of Statistical Inference (Methuen, London, 1962). Уилкс (Wilks S. S.) Mathematical Statistics (John Wiley, New York, 1962). [Русский перевод: Математическая статистика, М., «Наука», 1967.] Фукунага, Кессель (Fukunaga К., Kessell D. L.) Estimation of classification error, IEEE Trans. Сотр., С-20, 1521—1527 (December 1971). Хайлиман (Highleyman W. H.) The design and analysis of pattern recognition experiments, Bell System Technical Journal, 41, 723—744 (March 1962). Хоул (Hoel P. G.) Introduction of Mathematical Statistics (Fourth Edition, John Wiley, New York, 1971). Xyrc (Hughes G. F.) On the mean accuracy of statistical pattern recognizers, IEEE Trans. Info. Theory, IT-14, 55—63 (January 1968).
Задачи 93 Чандрасекаран (Chandrasekaran В.) Independence of measurements and the mean recognition accuracy, IEEE Trans. Info. Theory, IT-17, 452—456 (July 1971). Чандрасекаран, Харли (Chandrasekaran В., Harley Т. J., Jr.) Comments 'On the mean accuracy of statistical pattern recognizer's', IEEE Trans. Info. Theory, IT-15, 421—423 (May 1969). Чен (Chen С. Н.) A theory of Bayesian learning systems, IEEE Trans. Sys. Sci. Cyb., SSC-5, 30—37 (January 1969). Чин, Фу (Chien Y. Т., Fu K. S.) On Bayesian learning and stochastic approximation, IEEE Trans. Sys. Sci. Cyb., SSC-3, 28—38 (June 1967). Задачи 1. Пусть величина х распределена по экспоненциальному закону: 0 в остальных случаях. а) Изобразите зависимость р(д;|6) от х для постоянного значения параметра 6. б) Изобразите зависимость р(д:|9) от 9, 6>0, для постоянного значения х. в) Предположим, что независимо получено п выборок х± х„ в соответствии с p(x\Q). Покажите, что оценка по максимуму правдоподобия для 9 определяется выражением Л 1 2. Пусть величина х распределена равномерно: Ж) \ 0 в остальных случаях. а) Изобразите зависимость p(xi\Q) от 6 для некоторого произвольного зна- значения хх. б) Предположим, что независимо получено п выборок в соответствии с р(д;|6). Покажите, что оценка по максимуму правдоподобия для 6 есть max x^. k 3. Пусть выборки получаются последовательным независимым выбором со- состояний природы со,- с неизвестной вероятностью P(ft>/). Пусть г(^=1, если со- состояние природы для fe-й выборки есть м,-, и г(-й=0 в противном случае. Пока- Покажите, что Р (ziu ...,zin\P (ш,.)) = П Р ((о,-)*'* A -Я ЫI-** и что оценка по максимуму правдоподобия для Р(@/) есть
?4 Гл. 3. Оценка параметров и обучение с учителем 4. Пусть х есть бинарный (О, 1) вектор с многомерным распределением Бер- нулли где в= F^ ..., 9д)' — неизвестный параметрический вектор, а9(- вероятность того, что х;= 1. Покажите, что оценка по максимуму правдоподобия для 9 есть k=\ 5. Пусть p(x|2)~iV(|№, 2), где ц известно, а 2 неизвестна. Покажите, что оценка по максимуму правдоподобия для 2 определяется выражением последовательно выполняя следующие действия: а) Докажите матричное тождество a Ma=tr{ А аа'}, где след ixA есть сумма диагональных элементов матрицы А. б) Покажите, что функцию правдоподобия можно записать в виде ^ (xA-fi) (хк-цУ\ в) Полагая, что А=1> -12 иА^, ..., Xd суть собственные значения матрицы А, покажите, что это приводит к выражению хехр [—j г) Завершите доказательство, показав, что максимум правдоподобия дости- достигается при A1=...=A,d=l. в. Предположим, что р(х|ц,-, 2, w,-)~W(fi,-, 2), где 2 — общая ковариацион- ковариационная матрица для всех с классов. Пусть п выборок х1( ..., х„ извлекаются обычным путем, и пусть 1и ..., 1п — их индексы, т. е. /*=«, если состояние природы для х^ было (о,-. а) Покажите, что ЙЯ(С0'а) г 1 - 1 б) Используя результаты для выборок из одного нормально распределенного семейства, покажите, что оценки по максимуму правдоподобия параметров ц,- и 2
Задачи 95 определяются выражениями 7. Рассмотрите задачу обучения при восстановлении среднего значения одно- одномерного нормального распределения. Пусть п0=о2/ао есть догматизм, и пред- представим, что Цо образуется посредством усреднения п0 вымышленных выборок Xk, k=—«о+1 0- Покажите, что выражения B3) и B4) для \in и <з\ дают 1 Воспользуйтесь полученным результатом для интерпретации априорной плотности p(\i)~N(\i0, Oq). 8. Докажите матричное тождество где ^4 и В — невырожденные матрицы одного порядка. Воспользуйтесь получен- полученным результатом, чтобы доказать, что соотношения C1) и C2) на самом деле сле- следуют из B8) и B9). 9. Пусть выборочное среднее т„ и выборочная ковариационная матрица Сп для множества п выборок х1; ..., хл определяются выражениями k=\ Покажите, что влияние на эти величины добавления новой выборки хп+1 можно выразить рекуррентными формулами Ш ГО + (хп + 1 — тп) И Сп+1 = —^~ С„ + ^qTj (х„+j—тп) (х„+1—т„)'. 10. Выражения из задачи 9 позволяют вводить поправки в оценки ковариа- ковариационных матриц. Однако нередко представляет интерес обратная ковариацион- ковариационная матрица, а ее обращение отнимает много времени. Доказав матричное тож-
96 Гл. 3. Оценка параметров и обучение с учителем дество (А и используя результаты, полученные в задаче 9, покажите, что C-i1==_IL Г^-! Сд^Хп-и — m,,)(xB+i — тпУСп1 1 ^r— + (x«+i — mJ'C^^Xn+j — ш„) l~ It _J П. В данной задаче ставится цель'^'получить байесовский классификатор для случая многомерного распределения Бернулли. Как всегда, мы имеем дело с каж- каждым классом в отдельности, истолковывая Р(*\2Р) как среднее P(x\2Pi, ш,). Пусть условная вероятность для данного класса определяется выражением d и пусть 2С есть множество п выборок xlt ..., х„, независимо извлекаемых в соот- соответствии с этим вероятностным распределением. а) Полагая, что s= (slt ..., s^)' есть сумма п выборок, покажите, что р (^ | в) = П в|' A—в,I-^-. б) Полагая, что распределение 8 равномерно, с учетом тождества 1 п. /1 л\» _1Л т\п\ о покажите, что Изобразите эту плотность для случая й—\, п—\ и двух значений получаемых вероятностей для sv в) Посредством интегрирования по 8 произведения Р(х|8)р(8|.2Г) получите требуемую условную вероятность Если считать, что Р(х\ЗР) получается подстановкой оценки 8 в Р(х|6) на место 8, то что является эффективной байесовской оценкой для 8? 12. Исходя из данных табл. 3.1, покажите, что оценка по максимуму правдо- правдоподобия для параметра 8 при распределении Релея определяется выражением е=—^—. 13. Исходя из данных табл. 3.1, покажите, что оценка по максимуму прав- правдоподобия для параметра 8 при распределении Максвелла определяется выра-
Задачи 97 жбвием 14. Исходя из данных табл. 3.1, покажите, что оценка по максимуму правдо- правдоподобия для параметра 9 при полиномиальном распределении определяется вы- выражением e где вектор s= (slt ..., s^)* — среднее для п выборок Xi, ..., х„. 15. Рассмотрим случай двух классов, описанный в задаче 16 гл. 2, когда известно, что вероятность ошибки стремится к нулю при стремлении размерности d к бесконечности. а) Предположим, что извлекается одна выборка х= (*1( ..., х$ из класса 1. Покажите, что оценка по максимуму правдоподобия для р определяется выра- выражением б) Опишите поведение р при стремлении d к бесконечности. Объясните, по- почему, если допустить беспредельное увеличение числа признаков, можно получить безошибочный классификатор даже при наличии только одной выборки всего из одного класса.
Глава 4 НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ 4.1. ВВЕДЕНИЕ В предыдущей главе мы рассматривали вопросы обучения с учи- учителем, допуская, что вид основных плотностей распределения изве- известен. Для большинства же случаев распознавания образов это до- допущение неверно. Очень редко распространенные параметрические формы соответствуют плотностям распределения, встречающимся на практике. В частности, все стандартные параметрические плот- плотности распределения одномодальные (имеют один локальный мак- максимум), в то время как во многих практических задачах приходится иметь дело с многомодальными плотностями распределения. В дан- данной главе мы рассмотрим непараметрические процедуры, которыми можно пользоваться, не считая, что вид основных плотностей рас- распределения известен. Для распознавания образов интерес представляют несколько раз- различных видов непараметрических методов. Один из методов состоит из процедур оценки плотности распределения p(x\u>j) на основании выбранных образов. Если эти оценки удовлетворительны, то при проектировании оптимального классификатора ими можно заменить истинные значения плотности распределения. Другой метод состоит из процедур прямой оценки апостериорных вероятностей Р(шу|х). Этот метод близок такому методу непараметрических решающих процедур, как правило «ближайшего соседа», в котором, обходя вероятностные оценки, сразу переходят к решающим функциям. И наконец, есть неиараметрические процедуры, преобразующие пространство признаков так, чтобы в преобразованном пространстве можно было использовать параметрические методы. К этим методам дискриминантного анализа относится хорошо известный метод ли- линейного дискриминанта Фишера, являющийся связующим звеном между параметрическими методами, описанными в гл. 3, и адаптив- адаптивными методами гл. 5. 4.2. ОЦЕНКА ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Боль- Большинство фундаментальных методов опирается на то, что вероятность
4.2. Оценка плотности распределения 99 р попадания вектора х в область 91 задается выражением P=$p(x')dx'. A) Я Таким образом, Р есть сглаженный, или усредненный, вариант плот- плотности распределения р(х), и можно оценить это сглаженное значе- значение р посредством оценки вероятности Р. Предположим, что п выборок Xi, . . ., хп берутся независимо друг от друга в соответ- соответствии с вероятностным законом р(х). Очевидно, что вероятность по- попадания k из п выборок в 91 задается биномиальным законом и ожидаемой величиной k будет E[k] = nP. B) Более того, это биномиальное распределение для k имеет доволь- довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношение kin будет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, что р(х) непрерывна и область 5? настолько мала, что р в ее пределах меняется незначительно, то можем написать Jp(x')dx'«p(x)V, C) Я где х — это точка внутри 91 и V — объем 91. Объединяя уравнения A) — C), получаем следующую очевидную оценку для р(х): х) « -jr. D) Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем V и делаем все больше и больше выборок, отношение kin сойдется (по вероятности) требуемым обра- образом, но при этом мы получаем только оценку пространственно ус- усредненной величины р(х): ^ р (х') dW ____ я Если мы хотим получить р(х), а не усредненный ее вариант, необ- необходимо устремить V к нулю. Однако если зафиксировать количество п выборок и позволить V стремиться к нулю, то область в конечном
100 Гл. 4. Непараметрические методы счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценка р(х)«0 будет бесполезной *). С практической точки зрения количество выборок всегда огра- ограничено, так что нельзя позволить объему V становиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношения kin и опре- определенное усреднение плотности распределения р(х). С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей 31и &г, • • •> содержащих х. Первая область будет соот- соответствовать одной выборке, вторая — двум и т. д. Пусть Vn будет объемом Э1п, kn— количеством выборок, попадающих в Ш,п , а рп (х)— n-й оценкой р(х): Если рп (х) должна сойтись к р (х), то, по-видимому, нужны три условия: 1) lim Fn=0, я->« 2) lim &„=«>, 3) lim kJn=0. Л->00 Первое условие обеспечивает сходимость пространственно ус- усредненного P/V к р (х) при однородном сокращении областей и при непрерывности р в х. Второе условие, имеющее смысл только при р(х)^К), обеспечивает сходимость (по вероятности) отношения ча- частот к вероятности Р. Совершенно ясно, что третье условие необходимо, если р„(х), заданная соотношением E), вообщедолжна сойтись. Это условие гово- говорит также о том, что, хотя в конечном счете в небольшую область Э1п попадает огромное количество выборок, оно составит лишь нез- незначительно малую часть всего количества выборок. Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заклю- заключается в сжатии начальной области за счет определения объема У„как некоторой функции от п, такой, чтобы Vn—\lVn- Затем следует по- показать, что случайные величины kn и kjn ведут себя правильно или, имея в виду существо дела, что р„(х) сходится к р(х). В этом за- заключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методе kn определяется как некоторая функция *) Если случайно одна или более выборок совпадут с х, то наша оценка дает бесконечно большое значение, что в равной мере бесполезно.
4.3. Парэенавские окна 101 от n: kn—Vn. Здесь объем Vn увеличивается до тех пор, пока не охватит kn «соседей» х. Это метод оценки по kn ближайшим соседям. Оба эти метода действительно обеспечивают сходимость, хотя труд- трудно сказать что-либо определенное об их поведении при конечном числе выборок. 4.3. ПАРЗЕНОВСКИЕ ОКНА 4.3.1. ОБЩИЕ СООБРАЖЕНИЯ Знакомство с методом оценки плотностей распределения с по- помощью парзеновского окна можно начать с временного предполо- предположения о том, что область Э1П является d-мерным гиперкубом. Если hn есть длина ребра этого гиперкуба, то его объем задаётся как Vn = hi F) Аналитическое выражение для kn— количества выборок, попа- попадающих в этот гиперкуб,— можем получить, определяя следующую функцию окна: | 1, если |иу|<1/2, /=1, ...,d, * \ 0 в противном рлучае. Таким образом, ф (и) определяет единичный гиперкуб с центром в начале координат. Отсюда следует, что ф((х—х»)/А„) равняется единице, если хг находится в гиперкубе объема Vn с центром в х, или нулю в любом другом случае. Следовательно, количество выборок в этом гиперкубе задается выражением Подставляя его в E), получаем оценку (8) Это соотношение предполагает более общий подход к оценке плот- плотности распределения. Не ограничиваясь функцией окна гиперкуба, данной формулой G), допускаем более общий класс функций окна. Тогда соотношение (8) выражает нащу оценку р (х) как среднее зна- значение функций от х и выборок Xj, По существу, функция окна ис- используется для интерполяции, причем каждая выборка влияет на оценку в зависимости от ее расстояния до х. Хотелось бы, чтобы оценка р„(х) была законной плотностью рас- распределения, т. е, неотрицательной, с интегралом, равным единице. Это можно гарантировать, требуя, чтобы функция окна была за-
102 Гл. 4. Непараметрические методы конной плотностью распределения. Точнее, если мы потребуем, чтобы Ф(и)>0 (9) и $(и)Л1=1, A0) и если мы сохраняем отношение Vn=hi, то отсюда сразу же следует что и р„(х) также удовлетворяет этим условиям. Рассмотрим, какое влияние оказывает на р„(х) ширина окна hn. Если мы определяем функцию б„(х) как то можем записать р„(х) в виде среднего 4?„(х-х,). A2) Поскольку Vn=h%, то hn влияет как на амплитуду, так и на ширину окна <5„(х). Если hn очень велика, то амплитуда у б„ мала, и х должно находиться достаточно далеко от хь пока 6„(х—хг) не станет значительно отличаться от б„@). В этом случае р„(х) есть наложение я широких, медленно меняющихся функций и служит очень сглаженной «несфокусированной» оценкой р(х). С другой стороны, если hn очень мала, то максимальное значение б„(х—хг) велико и находится вблизи от х=хг. В этом случае рп(\) есть нало- наложение п резких выбросов с центрами в выборках и является ошибоч- ошибочной «зашумленной» оценкой функции р (х). Для любого значения hn справедливо выражение (^) ^(и)^и = 1. A3) Таким образом, по мере устремления hn к. нулю 6„ (х—х*) стремится к дельта-функции Дирака, центрированной в хг, и р„(х) стремится к наложению дельта-функций, центрированных в выборках. Ясно, что выбор значения hn (или Vn) сильно сказывается на р„(х). Если объем Vn слишком велик, оценка будет плохой из-за слишком малой разрешающей способности. Если Vn слишком мал, оценка будет плохой в результате слишком большого статистиче- статистического разброса. При ограниченном количестве выборок самое луч- лучшее решение — пойти на приемлемый компромисс. При неограни- неограниченном же количестве выборок можно позволить Vn медленно стре- стремиться к нулю по мере увеличения п и заставить р„ (оо) сойтись к не- неизвестной плотности распределения р(х). Говоря о сходимости, мы должны сознавать, что речь идет о сходимости последовательности случайных величин, так как для любого фиксированного х значение р„(х) зависит от значений слу-
4.3. Парзеновские окна 103 чайных выборок хх, . . ., х„. Таким образом, рп(х) имеет некоторое среднее рп(\) и некоторую дисперсию а\ (х). Будем говорить, что оценка рп{х) сходится к р(хI_если1) х) = Р00 A4) Нто2п(х) = 0. A5) Чтобы доказать сходимость, нужно наложить условия на неиз- неизвестную плотность распределения р (х), функцию окна <р(и) и ширину окна hn. Обычно требуется, чтобы р была непрерывной в х и чтобы выполнялись условия (9) и A0). Можно доказать, что сходимость обеспечивается при следующих дополнительных условиях: sup<p(u)<oo, A6) и d lim <р(и)П«* = 0, A7) = 0, A8) = оо. A9) It-*- a> Выражения A6) и A7) способствуют хорошему поведению ф, и этим условиям удовлетворяет большинство плотностей распреде- распределения, которые можно взять для функций окна. Уравнения A8) и A9) говорят о том, что объем Vn должен стремиться к нулю, но со скоростью, меньшей чем 1/п. Рассмотрим теперь, почему эти усло- условия— основные условия, обеспечивающие сходимость. 4.3.2. СХОДИМОСТЬ СРЕДНЕГО ЗНАЧЕНИЯ Сначала рассмотрим р„(х) —среднее значение р„(х). Поскольку выборки X; распределены равномерно в соответствии с (неизвест- (неизвестной) плотностью распределения р(х), имеем B0) х) Такой тип сходимости называется среднеквадратичной сходимостью. Опи- Описание видов сходимости последовательности произвольных переменных см. в книге Е. Parzen, Modern Probability Theory and its Applications, Chapter 10 (John Wiley, New York, 1960).
104 Гл. 4. Шпараметрические методы Это уравнение показывает, что ожидаемое значение оценки есть усредненное значение неизвестной плотности распределения, свертка неизвестной плотности распределения и функции окна. Таким образом, рп(х) является сглаженным вариантом для р(х), видимым через усредняющее окно. Но с устремлением Vn к нулю б„ (х—v) стремится к дельта-функции с центром в х. Так что если р непрерывна в х, то уравнение A8) гарантирует, что рп (х) будет при- приближаться к р (х) по мере устремления п к бесконечности 1). 4.3.3. СХОДИМОСТЬ ДИСПЕРСИИ Уравнение B0) показывает, что для того, чтобы заставить рп (х) устремиться к р(х), не нужно иметь бесконечное число выборок; при любом п достаточно только устремить Vn к нулю. Конечно, для конкретного множества п выборок получающаяся оценка, имеющая всплески, будет бесполезной. Этот факт подчеркивает необходимость рассмотрения дисперсии оценки. Поскольку рп(х) является суммой функций статистически независимых случайных величин, ее диспер- дисперсия является суммой дисперсий отдельных членов, и отсюда имеем Опуская второй член, ограничивающий ф, и используя B0), полу- получаем sup(?)(x)t B2) Ясно, что для получения небольшой дисперсии нам нужно боль- большое, а не малое значение Vn. Однако, поскольку числитель остается конечным при стремлении п к бесконечности, мы можем позволить Vn стремиться к нулю и все же получать нулевую дисперсию при условии, что nVn стремится к бесконечности. Например, мы можем взять Vn—VjVn, или Vi/log n, или любую другую функцию, удов- удовлетворяющую соотношениям A8) и A9). Это основной теоретический вывод. Но, к сожалению, он ничего не говорит о том, как выбирать <р и Vn, чтобы получить хорошие ре- *) Это не строгий аргумент, но он интуитивно ясен и вполне разумен. Более глубокий анализ показывает, что возникает затруднение, если неизвестная плот- плотность распределения неограничена, как это бывает, когда р (х) содержит дельта- функции. Условие, добавляемое соотношением A7), устраняет это затруднение.
4.3. Пархновские окна 105 зультаты в случае с конечным числом выборок. Действительно, если у нас не будет другой информации о р(х), помимо той, что она непрерывна, у нас не будет никакого основания для оптимизации результатов при конечном числе выборок. 4.3.4. ДВА ПРИМЕРА Интересно проследить, как метод парзеновского окна проявля- проявляется на простых примерах. Рассмотрим сначала случай, где р(х) является одномерной нормальной плотностью распределения с ну- нулевым средним значением и дисперсией, равной единице. Пусть функция окна будет иметь тот же вид: И наконец, пусть hn~hxVn, где hx — параметр, находящийся в нашем распоряжении. Таким образом, рп(х) есть среднее нормаль- нормальных плотностей распределения, центрированных в выборках: X—Х[ ~ТьГ 1-Х Нетрудно из соотношений B0) и B1) найти выражения среднего значения и дисперсии для рп(х), но еще интереснее увидеть чис- численные результаты. На рис. 4.1 показаны результаты, полученные при вычислении рп(х) с помощью конкретно выбранного множест- множества нормально распределенных случайных выборок. Эти результаты зависят от п и hx. Для п= 1 функция рп (х) будет Просто единственным холмом гауссовского распределения с центром в первой выборке. Для п=16 и /ix=l/4 влияние отдельных выборок ясно различимо, а для hx = 1 и /и=4—нет. По мере увеличения п способность р„ от- отражать особенности р возрастает. При этом рп оказывается более чувствительной к локальным нерегулярностям выборок, когда п ве- велико, хотя мы уверены, что рп будет сходиться к сглаженной нор- нормальной кривой по мере устремления п к бесконечности. Ясно, что нельзя судить по одному внешнему виду и что для получения точной оценки требуется много выборок. В качестве другого примера пусть ср (и) и hn будут такими же, а неизвестная плотность распределения пусть будет смесью двух од- однородных плотностей ( 1, -^-2,5 <х<— 2, р{х) = ) 0,25, 0<х<2, \ 0 в противном случае. На рис. 4.2 показано поведение оценок этой плотности, полу- ченных методом парзеновского окна.
n-1 ss = ==~ \гт - ft: mm -+- т 4 I A* Hi J — /- —— n —i i- ¦¦ л 3 I \ — — 0,01 0,001 -2 0 2 -2 0 2 -2 0 2 Рис. 4.1. Оценка нормальной плотности распределения методом парзеновского окна-
Л,= 0,25 1,0 0,1 0,01 0,001 10,0 1,0 0,1 0,01 0,001 k = 1—' —¦ = = 1 i / f -l— I f f— [ II i T -V- 1 n -A 1 1 ¦iiiiii -r 1 f ¦f- 1 1 V" ti = (= I —H- 1 11 i ,1 53 = = = i 4-- A =1 W i + i ¦ii f =ff- 0 2 -2 0 2 -2 0 2 Рис. 4.2. Оценка бимодальной плотности распределения методом пар:)еновского окна.
108 Гл. 4. Непараметрические методы Как и прежде, случай с я= 1 говорит больше о функции окна, чем о неизвестной плотности распределения. Для я=16 ни одна из оце- оценок не годится, а вот для я=256 и /гж= 1 результаты уже кажутся приемлемыми. Эти примеры показывают некоторые достоинства и некоторую ог- ограниченность непараметрическйх методов. Достоинства заключаются в их общности. Одна и та же процедура использовалась для унимо- унимодального нормального и бимодального смешанного случаев. При достаточном количестве выборок мы уверены в сходимости к сколь угодно сложной Неизвестной плотности распределения. С другой стороны, может потребоваться очень большое количество выборок, намного превышающее то количество, которое нам потребовалось бы, если бы мы знали вид неизвестной плотности распределения. Нет почти никаких способов уменьшения объёма данных, поэтому потребности во времени вычисления и памяти слишком велики. Более того, потребность большего количества выборок растет экспо- экспоненциально с увеличением размерности пространства признаков. Этот недостаток непараметрических процедур, связанный с явле- явлением, которое Беллман назвал «проклятием размерности», намного ограничивает их практическую применимость. 4.4. ОЦЕНКА МЕТОДОМ kn БЛИЖАЙШИХ СОСЕДЕЙ Одна из проблем, с которой сталкиваются при использовании ме- метода парзеновского окна, заключается в выборе последовательности объемов ячеек Vu Vit . . . . Например, если мы берем Vn=VJV~n, то реаультаты для любого конечного п будут очень чувствительны к выбору начального объема Vi- Если Ух слишком мал, большинство объемов будут пустыми и оценка рп (х) будет довольно ошибочной. С другой стороны, если Vt слишком велик, то из-за усреднения по объему ячейки могут быть потеряны важные пространственные от- отклонения от р{х). Кроме того, вполне может случиться, что объем ячейки, уместный для одного значения х, может совершенно не годиться для других случаев. Один из возможных способов решения этой проблемы — сделать объем ячейки функцией данных, а не количества выборок. Напри- Например, чтобы оценить р (х) на основании п выборок, можно центриро- центрировать ячейку вокруг х и позволить ей расти до тех пор, пока она не вместит kn выборок, где kn есть некая определенная функция от п. Эти выборки будут kn ближайшими соседями х. Если плотность рас- распределения вблизи х высокая, то ячейка будет относительно неболь- небольшой, что приводит к хорошему разрешению. Если плотность рас- распределения невысокая, то ячейка возрастает, но рост приостанав- приостанавливается вскоре после ее вступления в области более высокой плот-
Ал=/ /,„=16 10,0 1,0 OJ 0,01 0,001 10,0 10 o,t 0,01 0,00/ = —¦ in Hi у Ш \ —7- Ш1 El sr= = T— — 1 Ш —t У P p Щ ? S r-—s s b в -2 0 2 Нормальное =4= + P j — s -^ -Z 0 2 бимодальное Рис. 4.3, Оценки двух плотностей распределения, полученные методом kn бли- ближайших соседей.
110 Гл. 4. Непараметрические методы ности распределения. В любом случае, если мы берем Р.«=^. E) мы хотим, чтобы kn стремилось к бесконечности при стремлении п к бесконечности, так как это гарантирует, что kjn будет хорошей оценкой вероятности попадания точки в ячейку объема Vn. Однако мы хотим также, чтобы kn росло достаточно медленно для того, чтобы размер ячейки, необходимый для вмещения kn выборок, сжал- сжался до нуля. Таким образом, из формулы E) видно, что отношение kjn должно стремиться к нулю. Хотя мы не приводим доказательств, можно показать, что условия lim &„=<» и lim kn/n=0 являются не- обходимыми и достаточными для сходимости рп (х) и р (х) по вероят- вероятности во всех точках, где плотность р непрерывна. Если взять kn=Yn и допустить, что рп (х) является хорошей аппроксимацией р(х), то из соотношения E) следует, что У„ж\/(Упр (х)). Таким образом, Vп опять имеет вид VJV~n, но начальный объем Vi опре- определяется характером данных, а не каким-либо нашим произволь- произвольным выбором. Полезно сравнить этот метод с методом парзеновского окна на тех же данных, что были использованы в предыдущих примерах. С п= 1 и kn=:]/rn = 1 оценка становится Ясно, что это плохая оценка для р(х), поскольку ее интеграл рас- расходится. Как показано на рис. 4.3, оценка становится значительно лучше по мере увеличения п несмотря на то, что интеграл оценки всегда остается бесконечным. Этот неприятный факт компенсиру- компенсируется тем, что р„ (х) никогда не сведется к нулю просто потому, что в некоторую произвольную ячейку или окно не попадают никакие выборки. Хотя эта компенсация может показаться скудной, в про- пространствах более высокой размерности она приобретает большую ценность. Как и в методе парзеновского окнэ, мы можем получить семей- семейство оценок, принимая kn—k^n и выбирая различные значения для &ь Однако при отсутствии какой-либо дополнительной инфор- информации любой выбор одинаково хорош, и мы можем быть уверены лишь в том, что результаты будут асимптотически правильными. 4.5. ОЦЕНКА АПОСТЕРИОРНЫХ ВЕРОЯТНОСТЕЙ Рассмотренные в предыдущих разделах методы можно исполь- использовать для оценки апостериорных вероятностей P(w;|x) на основа- основании п помеченных выборок, пользуясь выборками для оценки соот- соответствующих плотностей распределения. Предположим, что мы
4.6. Правило ближайшего соседа 111 размещаем ячейку объема V вокруг х и захватываем k выборок, kt из которых оказываются помеченными о)г. Тогда очевидной оценкой совместной вероятности р(х, о)г) будет / \ kiln рп(х, щ)=-±-. Таким образом, приемлемой оценкой для Р(сог|х) будет Иначе говоря, оценка апостериорной вероятности того, что состоя- состояние природы есть Ю(, является просто долей выборок в ячейке, по- помеченных со,. Чтобы свести уровень ошибки к минимуму, мы выбираем класс, наиболее часто представляемый в ячейке. Если имеется достаточное количество выборок и если ячейка достаточно мала, то можно по- показать, что результаты будут в этом случае близки к наилучшим. Если дело доходит до выбора размера ячейки, то можно восполь- воспользоваться или методом парзеновского окна, или методом kn ближай- ближайших соседей. В первом случае Vn будет некоторой определенной функцией от п, а именно Vn=\lVn. Во втором случае VH будет рас- расширяться до тех пор, пока не вместит некоторое определенное чис- число выборок, а именно k=Vn. В любом случае по мере устремления п к бесконечности в бесконечно малую ячейку будет попадать беско- бесконечное число выборок. Тот факт, что объем ячейки может стать бе- бесконечно малым и все же будет содержать бесконечно большое число выборок, позволяет нам изучать неизвестные вероятности с опреде- определенной точностью и, таким образом, постепенно добиваться опти- оптимальных результатов. Довольно интересно, как мы увидим далее, что можно получать сравнимые результаты, основывая наше реше- решение только на метке единственного ближайшего соседа величины х. 4.6. ПРАВИЛО БЛИЖАЙШЕГО СОСЕДА 4.6.1. ОБЩИЕ ЗАМЕЧАНИЯ Пусть 3>n={xi, . . ., х„} будет множеством п помеченных выбо- выборок, и пусть х'„? %п будет выборкой, ближайшей к х. Тогда правило ближайшего соседа для классификации х заключается в том, что х присваивается метка, ассоциированная с \'п. Правило ближайшего соседа является почти оптимальной процедурой; его применение обычно приводит к уровню ошибки, превышающему минимально возможный байесовский. Как мы увидим, однако, при неограничен- неограниченном количестве выборок уровень ошибки никода не будет хуже бай- байесовского более чем в два раза.
112 Гл. 4. Непараметрические методы Прежде чем вдаваться в детали, давайте попытаемся эвристи- эвристически разобраться в том, почему правило ближайшего соседа дает такие хорошие результаты. Для начала отметим, что метка Q'n, ассоциированная с ближайшим соседом, является случайной вели- величиной, а вероятность того, что (Уп=(Ли есть просто апостериорная вероятность Р(сог|х^). Когда количество выборок очень велико, следует допустить, что х'п расположено достаточно близко к х, чтобы P(a>i\x'n )«P(tt>i|x). В этом случае можем рассматривать пра- правило ближайшего соседа как рандомизированное решающее правило, которое классифицирует х путем выбора класса со,- с вероятностью Р(сог|х). Поскольку это точная вероятность того, что природа на- находится в состоянии tOj, значит, правило ближайшего соседа эффек- эффективно согласует вероятности с реальностью. Если мы определяем сот(х) как )) B3) то байесовское решающее правило всегда выбирает слт. Когда ве- вероятность Р(ат\х) близка к единице, выбор с помощью правила ближайшего соседа почти всегда будет таким же, как и байесовский, это значит, что когда минимальная вероятность ошибки мала, то вероятность ошибки правила ближайшего соседа также мала. Когда Р(ыт\х) близка к XI с, так что все классы одинаково правдоподобны, то выборы, сделанные с помощью этих двух правил, редко бывают одинаковыми, но вероятность ошибки в обоих случаях составляет приблизительно 1—11с. Не исключая необходимости в более тща- тщательном анализе, эти замечания позволяют меньше удивляться хо- хорошим результатам правила ближайшего соседа. Наш анализ поведения правила ближайшего соседа будет направ- направлен на получение условной средней вероятности ошибки Р(е|х) при большом количестве выборок, где усреднение производится тез выборкам. Безусловная средняя вероятность ошибки будет найдена путем усреднения Р(е\х) по всем х: (e\x)p(x)dx. B4) Заметим, что решающее правило Байеса минимизирует Р(е) путем минимизации Р(е\х) для каждого х. Если Р* (е\х) является минимально возможным значением Р(е\х), а Р* — минимально возможным значением Р(е), то Р*(е|х) = 1-РК|х) B5) и P* = [p*(e\x)p{x)dx. B6)
4.6. Правило ближайшего соседа ПЗ 4.6.2. СХОДИМОСТЬ ПРИ ИСПОЛЬЗОВАНИИ МЕТОДА БЛИЖАЙШЕГО СОСЕДА Теперь мы хотим оценить среднюю вероятность ошибки для правила ближайшего соседа. В частности, если Рп(е) есть уровень ошибки с п выборками и если Р=ПтРп(е), B7) Я-»- 00 то мы хотим показать, что ( \ B.8) Начнем с замечания, что при использовании правила ближайшего соседа с конкретным множеством п выборок результирующий уро- уровень ошибки будет зависеть от случайных характеристик выборок. В частности, если для классификации х используются различные множества п выборок, то для ближайшего соседа вектора х будут получены различные векторы х'п. Так как решающее правило зависит от ближайшего соседа, мы имеем условную вероятность ошибки Рп (е\х, х'п ), которая зависит как от х, так и от х'п . Усредняя по х^, получаем Р„(е|х) = $ Р„(е|х, x'H)p(x'n\x)d*'n. B9) Обычно очень трудно получить точное выражение для условной плотности распределения р (х'п \х). Однако, поскольку х^ по опре- определению является ближайшим соседом х, мы ожидаем, что эта плот- плотность будет очень большой в непосредственной близости от х и очень малой во всех других случаях. Более того, мы ожидаем, что по мере устремления п к бесконечности р (х'„ \ х) будет стремиться к дельта-функции с центром в х, что делает оценку, задаваемую B9), тривиальной. Для того чтобы показать, что это действительно так, мы должны допустить, что плотность р для заданного х непрерывна и не равна нулю. При таких условиях вероятность попадания любой выборки в гиперсферу S с центром в х есть некое положительное число />s = \ p(x')dx'. x'eS Таким образом, вероятность попадания всех п независимо взя- взятых выборок за пределы этой гиперсферы будет A—Р$)п, стремя- стремящейся к нулю по мере устремления п к бесконечности. Итак, х'п сходится к х по вероятности и р (х'п | х) приближается к дельта^функ- ции, как и ожидалось. Вообще говоря, применяя методы теории ые-
114 Гл. 4. Непараметрические методы ры, можно получить более убедительные (и более строгие) доказа- доказательства сходимости х^ к х, но для наших целей достаточно получен- полученного результата. 4.6.3. УРОВЕНЬ ОШИБКИ ДЛЯ ПРАВИЛА БЛИЖАЙШЕГО СОСЕДА Обратимся теперь к вычислению условной вероятности ошибки Рп(е|х, х^). Чтобы избежать недоразумений, необходимо поставить задачу более тщательно, чем это делалось до сих пор. Когда мы гово- говорим, что у нас имеется п независимо сделанных помеченных выбо- выборок, то мы имеем в виду п пар случайных переменных (хь 9i), (x2, 02), . . ., (х„, 0„), где 0j может быть любым из с состояний природы ©!,... и>с. Мы полагаем, что эти пары получались путем выбора состояния природы (О] для 9* с вероятностью P(a>j), а затем путем выбора X; в соответствии с вероятностным законом р(х| Wj), причем каждая пара выбирается независимо. Положим теперь, что природа выбирает пару (х, 9) и что х'п, помеченное Q'n, есть ближайшая к х выборка. Поскольку состояние природы при выборе х^ не зависит от состояния при выборе х, то Р(в, 9;|х, х;) = Р(в|х)Р(в;|х;). C0) Теперь, если применяется решающее правило ближайшего со- соседа, мы совершаем ошибку всякий раз, когда 6=^=9^. Таким образом, условная вероятность ошибки Рп (е | х, х^) задается в виде с рп(е\х, х;) = 1—Д)Р(е = ю,, в;=а>,|х, х;) = = 1-21Р(и/|х)Р(Ш/|х;). C1) Чтобы получить Рп (ё), надо подставить это выражение в B9) вместо Рп(е\х), а затем усреднить результат пох. Вообще это очень трудно сделать, но, как мы уже замечали ранее, интегрирование в B9) становится тривиальным по мере устремления п к бесконечности, а р (х'п | х) к дельта-функции. Если Р (<мг-1 х) непрерывна в х, получаем lim Рй (е | х) = $ Г1 — 2 Р (со, | х) Р (ю,-1 Х;I б (х;—х) dx; = = l-J)P*(<o,|x). C2) Так что асимптотический уровень ошибки правила ближайшего соседа, если можно поменять местами интегрирование и переход
4.6. Правило ближайшего соседа 115 к пределу1), задается выражением = Iim \ Р„ (е | х) р (х) dx — C3) 4.6.4. ГРАНИЦЫ ОШИБКИ Хотя уравнение C3) дает точный результат, еще показательнее получить границы для Р, выраженные посредством байесовского уровня Р*. Очевидной нижней границей для Р является сам уро- уровень Р*. Кроме того, можно показать, что при любом Р* существует множество условных и априорных вероятностей, для которых эта граница достигается. Так что в этом смысле это точная нижняя гра- граница. Еще интереснее задача определения точной верхней границы. Следующее соображение позволяет надеяться на низкую верхнюю границу: если байесовский уровень небольшой, то P(at\x) близка к единице для некоторого i, скажем i=m. Таким образом, подынте- подынтегральное выражение в C3) будет приближенно 1—Ра (со Jx) « «2 A—Р((от\х)), и поскольку Р»(в|х) = 1-Р(аш|х), C4) то интегрирование по х может дать уровень, в два раза превышающий байесовский, но являющийся все еще низким. Чтобы получить точ- точную верхнюю границу, мы должны определить, насколько большим может стать уровень Р ошибки правила ближайшего соседа для за- заданного байесовского уровня Р*. Таким образом, выражение C3) вынуждает нас задаться вопросом, насколько малой может стать с для заданной Р((от\х). Записав SK|) KI)+ 2 Ы), t — 1 »Ф т. мы можем получить границу этой суммы, минимизируя второй член при следующих ограничениях: 1) РК|)>0 2J х) Читатели, знакомые с теорией меры, знают, что теорема мажорированной сходимости позволяет производить подобную замену. Если существуют области, где р(х) тождественна нулю, то уравнение C2) является недействительным для этих значений х. (Почему?) Такие области, однако, можно исключить из интег- интегрирования выражения C3).
116 Гл. 4. Непараметрические методы с Несколько поразмыслив, мы видим, что У Рг(со г|х) минимизиру- минимизируется, если все апостериорные вероятности, кроме m-й, равны, и второе ограничение дает Р(со,|х)= с-\ ' 1^т> C5) [l-P*(e\x), f = m. Таким образом, C6) Сразу же видим, что Р^.2Р*, поэтому можем подставить этот резуль- результат в C3) и просто опустить второй член выражения. Однако более точную границу можно получить на основании Var [р* (е | х)] = $ [Р* (е | х) — Р*]а р (х) dx =. = J Pv (е | х) р (х) dx—Р»а ^ О, так что причем равенство сохраняется тогда и только тогда, Когда диспер- дисперсия Р* {в\х) равна нулю. Пользуясь этим результатом и подставляя соотношение C6) в C3), получаем желаемые границы B8) Легко показать, что такая верхняя граница достигается в слу- случае так называемой нулевой информации, в котором плотности рас- распределения p(x|o);) тождественны, так что P(<m,|x)=P(u)j) и Р* (е|х) не зависит от х. Таким образом, границы, заданные B8), являются максимально близкими в том смысле, что для любой Р* существуют условные и априорные вероятности, дли которых эти границы До- Достигаются. На рис. 4.4 графически представлены эти границы. Байесовский уровень Р* может находиться в любом месте между О и (с—\Iс. Границы сходятся В этих двух крайних точках. Когда байесовский уровень мал, верхняя граница превышает его почти в два раза. В общем значение ошибки правила ближайшего соседа должно находиться в заштрихованной области. Поскольку Р всегда меньше или равна 2Р*, то, если имеется бе- бесконечный набор данных и используется сложное решающее пра-
4.7. Правило k влижййших соседей 117 вило, можно по крайней мере в два раза сократить уровень ошибки. В этом смысле по крайней мере половина классифицирующей ин- информации бесконечного набора дан- данных находится по соседству. Естественно задаться вопросом, насколько хорошо правило бли- ближайшего соседа в случае конечного числа выборок и как быстро ре- результат сходится к асимптотичес- асимптотическому значению. К сожалению, от- ответы для общего случая неблаго- неблагоприятны. Можно показать, что схо- сходимость может быть бесконечно медленной и уровень ошибки Рп (е) даже не должен монотонно убывать с ростом п. Так же, как это про- происходит с другими непараметрическими методами, трудно получить какие-либо еще результаты, кроме асимптотических, не делая даль- дальнейших допущений о вероятностных свойствах. с с-/ р* Рис. 4.4. Границы ошибки прави- правила ближайшего соседа. 4,7. ПРАВИЛО k БЛИЖАЙШИХ СОСЕДЕЙ Явным расширением правила ближайшего соседа является пра- правило k ближайших соседей. Как видно из названия, это правило клас- классифицирует х, присваивая ему метку* наиболее часто представляе- представляемую среди k ближайших выборок; другими словами, решение при- принимается после изучения меток k ближайших соседей. Мы не будем подробно анализировать это правило. Однако можно получить не- некоторые дополнительные представления об этих процедурах, рас- рассмотрев случай с двумя классами при нечетном числе k (чтобы из- избежать совпадений). Основным поводом к рассмотрению правила k ближайших со- сёдей послужило сделанное нами ранее наблюдение о согласовании вероятностей с реальностью. Сначала мы заметили, что если k фик- фиксировано и количеству выборок п позволить стремиться к бесконеч- бесконечности, то все к ближайших соседей сойдутся к х. Следовательно, Как и в случае с единственным ближайшим соседим, метками каждого из k ближайших соседей будут случайные величины, независимо при- принимающие значение юг с вероятностью Р(сог|х), i=l, 2. Если Р(ат\х) является самой большой апостериорной вероятностью, то решающее правило Байеса всегда выбирает а>т. Правило единст- единственного ближайшего соседа выбирает ют с вероятностью Р(ат\х). Правило k ближайших соседей выбирает ыт, если большинство из
118 Гл. 4. Непараметрические методы k ближайших соседей имеют метку а>т, с вероятностью В общем чем больше значение k, тем больше вероятность, что будет выбрана а>т. Мы могли бы проанализировать правило k ближайших соседей так же, как мы анализировали правило единственного ближайшего Рис. 4.5. Границы уровня ошибки правила к ближайших соседей. соседа. Однако ввиду того, что здесь потребуются более сложные рассуждения, которые мало что проясняют, мы удовлетворимся только констатацией результатов. Можно показать, что при нечет- нечетном k величина ошибки в случае с двумя классами и большим количе- количеством выборок для правила k ближайших соседей ограничивается сверху функцией Ск (/>*), где Ск по определению есть наименьшая вогнутая функция от Р*, большая, чем (ft-D/2 2 -D/2 /JL4 2 (f Теперь совершенно ясно, что очень мало можно увидеть, глядя на приведенную функцию, разве что только можно отметить ее род-
4.8. Аппроксимации путем разложения в ряд 119 ство с биномиальным распределением. К счастью, можно легко вы- вычислить Ск(Р*) и изучить результаты. На рис. 4.5 показаны грани- границы уровней ошибок правила k ближайших соседей для нескольких значений k. Случай с k=l соответствует случаю с двумя классами из рис. 4.4. С возрастанием k верхние границы все более приближа- приближаются к нижней границе, уровню Байеса. В пределе, когда k стре- стремится к бесконечности, две границы встречаются и правило k бли- ближайших соседей становится оптимальным. Рискуя произвести впечатление, что мы повторяемся, закончим снова упоминанием о ситуации с конечным числом выборок, встре- встречаемой на практике. Правило k ближайших соседей можно рассма- рассматривать как еще одну попытку оценить апостериорные вероятности Р(<М(|х) на основании выборок. Чтобы получить надежную оценку, нам желательно использовать большое значение k. С другой сторо- стороны, мы хотим, чтобы все k ближайших соседей х' были очень близки к х с тем, чтобы быть уверенными, что Р (со г |х') приблизительно такая же, как P((x>i\x). Это заставляет нас выбрать среднее значение k, являющееся небольшой частью всего количества выборок. Только в пределе при устремлении k к бесконечности можем мы быть уве- уверены в почти оптимальном поведении правила k ближайших соседей. 4.8. АППРОКСИМАЦИИ ПУТЕМ РАЗЛОЖЕНИЯ В РЯД Все описанные до сих пор непараметрические методы имеют тот недостаток, что требуют хранения в памяти всех выборок. А так как для получения хороших оценок необходимо большое количество выборок, потребность в памяти может быть слишком велика. Кроме того, может потребоваться значительное время вычисле- вычисления каждый раз, когда один из этих методов используется для оценки величины р(х) или классификации нового х. При опреде- определенных обстоятельствах процедуру окна Парзена можно несколь- несколько видоизменить, чтобы значительно сократить эти требования. Основная идея заключается в аппроксимации функции окна пу- путем разложения ее в конечный ряд, что делается с приемлемой точностью в представляющей интерес области. Если нам сопутствует удача и мы можем найти два множества функций %(х) и %j(x), ко- которые допускают разложение -У\а^(х)%/(х{), C7) \ "Я / *¦" 1 = 1 тогда 1=1
120 Гл. 4. Непараметрические методы и из уравнения (8) имеем т. N1 где я J—г яУ ^^rf A/\ //• \оэ^ " i = l Этот подход имеет некоторые очевидные преимущества в том сл> - чае, когда можно получить достаточно точное разложение с приемле- приемлемым значением т. Информация, содержащаяся в п выборках, сво- сводится к т коэффициентам bj. Если получают дополнительные вы- выборки, соотношение C9) для Ь) можно легко обновить, причем коли- количество коэффициентов остается неизменным1). Если функции tyj и %j являются полиномами от компонент х и хь то выражение для оценки рп (х) есть также полином, который можно довольно эффективно вычислить. Более того, использование этой оценки для получения разделяющих функций р(х|<о,) Р(<ог) при- приводит к простому способу получения полиномиальных разделяющих функций. Тут все же следует отметить одну из проблем, возникающую при применении этого способа. Основным достоинством функции окна является ее тенденция к возрастанию в начале координат и сниже- снижению в других точках. Так что ф ((x—Xi)fhn) будет иметь резкий мак- максимум при x^Xj и мало влиять на аппроксимацию рп(х) для х, удаленного от хг. К сожалению, полиномы обладают досадным свой- свойством, заключающимся в том, что они могут содержать неограничен- неограниченное количество членов. Поэтому при разложении полинома могут обнаружиться члены, ассоциируемые с xh удаленным от х, но силь- сильно, а не слабо влияющим на разложение. Следовательно, важно убедиться, что разложение каждой функции окна действительно точное в представляющей интерее области, а для этого может по- потребоваться большое число членов. Существует много видов разложения в ряд. Читатели, знакомые с интегральными урашениями, вполне естественно интерпретируют соотношение C7) как разложение ядра ф (х, хг) в ряды по собствен- собственным функциям. Вместо вычисления собственных функций МОЖНО выбрать любое приемлемое множество функций, ортогональных в интересующей нас области, и получить согласие по методу наимень- наименьших квадратов с функцией окна. Мы применим еще более непосред- непосредственный подход и разложим функцию окна в ряд Тейлора. Для про- 1) Следует, однако, заметить, что если Ьт уменьшается при добавлении новых выборок, то ф будет болыце приближаться к выбросу и в действительности для получения точной аппроксимации мажет потребоваться больше членов урав- уравнения-
^ 4.8. Аппроксимации путем разложения в ряд 121 стоты ограничимся одномерным случаем с гауссовской функцией ок- окна: т- 1 /=о '' Самым точным это разложение будет в окрестности и=0, где ошибка будет составлять менее и2т/т\. Если мы подставим и- то получим полином степени 2 (т—1) от х и xt. Например, если т=2, то ^" l r hi ЛЛ1 hi л hi л< > и, таким образом; (=1 где t=i n i = l 1 Это простое разложение «сжимает» информацию из п выборок в три коэффициента Ьо, ^и Ь2. Оно будет точным, если наибольшее значение \х—xt\ не превышает h. К сожалению, это заставляет нас пользоваться очень широким окном, которое не дает большого раз- разрешения. Беря большое количество членов, мы можем использовать более узкое окно. Если мы считаем г наибольшим значением \х—xt\, то, пользуясь тем фактом, что ошибка в m-членном разложении функ- функции ^я~ф1(*—xi)/h] меньше, чем (r/hJmm\, и пользуясь аппрок- аппроксимацией Стерлинга для т\, найдем, что ошибка в аппроксимаций рп(х) будет меньше, чем VTh
122 i'a. 4. Непараметрические методы Таким образом, ошибка мала только тогда, когда trC>e(r/h)*. Это говорит о том, что требуется много членов, если ширина окна h невелика по сравнению с расстоянием г от х до наиболее удален- удаленной выборки. Несмотря на то что этот пример элементарен, анало- аналогичные рассуждения действительны и для многомерного случая, даже при использовании более сложных разложений; процедура вы- выглядит более привлекательной, когда ширина окна относительно велика. 4.9. АППРОКСИМАЦИЯ ДЛЯ БИНАРНОГО СЛУЧАЯ 4.9.1. РАЗЛОЖЕНИЕ РАДЕМАХЕРА — УОЛША Когда составляющие вектора х дискретны, задача оценки плот- плотности распределения становится задачей оценки вероятности Р(\~ —vk). По идее задача эта еще проще, нужно только считать, сколько раз наблюдается х, чтобы получить значение vft, и воспользоваться законом больших чисел. Однако рассмотрим случай, когда d сос- составляющих вектора х бинарны {имеют значения 0 или 1). Поскольку имеется 2d возможных векторов vk, мы должны оценить 2d вероят- вероятностей, что представляет собой огромную задачу при больших зна- значениях d, часто возникающих в работе по распознаванию образов. Если составляющие вектора х статистически независимы, зада- задача намного упрощается. В этом случае можем написать Р(х) = ДЯ W = IIp*'(l-P/I'% D0) Pi = P(xt=\), D1) l-p, = Pto = 0). D2) Таким образом, в этом частном случае оценка для Р (х) сводится к оценке d вероятностей рг. Более того, если мы возьмем логарифм Р(х), то увидим, что он является линейной функцией от х, что уп- упрощает как запоминание данных, так и вычисление: d 2 D3) где. D4) S Естественно поинтересоваться, существуют ли какие-либо ком- компромиссные решения между полной строгостью, для достижения которой требуется оценка 2* вероятностей, и вынужденным приня-
4.9. Аппроксимация для бинарного случая 123 тием статистической независимости, что сведет всю проблему к оцен- оценке только d вероятностей. Разложение для Р(х) и аппроксимация Р(х) частичной суммой дают один ответ. Когда имеются бинарные переменные, естественно использовать полиномы Радемахера — Уолша в качестве базисных функций. Такое множество 2d полино- полиномов можно получить путем систематического образования произве- произведений различных сомножителей 2xt—1, которые получаются сле- следующим образом: ни одного сомножителя, один сомножитель, два и т. д. Таким образом, имеем I, /=0, Ф,- (х) = 2хл-\, = d, x —l)Bx, —1), D5) + d(d—\)/2, 1B^-1)... B*,-1), i = 2<*-l. Нетрудно заметить, что эти полиномы удовлетворяют отношению ортогональности 2ф,(х)Ф,.(х)=| 2*' l~J: D6) где суммирование проводится по 2а возможным значениям х. Итак, любую функцию Р(х), определенную на единичном d-кубе, можно разложить как d Р(х)= где Рассматривая Р (х) как вероятностную функцию видим, что D7) D8) ) D9)
124 Гл. 4. Непараметрические методы Поскольку функции Радемахера — Уолша <р,- (х) — полиномы, видим, что коэффициенту Q,i являются в сущности моментами. Так что, если Р(х) неизвестна, но имеется п выборок хь . . ., хп, коэффи- коэффициенты аг можно оценить, вычисляя моменты выборок &t: Ч^А <50> В пределе с устремлением п к бесконечности эта оценка по за- закону больших чисел должна сойтись (по вероятности) к истинному значению щ. Теперь выражение D7) дает нам точное разложение для Р(х), и в этом случае оно не упрощает наши вычисления. Вместо оценки 2Л совместных вероятностей мы должны оценить 2d моментов — ко- коэффициентов аг. Можно, однако, аппроксимировать Р(х), усекая разложение и вычисляя только моменты низкого порядка. Аппрок- Аппроксимация первого порядка, полученная с помощью первых \-\-d членов, будет линейной относительно х. Аппроксимация второго порядка, содержащая первые l+d+d(d—1)/2 членов, будет квад- квадратичной относительно х1). В целом выражение D7) показывает, что для аппроксимации полиномами Радемахера —• Уолша степени k требуется оценка моментов порядка k и ниже. Эти моменты можно оценить, исходя из данных, или вычислить непосредственно из Р (х). В последнем случае тот факт, что можно суммировать сначала по переменным, не включенным в полином, говорит о том, что нужно знать только вероятности каждой переменной порядка k. Например, разложение первого порядка определяется вероятностями pt~ =/>(*,=1): где _B-«, / = 0, а'~\ 2-*Bл-1), f = l d. Естественно поинтересоваться, насколько хорошо такое усечен- усеченное разложение аппроксимирует действительную вероятность Р(х). В общем, если мы аппроксимируем Р (х) с помощью рядов, включаю- включающих подмножество полиномов Радемахера — Уолша, P(x)=2*W,-(x), HI г) Поскольку компоненты вектора х бинарные, такие произведения, как XjX/, особенно легко вычислять; на ЭВМ их можно реализовать аппаратно с помощью схем совпадений.
4.9. Аппроксимация для бинарного случая 125 то можно использовать отношения ортогональности, чтобы показать, что сумма квадратичной ошибки 2 (Я(х) — Р(х)J минимизируется выбором bi=at. Таким образом, усеченное разложение является оптимальным в смысле среднеквадратичной ошибки. Кроме того, коль скоро в аппроксимацию входит постоянный полином ф0, можно легко показать, что 1,Р(х) = 1, что и требуется. Однако ничто не может предотвратить превращение Р(х) в отрицательную величину для некоторого х. Действительно, если ф0 не входит в полином, то 2Р (х)—О и по крайней мере одна из вероятностей должна быть отри- отрицательной. Этого досадного результата можно избежать путем раз- разложения log Р (х), а не Р (х), хотя в этом случае мы уже не сможем больше быть уверены в том, что суммирование полученной аппрок- аппроксимации для Р(х) даст единицу. 4.9.2. РАЗЛОЖЕНИЕ БАХАДУРА — ЛАЗАРСФЕЛЬДА Другое интересное разложение получают введением нормиро- нормированных величин считая, конечно, что pt не является ни нулем, ни единицей. Эти нор- нормированные переменные имеют нулевое среднее и дисперсию, рав- равную единице. Множество полиномов, похожих на полиномы Раде- махера — Уолша, можно получить, систематически образуя раз- различные произведения сомножителей yt в следующем порядке: ни одного сомножителя, один сомножитель, два и т. д. Так что имеем 1, У и У л* УхУн У1У2У9, 1=0, i=d, E2)
126 Гл. 4. Непараметрические методы Эти полиномы не ортогональны сами по себе, но они ортогональ- ортогональны, если ввести весовую функцию т. е. 1, /=/, О, 1Ф\. E3) E4) Это следует из того, что Рг(х) является распределением для слу- случая с независимыми переменными и что в этом случае моменты ?[г|)г(х)%(хI являются или нулем, или единицей. Следовательно, любую функцию, определенную на единичном d-кубе, можно разло- разложить как где В частности, функцию Р (x)/Pi (x) можно представить в виде 2d-l где E5) E6) Вспомнив, что % (х) есть произведение нормированных перемен- переменных yi = (xi—pi)l]fpl(\—р^, видим, что аг—это коэффициенты корреляции. Очевидно, что а„=1 и ах=. . .ad=0. Если определить E7) то можно представить соотношение E5) как Р (х) = Л (х) Г1 + 2 Р/уМу + 2 Р1 L '</ i<j<k E8)
4.9. Аппроксимация для бинарного случая 127 Оно известно как разложение Бахадура — Лазарсфельда Р(х). В нем содержится 2d—1 коэффициентов, d вероятностей pt первого порядка, ( 2 J коэффициентов корреляции р^-второго порядка, ( 3 J коэффициентов корреляции pi)k третьего порядка и т. д. Естествен- Естественный способ аппроксимировать Р (х) — это игнорировать все корре- корреляции свыше определенного порядка. Таким образом, PiW = II^'(i-P/I"' есть аппроксимация первого порядка Р(х), есть аппроксимация второго порядка и т. д. Если коэффициенты корреляции высокого порядка невелики и мы используем аппрок- аппроксимацию log A+х)«х, то видим, что log Px(x) линейный относитель- относительно х, logP2(x) добавляет квадратичный член корреляции и т. д. Таким образом, логарифм разложения Бахадура — Лазарсфельда дает интересную последовательность аппроксимаций. Первая ап- аппроксимация эквивалентна допущению независимости, и она ли- линейна относительно х. Вторая отвечает корреляции второго порядка и квадратична относительно х. Каждая последующая аппроксимация отвечает корреляциям более высокого порядка, но, конечно, тре- требует вычисления большего количества членов. 4.9.3. РАЗЛОЖЕНИЕ ЧОУ Другой интересный класс аппроксимаций совместного распре- распределения вероятностей Р(х) основан на тождестве Р(х) = Р(х1 xd)=P(x1)P(x2\x1)P(x3\x2, Xl)... ...P{xd\xd_, Xl). E9) Если переменные статистически независимы, оно сводится к произ- произведению отдельных вероятностей P{xt). Предположим, что пере- переменные не являются независимыми, но что Р(х,-|х,-_1, . . ., xj за- зависит только от непосредственно предшествующей переменной JCj-i. Тогда имеем марковскую цепь первого порядка и Р (X) = Р (Хг) Р (х, | Xl) Р (X, | X.) . . . Р (Xd | Xd_x). F0) Мы увидим, что каждый сомножитель Р (xt \xi-i) можно определить с помощью двух коэффициентов; значит, Р(х) можно определить с помощью Ы—1 коэффициентов, что будет менее сложно, чем если бы мы допустили все I „ J корреляций второго порядка. Аналогич- Аналогичные марковские аппроксимации более высокого порядка можно по-
138 Гл. 4. Нетраметрическт методы лучить, если допустить, что xt зависит только от k непосредственно предшествующих переменных. Допущение, что заданная переменная xt зависит только от оп- определенных предшествующих переменных, приемлемо, если мы име- имеем Дело с временным процессом; для более общих случаев это допу- допущение выглядит довольно нелепо. Тем не менее есть основание пола- полагать, что заданная переменная xt может в основном зависеть только от нескольких других переменных. Предположим, ч-jo мы можем занумеровать переменные так, что P(xi\xi.1 xt) целиком за- зависит от некоторой предшествующей переменной xj(i). Например, допустим, что Р(*41*3. *2> *i)-=/>(*J*!!) и P(x3\xt, х1) = Р(х3\х1). Тогда из E9) следует, что Р(хи xit xa, xt) можно записать как Р (xi) Р (х^Хг) Р(х^Хх) Р (х4\хг). Вообще мы получаем разложение в виде произведения Р (X) = Р (Xl) Р (X, | Xj w) ...P(xa\X, (Л). F1) Подставляя 0 или 1 вместо xt и xj{i), читатель может проверить, что Р (х, | х, A)) = [рх/ A - р,I-']*'" [Я A - я,I'*]1"! «), F2) где р,=Р(х,= 1|хл„=1) F3) О). F4) Полагая q1—P(x1=l), подставляя F2) в соотношение F1), беря логарифм и собирая члены, получаем разложение Чоу d d i Xj « logfef' + 2 **/ «n log Jfc§ . F5) Аналогичные результаты легко можно получить для зависимости более высокого порядка. Следует сделать несколько замечаний относительно этих резуль- результатов. Во-первых, если переменные действительно независимы, мы замечаем, что pi~qi и последние две суммы в разложении исчезают, оставляя уже знакомые разложения для случая с независимыми переменными. Когда зависимость имеется, мы получаем дополни- дополнительные линейные и квадратичные члены. Конечно, линейные члены можно объединить так, чтобы в разложении содержались константа, d линейных членов и d— 1 квадратичных членов.
4.10. Линейный дискриминант Фишера 129 Сравнивая это разложение с разложением второго порядка Радемахера — Уолша или Бахадура — Лазерсфельда, для каждого из которых требуется d(d—1)/2 квадратичных членов, видим, что преимущества данного разложения могут быть значительными. Конечно, эти преимущества можно реализовать только в том слу- случае, если мы знаем дерево зависимости — функцию / (i), которая показывает ограниченную зависимость одной переменной от преды- предыдущих переменных. Если дерево зависимости нельзя вывести из физической значимости переменных, то может возникнуть необхо- необходимость в вычислении всех коэффициентов корреляции просто для того, чтобы найти значимые. Однако следует заметить, что даже в этом случае может быть предпочтительнее использовать разложение Чоу, так как получаемые при этом приближенные вероятности будут всегда неотрицательными и их сумма будет равна единице. 4.10. ЛИНЕЙНЫЙ ДИСКРИМИНАНТ ФИШЕРА Одной из непреходящих проблем, с которой сталкиваются при применении статистических методов для распознавания образов, является то, что Беллманом было названо проклятием размерности. Процедуры, выполнимые аналитически или непосредственным вы- вычислением в пространствах небольшой размерности, могут стать совершенно неприменимыми в пространстве с 50 или 100 измерения- измерениями. Были разработаны различные методы уменьшения размерности пространства признаков в надежде получить задачу, поддающуюся решению. Можно уменьшить размерность с d измерений до одного, просто проецируя d-мерные данные на прямую. Конечно, особенно если выборки образуют хорошо разделенные компактные группы в d- пространстве, проекция на произвольную прямую обычно смешивает выборки из всех классов. Однако, вращая эту прямую, мы можем найти такую ориентацию, для которой спроецированные выборки будут хорошо разделены. Именно это является целью классического дискриминантного анализа. Предположим, что мы имеем множество п d-мерных выборок хь . . . , х„, tix в подмножестве 3?и помеченном ©i, и п2 в подмно- подмножестве 5Сг, помеченном со2. Если мы образуем линейную комбина- комбинацию компонент вектора х, получим скалярную величину t/=w'x F6) и соответствующее множество п выборок ух, . . . , уп, разделенное на подмножества й/i и &2. Геометрически, если ||w||=l, каждая компонента ух есть проекция соответствующего щ на прямую в на- направлении w. В действительности величина w не имеет реального значения, поскольку она просто определяет масштаб у. Однако направление w имеет значение. Если мы вообразим, что выборки,
130 Гл. 4. Непараметрические методы помеченные coi, попадают более или менее в одну группу, а выборки, помеченные <аа, попадают в другую, то мы хотим, чтобы проекции на прямой были хорошо разделены и не очень перемешаны. На рис. 4.6 показан выбор двух различных значений w для двумерного случая. Мерой разделения спроецированных точек служит разность сред- средних значений выборки. Если тг есть среднее значение d-мерной вы- 'W ее, Рис. 4.6. Проекция выборок на прямую. борки, заданное как F7) то среднее значение выборки для спроецированных точек задается посредством 2 2 w*x = w*mf. F8) Отсюда следует, что \шг—mj^lw^mx—ma)| и что мы можем сделать эту разность сколь угодно большой, просто масштабируя w. Конечно, чтобы получить хорошее разделение спроецированных данных, мы хотим, чтобы разность между средними значениями была велика относительно некоторого показателя стандартных отклоне- отклонений для каждого класса. Вместо получения дисперсий выборок оп- определим разброс для спроецированных выборок, помеченных со*, посредством «?= 2 iy-mt)*. F9) J/еЗ//
4.10. Линейный дискриминант Фишера 131 Таким образом, (l/tt)(ij+s|) является оценкой дисперсии сово- совокупности данных, a sl+sl называется полным разбросом внутри класса спроецированных выборок. Линейный дискриминант Фишера тогда определяется как такая линейная разделяющая функция х) w'x, для которой функция критерия %^]! G0) s! + s| максимальна. Чтобы получить J как явную функцию от w, определим матрицы разброса St и Sw посредством i— Zi (х— Щ) (х—Щ) \'Ч И G2) Тогда s*= 2 (w'x—wfm,)z = = 2 w'(x-m,)(x-m,.)'w = G3) так что S I с* - - и/' v и/ it Л \ Аналогично — woBw, ^/oj где Матрица Sfl/ называется матрицей разброса внутри класса. Она пропорциональна- ковариационной выборочной матрице для совокупности d-мерных данных. Она будет симметричной, положи- положительно полуопределенной и, как правило, невырожденной, если ri>d. SB называется матрицей разброса между классами. Она также -1) Следует отметить, что теперь мы употребляем термин «разделяющая функ- функция» для обозначения любой функции от х, которая помогает в решении задачи принятия решения; мы не настаиваем на том, чтобы результирующая разделяющая функция использовалась непосредственно для определения классификатора. Так как j/=w'x есть сумма случайных величин, общепринято ссылаться на цент- центральную предельную теорему и допускать, что р{у\а>;) является нормальной плот- плотностью, упрощая этим задачу получения классификатора. Когда это допущение не оправдывается, можно позволить себе использовать довольно сложные методы оценки p(y\u>i) и выведения «оптимального» классификатора.
132 Гл. 4. Непараметрические методы симметричная и положительно полуопределенная, но из-за того, что она является внешним произведением двух векторов, ее ранг будет самое большее единица. В частности, для любого w направление SBvf совпадает с направлением п^—tn2 и SB— вполне вырожденная матрица. При помощи SB и Sw функцию критерия J можно представить в виде ^L G7) Это выражение хорошо известно в математической физике как обобщенное частное Релея. Легко показать, что вектор w, который максимизирует У, должен удовлетворять соотношению SBw = kSww, G8) что является обобщенной задачей определения собственного значе- значения. Если Sw является невырожденной, мы можем получить обыч- обычную задачу определения собственного значения, написав StfSBv/ = Xw. G9) В нашем частном случае не нужно находить собственные значе- значения и собственные векторы S~$SB из-за того, что направление SB w всегда совпадает с направлением mi—m2. Поскольку масштабный множитель для w несуществен, мы можем сразу написать решение w = 5^1(m1-m2). (80) Таким образом, мы получили линейный дискриминант Фишера — линейную функцию с максимальным отношением разброса между классами к разбросу внутри класса. Задача была преобразована из d-мерной в более приемлемую одномерную. Это отображение п- мерного множества на одномерное, и теоретически оно не может уменьшить минимально достижимый уровень ошибки. В общем мы охотно жертвуем некоторыми теоретически достижимыми результа- результатами ради преимущества работы в одномерном пространстве. Когда же условные плотности распределения р(х|(о,) являются многомер- многомерными нормальными с равными ковариационными матрицами 2, то даже не нужно ничем жертвовать. В этом случае мы вспоминаем, что граница оптимальных решений удовлетворяет уравнению где w = 2-4*1!-(*.) и Wo есть константа, включающая в себя w и априорные вероятности. Если мы используем средние значения и ковариационную матрицу выборок для оценки nt и 2, то получаем вектор в том же направле- направлении, что и w, удовлетворяющий (80), который максимизирует J.
4.11. Множественный дискриминантный анализ 133 Таким образом, для нормального случая с равными ковариациями оптимальным решающим правилом будет просто решение (оь если линейный дискриминант Фишера превышает некоторое пороговое значение, и решение со2 — в противном случае. 4.11. МНОЖЕСТВЕННЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ Для задачи с с классами естественное обобщение линейного дискриминанта Фишера включает с—1 разделяющих функций. Таким образом, проекция будет из d-мерного пространства на (с—1)-мерное пространство, причем принимается, что d^c. Обоб- Обобщение для матрицы разброса внутри класса очевидное: S* = J}S,, (81) где, как и прежде, ,= 2 (х-т,)(х-т,.)< (82) J Е *• (83) Соответствующее обобщение для SB не так очевидно. Предполо- Предположим, что мы определяем полный вектор средних значений т и полную матрицу разброса ST посредством с m = -^Ex = 4'E'l'm«- (84) X (=1 И Sr = 2(x—m)(x—m)'. (85) Отсюда следует, что с (х—П1/-Г-П1,-—т) (х—т, + т, — т)*= (х-т,)(х-т,)Ч2 2 (т,-т)К—т)' = i1J (г 2 Щ (Щ — т) (т,—т)*. Естественно определять этот второй член как матрицу разброса между классами, так что полный разброс есть сумма разброса внут-
134 Гл. 4. Непараметрические методы ри класса и разброса между классами: с SB = 2 tii (m, - m) (m, - m)* (86) =1 (87) В случае с двумя классами мы обнаружим, что полученная в ре- результате матрица разброса между классами будет в nxnjn раз боль- больше нашего предыдущего определения. Мы могли бы переопределить SB для случая с двумя классами, чтобы добиться полного согласо- согласования, но вспомнив замечание Эмерсона о том, что бессмысленное согласование — идол недалеких умов, пойдем дальше. Проекция из d-мерного пространства в (с—1)-мерное пространст- пространство осуществляется с помощью с—1 разделяющих функций yi^Vflx, 1 = 1, .... с—1. (88) Если считать yt составляющими вектора у, а векторы весовых функций W; столбцами матрицы W размера dx (с—1), то проекцию можно записать в виде одного матричного уравнения y*=W*x. (89) Выборки Xi, . . . , х„ проецируются на соответствующее множе- множество выборок уь . . . , у„, которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы опре- определяем у 6 3ft (91) Щ)* (92) SB = S Щ (m; - m) (m,-—m)\ (93) то можно непосредственно получить ~SW = W*SWW (94) Sb^W^bW. (95) Эти уравнения показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в простран- пространство меньшей размерности. Мы ищем матрицу отображения W,
4.11. Множественный дискриминантный анализ 135 которая в некотором смысле максимизирует отношение разброса между классами к разбросу внутри класса. Простым скалярным показателем разброса является определитель матрицы разброса. Определитель есть произведение собственных значений, а следова- следовательно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса. Пользуясь этим пока- показателем, получим функцию критерия **\(9б) Задача нахождения прямоугольной матрицы W, которая мак- максимизирует «/, не из легких. К счастью, оказывается, что ее решение имеет относительно простой вид 1). Столбцы оптимальной матрицы W являются обобщенными собственными векторами, соответству- соответствующими наибольшим собственным значениям в Saw, = X,Sww,. (97) Следует сделать несколько замечаний относительно этого реше- решения. Во-первых, если Sw — невырожденная матрица, то задачу, как и прежде, можно свести к обычной задаче определения собст- собственного значения. Однако в действительности это нежелательно, так как при этом потребуется ненужное вычисление матрицы, обратной Sw. Вместо этого можно найти собственные значения как корни характеристического полинома \SB-X{SW\=O, а затем решить непосредственно для собственных векторов w*. Поскольку SB яв- является суммой с матриц ранга единица или менее и поскольку только с—1 из них независимые матрицы, SB имеет ранг с—1 или меньше. Так что не более с—1 собственных значений не нули и искомые век- векторы весовых функций соответствуют этим ненулевым собственным значениям. Если разброс внутри класса изотропный, собственные векторы будут просто собственными векторами матрицы SB, а соб- собственные векторы с ненулевыми собственными значениями стягива- стягивают пространство, натянутое на векторы mt—m. В этом частном слу- случае столбцы матрицы W можно найти, просто применяя процедуру ортонормирования Грама — Шмидта к с—1 векторам mt. Наконец, заметим, что, вообще говоря, решение для W не является однознач- однозначным. Допустимые преобразования включают вращение и масштаби- масштабирование осей различными путями. Это все линейные преобразования из (с—1)-мерного пространства в (с—1)-мерное пространство, и они *) Вывод решения можно найти в книге S. Wilks, Mathematical Statistics, pp. 577—578 (John Wiley, New York, 1962). [Русский перевод: Уилкс С, Мате- Математическая статистика, «Наука», М., 1967.]
136 Гл. 4. Непараметрические методы не меняют значительно положения вещей. В частности, они остав- оставляют функцию критерия J(W) инвариантной. Как и в случае с двумя классами, множественный дискриминант- ный анализ в первую очередь позволяет сократить размерность за- задачи. Параметрические или непараметрические методы, которые могут не сработать в первоначальном (многомерном) пространстве, могут хорошо действовать в пространстве меньшей размерности. В частности, можно будет оценить отдельные ковариационные мат- матрицы для каждого класса и использовать допущение об общем многомерном нормальном распределении после преобразования, что было невозможно сделать с первоначальными данными. Вообще преобразование влечет за собой некоторое ненужное перемешивание данных и повышает теоретически достижимый уровень ошибки, а проблема классификации данных все еще ортается. Существуют другие пути уменьшения размерности данных, и мы вернемся к этой теме в гл. 6. Существуют также другие методы дискриминантного анализа; некоторые из них упоминаются в литературе к этой главе. Одним из самых фундаментальных и наиболее широко используе- используемых методов все же остается метод Фишера. 4.12. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ В данной главе мы рассмотрели некоторые фундаментальные непараметрические методы, которые играют значительную роль в статистической классификации образов. Неупомянутыми оста- остались многие другие вопросы непараметрической статистики, и за- заинтересованный в этих вопросах читатель может обратиться к ра- работам Гиббонса A971) или Томаса A970) за введением в литературу по этим вопросам. Классической традицией в статистике является вывод оценок плотности распределения вероятностей из эмпири- эмпирических функций распределения (Фиш, 1963), но для многомерного случая это довольно громоздкий метод. В часто упоминаемом, но довольно труднодоступном отчете Фикса и Ходжеса A951) разра- разработаны методы применения оценки плотности распределения в тео- теории классификации. Эта работа явилась отправной для большинства дальнейших исследований в области оценки плотности распределе- распределения. Наше изложение метода окна Парзена является некоторым обобщением одномерной формулировки Розенблатта A956). В дей- действительности работа Розенблатта предшествовала работе Парзена A962), но Парзен еще раньше использовал аналогичные методы для оценки спектров, и термин «окно Парзена» является хорошо установившимся. Кроме того, что Парзен продемонстрировал точеч- точечную сходимость, он показал, что оценка плотности является асимп- асимптотически нормальной, и определил условия, при которых резуль- результирующая мода выборки сходится к истинной моде. Связь между
4.12. Библиографические и исторические сведения 137 оценкой плотностей и оценкой спектров говорит о том, что, работая с характеристическими функциями, можно получить интересные результаты в частотной области. Ватсон и Лидбеттер A963), поль- пользуясь этим методом, показали, как можно было бы оптимизировать функции окна в случае с конечным числом выборок, если бы можно было наложить ограничения на спектр неизвестных плотностей. Несомненно, этот метод можно было бы использовать для переноса многих результатов теории фильтрации в решение проблемы оценки плотностей. За исключением работ Фикса и Ходжеса, все эти ре- результаты приводились для одномерного случая. Основные обобще- обобщения для многомерного случая были сделаны Мёрти A965, 1966) и Какоулосом A966). Строгое доказательство того, что метод kn ближайших соседей дает состоятельную оценку многомерной плотности, приведено Лофтс - гарденом и Квешенберри A965). Удивительные результаты клас- классификации методом 'ближайшего соседа получены в работе Ковера и Харта A967), авторы которой установили также границы дей- действия правила k ближайших соседей. Вагнер A971) расширил эти результаты, показав, что вероятность условной ошибки при п вы- выборках сходится с вероятностью единица к среднему значению ве- вероятности ошибки Ру(е). Хелман A970) показал, как можно допол- дополнить правило ближайшего соседа, чтобы оно позволяло включить в рассмотрение отказы от принятия решений. Важные вопросы ско- скорости сходимости рассматривались Ковером A968). Поскольку уро- уровень ошибки правила ближайшего соседа ограничивает уровень Байеса, его можно использовать для измерения трудности, прису- присущей задаче классификации образов. Ковер A969) высказывает пред- предположение, что даже в случае с небольшим числом выборок резуль- результаты будут свидетельствовать о том, насколько хорошо будет ра- работать любая непараметрическая процедура, использующая те же самые выборки. Фрелик и Скотт A971) проводят экспериментальное сравнение использования правил окна Парзена и ближайшего со- соседа для оценки уровня ошибки Байеса. У всех этих методов есть один общий недостаток — для них следует хранить полное множество выборок, поиск по которому производится каждый раз, когда нужно классифицировать новый вектор признаков. Предлагался ряд методов уменьшения числа вы- выборок, но только для немногих из них известны какие-либо стати- статистические свойства. Барус A966) предложил интересную аппрокси- аппроксимацию для процедуры Фикса и Ходжеса, а Харт A968) — сжатое правило ближайшего соседа. Задача нахождения эффективного небольшого опорного множества будет являться, по существу, задачей разбиения совокупности на группы. Более того, опреде- определенные процедуры разбиения совокупности на группы, такие, как предложенные Себестьяном A962) и Себестьяном и Эди A966), можно считать эвристическими методами аппроксимации плотно-
138 Гл. 4. Непараметрические методы стей распределения вероятностей. Тартер, Холкомб и Кронмел A967) предложили использовать для оценки плотности распределе- распределения вероятностей разложение в ортогональные ряды. Идея полу- получения полиномиальных разделяющих функций путем аппроксима- аппроксимации оценки окна Парзена g помощью рядов Тейлора была выска- высказана Спештом A967). Мейзел A969) указал, что для сходимости таких разложений может потребоваться много членов, и связал метод окна Парзена с методом потенциальных функций Аркадьева и Бравермана A966). Метод потенциальных функций соотнесен с адаптивными методами и методами стохастической аппроксима- аппроксимации, рассмотренными в гл. 5. Большинство из этих методов связано с получением апостериорных вероятностей. Однако Цыпкин A966) и Кашьяп и Блайдон A968) показали, что теоретически их также мож- можно использовать для оценки плотностей распределения. Необходимость в преимущественно бинарных измерениях во многих практических системах распознавания образов вынесла вопросы оценки совместной вероятности бинарных- переменных за рамки чисто академического интереса. Разложение Радемахе- ра — Уолша часто встречается в теории переключений, и оно тесно связано с разложением Бахадура — Лазарсфельда. Бахадур A961) дает расширение этого последнего разложения, перенося его с бинарного случая на общий дискретный случай. Если же разло- разложения по ортогональным функциям минимизируют среднеквадра- среднеквадратичную ошибку, Браун A959) и Льюис A959) показывают, что при определенных условиях аппроксимация произведений максимизи- максимизирует энтропию. Ито A969) приводит границы уровня ошибки, возникающей в результате усечения разложений в ряд. Идея об упрощении аппроксимаций за счет ограничения характера зависи- зависимости изучалась Чоу A962) и Абендом, Харли и Каналом A965), которые, в частности, интересовались естественными пространствен- пространственными зависимостями в бинарных картинах. Чоу A966) была выска- высказана интересная идея о древовидной зависимости, а методы нахож- нахождения дерева зависимости сообщаются Чоу и Лю A966, 1968). Зна- Значительное расширение этой концепции на многомерный нормальный случай приводится Чоу A970). Дискриминантный анализ берет начало в классической работе Фишера A936). Литература по этому предмету довольно обширная, и хороший обзор по ней сделан Тацуокой и Тайдменом A954). Обобщение метода линейного дискриминанта Фишера на случай со многими классами сделано Брайаном A951). Можно получить ли- линейные разделяющие функции других типов, используя не отношение разброса между классами к разбросу внутри класса, а другие кри- критерии. Кульбаком A959) предлагаются другие критерии и иссле- исследуются их характеристики. Петерсон и Матсон A966) разработали общую процедуру нахождения оптимальной разделяющей функции для довольно широкого класса функций критерия. Как мы уже
Список литературы 139 говорили ранее, цель всех этих методов заключается в уменьшении размерности пространства признаков, а результирующие разделяю- разделяющие функции сами по себе не разрешают проблему классификации. Разделяющие функции, которые будут рассматриваться в следующей главе, предназначены для непосредственного решения проблемы классификации. СПИСОК ЛИТЕРАТУРЫ Абенд, Харли, Кенал (Abend К.. Harley Т. J., Kanal L. N.) Classification of binary random patterns, IEEE Trans. Infor. Theory, IT-11, 538—544 (October 1965). Аркадьев А. Г., Браверман Э. М. Обучение машины классификации объектов, М., «Наука», 1971. Барус (Barus С.) An easily mechanized scheme for an adaptive pattern recognizer, IEEE Trans. Elect. Сотр., ЕС-15, 385-387 (June 1966). Бахадур (Bahadur R. R.) A representation of the joint distribution of responses to n dichotomous items, in Studies in Item Analysis and Prediction, pp. 158—168, H. Solomon, ed. (Stan- (Stanford University Press, Stanford, Calif., 1961). Брацан (Bryan J. G.) The generalized discriminant function: mathematical foundation and computa- computational routine, Harvard Educ. Rev., 21, 90—95 (Spring 1951). Браун (Brown D. T.) A note on approximations to discrete probability distributions, Info, and Control, 2, 386—392 (December 1959). Вагнер (Wagner T. J.) Convergence of the nearest neighbor rule, IEEE Trans. Info. Theory, IT-17, 566—571 (September 1971). Ватсон, Лидбеттер (Watson G. S., Leadbetter M. R.) On the estimation of a probability density, I, Ann. Math. Stat., 34, 480—491 (June 1963). Гиббоне (Gibbons J. D.) Nonparametric Statistical Inference (McGraw-Hill, New York, 1971). Иго (Но Т.) Note on a class of statistical recognition functions, IEEE Trans. Computers, C-18, 76—79 (January 1969). Какоулос (Cacoullos T.) Estimation of a multivariate density, Annals of the Institute of Statistical Ma- Mathematics, 18, 179—189 A966). Кашьяп, Блайдон (Kashyap R. L., Blaydon С. С.) Estimation of probability density and distributions functions, IEEE Trans. Info. Theory, IT-14, 549—556 (July 1968). Ковер (Cover Т. М.) Rates of convergence of nearest neighbor decision procedures, Proc. First Annual Hawaii Conference on Systems Theory, pp. 413—415 (January 1968). Ковер (Cover Т. М.) Learning in pattern recognition, in Methodologies of Pattern Recognition, pp. 111—132, S. Watanabe, ed. (Academic Press, New York, 1969). Ковер, Харт (Cover Т. M., Hart P. E.) Nearest neighbor pattern classification, IEEE Trans. Info. Theory, IT-13, 21—27 (January 1967). Кульбак (Kullback S.) Information Theory and Statistics (John Wiley, New York, 1959). [Русский перевод: Теория информации и статистика, «Наука», М., 1967.]
140 Гл. 4. Непараметрические методы Лофтсгарден, Квешенберри (Loftsgaarden D. О., Quesenberry С. Р.) A nonparametric estimate of a multivariate density function, Ann. Math. Stat., 36, 1049—1051 (June 1965). Льюис (Lewis P. M.) Approximating probability distributions to reduce storage requirements, Info. and Control, 2, 214—225 A959). Мейзел (Meisel W. S.) Potential functions in mathematical pattern recognition, IEEE Trans. Compu- Computers, C-18, 911—918 (October 1969). Мёрти (Murthy V. K.) Estimation of probability density, Ann. Math. Stat., 36,1027—1031 (June 1965). Мёрти (Murthy V. K.) Nonparametric estimation of multivariate densities with applications, in Multi- Multivariate Analysis, pp. 43—56. P. R. Krishnaiah, ed. (Academic Press, New York, 1966). Парзен (Parzen E.) On estimation of a probability density function and mode, Ann. Math. Stat., 33, 1065—1076 (September 1962). Петерсон, Матсон (Peterson D. W., Mattson R. L.) A method of finding linear discriminant functions for a class of performance criteria, IEEE Trans. Info. Theory, IT-12, 380—387 (July 1966). Розенблатт (Rosenblatt M.) Remarks on some nonparametric estimates of a density function, Ann. Math. Stat., 27, 832—837 A956). Себестьян (Sebestyen G. S.) Pattern recognition by an adaptive process of sample set construction, IRE Trans. Info. Theory, 1T-8, S82—S91 (September 1962). Себестьян, Эди (Sebestyen Q. S., Edie J. L.) An algorithm for nonparametric pattern recognition, IEEE Trans. Elec. Сотр., EC-15, 908—915 (December 1966). Спешт (Specht D. F.) Generation of polynomial discriminant functions for pattern recognition, IEEE Trans. Elec. Сотр., ЕС-16, 308—319 (June 1967). Тартер, Холкомб, Кронмел (Tarter M. E., Holcomb R. L., Kronmal R. A.) After the histogram what? A description of new computer methods for estimating the population density, AGM, Proc. 22nd Nat. Cortf., pp. 511—519 (Thompson Book Co., Washington, D. C, 1967). Тацуока, Тайдмен (Tatsuoka M. M., Tiedeman D. V.) Discriminant analysis, Rev. Educ. Res., 24, 402—420 A954). Томас (Thomas J. B.) Nonparametric detection, Proc. IEEE, 58, 623—631 (May 1970). Фикс, Ходжес (Fix E., Hodges J. L., Jr.) Discriminatory analysis: nonparametric discrimination: consistency properties. Report № 4, USAF School of Aviation Medicine, Randolph Field, Texas (Feb- (February 1951). Фиш (Fisz M.) Probability Theory and Mathematical Statistics (John Wiley, New York, 1963). Фишер (Fischer R. A.) The use of multiple measurements in taxonomic problems, Ann. Eugenics, 7, Part II, 179—188 A936); also in Contributions to Mathematical Statistics (John Wiley, New York, 1950). Фрелик, Скотт (Fralick S. C, Scott R. W.) Nonparametric Bayes risk estimation, IEEE Trans. Info. Theory, IT-17, 440— 444 (July 1971). Харт (Hart P. E.) The condensed nearest neighbor rule, IEEE Trans. Info. Theory, IT-14,515—516 (May 1968).
Задачи Ш Хелман (Hellman M. Е.) The nearest neighbor classification rule with a reject option, IEEE Trans. Sys. Sci. Cyb., SSC-6, 179—185 (July 1970). Цыпкин Я- З. Применение метода стохастической аппроксимации к оценке неизвест- неизвестной плотности распределения по наблюдениям, Автоматика и телеме- телемеханика, 27, 94—96 (март 1966). Чоу (Chow С. К.) A recognition method using neighbor dependence, IRE Trans. Elect. Сотр., EC-11, 683—690 (October 1962). Чоу (Chow С. К.) A class of nonlinear recognition procedures, IEEE Trans. Sys. Sci. Cyb., SSC-2, 101—109 (December 1966). Чоу (Chow С. К.) Tree dependence in normal distributions, presented at the 1970 International Symposium on Information Theory, Noordwjik, The Netherlands (June 1970). Чоу, Лю (Chow С. К., Liu С. N.) Approximating discrete probability distributions with dependence trees, IEEE Trans. Info. Theory, IT-14, 462—467 (May 1968). Чоу, Лю (Chow С. К., Liu С. N.) An approach to structure adaptation in pattern recognition, IEEE Trans. Sys. Sci. Cyb., SSC-2, 73-80 (December 1966). Задачи 1. Пусть p(x)~N(\i, а2) и q>(x)~./V@, 1). Покажите, что оценка окна Парзена обладает следующими свойствами: а) Рп (х) ~ N (u, O-2+ А«); б) Var [рп (х)] я ' р W; пп„2 У л в) Р(х)—РяМ х -о- (— ) И—( —- ) р(*) Для небольшого hn. (Замена- ¦» \ а / I \ а 1 J ние: если Ал==/г1/ у п, то это показывает, что ошибка, вызванная смещением, стремится к нулю как Мп, в то время как стандартное отклонение шума стремит- стремится к нулю только как \/п"'Ч.) 2. Пусть р(х) распределена равномерно от 0 до а, и пусть q> (x)=e~x, если х>0, и 0, если х<0. Покажите, что среднее значение оценки окна Парзена за- задается соотношением 0, х < 0, (ee/ft«_l) «-*/»«, а<х. Нарисовать график функции рп (х) от х для Л„=а, а/4 и а/16. Насколько малой должна быть hn, чтобы смещение было менее одного процента при 99% -ном раз- размахе 0<дг<о? 3.'Пусть 3?={Xi, ..., х„} — множество п независимых помеченных выборок и ,2^(х)={хь ..., xk) — k ближайших соседей х. Правило k ближайших соседей
142 Гл. 4. Непараметрические методы для классификации х заключается в присвоении х метки, наиболее часто представ- представляемой в &ьЫ)- Рассмотрим задачу с двумя классами с Р(а>1)=/>(<»а)=1/2. Допустим далее, что условные плотности ^(x|<o,j однородны в единичных гипер- гиперсферах, расположенных на расстоянии десяти единиц друг от друга. а) Покажите, что если k нечетное, то средняя вероятность ошибки задается посредством 7 = 0 б) Покажите, что для этого случая уровень ошибки у правила единственного ближайшего соседа будет ниже, чем у правила k ближайших соседей, k>\. в) (Не обязательно.) Если к позволяется возрастать с ростом п, но оно огра- ограничивается k<a}fn, покажите, что Рп(е)-*0 при я->оо. 4. Легко заметить, что уровень ошибки правила ближайшего соседа Р может быть равным уровню Байеса />*, если Р*=0 (наилучшая возможность) или если Р*= (с—1)/с (наихуДшая возможность). Может возникнуть вопрос, существуют ли задачи, для которых Р=Р*, когда Р* находится между этими крайними воз- возможностями. а) Покажите, что ур'овень Байеса для одномерного случая, где Р(со,)=1/с и с-Г О в остальных случаях, будет Р*=г. 6) Покажите, что для этого случая' Р=Р*. 5. Рассмотрим множество из семи двумерных векторов х'= A 0), Ха=@ 1), х?= @ —1), х1= @ 0), х{= @ 2), %i= @ —2), х,'= (—2 0). Допустим, что первые три имеют метку wi> а другие четыре — метку щ. а) Нарисуйте границу областей решений, полученную в результате приме- применения правила ближайшего соседа. (Она должна состоять из девяти отрезков прямых.) б) Найдите средние значения выборок mL и т2 и нарисуйте границу реше- решения, соответствующую классификации х при присваивании ему класса среднего значения ближайшей выборки. 6. Пусть (p(x)~JV(O, 1), и пусть Аппроксимируйте эту оценку путем факторизации функции окна и разложе- разложения коэффициента е ' п в ряд Тейлора в начале коордднат. а) Покажите, что при использовании нормированной переменной u=x/hn, m-членная аппроксимация задается посредством
Задачи 143 где i=l ' б) Положим, что п выборок очень тесно сгруппированы вокруг м=и0. Пока- Покажите, что двучленная аппроксимация имеет два локальных максимума в точках, где и2+м/ы0-^1=0. Покажите, что один максимум имеет место приблизительно при и— «о, как и требуется, если ид<^1,'но что он сдвигается только ки=1для Нарисуйте кривую функции рп2 от и для «,=0,1; 1 и 10. 7. Пусть рл(х|ш() будет произвольной плотностью со средним ц,,- и ковариа- ковариационной матрицей ?,-, i=\, 2. Пусть y=vrx, и пусть индуцированная плотность Ру (у\ ш/) имеет среднее значение |Х,- и дисперсию с?. а) Покажите, что функция критерия минимизируется посредством б) Если Р (со,-) есть априорная вероятность для со,-, покажите, что минимизируется посредством в) С какой из этих функций критерия теснее всего связано J(y/) из соот- соотношения G0)? 8. Выражение явно измеряет разброс между группами двух множеств выборок, из которых одно содержит пх выборок, помеченных щ, а другое содержит п2 выборок, помеченных ш2. Аналогично '•=-т Е Е (ш-у/J+-т ? Е си-*/I "х У/6 3/! *уба/х "г у,€3/2 г/убЗ/а явно измеряет полный разброс внутри групп, а) Покажите, что «2 б) Если j/=w'x, покажите, что w, минимизирующее Jlt при наложенном ограничении У8=1 задается посредством (Ш!—Ш2),
144Гл. 4. Непараметрические методы где Я=(т1—ш2)'(—S^—Sj) (mi—m2), (х-т,)(х-т,)*. 9. Пользуясь определением матрицы разброса между группами, данным для случая многих классов: с Sb= 2 Я|(т,- —m)(mj —m)f, покажите, что SB = [(%n2)/n] (тх—m2) A% — m2)f, если с=2. 10. Если Sg и S^ являются любыми вещественными симметричными мат- матрицами размера dX d, то хорошо известно, что существует множество п собствен- собственных значений Xlt .... Хп, удовлетворяющих \Sb—^iS^r\=0, и что существует соответствующее множество п собственных векторов е^ .... е„, удовлетворяющих равенству Sae;=X;S^e,-. Далее, если Syr — положительно определенная матрица, собственные векторы можно всегда нормировать таким образом, что Пусть SW=W*SWW и SB=W*SBW, где W — матрица размера dXn, столб- столбцы которой соответствуют п различным собственным векторам. а) Покажите, что Syr есть единичная матрица размера пХп и что Sg— диагональная матрица, элементы которой суть соответствующие собственные значения х). б) Каково значение У=|5а1/|§^|? в) Пусть у= №*х преобразуется сначала масштабированием осей, что описы- описывается невырожденной диагональной матрицей D размера пХп и последующим вращением, описываемым ортогональной матрицей Q: y'=QDy. Покажите, что J инвариантна относительно этого преобразования. х) Это показывает, что разделяющие функции в множественном дискриминант- ном анализе не коррелированы.
Глава 5 ЛИНЕЙНЫЕ РАЗДЕЛЯЮЩИЕ ФУНКЦИИ 5.1. ВВЕДЕНИЕ В гл. 3 предполагалось, что вид рассматриваемых распределений вероятностей известен, и с помощью выборок производилась оценка их параметров. В данной главе известным будет считаться вид раз- разделяющих функций, и выборки будут использоваться для оценки значений параметров классификаторов. Исследованию подлежат различные процедуры, применяемые для определения разделяющих функций, имеющие как статистический, так и нестатистический характер. Однако ни для одной из них не требуется, чтобы был из- известен вид рассматриваемых распределений вероятностей, и в этом смысле все их можно считать непараметрическими. В данной главе будут рассматриваться разделяющие функции, линейные либо по компонентам вектора х, либо по некоторому дан- данному множеству функций от х. Линейные разделяющие функции наиболее удобны с точки зрения аналитического исследования. Как было показано в гл. 2, они могут быть оптимальными, если рассматриваемые распределения согласованы. Даже когда они не оптимальны, может быть следует пренебречь некоторыми качествами ради выигрыша в простоте. Вычислительный процесс значительно упрощается при исполь- использовании линейных разделяющих функций, и классификатор опреде- определенной структуры представляется наиболее подходящим средством для реализации в качестве машины специального назначения. Линейный дискриминант Фишера является моделью в принятом нами подходе. Задача определения линейной разделяющей функции будет сформулирована как задача минимизации некоторой функции критерия. Вполне оправданным является использование выбороч- выборочного риска в качестве критерия для задач классификации, т. е. сред- средних потерь при классификации множества конструктивных выборок. Однако поскольку получение линейного дискриминанта, дающего минимальный риск, представляется достаточно трудным, в данной главе будет исследовано несколько аналогичных функций крите- критерия, имеющих более простые аналитические выражения. Наиболь- Наибольшее внимание уделяется исследованию сходимости различных про- процедур градиентного спуска для минимизации этих функций. Сходст- Сходство многих процедур иногда затрудняет выделение очевидных раз-
146 Гл. 5. Линейные разделяющие функции личий между ними. По этой причине в изложение материала вклю- включена сводка основных результатов, данная в табл. 5.1 в конце разд. 5.10. 5.2. ЛИНЕЙНЫЕ РАЗДЕЛЯЮЩИЕ ФУНКЦИИ И ПОВЕРХНОСТИ РЕШЕНИЙ 5.2.1. СЛУЧАЙ ДВУХ КЛАССОВ Разделяющая функция, представляемая линейной комбинацией компонент вектора х, может быть записана в следующем виде: A) где w называется весовым вектором, ац — величиной порога. В ос- основу линейного классификатора для двух классов положено сле- следующее решающее правило: принять решение <аи если g(x)>0, и со2, если g(x)<0. Таким образом, х приписывается к ш,, если ска- скалярное произведение w'x превышает порог —до0. Если g(x)=0, то обычно х можно отнести к любому из классов, однако в данной главе это соответствие будет считаться неопределенным. Уравнение g(x)=0 определяет поверхность решений, отделяю- отделяющую точки, соответствующие решению ©i, от точек, соответствую- соответствующих решению со2. Когда функция g(x) линейна, данная поверхность представляется гиперплоскостью. Если и хь и х2 принадлежат по- поверхности решений, то справедливо следующее выражение: или w*(x1-x2) = 0, так что w есть нормаль по отношению к любому вектору, лежащему в гиперплоскости. В общем случае гиперплоскость Н делит про- пространство признаков на два полупространства: область решений $ti для coi и область решений 1Я2 для со2. Поскольку g(x)>0, если х находится в области 31и то из этого следует, что нормальный вектор w направлен в сторону йх. В этом случае иногда говорят, что любой вектор х, находящийся в области &llt лежит на положительной сто- стороне гиперплоскости Я, а любой вектор х, находящийся в области еЯ2, лежит на отрицательной стороне Н. Разделяющая функция g(x) представляет собой алгебраическое расстояние от х до гиперплоскости. Это становится более очевидным, если выразить х в следующем виде: где хр — нормальная проекция х на гиперплоскость Я, а г — соот- соответствующее алгебраическое расстояние, положительное, если х находится с положительной стороны гиперплоскости, и отрица-
5.2. Линейные разделяющие функции и поверхности решений 147 тельное, если х находится с отрицательной стороны гиперплоскос- гиперплоскости. Тогда, поскольку g(xp)=0, или ._ g(x) В частности, расстояние от начала координат до гиперплоскости Я выражается отношением доо/1М|. Если зуо<0, начало координат находится с положительной стороны Я; если wo<D,— с отрица- отрицательной стороны Я. Если шо=О, то функция g(x) становится одно- Рис. 5.1. Линейная граница областей решений g(x)=w*x+ai0=0. родной w'x, и гиперплоскость проходит через начало координат. Геометрическая интерпретация данных результатов приведена на рис. 5.1. В заключение можно сделать вывод, что линейная разделяющая функция делит пространство признаков поверхностью решений, представляющей собой гиперплоскость. Способ ориентации данной поверхности задается нормальным вектором w, а положение ее — величиной порога w0. Разделяющая функция g (x) пропорциональ- пропорциональна взятому со знаком расстоянию от х до гиперплоскости, при этом g(x)>0, когда х находится с положительной стороны гиперплос- гиперплоскости, и g(x)<0, когда х находится с отрицательной стороны,
148 Гл. 5. Линейные разделяющие функции 5.2.2. СЛУЧАЙ МНОГИХ КЛАССОВ Существует немало способов создания классификаторов для многих классов, основанных на использовании линейных разделяю- разделяющих функций. Например, можно свести задачу к с—1 задачам для двух классов, где решением i-й задачи служит линейная разделяю- разделяющая функция, определяющая границу между точками, соответст- соответствующими решению сог, и точками, не соответствующими решению со;. При ином подходе следовало бы использовать с(с—1)/2 линей- линейных разделяющих функций, по одному для каждой пары классов. Как показано на рис. 5.2, оба эти подхода могут приводить к обла- облажу а 5 Рис. 5.2. Линейные границы областей решений для задачи трех классов. а — дихотомия а»,-/не ю,-, б — дихотомия ю{-/ау. стям, аналогичным представленным здесь заштрихованными обла- областями, в которых классификация не определена. При данном ис- исследовании указанная трудность будет исключена в результате использования подхода, принятого в гл. 2, при котором определя- определяется с линейных разделяющих функций вида g, (х) = wjx + wi0, i = 1 с, B) и х приписывается к юг, если gi(x)>g/(x) для всех ]ф1; в случае равенства классификация остается неопределенной. Получаемый таким путем классификатор называется линейной машиной. Линей- Линейная машина делит пространство признаков на области решений, при этом gt (x) является наибольшей из разделяющих функций, если х находится в области сЯг. Если области Slt и ОЯ] соприкасающиеся, то границей между ними будет часть гиперплоскости Нц, опреде- определяемая следующим соотношением: или (W,- — W/ X + (Ш/О —WJ0) = 0.
5.3. Обобщенные линейные разделяющие функции 149 Из этого сразу же следует, что вектор w— w;- нормален гипер- гиперплоскости Ни, а взятое со знаком расстояние от х до Htj выража- выражается отношением (gt—gj)/\\(wt—w7)||. Таким образом, в случае ис- использования линейной машины важны не сами векторы веса, а их разности. При наличии с(с—1)/2 пар областей не требуется,.чтобы все они были соприкасающимися, и общее число участков гипер- гиперплоскостей, входящих в поверхности решения, часто может быть менее чем с (с—1)/2. Примеры двумерных случаев для таких поверх- поверхностей представлены на рис. 5.3. Я, a S Рис. 5.3. Границы областей решений, полученные с помощью линейной машины. а — задача для трех классов, б — задача для, пяти классов. Легко показать, что области решений для линейной машины являются выпуклыми. Данное ограничение определенно снижает возможности классификатора. В частности, каждая область решения должна быть односвязной; это делает линейную машину в наиболь- наибольшей мере соответствующей задачам, для которых условная плот- плотность р(х|юг) унимодальна. В рамках этих ограничений линейная машина представляет собой достаточно гибкую конструкцию, до- допускающую простое аналитическое исследование. 5.3. ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ РАЗДЕЛЯЮЩИЕ ФУНКЦИИ Линейная разделяющая функция g{x) может быть записана в следующем виде: d где коэффициенты Wt являются компонентами весового вектора w. Добавив в это уравнение члены, содержащие произведения двух
150 Гл. 5. Линейные разделяющие функции компонент вектора х, получим квадратичную разделяющую функцию d id g (x) = w0 + 2 ЩХ( + 22 WtjXiXj. He нарушая общности, можно положить п>ц=п>л, поскольку xtxj= =X]Xt. Таким образом, в формулу квадратичной разделяющей функции входят d(d+\)/2 дополнительных коэффициентов; это позволяет получать более сложные разделяющие поверхности. Раз- Разделяющая поверхность, определяемая уравнением g(x)=0, является поверхностью второго порядка, или гиперквадрикой. Если сим- симметричная матрица W=[wu] невырожденна, то линейные члены в g(x) могут быть исключены путем преобразования системы коор- координат, и основное свойство разделяющей поверхности может быть описано с помощью масштабированной матрицы W=W/(v/tW~1w— —4w0). Если матрица W является положительным кратным единич- единичной матрицы, разделяющая поверхность будет гиперсферой. Если W — положительно определенная матрица, то разделяющая поверх- поверхность — гиперэллипсоид. Если некоторые характеристические числа матрицы W положительны, а другие отрицательны, то поверхность является одним из гипергиперболоидов. Как было отмечено в гл. 2, это все виды разделяющих поверхностей, которые появляются в общем случае многомерного нормального распределения. Продолжая вводить дополнительные члены, такие, как wtjkXiXjXk, можно получить класс полиномиальных разделяющих функций. Указанные функции можно рассматривать как усеченные разложения в ряд некоторой произвольной функции ^(х), что в свою очередь ведет к представлению об обобщенных линейных разделяю- разделяющих функциях, имеющих следующий вид: ?(х)=2а,.г/(-(х), D) или ?(х) = а*у, E) где а есть d-мерный весовой вектор, a d функций yt (x) (иногда назы- называемых ф-функциями) могут быть произвольными функциями от х. Выбирая указанные функции соответствующим образом и полагая d достаточно большим, можно аппроксимировать любую заданную разделяющую функцию таким разложением в ряд. Полученная разделяющая функция нелинейна относительно х, однако линейна относительно у. Отображение точек d-мерного пространства х в d- мерное пространство у осуществляют d функций г/г(х). Однородная разделяющая функция а'у разделяет точки в данном отображенном пространстве посредством гиперплоскости, проходящей через на-
5.3. Обобщенные линейные разделяющие функции 151 чало координат. Таким образом, переход от х к у сводит задачу к определению однородной линейной разделяющей функции. Некоторые преимущества и недостатки данного подхода можно продемонстрировать на простом примере. Пусть g(x) будет квадра- квадратичной разделяющей функцией g(x)=-a1+a2x+a3x2, так что трехмерный вектор у задается матрицей -EJ- Переход от х к у показан на рис. 5.4. Данные, по существу, остаются одномерными, поскольку изменение х соответствует появлению кривой в трехмерном пространстве у. Таким образом, отсюда сразу Уз О ос Рис. 5.4. Отображение в случае у= (I**2)*. вытекает тот факт, что, если х подчиняется вероятностному закону р(х), отображенная функция плотности р(у) становится вырожден- вырожденной, обращаясь в нуль везде, кроме кривой, где она принимает бесконечно большие значения. Приведенный пример представляет собой общую задачу, возни- возникающую в случае, когда d>d, и отображение точек происходит из пространства с меньшей размерностью в пространство с большей размерностью. Плоскость Н, определяемая уравнением а'у=0, делит простран- пространство у на две области решений: &г и cR2. На рис. 5.5 показана раз- разделяющая плоскость, определяемая вектором а=(~-1 12)*, и соот- соответствующие области решений eRi и cfta в пространстве х. Квадратич-
152 Гл. 5. Линейные разделяющие функции ная разделяющая функция g (x)=—\+х+2хг положительна, если х<—1 или если Ж>0,5, так что область Sli является многосвязной. Таким образом, хотя области решений в у-пространстве выпуклые, это отнюдь не обязательно имеет место в х-пространстве. Даже при наличии сравнительно простых функций yt(x) поверхности реше- решений, отображенные в х-пространство, могут быть весьма сложными. К сожалению, «проклятие размерности» усложняет практи- практическое использование возможностей классификатора. Полная квад- квадратичная разделяющая функция включает d~(d+\)(d+2)/2 чле- членов. Если d сравнительно велико, скажем d=50, то требуется вы- -1,0 О Q5 Рис. 5.5. Области решений в х-пространстве и у-пространстве. числение большого числа членов. Включение кубичных членов й членов с более высоким порядком приводит к еще большим значе- значениям d.. Более того, d компонент весового вектора а должны опреде- определяться из выборок. Если d придается смысл числа степеней свободы разделяющей функции, то естественным будет требование, чтобы число выборок было не меньше, чем это число степеней свободы. Очевидно, что в случае общего разложения в ряд функции g(x) можно легко прийти к совершенно нереальным требованиям в от- отношении процесса вычислений и необходимых данных. В случае обобщенной линейной разделяющей функции, хотя и трудно реализовать ее потенциальные преимущества, по крайней мере достигается удобство записи g(x) в виде однородной функции а'у. В частном случае линейной разделяющей функции вида 2 C)
5.4. Случай двух классов 153 можно написать П У = F) L J а = W, w -wdl L. _ G) Данный переход от d-мерного пространства х к (<2+1)-мерному пространству у с математической точки зрения тривиален и тем не менее достаточно удобен. Добавление постоянной компоненты к х не нарушает соотношений в расстояниях между выборками. Все получаемые векторы у лежат в d-мерном подпространстве, являю- являющемся самим х-пространством. Определяемая соотношением а*у=0 гиперплоскость поверхности решений Я всегда проходит через нача- начало координат у-пространства, несмотря на то что соответствующая гиперплоскость Я может располагаться в х-пространстве произволь- произвольным образом. Расстояние от у до Я выражается отношением |а'у|/||а||, или |g(x)|/||a||. Поскольку ||a||>||w||, то данное расстояние меньше или в лучшем случае равно расстоянию от х до Я. При использова- использовании указанного отображения задача нахождения весового вектора w и величины порога w0 сводится к определению одного весового век- вектора а. 5.4. СЛУЧАЙ ДВУХ ЛИНЕЙНО РАЗДЕЛИМЫХ КЛАССОВ 5.4.1. ГЕОМЕТРИЯ И ПРИНЯТАЯ ТЕРМИНОЛОГИЯ Предположим теперь, что имеется множество п выборок уь . . . ..., уп, часть которых помечена соь а часть ю2- Данные выборки мы хотели бы использовать для определения весов в линейной разде- разделяющей функции g(x)~afy. Предположим, имеется основание счи- считать, что существует решение, для которого вероятность ошибки очень и очень мала. Тогда разумный подход будет заключаться в нахождении весового вектора, который правильно классифицировал бы все выборки. Если такой весовой вектор существует, то выборки называются линейно разделяемыми.
154 Гл. 5. Линейные разделяющие функции Выборка уг классифицируется правильно, если а*уг>0 и yt по- помечен ©1 или если а*Уг<0 и уг помечен ю2. Можно заметить, что во втором случае уг будет классифицироваться правильно, если Разделяющая плоскость О — Выдорки класса 1 D — Выдорки класса 2 Рис. 5.6. Линейно разделяемые выборки и область решения в весовом простран- пространстве. о — случай с нормированием, б — случай без нормирования. V \ д / \t AV, ^Область \ * u Рис. 5.7. Влияние допуска на область решения. а — случай 6=0, б —случай Ь=\\у2\\2.
5.4. Случай двух классов 155 а*(—у*)>0. Это наводит на мысль о введении нормирования, с по- помощью которого будет упрощено рассмотрение случая двух классов, а именно будет произведена замена всех выборок, обозначенных символом со2, их отрицаниями. При введении указанного нормиро- нормирования можно забыть об индексах и искать такой весовой вектор а, чтобы для всех выборок рыполнялось соотношение а*уг>0. Данный весовой вектор называется разделяющим вектором или вектором решения. Можно считать, что весовой вектор а определяет точку в весовом пространстве. Каждая выборка уг накладывает ограничение на возможное расположение вектора решения. Уравнение а*уг=0 определяет гиперплоскость, проходящую через начало координат в весовом пространстве, для которой yt является нормальным векто- вектором. Вектор решения, если он существует, должен находиться с положительной стороны каждой гиперплоскости. Таким образом, вектор решения должен лежать в пересечении п полупространств, и любой вектор, находящийся в данной об- области, будет являться вектором решения. Соответствующая область называется областью решений. На рис. 5.6 изображена область решений при нормировании и без нормирования на примере дву- двумерного случая. Из сказанного следует, что если существует вектор решения, то он не единствен. Дополнительные ограничения на вектор решения можно получить разными способами. Одна из возможностей заклю- заключается в поиске единичного вектора, который бы максимизировал минимальное расстояние от выборок до разделяющей плоскости. Другим способом является нахождение минимального весового век- вектора, удовлетворяющего условию а*уг^6 для всех i, где Ъ — поло- положительная константа, называемая допуском. Иногда бывает удоб- удобным, чтобы выполнялось лишь условие а*уг^й. Как показано на рис. 5.7, область решений, получившаяся в результате пересече- пересечения полупространств, для которых а*у^Ь>0, находится внутри прежней области и отделена от старых границ расстоянием 6/||уг||. Попытки определения вектора решения, расположенного ближе к «середине» области решения, основывались на интуитивном предпо- предположении, что полученное решение с большей вероятностью будет давать правильную классификацию новых выборок. Однако в слу- случаях, подлежащих рассмотрению, для нас удовлетворительным будет любое решение, принадлежащее области решения. Основное внима- внимание должно быть сосредоточено на том, чтобы любая используемая итеративная процедура не вызывала приближения к предельной точке, лежащей на границе. Данная задача всегда может быть ре- решена путем введения допуска, т. е. выполнением требования * >Ь0 для всех {'.
156 Гл. 5. Линейные разделяющие функции 5.4.2. ПРОЦЕДУРЫ, ОСНОВАННЫЕ НА МЕТОДЕ ГРАДИЕНТНОГО СПУСКА Метод, используемый для нахождения решения системы ли- линейных неравенств а*уг>0, состоит в определении функции крите- критерия У (а), которая минимизируется при условии, что а является вектором решения. Данный подход сводит рассматриваемую задачу к минимизации скалярной функции, что часто можно осуществить при помощи процедуры градиентного спуска. Принцип процедуры спуска очень прост. Она начинается с выбора некоторого произволь- произвольного весового вектора at и вычисления градиентного вектора W(ai). Следующее значение а2 получается при смещении на неко- некоторое расстояние относительно вектора ах в направлении наискорей- наискорейшего спуска, т. е. вдоль отрицательного градиента. В общем слу- случае аА+1 получают из ah по алгоритму ), (8) где ph есть положительный скалярный коэффициент, определяющий величину шага. По-видимому, такая последовательность весовых векторов должна сходиться к решению, минимизирующему функ- функцию У (а). Известно, что с процедурами градиентного спуска связан целый ряд проблем. В нашем случае мы сможем уйти от наиболее серьез- серьезных из этих проблем, поскольку сами будем конструировать функ- функции, которые хотим минимизировать. Единственное, с чем мы столк- столкнемся неоднократно, это выбор скалярного коэффициента pft. Если коэффициент pk очень мал, наблюдается слишком медленная схо- сходимость; если pk слишком велик, то процесс коррекций даст пере- перерегулирование и может оказаться даже расходящимся. Предполо- Предположим, что функция критерия может быть достаточно точно аппрокси- аппроксимирована разложением второго порядка: J (a)« /(a,) + V^(a-aft) + 4(a-aft)*D(a-aft), (9) где D является матрицей частных производных второго порядка d2J/datdaj, вычисленных при условии a=afe. Тогда, используя a*+i> взятое из соотношений (8) и (9), можно получить следующее выражение: J (а»+1) « J (aft)-Pft || V/ |р +1 plV/'DV/, из чего следует, что функцию J (aft+1) можно минимизировать, вы- выбрав Ц^ (Ю)
5.5. Минимизация персептронной функции критерия 157 Другую процедуру спуска можно получить, если, не используя (8), выбирать а*+1, минимизирующее это разложение второго порядка. Это приводит к алгоритму Ньютона, имеющему вид: a*+1=aA-D-»V/. A1) Вообще говоря, один шаг алгоритма Ньютона обычно более эф- эффективен, нежели шаг алгоритма простого градиентного спуска даже при оптимальном значении р&. Однако если матрица D вырожденна, то алгоритм Ньютона неприменим. Более того, даже при условии, что матрица D невырожденна, потери времени, связанные с ее обра- обращением, могут легко свести на нет указанные преимущества. Фак- Фактически зачастую небходимость сделать несколько лишних коррек- коррекций, если в качестве ph взято заниженное значение р, приводит к меньшим затратам времени, чем вычисление оптимального ph на каждом шаге. В дальнейшем еще придется вернуться ко всем этим вопросам. 5.5. МИНИМИЗАЦИЯ ПЕРСЕПТРОННОЙ ФУНКЦИИ КРИТЕРИЯ 5.5.1. ПЕРСЕПТРОННАЯ ФУНКЦИЯ КРИТЕРИЯ Рассмотрим теперь задачу определения функции критерия для решения линейных неравенств вида а'уг>0. Проще всего взять в ка- качестве функции J (а; уь . . . , у„) число выборок, классифицируе- классифицируемых с ошибкой посредством а. Однако, поскольку данная функция является кусочно постоянной, очевидно, что она будет плохо соот- соответствовать задаче градиентного анализа. Лучшим вариантом является функция персептрона •Ма)= S (~а'у). A2) У6з/ где б/ (а)—множество выборок, классифицируемых с ошибкой посред- посредством а. (Если выборок, классифицируемых с ошибкой, нет, то Jp полагается равной нулю.) Так как а*у^0, если у классифицируется с ошибкой, то функция Jp (а) не может быть отрицательной. Она до- достигает нулевого значения, когда а является вектором решения или же находится на границе области решений. Геометрически функ- функция Jp(a) пропорциональна сумме расстояний от выборок, класси- классифицируемых с ошибкой, до границы области решений. На рис. 5.8 изображена функция Jp для простого двумерного случая. Поскольку /-я компонента градиента Jp выражается в виде ча- частной производной dJp/daj, из формулы A2) следует, что W,= S (-у),
158 Гл. 5. Линейные разделяющие функции и при этом основной алгоритм (8) приводится к следующему виду: aA+i=aA+pA 3. У' A3) где З/ft есть множество выборок, классифицируемых с ошибкой по- посредством ah. Таким образом, процедуру спуска для нахождения вектора решения можно определить очень просто: следующий ве- аг Рис. 5.8. Персептронная функция критерия. а— весовое пространство, б— функция критерия. Рис. 5.9; Определение облас- области решения методом гради- градиентного анализа. совой вектор получается путем прибавления к данному весовому вектору некоторого кратного суммы выборок, классифицируемых с ошибкой. На рис. 5.9 приведен пример определения вектора реше- решения с помощью указанного алгоритма для простого двумерного слу- случая при значениях ах=0 и ph=l. Покажем теперь, что данный алго- алгоритм будет давать решение для любой задачи с линейно разделяемым множеством.
5.5. Минимизация персептронной функции критерия 159 5.5.2. ДОКАЗАТЕЛЬСТВО СХОДИМОСТИ ДЛЯ СЛУЧАЯ КОРРЕКЦИИ ПО ОДНОЙ ВЫБОРКЕ Исследование сходимости алгоритма спуска удобно начать с варианта, более легкого для анализа. Вместо определения ak по всем выборкам и осуществления коррекции по множеству классифи- классифицируемых с ошибкой выборок S/fe выборки будут рассматриваться последовательно, и весовой вектор будет изменяться всякий раз, когда некоторая выборка будет классифицироваться с ошибкой. Для доказательства сходимости подробная характеристика данной последовательности неважна, коль скоро каждая выборка появля- появляется в последовательности бесконечно большое число раз. Наиболее просто убедиться в этом, повторяя выборки циклически. Два последующих упрощения помогут лучшему пониманию из- излагаемого материала. Во-первых, временно ограничимся случаем, когда pfe является константой. Это так называемый случай с постоян- постоянным приращением. Из соотношения A3) следует, что если ph — ве- величина постоянная, то она служит лишь для масштабирования выборок. Таким образом, в случае с постоянным приращением можно, без ущерба для общности, положить pfe=l. Второе упроще- упрощение состоит лишь в введении обозначений. Когда выборки рассмат- рассматриваются последовательно, некоторые из них классифицируются с ошибкой. Поскольку весовой вектор изменяют лишь при наличии ошибки, внимание фактически сосредоточивается только на выбор- выборках, классифицируемых с ошибкой. Таким образом, последователь- последовательность выборок обозначается через у1, уа, . . . , у*, . . . , где каждый у* является одной из п выборок уь . . . , уп и каждая выборка у* классифицируется с ошибкой. Например, при циклическом повто- повторении выборок уь у2 и уа, если отмеченные выборки У и У2, Уз» Ух, У*1, Уз. Ук Ун ... классифицируются с ошибкой, то последовательность у1, у2, у3, у4, у6, ... обозначает последовательность уь у3, уь у2, у2, . . . . Исходя из данного объяснения, для образования последовательно- последовательности весовых векторов может быть записано правило постоянного приращения: at произвольно, | . где а*у*<0 для всех k. Правило постоянного приращения является простейшим из чис- числа многих алгоритмов, которые предлагались для решения систем линейных неравенств. Впервые оно появилось при введении схемы обучения с подкреплением, предложенной Ф. Розенблаттом для его персептронной модели мозга и доказательства сходимости послед- последней, известного под названием теоремы сходимости персептрона.
160 Гл. 5. Линейные разделяющие функции В частности, можно дать ее геометрическую интерпретацию в весо- весовом пространстве. Поскольку вектор ah классифицирует у* с ошиб- ошибкой, то а& не будет находиться с положительной стороны у*, при- принадлежащего гиперплоскости а*у*=0. Прибавление у* к вектору аА смещает весовой вектор непосредственно в направлении к данной гиперплоскости при возможности ее пересечения (рис. 5.10). Неза- Независимо от того, пересечется ли гиперплоскость или нет, новое ска- скалярное произведение а?+1у* будет больше прежнего произведения Рис. 5.10. Шаг, соответствующий правилу постоянного приращения. а|у* на величину ||у*||2, в результате получаем, что вследствие кор- коррекции весовой вектор смещается в нужном направлении. Покажем теперь, что, если выборки линейно разделяемы, после- последовательность весовых векторов будет ограничиваться вектором решения. При доказательстве необходимо отметить, что каждая процедура коррекции сдвигает весовой вектор ближе к области решения. То есть следует показать, что если а является любым вектором решения, то значение ||aft+1—а|| меньше значения f|aft— —а||. Хотя в общем случае данное утверждение оказывается неспра- несправедливым, будет показано, что оно выполняется для векторов реше- решения, имеющих достаточную длину. Пусть а — вектор решения, так что величина а*уг строго положи- положительна для всех t, a a — положительный скалярный коэффициент. Из соотношения A4) следует, что тогда
_^ 5.5. Минимизация персептронной функции критерия 161 Шшояьку у* классифицировался с сшибкой, то а?у*<0, и, таким образом, можно записать следующее выражение: Т$ж как величина а'у* строго положительна, второй член будет п& модулю превосходить третий при условии, что значение а до- достаточно велико. В частности, если положить Р« = max || у,-1|« A5) i i у = min а'у,- > 0, A6) i ТО и если выбрать « = ?. A7) то получим следующее выражение: Таким образом, квадрат расстояния от аА до оса при каждой коррек- коррекции будет уменьшаться, по крайней мере на величину Р3, и после k коррекций представится в следующем виде: Поскольку величина квадрата расстояния не может быть отрица- отрицательной, из этого следует, что последовательность коррекций долж- должна быть ограничена числом коррекций, не большим чем ka, где Поскольку коррекция осуществляется всякий раз, когда выборка классифицируется с ошибкой, и поскольку каждая выборка появ- появляется бесконечно большое число раз в последовательности, отсюда следует, что после прекращения процесса коррекций полученный весовой вектор должен правильно осуществлять классификацию всех выборок. Число k0 определяет предельное значение числа коррекций. Если аг=0, получается следующее достаточно простое выражение для k0:
162 Гл. 5. Линейные разделяющие функции Данное выражение показывает, что трудность задачи в основном определяется наличием выборок, наиболее близких к ортогональным по отношению к вектору решения. К сожалению, указанное выра- выражение невозможно использовать при рассмотрении нерешенной задачи, поскольку в данном случае граница должна определяться исходя из неизвестного вектора решения. Очевидно, что в общем случае задачи с линейно разделяемыми множествами могут пред- представлять известные трудности для определения решения в условиях компланарности выборок. Тем не менее, если выборки линейно разделяемы, правило постоянного приращения будет давать реше- решение после конечного числа коррекций. 5.5.3. НЕКОТОРЫЕ НЕПОСРЕДСТВЕННЫЕ ОБОБЩЕНИЯ Правило постоянного приращения можно обобщить с целью выделения связанных между собой алгоритмов. Коротко будут рас- рассмотрены два наиболее интересных варианта. В первом варианте вводится понятие переменного приращения ph и допуск Ь и предус- предусматривается коррекция, когда величина а|у* является недостаточ- недостаточной для превышения допуска. Алгоритм задается в следующем виде: произвольно, | B0) где теперь alyk^b для всех k. Можно показать, что, если вы- выборки линейно разделяемы и если B1) lim 2p* = °° B2) т B3) afe сходится к вектору решения а, удовлетворяющему условию a?yi>b при всех значениях i. В частности, условия, налагаемые на Рь, выполняются в том случае, если ph является положительной константой или убывает как l/k. Следующим вариантом, представляющим интерес, является пер- первоначально рассмотренный алгоритм градиентного спуска для Jр: at произвольно, = 4+9к 2 B4)
5.5. Минимизация персептронной функции критерия 163 где й/й — множество выборок, классифицируемых с ошибкой по- посредством aft. Легко видеть, что данный алгоритм будет также да- давать решение, принимая во внимание,-что если а является вектором решения для последовательности у,, . . . , уп, то он правильно клас- классифицирует корректирующий вектор у*= 2 у- Таким образом, если выборки являются линейно разделяемыми, то все возможные виды корректирующих векторов составляют линейно разделяемое множество, и если pft удовлетворяет соотношениям B1) — B3), то последовательность весовых векторов, получаемая посредством алгоритма градиентного спуска для Jp, всегда будет сходиться к вектору решения. Интересно заметить, что условия, налагаемые на pft, удовлетво- удовлетворяются в тех случаях, когда ph является положительной константой и когда pk убывает как l/k или даже возрастает с ростом k. Вообще говоря, предпочтение следует отдавать pft, уменьшающемуся с те- течением времени. Это замечание становится особенно существенным, когда есть основание считать, что множество выборок линейно нераз- неразделяемо, поскольку в данном случае уменьшается отрицательное влияние нескольких «плохих» выборок. Однако то, что в случае разделяемых выборок при увеличении pk получение решения ока- оказывается все же возможным, кажется довольно странным. Из данного наблюдения вытекает одно из различий между теоре- теоретическим и практическим взглядами на эту проблему. С теоретиче- теоретической точки зрения представляется интересным тот факт, что решение можно получить при наличии конечного числа шагов в случае лю- любого ограниченного множества разделяемых выборок, при любом начальном весовом векторе аь при любом неотрицательном значе- значении допуска b и при любом скалярном коэффициенте рь, удовлетво- удовлетворяющем соотношениям B1) — B3). С практической точки зрения желательно производить разумный выбор указанных величин. Рас- Рассмотрим, например, допуск Ь. Если b намного меньше р*||у*||2, т. е. той величины, на которую возрастает а?у* в результате коррек- коррекции, то очевидно, что Ь будет оказывать совсем малое влияние. Если Ь намного превосходит величину pft||y*||2, то потребуется боль- большое число коррекций, чтобы добиться выполнения условия а?у*>&. Часто в качестве компромиссного подхода используют величину, близкую к Pft||y*||2. Кроме указанных вариантов выбора pft и Ь, большое влияние на результат может оказывать масштабирование компонент вектора у*. Наличие теоремы сходимости не избавляет от необходимости сознательного подхода при использовании дан- данных методик.
164 Гл. 5. Линейные разделяющие функции 5.6. ПРОЦЕДУРЫ РЕЛАКСАЦИЙ 5.6.1. АЛГОРИТМ СПУСКА Функция критерия Jp (а) отнюдь не представляется единственной функцией, которую можно построить с целью минимизации в слу- случае, когда а является вектором решения. Близким, но имеющим отличие представляется выражение вида -Ма) = 2 (а'уJ, B5) где й/ (а) опять обозначает множество выборок, классифицируемых с ошибкой посредством а. Так же как и в случае функции Jp, основ- основное внимание при использовании функции Jq сосредоточивается на выборках, классифицируемых с ошибкой. Главное различие указан- указанных функций состоит в том, что градиент функции Jq является не- непрерывным, в то время как градиент функции Jp таким свойством не обладает. К сожалению, функция Jq настолько сглажена вблизи границы области решений, что последовательность весовых векторов может сходиться к точке, лежащей на границе. Особое неудобство связано с некоторыми затратами времени, требующимися для опре- определения градиента вблизи граничной точки а=0. Другая неприят- неприятность, связанная с функцией Jg, состоит в том, что величина дан- данной функции может быть превышена за счет наиболее длинных векторов выборок. Обе эти трудности можно обойти путем приме- применения функции критерия *) следующего вида: (а*У-6J где S/(a) теперь обозначает множество выборок, для которых у^ (Если 2/(а) определяет пустое множество, то полагаем JT равной нулю.) Таким образом, функция Jr(a) никогда не бывает отрица- отрицательной и обращается в нуль в том и только том случае, если a*(y)]>fr для всех выборок. Градиент функции JT задается выраже-. нием V / - V afy *) Нормирование посредством введения ||у|р упрощает выбор р*. Фактически производится выбор р*= 1, соответствующего оптимальному значению, опреде- определяемому соотношением A0). Данный вопрос исследуется в дальнейшем в задаче 13.
5.6. Процедуры релаксаций 165 так что основной алгоритм спуска представляется в следующем виде: ах произвольно, У Как и раньше, будем считать, что более простое доказательство сходимости получается при условии, что выборки рассматриваются поодиночке, а не все сразу. Ограничимся также случаем, когда рь=р. Таким образом, можно опять перейти к рассмотрению после- последовательности у1, у2, . . . , образованной из выборок, требующихся для коррекции весовых векторов. Правило коррекции по одной вы- выборке аналогично соотношению B7) и записывается в виде произвольно, \ B8) где а|у*<й для всех k. Данный алгоритм известен под названием правила релаксаций и имеет простую геометрическую интерпретацию. Величина __ * IIУ* II представляет собой расстояние от aft до гиперплоскости а*ук=Ь. Поскольку отношение у*/||у*|| определяет единичный нормальный вектор для данной гиперплоскости, то аь, содержащееся в уравне- уравнении B8), должно смещаться на некоторую часть р этого рас- расстояния от ah к гиперплоскости. Если р=1, тоа^ смещается точно до гиперплоскости, так что происходит «релаксация (ослабление— ред.) напряжения», вызванного неравенством а{ук^.Ь. После кор- коррекции по формуле B8) получаем Если р<1| то произведение а?+1у* остается все же меньшим, чем Ь; если же р>1, то а^у* будет больше Ь. Данные условия носят название недорелаксация и перерелаксация соответственно. Обычно р выбирается из интервала 0<р<2. 5.6.2. ДОКАЗАТЕЛЬСТВО СХОДИМОСТИ При применении правила релаксаций к множеству линейно раз- разделяемых выборок число коррекций может быть ограниченным или неограниченным. Если число коррекций ограничено, то, есте- естественно, получаем вектор решения. Если число коррекций не огра-
166 Гл. 5. Линейные разделяющие функции ничено, то будет показано, что ah сходится к предельному вектору, лежащему на границе области решений. Поскольку область, в ко- которой а*у^Ь, включена в большую область, где а*у>0 при fc>0, это означает, что ah войдет в эту большую область по меньшей мере один раз, в конечном счете оставаясь в этой области при всех k, больших некоторого конечного k0. Доказательство связано с тем фактом, что если а представляет собой любой вектор, лежащий в области решений, т. е. удовлетво- удовлетворяющий условию afy,->b при всех i, то с каждым шагом вектор aft приближается к вектору а. Данное утверждение сразу же следует из соотношения B8), поскольку так что Поскольку р изменяется в интервале 0<р<2, из этого вытекает, что ||aft+1—a||^||afe—а||. Таким образом, векторы последователь- последовательности ai, а2, . . . все более приближаются к а, и в пределе, когда k стремится к бесконечности, величина расстояния ||afe — а|| будет близка к некоторому предельному значению г (а). Отсюда следует, что при стремлении k к бесконечности afe располагается на поверх- поверхности гиперсферы с центром а и радиусом г (а). Поскольку данное утверждение справедливо для любого а, находящегося в области решений, предельное ak лежит на пересечении гиперсфер, центрами которых являются все возможные векторы решений. Покажем, что общим пересечением данных гиперсфер является единственная точка, лежащая на границе области решений. Пред- Предположим сначала, что существуют по крайней мере две точки а' и а", принадлежащие общему пересечению. Тогда выполняется ра- равенство ||а'—а||=||а"—а|| для каждого а, находящегося в области решений. Но это означает, что область решений располагается в (d—1)-мерной гиперплоскости, содержащей точки, равноудаленные от а' и а", тогда как известно, что область решений является d-мер- ной. (Точная формулировка такова: если а'уг>0 при t=l, . . . , и, то для любого d-мерного вектора v справедливым будет выражение (a+ev)f уг>0 для г=1, . . . , п при условии, что е достаточно мало.) Таким образом, ak сходится к единственной точке а. Указанная точ- точка, конечно, не находится внутри области решений, ибо тогда после-
5.7. Поведение процедур 167 довательность была бы конечной. Она также не находится и вне данной области, поскольку в результате каждой коррекции вектор веса смещается на величину р, умноженную на его расстояние до граничной плоскости, так что навсегда фиксированного минимально возможного расстояния, на которое вектор может приближаться к границе, не существует. Отсюда следует, что предельная точка должна лежать на границе. 5.7. ПОВЕДЕНИЕ ПРОЦЕДУР В СЛУЧАЕ НЕРАЗДЕЛЯЕМЫХ МНОЖЕСТВ Процедура, основанная на правиле постоянного приращения, и процедура релаксаций дают ряд простых методов для нахождения разделяющего вектора в случае линейно разделяемых выборок. Все эти методы называются процедурами коррекции ошибок, посколь- поскольку они вызывают изменение весового вектора в том и только том слу- случае, когда появляется ошибка. Успех указанных процедур обу- обусловлен в основном именно методичным поиском безошибочного решения. На практике возможность использования этих методов сле- следует рассматривать только в том случае, если можно считать, что уро- уровень ошибки для оптимальных линейных разделяющих функций мал. Конечно, даже в случае, когда можно найти разделяющий век- вектор на основании конструктивных выборок, не следует предпола- предполагать, что полученный классификатор будет хорошо справляться с независимыми проверочными данными. В гл. 3 мы исходили из того, что любое множество, содержащее число выборок, меньшее, чем 23, вероятно, будет линейно разделяемым. Таким образом, несколькими способами используя большое число конструктивных выборок, чтобы переопределить классификатор, мы бы гарантиро- гарантировали хорошее соответствие его работы на конструктивных и прове- проверочных данных. К сожалению, достаточно большое конструктив- конструктивное множество почти наверняка не будет линейно разделяемым. Поэтому важно знать, как себя ведут процедуры коррекции ошибок в случае неразделяемых выборок. Поскольку в условиях неразделяемых множеств невозможно посредством весового вектора правильно классифицировать каждую выборку, очевидно, что процесс коррекции ошибок может никогда не прекратиться. Каждый алгоритм образует бесконечную последо- последовательность весовых векторов, где любой член может как давать, так и не давать нужного решения. Точное поведение указанных процедур при наличии неразделяемых множеств было строго иссле- исследовано только в нескольких специальных случаях. Известног на- например, что длина весовых векторов, образованных с помощью правила постоянного приращения, ограничена. Правила, опреде- определяющие окончание процедуры коррекции, полученные эмпиричес- эмпирическим путем, часто основываются на тенденции длины весовых векто-
168 Гл. 5. Линейные разделяющие функции ров колебаться около некоторого предельного значения. С теорети- теоретической точки зрения при целочисленных компонентах выборок про- процедура, основанная на использовании правила постоянного прира- приращения, приводит к конечному процессу. Если процесс коррекций заканчивается в некоторой произвольной точке, вектор веса может находиться, а может и не находиться в надлежащем положении. Усредняя весовые векторы, образованные в результате применения правила коррекций, можно уменьшить риск получения плохого решения из-за случайно неудачно выбранного момента окончания процесса коррекций. Был предложен и изучен на практике ряд подобных эвристичес- эвристических модификаций для правил коррекции ошибок. Цель этих модификаций состоит в получении приемлемых характеристик для задач с неразделяемыми множествами при сохранении возможности определения разделяющего вектора для задач с разделяемыми мно- множествами. В качестве общего подхода может быть предложено ис- использование переменного приращения pk, которое стремится к нулю при &-»-оо. Скорость, с которой pft приближается к нулю, является весьма важным фактором. Если скорость слишком мала, результаты будут оставаться зависящими от тех выборок, которые делают мно- множество неразделяемым. Если скорость слишком велика, то вектор веса может сходиться слишком быстро, и процесс закончится до того, как будут достигнуты оптимальные результаты. Один из способов выбора pk состоит в представлении его в виде функции нового показателя качества, убывающей по мере улучшения дан- данного показателя. Другой путь выбора pft — это задание его в виде Pb=Pi/&- Когда мы будем изучать методы стохастической аппрокси- аппроксимации, то увидим, что последний способ выбора ph представляет собой теоретическое решение аналогичной задачи. Однако прежде, чем обратиться к данной теме, рассмотрим подход, при котором жертвуют l возможностью получения разделяющего вектора, с целью достижения нужного компромисса между обеими задачами — как с разделяемыми, так и с неразделяемыми множествами. 5.8. ПРОЦЕДУРЫ МИНИМИЗАЦИИ КВАДРАТИЧНОЙ ОШИБКИ 5.8.1. МИНИМАЛЬНАЯ КВАДРАТИЧНАЯ ОШИБКА И ПСЕВДООБРАЩЕНИЕ В случае ранее рассмотренных функций критерия внимание в основном было сфокусировано на выборках, классифицируемых с ошибкой. Теперь будет рассмотрена функция критерия, включаю- включающая все выборки. Там-, где прежде осуществлялся предварительный поиск весового вектора а, приводящего к положительным значениям все скалярные произведения а*Уь теперь попытаемся получить а*Уг=Ьг, где bt являются произвольно заданными положительными
5.8. Процедуры минимизации квадратичной ошибки 169 константами. Таким образом, задача нахождения решения системы линейных неравенств заменяется более строгой, но более понятной задачей определения решения системы линейных уравнений. Вид системы линейных уравнений упрощается, если ввести мат- матричные обозначения. Пусть У — матрица размера nXd, i-я строка которой является вектором у|, и пусть b — вектор-столбец Ь=(ЬЬ ... ..., &„)*. Тогда наша задача сводится к определению весового век- вектора а, удовлетворяющего уравнению Уа=Ь. B9) Если бы матрица У была невырожденной, то можно было бы записать равенство а=У~хЬ и сразу же получить формальное реше- решение. Однако У является прямоугольной матрицей, у которой число строк обычно превышает число столбцов. Когда уравнений больше, чем неизвестных, вектор а определен избыточно, и обычно точного решения не существует. Однако можно искать весовой вектор а, минимизирующий некоторую функцию разности между УаиЬ. Если определить вектор ошибки е как е=Уа—Ь, C0) то данный подход будет состоять в минимизации квадрата длины вектора ошибки. Данная операция эквивалентна задаче минимиза- минимизации функции критерия, выражаемой суммой квадратичных ошибок: УЛа) = [|Уа-Ь[|2=21(а<у,—Ь,)а- C1) Задача минимизации суммы квадратичных ошибок является классической. Как будет показано в п. 5.8.4, она может быть реше- решена методом градиентного анализа. Простое решение в замкнутой форме можно также получить, образуя градиент V/, = 2 2 (a'y.—ft,)у,- = 2У*(Уа-Ь) i= i и полагая его равным нулю. Отсюда получается необходимое усло- условие У'Уа = У'Ь, C2) и задача решения уравнения Уа=Ь сводится к задаче решения урав- уравнения У'Уа=У*Ь. Большим достоинством этого замечательного уравнения является то, что матрица YfY размера d X d квадратная и часто невырожденная. Если данная матрица невырождена, вектор а может быть определен однозначно: а = (У*У)-1У*Ь = У+Ь, C3) где матрица размера dXn ^ iYt C4)
170 Гл. 5. Линейные разделяющие функции называется псевдообращением матрицы У. Заметим, что если мат- матрица Y квадратная и невырожденная, псевдообращение совпадаете обычным обращением. Следует также отметить, что Y^Y—I, но обычно УУ*Ф1. Если матрица Y'Y вырождена, решение уравнения C2) не будет единственным. Однако решение, обеспечивающее мини- минимальную квадратичную ошибку, существует всегда. В частности, при определении Ft в более общем виде: У+= lim (F'F + e/)-1^* C5) 8 -> 0 можно показать, что данный предел всегда существует, и a— является решением уравнения Уа=Ь, обеспечивающим наименьшую квадратичную ошибку. Указанные и другие интересные свойства псевдообращения подробно изложены в литературе. Решение с наименьшей квадратичной ошибкой зависит от век- вектора допуска Ь, и будет показано, что различные способы выбора b приводят к различным свойствам получаемого решения. Если век- вектор b задан произвольно, то нет оснований считать, что в случае линейно разделяемых множеств решение с наименьшей квадратичной ошибкой даст разделяющий вектор. Однако можно надеяться, что в случае как разделяемых, так и неразделяемых множеств в резуль- результате минимизации функции критерия квадратичной ошибки может быть получена нужная разделяющая функция. Теперь перейдем к исследованию двух свойств решения, подтверждающих данное утверждение. 5.8.2. СВЯЗЬ С ЛИНЕЙНЫМ ДИСКРИМИНАНТОМ ФИШЕРА В данном пункте будет показано, что при соответствующем вы- выборе вектора b разделяющая функция а'у, найденная по методу минимальной квадратичной ошибки, непосредственно связана с ли- линейным дискриминантом Фишера. Для того чтобы показать это, следует вернуться к необобщенным линейным разделяющим функ- функциям. Предположим, что имеется множество п d-мерных выборок Xi, . . . , 7tn, причем «1 из них принадлежат подмножеству 2СХ, поме- помеченному (Oi, а п2 — подмножеству #*2, помеченному и2. Далее поло- положим, что выборка у* образуется из х, путем прибавления порогового компонента, равного единице, и умножением полученного вектора на —1 в случае выборки, помеченной и2. Не нарушая общности, можно положить, что первые пг выборок помечены <ои а последую- последующие «2 помечены со2. Тогда матрицу Y можно представить в сле- следующем виде: Г "i #г~
5.8. Процедуры минимизации квадратичной ошибки 171 где и* является вектор-столбцом из щ компонент, a Xt — матрицей размера «jXd, строками которой являются выборки, помеченные сог. Соответствующим образом разложим аи Ь: a = ь = Можно показать, что при определенном выборе b обнаруживается связь между решением по методу наименьшей квадратичной ошибки и линейным дискриминантом Фишера. Доказательство начнем, записав соотношение C2) для а с исполь- использованием разложенных матриц: г п Ги< -иП Г Ul ХЛ Г<] Ги{ -иП [XI -Х{\ [-и, -X2J [wj [X* -Xi\ C6) Определяя выборочное среднее гпг и матрицу суммарного выбороч- выборочного разброса Sw' mi^Ti 2 х> ' = 1.2, C7) Sff=2 2 (х-т/Нх-т/)*, C8) можно в результате перемножения матриц, входящих в C6), полу- получить следующее выражение: 2j Lw J U(mi~ 1~\-n1tn2) Sw ~Ь n1tn1xni-\-n2 Полученное выражение может рассматриваться как пара уравнений, причем из первого можно выразить w0 через w: B»e = -m*w, C9) где m является средним по всем выборкам. Подставив данное вы- выражение во второе уравнение и выполнив некоторые алгебраичес- алгебраические преобразования, получим тх—т2) (itij—т2)' w= rrii—т2. D0) Поскольку направление вектора (irii—m2) (mi—m2)'w при любом w совпадает с направлением вектора т,,—т2, то можно записать
172 Гл. 5. Линейные разделяющие функции следующее выражение: 2$- (mi—m2) {mx — m2)' w = A —a) (т1 —m2), где а — некоторая скалярная величина. В этом случае соотношение D0) дает A—m2), D1) что, за исключением скалярного коэффициента, идентично решению для случая линейного дискриминанта Фишера. Помимо этого, получаем величину порога w0 и следующее решающее правило: принять решение соь если w* (х—гп)>0; иначе принять решение <о2. 5.8.3. АСИМПТОТИЧЕСКОЕ ПРИБЛИЖЕНИЕ К ОПТИМАЛЬНОМУ ДИСКРИМИНАНТУ Другое свойство решения по методу наименьшей квадратичной ошибки, говорящее в его пользу, состоит в том, что при условии Ь= =и„ и при п->оо оно в пределе приближается в смысле минимума среднеквадратичной ошибки к разделяющей функции Байеса go(x)-P(co1|x)-P(co2|x). D2) Чтобы продемонстрировать данное утверждение, следует пред- предположить, что выборки взяты независимо в соответствии с вероят- вероятностным законом р (х)=р (x|cox)P Ы+р (х|соа)Р (со2). D3) Решение по методу наименьшей квадратичной ошибки с использо- использованием расширенного вектора у дает разложение в ряд функции g(x)=afy, где у=у(х). Если определить среднеквадратичную ошиб- ошибку аппроксимации выражением <у-Яо(х)Р/>(х)Жс, D4) то нашей задачей будет показать, что величина е2 минимизируется посредством решения a=Y*un. Доказательство упростится при условии сохранения различия между выборками класса 1 и класса 2. Исходя из ненормированных данных, функцию критерия Js можно записать в виде Л(а)= 2 (а'у-1)а+ 2 Таким образом, в соответствии с законом больших чисел при стрем- стремлении п к бесконечности (l/ru)Js(a) приближается с вероятностью 1 к
5.8. Процедуры минимизации квадратичной ошибки 173 функции 7(а), имеющей вид 7 (а) = Р (со,) Ех [(а'у-1J] + Р (©,) Е2 [(а(у + 1)*], D5) где Е, [(afy+ IJ] = $ (а'у+ \уР(х\ co2)dx. Теперь, если мы из соотношения D2) определим то получим = J [a'y-go(x)]3p(x)dx + [l~lgl(x)p(x)dx] . D6) Второй член данной суммы не зависит от весового вектора а. Отсюда следует, что а, которое минимизирует Js, также минимизирует и е2 — среднеквадратичную ошибку между а'у и go(x). Данный результат позволяет глубже проникнуть в суть проце- процедуры, обеспечивающей решение по методу наименьшей квадратичной ошибки. Аппроксимируя go(x), разделяющая функция а*у дает не- непосредственную информацию относительно апостериорных вероят- вероятностей Р(со!|х)= 1/2A+go) и Р(со2|х)= 1/2A— g0). Качество аппрок- аппроксимации зависит от функций yt (x) и числа членов в разложении а'у. К сожалению, критерий среднеквадратичной ошибки в основном распространяется не на точки, близкие к поверхности решения go(x)=O, а на точки, для которых значение р(х) велико. Таким об- образом, разделяющая функция, которая наилучшим образом аппрок- аппроксимирует разделяющую функцию Байеса, не обязательно минимизи- минимизирует вероятность ошибки. Несмотря на данный недостаток, решение по методу наименьшей квадратичной ошибки обладает интересными свойствами и широко распространено в литературе. Далее, при рас- рассмотрении методов стохастической аппроксимации, еще предстоит встретиться с задачей среднеквадратичной аппроксимации функции Ы) 5.8.4. ПРОЦЕДУРА ВИДРОУ — ХОФФА Ранее было отмечено, что функцию /s (a)=||Fa—h||2 можно мини- минимизировать при помощи процедуры градиентного спуска. У такого подхода есть два преимущества по сравнению с простым выполнением
174 Гл. 5. Линейные разделяющие функции псевдообращения: 1) не возникает трудностей в случае, когда матрица YfY вырождена, и 2) устраняется необходимость работы с большими матрицами. Кроме того, необходимые вычисления здесь с успехом реализуются схемой с обратной связью, которая автомати- автоматически справляется с некоторыми Вычислительными трудностями, округляя или отбрасывая члены. Поскольку \Js=2Yt(Ya—b), то очевидно, что алгоритм спуска может быть представлен в следую- следующем виде: at произвольно, Будет полезно убедиться, что если где pi — любая положительная константа, то с помощью данного правила можно образовать последовательность весовых векторов, которая сходится к предельному вектору а, удовлетворяющему условию У*(Уа—Ь)=0. Таким образом, алгоритм спуска всегда дает решение независимо от того, будет ли матрица YlY вырожденной или нет. Несмотря на то что матрица YfY размера dXd обычно меньше матрицы У+ размера dXn, сохранившиеся требования могут быть еще далее снижены при последовательном рассмотрении выборок и использовании правила Видроу — Хоффа, записанного в виде а, произвольно, ) у. / <47) На первый взгляд алгоритм спуска представляется таким же, как правило релаксаций. Однако главное их различие состоит в том, что правило релаксаций является правилом коррекции ошибок, так что а?у* всегда меньше bh, тогда как правило Видроу — Хоффа обеспечивает «коррекцию» вектора afe всякий раз, когда а|у* не равно bh. В большинстве случаев, представляющих интерес, невоз- невозможно удовлетворить всем равенствам а(у*=йь, так что процесс коррекций будет непрекращающимся. Таким образом, для сходи- сходимости требуется, чтобы pft уменьшалось вместе С k, Выбор pft = pi/& является типичным. Строгий анализ поведения правила Видроу — Хоффа для детерминированного случая довольно сложен и показы- показывает лишь, что последовательность весовых векторов имеет тенден- тенденцию сходиться к требуемому решению. Вместо дальнейшего разбора этой темы обратимся к очень простому правилу, вытекающему из процедуры стохастического спуска.
5.8. Процедуры минимизации квадратичной ошибки 175 5.8.5. МЕТОДЫ СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ Все итеративные процедуры спуска, рассмотренные ранее, были детерминированными: задавали некоторое множество выборок и образовывали вполне определенную последовательность весовых векторов. В данном пункте придется слегка отступить и рассмотреть процедуры решения по методу наименьшей квадратичной ошибки со случайно формируемыми выборками, что приводит к образова- образованию случайной последовательности весовых векторов. Для полного анализа потребовалось бы использование теории стохастической аппроксимации, и мы бы с этим не справились. Однако основные идеи, которые можно дать без доказательства, просты. Предположим, что выборки взяты независимо путем выделения состояний природы с вероятностью Р(сог) и последующего выбора х в соответствии с вероятностным законом p(x\(i>t). Для каждогох введем метку г, такую, что z= + l при х, соответствующем соь и г= = —1 при х, соответствующем со2. Тогда данные будут представлять собой бесконечную последовательность независимых пар (хи Zi), (Х2, Z2), • • • , (Xft, Zfc), ... . Даже если метка z будет бинарной, это может быть истолковано как зашумленный вариант байесовской разделяющей функции go(x). Данное утверждение вытекает из наблюдения, что так что условное среднее для z задается выражением Еж\х[г]='ЕгР(г\х) = Р (со, | х)- Р (со21 х) =g0 (x). D8) г Предположим, что требуется аппроксимировать ga(x) посредст- посредством следующего конечного разложения в ряд: 2 где известны как базисные функции у,-(х), так и число членов й. Тогда можно определить весовой вектор а, минимизирующий сред- среднеквадратичную ошибку аппроксимации es = ?[(a<y-g0(x))*]. D9) Для минимизации е2 необходимо знать байесовскую разделяющую функцию go(x). Однако, исходя из аналогичной ситуации, рассмот- рассмотренной в п. 5.8.3, можно показать, что весовой вектор а, минимизи- минимизирующий е2, также минимизирует функцию критерия, имеющую вид .Ua)=?[(a<y-z)*]. E0)
176 Гл. 5. Линейные разделяющие функции Данное заключение также должно следовать из того факта, что z, по существу, является зашумленным вариантом go(x) (рис. 5.11). Поскольку J то можно получить решение в замкнутой форме E1) Таким образом, один из способов, основанный на использова- использовании выборок, состоит в оценке Е [уу*1 и Е [гу] и применении выраже- выражения E1) с целью получения оптимальной линейной разделяющей функции. Другой метод заключается в минимизации /ж(а) путем Рис. 5.11. Аппроксимация байесовской разделяющей "функции. применения процедуры градиентного спуска. Допустим, что вместо действительного градиента подставлено выражение для зашум- ленного варианта 2(а'у&—zh) yh. Это приведет к алгоритму спуска следующего вида: l E2) который, по существу, представляет собой правило Видроу — Хоф- фа. Можно показать, что если матрица Е [ууЧ не вырождена и коэф- коэффициенты pfe удовлетворяют условиям +oo, E3) lim 2P*<°°> E4) lim y то аь сходится к а в среднеквадратичном: lim ?[||а*—а Ца] = 0. E5)
5.8. Процедуры минимизации квадратичной ошибки 177 Причины наложения данных условий на pft просты. Первое ус- условие не позволяет весовому вектору сходиться настолько быстро, чтобы систематическая ошибка оставалась бы нескорректирован- нескорректированной. Второе условие обеспечивает то обстоятельство, что случайные колебания в конечном счете гасятся. Оба условия удовлетворяются при соответствующем выборе pft=l/fe. К сожалению, такой вид убы- убывания Pk независимо от рассматриваемой задачи часто приводит к очень медленной сходимости. Конечно, указанный алгоритм не единственный и не лучший ал- алгоритм спуска для минимизации Jm. Например, если матрицу вто- вторых частных производных для Jm задать следующим образом: то можно видеть, что алгоритм Ньютона для минимизации Jт [формула A1I имеет вид а*+1 = Ч + Е WY1 Е К* - а'у) у]. Стохастическим аналогом данного алгоритма является aft+i = aft+#ft+1(zft—а&А)у* E6) при RAi^Rf+ytf,. E7) или, что эквивалентно х), С помощью данного алгоритма также образуется последователь- последовательность весовых векторов, сходящихся к оптимальному решению в среднеквадратичном. В этом случае последовательность сходится быстрее, однако требуется выполнение большего количества вычис- вычислений за шаг. Указанные градиентные процедуры могут рассматриваться как методы минимизации функции критерия, или определения нуля ее градиента, в присутствии помех. В литературе по статистике такие функции, как Jm и \Jm вида Е [/(а, хI, называются регрессионны- регрессионными функциями, а итерационные алгоритмы называются процеду- процедурами стохастической аппроксимации. Наиболее известными из них является процедура Кифера — Вольфовица, применяемая для минимизации регрессионной функции, и процедура Роббинса — Монро, используемая для определения корня регрессионной функ- функции. Зачастую легче всего доказать сходимость процедуры спуска или процедуры аппроксимации, показав, что она удовлетворяет х) Данная рекуррентная формула для вычисления /?*, которое приблизи- приблизительно равно (l/AiJflyy'], не может быть использована, если матрица R^ вырож- вырождена. Эквивалентность соотношений E7) и E8) вытекает из задачи 10 гл. 3.
178 Гл. 5. Линейные разделяющие функции условиям сходимости более общих процедур. К сожалению, пред- представление данных методов в полном объеме завело бы нас довольно далеко, и в заключение мы можем лишь посоветовать интересую- интересующимся читателям обратиться к литературе. 5.9. ПРОЦЕДУРЫ ХО —КАШЬЯПА 5.9.1. ПРОЦЕДУРА СПУСКА Процедуры, рассмотренные до сих пор, различались в разных отношениях. При методе персептрона и процедуре релаксаций раз- разделяющий вектор определялся в случае линейно разделяемых мно- множеств, однако в случае неразделяемых множеств сходимости не наб- наблюдалось. Процедуры нахождения решения по методу наимень- наименьших квадратов дают весовой вектор как в случае линейно разделяе- разделяемых, так и в случае линейно неразделяемых выборок, однако нет гарантии, что указанный вектор будет разделяющим вектором в слу- случае разделяемых множеств. Если вектор допуска b выбран произ- произвольным образом, то можно сказать, что процедуры для решения по методу наименьших квадратов минимизируют выражение ||Уа— —Ь|!2. Тогда, если взятые выборки линейно разделяемы, существуют такие а и Ь, что выполняется следующее условие: Уа = 6>0, где Ь>0, что указывает на положительность каждой компоненты Ь. Очевидно, что при использовании равенства b=b и применении про- процедуры решения методом наименьших квадратов был бы получен разделяющий вектор. Конечно, обычно b заранее неизвестно. Одна- Однако покажем теперь, как процедура решения по методу наименьших квадратов может быть модифицирована для получения как разде- разделяющего вектора а, так и вектора допуска Ь. Проводимая идея вы- вытекает из наблюдения, что если выборки разделимы и векторы как а, так и Ь, содержащиеся в функции критерия У,(а, Ь) = ||Ка-Ь||\ могут изменяться (при условии, что Ь>0), то минимальное значе- значение Js равно 0, а а, которое достигается при данном минимуме, яв- является разделяющим вектором. Для минимизации Js будем использовать модифицированную процедуру градиентного спуска. Градиент функции Js, взятый относительно а, записывается в виде Ъ), E9) а градиент, взятый относительно Ь, задается в виде Ь). F0)
5.9. Процедуры Хо — Кашьяпа 179 При любой величине b можно всегда принять а = У+Ь, F1) получая тем самым Va Js=0 и минимизируя Js по а за один шаг. Больших возможностей для изменения Ь, однако, не имеется, по- поскольку нужно придерживаться условия Ь>0, так что следует избе- избегать процедуры спуска, которая приводит кЬ=0. Один из способов, препятствующий сходимости b к 0, заключается в том, чтобы по- положить вначале Ь>0 и впоследствии не уменьшать никакую из его компонент. Этого можно достичь при сохранении отрицательного градиента, если вначале все положительные компоненты Vt,./» взять равными 0. Таким образом, если через |v| обозначить вектор, компоненты которого суть абсолютные величины компонент век- вектора v, то придем к рассмотрению такой процедуры спуска: —р j [VbJs—I VbA II- Используя соотношения F0) и F1) и несколько более конкрети- конкретизируя, получим алгоритм Хо — Кашьяпа минимизации функ- функции Js(a, b): bt > 0, в остальном произвольный,"I F2) где th является вектором ошибки: eh=rah-bh, F3) a ej — положительная составляющая вектора ошибки: e*+ = j(eA + |eft|), F4) и aft = KV k = \, 2 F5) Поскольку весовой вектор aft полностью определяется вектором допуска bft, то это, по существу, и есть алгоритм для образова- образования последовательности векторов допуска. Вектор bi, с которого начинается последовательность, положителен, и если р>0, то все последующие векторы bft будут положительны. Мы можем опасать- опасаться, что если ни одна из компонент вектора eft не положительна, так что изменениеbk прекращается, то мы не получим решения. Однако, как мы увидим, в этом случае либо eft=0 и решение получено, либо еь^0 и можно доказать, что выборки линейно не разделяемы.
180 Гл. 5. Линейные разделяющие функции 5.9.2. ДОКАЗАТЕЛЬСТВО СХОДИМОСТИ Покажем теперь, что если выборки линейно разделяемы и 0<р < <1, то процедура Хо — Кашьяпа будет давать вектор решения за конечное число шагов. Чтобы сделать алгоритм конечным, следо- следовало бы добавить правило остановки, по которому процесс кор- коррекций прекратится сразу же, как будет найден вектор решения. Однако более удобно считать процесс коррекций непрерывным и показать, что вектор ошибки ек либо становится нулевым при неко- некотором конечном k, либо сходится к нулевому при k-+<x>. Очевидно, что либо еА=0 при некотором k, скажем при k0, либо в последовательности еь е2, . . . не содержится нулевых век- векторов. В первом случае, как только нулевой вектор получен, ни один из векторов aft, bft или eft больше не изменяется и Kaft=bA>0 для всех k^k0. Таким образом, при получении нулевого вектора ошибки алгоритм автоматически останавливается, и мы имеем век- вектор решения. Предположим теперь, что eh никогда не станет нулевым при конечном k. Чтобы показать, что efe тем не менее должно сходиться к нулю, сначала поставим вопрос, возможно ли получение eft с не- неположительными компонентами. Указанное обстоятельство долж- должно быть наиболее нежелательным, поскольку требуется, чтобы вы- выполнялось условие Faft^bk, и поскольку е% должно быть нулевым, чтобы прекратилось дальнейшее изменение aft, bft или eft. К сча- счастью, данная ситуация может никогда не возникнуть, если выборки линейно разделяемы. Доказательство просто и основано на том факте, что если YtYah=Yibh, то У'еА=0. Однако в случае ли- линейно разделяемых выборок существуют такие а и 6>0, что спра- справедливо соотношение Уа = Ь. Таким образом, и поскольку все компоненты вектора b положительны, то либо eft= =0, либо по крайней мере одна из компонент eft должна быть поло- положительна. Поскольку случай eft—0 исключен, из этого следует, что е% может не быть нулем при конечном k. Для доказательства того, что вектор ошибки всегда сходится к нулю, используется тот факт, что матрица YY* симметрична, поло- положительно полуопределена и удовлетворяет соотношению (yyt)<(yyt) = yyt. F6) Хотя эти результаты справедливы и в общем случае, для простоты рассмотрим их только для невырожденной матрицы Y*Y. В этом случае YY^= Y (Y^)'1^*, и симметричность очевидна. Посколь- Поскольку матрица YlY является положительно определенной, то сущест-
5.9. Процедуры Хо — Кашьяпа 181 вует матрица (УгУ)-и, таким образом, Ь'У (YfY)-1 У'Ь>0 при лю- любом Ь, и матрица УУ+ является по крайней мере положительно по- полуопределенной. Итак, соотношение F6) вытекает из следующего: (yyt)< (yyt) = [у (y<y)-iy<] [У (У'У)-1У]. Чтобы показать, что eft должно сходиться к нулю, исключим ak из F3)—F5) и получим следующее выражение: Затем, используя F2), получим рекуррентную формулу так что Как второй, так и третий члены значительно упрощаются. По- Поскольку е?У=0, второй член представляется в виде ре? (YYt - /) tt = -pele* = -р || е^Р; ненулевые компоненты вектора t% являются положительными компонентами вектора еь. Поскольку матрица YY* симметрична и равна произведению (YY^)( (YY*), третий член упростится до следующего выражения: Таким образом, (llellall«ll2)P(l T t F8) Поскольку предполагается, что вектор е* ненулевой и матрица YY* является положительной полуопределенной, то||еь||2>|[ек+1[|2, если 0<р<1. Таким образом, последовательность ||ех112, ||е2||2, . . • будет монотонно убывающей и должна сходиться к некоторому предельному значению ||е||2. Однако в случае рассматриваемой сходимости eft должно сходиться к нулю, так что все положитель- положительные компоненты eft должны сходиться к нулю. И поскольку е?Ь= =0 для всех k, отсюда следует, что все компоненты вектора efe должны сходиться к нулю. Таким образом, при условии, что 0<С <р<1 и выборки линейно разделяемы, ah будет сходиться к вектору решения при к, стремящемся к бесконечности. Если на каждом шаге проверяются знаки компонент вектора Yah и алгоритм останавливается при условии, что они положительны,
182 Гл. 5. Линейные разделяющие функции то фактически получаем разделяющий вектор в случае конечного числа шагов. Это следует из того факта, что Уаь=Ьй+ей и что ком- компоненты вектора bft никогда не убывают. Таким образом, если Ьт{„ является наименьшей компонентой вектора bi и если efe сходится к нулю, то вектор efe должен попасть в гиперсферу ||eft||=6min после конечного числа шагов, при котором Kaft>0. Хотя в целях упроще- упрощения доказательства условия остановки были исключены, указан- указанное условие должно всегда применяться на практике. 5.9.3. ПОВЕДЕНИЕ В СЛУЧАЕ НЕРАЗДЕЛЯЕМЫХ МНОЖЕСТВ Если только что приведенное доказательство сходимости рас- рассмотреть с целью выяснения использования предположения о раз- деляемости, то окажется, что данное предположение было исполь- использовано дважды. Во-первых, было использовано соотношение efeb=O, чтобы показать, что либо еь=0 при некотором конечном k, либо е* никогда не станет нулевым и коррекции не прекратятся. Во-вторых, такое же условие было использовано с целью показать, что если е% сходится к нулю, то eh тоже должно сходиться к нулю. Если выборки линейно не разделяемы, то из этого больше не сле- следует, что при еь равном нулю, efe тоже должно быть равным нулю. Действительно, для задачи с неразделяемым множеством вполне можно получить ненулевой вектор ошибки с положительными ком- компонентами. Если это происходит, алгоритм автоматически останав- останавливается и обнаруживается, что выборки неразделяемы. Что получается, если образы неразделяемы, а е% никогда не обращается в нуль? В данном случае все же выполняются F7) F8) Таким образом, последовательность ||ei||2, ||е2||2, . . . все еще схо- сходится, хотя предельное значение ||е||а может не быть равным нулю. Поскольку условие сходимости требует, чтобы вектор е| сходился к нулю, можно сделать заключение, что либо е^=0 при некотором конечном k, либо е& сходится к нулю, тогда как значение ||еь|| отличается от нулевого. Таким образом, алгоритм Хо — Кашьяпа дает разделяющий вектор для случая разделяемых множеств и яв- явно обнаруживает неразделяемость для случая неразделяемых мно- множеств. Однако не существует ограничения числа шагов, необходи- необходимых для обнаружения нераздел я емости.
5.9. Процедуры Хо — Кашьяпа 183 5.9.4. НЕКОТОРЫЕ СВЯЗАННЫЕ ПРОЦЕДУРЫ Если записать равенство У+ = (Y^)-^* и использовать соот- соотношение yfeh=0, то алгоритм Хо — Кашьяпа можно представить в виде bj > 0, в остальном произвольно, где, как обычно, th=Yak-bh. G0) Данный алгоритм отличается от алгоритмов персептрона и ре- релаксаций для решения линейных неравенств по крайней мере тремя свойствами: 1) он изменяет как весовой вектор а, так и вектор до- допуска Ь, 2) он явно обнаруживает наличие неразделяемости, одна- однако 3) требует псевдообращения Y. Даже при однократном проведе- проведении указанного вычисления необходимо затратить некоторое время и применить специальную обработку, если матрица YlY вырожде- вырождена. Другой алгоритм, представляющий интерес, имеет сходство с F9), но исключает необходимость вычисления У*. Он записывается следующим образом: Ъ1 > 0, в остальном произвольно, ai произвольно, ( G1) где R является произвольно выбранной постоянной положительно определенной матрицей размера dxd. Покажем, что при правиль- правильном выборе р данный алгоритм также будет давать вектор решения за конечное число шагов, при условии что решение существует. Более того, если решение не существует, вектор Yf\th\ либо обра- обращается в нуль, указывая на неразделяемость, либо сходится к нулю. Доказательство проводится весьма непосредственно. В случае, когда выборки либо линейно разделяемы, либо линейно неразде- ляемы, соотношения G0) и G1) показывают, что Таким образом, II е*+1 ||а = | е, |* (р*У RY *Y RY - 2рУ RY* + I)\tk\ Це*||а-||е,+1||2 = (У'|ей|)М(У'|еА|), G2) где A = 2pR-p*RYtR. G3)
184 Гл. 5. Линейные разделяющие функции Очевидно, что если р положительно, но достаточно мало, матрица А будет приблизительно равна 2pR и, следовательно, будет поло- положительно определенной. Таким образом, если yf|efe|^0, получим 1Ы12|||| |Л+1 Здесь следует провести различие между случаями разделяемых и неразделяемых множеств. При наличии разделяемого множества существуют векторы а и Ь>0, удовлетворяющие выражению Уа=1>. Таким образом, если |efeM=0, то справедливо соотношение так что вектор У'|еЛ| не может быть нулевым, если eh не равно ну- нулю. Таким образом, последовательность ||ei||2, ||еа||2, . . . является монотонно убывающей и должна сходиться к некоторому предель- предельному значению ||е||8. Однако в условиях рассматриваемой сходимо- сходимости вектор У* |eft| должен сходиться *) к нулю, откуда вытекает, что |eft | и, следовательно, th также должен сходиться к нулю. По- Поскольку вй начинается с положительного значения и никогда не убывает, отсюда следует, что aft должен сходиться к разделяюще- разделяющему вектору. Более того, при использовании вышеприведенного ут- утверждения решение фактически получается после конечного числа шагов. В случае неразделяемых множеств вектор eh может либо быть ненулевым, либо не сходиться к нулю. Может оказаться, что на не- некотором шаге будет У'|еЛ|=0; это доказывает наличие неразделяе- мости множеств. Однако возможна и другая ситуация, при которой коррекции никогда не прекращаются. В данном случае из этого опять следует, что последовательность ||ei||2, ||ea||2, ... должна схо- сходиться к предельному значению ||e||V=0 и что вектор У'||еь|| должен сходиться к нулю. Таким образом, опять получаем очевидность неразделяемости в случае неразделяемых множеств. Заканчивая разбор данной темы, коротко рассмотрим вопрос вы- выбора р и R. Простейшим вариантом выбора R является единичная матрица, в случае которой Л=2р/ — р2У(У. Данная матрица бу- будет положительно определенной, что гарантирует условие сходимо- сходимости, если 0<р<2Дтах, где Ятах является наибольшим собственным значением матрицы Y*Y. Поскольку след матрицы YfY представ- представляется как суммой собственных значений матрицы Y*Y, так и сум- суммой квадратов элементов матрицы У, то при выборе величины р мо- может быть использована пессимистическая граница, а именно 2||| у,|| Более интересный подход состоит в выборе такого значения р на каждом шаге, которое минимизирует выражение ||ей||2—||eft+1||2. ') Возможно, конечно, что на некотором шаге получим е^=0, и тогда сходи- сходимость будет наблюдаться в данной точке.
5.10. Процедуры линейного программирования 185 Из соотношений G2) и G3) получаем 1| 'е,|. G4) Дифференцируя по р, получаем оптимальную величину pfe, вы- выражаемую отношением которое при R = I упрощается до выражения Ji2l?iMlL. Gб) Такой же подход можно применить для выбора матрицы R. За- Заменяя R в соотношении G4) симметричной матрицей R-j-SR и от- отбрасывая члены второго порядка, получаем выражение Таким образом, уменьшение вектора квадратичной ошибки макси- максимизируется при выборе 1\ G7) и, поскольку p#y*=yt , алгоритм спуска становится, по существу, аналогичным первоначальному алгоритму Хо — Кашьяпа. 5.10. ПРОЦЕДУРЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 5.10.1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ Методы персептрона, релаксаций и Хо — Кашьяпа являются по существу методами градиентного спуска, приспособленными для решения систем линейных неравенств. Техника линейного программирования сводится к процедурам максимизации или мини- минимизации линейных функций, удовлетворяющих линейному урав- уравнению и наложенным на них ограничениям в виде линейных нера- неравенств (заметим, что решение этих неравенств является частью об- общего решения задачи линейного программирования). В этом разде- разделе будут рассмотрены два возможных подхода к решению таких задач. Для усвоения излагаемого материала от читателя не потребу- потребуется никаких предварительных знаний из области линейного про- программирования, хотя они могли бы оказаться полезными при реше- решении практических задач. Классическая задача линейного программирования формули- формулируется следующим образом: найти вектор и = (ыь ы8, .... Ыд)*,
186 Гл. 5. Линейные разделяющие функции который минимизирует линейную целевую функцию 2 = «*и G8) и удовлетворяет ограничению Аи > р, G9) где а есть (тх1)-вектор цен, (i — /xl-векториЛ—/х/п-матрица. Для решения поставленной задачи может быть использован сим- симплекс-метод; его описание можно найти в любой книге по ли- линейному программированию. Симплекс-метод представляет со- собой классическую итеративную процедуру. Его использование требует введения еще одного ограничения для вектора и, а именно и>0. (80) Если искать и в виде некоторого весового вектора а, то такое огра- ограничение неприемлемо, так как в большинстве случаев вектор реше- решения будет иметь как положительные, так и отрицательные компо- компоненты. Однако если представить а в виде а=а+ — а", (81) где 4 (82) а-=1(|а|-а), (83) то и а+, и а" будут неотрицательны. Отождествляя компоненты и, например, с компонентами а+ и а~, мы можем наложить ограниче- ограничение О 5.10.2. СЛУЧАЙ ЛИНЕЙНО РАЗДЕЛЯЕМЫХ МНОЖЕСТВ Пусть имеется множество из п выборок уь . . ., уп и требуется найти весовой вектор а, удовлетворяющий неревенству а*уг^ ^6j>0 при всех i. Как сформулировать эту задачу в терминах ли- линейного программирования? Один из способов состоит в введении так называемой искусственной переменной t с помощью выражений Если t достаточно велико, эти условия выполняются без труда, на- например если а=0 и t=maxbi1). Однако такой случай не представляет *) В терминах линейного программирования любое решение, удовлетворяю- удовлетворяющее налагаемым ограничениям, называется допустимым решением. Допустимое решение, для которого число ненулевых переменных не превосходит числа ог-
5.10. Процедуры линейного программирования 187 интереса с точки зрения решения поставленной задачи. Нас инте- интересует как раз случай, когда ?=0, т. е. тот случай, когда t прини- принимает минимальное значение, при которрм еще выполняется усло- условие С^О. Таким образом, мы приходим к следующей задаче: найти минимальное значение t среди всех t и а, удовлетворяющих усло- условиям a*y,-b^fcj и ?^0. Если в результате t окажется равным ну- нулю, то выборки линейно разделяемы и полученный весовой вектор и будет искомым. Если же t окажется положительным, то разделяю- разделяющего вектора не существует и, следовательно, выборки линейно не- неразделяемы. Формально наша задача состоит в том, чтобы найти вектор и, минимизирующий целевую функцию z=a*u и удовлетворяющий ограничениям Ли ^0 и и ^0, где \ —V,' 1 1 yl -ЗП -У1. -у* 1 1. К J>n^ Таким образом, задача линейного программирования содержит m=2d+\ переменных и 1=пограничений плюс ограничения симп- симплекс-метода и^О. Симплекс-метод позволяет за конечное число ша- шагов найти минимальное значение целевой функции z=a*u =t; одновременно с этим определяется и вектор и, доставляющий г это значение. Если выборки линейно разделяемы, то минимальное значение t равно нулю, и вектор решения а может быть получен из и. Если же выборки неразделяемы, то минимальное значение t будет положительным числом. Полученное значение вектора и обычно не пригодно в качестве приближенного решения, но по край- крайней мере позволяет получить доказательство неразделяемости взя- взятых выборок. 5.10.3. МИНИМИЗАЦИЯ ПЕРСЕПТРОННОЙ ФУНКЦИИ КРИТЕРИЯ В большинстве прикладных задач классификации образов нельзя а priori предполагать, что выборки линейно разделяемы. Это относится, например, к случаю, когда образы неразделяемы, и все же требуется найти весовой вектор, с помощью которого можно было бы правильно классифицировать как можно большее число выборок. К сожалению, количество ошибок не является линейной функцией компонент весового вектора, а ее минимизация не явля- раничений (не считая специального требования симплекс-метода о неотрицательно- неотрицательности переменных), называется базисным допустимым решением. Таким образом, решение а=0 и <=тахй,- является базисным допустимым решением. Наличие такого решения упрощает применение симплекс-метода.
188 Гл. 5. Линейные разделяющие функции ется задачей линейного программирования. Однако оказывается, что задачу минимизации персептроннои функции критерия можно сформулировать как задачу линейного программирования. По- Поскольку минимизация такой функции критерия дает разделяющий вектор в случае разделяемых множеств и приводит к разумному ре- решению в случае, когда выборки неразделяемы, такой подход явля- является чрезвычайно привлекательным. Базисная персептронная функция критерия задается следую- следующим выражением: 2 A2) где У (а) — множество выборок, классифицируемых с ошибкой по- посредством вектора а. Для того чтобы исключить тривиальное реше- решение а=0, введем положительный вектор допуска b и напишем вы- выражение •W = S F*-а*У,), (84) у,- е 3/' где у/ ?3/', если а'уг<Ьг. Очевидно, что J'p является не линейной, а кусочно линейной функцией от а, и поэтому непосредственное применение метода линейного программирования здесь невозможно. Однако если ввести п искусственных переменных и соответствую- соответствующих им ограничений, то можно построить некоторую эквивалент- эквивалентную линейную целевую функцию. Рассмотрим задачу отыскания векторов а и t, минимизирующих линейную функцию при ограничениях Очевидно, что для любого фиксированного значения вектора а минимальное значение z в точности равно J'p(a), поскольку при имеющихся ограничениях мы получим наилучший результат, если положим ^=тах @, Ьг—а*у*)- Если теперь найти минимум z по всем возможным значениям t и а, то мы получим минимально воз- возможное значение J'p(a). Таким образом, задачу минимизации Jp(a) мы свели к задаче минимизации линейной функции z при наличии ограничений в виде линейных неравенств. Приняв пп за я-мерный единичный вектор, приходим к следующей задаче с m=2d-\-n пере- переменными и 1—п ограничениями: минимизировать а*и при условии
5.10. Процедуры линейного программирования 189 и u^O, где у1 -у* о -yj о l . ti -yi 0 0 ... U o- 0 i. , u = Га+' a" J « =  " 0 _u»_ » P = .2 Х- Выбор а=О и ti—bi обеспечивает базисное допустимое решение, ко- которое позволяет теперь применить алгоритм симплекс-метода. В ре- результате за конечное число шагов может быть определено то значе- значение а, которое доставляет минимум J'p(a). 5.10.4. ЗАМЕЧАНИЯ Мы описали два способа постановки задачи отыскания линейной разделяющей функции как задачи линейного программирования. Существуют и другие способы, среди которых особый интерес с вы- вычислительной точки зрения представляют те методы, которые сфор- сформулированы на основе двойственной задачи. Вообще говоря, методы типа симплекс-метода есть не что иное, как несколько усложненные методы градиентного спуска, предназначенные для отыскания экстремумов линейных функций при наличии ограничений в виде линейных неравенств. Подготовка алгоритма линейного программирования для решения на ЭВМ обычно представляет со- собой более сложную задачу по сравнению с такой же операцией, примененной для более простых процедур спуска, которые мы опи- описывали ранее. Однако блоки общего назначения, составленные для задачи линейного программирования, часто могут быть использованы либо без всяких изменений, либо с очень незначительными измене- изменениями в других задачах. При этом сходимость процесса гарантиро- гарантирована как в случае линейной разделяемости, так и в случае, когда исходные выборки неразделяемы. Различные алгоритмы для отыскания линейных разделяющих функций, описанные в данной главе, сведены в табл. 5.1. Естествен- Естественно спросить, какой же из этих алгоритмов является наилучшим. Однозначного ответа на этот вопрос дать нельзя. Выбор подходя- подходящего алгоритма определяется такими фактами, как необходимые характеристики, простота программирования, количество и размер- размерность выборок. Если линейная разделяющая функция обеспечивает незначительный процент ошибок, любая из этих процедур при кор- корректном ее применении позволит получить хорошее качество реше- решения.
Процедуры спуска для отыскания линейных разделяющих функций Таблица 5Л Процедура С ПОСТОЯН- ПОСТОЯННЫМ при- приращением с перемен- переменным при- приращением релаксаций Видроу — Хоффа стохастиче- стохастической ап- проксима- проксимации Функция критерия а'у<0 Jp= У ~(а*у-&) . 1 v^ (а*у—бJ ' 2L || у ||» ~2Js = -2^L (afy,—btJ Алгоритм спуска а*+1 == aft -f Рк Фк — а^у*)у* + Р* (гк— а?У*)У* + Rk (гк—а^у*)Уй Условия — 0< р < 2 Pfe > 0, pft-s-0 2 Pa -*00. Примечания В случае линейной раз- деляемости сходится за конечное число шагов к решению с а*у > 0; а* всегда ограничено В случае линейной раз- деляемости сходится к решению с а*у > Ь. Схо- Сходится за конечное число шагов, если 0<<х<р?<Р< оо В случае линейной раз- деляемости сходится к решению с а*у S3 Ь. Если Ь > 0, сходится за ко- конечное число шагов к решению с afy > 0 Стремится к решению, ми- минимизирующему Js Содержит бесконечное число выборок, полу- полученных случайным пе- перебором; в смысле сред- среднеквадратичного схо- сходится к решению, мини- минимизирующему Jm; кро- кроме того, обеспечивает наилучшее в смысле ми- минимума квадратичной ошибки приближение для байесовской разде- разделяющей функции
псевдообра- псевдообращения Хе—Кашья- па линейного програм- программирования /, = ||Уа-Ь||« /, = ]|Ка-Ь||» t= max [— (afy,—6,)] Л,<*/ а*У,< »/ а = У*Ь bA+i = bft+p(eA + |eA|) еА = КаА—bA aA = KtbA b*+i = bA + (eA+ |eA|) a*+i = a* + pft/?r*|eft| Сим плекс-метод Симплекс-метод — 0< p < 1, bt >0 _ |c*|'K/?y*|e*| |е*|<К/?Н'К/?Н'|е*| оптимален; /? симметрична, положи- положительно определена; Ьх>0 а*у,-+*гзбл /^=0 Классическое решение ме- методом наименьших квад- квадратов; специальный вы- выбор b дает линейный дискриминант Фишера и наилучшее в смысле ми- минимума квадратичной ошибки приближение для байесовской разде- разделяющей функции а^ есть решение по методу наименьших квадратов для каждого Ь*; в слу- случае линейной разделяе- мости сходится за ко- конечное число шагов; если ед s? 0, но е/, Ф 0, выборки неразделяемы В случае линейной разде- ляемости сходится за ко- конечное число шагов; если К*| еА|=0, но екф0. выборки неразделяемы И в разделяемом, и в не- неразделяемом случая х схо- сходится за конечное чи- число шагов; полезным яв- является решение только в случае разделяемое™ Как в разделяемом, так и в неразделяемом случае сходится за конечное число шагов к решению, минимизирующему пер- септроиную функцию критерия
192 Гл. 5. Линейные разделяющие функции 5. И. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ Рассмотрение способов определения линейных разделяющих функций будет неполным, если мы не упомянем о методе потенци- потенциальных функций. Данный подход тесно связан с некоторыми уже рассмотренными нами методами, такими, как оценки парзеновского окна, метод персептрона и метод стохастической аппроксимации. Толчком к созданию метода потенциальных функций послужило следующее обстоятельство; если выборки х, представлять себе как точки некоторого пространства и в эти точки поместить заряды со- соответственно +qit если х( помечено символом a>i, и — qtt если xt Рис. 5.12. Поле распределения потенциала как разделяющая функция. О — выборки класса 1, X — выборки класса 2. помечено символом сог, то, возможно, функцию, описывающую рас- распределение электростатического потенциала в.таком поле, можно будет использовать в качестве разделяющей функции (рис. 5.12). Если потенциал точки х, создаваемый единичным зарядом, находя- находящимся в точке xf, равен /С(х, xj), to потенциал, создаваемый п за- зарядами в точке х, определяется выражением х,.). (85) Потенциальная функция К (х, х*), используемая в классичес- классической физике, обратно пропорциональна величине ||х—х*||. Имеется и много других функций, которые с таким же успехом могут.быть использованы для наших целей. Существует очевидная аналогия между функцией К (х, хг) и функцией парзеновского окна <р [(х— —X{)//tl; по своему виду разделяющая функция g(x) очень похожа на разность оценок парзеновского окна для случая двух
5.11. Метод потенциальных функций 193 плотностей. Но поскольку нашей задачей является лишь построе- построение нужной разделяющей функции, в этом смысле значительно мень- меньше ограничений существует при выборе,потенциальной функции, чем при выборе функции окна. Наиболее часто используется такая потенциальная функция, которая имеет максимум при х=хг и моно- монотонно убывает до нуля при ||х—х4||->оо. Однако в случае необходи- необходимости и эти ограничения можно снять. Пусть имеется множество из п выборок, а разделяющая функ- функция сформирована в соответствии с выражением (85). Предположим далее, что при проверке обнаружено, что некоторая выборка, ска- скажем xh, посредством функции g (x) классифицируется с ошибкой. Попробуем исправить ошибку, изменив немного величину qh x). Предположим, что значение qk увеличивается на величину единич- единичного заряда, если xk помечено символом со1( и уменьшается на та- такую же величину, если xh помечено символом со2. Если обозначить значение разделяющей функции после коррекции через g' (х), то алгоритм формирования данной функции может быть записан в следующем виде: {g(x) + /C(x, xft), если xk обозначен щ и g(Xj)<0, g(x)—/C(x, xft), если xk обозначен <оа и g (xft) > 0, (86) g(x) в противном случае. Данное правило коррекции ошибок имеет много общего с пра- правилом постоянных приращений. Природа этой связи станет вполне понятна, если представить К(х, xk) в виде симметричного конечно- конечного разложения а К (х, зс») = ^ У) (х) yj (x,) - yjy, (87) где у=у(х) и Ук=у(х&). Подставив данное выражение в (85), по- получим где п а- 23?#/• Более того, алгоритм для вычисления g' (x) на основе использования g (x) представляет лишь ненормированное правило постоянных при- г) Если пики потенциальной функции являются достаточно острыми (по сравнению с расстояниями между ними), то всегда можно изменить величины зарядов таким образом, чтобы все выборки классифицировались правильно. Если же потенциальная функция сравнительно полога и имеет медленно спадающие вершины, то безошибочная классификация не может быть гарантирована.
194 Гл. 5. Линейные разделяющие функции ращений: если yk помечено символом (ох и если yk помечено символом ю2 и в остальных случаях. Таким образом, если /С(х, xfe) может быть представлено в виде выражения (87), сходимость доказывается точно так же, как и для правила постоянных приращений. Более того, является очевидным, что при использовании других процедур, таких, как метод релак- релаксаций, метод наименьшей квадратичной ошибки и метод стохасти- стохастической аппроксимации, можно сразу же получить «параллельные» им процедуры, основанные на применении потенциальных функций; при этом доказательства сходимости таких «параллельных» проце- процедур совершенно аналогичны. Метод потенциальных функций, конечно, не ограничивается использованием только таких функций, которые имеют вид конеч- конечной суммы. Любая подходящая для наших целей функция, такая, например, как 2 ИЛИ /С(х, х*)=ехр[— 2^21| х—xft может быть выбрана в качестве потенциальной*); разделяющая функция получится, если рассматривать выборки последовательно: х1, х2, . . ., х*, . . . и использовать какую-либо итеративную про- процедуру, например gr*+i(x)=gr*(x) + '-A(x, х*)/С(х, х*), где rh— некоторая функция ошибки. При практическом применении метода потенциальных функций встречаются те же трудности, что и при использовании оценок пар- зеновского окна. Необходимо очень внимательно отнестись к выбо- выбору потенциальной функции, чтобы получить хорошую интерпо- интерполяцию между точками выборки. При большом числе выборок по- появляются значительные трудности, связанные с процессом вычисле- вычисления. Вообще использование метода потенциальных функций наибо- х) Те, кто знаком с интегральными уравнениями, заметят сходство между К(х, х^ и ядром K(s, t). При определенных условиях симметричные ядра можно представить в виде бесконечных рядов 2«р,-($)фг-(/)/Х,,-, где ср,- и \, — собственные функции и собственные значения К, соответственно (см. Курант и Гильберт, гл. III, 1953). Известные ортогональные функции математической физики яв- являются собственными функциями симметричных ядер, и их часто рекомендуют использовать при формировании потенциальных функций. Однако эти рекомен- рекомендации вызваны скорее математическим изяществом, чем практической пользой.
5.12. Обобщения для случая многих классов 195 лее оправдано в случае, когда либо число выборок невелико, либо размерность х достаточно мала, чтобы функцию g(x) можно было представить в виде таблицы дискретных значений х. 5.12. ОБОБЩЕНИЯ ДЛЯ СЛУЧАЯ МНОГИХ КЛАССОВ 5.12.1. МЕТОД КЕСЛЕРА У нас пока не существует единого универсального метода, с по- помощью которого можно было бы распространить все процедуры для двух классов на случай многих классов. В разд. 5.2.2 было приведе- приведено определение классификатора для случая многих классов, наз- названного линейной машиной; классификация образов осуществляет- осуществляется линейной машиной путем вычисления с линейных разделяющих функций gi (х) = wfx+a>,-0, i = l, ..., с, при этом х относится к тому классу, которому соответствует наи- наибольшая gt (x). Это довольно естественное обобщение с точки зре- зрения результатов, полученных в гл. 2 для задачи с многомерным нор- нормальным распределением. Следующий шаг, очевидно, может быть связан с обобщением понятия линейной разделяющей функции; введем вектор-функцию у(х), зависящую от х, и напишем выраже- выражение g,-(x) = afy, i = l, ...,c, (88) где х снова ставится в соответствие юг, если &(х) >g)(x) для всех \Ф1. Обобщение процедур, рассмотренных для линейного классифи- классификатора двух классов, на случай линейной машины для многих клас- классов наиболее просто осуществляется при линейно разделяемых вы- выборках. Пусть имеется множество помеченных выборок уь у2, . . . у„, причем число пх выборок, принадлежащих подмножеству Щи помечены юь число «2 выборок, принадлежащих подмножест- подмножеству 2/2, помечены ю2, ... и число пс выборок подмножества 2/с помечены юс. Говорят, что данное множество линейно разделяемо в том случае, если существует такая линейная машина, которая правильно классифицирует все выборки. Далее, если эти выборки линейно разделимы, то существует множество весовых векторов at, . . ., ас, таких, что если yh ?<&h то afr* > 3-У* (89) для всех /V=i. Одним из преимуществ такого определения является то, что, не- несколько видоизменив неравенства (89), можно свести задачу для многих классов к случаю двух классов. Предположим на минуту,
196 Гл. 5. Линейные разделяющие функции что у ?2/i, так что выражение (89) принимает вид a[y-afr>0, / = 2, ...,с. (90) Это множество (с — 1) неравенств можно интерпретировать как тре- требование существования of-мерного весового вектора LA-J который бы правильно классифицировал все (с—1) cd-мерных вы- выборок - г —у 0 • У^ 0 —у • В более общем случае, если у ?&i, то формируется (с— 1) сй- мерных выборок tj,-/ с разбиением tjo- на cd-мерные подвекторы, причем t'-й подвектор равен у, /-й равен —у, а все остальные явля- являются нулевыми. Очевидно, что если аЧ|,-р>0 для всех \Ф1, то ли- линейная машина, соответствующая компонентам вектора а, будет правильно классифицировать у. В описанной процедуре, которая была предложена К. Кесле- ром, размерность исходных данных увеличивается в с раз, а число выборок—в с—1 раз; это делает ее непосредственное применение достаточно трудоемким и поэтому малопригодным. Значение же данного метода определяется тем, что он позволяет свести процеду- процедуру коррекции ошибок в задаче многих классов к случаю двух клас- классов, а последнее чрезвычайно важно для доказательства- сходимо- сходимости указанной процедуры. 5.12.2. ПРАВИЛО ПОСТОЯННЫХ ПРИРАЩЕНИЙ В данном пункте для доказательства сходимости обобщенного на случай линейной машины правила постоянных приращений ис- используется метод Кеслера. Пусть имеется множество п линейно разделяемых выборок уь . . . , у„; сформируем на их основе бес- бесконечную последовательность, в которой каждая из выборок по-
5.12. Обобщения для случая многих классов 197 является бесконечное множество раз. Обозначим через Lh линей- линейную машину с весовыми векторами &х(k), . . . , &c(k). Начиная с ис- исходной, произвольно выбранной линещюй машины Lx и используя последовательность выборок, сформируем последовательность ли- линейных машин, сходящуюся к решающей линейной машине, при- причем эта последняя будет классифицировать все выборки правиль- правильно. Предложим правило коррекции ошибок, в соответствии с кото- которым изменения весов производятся только в том случае, если теку- текущая линейная машина делает ошибку при классификации одной из выборок. Обозначим k-ю выборку, которой необходима коррекция, через у* и предположим, что у* ? ?У/. Поскольку коррекция вызва- вызвана ошибкой при классификации у*, то должно существовать по крайней мере одно \Ф1, для которого М*)'у*<ау(*)'у*. (91) Тогда правило постоянных приращений для коррекции Lk примет вид и 1ф\. (92) Покажем теперь, что данное правило должно привести к решаю- решающей машине после конечного числа коррекций. Доказательство проводится достаточно просто. Каждой линейной машине соответ- соответствует весовой вектор (93) La,(*)J Для каждой выборки у €2/,- существуют с—1 выборок и\ц (пра- (правило их формирования описано в предыдущем пункте). В частно- частности, для вектора у*, удовлетворяющего неравенствам (91), сущест- существует вектор пК — -ys
198 Гл. 5. Линейные разделяющие функции удовлетворяющий условию Более того, правило постоянных приращений для коррекции Lh в точности совпадает с таким же правилом для коррекции ak, т. е. Таким образом, мы пришли к полному соответствию между случаем многих классов и случаем двух классов; при этом в проце- процедуре для многих классов используется последовательность выборок Ч1» Ч2> ¦ • •» Ч*> • • • и последовательность весовых векторов аь а2, ..... «и, .... В соответствии с результатами, полученными для случая двух классов, последняя из указанных последователь- последовательностей не может быть бесконечной и должна заканчиваться векто- вектором решения. Следовательно, и последовательность L\, L2, . . . ... , Lh, . . . должна приходить к решающей машине после конеч- конечного числа коррекции. Использование метода Кеслера для установления эквивалент- эквивалентности процедур для случаев двух и многих классов представляет собой мощное теоретическое средство. Он может быть использован для распространения на случай многих классов тех результатов, которые были получены ранее при исследовании процедур персеп- трона и метода релаксаций. То же утверждение справедливо и для правил коррекции ошибок в методе потенциальных функций. К со- сожалению, непосредственное использование изложенной методики невозможно для обобщения метода наименьших квадратов и линей- линейного программирования. 5.12.3. ОБОБЩЕНИЕ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ По-видимому, наиболее простым способом обобщения метода наименьших квадратов для случая многих классов является такой, при котором исходная задача сводится к рассмотрению множества из с задач для двух классов. Первая задача данного множества сос- состоит в том, чтобы получить весовой вектор аь который является ре- решением в смысле минимума квадрата ошибки уравнений а'у = 1 для всех у €2/,-, а^у = —1 для всех На основе результатов п. 5.8.3 можно сказать, что при очень большом числе выборок получается наилучшее в смысле минимума среднеквадратичной ошибки приближение для байесовской разде- разделяющей функции
5.12. Обобщения для случая многих классов 199 Отсюда немедленно вытекают два следствия. Первое: если не- несколько изменить постановку ?-й задачи, то она будет звучать так: найти весовой вектор at, который является решением в смысле ми- минимума квадрата ошибки уравнений а|у = 1 для всех у €2/,-, aJy = O для всех у(?2/ (94) при этом а* у будет наилучшим приближением для Р (сог[х) по кри- критерию минимума среднеквадратичной ошибки. Второе: вполне оп- оправданным является использование решающих разделяющих функ- функций в линейной машине, которая относит у к классу юг при усло- условии а| у> а) у для всех \ф1. Псевдообращение для решения задачи минимизации квадрата ошибки в случае многих классов можно представить в виде, аналогичном случаю двух классов. Пусть Y будет матрицей размера пх d, которая может быть разбита на блоки следующим образом: Y = (95) причем выборки, помеченные символом юг, включают в себя стро- строки YI. Далее обозначим через А матрицу размера dxc весовых векторов Л = [аЛ...ас] (96) и через В матрицу размера пхс в = (97) -Ве- -Веще все элементы Bt являются нулевыми, за исключением элемен- элементов t-го столбца, равных 1. Тогда след квадратичной матрицы оши- ошибок (YA—B)f(YA—В) будет минимален при решении х) A = YW, (98) где, как обычно, У+ есть псевдообращение матрицы Y. -1) Если «-й столбец В обозначить через Ь,-, след матрицы (YA—В)' (YA—В) эквивалентен сумме квадратов длин векторов ошибок Fa,—b/. Решение A=Y^ В минимизирует не только всю сумму, но и каждый член этой суммы.
200 Гл. 5. Линейные разделяющие функции Полученный результат может быть обобщен в форме, интерес- интересной с теоретической точки зрения. Обозначим через Хо- потери для случая, когда принято решение со*, а истинным является решение о/, и предположим, что /-я подматрица В задается выражением ГА, В/ = — \) n,, i = С. (99) Тогда если число выборок стремится к бесконечности, то решение Л=К+ В дает разделяющие функции а'-у, которые обеспечивают оптимальное в смысле минимума среднеквадратичной ошибки при- приближение байесовской разделяющей функции ?o/(x) = -JlVK|x). A00) Доказательство этого результата можно получить, если распро- распространить на рассматриваемый случай метод, использованный в п. 5. 8. 3. Следуя сложившейся традиции, предоставим сделать это читателю в качестве самостоятельного упражнения. 5.13. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ В силу того что линейные разделяющие функции чрезвычайно удобны для аналитического исследования, им было посвящено зна- значительно больше работ, чем они того заслуживают. Поэтому при- приведенный ниже обширный список литературы на эту тему ни в коей мере нельзя считать исчерпывающим. Начало работам на эту тему было положено классической статьей Фишера A936). Вопро- Вопросы применения линейных разделяющих функций для классифика- классификации образов хорошо изложены в работе Хайлимана A962). Он же сформулировал задачу отыскания оптимальной (в смысле минималь- минимального риска) линейной разделяющей функции и предложил возмож- возможные процедуры градиентного спуска 1), позволяющие получить ис- искомое решение. К сожалению, об этих процедурах почти ничего нельзя сказать, не имея сведений об исходных распределениях, но даже при наличии последних аналитическое исследование оказы- оказывается чрезвычайно сложным (ср. Андерсон и Бахадур, 1962). Во всех упомянутых выше работах был использован статисти- статистический подход; вместе с тем в большом количестве публикаций, J) Наша интерпретация итеративных процедур как методов градиентного спуска для минимизации функций критерия явилась результатом влияния идей, изложенных в докладе Блайдона A967).
5.13. Библиографические и истерические сведения 201 которые появились в конце 50-х — начале 60-х годов, задача рас- распознавания образов рассматривалась с иных позиций. Один из под- подходов основывался на модели работы неравной сети головного мозга, в которой каждый нейрон представлялся в виде порогового эле- элемента, или линейной машины для двух классов. В работах этого направления, начало которому было положено знаменитой публи- публикацией Маккаллока и Питтса A943), всячески подчеркивалась необходимость безошибочного выполнения функции разделения; большое значение придавалось такому свойству, как приспособля- приспособляемость или обучаемость. Для повышения качества работы системы в персептроне Розенблатта (Розенблатт, 1957, 1962; Блок, 1962) были использованы некоторые вспомогательные правила, в соответ- соответствии с которыми изменялись весовые коэффициенты нейронов. Наиболее известным из этих правил было правило постоянных при- приращений, которое гарантировало безошибочность распознавания, когда бы оно ни достигалось. Нильсон A965) приводит два доказа- доказательства теоремы сходимости персептрона и упоминает о несколь- нескольких других, в частности об очень изящном и носящем общий харак- характер доказательстве Новикова A962). Наше доказательство основано на том, которое было дано Ридгуэем A962). Поведение правила по- постоянных приращений в задачах с отсутствием разделяемое™ было проанализировано Эфроном A964); более доступное изложение можно найти у Минского и Пейперта A969), а также у Блока и Ле- Левина A970). Простые преобразования с целью повышения качества распознавания в задачах с отсутствием разделяемое™ были пред- предложены Дудой и Синглтоном A964) и Бутцем A967). В задачах с отсутствием разделяемое™ часто предполагалось использовать более сложные разделяющие функций и более слож- сложные, иногда составленные случайным образом сети пороговых эле- элементов. Обозначения, которые применялись при описании этих за- задач, могут быть использованы и при описании работы персептро- нов более общего класса, таких, например, как различные кусочно линейные классификаторы (Нильсон, 1965; Дуда и Фоссум, 1966; Мангасарян, 1968). К сожалению, анализ таких сетей является чрезвычайно сложной задачей. В работе Хокинса A961) дан хоро- хороший обзор трудов, посвященных проблеме обучения в системах, построенных на основе сетей пороговых элементов, а Минский и Селфридж A961) проводят критический анализ этих работ. Для множества ранних работ по распознаванию образов харак- характерен подход, основанный на теории переключений. И здесь основ- основной упор делается на безошибочность выполнения функции разделе- разделения. Переключающей схемой, которая наиболее часто предлагалась для использования при распознавании образов, был единственный пороговый элемент; иногда его называли пороговой логической еди- единицей, линейным входным элементом, мажоритарным клапаном или, когда он был адаптивным, адалайном (adaline). Уиндер
202 Гл. 5. Линейные разделяющие функции A963) проводит очень хороший обзор работ, относящихся к этому направлению. Стандартные процедуры, используемые для получе- получения переключающих функций, в основном те же, что применяются для решения системы линейных неравенств. Однако некоторые из данных процедур, являющиеся алгебраическими, неприменимы в задачах распознавания образов. Метод релаксаций для решения линейных неревенств был развит Агмоном A954) и Моцкином и Шёнбергом A954); использование допуска для получения решения за конечное число шагов было предложено Мейсом A964). Тот факт, что системы линейных неравенств могут быть реше- решены с помощью линейного программирования х), был отмечен Чарн- сом и др. A953). Минник показал, как можно использовать линей- линейное программирование для определения весов порогового элемента (Минник, 1961), а Мангасарян A965) предложил использовать дан- данный элемент для классификации образов. Все эти способы либо при- приводили к решению задачи в замкнутом виде, либо обеспечивали до- доказательство неразделяемое™, при этом никакой полезной инфор- информации о возможном решении они не давали. В знаменитой работе Смита A968) показано, что задача минимизации ошибки персептро- на решается методом линейного программирования. Гринолд A969) указал, что с помощью преобразованного симплекс-метода при ог- ограничении переменных сверху все преимущества вычислительного процесса, свойственные задаче в двойственной постановке, могут быть распространены и на задачу в постановке Смита. Нельзя сказать, что во всех работах, основанных на теории пере- переключений, решение задачи непременно связывалось с безошибоч- безошибочным выполнением функции разделения. Действительно, в одной из первых работ, где предлагалось использовать при классификации образов адаптивный пороговый элемент, постановка задачи была статистической (Матсон, 1959). Точно так же процедура Видроу — Хоффа для минимизации среднеквадратичной ощибки была впервые описана как статистическая процедура спуска (Видроу и Хофф, 1960), и своим появлением она обязана задаче винеровской фильтрации, возникающей в теории связи и теории управления. Кофорд и Гронер A966) указали на связь решения, которое полу- получается с помощью метода наименьших квадратов, с линейным диск- дискриминантом Фишера; Паттерсон и Вомак A966) показали, что это решение является, кроме того, наилучшим в смысле минимума сред- среднеквадратичной ошибки приближением для байесовской разделяю- разделяющей функции. Тот факт, что с помощью псевдообра1дения обеспечи- обеспечивается решение задачи в замкнутой форме, был впервые отмечен Хо и Кашьяпом A965)-; они же показали связь между решением по *) Имеется прекрасная литература по линейному программированию, на- например образцовые книги Данцига A963) и Гасса A969). Исключительно ясное и достаточно простое изложение можно найти у Гликсмана A963).
5.13. Библиографические и исторические сведения 203 методу наименьших квадратов для классической теории переклю- переключений и предложенной ими итеративной процедурой (Хо и Кашьяп, 1965, 1966). Теория псевдообращения- (которую иначе называют общим обращением, обобщенным обращением или обращением Му- Мура — Пенроуза) была окончательно оформлена в работах Рао и Митра A971). Использование стохастической аппроксимации и метода потен- потенциальных функций для распознавания образов имеет достаточно богатую историю. Метод потенциальных функций впервые был сфор- сформулирован Башкировым, Браверманом и Мучником A964), а даль- дальнейшее свое развитие получил в серии статей Айзермана, Бравер- мана и Розоноэра. В первых статьях была показана связь между правилом коррекции для потенциальной функции и правилом по- постоянных приращений (Айзерман и др., 1964а); вскоре после этого была предложена модификация метода, которая позволила полу- получить наилучшее в смысле минимума среднеквадратичной ошибки приближение для байесовской разделяющей функции (Айзерман и др., 19646). На связь между методом потенциальных функций и стохастической аппроксимацией было указано Цыпкиным A965) и Айзерманом и др. A965) и независимо от них Блайдоном A966). Как показал Айзерман A969), метод потенциальных функций явля- является довольно общим методом классификации образов; целый ряд методов может быть получен как его модификации. Наибольшее внимание из них привлекла та, в которую входил в качестве состав- составной части метод стохастической аппроксимации. Изложение метода стохастической аппроксимации в его наиболее завершенном виде можно найти у Вазана A969); более краткое изложение (которое мы настоятельно рекомендуем читателю)— у Уайлда A964). При- Прикладные задачи теории классификации образов рассмотрены в ра- работах Блайдона и Хо A966), Фу A968), Йа и Шумперта A968); там же можно найти ссылки на другие работы, посвященные этим вопросам. При обращении к случаю многих классов достаточно серьезной становится задача выбора соответствующего метода решения, по- поскольку при использовании одних методов может встретиться боль- больше трудностей, чем при использовании других; в этом смысле различ- различные процедуры не равноценны. Структура линейной машины прак- практически полностью определяется многомерным нормальным реше- решением или даже более простыми классификаторами, использующими в качестве критерия ближайшее среднее значение или максимум корреляционной функции. Такой тип классификатора был. исполь- использован в первых вариантах устройств считывания информации, за- записанной с помощью магнитных чернил (Элдридж, Камфефнер и Вендт, 1956). Исследование функционирования адаптивных вари- вариантов таких устройств началось задолго до того, как были получе- получены доказательства сходимости соответствующих процессов (напри-
204 Гл. 5. Линейные разделяющие функции мер, доказательство Робертса (I960) и хорошо известная обучающая матрица Штейнбуха (Штейнбух и Писке, 1963)). Как считает Ниль- сон A965), приоритет в создании метода Кеслера и получении дока- доказательства сходимости для правила постоянных приращений сле- следует отдать Карлу Кеслеру. Чаплин и Левади A967) предложили для использования в задачах многих классов модифицированный метод наименьших квадратов; идея метода состоит в отображении векторов у заданного класса в одну из вершин (с — 1)-мерного симплекса. Наша трактовка использования метода наименьших квадратов в таких задачах основана на обобщенном обращении Ви A968). Йа и Шумперт A968) предложили модифицированный для случая многих классов метод стохастической аппроксимации, а Смит A969) — процедуру, с помощью которой на этот случай может быть распространен метод линейного программирования. СПИСОК ЛИТЕРАТУРЫ Агмон (Agmon S.) The relaxation method for linear inequalities, Canadian Journal of Mathematics, 6, 382—392 A954). Айзерман (Aizerman M. A.) Remarks on two problems connected with pattern recognition, in Methodologies of Pattern Recognition, pp. 1—10, S. Watanabe, ed. (Academic Press, New York, 1969). Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Теоретические основы метода потенциальных функций в задаче об обучении автоматов разделению ситуаций на классы, Автоматика и телемеханика, 25, 821—837 (июнь 1964а). Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Вероятностная задача об обучении автоматов распознаванию классов и метод потенциальных функций, Автоматика и телемеханика, 25, 1175—1193 (сен- (сентябрь 19646). Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Процесс Роббинса — Монро и метод потенциальных функций, Автоматика и телемеханика, 26, 1882—1885 (ноябрь 1965). Андерсон, Бахадур (Anderson Т. W., Bahadur R. R.) Classification into two multivariate normal distributions with different covarian- ce matrices, Ann. Math. Stat., 33, 420—431 (June 1962). Башкиров О. А., Браверман Э. М., Мучник И. Б. Алгоритм обучения машнн распознаванию зрительных образов, основанный на использовании метода потенциальных функций, Автоматика и телемеха- ника, 25, 629—631 (май 1964). Блайдон (Blaydon С. С.) On a pattern classification result of Aizerman, Braverman, Rozonoer, IEEE Trans. Info. Theory (Correspondence), IT-12, 82—83 (January 1966). Блайдон (Blaydon С. С.) Recursive algorithms for pattern classification, Technical Report N° 520, Di- Division of Engineering and Applied Physics, Harvard University, Cambridge, Massachusetts (March 1967). Блайдон, Xo (Blaydon С. С, Но Y. С.) On the abstraction problem in pattern classification, Proc. NEC, 22, 857—862 (October 1966).
Список литературы ^ 205 Блок (Block H. D.) The perceptron: a model for brain functioning. I, Rev. Mod. Phys., 34, 123—135 (January 1962). Блок, Левин (Block H. D., Levin S. A.) On the boundedness of an iterative procedure for solving a system of linear ine- inequalities, Proc. American Mathematical Society, 26, 229—235 (October 1970). Браверман Э. M. О методе потенциальных функций, Автоматика и телемеханика, 26, 2130— 2138 (декабрь 1965). Бутц (Butz A. R.) Perceptron type learning algorithms in nonseparable situations, J. Math. Anal. and Appl., 17, 560—576 (March 1967). Вазан (Wasan M. T.) Stochastic Approximation (Cambridge University Press, New York, 1969). [Русский перевод: Стохастическая аппроксимация, «Мир», М., 1972.] Ви (Wee W. G.) Generalized inverse approach to adaptive multiclass pattern classification, IEEE Trans. Сотр., С-17, 1157—1164 (December 1968). Видроу, Хофф (Widrow В., Hoff M. E.) Adaptive switching circuits, 1960 IRE WESCON Conv. Record, Part 4, 96—104 (August 1960). Гасс (Gass S. I.) Linear Programming (Third Edition, McGraw-Hill, New York, 1969). [Русский перевод: Линейное программирование, Физматгиз, М., 1961.] Гликсман (Glicksman A. M.) Linear Programming and the Theory of Games (John Wiley, New York, 1963). Гринолд (Grinold R. C.) Comment on 'Pattern classification design by linear programming,' IEEE Trans. Сотр. (Correspondence), C-18, 378—379 (April 1969). Данциг (Dantzig G. B.) Linear Programming and Extensions (Princeton University Press, Princeton, N. J., 1963). [Русский перевод: Линейное программирование, его обоб- обобщение и применение, М., «Прогресс», 1966.] Дуда, Синг.ттон (Duda R. О., Singleton R. С.) Training a threshold logic unit with imperfectly classified patterns, WESCON Paper 3.2 (August 1964). Дуда, Фоссум (Duda R. O., Fossum H.) Pattern classification by iteratively determined linear and piecewise linear discriminant functions, IEEE Trans. Etec. Сотр., ЕС-15, 220—232 (April 1966). [Русский перевод: Классификация изображений при помощи итеративно определяемой линейной и кусочно-линейной классифицирующих функций.— Экспресс-информация. Техническая кибернетика, ВИНИТИ АН СССР, 1966, №35, реферат 138.] Йа, Шумперт (Yau S. S., Schumpert J. M.) Design of pattern classifiers with the updating property using stochastic approxi- approximation techniques, IEEE Trans. Сотр., С-17, 861—872 (September 1968). Кофорд, Гронер (Koford J. S., Groner G. F.) The use of an adaptive threshold element to design a linear optimal pattern classifier, IEEE Trans. Info. Theory, IT-12, 42—50 (January 1966). Курант, Гильберт (Courant R., Hilbert D.) Methods of Mathematical Physics (Interscience Publishers, New York, 1953). [Русский перевод в книге: Курант Р., Уравнения с частными производны- производными, «Мир», М., 1964.] Маккаллок, Питтс (McCulloch W. S., Pitts W. H.) A logical calculus of the ideas immanent in nervous activity, Bulletin of Math. Biophysics, 5, 115—133 A943). [Русский перевод: Логическое исчисление
2Qg. Гл. 5. Линейные разделяющие функции идей, относящихся к нервной активности, сб. «Автоматы», М., ИЛ, 1956, стр. 362-384.] Мангасарян (Mangasarian О. L.) Linear and nonlinear separation of patterns by linear programming, Operations Research, >3, 444-^52 (May—June 1965). .Мангасаряй (Mangasarian О. L.) Multisurface rriethqd of pattern separation, IEEE Trans. Info. Theory, IT-14, 801—807 (November 1968). Маттсон (Mattson R. L.) A self-organizing binary system, Proc. EJCC, 212—217 (December 1959). Мейс (Mays С. Н.) Eflects of adaptation parameters on convergence time and tolerance for adaptive threshpld elements, 1ЁЁЁ Trans. Elec. Сотр., ЁС-13, 465—468 (August 1964). Минник (Minnick R. C.) Linear-input logic, IRE Tranc. Elec. Сотр., EC-10, 6—16 (March 1961). Минский, Пёйперт (Minsky M., Papert S.) Perceptrons: An Introduction to Computational Geometry (MIT Press, Cambrid- Cambridge, Mass., 1969). [Русский перевод: Персептроны, М., «Мир», 1971.] Минский, Селфридж (Minsky M., Selfridge О. G.) Learning in random nets, in Information Theory (Fourth London Symposium), pp. 335—347, C. Cherry, ed. (Butterwofths, London, 1961): Моцкин, Шёнберг (Mptzkin Т. S., Schoenberg I. J.) The relaxation method for linear inequalities, Canadian Journal of Mathematics, 6, 393—404 A954). Нильсон (Nilsson N. J.) Learning Machines: Foundations of Trainable Pattern-Classifying Systems (McGraw-Hill, New York, 1965). (Русский перевод: Обучающиеся машины, М., «Мир», 1967.] Новиков (Novikoff А. В. J.) On convergence proofs for perceptrons, Proc. Symp. on Math. Theory of Automa- Automata, pp. 615—622 (Polytechnic Institute of Brooklyn, Brooklyn, New York, 1962). Паттерсон, Вомак (Patterson J. D., Womack B. F.) An adaptive pattern classification system, IEEE Trans. Sys. Sci. Cyb. SSC-2, 62—67 (August' 1966). Pao, Митра (Rao C. R., Mitra S. K.) Generalized Inverse of Matrices and its Applications (John Wiley, New York, 1971). Ридгуэй (Ridgway W. C.) An adaptive logic system with generalizing properties, Technical Report 1556-1, Stanford Electronics Laboratories, Stanford University, Stanford, Calif. (Ap- (April 1962). Роберте (Roberts L. G.) Pattern recognition with an adaptive network, IRE International Conv. Rec, Part 2, 66—70 A960). Розенблатт (Rosenblatt F.) The perception — a perceiving and recognizing automaton, Report 85-460-1, Cornell Aeronautical Laboratory, Ithaca, New York (January 1957). Розенблатт (Rosenblatt F.) Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms (Spartan Books, Washington, D. С, 1$62). [Русский перевод: Принципы ней- родинамики (перцептроны и теория механизмов мозга), М., «Мир», 1965.] Смит (Smith F. W.) Pattern classifier design by linear programming. IEEE Trans, on Сотр., С-17, 367-372 (April 1968). Смит (Smith F. W.) Design of multicategory pattern classifiers with two-category classifier design procedures, IEEE Trans. Сотр., С-18, 548—551 (June 1969).
Задачи .207 Уайлд (Wilde D. G.) Optimum Seeking Methods (Prentice-Hall, Englewood Cliffs, N. J., 1964). Уиндер (Winder R. 0.) Threshold logic in artificial intelligence, Artificial Intelligence (A combined preprint of papers presented at the IEEE Winter General Meeting), pp. 108—128 (January 1963). Фишер (Fisher R. A.) The use of multiple measurements in taxonomk problems, Ann. Eugenics, 7, Part II, 179—188 A936); also iri Contributions to Mathematical Statistics (John Wiley, New York, 1950). Фу (Fu K. S.) Sequential Methods in Pattern Recognition and Machine Learning (Academic Press, New York, 1968). Хайлиман (Highleyman W. Ц.) Linear decision functions, with application to pattern recognition, Prac. IRE, 50, 1501—1514 (June 1962). Xo, Кашьяп (Ho Y. C, Kashyap R. L.) An algorithm for linear inequalities and its applications, IEEE Trans. Elec. Сотр., EC-14, 683—688 (October 1965). Xo, Кашьяп (Ho Y. C, Kashyap R. L.) A class of iterative procedures for linear inequalities, /. SIAM Control, 4, 112—115 A966). Хокинс (Hawkins. J. K.) Self-organizing systems — a review and commentary, Proc. IRE, 49, 31—48 (January 1961). Цыпкин Я' З. О восстановлении характеристик функционального преобразователя по слу- случайно наблюдаемым точкам, Автоматика и телемеханика, 26, 1878—1881 (ноябрь 1965). Чаплин, Левада (Chaplin W. G., Levadi V. S.) A generalization of the linear threshold decision algorithm to multiple classes, in Computer and Information Sciences — ll, pp.337—354, J. T. f ou, ed. (Aca- (Academic Press, New. York, 1967). Чарнс, Купер и Хендерсои (Charnes A., Cooper W. W., Henderson A.) An Introduction to Linear Pfogramming (John Wiley, New York, 1953). Штейнбух и Писке (Steinbuch К... Piske U. A. W.) Learning matrices and their applications, IEEE Trans. Elec. Сотр., ЕС-12, 846—862 (December 196$). Элдридж, Камфёфнер и Вендт (Eldredge К. R., Kamphoefner F. J., Wendt P. H.) Automatic input for business data processing systems, Proc. EJCC, 69—73 (December 1956). Задачи 1. а) Покажите, что расстояние между гиперплоскостью g(x)=w'x+ttio=0 и точкой х при наличии ограничения g(x?)=0 может быть сделано равным |g(x)[/||w|| путем минимизации ||х—х?||2. б) Покажите, что проекция вектора х на гиперплоскость задается выраже- выражением 2. Рассмотрим линейную машину для трех классов с разделяющими функ- функциями вида g,-(x)=w,x+o)rt, ;=1, 2, 3. Случай, когда размерность х равна 2 и величины порогов w 0 равны нулю, схематически изобразим так: весовые век- векторы изобразим отрезками, которые сходятся в начале координат; соединим на-
208 Гл. 5. Линейные разделяющие функции чала этих отрезков и проведем границу области решений. Как изменится этот рисунок, если к каждому из весовых векторов будет добавлен постоянный вектор? 3. В случае многих классов говорят, что множество выборок линейно разде- разделяемо, если существует линейная машина, которая правильно классифицирует все выборки. Если для любого со,- выборки, помеченные символом ю,-, могут быть от- отделены от всех остальных с помощью единственной гиперплоскости, будем гово- говорить, что выборки полностью линейно разделяемы. Покажите,.что Полностью ли- линейно разделяемые выборки должны быть линейно разделяемы, но что обратное утверждение неверно. (Указание: для проверки второй части утверждения рас- рассмотрите такую же линейную машину, как в задаче двух последовательных раз- разделений выборок.) 4. Говорят, что множество выборок является попарно линейно разделяемым, если существуют с(с—1)/2 гиперплоскостей Я,у, таких, что Нц отделяет вы- выборки, помеченные со,-, от выборок, помеченных Wy. Покажите, что множество попарно линейно разделяемых образов может не быть линейно разделяемым. (Указание: найдите такие конфигурации выборок, для которых границы области решений являются такими, как на рис. 5.26.) 5. Рассмотрите линейную машину с разделяющими функциями g,-(x)=w^x+ +W;0, i=l, ..., с. Покажите, что области решения являются выпуклыми, доказав, что если TLiZSfti и *2€5?«. то Яхх+ A— Я)х2?5?г ПРИ 0«Л<1. в. Пусть {ух, ..., у„} — конечное множество линейно разделяемых выборок, а — вектор решения, если а'у,-^й для всех i. Покажите, что вектор решения ми- минимальной длины есть единичный вектор. (Указание: рассмотрите эффект усред- усреднения двух векторов решения.) 7. Выпуклой оболочкой множества векторов хх хл называют множество всех векторов вида где коэффициенты а, неотрицательны и сумма их равна 1. Заданы два множества векторов. Покажите, что либо они линейно разделяемы, либо их выпуклые обо- оболочки пересекаются. (Указание: допустив справедливость обоих утверждений, рассмотрите классификацию точки пересечения выпуклых оболочек.) 8. Говорят, что классификатор является кусочно линейной машиной, если его разделяющие функции имеют вид &(х)= max g;j(x), /=1 n( где t \ а) Укажите, каким образом кусочно линейная машина может быть описана как линейная для классификации подклассов образов. б) Покажите, что область решения кусочно линейной машины может быть невыпуклой, многосвязной. 9. Пусть d компонент х равны либо 0, либо 1. Допустим, что мы относим х к a>i, если число ненулевых компонент х нечетно, и к ш2 — в противном случае. (В теории переключения это называется функцией четности.) а) Покажите, что такая дихотомия не является линейно разделяемой, если l
Задачи 269 б) Покажите, что даииая задача может быть решена с помощью кусочно ли- линейной машины с d+1 весовыми векторами (см. задачу 8). (Указание: рассмотрите векторы вида w,y=a,y A, 1, .... 1)'.) 10. При доказательстве сходимости процедуры персептрона масштабный коэффициент а может быть выбран равным Р2/?- Используя обозначения п. 5.5.2, покажите, что если а больше P2/2v, то максимальное число коррекций может быть вычислено по формуле При каком значении а число к„ достигает минимального значения для at—О? 11. Опираясь на доказательство сходимости, приведенное в п. 5.5.2, попы- попытайтесь изменить его для того, чтобы доказать сходимость такой процедуры кор- коррекций: задавшись произвольным начальным весовым вектором яи корректируем as в соответствии с выражением тогда и только тогда, когда а^у* не достигает допуска Ь, где р& ограничено нера- неравенствами 0<р„<р?<рь<оо. Что происходит в случае отрицательного й? 12. Пусть {ух> ..., у„} — конечное множество линейно разделяемых выборок. Предложите процедуру, с помощью которой разделяющий вектор может быть получен через конечное число шагов. (Указание: рассмотрите весовые векторы, компонентами которых являются целые числа.) 13. Рассмотрим функцию критерия где 2/ (а) — множество выборок, для которых а*у<6. Пусть yt — единственная выборка в 3/(аА). Покажите, что yJq (aft)=2(aiy1— b)ylt а матрица вторых част- частных производных определяется выражением D=2yjy,-. Используя этот результат, покажите, что если в выражение (8) подставить оптимальное значение р&, то ал- алгоритм градиентного спуска примет вид ab4.i =< II Ух II2 14. Покажите, что при использовании метода наименьших квадратов мас- масштабный коэффициент а в решении, соответствующем разделяющей функции Фишера (п. 5.8.2), определяется выражением а 15. Обобщите результаты п. 5.8.3 для того, чтобы показать, что вектор а, который минимизирует функцию критерия ¦/Па)= 2 (а*у-(Хи-Яп))* обеспечивает асимптотически наилучшее в смысле минимума среднеквадратичной ошибки приближение для байесовской разделяющей функции (^2i—4i)^ (wilx)— —(Я,12—Я22)Р(ш2|х).
210 Гл. 5. Линейные разделяющие функции 16. Рассмотрим функцию критерия /т(а)=?[(а*у(х)—гJ] и байесовскую разделяющую функцию go(x). а) Покажите, что Jm = Е [(a'y-go)*]_2? [(а'у-?„) (z-g,)] + Е [(z-g0)*]. б) Используя тот факт, что условное среднее значение г равно go(x)> пока- покажите, что вектор а, минимизирующий Jm, одновременно доставляет минимум функционалу ?[(а*у—gcJ]. 17. Скалярный аналог отношения Rk+y= ЯГ'+УаУ*, используемого в ме- методе стохастической аппроксимации, имеет вид pk+i=p~\-\-y%. Покажите, что решение в замкнутой форме для данного уравнения имеет вид 2 + р, S Л t=i Приняв pi>0 и 0<а<у* <:6<оо, покажите, почему указанная последователь- последовательность коэффициентов удовлетворяет соотношениям 2pft—* + оо и 2р|—»-L<oo. 18. Задача линейного программирования, сформулированная в п. 5.10.2, включала в себя минимизацию единственной искусственной переменной t при ограничениях а*у,-+^>6/ и />0. Покажите, что результирующий весовой вектор минимизирует функцию критерия Jt(a)= max [Ь,—а*у,]. а*У,' < *,- 19. Предложите обобщение на случай многих классов метода потенциальных функций, включающего с разделяющих функций; предложите итеративную про- процедуру юррэхции""ошибок для определения разделяющих функций.
Глава 6 ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ И ГРУППИРОВКА 6.1. ВВЕДЕНИЕ До сих пор мы предполагали, что обучающие выборки, исполь- используемые для создания классификатора, были помечены, чтобы пока- показать, к какой категории они принадлежат. Процедуры, использую- использующие помеченные выборки, называются процедурами с учителем. Теперь рассмотрим процедуры без учителя, использующие непоме- непомеченные выборки. То есть мы посмотрим, что можно делать, имея набор выборок без указания их классификации. Возникает вопрос: целесообразна ли такая малообещающая задача и возможно ли в принципе обучить чему-либо по непомечен- непомеченным выборкам. Имеются три основные причины, по которым мы ин- интересуемся процедурами без учителя. Во-первых, сбор и пометка большого количества выборочных образов требуют много средств и времени. Если классификатор можно в первом приближении соз- создать на небольшом помеченном наборе выборок и после этого его «настроить» на использование без учителя на большом непомечен- непомеченном наборе, мы сэкономим много труда и времени. Во-вторых, во многих практических задачах характеристики образов медленно изменяются во времени. Если такие изменения можно проследить классификатором, работающим в режиме обучения без учителя, это позволяет повысить качество работы. Д-т?>етьих, на ранних этапах исследования иногда бывает интересно получить сведения о внутренней природе или структуре данных. Выделение четких подклассов или основных отклонений от ожидаемых характеристик может значительно изменить подход, принятый при создании клас- классификатора. Ответ на вопрос, можно или нельзя в принципе обучить чему- либо по непомеченным данным, зависит от принятых предположе- предположений— теорему нельзя доказать без предпосылок. Мы начнем с очень ограниченного предположения, что функциональный вид плотнос- плотностей распределения известен, и единственное, что надо узнать,— это значение вектора неизвестных параметров. Интересно, что фор- формальное решение этой задачи оказывается почти идентичным реше- решению задачи об обучении с учителем, данному в гл. 3. К сожалению, в случае обучения без учителя решение наталкивается на обычные проблемы, связанные с параметрическими предположениями, не способствующими простоте вычислений. Это приводит нас к различ-
212 Гл. 6. Обучение без учителя и группировка ным попыткам дать новую формулировку задачи как задачи разделе- разделения данных в подгруппы, или кластеры. Хотя некоторые из резуль- результирующих процедур группировки и не имеют большого теоретичес- теоретического значения, они являются одним из наиболее полезных средств решения задач распознавания образов. 6.2. ПЛОТНОСТЬ СМЕСИ И ИДЕНТИФИЦИРУЕМОСТЬ Начнем с предположения, что мы знаем полную вероятностную структуру задачи, за исключением лишь значений некоторых пара- параметров. Более точно, мы делаем следующие предположения: 1. Выборки производятся из известного числа с классов. 2. Априорные вероятности Р (©у) для каждого класса извест- известны, /=1, .... с. 3. Вид условных по классам плотностей р (х|@у, 6) известен, /=1,. . ., с. 4. Единственные неизвестные — это значения с параметричес- параметрических векторов 0Ь . . . , 0С. Предполагается, что выборки получены выделением состояния природы а^ с вероятностью Р (со;) и последующим выделением х в соответствии с вероятностным законом р(х|<»;-, 6). Таким образом, функция плотности распределения выборок оп- определяется как р(х|е)=2р(х|(оу, в/)Р((о/), A) где 8= @Ь . . ., 8С). Функция плотности такого вида называется плотностью смеси. Условные плотности p(x\(Oj, Qj) называются плотностями компонент, а априорные вероятности Р (юу) — пара- параметрами смеси. Параметры смеси можно включить и в неизвест- неизвестные параметры, но иа данный момент мы предположим, что неиз- неизвестно только 6. Наша основная цель — использовать выборки, полученные сог- согласно плотности смеси,'для оценки неизвестного вектора парамет- параметров 0. Если мы знаем 0, мы можем разложить смесь на компоненты, и задача решена. До получения явного решения задачи выясним, однако, возможно ли в принципе извлечь 0 из смеси. Предположим, что мы имеем неограниченное число выборок и используем один из непараметрических методов гл. 4*для определения значения р(х|0) для каждого х. Если имеется только одно значение 0, которое дает наблюденные значения для р (х|0), то в принципе решение возмож- возможно. Однако если несколько различных значений 0 могут дать одни и те же значения для р (х|0), то нет надежды получить единственное решение. Эти рассмотрения приводят нас к следующему определению: плотность р(х|0) считается идентифицируемой, если из 6=^6'
6.3. Оценки по максимуму правоподобия 213 следует, что существует х, такой, что р(х\в)Фр(х\в'). Как можно ожидать, изучение случая обучения без учителя значительно упро- упрощается, если мы ограничиваемся идентифицируемыми смесями. К счастью, большинство смесей с обычно встречающимися функци- функциями плотности идентифицируемо. Смеси с дискретным распределе- распределением не всегда так хороши. В качестве простого примера рассмот- рассмотрим случай, где х бинарен и P(x\Q)— смесь: если Если мы знаем, например, что Р(я=118)=0,6 и, следовательно, Р(*=О|0)=О,4, то мы знаем функцию Р (x\Q), но не можем опреде- определить 6 и поэтому не можем извлечь распределение компонент. Са- Самое большее, что мы можем сказать, — это что 61+9а=1,2. Таким образом, мы имеем случай, в котором распределение смеси неиден- тифицируемо, и, следовательно, это случай, в котором обучение без учителя в принципе невозможно. Как правило, при дискретных распределениях возникает такого рода проблема. Если в смеси имеется слишком много компонент, то неизвестных может быть больше, чем независимых уравнений, и иден- идентифицируемость становится сложной задачей. Для непрерывного случая задачи менее сложные, хотя иногда и могут возникнуть не- небольшие трудности. Таким образом, в то время как можно показать, что смеси с нормальной плотностью обычно идентифицируемы, пара- параметры в простой плотности смеси не могут быть идентифицированы однозначно, если Р((о1)=Р((о2), так как тогда 6г и 02 могут взаимно заменяться, не влияя на p(x\Q). Чтобы избежать таких неприятностей, мы признаем, что идентифи- идентифицируемость является самостоятельной задачей, но в дальнейшем предполагаем, что плотности смеси, с которыми мы работаем, иден- идентифицируемы. 6.3. ОЦЕНКИ ПО МАКСИМУМУ ПРАВДОПОДОБИЯ Предположим теперь, что нам дано множество SC = {х^ . . . ... , хп\ п непомеченных выборок, извлеченных независимо из смеси с плотностью с
214 Гл. 6. Обучение без учителя и группировка где вектор параметров в фиксирован, но неизвестен. Правдоподобие наблюдаемых выборок по определению — это совместная плотность р(^|9)=Пр(х,Лв). B) fc=i Оценка по максимуму правдоподобия 0 — это то значение 0, которое максимизирует р(&\в). Если мы предположим, что р (&\Q) — дифференцируемая функция по 0, то можем получить некоторые интересные необхо- необходимые условия для 0. Пусть /—логарифм правдоподобия, и пусть 1 — градиент / по отношению к 0г. Тогда ?|0) C) 1 Г % 1 ® V9' ЕР (х*Iш/« в/)РЫ ' L/=i J Если мы предположим, что элементы векторов 0г и 0; функцио- функционально независимы при 1ф\, и если вводим апостериорную вероят- вероятность хь в) - в) то видим, что градиент логарифма правдоподобия можно записать в удобной форме: 1 = ДР (со,-1 х», 0,) V9^ log р (xk | со,-, 0;). E) Поскольку градиент должен обратиться в нуль при 0,-, которое максимизирует /, оценка по максимуму правдоподобия 0г должна удовлетворять условиям J] Р (со,-1 х4, 0,) V9, log р (х, | со,-, 0,) = 0, i = 1, ..., с. F) Обратно, среди решений этих уравнений для 0г мы найдем реше- решение, удовлетворяющее максимуму правдоподобия. Нетрудно обобщить эти результаты, включив априорные веро- вероятности P((x)t) в неизвестные величины. В этом случае поиск макси- максимального значения р (^|0) распространяется на 0 и Р (сог) при огра- ограничениях />(©,)>0, / = 1, ...,с, G) и Р(со,) = 1. (8)
6.4. Приложение к случаю нормальных смесей 215 Пусть Р (со;)— оценка по максимуму правдоподобия для Р{(лг), и пусть в,-—оценка по максимуму правдоподобия для 6;. Прилежный читатель сможет показать, что если функция прав- правдоподобия дифференцируема и если Р(<аг)=^=0 для любого i, то Р (со;) и в,- должны удовлетворять соотношениям (9) (Ю) где "'" '" алВ"Л (И) k=i **> e/)v9.logp(xA|co/, ©/) = 0, п/„ |v fi\ Р (х* 1 Ю,-, в,) Р ((О/) в.4. ПРИЛОЖЕНИЕ К СЛУЧАЮ НОРМАЛЬНЫХ СМЕСЕЙ Посмотрим, как эти общие результаты применяются в случае, когда плотности компонент нормально распределены, р (х|<ог, 6,)~ ~ N (fa, 2j). Следующая таблица иллюстрирует несколько различ- различных ситуаций, которые могут возникнуть в зависимости от того, какие параметры известны (У) и какие неизвестны (?): Случай 1 2 3 *i ¦> ? ? V ¦> ? Я(о>(.) V ;> ¦> с У V ? Случай 1 самый простой, и мы его рассмотрим подробно из педа- педагогических соображений. Случай 2 более реальный, хотя несколько более сложный. Случай 3 представляет собой задачу, которая воз- возникает, когда мы сталкиваемся с полностью неизвестным множест- множеством данных. К сожалению, он не может быть решен методами мак- максимума правдоподобия. Мы отложим на конец главы обсуждение того, что можно сделать, когда число классов неизвестно.
216 Гл. 6. Обучение без учителя и группировка 6.4.1. СЛУЧАЙ 1. НЕИЗВЕСТНЫ СРЕДНИЕ ВЕКТОРЫ Если единственными неизвестными величинами являются век- векторы средних значений ft, то Qt можно идентифицировать с ft и использовать соотношения F) для получения необходимых усло- условий оценки по максимуму правдоподобия вектора ft. Поскольку log р (х | со,, ft) = - log [BЯу/« 1I, |>/«] —I (х-ft)< If* (*-ft), то V|i, bg p (x f ©,¦, ft) = Sf1 (x—ft). Таким образом, из условия F) для оценки по максимуму правдо- правдоподобия ц, получим 2(,|ъ ft)ST(*ft) После умножения на 2^ и перестановки членов получаем формулу A2) которая интуитивно оправданна. Она показывает, что оценка для fij— это просто взвешенное среднее выборок. Вес k-й выборки есть оценка правдоподобия того, что xh принадлежит i-му классу. Если оказалось, что Р (со* \xh, fi) равно единице для нескольких выборок и нулю для остальных, то fij есть среднее выборок, которые оцене- оценены как принадлежащие t-му классу. В более общем смысле предпо- предположим, что ft достаточно близко к действительному значению ft и что P(ca,-|xfe, ft) есть в сущности верная апостериорная вероятность для (i>t. Если рассматривать P(at\xh ц) как долю тех выборок, имеющих значение xft, которые принадлежат t-му классу, то ви- видим, что соотношение A2) определяет ft как среднее выборок i-ro класса. К сожалению, соотношение A2) не определяет цг явно, и если мы подставим D / г " \ /7 (Хь I CO/, U,:) Р (ш,-) Р (со,-1 xk, ц) = у ' " ^"——— 2 Р (х* I <в/, V-j) P («/) с р(х|о>г, ini)~N (ft, S,)> то получим сложную комбинацию из по- попарно совместных нелинейных уравнений. Решение этих уравнений обычно не единственно, и мы должны проверить все полученные решения, чтобы найти то, которое действительно максимизирует правдоподобие.
6.4. Приложение к случаю нормальных смесей 217 Если у нас есть какой-то способ получения достаточно хороших начальных оценок ц,@) для неизвестных средних, уравнение A2) предполагает следующую итерационную схему для улучшения оценки: &(/+!) = -1 х*. w (/)) х* A3) Это—градиентный метод подъема или процедура восхождения на вершину для максимизации логарифма функции правдоподо- правдоподобия. Если перекрытие между плотностями компонент невелико, то связь между классами будет малой и сходимость будет быстрой. Од- Однако, когда вычисление закончено, нам достаточно убедиться, что градиент равен 0. Как и все процедуры восхождения на вершину, эта тоже не гарантирует, что найденный максимум — глобальный. 6.4.2. ПРИМЕР Чтобы продемонстрировать, с какими конкретными вопросами можно встретиться, рассмотрим простую одномерную двухкомпо- нентную смесь, имеющую нормальную плотность: 25 выборок, показанных в табл. 6. 1, были отобраны из этой сме- смеси С ц,=— 2 Hji2=2. Таблица 6.1 25 выборок из смеси с нормальным распределением k 1 2 3 4 5 6 7 8 9 10 11 12 0,608 —1,590 0,235 3,949 —2,249 2,704 —2,473 0,672 0,262 1,072 — 1,773 0,537 Класс 2 1 2 2 1 2 1 2 2 2 1 2 k 13 14 15 16 17 18 19 20 21 22 23 24 25 xk 3,240 2,400 —2,499 2,608 —3,458 0,257 2,569 1,415 1,410 —2,653 1,396 3,286 —0,712 Класс 2 2 1 2 1 2 2 2 2 1 2 2 1
218 Гл. 6. Обучение без учителя и группировка Используем эти выборки для вычисления логарифма функции правдоподобия Л«— 1 для различных значений цг и |х2. На рис. 6. 1 показано, как изме- изменяется / в зависимости от jxi и |х2. Максимальное значение / дости- достигается при (л,!=—2,130 и ц2= 1,668, которые находятся поблизости /*¦ Рис. 6.1. Контуры функции логарифма правдоподобия. от значений fij=—2 и |*2=21). Однако / достигает другого макси- максимума, сравнимого с первым, при (ii=2,085 и B2=—1,257. Грубо говоря, это решение соответствует взаимной замене цг и ц2. Отме- Отметим, что, если бы априорные вероятности были равны, взаимная замена [лг и ji2 не вызвала бы изменения логарифма функции пра- правдоподобия. Таким образом, когда плотность смеси не идентифи- х) Если данные в табл. 6.1 разбить на классы, получим результирующие средние выборок т^——2,176 и т2= 1,684. Таким образом, оценки по максимуму правдоподобия для обучения без учителя близки к оценкам по максимуму правдо- правдоподобия для обучения с учителем.
6.4. Приложение к случаю нормальных смесей 219 цируема, решение по максимуму правдоподобия не является един- единственным. Можно дополнительно взглянуть на природу этих множествен- множественных решений, изучая результирующие оценки плотностей смеси. Рис. 6. 2 показывает истинную плотность смеси и оценки, получен- полученные с использованием оценок по максимуму правдоподобия, как если бы они были истинными значениями параметров. 25 значений выборок показаны в виде точек вдоль оси абсцисс. Отметим, что максимумы как действительной плотности смеси, так и решения по максимуму правдоподобия размещены там же, где расположены две основные группы точек. Оценка, соответствующая меньшему 0,4 0,3 0,2 О,1~ Г Второе 1 решение у / 1 i I Первое решение ч \ \ / 1 1 V // 1 1 1 Плотность смеси га \\ •.,. % \ - "ЧЛ- -4 -J -2 -1 0 12 3 Данные • ••••• • «•«••« • •• < -10 1 Рис. 6.2. Оценка плотности смеси. локальному максимуму логарифма функции правдоподобия, пред- представляет собой зеркальное отображение, но ее максимумы также со- соответствуют группам точек. На первый взгляд ни одно из решений не является явно лучшим, и оба представляют интерес. Если соотношение A3) используется для итерационного решения уравнения A2), результаты зависят от начальных значений |Xi@) и |х2@). Рис. 6.3 показывает, как различные начальные точки при- приводят к различным решениям, и дает некоторое представление о степени сходимости. Отметим, что, если (х1@)=(х2@), мы попадаем в седловую точку за один шаг. Это не случайность. Это происходит по той простой причине, что в этой начальной точке Р (<a1\xk, ^@))= =P((o2|*fe, щ@)). Таким образом, уравнение A3) дает средние для всех выборок (*! и |х2 при всех последующих итерациях. Ясно, что это общее явление, и такие решения в виде седловой точки можно ожидать, если выбор начальной точки не дает направленного сме- смещения в сторону от симметричного ответа.
220 Гл. 6. Обучение без учителя и группировка Рис. 6.3. Траектории для итерационной процедуры. 6.4.3. СЛУЧАЙ 2. ВСЕ ПАРАМЕТРЫ НЕИЗВЕСТНЫ Если ja,-, 2* и Р(сог) неизвестны и на матрицу ковариации огра- ограничения не наложены, то принцип максимума правдоподобия дает бесполезные вырожденные решения.Пусть p(x\\i, а2) —двух- компонентная нормальная плотность смеси Функция правдоподобия для п выборок, полученная согласно этому вероятностному закону, есть просто произведение п плотно- плотностей p(xh\n, аг). Предположим, что \i=xu так что Ясно, что для остальных выборок 1 2/2л ехр "г*1]'
6.4. Приложение к случаю нормальных смесей 221 так что р(хи ...,хп\ц, о Таким образом, устремляя а к нулю, мы можем получить про- произвольно большое правдоподобие, и решение по максимуму правдо- правдоподобия будет вырожденным. Обычно вырожденное решение не представляет интереса, и мы вынуждены заключить, что принцип максимума правдоподобия не работает для этого класса нормальных смесей. Однако эмпирически установлено, что имеющие смысл решения можно все-таки получить, если мы сосредоточим наше внимание на наибольшем из конечных локальных максимумов функции правдоподобия. Предполагая, что функция правдоподобия хорошо себя ведет на таких максиму- максимумах, мы можем использовать соотношения (9)—A1), чтобы получить оценки для fi,-, 2г и Р(<д(). Когда мы включаем элементы матрицы 21 в элементы вектора параметров в,, мы должны помнить, что толь- только половина элементов, находящихся вне диагонали, независимы. Кроме этого, оказывается намного удобней считать неизвестными параметрами независимые элементы матрицы Sf1, а не матрицы 2*. После этого дифференцирование log p (xk | со,-, в,) = log^g^ -i^-^Sr1 (x*-|i,) по элементам |ш(- и 2т1 не представляет труда. Пусть xp(k)~р-ц элемент \k, \xp{i)~p-n элемент \ih apq(i)—pq-fi элемент 2г и ард (;) _ pq.fr элемент 2т1. Тогда I <°ь е<) =2ГХ (хА—(I,), где 8Рд— символ Кронекера. Подставляя эти результаты в A0) и проделав некоторые алгебраические преобразования, мы получим следующие выражения для оценок |шг, 2г и Р(юг) по локальному максимуму правдоподобия: А— 1 П 2Р(ю(|х*. в) A5)
222Гл. 6. Обучение без учителя и группировка 2 Р{щ\ъ, в,) где A6) (щ\к ) 2 Р (X* | СО;, в/) Р («у) | 2; |-*'! ехр Г -1 (х* -Д,)« Sf1 (х* -?,)] Р (в),) __ LJ J . A7) 21Ц - 1/гехр [—1 (х* - ц,)^1 (х*- ] 2 Хотя обозначения внешне весьма усложняют эти уравнения, их интерпретация относительно проста. В экстремальном случае при P((Oj|xft, 6), равном единице, если xk принадлежит классу (Oj, и равном нулю в противном случае, оценка Р(мг) есть доля вы- выборок из (ог, оценка |шг— среднее этих выборок и 21— соответствую- соответствующая матрица ковариаций выборок. В более общем случае, когда P((Oi\xh, в) находится между нулем и единицей, все выборки игра- играют некоторую роль в оценках. Однако и тогда оценки в основном — это отношения частот, средние выборок и матрицы ковариаций вы- выборок. Проблемы, связанные с решением этих неявных уравнений, сходны с проблемами, рассмотренными в п. 6.4.1. Дополнительная сложность состоит в необходимости избегать вырожденных решений. Из различных способов, которые можно применить для получения решения, самый простой состоит в том, чтобы, используя началь- начальные оценки в A7), получить P(<di\xh, 6г) и затем, используя соотно- соотношения A4)—A6), обновить эти оценки. Если начальные оценки очень хорошие, полученные, возможно, из достаточно большого множества помеченных выборок, сходимость будет очень быстрой. Однако результат зависит от начальной точки, и всегда остается проблема неединственности решения. Более того, повторные вычис- вычисления и обращение матриц ковариаций может потребовать много времени. Значительного упрощения можно достичь, если предположить, что матрицы ковариаций диагональны. Это дает возможность умень- уменьшить число неизвестных параметров, что очень важно, когда число выборок невелико. Если это предположение слишком сильно, то еще возможно получить некоторое упрощение, предполагая, что с матриц ковариаций равны, что тоже снимает проблему вырожденных
6.4. Приложение к случаю нормальных смесей 223 решений. Вывод соответствующих уравнений для оценки по макси- максимуму правдоподобия для этого случая рассматривается в задачах 5 и 6. 6.4.4. ПРОСТАЯ ПРИБЛИЖЕННАЯ ПРОЦЕДУРА Из различных способов, которые используются для упрощения вычисления и ускорения сходимости, мы кратко рассмотрим один элементарный приближенный метод. Из соотношения A7) ясно, что вероятность />((О;|хь, 9^) велика, когда квадрат махалонобисова расстояния (xft—цгу 2~x(xft—ц;) мал. Предположим, что мы просто вычисляем квадрат евклидова расстояния ||xft—jij||2 и находим среднее цт, ближайшее к xh, и аппроксимируем Р((Ьг|хй, 9г) как 1 при i — m, О в противном случае. Тогда итеративное применение формулы A5) приводит к следую- следующей процедуре *) нахождения ць . . ., fif: Процедура: Базовые Изоданные 1. Выбираем некоторые начальные значения для средних Цикл: 2. Классифицируем п выборок, разбивая их на классы по ближайшим средним. 3. Вновь вычисляем средние как средние значения выборок в своем классе. 4. Если какое-нибудь среднее изменило значение, переходим к Циклу; иначе останов. Это типичные для некоторого класса процедуры, известные как процедуры группировки (кластер-процедуры). Позже мы поместим ее в класс итерационных оптимизационных процедур, поскольку сред- средние имеют тенденцию изменяться так, чтобы минимизировать функ- функцию критерия квадратичной ошибки. В настоящий момент мы рас- рассматриваем это просто как приближенный способ получения оценки по максимуму правдоподобия для средних. Полученные зна- значения можно принять за ответ или использовать как начальные точки для более точных вычислений. *) В этой главе мы назовем и опишем различные итерационные процедуры как программы для ЭВМ. Все эти процедуры действительно были запрограммиро- запрограммированы, часто с различными дополнительными элементами, такими, как разрешение неоднозначности, избежание состояний «ловушки» и обеспечения особых условий окончания работы. Таким образом, мы включили слово «базовые» в название, чтобы подчеркнуть, что наш интерес ограничивается только объяснением основных понятий.
224 Гл. в. Обучение без учителя и группировка Интересно посмотреть, как эта процедура ведет себя на примере данных из табл. 6.1. Рис. 6.4 показывает последовательность зна- значений для (it и (х2, полученных для нескольких различных началь- начальных точек. Так как взаимная замена \i1 и |х2 просто взаимозаменяет метки, присвоенные данным, траектория симметрична относительно линии н.1=|1а. Траектория приводит или к точке щ=—2,176, Рис. 6.4. Траектории для процедуры. Базовые изоданные. fia= 1,684, или к ее отображению. Это близко к решению, найденно- найденному методом максимума правдоподобия (jii=—2,130 и щ= 1,668), и траектории в общем сходны с траекториями, показанными на рис. 6.3. В общем случае, когда пересечение между плотностями компонент мало, можно ожидать, что метод максимального правдо- правдоподобия и процедура Изоданные дадут похожие результаты. 6.5. БАЙЕСОВСКОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ 6.5.1. БАЙЕСОВСКИЙ КЛАССИФИКАТОР Методы максимума правдоподобия не рассматривают вектор параметров в как случайный — он просто неизвестный. Предвари- Предварительное знание о возможных значениях 9 необязательно, хотя на
6.5. Байесовское обучение без учителя 225 практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом раз- разделе мы используем байесовский подход к обучению без учителя. Предположим, что б — случайная величин'а с известным априорным распределением рF), и будем использовать выборки для вычисле- вычисления апостериорной плотности р(Щ&). Весьма интересно, что такой анализ в основном будет подобен анализу байесовского обучения с учителем, что указывает на большое формальное сходство задач. Начнем с четкого определения основных предположений. Пред- Предполагаем, что 1. Число классов известно. 2. Априорные вероятности P(v>j) для каждого класса известны, /=1, . . ., с. 3. Вид условных по классу плотностей р(х]соу-, Qj) известен, /=1, . . ., с, но вектор параметров 6=(вх, . . ., вс) неизвестен. 4. Часть знаний о в заключена в известной априорной плотно- плотности рф). 5. Остальная часть знаний о в содержится в множестве X из п выборок хп . . ., х„, извлеченных независимо из смеси с плотностью Р(х|6)= 2р(х|со,,е,)/>(со,.). A) После этого мы могли бы непосредственно начать вычисление рF|.?"). Однако давайте сначала посмотрим, как эта плотность ис- используется для определения байесовского классификатора. Пред- Предположим, что состояние природы выбирается с вероятностью P(a>i) и вектор признаков х выбран в соответствии с вероятностным зако- законом p(x\(i>i, 6г). Чтобы вывести байесовский классификатор, мы должны использовать всю имеющуюся информацию для вычисле- вычисления апостериорной вероятности /p((oi|x). Покажем явно роль выборок, записав это в виде Р(со;|х, &). По правилу Байеса Так как выбор состояния природы (ог был сделан независимо от ранее полученных выборок: />(а>{|.?')=/>(ю*), то мы получим * , A8) /=•1 Введем вектор неизвестных параметров, написав р (х К, X) = \ р (х, в 1 со,-, ЗЕ) dQ - J р (х | 6, со,-, X) р F| <в„ X) d6.
226 Гл. 6. Обучение без учителя и группировка Поскольку сам х не зависит от выборок, то р(х|6, со,, &)= =р(х|(ог, 6j). Аналогично, так как знание состояния природы при выбранном х нам ничего не говорит о распределении в, имеем (В Х)(В\ЯГ) Таким образом, получаем р (х | со,-, X) = \ р (х 1 со,-, в,) р (в | X) d6. A9) То есть наша наилучшая оценка для р(х|сог) получена усреднением р(х|сог-, 6г) по в.г-. Хорошая это или плохая оценка, зависит от при- природы р F \?), и мы должны, наконец, заняться этой плотностью. 6.5.2. ОБУЧЕНИЕ ВЕКТОРУ ПАРАМЕТРОВ Используя правило Байеса, можем написать р (81 *)= где независимость выборок приводит к (хЛ|в). B1) С другой стороны, обозначив через 5Сп множество п выборок, мы можем записать соотношение B0) в рекуррентной форме Это основные соотношения для байесовского обучения без учи- учителя. Уравнение B0) подчеркивает связь между байесовским реше- решением и решением по максимуму правдоподобия. Если р@) сущест- существенно равномерна в области, где имеется пик у р(&\&), то у р(в|#") имеется пик в том же самом месте. Если имеется только один сущест- существенный пик при 6=в и этот пик очень острый, то соотношения A9) и A8) дают р{х\щ, ДГ)»р(х|ш„ §,), To есть эти условия' оправдывают использование оценки по макси- максимуму правдоподобия, используя ее в качестве истинного значе- значения в при создании байесовского классификатора. Естественно, если плотность р(8) была получена при обучении с учителем с использованием большого множества помеченных вы-
6.5. Байесовское обучение без учителя 227 борок, она будет далека от равномерной и это решающим образом повлияет на р(ЩЖп), когда п мало. Соотношение B2) показывает, как при наблюдении дополнительных непомеченных выборок изме- изменяется наше мнение об истинном значении в и особое значение при- приобретают идеи модернизации и обучения. Если плотность* смеси р (х |в) идентифицируема, то с каждой дополнительной выборкой p(Q\&") становится все более острой, и при достаточно общих усло- условиях можно показать, что p(Q\&") сходится (по вероятности) к дельта-функции Дирака с центром в истинном значении 6. Таким образом, даже если мы не знаем класса выборок, идентифицируе- идентифицируемость дает нам возможность узнать вектор неизвестных параметров в и вместе с этим узнать плотности компонент р(х\а>(, 6). Тогда это и есть формальное байесовское решение задачи обуче- обучения без учителя. В ретроспективе тот факт, что обучение без учителя параметрам плотности смеси тождественно обучению с учителем па- параметрам плотности компонент, не является удивительным. Дейст- Действительно, если плотность компонент сама по себе является смесью, то тогда действительно не будет существенной разницы между этими двумя задачами. Однако существуют значительные различия между обучениями с учителем и без учителя. Одно из главных различий касается вопроса идентифицируемости. При обучении с учителем отсутствие идентифицируемости просто означает, что вместо получения единст- единственного вектора параметров мы получаем эквивалентный класс векторов параметров. Однако, поскольку все это приводит к той же плотности компонент, отсутствие идентифицируемости не1 представ- представляет теоретических трудностей, При обучении без учителя отсутст- отсутствие идентифицируемости представляет более серьезные трудности. Когда 6 нельзя определить единственным образом, смесь нельзя разложить на ее истинные компоненты. Таким образом, в то время как р (х|#"п) может все еще сходиться к р (х), величина р(х|сог, S"), описываемая выражением A9), в общем не сойдется к p(x|(t>;)> т. е. существует теоретический барьер в обучении. Другая серьезная проблема для обучения без учителя — этр вычислительная сложность. При обучении с учителем возможность нахождения достаточной статистики дает возможность получить решения, которые решаются как аналитическими, так и численными методами. При обучении без учителя нельзя забывать, что выборки получены из плотности смеси р(х|в)=2р(х|(о;,ву)Р((о/), D) и поэтому остается мало надежды найти простые точные решения длял?F]#"). Такие решения связаны с существованием простой до- достаточной статистики, и теорема факторизации требует возможности
228 Гл. 6. Обучение без учителя и группировка представления рC?Щ следующим образом: Но по формулам B1) и A) имеем Р (X | в) = Й [ 2 Р (х* 1 со,-, в,.) Р (со,.) к— 1 L /— 1 Таким образом, р(#"|9) есть сумма с" произведений плотностей компонент. Каждое слагаемое суммы можно интерпретировать как общую вероятность получения выборок хь . . ., х„ с определенными метками, причем сумма охватывает все возможные способы пометки выборок. Ясно, что это приводит к общей смеси 8 и всех х, и нельзя ожидать простой факторизации. Исключением является случай, когда плотности компонент не перекрываются, так что, как только в 9 изменяется один член, плотность смеси не равна нулю. В этом случае р(Ж\в) есть произведение п ненулевых членов и может об- обладать простой достаточной статистикой. Однако, поскольку здесь допускается возможность определения класса любой выборки, это сводит задачу к обучению с учителем и, таким образом, не является существенным исключением. Другой способ сравнения обучения с учителем и без учителя состоит в подстановке плотности смеси р(х„|в) в B2) и получении 2 р(х„|«/.в/)Р(ш/) р (9 | ЯГ") = & р (91 Л"-»). B3) 2 \ Р К I »/. Ь) р («У) Р (е I •*•" "l) M /=l J Если мы рассматриваем особый случай, где Р(со1)=1, а все остальные априорные вероятности равны нулю, соответствующий случаю обучения с учителем, в котором все выборки из класса 1, то формула B3) упрощается до p(x"|mi'9l) piQlS"'1). B4) (xB|fl>t,e,)p(ei^-»)«ie Сравним уравнения B3) и B4), чтобы увидеть, как дополнитель- дополнительная выборка изменяет нашу оценку 8. В каждом случае мы можем пренебречь знаменателем, который не зависит от 9. Таким образом, единственное значительное различие состоит в том, что в случае обучения с учителем мы умножаем априорную плотность для 8 на плотность компоненты р(х„|со1, 8^, в то время как в случае обучения с без учителя мы умножаем на плотность смеси У,р(\п\со;-, в;-)Я(со;). Предполагая, что выборка действительно принадлежит классу 1, мы видим, что незнание принадлежности какому-либо классу в слу- случае обучения без учителя приводит к уменьшению влияния х„ на
6.5. Байесовское обучение без учителя 229 изменение в. Поскольку х„ может принадлежать любому из с клас- классов, мы не можем использовать его с полной эффективностью для изменения компонент (компоненты) в, связанных с каким-нибудь классом. Более того, это влияние мы должны распределить на раз- различные классы в соответствии с вероятностью каждого класса. 6.5.3. ПРИМЕР Рассмотрим одномерную двухкомпонентную смесь с р(дс|л>1)~ /V( 1), р(х|оJ. 9)~./V@, 1), где ц, Я(со1) и /р(со2) известны. Здесь [-±(*-е).] . Рассматриваемая как функция от х, эта плотность смеси пред- представляет собой суперпозицию двух нормальных плотностей, причем одна имеет пик при х=ц, а другая при x=Q. Рассматриваемая как функция от 0, плотность p(x\Q) имеет один пик при в=х: Предпо- Предположим, что априорная плотность р @) равномерна в интервале от а до Ъ. Тогда после одного наблюдения а' О щ) ехр [-1 (х, - fi)*] + Р К) ехр [- { (х, -0)*] ] , в противном случае, где а и а' — нормирующие константы, независимые от 0. Если вы- вы^Ь F|) борка х1 находится в пределах 9 В то pF|*i) имеет пик при б 0 р 1 р ^ p|i р 9=л:1. В противном случае она имеет пики либо при 0=а, если Х!<.а, либо при 0=Ь, если х{>Ь. Отметим, что прибавляемая константа ехр [—(\12){х1—\iJ] велика, если хх близок к ц. Это соответствует тому факту, что если хх близок к [г, то более вероятно, что он при- принадлежит компоненте р(х\(а^, и, следовательно, его влияние на нашу оценку для 0 уменьшается. С добавлением второй выборки х2 плотность ^@1^) обращается в + Р(«О РК) ехр [-¦1-(Хг-ii)* — (х,- в)«] + + Р К) Р (щ) ехр [-- (^ — в)^—^-(^-f*J] + + Р fo) Р К) ехр [--i(Xl-QY -у {х, -8)«]] , если a^. в противном случае.
Рис. 6.5. Байесовское обучейие без учителя. Т Рис. 6.6. Эффект сужения априорной плотности.
6.5. Б<фесовское обучение без,учителя 231_ К сожалению, первое, что мы узнаем из этого выражения,— это то, что р @|.f") усложняется уже при п=2. Четыре члена суммы соответствуют четырем способам, которыми можно извлекать выбор- выборки из двухкомпонентных популяций. При п выборках будет 2" чле- членов, и нельзя найти простых достаточных статистик, чтобы облег- облегчить понимание или упростить вычисления. Возможно использование соотношения и численного интегрирования для того, чтобы получить приближен- приближенное числовое решение p(9|jrn). Это было сделано для данных табл. 6.1 при зйачениях р-=2, /р(со1)—1/3 и Р ((оа)=2/3. Априорная плотность р(9), равномерная на интервале от —4 до 4, включает данные этой таблицы. Эти данные были использованы для рекур- рекуррентного вычисления рЩЗ?п). Полученные результаты представле- представлены на рис. 6.5. Когда п стремится к бесконечности, мы с уверен- уверенностью можем ожидать, что р(Щ&п) будет стремиться к всплеску в точке 0=2. График дает некоторое представление о скорости схо- сходимости. Одно из основных различий между байесовским и подходом по максимуму правдоподобия при обучении без учителя связано с ап- априорной плотностью р(9). Рис. 6.6 показывает, как измейяется p{Q\&"), когда предполагается, что р@) равномерна на интервале от 1 до 3, в зависимости от более четкого начального знания о 0. Результаты этого изменения больше всего проявляются, когда п мало. Именно здесь различия между байесовским подходом и под- подходом по максимуму правдоподобия наиболее значительны. При увеличении п важность априорного знания уменьшается, и в этом частном случае кривые для п—25 практически идентичны. В общем случае можно ожидать, что различие будет мало, когда число непо- непомеченных выборок в несколько раз больше эффективного числа по- помеченных выборок, используемых для определения р@). 6.5.4. АППРОКСИМАЦИЯ НА ОСНОВЕ ПРИНЯТИЯ НАПРАВЛЕННЫХ РЕШЕНИЙ Хотя задачу обучения без учителя можно поставить просто как задачу определения параметров плотности смеси, ни метод макси- максимума правдоподобия, ни байесовский подход не дают простых ана- аналитических результатов. Точные решения даже простейших нетри- нетривиальных примеров ведут к необходимости применения численных методов; объем вычислений при этом растет экспоненциально в за- зависимости от числа выборок. Задача обучения без учителя слишком важна, чтобы отбросить ее только из-за того, что точные решения
232 Гл. 6. Обучение без учителя и группировка слишком трудно найти, и поэтому были предложены многочислен-' ные процедуры получения приближенных решений. Так как основное различие между обучением с учителем и без учителя состоит в наличии или отсутствии меток для выборок, оче- очевидным подходом к обучению без учителя является использование априорной информации для построения классификатора и исполь- использования решений этого классификатора для пометки выборок. Такой подход называется подходом принятия направленных решений при обучении без учителя и составляет основу для различных вари- вариаций. Его можно применять последовательно путем обновления клас- классификатора каждый раз, когда классифицируется непомеченная выборка. С другой стороны, его можно применить при параллель- параллельной классификации, то есть подождать, пока все п выборок будут классифицированы, и затем обновить классификатор. При желании процесс можно повторять до тех пор, пока не будет больше измене- изменений при пометке выборок г). Можно ввести различные эвристиче- эвристические процедуры, обеспечивающие зависимость любых коррекций от достоверности решения классификатора. С подходом принятия направленных решений связаны некото- некоторые очевидные опасности. Если начальный классификатор не до- достаточно хорош или если встретилась неудачная последовательность выборок, ошибки классификации непомеченных выборок могут при- привести к неправильному построению классификатора, что в свою очередь приведет к решению, очень приблизительно соответствую- соответствующему одному из меньших максимумов функции правдоподобия. Даже если начальный классификатор оптимален, результат пометки не будет соответствовать истинной принадлежности классам; клас- классификация исключит выборки из хвостов желаемого распределения и включит выборки из хвостов других распределений. Таким обра- образом, если имеется существенное перекрытие между плотностями компонент, можно ожидать смещения оценок и неоптимальных ре- результатов. Несмотря на эти недостатки, простота процедур направленных решений делает байесовский подход доступным для численных мето- методов, а решение с изъянами чаще лучше, чем отсутствие решения. При благоприятных условиях можно получить почти оптимальный результат при небольших вычислительных затратах. В литературе имеется несколько довольно сложных методов анализа специаль- специальных процедур направленных решений и сообщения о- результатах экспериментов. Основной вывод состоит в том, что большинство этих процедур работает хорошо, если параметрические предположения правильны, если перекрытие между плотностями компонент невели- невелико и если начальный классификатор составлен хотя бы приблизи- тельно правильно. *) Процедура «Базовые Изоданные», описанная в п. 6.4.4, в сущности яв- является процедурой принятия решения этого типа.
?.6. Описание данных и группировка 233 6.6. ОПИСАНИЕ ДАННЫХ И ГРУППИРОВКА Вернемся к нашей первоначальной задаче — обучению на мно- множестве непомеченных выборок. С геометрической точки зрения эти выборки образуют облака точек в d-мерном пространстве. Предпо- Предположим, что эти точки порождаются одномерным нормальным распре- распределением. Тогда все, что мы можем узнать из этих данных, со- содержится в достаточных статистиках — в средней выборке и в мат- матрице ковариаций выборок. В сущности, эти статистики составляют компактное описание данных. Средняя выборок обозначает центр тяжести облака. Его можно рассматривать как единственную точку х, которая лучше всего представляет все данные с точки зрения минимизации суммы квадратов расстояний от х до выборок. Матри- Матрица ковариаций выборок говорит о том, насколько хорошо средняя выборок описывает данные с точки зрения разброса данных в раз- разных направлениях. Если точки действительно нормально распре- распределены, то облако имеет простую гиперэллипсоидную форму, и средняя выборок обычно находится в области наибольшего сгущения точек. Конечно, если данные не распределены нормально, эти статис- статистики могут дать сильно искаженное описание данных. На рис. 6.7 показаны четыре различных множества данных, у которых одинако- одинаковые средние и матрицы ковариаций. Очевидно, статистики второго порядка не в состоянии отобразить структуру произвольного множе- множества данных. Предположив, что выборки отобраны из смеси с нормальных распределений, мы можем аппроксимировать большее разнообра- разнообразие ситуаций. В сущности, это соответствует представлению, что выборки образуют гиперэллипсоидные облака различных размеров и ориентации. Если число компонентных плотностей не ограничено, таким образом можно аппроксимировать практически любую функ- функцию плотности и использовать параметры смеси для описания дан- данных. К сожалению, мы видели, что задача определения параметров смеси не является тривиальной. Более того, в ситуациях, где a priori относительно мало известно о природе данных, предположение об особых параметрических формах может привести к плохим или бес- бессмысленным результатам. Вместо нахождения структуры данных, мы бы навязали им свою структуру. В качестве альтернативы можно использовать один из непарамет- непараметрических методов, описанных в гл. 4, для оценки плотности неиз- неизвестной смеси. Если говорить точно, результирующая оценка в сущ- сущности является полным описанием того, что можно узнать из данных. Области большой локальной плотности, которые могут соответство- соответствовать существенным подклассам популяции, можно определить по максимумам оцененной плотности.
234 Гл. 6. Обучение без дчителя и группировка Если цель состоит в нахождении подклассов, более целесооб- целесообразны процедуры группировки (кластерного анализа). Грубо го- говоря, процедуры группировки дают описание данных в терминах кластеров, или групп точек данных, обладающих сильно схожими внутренними свойствами. Более формальные процедуры используют функции критериев, такие, как сумма квадратов расстояний от центров кластеров, и ищут группировку, которая приводит к экстре- экстремуму функции критерия. Поскольку даже это может привести к не- Рис. 6.7. Множества данных, имеющие одинаковые статистики второго порядка. разрешимым вычислительным проблемам, были предложены другие процедуры, интуитивно многообещающие, но приводящие к реше- решениям, не имеющим установленных свойств. Использование этих процедур обычно оправдывается простотой их применения и часто дает интересные результаты, которые могут помочь в приме- применении более схрогих процедур. 6.7. МЕРЫ ПОДОБИЯ Так как процедура группировки описывается как процедура нахождения естественных группировок в множестве данных, мы вынуждены определить, что понимается под естественной группи- группировкой. Что подразумевается под словами, что выборки в одной
6.7. Меры подобия 235 группе более схожи, чем выборки в другой? Этот вопрос в действи- действительности содержит две отдельные части: как измерять сходство между выборками и как нужно оценивать разделение множества выборок на группы? В этом разделе рассмотрим первую из этих ча- частей. Наиболее очевидной мерой подобия (или различия) между дву- двумя выборками является расстояние между ними. Один из путей, по которому можно начать исследование группировок, состоит в опре- определении подходящей функции расстояния и вычислении матрицы расстояний между всеми парами выборок. Если расстояние является хорошей мерой различия, то можно ожидать, что расстояние между выборками в одной и той же группе будет значительно меньше, чем расстояние между выборками из разных групп. Предположим на минуту, что две выборки принадлежат одной и той же группе, если евклидово расстояние между ними меньше, чем некоторое пороговое расстояние d0. Сразу очевидно, что выбор d0 очень важен. Если расстояние d0 очень большое, все выборки будут собраны в одну группу. Если d0 очень мало, каждая выборка обра- образует отдельную группу. Для получения «естественных» групп рас- расстояние d0 должно быть больше, чем типичные внутригрупповые расстояния, и меньше, чем типичные межгрупповые расстояния (рис. 6.8). Менее очевидным является факт, что результаты группировки зависят от выбора евклидова расстояния как меры различия. Этот выбор предполагает, что пространство признаков изотропно. Следо- Следовательно, группы, определенные евклидовым расстоянием, будут инвариантны относительно сдвигов или вращений — движений то- точек данных, не меняющих их взаимного расположения. Однако они, вообще говоря, не будут инвариантны линейным или другим пре- преобразованиям, которые искажают расстояния. Таким образом» как показано на рис. 6.9, простое масштабирование координатных осей может привести к различному разбиению данных на группы. Конечно, это не относится к задачам, в которых произвольное мас- масштабирование является неестественным или бессмысленным пре- преобразованием. Однако, если группы должны иметь какое-либо зна- значение, они должны быть инвариантны преобразованиям, естествен- естественным для задачи. Один из путей достижения инвариантности состоит в нормирова- нормировании данных перед группировкой. Например, чтобы добиться инва- инвариантности к сдвигу и изменению масштаба, нужно так перенести оси и выбрать такой масштаб, чтобы все признаки имели нулевое среднее значение и единичную дисперсию. Чтобы добиться инвари- инвариантности к вращению, нужно так повернуть оси, чтобы они совпали с собственными векторами матрицы ковариаций выборок. Это пре- преобразование к главным компонентам может проводиться до масштаб- масштабной нормировки или после нее.
I J Рис. 6.8. Действие порога расстояния на группировку (линиями соединены точки с расстояниями, меньшими чем <4). а — большое do, б — среднее d0, в — малое d0. 6г X, = ,Г» Рис. 6.9. Влияние масштабирования на вид группировки.
6.7. Меры подобия 237 Однако читатель не должен делать вывода, что такого рода нор- нормировка обязательно нужна. Рассмотрим, например, вопрос пере- переноса и масштабирования осей так, чтобы каждый признак имел нулевое среднее значение и единичную дисперсию. Смысл такой нормировки состоит в том, что она предотвращает превосходство не- некоторых признаков при вычислении расстояний только потому, что они выражаются большими числовыми значениями. Вычитание среднего и деление на стандартное отклонение являются подходя- подходящей нормировкой, если разброс значений соответствует нормальной случайной дисперсии. Однако она может быть совсем неподходя- неподходяРис. 6.10. Нежелательные эффекты нормирования. а — ненормированные, б — нормированные. щей, если разброс происходит благодаря наличию подклассов (рис. 6.10). Таким образом, такая обычная нормировка может быть совсем бесполезной в наиболее интересных случаях. В п. 6.8.3 опи- описаны лучшие способы достижения инвариантности относительно масштабирования. Вместо нормировки данных и использования евклидова рас- расстояния можно применить некоторое нормированное расстояние, такое, как махаланобисово. В более общем случае мы можем вообще избавиться от использования расстояния и ввести неметрическую функцию подобия s(x, x') для сравнения двух векторов х и х'. Обыч- Обычно это симметрическая функция, причем ее значение велико, когда х и х' подобны. Например, когда угол между двумя векторами вы- выбран в качестве меры их подобия, тогда нормированное произве- произведение xV s(x, х') = цх|11|х'1( может быть подходящей функцией подобия. Эта мера — косинус угла между х и х' — инвариантна относительно вращения и расши- расширения, хотя она не инвариантна относительно сдвига и обычных ли- линейных преобразований. Когда признаки бинарны @ или 1), функция подобия имеет про- простую негеометрическую интерпретацию в терминах меры обладания
238 Гл. 6. Обучение без учителя и группировка общими признаками или же атрибутами. Будем говорить, что выборка х обладает i-ы атрибутом, если xt~l. Тогда х*х'—это просто число атрибутов, которыми обладают х и х', и ||х||||х'||= —(х*хх"х')*/« есть среднее геометрическое числа атрибутов х и чис- числа атрибутов х'. Таким образом, s(x, x') — это мера относительного обладания общими атрибутами. Некоторые простые варианты этой формулы представляют (доля общих атрибутов) и (отношение числа общих атрибутов к числу атрибутов, принадлежа- принадлежащих х или х'). Последняя мера (иногда называемая коэффициентом Танимото) часто встречается в области информационного поиска и биологической таксономии. В других приложениях встречаются са- самые разнообразные меры подобия. Считаем нужным упомянуть, что фундаментальные понятия тео- теории измерении необходимы при использовании любой функции подо- подобия или расстояния. Вычисление подобия между двумя векторами всегда содержит в себе комбинацию значений их компонент. Однако в большинстве случаев применения распознавания образов компо- компоненты вектора признаков являются результатом измерения очевидно несравнимых величин. Каким образом, используя наш прежний пример о классифика- классификации пород древесины, можно сравнивать яркость с ровностью воло- волокон? Должно ли сравнение зависеть оттого, как измеряется яркость— в свечах на квадратный метр или в фут-ламбертах? Как нужно обрабатывать векторы, чьи компоненты содержат смесь из номи- номинальных, порядковых, интервальных и относительных шкал?1) В ко- конечном счете, нет методологического ответа на эти вопросы. Когда пользователь выбирает некоторую функцию подобия или нормирует свои данные каким-либо конкретным методом, он вводит информа- информацию, которая задает процедуру. Мы приводили примеры альтерна- альтернатив, которые могли бы оказаться полезными. Впрочем, мы можем только предупредить начинающего об этих подводных камнях в ме- методах группировок. 6.8. ФУНКЦИИ КРИТЕРИЕВ ДЛЯ ГРУППИРОВКИ Предположим, что мы имеем множество X из п выборок xj, . . . ..., хп, которые хотим разделить на точно с непересекающихся под- а) Эти фундаментальные соображения относятся не только к группировкам. Они появляются, например, когда для неизвестной плотности вероятности выбрана параметрическая форма. В задачах группировки они проявляются более четко.
6.8. Функции критериев для группировки 239 множеств SC\, . . ., 2СС. Каждое подмножество должно представлять группу, причем выборки из одной группы более подобии между со- собой, чем выборки из разных групп. Чтобы хорошо поставить задачу, единственный путь — это определить функцию критерия, которая измеряет качество группировки любой части данных. Тогда задача заключается в определении такого разделения, которое максимизи- максимизирует функцию критерия. В этом разделе мы рассмотрим характери- характеристики некоторых в основном подобных функций критериев, отло- отложив временно вопрос о нахождении оптимального разделения. 6.8.1. КРИТЕРИЙ СУММЫ КВАДРАТОВ ОШИБОК Самая простая и наиболее используемая функция критерия это сумма квадратов ошибок. Пусть гц—число выборок в ЗСи и пусть mt — среднее этих выборок: i- B5) ж «ЯГ/ Тогда сумма квадратов ошибок определяется как Л=2 2 ||х—tnt-jl3. B6) Эта функция имеет простую интерпретацию. Для данной группы Si средний вектор т* лучше всего представляет выборки в SCU так как он минимизирует сумму квадратов длин векторов «ошибок» х—т(. Таким образом, Je измеряет общую квадратичную ошибку, вносимую при представлении п выборок хь . . ., х„ центрами с групп mi, . . ., mc. Значение Jе зависит от того, как выборки сгруп- сгруппированы в группы, и оптимальным разделением считается то, кото- которое минимизирует Jе. Группировки такого типа называют разделе- разделением с минимальной дисперсией. Какого типа задачи группировки подходят для критерия в виде суммы квадратов ошибок? В основном Je — подходящий крите- критерий в случае, когда выборки образуют облака, которые достаточно хорошо отделены друг от друга. Он хорошо будет работать для двух или трех групп рис. 6.11, но для данных на рис. 6.12 не даст удов- удовлетворительных результатов х). Менее явные проблемы возникают, J) Эти два множества данных хорошо известны по разным причинам. Рис. 6.11 показывает два из четырех измерений, сделанных Е. Андерсоном на 150 выборках трех видов ириса. Эти данные были использованы Р. А. Фишером в его класси- классическом труде о дискриминантном анализе (Фишер, 1936) и с тех пор стали излюб- излюбленным примером для иллюстрации процедур группировки. Рис. 6.12 хорошо известен в астрономии как диаграмма Герцшпрунга — Рассела, которая привела к делению звезд на такие классы, как гиганты, сверхгиганты, звезды главной последовательности и белые карлики. Она была использована Форджи и затем Вишартом для иллюстрации ограничений в простых процедурах группировки.
-i -s -If -i •г -t a *r л? *3 2.0 2,5 Ъ2'°- i j _ A Ms virginka D Ms versCcalw О Iris ic/oj* Д M A & /ЛАЛ Д Д Д Д д д Д ДМДД Д Д Д- дд >Д Д A D пап Д ГЗ В i П [ ^ шоп р D m ВО о do О о oftso |O °°0 , 1 t t Длина лепестка-см Рис. 6.11. Двумерное представление данных Андерсона об ирисах О 80,1 82 85 88 В9 АО Аг A3 AS ГО F2 F5 Fs GO GS КО Hi K5 И • г . :1а. ¦II II •;.¦¦: ! +5 *7 *9 *« *13 Рис. 6.12. Диаграмма Герцшпрунга — Рассела.
6.8. Функции критериев для группировки 241 когда имеется большое различие между числом выборок из разных групп. В этом случае может случиться, что группировка, которая разделяет большую группу, имеет преимущество перед группиров- группировкой, сохраняющей единство группы, только потому, что достигну- достигнутое уменьшение квадратичной ошибки умножается на число членов этой суммы (рис. 6.13). Такая ситуация часто вызывается наличи- наличием случайных, далеко отстоящих выборок, и возникает проблема интерпретации и оценки результатов группировок. Так как об этом трудно что-либо сказать, мы просто отметим, что если до- дополнительные условия приводят к тому, что результат минимиза- минимизации Je неудовлетворителен, то эти условия должны быть исполь- использованы для формулировки лучшей функции критерия. 6.8.2. РОДСТВЕННЫЕ КРИТЕРИИ МИНИМУМА ДИСПЕРСИИ Простыми алгебраическими преобразованиями мы можем из- избавиться от средних векторов в выражении Je и получить экви- эквивалентное выражение J e = ~2~ 2-t ' »' ' ' I О !/ N 1=1 / О° О|'| ° \ где / ооо0«0 \ Л "¦ U • • о О О // о ' "'" xt!ir- JTsd ' ° о \i °о ° ° ' B8) \°о°00 °!° °о У В уравнении B8) s,-интер- ' '" * претируется как среднеквад- а ратичное расстояние между точками i-й группы и подчер- подчеркивает тот факт, что критерий по сумме квадратов ошибок использует как меру подобия / 0° ° \ евклидово расстояние. Оно / ° ° о ° ° \ также подсказывает очевид- / о ° ° 0 о° \ ный путь получения других 1° о° °о°1 /--ч функций критериев. Напри- I ° °°0 0 j f°o^ мер, можно заменить st сред- \ о ° ° о °° I ч-Г-^/ ним значением, медианой или, \ 0° ° ° о / **" может быть, максимальным 4N ° о ° ' расстоянием между точками ^^. -- в группе. В более общем слу- 5 чае можно ввести соответст- „ 1О „ _,„_,„,,_ а, „^ „ л Рис. 6.13. Задача расщепления больших вующую функцию подобия гр А ква^ратов ошибок мень. s(x, х ) и заменить st такими ше для а, чем для б.
242 Гл. 6. Обучение без учителя и группировка функциями, как S s(x'x>) B9> ИЛИ s;= min s(x, x'). C0) Как и раньше, мы считаем оптимальным такое разделение, ко- которое дает экстремум критерия. Это приводит к корректно постав- поставленной задаче, и есть надежда, что ее решение вскроет внутрен- внутреннюю структуру данных. 6.8.3. КРИТЕРИИ РАССЕЯНИЯ 6.8.3.1. Матрицы рассеяния Другой интересный класс функций критериев можно получить из матриц рассеяния, используемых в множественном дискрими- нантном анализе. Следующие определения непосредственно выте- вытекают из определений, данных в разд. 4.11. Средний вектор i-й группы Общий средний вектор SC ^ Матрица рассеяния для i-й группы S,= 2 (х—т,)(х—m,)'. C3) Матрица рассеяния внутри группы St. C4) Матрица рассеяния между группами с SB = .2 Щ (га,-—т) (т,-—хл)К C5) .2
6.8, Функции критериев для группировки 243 Общая матрица рассеяния ST= 2 (х — т)(х — т)*. C6) Как и раньше, из этих определений следует, что общая матрица рассеяния представляет собой сумму матрицы рассеяния внутри группы и матрицы рассеяния между группами: ST=Sw+SB. C7) Отметим, что общая матрица рассеяния не зависит от того, как множество выборок разделено на группы. Она зависит только от общего множества выборок. Матрицы рассеяния, внутригрупповые и межгрупповые, все же зависят от разделения. Грубо говоря, существует взаимный обмен между этими двумя матрицами, при этом межгрупповое рассеяние увеличивается, если внутригруп- повое уменьшается. Это удобно, потому что, минимизируя внутри- групповую матрицу, мы максимизируем межгрупповую. Чтобы более точно говорить о степени внутригруппового и меж- межгруппового рассеяния, нам нужно ввести скалярную меру матрицы рассеяния. Рассмотрим две меры — след и определитель. В случае одной переменной эти величины эквивалентны, и мы можем опреде- определить оптимальное разделение как такое, которое минимизирует Sw или максимизирует SB. В случае многих переменных возникают сложности, и было предложено несколько критериев оптимально- оптимальности. 6.8.3.2. След в качестве критерия Самой простой скалярной мерой матрицы рассеяния является ее след—сумма ее диагональных элементов. Грубо говоря, след измеряет квадрат радиуса рассеяния, так как он пропорционален сумме дисперсий по направлениям координат. Таким образом, очевидной функцией критерия для минимизации является след Sw. В действительности это не что иное, как критерий в виде суммы квадратов ошибок, поскольку из C3) и C4) следует 2 '=1 = 2 S ||x-m,||«=/«. C8) Так как tr ST=tr 5^+tr SB и tr ST не зависит от разделения вы- выборок, мы не получаем никаких новых результатов при попытке максимизировать tr SB. Однако нас должно утешать то, что при попытке минимизировать внутригрупповои критерий Je=tr Sw мы максимизируем межгрупповой критерий trSB=2rt,-||m,— m||». C9)
244 Гл. 6. Обучение без учителя и группировка 6.8.3.3. Определитель в качестве критерия В разд. 4.11 мы использовали определитель матрицы рассеяния для получения скалярной меры рассеяния. Грубо говоря, он изме- измеряет квадрат величины рассеяния, поскольку пропорционален произведению дисперсий в направлении главных осей. Так как SB будет вырожденной матрицей, если число групп меньше или равно размерности, то \SB\ — явно плохой выбор для функции критерия. Матрица Sw может быть вырожденной и непременно будет тако- таковой в случае, если п—с меньше, чем размерность d l). Однако, если мы предполагаем, что Sw невырожденна, то приходим к функции критерия с Us, D0) Разделение, которое минимизирует Jd, обычно подобно разде- разделению, которое минимизирует Jе, но они не обязательно одинаковы. Мы заметили ранее, что разделение, которое минимизирует квадра- квадратичную ошибку, может изменяться, если изменяется масштаб по осям. Этого не происходит с Jd. Чтобы выяснить, почему это так, рассмотрим невырожденную матрицу Т и преобразование перемен- переменных х'—Тх. Считая разделение постоянным, мы получаем новые средние векторы m'i~Tmi и новые матрицы рассеяния S'^TStT*. Таким образом, Jd изменяется на Из того, что масштабныйчмножитель \Т\2 одинаков для всех разде- разделений, следует, что Jd и J'd дают одно и то же разделение, и, значит, оптимальная группировка, основанная на Jd, инвариантна отно- относительно линейных невырожденных преобразований данных. 6.8.3.4. Инвариантные критерии Нетрудно показать, что собственные значения Хи . . ., %d матри- матрицы S$SW инвариантны при невырожденных линейных преобразова- преобразованиях данных. Действительно, эти собственные значения являются основными линейными инвариантами матриц рассеяния. Их число- числовые значения выражают отношение межгруппового рассеяния к внутригрупповому в направлении собственных векторов, и обычно *) Это следует из того факта, что ранг S; не может превышать п,-—1, и, таким образом, ранг S^ не может превышать 2 (п,-—1)=п—с. Конечно, если выборки ограничены только подпространством меньшей размерности, возможно получить в качестве Syr вырожденную матрицу, даже если n—c^d. В таких случаях нужно использовать какую-либо процедуру уменьшения размерности, прежде чем применять критерий на основе определителя (разд. 6.14).
6.8. Функции критериев для группировки 245 желательно, чтобы разделение давало большие значения. Конечно, как мы отметили в разд. 4.11, тот факт, что ранг SB не может превы- превышать с—1, означает, что не более чем с—1 этих собственных значе- значений будут не равны нулю. Тем не менее хорошими считаются такие разделения, у которых ненулевые собственные значения велики. Можно изобрести большое число инвариантных критериев груп- группировки с помощью компоновки соответствующих функций этих соб- собственных значений. Некоторые из них естественно вытекают из стандартных матричных операций. Например, поскольку след матрицы — это сумма ее собственных значений, можно выбрать для максимизации функцию критерия х) trS?SB = 2 V D1) Используя соотношение ST=SW+SB, можно вывести следую- следующие инвариантные модификации для tr Sw и \SW\: D2) D3) Так как все эти функции критериев инвариантны относительно линейных преобразований, это же верно для разделений, которые приводят функцию к экстремуму. В частном случае двух групп толь- только одно собственное значение не равно нулю, и все эти критерии приводят к одной и той же группировке. Однако, когда выборки разделены более чем на две группы, оптимальные разделения, хотя часто и подобные, необязательно одинаковы. По отношению к функциям критерия, включающим ST, отметим, что St не зависит от того, как выборки разделены на группы. Таким образом, группировки, которые минимизируют \SW\/\ST\, в точности те же, которые минимизируют \SW\. Если мы вращаем и масштабируем оси так, что ST становится единичной матрицей, можно видеть, что минимизация tr S^Sw эквивалентна мини- Другой инвариантный критерий d vn Однако, поскольку его значение обычно равно нулю, он мало полезен.
246 Гл. 6. Обучение без учителя и группировка хг X, мизации критерия суммы квадратов ошибок tr Sw после этой нормировки. Рис. 6.14 иллюстрирует эффект такого преобразова- преобразования. Ясно, что этот критерий страдает теми же недостатками, о ко- которых мы предупреждали в разд. 6.7, и является, вероятно, наименее желательным критерием. Сделаем последнее предупреждение об инвариантных критериях. Если можно получить очевидно различные группировки масштаби- масштабированием осей или применени- применением другого линейного преоб- преобразования, то все эти груп- группировки должны быть выде- выделены инвариантной процеду- процедурой. Таким образом, весьма вероятно, что инвариантные функции критериев обладают многочисленными локальны- локальными экстремумами и соответст- соответственно более трудно поддаются выделению экстремума. Разнообразие функций критериев, о которых здесь говорилось, и небольшие раз- различия между ними не должны заслонить их существенной общности. В каждом случае основой модели служит то, что выборки образуют с хорошо разделенных облаков точек. Матрица внутригруппового рассеяния Sw используется для измерения компактности этих точек, и основной целью является нахождение наибо- наиболее компактной группировки. Хотя этот подход оказался полезным во многих задачах, он не универсален. Например, он не выделит очень плотное облако, расположенное в цент- центре редкого облака, или не разделит переплетенные вытя- вытянутые группы. Для таких слу- случаев нужно создать другие критерии, которые больше подходят к структуре сущест- существующей или искомой. Рис. 6.14. Результат преобразования к нормированным главным компонентам (разделение, которое минимизирует Sj.JSir в а, минимизирует сумму квадра- квадратичных ошибок в б). а — ненормированные, б — нормирован- нормированные.
6.9. Итеративная оптимизация 247 6.9. ИТЕРАТИВНАЯ ОПТИМИЗАЦИЯ Когда найдена функция критерия, группировка становится кор- корректно поставленной задачей дискретной оптимизации: найти такие разделения множества выборок, которые приводят к экстремуму функции критерия. Поскольку множество выборок конечно, сущест- существует конечное число возможных разделений. Следовательно, теоре- теоретически задача группировки всегда может быть решена трудоемким перебором. Однако на практике такой подход годится лишь для са- самых простых задач. Существует приблизительно С/с\ способов раз- разделения множества из п элементов на с подмножеств х), и этот экспо- экспоненциальный рост при большом п просто давит. Например, скрупу- скрупулезный поиск лучшего набора из пяти групп в случае 100 выборок потребует рассмотрения более чем 10" разделений. Поэтому в боль- большинстве применений перебор практически невозможен. Наиболее часто используемым подходом для поиска оптималь- оптимального разделения является итеративная оптимизация. Основная идея заключается в нахождении некоторого разумного начального разделения и в «передвижении» выборок из одной группы в другую, если это передвижение улучшает функцию критерия. Как и про- процедуры подъема на вершину к общем случае, такой подход гаранти- гарантирует локальный, но не глобальный максимум. Различные начальные точки Могут привести к разным решениям, и никогда не известно, было ли найдено лучшее решение. Несмотря на эти ограничения, вычислительные требования выполнимы, и такой подход приемлем. Рассмотрим использование итеративного улучшения для ми- минимизации критерия суммы квадратов ошибок Je, записанного как е2Л; здесь Jt = S ||x-m,. где х) Читателю, которому нравятся комбинаторные задачи, доставит удоволь- удовольствие показать, что существует точно разделений п элементов на с непустых подмножеств (Феллер В., Введение в тео- теорию вероятностей и ее приложения, т. I, M., «Мир», 1964). Если п^с, послед- последний член наиболее существен.
248 Гл. 6. Обучение без учителя и группировка Предположим, что выборка х, находящаяся в данный момент в группе 5Р и передвигается в группу SVj. Тогда n\j изменяется на х— и 3} увеличивается на Е Приняв предположение, что П(ф\ (одиночных групп в разбие- разбиении не должно быть), такое же вычисление показывает, что mt изменяется на . х—т,- ГП,- = ПЬ г- ' ' га, —1 и Jt уменьшается: Эти соотношения значительно упрощают вычисления изменения функции критерия. Переход х из SC',• в Sj положителен, если умень- уменьшение Ji больше, чем увеличение Jj. Это случай, если n,/{nl—l)\\x—ml\\*>n/(nJ + \)\\\—mJ\\\ что обычно получается, когда х ближе к т^, чем к тг. Если перерас- перераспределение выгодно, наибольшее уменьшение в сумме квадратов ошибок достигается выбором группы, для которой Пу/(п7-+1I |х—ni/||8 минимально. Это приводит к следующей процедуре группировки: Процедура: Базовая Минимальная Квадратичная Ошибка 1. Выбрать первоначальное разделение выборок на группы и вычислить Jе и средние mi, . . ., mc. Цикл: 2. Выбрать следующую выборку — кандидата на передви- передвижение х. Предполагается, что х находится в SC\. 3. Если rtj = l, перейти к Следующий; иначе вычислить p/=
6.10. Иерархическая группировка 249 4. Передвинуть хв^, если pfe^p;- для всех /. 5. Вновь вычислить Je, mt и mh. Следующий: 6. Если Jе не изменилось после п попыток, останов; иначе перейти к Цикл. Если эту процедуру сравнить с процедурой Базовые Изоданные, описанной в п. 6.4.4, то ясно, что первая процедура в основном представляет собой последовательный вариант второй. Тогда как процедура Базовые Изоданные ждет, пока все п выборок будут пере- перегруппированы перед обновлением значений, процедура Базовая Минимальная Квадратичная Ошибка обновляет значения после перегруппировки каждой выборки. Экспериментально было заме- замечено, что эта процедура более чувствительна к локальным миниму- минимумам; другой ее недостаток состоит в том, что результаты зависят от порядка, в котором выбираются кандидаты. Однако это по крайней мере пошаговая оптимальная процедура, и ее легко модифицировать для применения к задачам, в которых выборки получаются последо- последовательно, а группировка должна производиться в масштабе реаль- реального времени. Общая проблема для всех процедур подъема на вершину — это выбор начальной точки. К сожалению, не существует простого уни- универсального решения этой проблемы. Один из подходов — взять с произвольных выборок в качестве центров групп и использовать их для разделения данных на основе минимума расстояния. Повторе- Повторения с различными случайными выборками в качестве центров могут дать некоторое представление о чувствительности решения к выбору начальной точки. Другой подход состоит в нахождении начальной точки для с-й группы из решения задачи с (с—1) группами. Решение для задачи с одной группой — это среднее по всем выборкам; на- начальная точка для задачи с с группами может быть средняя для за- задачи с (с—1) группами плюс выборка, которая находится дальше всех от ближайшего центра группы. Этот подход подводит нас к так называемым иерархическим процедурам группировок, которые про- простыми методами дают возможность получить очень хорошие началь- начальные точки для итерационной оптимизации. 6.10. ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА 6.10.1. ОПРЕДЕЛЕНИЯ Рассмотрим последовательность разделений п выборок на с групп. Первое из них — это разделение на п групп, причем каждая из групп содержит точно по одной выборке. Следующее разделение на п—1 групп, затем на п—2 и т. д. до «-го, в котором все выборки образуют одну группу. Будем говорить, что находимся на k-n уров- уровне в последовательности, когда с=п—k+l. Таким образом, первый
250 Гл. б. Обучение без учителя и группировка уровень соответствует п группам, а п-й — одной группе. Если даны любые две выборки х и х', на некотором уровне они будут собраны вместе в одну группу. Если последовательность обладает тем свой- свойством, что, когда две выборки попадают в одну группу на уровне k, они остаются вместе на более высоких уровнях, то такая последова- последовательность называется иерархической группировкой. Классические примеры иерархической группировки можно найти в биологии, где индивидуумы группируются в виды, виды — в роды, роды — Уровень Г -*- о no Уровень 2—~\ И Уровень 3 —*- к>» Уровень Ч—f l—o—i УроВень Ч Уробснь 5-*- УробгньВ-* s too 90 so 70 60 30 го т § Рис. 6.15. Дендрограмма иерархической группировки. в семейства и т. д. Вообще группировки такого рода проникают и в другие науки. Для любой иерархической классификации существует соответст- соответствующее дерево, называемое дендрограммой, которое показывает, как группируются выборки. На рис. 6.15 представлена дендрограм- дендрограмма для гипотетической задачи, содержащей шесть выборок. Уро- Уровень 1 показывает шесть выборок как одиночные группы. На уровне 2 выборки хг и хъ были сгруппированы в группу, и они остаются вместе на всех последующих уровнях. Если возможно измерить подобие между группами, то дендрограмма изображается в масшта- масштабе, чтобы показать подобие между группами, которые объединяются. На рис. 6. }5, например, подобие между двумя группами выборок, которые объединены на уровне 6, имеет значение 30. Значения подо- подобия часто используются для определения того, было ли объединение
6.10. Иерархическая группировка 251 естественным или вынужденным. Для нашего гипотетического примера можно сказать, что объединения на уровнях 4 и 5 естест- естественны, но значительное уменьшение подобия, необходимое для пере- перехода на уровень 6, делает объединение на этом уровне вынужденным. Мы вскоре увидим, как получить такие значения подобия. Благодаря простоте понятий иерархические процедуры группи- группировки находятся среди наиболее известных методов. Процедуры можно разделить на два различных класса: агломеративный и дели- делимый. Агломератшные (процедуры снизу-вверх, объединяющие) процедуры начинают с с одиночных групп и образуют последова- последовательность постепенно объединяемых групп. Делимые (сверху-вниз, разделяемые) процедуры начинают с одной группы, содержащей все выборки, и образуют последовательность постепенно расщепляе- расщепляемых групп. Вычисления, необходимые для перехода с одного уровня на другой, обычно проще для агломеративных процедур. Однако, когда имеется много выборок, а нас интересует только небольшое число групп, такое вычисление должно повториться много раз. Для простоты ограничимся агломеративными процедурами, отсылая читателя к литературе по делимым процедурам. 6.10.2. АГЛОМЕРАТИВНАЯ ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА Основные шаги в агломеративной группировке содержатся в сле- следующей процедуре: Процедура: Базовая Агломеративная Группировка 1. Пусть с=и и ^i—{\i}, t=l, . . ., п. Цикл: 2. Если с^с, останов. 3. Найти ближайшую пару групп, скажем 3?t и SC]. 4. Объединить SVt и SC'j, уничтожить Ж} и уменьшить с на единицу. 5. Перейти к Цикл. Описанная процедура заканчивается, когда достигнуто заданное число групп. Однако, если мы продолжим до с=1, то можем полу- получить дендрограмму, подобную изображенной на рис. 6.15. На любом уровне расстояние между ближайшими группами может дать значе- значение различия на этом уровне. Читатель обратит внимание на то, что мы не сказали, как измерять расстояние между двумя группами. Рассуждения здесь очень схожи с рассуждениями при выборе функ- функции критерия. Для простоты ограничимся следующими мерами расстояния, предоставляя другие возможные меры воображению
252 Гл. б. Обучение без учителя и группировка читателя: =¦ min — Х' II. Н max Цх-x'H, ^,-, iry)=||m,—my||. Все эти меры напоминают минимальную дисперсию, и они обыч- обычно дают одинаковые результаты, если группы компактные и хорошо Рис. 6.16. Три примера. разделены. Однако, если группы близки друг к другу или их форма в основном не гиперсферическая, могут получиться разные резуль-
6.10. Иерархическая группировка 253 таты. Мы используем двумерные множества точек, показанные на рис. 6.16, для иллюстрации этих различий, 6.10.2.1. Алгоритм «.ближайший сосед» Рассмотрим сначала случай, когда используется dmin1). Пред- Предположим, что мы рассматриваем точки данных как вершины графа, причем ребра графа образуют путь между вершинами в том же под- подмножестве SV2). Когда для измерения расстояния между подмноже- подмножествами используется dm-m, ближайшие соседи определяют ближай- ближайшие подмножества. Слияние^"t и &} соответствует добавлению реб- ребра между двумя ближайшими вершинами в 3?t и Sj. Поскольку реб- ребра, соединяющие группы, всегда проходят между различными груп- группами, результирующий граф никогда не имеет замкнутых контуров или цепей; пользуясь терминологией теории графов, можно сказать, что эта процедура генерирует дерево. Если так продолжать, пока все подмножества не будут соединены, в результате получим покрываю- покрывающее дерево (остов) — дерево с путем от любой вершины к любой дру- другой вершине. Более того, можно показать, что сумма длин ребер результирующего дерева не будет превышать суммы длин ребер для любого другого покрывающего дерева для данного множества выбо- выборок. Таким образом, используя dmin в качестве меры расстояния, агломеративная процедура группировки превращается в алгоритм для генерирования минимального покрывающего дерева. Рис. 6.17 показывает результат применения этой процедуры к данным из рис. 6.16. Во всех случаях процедура заканчивалась при с=2. Минимальное покрывающее дерево можно получить, до- добавляя самое короткое ребро между двумя группами. В первом слу- случае, где группы компактны и хорошо разделены, найдены явные группы. Во втором случае наличие некоторых точек, расположен- расположенных так, что между группами создан некоторый мост, приводит к довольно неожиданной группировке в одну большую продолгова- продолговатую группу и в одну маленькую компактную группу. Такое поведе- поведение часто называют «цепным эффектом» и иногда относят к недостат- недостаткам этой меры расстояния. В случае, когда результаты очень чувст- чувствительны к шуму или к небольшим изменениям в положении точек данных, такая критика вполне законна. Однако, как иллюстрирует третий случай, та же тенденция формирования цепей может счи- считаться преимуществом, если группы сами по себе вытянуты или име- имеют вытянутые отростки. х) В литературе результирующую процедуру часто называют алгоритмом ближайшего соседа или алгоритмом минимума. Если алгоритм заканчивается, когда расстояние между ближайшими группами превышает произвольный порог, его называют алгоритмом единичной связи. 2) Хотя мы не будем широко использовать теорию графов, однако предпо- предполагается, что читатель в общих чертах знаком с этой теорией. Ясная, четкая трак- трактовка дана в книге О. Оре, Графы и их применение, М., «Мир», 1965.
254 Гл, 6. Обучение без учителя и группировка Рис. 6.17. Результаты алгоритма «ближайший сосед». 6.10.2.2. Алгоритм «дальний сосед» Когда для измерения расстояния между группами используются dmax, возникновение вытянутых групп является нежелательным й). Применение процедуры можно рассматривать как получение графа, в котором ребра соединяют все вершины в группу. Пользуясь терми- терминологией теории графов, можно сказать, что каждая группа обра- образует полный подграф. Расстояние между двумя группами опреде- определяется наиболее удаленными вершинами в этих двух группах. Когда х) В литературе результирующую процедуру часто называют алгоритмом максимума или дальнего соседа. Если он заканчивается, когда расстояние между двумя ближайшими группами превышает произвольный порог, его называют алгоритмом полных связей.
6.10. Иерархическая группировка 255 Рис. 6.18. Результаты алгоритма «дальний сосед». ближайшие группы объединяются, граф изменяется добавлением ребер между каждой парой вершин в двух группах. Если мы опреде- определяем диаметр группы как наибольшее расстояние между точками в группе, то расстояние между двумя группами — просто диаметр их объединения. Если мы определяем диаметр разделения как наиболь- наибольший диаметр для группы в разделении, то каждая итерация увели- увеличивает диаметр разделения минимально. Как видно из рис. 6.18, это является преимуществом, когда истинные группы компактны и примерно одинаковы по размерам. Однако в других случаях, как, например, в случае вытянутых групп, результирующая группиров- группировка бессмысленна. Это еще один пример наложения структуры на данные вместо нахождения их структуры.
256 Гл. 6. Обучение без учителя и группировка 6.10.2.3. Компромиссы Минимальная и максимальная меры представляют два крайних подхода в измерении расстояния между группами. Как все процеду- процедуры, содержащие максимумы и минимумы, они оказываются слишком чувствительными к различным отклонениям. Использование усред- усреднения — очевидный путь по возможности избежать этого, и davg и dmean являются естественным компромиссом между dmin и dmax. С вычислительной точки зрения dmean — наиболее простая из всех мер, так как все другие требуют вычисления всех пг п3 пар расстоя- расстояний ||х — х'||. Однако такую меру, как davg, можно использовать, когда расстояния ||х — х'|| заменены на меру подобия, а меру подо- подобия между средними векторами трудно или невозможно определить. Мы оставляем читателю разобраться, как использование dayg или dmean может изменить группировку точек на рис. 6.16. 6.10.3. ПОШАГОВАЯ ОПТИМАЛЬНАЯ ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА Мы заметили раньше, что, если группы растут за счет слияния ближайшей пары групп, результат напоминает минимальную дис- дисперсию. Однако, когда мера расстояния между группами выбрана произвольно, редко можно утверждать, что результирующее разде- разделение приводит к экстремуму какой-либо конкретной функции кри- критерия. В действительности иерархическая группировка определяет группу как какой-то результат после применения процедуры груп- группировки. Однако простая модификация позволяет получить пошаго- пошаговую процедуру оптимизации для получения экстремума функции критерия. Это делается простой заменой шага 3 в элементарной агло- меративной процедуре группировки (разд. 6.10.2) на 3'. Найти пару разделенных групп SC{ и Sj, слияние которых увеличит (или уменьшит) функцию критерия минимально. Это гарантирует нам, что на каждой итерации мы сделали луч- лучший шаг, даже если окончательное разделение не будет оптималь- оптимальным. Мы видели ранее, что использование dmax вызывает наименьшее возможное увеличение диаметра разделения на каждом шаге. При- Приведем еще один простой пример с функцией критерия суммы квад- квадратичных ошибок Je. С помощью анализа, очень сходного с исполь- использованным в разд. 6.9, мы находим, что пара групп, слияние которых увеличивает Je на минимально возможную величину, это такая па- пара, для которой «расстояние»
6.10. Иерархическая группировка 257 минимально. Следовательно, при выборе групп для слияния этот критерий учитывает как число выборок в каждой группе, так и рас- расстояние между группами. В общем случае использование^ приведет к тенденции увеличения размера групп за счет присоединения оди- одиночных или малых групп к большим, а не за счет слияния групп средних размеров. Хотя окончательное разделение может не мини- минимизировать Jе, оно обычно дает хорошую начальную точку для дальнейшей итерационной оптимизации. 6.10.4. ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА И СООТВЕТСТВУЮЩАЯ МЕТРИКА Предположим, что мы не имеем возможности снабдить метрикой наши данные, но что можем измерить степень различия б (х, х') для каждой пары выборок, где б(х, х')^0, причем равенство нулю вы- выполняется тогда и только тогда, когда х = х'. Тогда все еще можно использовать агломеративную процедуру, учитывая, что пара бли- ближайших групп — это пара с наименьшими различиями. Интересно, что если мы определяем различия между двумя группами как min б(х,х') i, х' или => max б(х.х'), 3 !% то иерархическая процедура группировки даст функцию расстояния для данного множества из п выборок. Более того, упорядочение расстояний между выборками будет инвариантно относительно лю- любого монотонного преобразования величин различий. Чтобы увидеть, как это происходит, начнем с определения величины vk для группировки на уровне k. Для уровня 1 имеем i»i=0. Для всех более высоких уровней vh равна минимальному раз- различию между парами разных групп на уровне (k—1). При внимательном рассмотрении станет ясно, что как с бш1п> так и с бтах величина vh либо остается такой же, либо увеличивает- увеличивается при увеличении k. Более того, мы предполагаем, что нет двух одинаковых выборок в множестве, так что v2>0. Следовательно, 0 Теперь можно определить расстояние d (x, х') между х и х' как величину группировки на нижнем уровне, для которой х и х' на- находятся в одной группе. Чтобы убедиться, что это действительно функция расстояния, или метрика, мы должны показать следующее: 1) d(\, x')=0«x=x', 2) d(x. x')=d(x', x), 3) d(x, x")^d(x, x')+d(x', x").
258 Гл. 6. Обучение без учителя и группировка Легко видеть, что первое требование удовлетворяется. Самый низкий уровень, на котором х и х' могут быть в одной группе, это уровень 1, так что d(x, x')=i>i=0. Обратно, если d(x, х')=0, то из уг=0 следует, что х и х' должны быть в одной группе на уровне 1, и поэтому х=хл. Правильность второго требования немедленно следует из определения d(x, х'). Остается третье требование — неравенство треугольника. Пусть d(x, \')=vt и d(x', x")—vj, так что х и х' находятся в одной группе на уровне i, а х' и х" — в одной группе на уровне/. Из-за иерархиче- иерархического объединения групп одна из этих групп включает другую. Если k=max(i, /), ясно, что на уровне k x, х' и х" находятся в од- одной группе, и, следовательно, что d(x, Но так как значения vh монотонно не уменьшаются, то vh = max(vt, Vj), и поэтому d (х, х") < max (d (x, x'), d (x', х")). Это называется ультраметрическим неравенством. Оно даже сильнее, чем неравенство треугольника, так как max(d(x, x'), d(x', x"))^.d(x, x')+d(x', x"). Таким образом, удовлетворяются все условия, и мы получили подлинную метрику для сравнения п вы- выборок. 6.11. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ТЕОРИЮ ГРАФОВ В двух или трех примерах мы использовали линейные графы, чтобы с иной точки зрения взглянуть на природу некоторых проце- процедур группировки. Если формулы, использующие нормальные смеси и разделения на основе минимальной дисперсии, кажется, возвра- возвращают нас к изображению групп как изолированных скоплений то- точек, то язык и понятия теории графов дают возможность рассмотреть более скрытые структуры. К сожалению, немногое из таких возмож- возможностей изучалось систематически, и пока не существует единого подхода к постановке задач группировки как задач теории графов. Таким образом, эффективное использование этих идей — это пока еще во многом искусство, и читатель, желающий исследовать такие возможности, должен быть достаточно изобретателен. Мы начнем наш краткий обзор методов теории графов, вернув- вернувшись к рассмотрению простой процедуры, которая строила графы, показанные на рис. 6.8. Здесь было выбрано пороговое расстояние d0 и считалось, что две точки находятся в той же группе, если рас- расстояние между ними меньше dQ. Эту процедуру легко обобщить для применения к произвольным мерам подобия. Предположим, что мы выбрали пороговое значение s0, и будем говорить, что х подобен х', если s(x, x')>s0. Это определяет матрицу подобия S=[su] размера
6.11. Методы, использующие теорию графов 259 пХп, где f 1, если s (х,-, ху) > s0, S'7==\ О в противном случае, t, / = 1, ..., п. Эта матрица определяет граф подобия, в котором вершины соот- соответствуют точкам и ребро соединяет вершины i и / тогда и только тогда, когда s(J-=l. Группировка, полученная при помощи алгоритма единственной связи и модифицированного алгоритма полной связи, легко описы- о Диаметральный или околодиаметральный путь • Недиаметральный путь ••••• • ••* • •• • • **•• • Рис. 6.19. Группы, образованные удалением несовместимых ребер (Цань, 1971). а — множество точек, б — минимальное покрывающее дерево, в — группы. вается при помощи этого графа. В случае алгоритма единственной связи две выборки х и х' находятся в одной группе тогда и только тогда, когда существует цепь хь х2, . . ., xft, такая, что х подобен хь Xi подобен х2 и т. д. для всей цепи. Следовательно, такая группи- группировка соответствует связанным компонентам в графе подобия. В слу- случае алгоритма полной связи все выборки в данной группе должны быть подобны друг другу, и ни одна выборка не должна находиться более чем в одной группе. Если мы опускаем второе требование, то тогда такая группировка соответствует максимальным полным под- подграфам в графе подобия, причем в «наибольших» подграфах ребра объединяют все пары вершин. (В общем случае группы, полученные с помощью алгоритма полной связи, можно найти среди максималь- максимальных полных подграфов, но их нельзя определить, не зная степени подобия.) В предыдущем разделе мы заметили, что алгоритм ближайшего соседа можно рассматривать как алгоритм нахождения минималь- минимального покрывающего дерева. Обратно, при данном минимальном
260 Гл. 6. Обучение без учителя и группировка покрывающем дереве можно найти группировки, полученные по алгоритму ближайшего соседа. Удаление самого длинного ребра вызывает разделение на две группы, удаление следующего по дли- длине ребра — разделение на три группы и т. д. Это дает способ полу- получения делимой иерархической процедуры и предлагает другие воз- возможности деления графа на подграфы. Например, при выборе ребра — кан- кандидата на удаление мы мо- можем сравнить его длину с длинами других ребер, при- прилегающих к его вершинам. Назовем ребро несовмести- несовместимым, если его длина / зна- значительно больше / — сред- средней длины всех других ребер, прилегающих к его вершинам. На рис. 6.19 показаны минимальное по- покрывающее дерево для дву- двумерного множества точек и группы, полученные систе- систематическим удалением всех ребер, чья длина / больше 21. Отметим чувствитель- чувствительность этого критерия к ло- локальным условиям, даю- дающую результаты, которые значительно отличаются от простого удаления двух са- самых длинных ребер. Когда точки данных располагаются в длинные цепочки, минимальное пок- покрывающее дерево образует естественный скелет для цепочки. Если мы опреде- определим диаметральный путь как самый длинный путь по дереву, то тогда цепочка будет характеризоваться глуби- глубиной отклонения от диаметрального пути. Напротив, для боль- большого, равномерно расположенного облака точек дерево не будет иметь явного диаметрального пути, а будет иметь несколько различ- различных путей, близких к диаметральному. Для любого из них некото- некоторое число вершин будет находиться вне пути. В то время как не- небольшие изменения в расположении точек данных могут вызвать Рис. 6.20. Минимальное покрывающее де- дерево с бимодальным распределением длин ребер.
6.12. Проблема обоснованности 261 значительное перераспределение минимального покрывающего де- дерева, они обычно мало влияют на такие статистики. Одной из полезных статистик, которую можно получить из мини- минимального покрывающего дерева, является распределение длин ре- ребер. На рис. 6.20 представлен случай, когда плотное облако распо- располагается внутри редкого. Длины ребер минимального покрываю- покрывающего дерева образуют две различные группы, которые легко об- обнаружить процедурой минимальной дисперсии. Убирая все ребра длиннее некоторого промежуточного значения, мы можем выделить плотное облако как наибольшую связанную компоненту оставше- оставшегося графа. Хотя более сложные конфигурации нельзя так легко изобразить, гибкость подхода, использующего теорию графов, по- позволяет его применить для широкого круга задач группировки. 6.12. ПРОБЛЕМА ОБОСНОВАННОСТИ Почти для всех процедур, которые мы пока что рассмотрели, предполагалось, что число групп известно. Это разумное предпо- предположение, если мы обновляем классификатор, который был создан на малом множестве выборок, или если следим за образами, медлен- медленно меняющимися во времени. Однако это очень неестественное предположение в случае, когда мы исследуем совершенно неизвест- неизвестное множество данных. Поэтому в кластерном анализе постоянно присутствует проблема: сколько групп имеется в множестве выборок? Когда группировка производится достижением экстремума функции критерия, обычный подход состоит в том, что необходимо повторить процедуры группировки для с=1, с—2, с=3 и т. д. и проследить за изменением функции в зависимости от с. Например, ясно, что критерий по сумме квадратов ошибок Je должен моно- монотонно уменьшаться в зависимости от с, так как квадратичную ошиб- ошибку можно уменьшать каждый раз, когда с увеличивается, за счет пересылки одной выборки в новую группу. Если п выборок разде- разделены на с компактных, хорошо разделенных групп, можно ожидать, что Jе будет уменьшаться быстро до момента, когда с=с, после этого уменьшение должно замедлиться, а при с=п станет равным нулю. Подобные аргументы можно выдвинуть и для процедуры иерархиче- иерархической группировки, причем обычно предполагается, что большие различия в уровнях, на которых группы объединяются, указывают на наличие естественных группировок. Более формальным подходом к задаче является попытка найти некоторую меру качества, которая показывает, насколько хорошо данное описание из с групп соответствует данным. Традиционными мерами качества являются хи-квадрат и статистики Колмогорова — Смирнова, но размерность данных обычно требует использования более простых мер, таких, как функция критерия J (с). Так как мы предполагаем, что описание на основании (с+1) групп будет точнее,
262 Гл. 6. Обучение без учителя и группировка чем на основании с групп, то хотелось бы знать, что дает статисти- статистически значимое улучшение j (с). Формальным способом является выдвижение нулевой гипотезы, что имеются только с групп, и вычисление выборочного распределе- распределения для J(c+\) этой гипотезы. Это распределение показывает, ка- какого улучшения надо ожидать, когда описание из с групп является правильным. Процедура принятия решений должна принять нуле- нулевую гипотезу, если полученное значение У(с+1) попадает внутрь пределов, соответствующих приемлемой вероятности ложного отказа. К сожалению, обычно очень трудно сделать что-либо большее, кроме грубой оценки такого распределения для J (с+1). Конечное решение не всегда достоверно, и статистическая задача проверки правильности группировки в основном не решена. Однако, пред- предполагая, что даже некачественная проверка лучше, чем никакая, мы проведем следующий приблизительный анализ для простого критерия суммы квадратов ошибок. Предположим, что мы имеем множество 3? из п выборок и хотим решить, есть ли какое-либо основание для предположения, что они образуют более одной группы. Выдвинем нулевую гипотезу, что все п выборок получены из нормального распределения со средним ц и матрицей ковариации о2/. Если эта гипотеза правильна, то любые обнаруженные группы были сформированы случайно, и любое замеченное уменьшение суммы квадратов ошибок, полученное при группировке, не имеет значения. Сумма квадратов ошибок Jе{\) — случайная переменная, так как она зависит от определенного множества выборок: где m — среднее всех п выборок. Согласно нулевой гипотезе, рас- распределение для Je(l) приблизительно нормальное со средним nda2 и дисперсией 2/ufo4. Предположим теперь, что мы разделяем множество выборок на два подмножества 5Сг и&2 так, чтобы минимизировать JeB), где ¦U2)=S 2 ||x-m,H2, здесь m* — среднее выборок в St. Согласно нулевой гипотезе, такое разделение ложно, но тем не менее дает в результате значение JeB), меньшее Je(l). Если бы мы знали выборочное распределение для JeB), то могли бы определить, насколько мало должно быть JeB), до того, как будем вынуждены отказаться от нулевой гипотезы одногруппового разделения. Так как аналитическое решение для оптимального разделения отсутствует, мы не можем вывести точного
6.13. Представление данных 263 решения для распределения выборок. Однако можно получить приблизительную оценку, получив проведением гиперплоскости через среднее выборок разделение, близкое к оптимальному. Для больших п можно показать, что сумма квадратов ошибок для та- такого разделения приблизительно нормальна со средним n(d—2/п)а2 и дисперсией 2n(d—8/я2)а4. Результат совпадает с нашим предположением, что JeB) меньше, чем /гA), так как среднее n(d—2/п)аг для JeB) для близкого к оп- оптимальному разделению меньше, чем среднее для Je(l) — ndo2. Чтобы стать значимым, уменьшение суммы квадратов ошибок должно быть больше, чем этот результат. Мы можем получить приблизительное критическое значение для JeB), предположив, что близкое к оптимальному разделение почти оптимально, используя нормальную аппроксимацию для распределения выборок и оцени- оценивая а2 как хтН''О) Конечный результат можно сформулировать следующим обра- образом: отбрасываем нулевую гипотезу с р-процентным уровнем значи- значимости, если JA2) Cl 2 cc/2""8W D4) УгA) rid a V nd ' v ; где а определяется из выражения -а /2л Таким образом, мы получим тест для решения, оправданно или нет разбиение группы. Ясно, что задачу с с группами можно ре- решать, применив те же тесты для всех найденных групп. 6.13. ПРЕДСТАВЛЕНИЕ ДАННЫХ В ПРОСТРАНСТВЕ МЕНЬШЕЙ РАЗМЕРНОСТИ И МНОГОМЕРНОЕ МАСШТАБИРОВАНИЕ Сложность принятия решения, имеет ли смысл данное разделе- разделение, частично вытекает из-за невозможности визуального представ- представления многомерных данных. Сложность усугубляется, когда при- применяются меры подобия или различия, в которых отсутствуют зна- знакомые свойства расстояния. Одним из способов борьбы с этим яв- является попытка представить точки данных как точки в некотором пространстве меньшей размерности так, чтобы расстояние между точками в пространстве меньшей размерности соответствовало раз- различиям между точками в исходном пространстве. Если бы можно было найти достаточно точное представление в двух- или трехмерном
264 Гл. 6. Обучение без учителя и группировка пространстве, это было бы очень важным способом для изучения внутренней структуры данных. Общий процесс нахождения конфи- конфигурации точек, в которой расстояние между точками соответствует различиям, часто называют многомерным масштабированием. Начнем с более простого случая, когда имеет смысл говорить о расстояниях между п выборками хь х2, . . ., х„. Пусть уг — отобра- отображение хг в пространство меньшей размерности, 6,;- — расстояние между хг и х;-, a di} — расстояние между у( и у;-. Тогда мы ищем конфигурацию точек отображения уь . . ., уп, такую, для которой п(п—1)/2 расстояний di} между точками отображений по возможно- возможности близки соответствующим начальным расстояниям btj. Так как обычно нельзя найти конфигурацию, для которой dij—Ьц для всех i и /, нам необходим некоторый критерий для принятия решения, лучше ли одна конфигурация другой. Следующие функции сумм квадратов ошибок подходят в качестве кандидатов: »¦</ Так как функции критериев содержат только расстояния между точками, они инвариантны к жесткому передвижению всей конфигу- конфигурации. Более того, они все нормированы, так что их минимальные значения инвариантны относительно раздвижения точек выборок. Функция Jее выявляет наибольшие ошибки независимо от того, большие или малые расстояния 8и. Функция Jif выявляет наиболь- наибольшие частные ошибки независимо от того, большие или малые ошибки \dtj—6j;|. Функция Jey— полезный компромисс, выявляющий наи- наибольшее произведение ошибки и частной ошибки. Если функция критерия выбрана, оптимальной считается такая конфигурация уи . . ., уп, которая минимизирует эту функцию кри- критерия. Оптимальную конфигурацию можно искать с помощью стандартной процедуры градиентного спуска, начиная от некоторой начальной конфигурации и изменяя уг в направлении наибольшего уменьшения функции критерия. Так как градиент dtj по отношению к yf — это просто единичный вектор в на- направлении у/ — yj. Таким образом, градиенты функции критерия
6.13. Представление данных 265 легко вычислить Начальную конфигурацию можно выбрать случайным или лю- любым другим способом, как-то распределяющим точки отображения. Если точки отображения лежат в d-мерном пространстве, то можно найти простую и эффективную начальную конфигурацию путем вы- выбора тех d координат выборок, у которых наибольшая дисперсия. Следующий пример иллюстрирует результаты, которые можно получить этими методами 2). Данные состоят из 30 точек, располо- расположенных на единичных интервалах вдоль трехмерной спирали: X1(k)=COSXa, А = 0, 1 29. На рис. 6.21, а показано перспективное представление трехмер- трехмерных данных. Когда был использован критерий Jе}, после двадцати итераций процедуры градиентного спуска была получена двумерная конфигурация, показанная на рис. 6.21, б. Конечно, сдвиги, враще- вращения и отражения этой конфигурации были бы одинаково хорошими решениями. В неметрических многомерных задачах масштабирования вели- величины Ьц представляют собой различия, чьи числовые значения не так важны, как их упорядочение. Идеальной была бы такая конфи- конфигурация, в которой упорядочение расстояний di;- было бы одинако- одинаковым с упорядочением различий б,;-. Упорядочим т=п(п—1)/2 различий так, что 6i(Ji^. . .^bimjm, и пусть d^ — любые т чисел, удовлетворяющие ограничениям монотонности: x) Вторую частную производную также легко вычислить, так что можно использовать алгоритм Ньютона. Заметим, что при у,-=уу единичный вектор от у,- до уу не определен. Если возникает такая ситуация, то (у,—у/)А^у может быть заменен любым единичным вектором. 2) Этот пример взят из статьи Саммона (J. W. Sammon, Jr.) «A nonlinear mapping for data structure analysis», IEEE Trans. Сотр., С-18, 401—409 (May 1969).
266 Гл. 6. Обучение без учителя и группировка В общем случае расстояния dtj не удовлетворяют этим ограниче- ограничениям и числа dtj не будут расстояниями. Однако степень, с которой dtj удовлетворяет этим ограничениям, измеряется величиной где всегда предполагается, что dtj удовлетворяет ограничениям мо- монотонности. Таким образом, /mon — мера того, в какой степени Рис. 6.21. Двумерное представление точек данных в трехмерном пространстве (Саммон, 1969). а — спираль, б — точки отображения. конфигурация точек уъ . . ., у„ соответствует первоначальным дан- данным. К сожалению, /шоп нельзя использовать для определения оп- оптимальной конфигурации, так как это может свести конфигурацию к одной точке. Однако этот дефект легко устраняется следующей нормировкой: D8) di Таким образом, Jmon инвариантно относительно сдвига, враще- вращения и растяжения конфигурации, и оптимальной можно считать ту конфигурацию, которая минимизирует функцию критерия. Экспе- Экспериментально было показано, что, когда число точек больше размер- размерности пространства отображения, ограничения на монотонность являются очень сильными. Этого можно ожидать, поскольку число
6.14. Группировка и уменьшение размерности 267 ограничений растет пропорционально квадрату числа точек, что служит основанием для часто встречаемого утверждения о том, что данная процедура дает возможность п&лучить метрическую инфор- информацию из неметрических данных. Качество представления обычно улучшается при увеличении размерности пространства отображе- отображения, и иногда необходимо выйти из трехмерного пространства, чтобы получить приемлемо малое значение /mon. Однако это небольшая цена за возможность использования многих процедур группировок, имеющихся для точек данных в метрическом пространстве. 6.14. ГРУППИРОВКА И УМЕНЬШЕНИЕ РАЗМЕРНОСТИ Так как большая размерность является камнем преткновения для многих процедур распознавания образов, были предложены многочисленные методы уменьшения размерности. В противополож- противоположность процедурам, которые мы только что рассматривали, большин- большинство этих методов обеспечивает функциональное отображение, так что можно определить отображение произвольного вектора призна- признаков. Классическими процедурами являются анализ главных компо- компонент и факторный анализ, оба из которых уменьшают размерность путем формирования линейных комбинаций признаков *). Если мы рассматриваем задачу как задачу удаления или объединения (т. е. группирования) признаков с сильной корреляцией, то ясно, что методы группировки применимы к этой задаче. В терминах матриц данных, где п строк представляют d-мерные выборки, под обычной группировкой нужно понимать группировку строк—при этом для представления данных используется меньшее число центров групп,— в то время как под уменьшением размерности нужно понимать груп- группировку столбцов— при этом для представления данных использу- используются комбинированные признаки. Рассмотрим простую модификацию иерархической группировки для уменьшения размерности. Вместо матрицы размера пхп рас- расстояний между выборками мы рассмотрим матрицу корреляций /?=[pijl размера dxd, где коэффициент корреляции р^ относится к ковариациям (или ковариациям выборок) как х) Целью анализа главных компонент (известного в литературе по теории связи как разложение Кархунеиа—Лоэва) является нахождение представления в пространстве меньшей размерности, учитывающего дисперсии признаков. Целью факторного анализа является нахождение представления в пространстве меньшей размерности, учитывающего корреляции между признаками. Для более глубокого ознакомления см. книги Kendall М. G., Stuart A. «The advanced theory of statistics», v. 3, ch. 43 (Hafner, New York, 1966) или Harman H. H. «Mo- «Modern factor analysis» (University of Chicago Press, Chicago and London, 2nd ed.( 1967).
268Гл. 6. Обучение без учителя и группировка Так как 0^р?7-^1, причем для некоррелированных признаков р^=0, а для полностью коррелированных признаков p?j=l, то р|/ играет роль функции подобия для признаков. Два признака, для которых р^ велико, хорошие кандидаты на объединение в один признак; таким образом, размерность снижается на единицу. Повторение этого процесса приводит к следующей иерархической процедуре: Процедура: Иерархическое Уменьшение Размерности 1. Пусть d=d и ?t={Xi}, t=l, . . ., d. Цикл: 2. Если d=d', останов. 3. Вычислить матрицу корреляций и найти наиболее кор- коррелированную пару групп признаков, скажем ?t и ?}. 4. Объединить ?i и ?j, стереть ?j и уменьшить^ на единицу. 5. Перейти к Цикл. Вероятно, самым простым способом слияния двух групп призна- признаков является их усреднение. (Это предполагает, что признаки были масштабированы так, что их числовые значения сравнимы.) Имея такое определение нового признака, несложно определить матрицу корреляции для групп признаков. Возможны различные модифика- модификации такого подхода, но мы их не будем рассматривать. С точки зрения классификации образов из всех способов умень- уменьшения размерности наибольшей критики заслуживает то, что все они связаны с достоверным представлением данных. Наибольшее внимание обычно уделяется тем признакам или группам признаков, которые обладают наибольшей изменчивостью. Но для классифика- классификации нам нужно разделение, а не представление. Грубо говоря, наи- наиболее интересны те признаки, для которых разница между средними значениями классов велика по сравнению со стандартным отклоне- отклонением, а не те, для которых велики стандартные отклонения. Короче говоря, нас интересует нечто подобное методу множественного дискриминантного анализа, описанному в гл. 4. Растет количество теоретических работ по методам уменьшения размерности для классификации образов. Некоторые из этих мето- методов стремятся сформировать новые признаки на основе линейных комбинаций старых. Другие из них стремятся создать меньшее подмножество первоначальных признаков. Основная проблема этой теории состоит в том, что деление распознавания образов на извле- извлечение признаков, а затем классификацию теоретически является искусственным. Полностью оптимальный выделитель признаков не может быть чем бы то ни было иным, как оптимальным клас- классификатором. Только тогда, когда накладываются ограничения на классификатор или на размер множества выборок, можно сформули- сформулировать нетривиальную (и очень сложную) задачу. В литературе можно найти различные способы преодоления этой проблемы при
6.15. Библиографические и исторические сведения 269 некоторых обстоятельствах, и мы отметим несколько отправных точек для такой литературы. Обычно более продуктивен путь, когда знание области действия задачи позволяет получить более информа- информативные признаки. В части II этой книги мы займемся систематиче- систематическим изучением способов извлечения признаков из визуальных дан- данных и более общей задачей анализа зрительных сцен. 6.15. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ Литература по обучению без учителя и группировкам так об- обширна и рассеяна среди различных областей науки, что предлагае- предлагаемый список можно рассматривать как случайную выборку. К сча- счастью, некоторые из источников имеют обширную библиографию, что облегчает нашу задачу. Исторически дата первых источников восходит по меньшей мере к 1894 году, когда Карл Пирсон исполь- использовал выборки для определения параметров смеси двух нормаль- нормальных плотностей одной переменной. Предполагая точное знание зна- значений плотности смеси, Дёч A936) использовал преобразование Фурье для разложения нормальных смесей. Меджисси A961) рас- распространил этот подход на другие классы смесей, в процессе реше- решения поставив задачу идентифицируемости. Тэйчер A961, 1963) и затем Якович и Спреджинс A968) продемонстрировали идентифици- идентифицируемость нескольких семейств смесей, причем последние авторы по- показали эквивалентность идентифицируемости и линейной незави- независимости плотности компонент. Фразы «обучение без учителя» или «самообучение» обычно отно- относятся к определению параметров плотностей компонент по выбор- выборкам, извлеченным из смеси плотностей. Спреджинс A966) и Купер A969) дают ценный обзор этой области, а ее связь с последователь- последовательным байесовским обучением дана Ковером A969). Некоторые из этих работ достаточно общие, в первую очередь касающиеся теоре- теоретических возможностей. Например, Стейнат A968) показывает, как метод Дёча можно применить для изучения многомерных нормаль- нормальных смесей и многомерных смесей Бернулли, а Якович A970) демон- демонстрирует возможность распознавания практически любой иденти- идентифицируемой смеси. Удивительно мало работ касаются оценок по максимуму правдо- правдоподобия. Хесселблад A966) вывел формулы максимума правдоподо- правдоподобия для оценки параметров нормальных смесей в случае одной пере- переменной. Дей A969) вывел формулы для случая многомерной матри- матрицы равных ковариаций и указал на существование вырожденных решений с общими нормальными смесями. Наш подход к случаю многих переменных Основан непосредственно на исключительно до- доступной статье Вольфа A970), который также вывел формулы для многомерных смесей Бернулли. Формулировка байесовского под- подхода к обучению без учителя обычно приписывается Дэйли A962);
270 Гл. 6. Обучение без учителя и группировка более общие формулировки с тех пор были даны несколькими авто- авторами (см. Хилборн и Лейниотис, 1968). Дэйли отметил экспоненци- экспоненциальный рост оптимальной системы и необходимость приближенных решений. Обзор Спреджинса дает ссылки на литературу по аппрок- аппроксимациям на основе принятия решений, написанную до 1966 г., ссылки на последующие работы можно найти у Патрика, Костелло и Мондса A970). Приближенные решения были получены с помощью гистограмм (Патрик и Хенкок, 1966), квантованных параметров (Фрелик, 1967) и рандомизированных решений (Агреула, 1970). Мы не упомянули все способы, которые можно применить для оценки неизвестных параметров. В частности, мы не рассмотрели испытанных временем и надежных методов, использующих моменты выборок, в первую очередь из-за того, что ситуация становится до- довольно сложной, когда в смеси имеется больше двух компонент. Однако некоторые интересные решения для особых случаев были получены Дэвидом и Полем Куперами A964) и усовершенствованы далее Полем Купером A967). Из-за медленной сходимости мы не упо- упомянули об использовании стохастической аппроксимации; заинтере- заинтересованному читателю можно рекомендовать статью Янга и Коралуп- пи A970). Первоначально по группировке была проделана большая работа в биологических науках при изучении численной таксономии. Здесь основной интерес вызвала иерархическая группировка. Мо- Монография Сокаля и Снифа A963) является отличным источником библиографии по этой литературе. Психологи и социологи также внесли вклад в группировку, хотя они обычно заинтересованы в группировке признаков, а не в группировке выборок (Трайон, 1939, и Трайон и Бейли, 1970). Появление вычислительных машин сделало кластерный анализ практической наукой и вызвало распро- распространение литературы во многие области науки. Хорошо известная работа Болла A965) дает исчерпывающий обзор этих работ и широко рекомендуется. Взгляды Болла имеют большое влияние на нашу разработку этой темы. Мы также воспользовались диссертацией Линга A971), в которой приведен список трудов из 140 названий. Обзоры Большева A961) и Дорофеюка A971) дают обширную биб- библиографию советской литературы по разбиению на группы. Сокаль и Сниф A963) и Болл A965) приводят много используе- используемых мер подобия и функций критериев. Стивене A968) осветил вопросы масштабов измерения, критериев инвариантности и необ- необходимых статистических операций, а Ватанабе A969) разработал фундаментальные философские проблемы, касающиеся группиров- группировки. Критика группировки Флешом и Зубином A969) указывает на неприятные последствия небрежности в этих вопросах. Джонс A968) приписывает Торндайку A953) первенство в ис- использовании критерия по сумме квадратов ошибок, который часто появляется в литературе. Инвариантные критерии, о которых
6.15. Библиографические и исторические сведения 271 мы говорили, были выведены Фридманом и Рубином A967), указав- указавшими, что эти критерии связаны со следовым критерием Хотел- линга и F-соотношением в классической статистике. Фукунага и Кунц A970) показали, что эти критерии дают одинаковые оптималь- оптимальные разделения в случае двух групп. Из критериев, которых мы не упоминали, критерий «сцепления» Ватанабе A969, гл. 8) представ- представляет особый интерес, так как он учитывает не только меру подобия между парами. В тексте мы привели основные этапы ряда стандартных программ оптимизации и группировки. Эти описания были намеренно упро- упрощены, так как даже более строгие и полные описания, имеющиеся в литературе, не всегда упоминают о разрешении неоднозначностей или об исключении случайных «всплесков». Алгоритм Изоданные Болла и Холла A967) отличается от нашего упрощенного описания в основном расщеплением групп, имеющих слишком большую измен- изменчивость внутри группы, и слиянием групп, которые имеют слиш- слишком малую изменчивость между группами. Наше описание элемен- элементарной процедуры минимальных квадратичных ошибок получено на основе неопубликованной программы для ЭВМ, написанной Р. Синглтоном и У. Каутцом в Станфордском исследовательском ин- институте в 1965 г. Эта процедура тесно связана с адаптивной последо- последовательной процедурой Себестьяна A962) и так называемой процеду- процедурой ^-средних, свойства сходимости которой изучались Маккуином A967). Интересные применения этой процедуры к распознаванию символов описаны Эндрюсом, Атрубином и Ху A968) и Кейзи и Надь A968). Сокаль и Сниф A963) приводят список ранних работ по иерархи- иерархическому группированию, и Вишарт A969) дает обширную библио- библиографию источников по процедурам единственной связи, ближайшего соседа, полных связей, дальнего соседа, минимальной квадратичной ошибки и других. Ланс и Вильяме A967) показывают, как можно получить большинство из этих процедур путем уточнения различ- различными способами общей функции расстояния; кроме этого, они дают библиографию основных работ по делимым иерархическим группи- группировкам. Связь между процедурами единственной связи и минималь- минимальным покрывающим деревом была показана Ровером и Россом A969), которые рекомендовали простой, эффективный алгоритм для на- нахождения минимального покрывающего дерева, предложенного Примом A957). Эквивалентность между иерархической группиров- группировкой и функцией расстояния, удовлетворяющей ультраметрическому неравенству, показана Джонсоном A967). Большинство статей о группировках явно или неявно принимает критерий минимальной дисперсии. Вишарт A969) указал на серьез- серьезные ограничения, присущие этому подходу, и в качестве альтерна- альтернативы предложил процедуру, напоминающую оценку методом kn ближайших соседей моды плотности смеси. Методы минимальной
272 Гл. 6. Обучение без учителя и группировка дисперсии подвергались критике также со стороны Лина A971) и Цаня A971), причем оба они предлагали для группировки исполь- использовать теорию графов. Работа Цаня, хотя и предназначенная длщ данных любой размерности, была мотивирована желанием найти; математическую процедуру, которая группирует множество дан- данных в двух измерениях наиболее естественно для глаза. (Хэрэлик и Келли A969) и Хэрэлик и Динштейн A971) также рассматривают операции обработки изображений как процедуры группировок. Эта точка зрения применима ко многим процедурам, описанным в час- части II этой книги.) Большинство ранних работ по методам теории графов было сделано для целей информационного поиска. Августсон и Минкер A970) считают, что впервые теорию графов к группировке применил Куне A959). Они же дают экспериментальное сравнение некото- некоторых методов теории графов, предназначенных для целей информа- информационного поиска, и обширную библиографию работ в этой области. Интересно, что среди статей с ориентацией на теорию графов мы находим три, рассматривающие статистические тесты для оценки значимости групп,— это статьи Боннера A964), Хартигана A967) и Лина A971). Холл, Теппинг и Болл A971) вычислили, как сумма квадратов ошибок изменяется в зависимости от размерности данных и предполагаемого числа групп для однородных данных, и предло- предложили эти распределения в качестве полезного стандарта для сравне- сравнения. Вольф A970) предлагает тест для оценки значимости групп, основанный на предполагаемом распределении хи-квадрат для ло- логарифмической функции правдоподобия. Грин и Кармон A970), чья ценная монография о многомерном масштабировании содержит обширную библиографию, прослежива- прослеживают происхождение многомерного масштабирования до статьи Ри- Ричардсона A938). Недавно возникший интерес к этой теме был стиму- стимулирован двумя разработками — неметрическим многомерным мас- масштабированием и применением графических устройств ЭВМ. Не- Неметрический подход, разработанный Шепардом A962) и развитый Крускалом A964а), хорошо подходит для многих задач психоло- психологии и социологии. Вычислительные аспекты минимизации критерия Jmoa при ограничениях на монотонность детально описаны Круска- Крускалом A9646). Колверт A968) использует модификацию критерия Ше- парда для обеспечения двумерного отображения на ЭВМ многомер- многомерных данных. Более простой для вычислений критерий Jef был пред- предложен и использован Саммоном A969) для отображения данных при диалоговом режиме анализа. Интерес к человеко-машинным системам возник частично из-за трудностей определения функций критериев и процедур группиро- группировок, которые приводят к желаемым результатам. Матсон и Дамман A965) одни из первых предложили человеко- машинное решение этой задачи. Широкие возможности диалоговых
Список литературы 273 систем хорошо описаны Боллом и Холлом A970) в статье о системе PROMENADE. Другие хорошо известные системы — ВС TRY (Трайон и Бейли, 1966, 1970), SARF (Стэнли, Лендэрис и Найноу, 1967), INTERSPACE (Патрик, 1969) и OLPARS (Саммон, 1970). Ни автоматические, ни человеко-машинные системы для распоз- распознавания образов не могут избежать проблем, связанных с большой размерностью данных. Были предложены различные процедуры уменьшения размерности путем либо отбора наилучшего подмноже* ства имеющихся признаков, либо получения комбинаций признаков (обычно линейных). Для избежания серьезных вычислительный проблем большинство из этих процедур использует некоторый кри- критерий, отличный от критерия вероятности ошибки при выборе. На- Например, Миллер A962) использовал критерий tr S$SB, Льюис A962) — критерий энтропии, а Мерилл и Грин A963) использовали критерий дивергенции. В некоторых случаях можно ограничить ве- вероятность ошибки более легко вычисляемыми функциями, но окон- окончательной проверкой всегда является реальное функционирование. В тексте мы ограничились простой процедурой Кинга A967), выбрав ее прежде всего из-за ее близкой связи с группировкой. От- Отличное представление математических методов уменьшения размер- размерности дано Мейзелом A972). СПИСОК ЛИТЕРАТУРЫ Августсон, Минкер (Augustson J. G., Minker J.) An anaJysis of some.graph theoretical cluster techniques, J. ACM, 17, 571—588 (October 1970). Агреула (Agrawala A. K.) Learning with a probabilistic teacher, IEEE Trans. Inform. Theory, IT-16, 373—379 (July 1970). Болл (Ball G. H.) Data analysis in the social sciences: what about the details?, Proc. FJCC, pp.533— 560 (Spartan Books, Washington, D. C, 1965). Болл, Холл (Ball G. H., Hall D. J). A clustering technique for summarizing multivariate data, Behavioral Science, 12, 153—155 (March 1967). Болл, Холл (Ball G. H., Hall D. J.) Some implications of interactive graphic computer systems for data analysis and statistics, Technometric, 12, 17—31 (Ferbuary 1970). Большее Л. Н. Уточнение неравенства Крамера — Рао, Теор. вер. и ее применение, 6, № 3, 319—326 A961). Боннер (Bonner R. Е.) On some clustering techniques, IBM Journal, 8, 22—32 (January 1964). Ватанабе (Watanabe M. S.) Knowing and Guessing (John Wiley, New York, 1969). Вишарт (Wishart D.) Mode analysis: a generalization of nearest neighbor which reduces chaining effects, in Numerical Taxonomy, pp. 282—308, A. J. Cole, ed. (Academic Press, London and New York, 1969). Вольф (Wolfe J. H.) Pattern clustering by multivariate mixture analysis, Multivariate Behavioral Research, 5, 329—350 (July 1970).
274 Гл. 6. Обучение без учителя и группировка Говер и Росс (Gower J. С, Ross G. J. S.) Minimum spanning trees and single linkage cluster analysis, Appl. Statistics, 18, № 1, 54—64 A969). Грин, Кармон (Green P. E., Carmone F. J.) Multidimensional Scaling and Related Techniques in Marketing Analysis (Allyn and Bacon, Boston, Mass., 1970). Дей (Day N. E.) Estimating the components of a mixture of normal distributions, Biometrika, 56, 463—474 (December 1969). Дёч (Doetsch G.) Zerlegung einer Funktion in Gausche Fehlerkurven und zeitliche Zuruckverfol- gung eines Temperaturzustandes, Mathematische Zeitschrift, 41, 283—318 A936). Джонс (Jones K. L.) Problems of grouping individuals and the method of modality, Behavioral Scien- Science, 13, 496-511 (November 1968). Джонсон (Johnson S. C.) Hierarchical clustering schemes, Psychometrika, 32, 241—254 (September 1967). Дорофеюк A. A. Алгоритмы автоматической классификации, Автоматика и телемеханика, 32, 1928—1958 (Декабрь, 1971). Дэйли (Daly R. F.) The adaptive binary-detection problem on the real line, Technical Report 2003— 3, Stanford University, Stanford, Calif. (February 1962). Кейзи, Надь (Casey R. G., Nagy G.) An autonomous reading machine, IEEE Trans. Сотр., С-17, 492—503 (May 1968). Кинг (King B. F.) Stepwise clustering procedures, J. American Statistical Assn., 62, 86—101 (March 1967). Ковер (Coyer Т. М.) Learning in pattern recognition, in Methodologies of Pattern Recognition, pp. 111—132, S. Watanabe, ed. (Academic Press, New York, Ш69). Колверт (Calvert T. W.) Projections of multidimensional data for use in man computer graphics, Proc. FJCC, pp. 227—231 (Thompson Book Co., Washington, D. C, 1968). Крускал (Kruskal J. B.) Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothe- hypothesis, Psychometrika, 29, 1—27 (March 1964a). Крускал (Kruskal J. B.) Nonmetric multidimensional scaling: a numerical method, Psychometrika, 29, 115—129 (June 1964b). Куне (Kuhns J. L.) Mathematical analysis of correlation clusters, in Word correlation and automatic indexing, Progress Report № 2, С 82—OU1, Ramo-Wooldridge Corporation, Canoga Park, Calif. (December 1959). Купер Д., Купер П. (Cooper D. В., Cooper P. W.) Nonsupervised adaptive signal detection and pattern recognition, Information and Control, 7, 416—444 (September 1964). Купер П. (Cooper P. W.) Some topics on nonsupervised adaptive detection for multivariate normal distri- distributions, in Computer and Information Sciences — II, pp. 123—146, J. T. Tou, ed. (Academic Press, New York, 1967). Купер П. (Cooper P. W.) Nonsupervised learning in statistical pattern recognition, in Methodologies of Pattern Recognition, pp. 97—109, S. Watanabe, ed. (Academic Press, New York, 1969).
Список литературы 275 Ланс, Вильяме (Lance G. N.. Williams W. Т.) A general theory of classificatory sorting strategies. 1. Hierarchical systems, Computer Journal, 9, 373—380 (February 1967). Лин (Ling R. F.) Cluster Analysis, Technical Report № 18, Department of Statistics, Yale Uni- University, New Haven, Conn. (January 1971). Льюис (Lewis P. M.) The characteristic selection problem in recognition systems, IRE Trans. Info. Theory, IT-8, 171—178 (February 1962). Маккуин (MacQueen J.) Some methods for classification and analysis of multivariate observations, in Proc. Fifth Berkeley Symposium on Math. Stat. and Prob., I, 281—297, L. M. LeCam and J. Neyman, eds. (University of California Press, Berkeley and Los Angeles, Calif., 1967). Матсон, Даммон (Mattson R. L., Dammann J. E.) A technique for detecting and coding subclasses in pattern recognition problems, IBM Journal, 9, 294—302 (July 1965). Меджнсси (Medgyessy P.) Decomposition of Superpositions of Distribution Functions (Plenum Press, New York, 1961). Мейзел (Meisel W. S.) Computer-Oriented Approaches to Pattern Recognition (Academic Press, New York and London, 1972). Мерилл, Грин (Marill Т., Green D. M.) On the effectiveness of receptors in recognition systems, IEEE Trans. Info. Theory, 1T-9, 11—17 (January 1963). Миллер (Miller R. G.) Statistical prediction by discriminant analysis, Meteorological Monographs, 4, 25 (October 1962). Патрик (Patrick E. A.) (Interspace) Interactive system for pattern analysis, classification, and enhance- enhancement, paper presented at the Computers and Communications Conference, Rome, N. Y. (September 1969). Патрик, Костелло, Мондс (Patrick E. A., Costello J. P., Mends F. C.) Decision directed estimation of a two class decision boundary, IEEE Trans. Сотр., С-19, 197—205 (March 1970). Патрик, Хенкок (Patrick E. A., Hancock J. C.) Nonsupervised sequential classification and recognition of patterns, IEEE Trans. Info. Theory, IT-12, 362—372 (July 1966). Пирсон (Pearson K.) Contributions to the mathematical theory of evolution, Philosophical Transa- Transactions of the Royal Society of London, 185, 71—110 A894). Прим (Prim R. C.) Shortest connection networks and some generalizations, Bell System Technical Journal, 36, 1389—1401 (November 1957>. Ричардсон (Richardson M. W.) Multidimensional psychophysics, Psychological Bulletin, 35, 659—660 A938). Саммон (Sammon J. W., Jr.) A nonlinear mapping for data structure analysis, IEEE Trans. Сотр., С-18, 401—409 (May 1969). Саммон (Sammon J. W., Jr.) Interactive pattern analysis and classification, IEEE Trans. Сотр., С-19, 594— 616 (July 1970). Себестьян (Sebestyen G. S.) Pattern recognition by an adaptive process of sample set construction, IRE Trans. Info. Theory, IT-8, S82—S91 (September 1962).
276 Гл. 6. Обучение без учителя и группировка Сокаль, Сниф (Sokal R. R., Sneath P. H. A.) Principles of Numerical Taxonomy (W. H. Freeman, San Francisco, Calif., 1963). Спреджинс (Spragins J.) Learning without a teacher, IEEE Trans. /n{o. Theory, IT-12, 223—240 (April 1966). Стейнат (Stanat D. F.) Unsupervised learning of mixtures of probability functions, in Pattern Recogni- Recognition, pp. 357—389, L. Kanal, ed. (Thompson Book Co., Washington, D. C, 1968). Стивене (Stevens S. S.) Measurement, statistics, and the schemapiric view, Science, 161, 849—856 C0 August 1968). Стэнли, Лендэрис, Найноу (Stanley G. L., Lendaris G. G., Nienow W. C.) Pattern Recognition Program, Technical Report 567—16, AC Electronics De- Defense Research Laboratories, Santa Barbara, Calif. A967). Торндайк (Thorndike R. L.) Who belongs in the family? Psychometrika, 18, 267—276 A953). Трайон (Tryon R. C.) Cluster Analysis (Edwards Brothers, Ann Arbor, Mich., 1939). Трайон, Бейли (Tryon R. C, Bailey D. E.) The ВС TRY computer system of cluster and factor analysis, Multivariaie Be- Behavioral Research, I, 95—111 (January 1966). Трайон, Бейли (Tryon R. C, Bailey D. E.) Cluster Analysis (McGraw-Hill, New York, 1970). Тэйчер (Teicher H.) Identifiability of mixtures, Ann. Math. Stat., 32, 244—248 (March 1961). Тэйчер (Teicher H.) Identifiability of finite mixtures, Ann. Math. Stat., 34, 1265—1269 (December 1963). Флеш, Зубнн (Fleiss J. L., Zubin J.) On the methods and theory of clustering, Multivariate Behavioral Research, 4, 235—250 (April 1969). Фрелик (Fralick S. C.) Learning to recognize patterns without a teacher, IEEE Trans. Info. Theory, IT-13, 57—64 (January 1967). Фридман, Рубин (Friedman H. P., Rubin J.) On some invariant criteria for grouping data, J. American Statistical Assn., 62, 1159—1178 (December 1967). Фукунага, Кунц (Fukunaga К., Kpontz W. L. G.) A criterion and an algorithm for grouping data, IEEE Trans. Сотр., С-19, 917— 923 (October 1970). Хартиган (Hartrgan J. A.) Representation of similarity matrices by trees, J. American Statistical Assn., 62, 1140—1158 (December 1967). Хесселблад (Hasselblad V.) Estimation of parameters for a mixture of normal distributions, Technometrics, 8, 431—444 (August 1966). Хилборн, Лейниотис (Hillhorn С. G., Jr., Lainiotis D. G.) Optimal unsupervised learning multicategory dependent hypotheses pattern recognition, IEEE Trans. Info. Theory, IT-14, 468—470 (May 1968). Холл, Теппинг, Болл (Hall D. J., Tepping В., Ball G. H.) Theoretical and experimental clustering characteristics for multivariate random and structured data, in Applications of cluster analysis to Bureau of the Census data, Final Report, Contract Cco-9312, SRI Project 7600, Stanford Research Institute, Menlo Park, Calif. A970).
Задачи 277 Хэрэлик, Динштейн (Haralick R. M., Dinstein I.) An iterative clustering procedure, IEEE Transactions on Sys., Man, and Cyb., SMC-1, 275—289 (July 1971). Хэрэлик, Келлн (Haralick R. M., Kelly G. L.) Pattern recognition with measurement space and spatial clustering for multiple images, Proc. IEEE, 57, 654—665 (April 1969). Цань (Zahn С. Т.) Graph-theoretical methods for detecting and describing gestalt clusters, IEEE Trans. Сотр., С-20, 68—86 (January 1971). Шепард (Shepard R. N.) The analysis of proximities: multidimensional scaling with an unknown distance function, Psychometrika, 27, 125—139, 219—246 A962). Эндрюс, Атрубин, Xy (Andrews D. R., Atrubin A. J., Hu K. C.) The IBM 1975 Optical Page Reader. Part 3: Recognition logic development, IBM Journal, 12, 334—371 (September 1968). Якович (Yakowitz S. J.) Unsupervised learning and the identification of finite mixtures, IEEE Trans. Info. Theory, IT-16, 330—338 (May 1970). Якович, Спреджинс (Yakowitz S. J., Spragins J. D.) On the identifiability of finite mixtures, Ann. Math. Stat, 39, 209—214 (Feb- (February 1968). Янг, Коралуппи (Young Т. Y., Coraluppi G.) Stochastic estimation of a mixture of normal density functions using an informa- information criterion, IEEE Trans. Info. Theory, IT-16, 258—263 (May 1970). Задачи 1. Предположим, что х может принимать значения 0, 1, ..., m и что Р(х\В) смесь 'с биномиальных распределений с С т Предполагая, что априорные вероятности известны, объясните, почему эта смесь неидентифицируема, если т<с. Как изменится ответ, если априорные вероят- вероятности тоже неизвестны? 2. Пусть х — двоичный вектор и Я(х|в) — смесь из с многомерных распре- распределений Бернулли: с Э)= У.Р(х\щ, Ъ)Р(щ), где d П /„ I ,. Д \ ^^ I I Q / / 1 С\ Jr (X I ш/ * v{) ~~ II О "• 11 "~~ D /= 1 '¦' а) Покажите, что Э log P (х | со/, 9,) х*-<
278 Гл. 6. Обучение без учителя и группировка б) Используя общее уравнение оценки по максимуму правдоподобия, поЩ жите, что оценка по максимуму правдоподобия в, для в,- должна удовлетворят! 2 хк, в,) 3. Рассмотрим одномерную нормальную смесь р (х 8) = -LJ ¦ ехр — 7г — Н—г—" эхр—s- —-?2 Напишите программу для ЭВМ, которая использует общее уравнение максималь- максимального правдоподобия из п. 6.4.3 для итерационной оценки неизвестных средних, дисперсий и априорных вероятностей. Используя эту программу, найдите оценки по максимуму правдоподобия этих параметров для данных из табл. 6.1. (Ответ: ?i=— 2,404, (Г2= 1,491, (^=0,577, а2= 1,338, Р (со^О^бв, Р(<о2)=0,732.) 4. Пусть р(х|6) — нормальная плотность смеси из с компонент с р (х| ы>/, 6,-)~ ~N (HjOcI)- Используя результаты разд. 6.3, покажите, что оценка по максимуму правдоподобия для а? должна удовлетворять соотношению где щ и Р (со;! \к, в,-) заданы уравнениями A5) и A7) соответственно. 5. Вывод уравнений для оценки по максимуму правдоподобия параметров плотности смеси был сделан при предположении, что параметры в каждой плот- плотности компонент функционально независимы. Вместо этого предположим, что с р (х | а)= 2 Р (* I °V' «) р (ш/)- /=1 где а — параметр, который появляется в некоторых плотностях компонент. Пусть / — логарифмическая функция правдоподобия для я выборок. Покажите, что 4=1 /= 1 где 6. Пусть р(х|ю/, в;)—'JV (i*/, 2), где 2 — общая матрица ковариаций для с плотностей компонент. Пусть ард — pq-й элемент 2, аРЯ — pq-й элемент S-1, хр (к) — jB-й элемент хк и ц^ (i) — р-й элемент рц.
Задачи 279 а) Покажите, что »/. 6«) fw- (XP W- ^ С» <*« W-1*» ('))]• б) Используя этот результат и результат задачи 5, покажите, что оценка по максимуму правдоподобия для 2 должна удовлетворять где Р (ю,-) и ft,- — оценки по максимуму правдоподобия, данные уравнениями A4) и A5) в тексте. 7. Покажите, что оценка по максимуму правдоподобия для априорной веро- вероятности может быть равна нулю, рассмотрев следующий особый случай. Пусть p(x|a>1)~JV@, 1) и р(х\щ)~М@,A/2)), так что P(u>i) — единственный неиз- неизвестный параметр плотности смеси У 2я Покажите, что оценка по максимальному правдоподобию ?(%) для Pfai) равна нулю, если имеется одна выборка хг и *i<bg2. Каково значение P(a)i), если 2 ? 8. Рассмотрим одномерную нормальную плотность смеси в которой у всех компонент одна и та же известная дисперсия а2. Предположим, что средние настолько отдалены друг от друга по сравнению с а, что для всех х всеми, кроме одного, членами этой суммы можно пренебречь. Используя эври- эвристические соображения, покажите, что значение max Hi |ic \— logpfo, ...,хп\цъ ...,цс)У- должно быть равно приблизительно (»/) log P (шу) -1 log 2nae, 1 = 1 когда число я независимых выборок велико. Сравните его со значением, показан- показанным на рис. 6.1. 9. Пусть 9Х и 6а—неизвестные параметры для плотностей компонент p(x\<Ai, 8j) и р(х\щ, 92) соответственно. Предположим, что 6Х и 62 первоначально статистиче- статистически независимы, так что pFlf 02)=Pi (в^рг^г)• Покажите, что, после того как была получена одна выборка хх из плотности смеси, рFъ %\х{) не может быть представлена в виде ( если
Часть II АНАЛИЗ СЦЕН Глава 7 ПРЕДСТАВЛЕНИЕ ИЗОБРАЖЕНИЙ И ИХ ПЕРВОНАЧАЛЬНЫЕ УПРОЩЕНИЯ 7.1. ВВЕДЕНИЕ Цель, которую мы преследуем во второй части этой книги, за- заключается в том, чтобы изложить основы автоматического анализа сцен. Нас будут интересовать методы упрощения и описания изоб- изображений при помощи ЭВМ, позволяющие давать ответ на вопросы или выполнять команды такого рода: «Изображен ли на картинке стул?», «Назови все объекты на картинке», «Изображают ли две кар- картинки один и тот же объект?» или в более общем случае: «Опиши сцену». Чтобы читатель почувствовал всю широту данной пробле- проблемы, перечислим некоторые из многих применений анализа сцен. В первых работах в центре внимания было опознавание знаков, имеющее важное практическое значение и по сей день. Опознавание знаков представляет собой скорее задачу классификации, чем сос- составления описания, поэтрму здесь вполне применим математический аппарат, который обсуждался в ч. I. В этом случае, как и вообще в задачах классификации, назначение методов анализа сцен, кото- которые мы будем рассматривать ниже, заключается в выделении мно- множества признаков для классификатора изображений. Интерес к совсем иной области проблем, связан с теми исследованиями специа- специалистов по физике элементарных частиц, в ходе которых получают большое число снимков взаимодействия частиц в пузырьковых и ис- искровых камерах. Задача этих исследований обычно заключается в том, чтобы обнаруживать определенные события путем анализа тре- треков на фотографиях. Третий важный круг задач связан с биомеди- биомедицинскими исследрваниями. Большое число препаратов, изучаемых визуально под микроскопом, которые просматриваются в ходе как клинических, так и чисто научных исследований, послужило есте- естественной причиной разработки методов автоматического анализа. И наконец, как последний пример: существуют роботы-манипуля-
7.2. Представление информации 283 торы и роботы-тележки, возможности и гибкость которых значи- значительно возрастают, если они снабжены сенсорными системами, и особенно зрением. Следует отметить, что само по себе название проблемной области еще ничего не говорит о трудностях, с которыми приходится стал- сталкиваться при решении связанных с этой областью задач анализа сцен. Возьмем в качестве примера опознавание знаков, которое в некоторых отношениях является сравнительно простой областью задач. Трудность задачи опознавания знаков зависит от многих при- причин: выполнены ли знаки рукой человека или машиной; если маши- машиной, то сколько образцов типографского шрифта использовалось — один иди несколько; если рукой человека, то одним человеком или несколькими и т. д. и т. п. Следовательно, в анализе сцен речь идет не только о большом разнообразии проблемных областей, но и о значительном многообразии задач в пределах одной области. Ко- Конечно, было бы наивно предполагать, что единая методика или не- небольшой набор технических приемов были бы применимы ко всем задачам из такого широкого спектра проблем. На самом деле из-за такого многообразия трудно охарактеризовать анализ сцен в целом: можно лишь отметить, что, по существу, этот процесс является про- процессом упрощения. Главная проблема заключается в том, чтобы пре- преобразовать изображение, представленное, возможно, десятками тысяч битов информации, в «описание» или «классификацию», пред- представленную лишь несколькими десятками битов. Поэтому нас будут интересовать методы упрощения изображений — подавления не- несущественных деталей, описания форм и размеров объектов на изо- изображении, объединения отдельных частей изображения в осмыслен- осмысленные образования — и вообще методы уменьшения сложности данных. 7.2. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ Предположим, что у нас имеется обыкновенный фотографический диапозитив и мы хотим проанализировать его с помощью цифровой вычислительной машины. Одной из первых задач является, очевидно, выбор способа представления изображения, пригодного для машины. Существует много вариантов такого выбора, но мы можем упорядо- упорядочить их, обратив внимание на то, что черно-белое изображение можно рассматривать как вещественную функцию двух переменных. Для определенности предположим, что изображение лежит в плоскости, снабженной координатными осями х и у. Определим функцию интен- интенсивности J) g(x,y) как величину, пропорциональную интенсивности света, падающего на изображение в точке (х, уJ),3). Интенсивность *) В оригинале picture function.— Прим. ред. 2) Не следует смешивать применяемое здесь обозначение g(x, у) с разделяю- разделяющими функциями, описанными в ч. I. 8) Подразумевается изображение при проектировании слайда.— Прим. ред.
284 Гл. 7. Представление изображений изображения в некоторой точке называется также уровнем полуто- полутонов или яркостью. Во всяком случае, с математической точки зре- зрения изображение определяется путем задания его функции интен- интенсивности. Теперь, поскольку мы условились рассматривать изображения как функции, очевидно, что любые средства для представления функ- функции в цифровой вычислительной машине могут быть использованы и для представления изображения. Некоторые методы можно от- отвергнуть сразу же как неподходящие для решаемой задачи. Много- Многочлены, например, обычно задают в памяти машины набором их ко- коэффициентов, но немногие интересующие нас функции интенсивности представляют собой просто многочлены невысокой степени. И вооб- вообще, поскольку функция интенсивности, представляющая интерес, редко имеет простую аналитическую форму, ее задают обычно пу- путем измерения ее значений в достаточно большом числе дискретных точек в плоскости (X, Y) и запоминания величин этих отсчетов. Этот процесс называется взятием отсчетов или квантованием. Для того чтобы задать алгоритм квантования, мы должны сначала уста- установить, где нужно брать отсчеты. Самым простым решением явля- является разбиение плоскости изображения с помощью сетки на квад- квадратные клетки и взятие отсчета функции интенсивности в центре каждой клетки. Далее, функция интенсивности, вообще говоря, может принимать любые значения между некоторым минимумом (черное) и максимумом (белое), в то время как в цифровой вычисли- вычислительной машине можно задавать только конечное число значений. Поэтому мы должны также разбить диапазон амплитуд функции интенсивности на ограниченное число градаций. Сделав это, мы зададим некоторый алгоритм представления исходной функции ин- интенсивности массивом целых чисел, где каждый элемент массива приблизительно определяет уровень полутонов соответствующей клетки изображения. Рассмотрим несколько более подробно проблему разбиения полу- полутоновой шкалы на ряд дискретных градаций. Простейший способ выполнить эту задачу состоит в разбиении диапазона изменения интенсивностей изображения от черного к белому на одинаковые интервалы. Если мы выберем этот вариант, мы должны только опре- определить число градаций, или, другими словами, степень подробности разбиения. К сожалению, по этому вопросу не существует теоре- теоретического обоснования, и поэтому обычно приходится идти на не- некоторый компромисс между желанием точно задать изображение и необходимостью сохранять объем данных для вычислений в ра- разумных пределах. Не обязательно, однако, выбирать ступени кван- квантования одинаковыми. Пусть, например, у нас есть основания полагать, что большинство деталей в изображении приходится на темные области. Тогда, если число градаций не должно превосхо- превосходить некоторого заданного значения, имело бы смысл, конечно,
7.2. Представление информации 285 квантовать неравномерно. Мы бы тогда разбили «темные» области полутоновой шкалы на сравнительно мелкие ступени, а «светлые» области — на сравнительно крупные. Если же у нас нет специаль- специальных предварительных знаний об изображении, можно руковод- руководствоваться сведениями об устройстве зрительной системы человека, реакция которой на освещенность приблизительно описывается ло- логарифмической характеристикой. Другими словами, логарифми- логарифмические 1) изменения физической интенсивности зрительного стимула воспринимаются человеком как «в равной степени заметные на глаз» изменения. Этот феномен (который, по-видимому, имеет место и для слухового и тактильного стимулов) подсказывает, что следует взять сначала логарифм от функции интенсивности и квантовать затем равномерно величину \ogg{x, у). Перейдем теперь к вопросу о шаге сетки отсчетов. Эта проблема аналогична проблеме квантования полутоновой шкалы, но здесь мы располагаем некоторым теоретическим руководством в виде из- известной теоремы отсчетов Шеннона 2). Для обсуждения этой теоре- теоремы требуются некоторые сведения о двумерных преобразованиях Фурье, поэтому мы отложим этот вопрос до следующей главы. Можно лишь отметить, что плоскость изображения может быть разбита не только с помощью сетки из квадратных элементов. В такой сетке два элемента, имеющие, общий угол, не всегда имеют общую сторону. Эта особенность при осуществлении ряда операций по обработке изображения, которые будут рассматриваться позднее, вызывает определенные неудобства. Для устранения этих неудобств иногда предлагают разбивать плоскость изображения на шестиуголь- шестиугольники, но во многих случаях достигнутое преимущество не оправды- оправдывает связанных с таким вариантом дополнительных усложнений. В дальнейшем всюду, где это удобно, мы будем полагать, что изоб- изображение может быть представлено обычной матрицей, вещественные элементы которой определяют (приближенно) значения функции ин- интенсивности в соответствующей области плоскости изображения. В тех случаях, когда нет опасности различного толкования, мы бу- будем обозначать элемент t-й строки /-го столбца этой матрицы через g(i, /) и тогда будем говорить о g как о дискретной функции интен- интенсивности. Неквантованная функция интенсивности g(x, у) будет называться аналоговой функцией интенсивности. Для удобства мы условимся также, что малые и большие значения квантованной функции интенсивности изображают соответственно темные и свет- светлые уровни этой величины. В качестве примера, иллюстрирующего изложенное выше, рас- рассмотрим рис. 7.1 и 7.2. На рис. 7.1 показана трехмерная сцена, содержащая объекты простой геометрической формы. Изображение ^Видимо, оговорка; по смыслу—«экспоненциальные».— Ярил*, перев. 2) См. примечание на стр. 323.— Прим. перев.
286 Гл. 7. Представление изображении было взято прямо с обычного телевизионного монитора, но для на- наших непосредственных целей безразлично, имеем ли мы дело с теле- телевизионными изображениями, фотографическими диапозитивами или любыми другими видами изображений. На рис. 7.2 показан кван- квантованный вариант изображения рис. 7.1. Мы использовали квадрат- квадратную сетку отсчетов со 120 элементами по каждой стороне и прокван- тобали полутоновую шкалу на 16 равномерно расположенных уров- уровней. Само по себе квантованное изображение представляет собой, конечно, некоторую матрицу, но мы вывели на экран этот массив чисел в виде «картинки», т. ё. как совокупность дискретных точек. Рис. 7.1. Изображение на телевизионном мониторе. Рис. 7.2. Дискретное изображе- изображение. Каждая точка в изображенном массиве имеет один из 16 полутоно- полутоновых уровней, и номер этого уровня определяется соответствующим числом в матрице. Можно было бы заметить здесь, что задний край клина едва отличим в квантованном изображении от стены позади этого клина. Действительно, между этими областями существует разность интенсивности в один уровень квантования. К сожалению, на середине пола и стены имеется много перепадов интенсивности в один уровень квантования, вызванных тенями на исходном изоб- изображении. Следовательно, в упрощенном изображении окружающе- окружающего мира разность в один полутоновый уровень квантования может считаться «незначительной». Мы не будем подробно останавливаться сейчас на этом вопросе, но можем сказать заранее, что задача опре- определения, какие полутоновые перепады «значительные», является важной проблемой, которая, по-видимому, в общем случае не допу- допускает быстрых и легких решений.
7.3. Пространственное дифференцирование 287 7.3. ПРОСТРАНСТВЕННОЕ ДИФФЕРЕНЦИРОВАНИЕ Как мы отметили ранее, процесс анализа сцены является по су- существу процессом упрощения—сложный объект (исходное изображе- изображение) превращается в более простой с помощью нескольких последо- последовательных операций. Естественным этапом этой последовательности является превращение исходного изображения в контурный рису- рисунок. Мы надеемся, что такой шаг сохранил бы существенные детали исходного изображения, сократив в то же время объем вычислений при последующих операциях. Для перехода к контурным изобра- изображениям существуют также психологические мотивы. Эксперименты показали, что внимание человека концентрируется в основном на границах между более или менее однородными областями. Мы при- признаем, конечно, что упрощение изображения до контурного рисунка связано с некоторым риском. Контурное изображение обычно содер- содержит меньше информации, чем исходное, и нет гарантии, что поте- потерянная информация является несущественной. Пока, однако, мы примем, что преобразование изображения в контурный рисунок является при некоторых обстоятельствах полезным, и сосредоточим наше внимание на способах осуществления этой операции. Контурное изображение может быть получено из исходного пу- путем выделения областей, содержащих резкие переходы от темного к светлому, и подавления областей с примерно однородной интен- интенсивностью. Другими словами, контуры есть края, а края — это по определению переходы между двумя существенно различными интенсивностями. На языке функций интенсивности край — это область плоскости (X, Y), где велик градиент функции ^(л:, у). Для получения контурного рисунка, таким образом, требуется оцен- оценка величины модуля градиента функции. Эту величину можно вы- вычислить, если известны производные этой функции по каким-либо двум ортогональным направлениям. Следовательно, нужно только выбрать два ортогональных направления и способ приближенного вычисления (одномерной) производной, чтобы иметь все необходи- необходимые составляющие алгоритма получения контурных рисунков. В качестве примера, представляющего интерес в историческом и практическом плане, аппроксимируем модуль градиента в т