Текст
                    РОССИЙСКАЯ АКАДЕМИЯ НАУК
Институт системного анализа
А. Б. Мерков
РАСПОЗНАВАНИЕ
ОБРАЗОВ
Построение и обучение
вероятностных моделей
URSS
МОСКВА


ББК 32.811 32.973.51 Мерков Александр Борисович Распознавание образов: Построение и обучение вероятностных моделей. Учебное пособие. — М.: ЛЕНАНД, 2014. — 240 с. В книге рассматриваются несколько практически важных примеров решения задач статистического обучения, в которых пространства признаков и ответов и обучающие наборы устроены слишком сложно и нерегулярно, так что стандартные методы статистического обучения в них нельзя применить буквально, но можно применять после построения адекватных вероятностных моделей. Данная работа является продолжением книги А. Б. Меркова «Распознавание образов: Введение в методы статистического обучения» (М.: URSS, 2011). Она выдержана в том же стиле. Значительная часть описываемых методов строго обоснована: простые технические детали доказательств сформулированы и предложены в качестве упражнений, более сложные, но не слишком громоздкие доказательства предъявлены. Ради компактности изложения количество примеров минимизировано, зато приводятся многочисленные литературные ссылки, в том числе и ссылки на доступные электронные копии статей. ООО «ЛЕНАНД». 117312, г. Москва, пр-т Шестидесятилетия Октября, д. ПА, стр. 11. Формат 60x90/16. Печ. л. 15. Зак. № К-215. Отпечатано в ОАО «ИПК «Чувашия». 428019, г. Чебоксары, пр-т И. Яковлева, 13. ISBN 978-5-9710-0564-3 © Институт системного анализа РАН, 2013 ©А. Б. Мерков, 2013 НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА E-mail- URSS@URSS.ru Каталог изданий в Интернете1 http://URSS.ru Тел./факс (многоканальный): URSS + 7 D99) 724 25 45 Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или передана в какой бы то ни было форме и какими бы то ни было средствами, будь то электронные или механические, включая фотокопирование и запись на магнитный носитель, а также размещение в Интернете, если на то нет письменного разрешения владельцев. 13312 ID 169378
Содержание Часть I Общие методы статистического обучения 7 Глава 1. Напоминание 8 1.1. Постановка задач распознавания и обучения распознавателя 10 1.1.1. Входы и выходы 10 1.1.2. Классификация и регрессия 13 1.1.3. Пример: распознавание методом ближайших соседей 15 1.1.4. Формальная постановка задачи обучения распознавателя: минимизация эмпирического риска 17 1.1.5. Пример: распознающие деревья 20 1.1.6. Способность распознавателя к обобщению и регуляризация 23 1.1.7. Подбор параметров регуляризации 27 1.2. Обучение распознавателей и вероятностные модели .... 28 1.2.1. Байесовский классификатор и байесовская регрессия 29 1.2.2. Пример: асимптотика ошибок метода ближайшего соседа . . 31 1.2.3. Классификация моделей и методов обучения 32 1.2.4. Обучение порождающих и дискриминантных моделей .... 34 1.2.5. Пример: наивный байесовский метод 40 1.2.6. Обучение дискриминантных моделей (продолжение) 50 1.2.7. Пример: регрессия методом наименьших квадратов 53 1.2.8. Пример: применение регрессии для классификации с оценкой вероятностей классов 55 1.3. Другие задачи статистического обучения 57 1.3.1. Обучение с учителем и без 57 1.3.2. Оценка плотности и обнаружение выбросов 58 1.3.3. Кластеризация 59 1.3.4. Векторное квантование и понижение размерности 63
4 Содержание Часть II Вероятностные модели, учитывающие специфику данных 67 Глава 2. Пропущенные данные и метод максимизации ожидания 68 2.1. Пропущенные данные 68 2.2. Распознавание и обучение с пропущенными данными 69 2.2.1. Пример: наивное байесовское обучение с пропущенными данными 72 2.2.2. Порождающие модели и пропущенные данные 76 2.3. Метод максимизации ожидания 77 2.3.1. Обозначения 77 2.3.2. Алгоритм ЕМ для обучения порождающей модели 82 2.3.3. Примеры обучения с помощью алгоритма ЕМ 88 2.3.4. Сходимость алгоритма ЕМ 95 2.3.5. Обобщения алгоритма ЕМ 96 Глава 3. Цензурированные данные и анализ выживаемости .... 100 3.1. Постановка задачи анализа выживаемости и специфика терминологии 100 3.2. Цензурированные данные 104 3.3. Параметрические оценки выживаемости 106 3.4. Оценка Каштана—Майера 108 3.5. Модель Кокса 112 3.5.1. Пропорциональный риск 113 3.5.2. Частичное правдоподобие 114 3.5.3. Обучение зависимости от признаков 116 3.5.4. Обучение зависимости от времени 117 3.5.5. Прогнозирование 120 Глава 4. Анализ последовательностей; марковские модели 121 4.1. Задачи статистического анализа последовательностей . . . 122 4.2. Вероятностные модели последовательностей, применяемые для статистического обучения 125
Содержание 5 4.3. Скрытая марковская модель (НММ, Hidden Markov Model) 130 4.3.1. Скрытая марковская модель с дискретным временем, конечным пространством состояний и конечным пространством наблюдаемых 130 4.3.2. Обобщения скрытых марковских моделей и объединение их с нейронными сетями и другими распознавателями .... 152 4.4. Анализ последовательностей в целом 161 4.4.1. Базисные функции на последовательностях 162 4.4.2. Метрики на последовательностях 164 4.4.3. Ядра на последовательностях 166 Глава 5. Анализ изображений; марковские и условные случайные поля 176 5.1. Модельные задачи статистического анализа изображений 177 5.2. Случайные поля 179 5.2.1. Марковские случайные поля (MRF, Markov Random Fields). . 179 5.2.2. Модель Изинга и другие примеры 188 5.2.3. Условные случайные поля (CRF, Conditional Random Fields). . 194 5.3. Применение случайных полей для анализа изображений . . 198 5.3.1. Поиск наиболее вероятного поля ответов 199 5.3.2. Оценка распределения поля в точке 203 5.3.3. Обучение CRF 205 5.3.4. Оценки свободной энергии 208 5.3.5. CRF со скрытыми переменными и их обучение 222 5.4. Историко-литературные ссылки 222 Приложение Напоминание о ядрах 225 Литература 228 Предметный указатель 234
ЧАСТЬ I ОБЩИЕ МЕТОДЫ СТАТИСТИЧЕСКОГО ОБУЧЕНИЯ
Глава 1 Напоминание Никто не обнимет необъятного. К. П. Прутков Типичная задача статистического обучения {statistical learning, или machine learning, или pattern recognition, традиционный неправильный перевод последнего варианта — распознавание образов), в самом общем виде выглядит так. Есть некоторое количество объектов, с какими-то наблюдаемыми свойствами и какими-то ненаблюдаемыми, но известными. Построить алгоритм, правильно вычисляющий эти ненаблюдаемые свойства по этим наблюдаемым, причем не только для заранее предъявленных объектов, но и для любых других. Или хотя бы алгоритм, ошибающийся не очень часто и не очень сильно. Причем нужно не однократно построить такой алгоритм, а создать алгоритм более высокого уровня (мета-алгоритм, метод, технологию, ...), строящий вычисляющий алгоритм по любому предъявленному набору объектов, чтобы этот алгоритм часто получался приемлемым. Саму задачу будем называть распознаванием {recognition), решающий ее алгоритм — распознавателем {recognizer, learner), а построение этого алгоритма — обучением {learning, training, fitting) распознавателя. Для формализации постановки задачи нужно придать смысл всем выделенным словам предыдущего абзаца. Но сперва приведем неформальные примеры таких задач: Узнавание образцов. Имеется некоторое количество картинок, на каждой из которых нарисована кошка (или треугольник, или
Глава 1. Напоминание 9 жираф, или самолет, или конкретный человек) и, возможно, некоторое количество картинок, на каждой из которых она (он) отсутствует. Построить алгоритм, определяющий наличие кошки (треугольника и т.д.) на картинке. Распознавание рукописных букв. Имеется некоторое количество картинок, на каждой из которых нарисована буква, и известно, какая именно. Построить алгоритм, узнающий нарисованные буквы. Распознавание рукописного текста. Имеется некоторое количество отсканированных страниц рукописей и параллельных текстовых файлов с правильно прочитанным содержимым рукописей. Построить алгоритм, читающий рукописный текст с листа. Распознавание голосовых команд. Имеется некоторое количество звуковых файлов, содержащих записи произнесения (utterance) голосовых команд из конечного ассортимента (например, слов «да» и «нет» или цифр для голосового набора номера) и знание, в каком файле какая команда. Построить алгоритм, понимающий голосовые команды. Распознавание речи. Имеется некоторое количество звуковых файлов, содержащих записи естественной речи на каком-то языке, и текстовых файлов — их расшифровок. Построить алгоритм, распознающий речь и записывающую ее в виде текста. Медицинская диагностика. Имеется некоторое количество историй болезни и приложенных к ним результатов обследований больных. Построить алгоритм, по результатам обследований нового больного ставящий ему диагноз, назначающий лечение и/или прогнозирующий результаты лечения. Или, что более реально, подсказывающий врачу наиболее правдоподобные диагнозы. Геологическая диагностика. Про некоторое количество разработанных нефтяных месторождений известны данные их предварительной геологической разведки (например, сейсмограммы) и результаты их эксплуатации. Построить алгоритм, предсказывающий эксплуатационные характеристики, в первую очередь мощность, разведанных, но еще не вскрытых месторождений. Экономическое прогнозирование. Имеются данные о еженедельных объемах продаж нескольких тысяч видов товаров в нескольких сотнях магазинов за несколько лет. Построить алгоритм, предсказывающий спрос на ближайший месяц.
10 Глава 1. Напоминание Кроме распознавания теория статистического обучения занимается и другими задачами, например, задачей кластеризации (синоним: кластерный анализ, cluster analysis). Есть некоторое количество объектов с какими-то наблюдаемыми свойствами. Построить алгоритм, разбивающий объекты на группы, называемые кластерами (cluster), и алгоритм, определяющий, какому кластеру принадлежит объект, так чтобы объекты внутри каждого кластера были похожи друг на друга, а объекты из разных кластеров — непохожи, причем чтобы это было как правило (т. е. статистически) верно не только для заранее предъявленных объектов, но и для любых других, предъявляемых впоследствии. Кластеризация и ее аналоги часто возникают в качестве вспомогательных задач в распознавании, сжатии данных и др. В дальнейшем обсуждается в основном обучение обучающихся (тавтология...) алгоритмов, причем достаточно общих, не использующих специфики задачи. Подробности того, что предшествует обучению, как можно его проводить, что за ним следует и как все это интерпретировать с теоретико-вероятностной точки зрения, хорошо описаны в книгах [7, 8]. Теоретические оценки ошибок распознавания, гарантирующие, что обучение вообще возможно, подробно рассмотрены в книге [56]. Основы теории и классические методы распознавания изложены в книге [58]. Практически в любой толстой книге, содержащей в названии слова «pattern recognition», «machine learning» (например, [8]) или «statistical learning», (например, [22] или [55]) описаны разные распознающие системы, способы их обучения, примеры применения и оценки качества работы, хотя одни и те же вещи в разных книгах могут называться по-разному. 1.1. Постановка задач распознавания и обучения распознавателя 1.1 Л. Входы и выходы Распознаваемые объекты кодируются наборами (векторами) признаков (feature), либо являющихся числовыми, либо принимающих конечное множество значений. Допустимые значения векторов
1.1. Постановка задач распознавания и обучения распознавателя 11 признаков образуют пространство признаков X. Например, если удается закодировать объекты d числовыми признаками, то X — это подмножество стандартного d-мерного евклидова пространства М . Это не всегда возможно, а даже когда возможно, не всегда просто. Во-первых, объекты могут быть неограниченно длинными (как распознаваемая речь или рукопись) и либо их нужно научиться разбивать на части, помещающиеся в пространство фиксированной размерности, (сегментировать) и обрабатывать по частям, либо наоборот, отказаться от идеи кодировать объект фиксированным числом признаков. Во-вторых, один и тот же объект может быть оцифрован по-разному (страница может быть отсканирована с разными разрешениями или по-разному положена на сканер) и хорошо бы уметь преобразовывать разные представления (в данном примере — разные картинки) в один и тот же вектор признаков. В-третьих, какие-то свойства объектов, даже если они традиционно кодируются числами, могут быть существенно нечисловыми: наличие или отсутствие чего-либо, группа крови, артикул товара, словесное описание и т. п... И в-четвертых, способ кодирования и даже размерность d может зависеть от множества предъявленных объектов. Для простоты формулировок мы пока не Способы кодирования будем рассматривать неограниченно длинные объекты и их сегментацию. Способы унификации представлений объектов (например, как пересчитать растровую картинку любого размера на растр фиксированного размера и какой размер разумно фиксировать, или вообще не пересчитывать ее в растровую, а разложить по какому-либо базису — тригонометрическим многочленам, wavelet'aM и т. п.) существенно зависят от конкретной задачи и мы их также не рассматриваем. А вот про кодирование дискретных признаков есть общие рекомендации: • Двоичные признаки (например, нет или да) кодировать традиционно: числом, принимающим значение 0 или 1, соответственно. • Признаки, принимающие конечное число к > 2 неарифметических значений (группа крови, категория товара, ...) кодировать к независимыми числовыми признаками, называемыми вторичными или производными (derivedfeatures): j-й вторичный признак х3 равен 1, если исходный признак принимал j-e
12 Глава 1. Напоминание значение, и равен 0 в противном случае. Вторичные признаки удовлетворяют соотношению к Этот способ кодирования легко обобщается на случай, когда значение исходного признака известно не достоверно, а с как- то оцененной вероятностью. • Признаки, принимающие конечное упорядоченное множество значений, (являющиеся дискретизацией числовых признаков, например, признак (холодный, нормальный, горячий) вместо температуры, или оценки успеваемости по пятибалльной шкале) можно кодировать и одним числом (приблизительно угаданной температурой), но надежнее, хотя и дороже, набором нулей и единиц из предыдущего пункта. • Целочисленные признаки тоже можно считать действительнозначными (например, количество проданных оранжевых пиджаков 56-го размера), но если они принимают заранее известное небольшое число значений (например, число конечностей у членистоногих — от 0 до 10), лучше кодировать их набором нулей и единиц из предыдущих пунктов. Если объекты удалось закодировать набором из d числовых признаков, т. е. точкой стандартного евклидова пространства R , признаки хорошо бы отнормировать так, чтобы они лежали в каком-либо заранее известном компакте, например, в единичном кубе или шаре. Ответы (response) распознавания — и ожидаемые, и вычисленные распознавателем — кодируются (если временно забыть про распознавание длинных объектов) так же, как признаки объектов, т. е. точками (векторами) в некотором пространстве ответов У, например, в g-мерном евклидовом пространстве Rq. Тогда получается, что распознаватель нужно учить вычислять некоторую функцию / : R —> Rq, про которую известны только ее значения в конечном числе точек. Но для некоторых ответов распознавания специального вида, например, принимающих ровно два значения, есть специфические методы обучения. Иногда
1.1. Постановка задач распознавания и обучения распознавателя 13 бывает удобно, по крайней мере теоретически, разбить распознаватель на несколько более простых, каждый из которых вычисляет ровно один числовой или двузначный дискретный ответ. 1.1.2. Классификация и регрессия Распознавание численной (скалярной или векторной) характеристики объекта называется регрессией. Строгое математическое определение регрессии — это условное математическое ожидание одной случайной величины относительно другой, и во многих задачах регрессия распознавательная является-таки регрессией математической. Распознавание качественной (дискретной) характеристики объекта называется классификацией, число возможных значений q — числом классов, а множество объектов, для которых эта характеристика принимает j-e значение — j-м классом. Ответом распознавателя для каждого объекта лучше считать не номер класса, к которому распознаватель относит объект, а более полное знание, исходя из которого номер класса легко посчитать, — ^-мерный вектор «уверенностей» (confidence) в принадлежности объекта каждому из классов. Тем самым, классификация превращается в специальный случай регрессии. В теоретически удобных случаях, когда пространство всех возможных объектов разбито на классы и на нем определена вероятность, «уверенности» в кавычках можно заменить вероятностями без кавычек и для них выполнены вероятностные нормировки (каждая из них принимает значения от 0 до 1, сумма всех равна 1). На практике задачу классификации иногда обобщают на случай классов, объединение которых не равно всему пространству, (такая задача сводится к «правильно поставленной» задаче введением дополнительного класса), и даже на случай пересекающихся классов. При этом «уверенности» могут не быть вероятностями в каком-либо строгом смысле. Например, при распознавании рукописных букв на вход распознавателя может попасть вообще не буква. Кроме того, некоторые написания букв «О» заглавное, «о» строчное и цифры «О» абсолютно неразличимы, но считать, что такая замечательно написанная буква «о» является буквой «о» с вероятностью всего лишь около 1/3 не всегда полезно для распознавания слова в целом.
14 Глава 1. Напоминание В учебной литературе чаще всего изучается задача классификации с двумя более-менее равноправными непересекающимися классами, покрывающими все пространство, или, что почти то же самое, отделение объектов одного класса от всех остальных. В этом случае распознаватель вычисляет ровно одно число («уверенность» в принадлежности объекта первому классу) и для принятия решения достаточно сравнить эту «уверенность» с некоторым порогом. Классы могут быть и неравноправны: объекты одного класса могут встречаться на несколько порядков реже, чем объекты другого класса. В этом случае распознавать, какому классу объект принадлежит с большей вероятностью, довольно бессмысленно: почти всегда ко второму. Осмысленно обучать распознаватель оценивать вероятность принадлежности первому (очень редкому) классу. Дополнительный класс «все остальное» может быть равноправен с настоящими классами (одним или более), а может быть и неравноправен еще и в следующем смысле: объекты дополнительного класса могут быть представлены при обучении классификатора, а могут и отсутствовать. То есть можно обучать классификатор узнаванию буквы «а», не предъявляя ему ни других букв, ни знаков препинания, ни клякс. Другой пример: можно обучать систему голосового набора телефонных номеров распознаванию цифр, не предъявляя ей остальных слов, произносимых при разговоре с телефонным оператором, например, «пожалуйста». Классификация с любым числом классов может быть сведена, причем разными способами, к решению конечного числа задач двухклассовой классификации. Иногда оказывается, что обучить и скомбинировать несколько двухклассовых классификаторов легче, чем обучить один многоклассовый. А иногда — наоборот. Получилось, что регрессия (распознавание непрерывных величин) ущемлена в правах по сравнению с классификацией (распознаванием дискретных величин): при наличии вероятностной модели в дискретном случае можно предсказывать распределение вероятностей ответов, а в непрерывном — только сам ответ (например, его математическое ожидание) без каких-либо оценок уверенности в нем. Равноправие можно частично восстановить, предположив, что распределение принадлежит к какому-либо конечномерному семейству, и добавив к пространству ответов дополнительные прямые сомножители, описывающие какие-либо еще параметры
1.1. Постановка задач распознавания и обучения распознавателя 15 распределения. Реальный пример таких параметров — дисперсия в случае одномерной регрессии и матрица ковариации в случае многомерной. А в широко распространенном частном случае, когда распределение является фиксированной центрально симметричной мерой, сдвинутой на какой-то вектор, например, гауссовым распределением с фиксированной матрицей ковариации, единственный распознаваемый (векторный) параметр — это в точности математическое ожидание. 1.1.3. Пример: распознавание методом ближайших соседей Рассмотрим пример распознавателя, который и обучать-то почти не надо. Пусть пространство признаков X — метрическое, пространство ответов у — любое, и имеется обучающий набор из N объектов с известными признаками и ответами, т. е. набор T={(xuyi),...,(xN,yN))(E(Xxy)N. В качестве ответа распознавателя для объекта х берется ответ yi его ближайшего в смысле метрики на X «соседа» Х{ из обучающего набора Т. Неформальное обоснование такого ответа: «за неимением дополнительной информации предположим, что с изменением признаков ответ меняется медленно». Нужно еще как-то определить ответ в случае наличия нескольких равноудаленных ближайших соседей. Это можно сделать следующими способами: • ответ любого из ближайших соседей; • если пространство ответов У — линейное, например, R (одномерная регрессия), то ответы ближайших соседей можно усреднить; • если пространство ответов У — конечное с небольшим числом элементов, например, {0,1} (двухклассовая классификация), то из ответов ближайших соседей можно выбрать самый частый. После того, как выбран способ усреднения в случае, если ближайших соседей оказывается несколько, метод ближайшего соседа (NN, nearest neighbor) естественно обобщается до метода к ближайших соседей (k-NN) при к > 1.
16 Глава 1. Напоминание Распознавание методом к = 1 ближайшего соседа не делает ни одной ошибки на предъявленном ему наборе Г, но может ошибаться на неизвестных ему векторах признаков. Распознавание методом к > 1 ближайших соседей не обязательно безошибочно распознает точки обучающего набора, зато при небольших к, как правило, меньше ошибается на неизвестных ему векторах. Впрочем, что значит «меньше ошибается» еще не определено. При N ближайших соседях распознаватель дает постоянный ответ, не зависящий от признаков. Хотя сравнивать этот метод распознавания пока не с чем, анонсируем его достоинства и недостатки. Обучение распознавателя при методе к ближайших соседей тривиально и сводится к запоминанию обучающего набора. Распознавание тоже тривиально, но очень трудоемко, и трудоемкость растет пропорционально произведению объема обучающего набора и размерности пространства признаков. Существует огромное количество методов ускорения поиска ближайших соседей для классических метрик (например, евклидовой), см. ссылки в [37], но особо быстрым он не получается. Однако в некоторых задачах он успешно применяется, особенно при специальным образом построенной метрике на пространстве признаков (например, [21]). В разделе 1.2.2 будет показан пример того, что при естественных дополнительных предположениях асимптотически — при росте обучающего набора — распознавание методом ближайшего соседа теоретически должно работать с ошибкой, близкой к минимально возможной. Но при очень большом обучающем наборе оно практически не работоспособно из-за чрезмерной требуемой памяти и времени. А при малом обучающем наборе, не заполняющем достаточно плотно пространство признаков, метод ближайшего соседа работает плохо. В частности, если пространство признаков X — евклидово большой размерности (скажем, больше 40) и допустимые векторы признаков не сосредоточены вблизи какой-нибудь маломерной (скажем, 20-мерной) поверхности, то никаких шансов плотно заполнить интересную для распознавания область пространства обучающим набором нет. В литературе этот эффект известен под названием «проклятые размерности» {curse of dimensionality).
1.1. Постановка задач распознавания и обучения распознавателя 17 Кроме тривиального запоминания обучающего набора и, возможно, построения вспомогательных структур для ускорения распознавания, метод к ближайших соседей есть чему учить нетривиально: подбору наилучшего значения к. Кроме того ближайшие соседи зависят от используемой метрики и при разных метриках получаются разные распознаватели — какие-то лучше, какие-то хуже. А в каком смысле лучше или хуже, и как обучать? 1.1.4. Формальная постановка задачи обучения распознавателя: минимизация эмпирического риска Задачу обучения можно формализовать по-разному. Далее в качестве основной формализации фигурирует минимизация эмпирического риска (см., например, [57]). Для сравнения в разделах 1.2.4 и 1.2.6 будут также приведены и иногда будут использоваться формализации в терминах вероятностных моделей и соответствующие им методы обучения: байесовский , максимизации апостериорной вероятности и максимизации правдоподобия. Имеется: пространство (векторов) признаков X', точками которого кодируются распознаваемые объекты, например, d-мерное евклидово пространство R ; пространство ответов У', точками которого кодируются результаты распознавания, например, g-мерное пространство Rq; пространство Т распознавателей f:X->y, например, в случае евклидовых пространств X и У, — непрерывных, дважды дифференцируемых, линейных, полиномиальных и т. п.; пространство V распределений (вероятностных мер) на X х у, например, в случае евклидовых пространств X и У, — абсолютно непрерывных по мере Лебега, возможно еще и со всюду положительной и/или гладкой плотностью, гауссовых смесей ' Именем Томаса Байеса называются несколько совершенно разных распознавателей, методов обучения, и т. п., к которым он прямого отношения не имеет. Иногда это название намекает на использование известной формулы Байеса для условных вероятностей, а иногда просто является синонимом слова «вероятностный».
18 Глава 1. Напоминание и т. п., удовлетворяющих каким-то специфическим для задачи условиям; функция штрафа Е: У х у х X ->Ш9 называемая также функцией ошибки, потерь, риска, loss function, error function, ..., как правило, неотрицательная и равная 0 при совпадении первого параметра (прогнозируемого ответа) и второго (истинного ответа) и редко зависящая от третьего параметра (вектора признаков); например, в случае евклидова пространства У применяется квадратичный штраф Е(г, у, х) — \\г - у\\2, а в случае дискретного пространства — 0-1-штраф v. . О при г = у, Е(г, у,х) = { л при г ф у; далее будут рассматриваться только функции штрафа вида Е:Уху~^Ш, от точки пространства признаков X не зависящие2^; обучающий набор Т— {{х\, у\),..., (xn, j/аг)) » состоящий из пар (вектор признаков, ответ) (xi, уi) Е X х у, которые считаются значениями независимых случайных величин с одним и тем же, но совершенно неизвестным, распределением 7Г € V. Обратите внимание на то, что не требуется, чтобы по значению признаков х правильный ответ у был определен однозначно. Определено лишь, хотя и неизвестно, зависящее от совместного распределения 7Г и признаков х распределение тг(у\х) вероятностей правильного ответа, в случае непрерывных распределений и непрерывного пространства ответов имеющее плотность / \ ( i \ рАх>у) рАх>У) <л л\ РпАу) = рАу\х) = „ /„ч = —f • (i-i) Мх) JM*,t/)dt/ t/ey Хочется по X, У, Т, V, Е и Т построить распознаватель f&T, минимизирующий математическое ожидание штрафа (ожидание ; Хотя в приведенных простых примерах функция штрафа симметрична по первым двум аргументам, вообще говоря, это не требуется.
1.1. Постановка задач распознавания и обучения распознавателя 19 риска, ошибки, средний рыск, ...) ' по распределе- среднего риска нию 7Г En(f) = Г E(f(x), у, х) dn(x, у) -> min, A.2) J ft? или обещающий про штраф что-нибудь еще хорошее, например, что большим он бывает редко, т. е. при некоторых б, rj > О тг({(х,у) еХху\ E(f(x),y,x) > е}) < г/. A.3) Такое желание выглядит странным и нереалистичным, поскольку про распределение 7Г, от которого все зависит, почти ничего не известно и наоборот, известные обучающие данные Т ни на что не влияют. На самом деле про 7г известно, что обучающие данные Т являются случайными с распределением 7Г, что позволяет методом Монте-Карло приблизить ожидание штрафа A.2) суммой 1 N E(f(x), у, х) d7r(x, у) « E(f, T) = -^2 E(f(xi), yu х{)9 (х,у)ех*у г~1 A.4) называемой средним штрафом обучения или средней ошибкой обучения (training error), эмпирическим риском и т.д... Теперь можно попробовать подменить минимизацию интеграла En(f) минимизацией эмпирического риска 1 N Е^'Т) = м Y1 Я(/(*0, Уи Xi) -+ min A.5) 1=1 — задача вполне разрешимая при не слишком сложной функции штрафа Е и несложном пространстве распознавателей Т. Но нужно понимать, что распознаватель, полученный в результате обучения минимизацией штрафа A.5) зависит от обучающего набора Г, а какие-либо оценки для приближения A.4) справедливы Здесь и далее одной и той же буквой Е обозначаются разные функции штрафа (ошибки, ?ггог) и их усреднения или суммы по обучающим наборам, различаемые количеством и типами параметров.
20 Глава 1. Напоминание для функций /, не зависящих от набора Г. Ожидание штрафа A.2) можно оценить, взяв набор тестовых данных Т' = ((x\,yi)^..,(x,NI,yN>)), аналогичных обучающим и независимых от них, и посчитав для них средний штраф тестирования (среднюю ошибку на тесте, test error) E(f, Г'). И если тестовые данные действительно независимы, то отклонение среднего штрафа тестирования E(f, T') от его ожидания En(f) можно оценить стандартными методами статистики. Результат будет неожиданно плохим: E(f,T') > E(f,T), особенно при большом пространстве распознавателей и малом количестве обучающих векторов. Что делать?.. Прежде, чем обсуждать, что делать, приведем пример алгоритма распознавания, обучаемого методом минимизации эмпирического риска. 1.1.5. Пример: распознающие деревья Распознающее дерево (recognition tree или дерево решений, decision tree) — это распознаватели следующего вида. Для распознаваемого объекта проводится конечная последовательность сравнений значений его признаков с константами на равенство или неравенство, причем от результатов каждого сравнения зависит, что делать дальше: продолжать сравнивать что-то с чем-то или давать какой-то ответ распознавания. То есть, распознавание реализуется как двоичное дерево вложенных операторов вида if ( x[j] ?? t[k] ) then else завершающихся листьями return ( r[l] ) где х — вектор признаков, t — массив пороговых значений, г — массив возможных ответов, а через «??» обозначена операция сравнения. Обучение дерева состоит в выборе его структуры, операций сравнения, сравниваемых признаков и порогов в каждой вершине ветвления, и ответов в каждом листе. В терминах отображения f:X->y из пространства признаков в пространство ответов, распознающее дерево вычисляет функцию, кусочно-постоянную
1.1. Постановка задач распознавания и обучения распознавателя 21 на параллелепипедах, не обязательно ограниченных, стороны которых параллельны координатным гиперплоскостям, и которые получаются процессом последовательного «разрезания пополам» пространства признаков. Распознающими деревьями являются, например, почти все определители растений. Эти деревья были, в основном, обучены в XVIII-XDC веках без применения вычислительной техники, причем при обучении допустимые ответы не были известны заранее, т. е. сначала решалась не задача распознавания, а задача кластеризации. Алгоритмы машинного обучения деревьев для классификации и регрессии появились в 1960-х годах и достигли расцвета к концу 1980-х (CART [10], С4.5 [46]). Несмотря на очевидные достоинства деревьев — простоту распознавания, независимость от масштабирования признаков и возможность содержательной интерпретации признаков — их редко применяют в качестве самостоятельных распознавателей, так как хорошего качества распознавания (т. е. малой ошибки на тесте) от них добиться обычно не удается. Зато их широко применяют в качестве сырья в методах построения «хороших» распознавателей из «недостаточно хороших». Не вдаваясь в детали изощренных алгоритмов обучения деревьев, построим простой жадный алгоритм, минимизирующий (локально, как и всякий жадный алгоритм) ошибку обучения A.5). Для простоты будем считать, что множества значений каждого признака упорядочены (вообще говоря, для построения деревьев упорядоченность конечнозначных признаков не требуется), и все сравнения производятся на строгое неравенство «<». Сначала обучим на обучающем наборе Т дерево с одним листом, т. е. постоянную функцию f\(x) = г, минимизирующую суммарную ошибку обучения п E(fuT) = Y,E(f(*i)>Vi)- A-6) 2=1 Как это делать — зависит от конкретного вида функции ошибки. Например, для квадратичной ошибки (регрессия) минимум по г
22 Глава 1. Напоминание достигается в среднем арифметическом ответов обучающего набора 1 п г=1 а для 0-1-ошибки (классификация) — в любом из наиболее часто встречающихся ответов. Затем для каждого возможного разбиения пространства признаков X на полупространства х3 < х\ их3 ^ х\, j = 1,..., d, г = 1,..., N, такого что в каждом полупространстве имеются векторы из обучающего набора, обучим распознающие деревья с одним ветвлением и двумя листьями (такие деревья иногда называются пнями, stump), т.е. кусочно-постоянные функции принимающие на этих полупространствах значения г< и г^>. Каждое из этих двух значений ищется независимо минимизацией суммарной ошибки A.6), причем для вычисления каждого достаточно минимизировать сумму по обучающим векторам, попадающим в соответствующее полупространство. Из получившихся не более d x (N — 1) пней выбираем тот, у которого суммарная ошибка минимальна. Заготовим список допустимых разбиений, изначально пустой. Полупространства, а в дальнейшем более мелкие части пространства, на которых распознаватель дает постоянный ответ, будем называть областями. Затем итеративно чередуются три шага: • добавление в список допустимых разбиений не более чем двух разбиений, каждое из которых минимизирует суммарную ошибку обучения по разбиениям одной из двух вновь образованных областей, содержащим больше одного обучающего вектора в каждой своей «половине»; • выбор из списка допустимых разбиений разбиения с минимальной суммарной ошибкой обучения и соответствующая замена листа на ветвление и два листа в дереве распознавания; • удаление использованного разбиения из списка. Поскольку количество листьев в дереве не может превысить количество обучающих векторов, процесс заведомо конечен. Обычно его останавливают досрочно по соображениям, приводимым в разделе 1.1.6. Например, при достижении заранее заданного числа листьев.
1.1. Постановка задач распознавания и обучения распознавателя 23 Из-за жадности алгоритма обучения получающиеся распознаватели с к > 2 листьями не обязательно реализуют минимум ошибки обучения по всем деревьям с к вершинами. 1.1.6. Способность распознавателя к обобщению и регуляризация Казалось бы, чем больше пространство допустимых распознавателей Т, тем лучший распознаватель в нем можно найти. Но только не описанным выше способом A.5) минимизации средней ошибки обучения. Например, если допустимы распознаватели, вычисляющие любой набор значений в любом наборе из N точек X, то ошибку обучения можно свести к нулю, обеспечив чтобы f{xi) = yi для всех обучающих векторов (ж*, yi). Таких распознавателей с нулевой ошибкой может быть много, какие из них действительно хорошие, а какие — плохие, остается только гадать. Крайний пример очень плохого, хотя и идеально обученного распознавателя: распознаватель /, такой что f(xi) =УгИ f(x) принимает взятые с потолка случайные значения при х вне обучающего набора. Распознаватели, имеющие малую ошибку на обучающем наборе и большую вне его, называются неспособными к обобщению (результатов обучения) и довольно бесполезны. Другое название неспособности распознавателя к обобщению — переобучение (overfitting). Проверить, насколько распознаватель способен к обобщению, можно сравнив его среднюю ошибку при обучении со средней ошибкой на независимом тесте. Но хочется сразу организовать обучение так, чтобы получить хорошо обобщающий распознаватель. Грубый способ состоит в том, чтобы очень сильно ограничить пространство допустимых распознавателей: настолько сильно, чтобы плохих распознавателей с малой ошибкой обучения в нем быть не могло. Например, когда пространства У и Т конечномерные топологические (в частности, евклидовы), полезно обеспечить, чтобы dim (J7) < N dim (У), поскольку в ситуации общего положения коразмерность множества распознавателей с нулевой ошибкой при обучении равна N dim (У). Можно рассматривать параметрическое семейство ограниченных подпространств пространства распознавателей и эксперимен-
24 Глава 1. Напоминание тально подбирать значение параметра, при котором обученный распознаватель имеет достаточно малую среднюю ошибку на независимом тесте. На самом деле существенна не ограниченность подпространств, а ограничение на их размерности Вапника—Червоненкиса ' (VC-dimension), но в простых случаях метрической ограниченности тоже достаточно. Такой подход называется структурной минимизацией риска (structural risk minimization) с нетрадиционным для математики использованием слова «структура» (покрытие пространства расширяющейся последовательностью подпространств обычно называется не структурой, а фильтрацией). Теория структурной минимизации риска и оценки отклонений средней ошибки от ошибки обучения подробно изложены в книгах [55,56]. ' Размерность Вапника—Червоненкиса (или комбинаторная размерность) dimvcP7) определена для множеств Т функций X -ъ У. Ее формальное определение зависит от пространства-образа у. Приведем его для простейшего случая У = {О, 1}, соответствующего двухклассовой классификации, причем для удобства так и будем называть функции / Е Т классификаторами. Определение. Размерностью Вапника—Червоненкиса семейства двухклассовых классификаторов Т на X называется наибольшее число п (или оо, если наибольшего нету), такое что найдутся п точек х\,..., хп ? X, которые классификаторы из семейства Т могут классифицировать всеми 2п возможными способами. В простых и естественных случаях размерность Вапника—Червоненкиса совпадает с топологической размерностью или немного превышает ее. Но имеются и примеры, когда размерность Вапника—Червоненкиса намного больше топологической. Хорошие примеры. • Пространство Т функций на X = Ш вида ft(x) = X{(x,t)\x-teO}(x> *) ПРИ * ? ^ одномерно и dimVc(^r) = 1 (очевидно; здесь и далее через xs обозначается индикаторная функция множества S). • Пространство Т функций на X = R вида Jw%b(x) = X{(x,w,b)\wx+b^o}(x, *>,Ъ) при w, Ь Е R тоже одномерно (а не двумерно, как может показаться), но dimvcW — 2 (очевидно). • Пространство Т функций на X = Ш вида fw(x) = X{(x,w)\(w,x)^o}(x>w) ПРИ w € R (d- 1)-мерно, a dimvcCF) = d (упражнение!). Плохой пример. Пространство Т функций на X = R вида ft(x) = ф(х +1) при ? € [0, 1] одномерно при любой непостоянной функции ф : R -> {0, 1}. Возьмем функцию ф, на каждом единичном отрезке [п, п+1] равную n-Pi цифре записи дроб-
1.1. Постановка задач распознавания и обучения распознавателя 25 Например, пространство распознающих деревьев естественно представимо в виде объединения подпространств, состоящих из деревьев с не более, чем к листьями. А для пространства распознавателей F, параметризованных евклидовым пространством W, т. е. состоящего из распознавателей вида f(x) — F(w, х) для фиксированной функции F : W х X -> У и параметра w € W, в качестве подпространств можно брать шары с цен- ~ Структурная минимизация тром в нуле, то есть при обучении вместо задачи A.5) решать семейство задач N J2 E(F(w, х{)9 Уг) -4 min A.7) . , ¦¦ИКС зависящих от параметра С > 0. Здесь и далее вместо средней ошибки (как в задаче A.5)) минимизируется суммарная ошибка обучения, чтобы не возиться с множителем 1/JV. Более гуманный на вид способ обучения состоит в том, чтобы не запрещать, а штрафовать. Например, можно пространство параметров распознавателя W считать евклидовым (или банаховым, причем хоть бы и Rn, но с неевклидовой нормой) и назначить штраф, пропорциональный норме параметра (или в более общем виде, какую-то непрерывную функцию ф с компактными множествами подуровня {w\rp(w) < С}), то есть при обучении вместо ной части ее аргумента в виде двоичной дроби; формально ф(т)= ([2[т1(т-[т\)\ mod2) Тогда dimycl^7) = °°- Действительно, последовательность значений ft в целых точках 1,2,... — это последовательность цифр в представлении t в виде двоичной дроби, и тем самым, может быть любой. Получение оценок сверху для отклонения средней ошибки распознавателя от ошибки обучения через размерность Вапника—Червоненкиса довольно громоздко и здесь не приводится. Бесконечность размерности Вапника—Червоненкиса семейства распознавателей, строго говоря, еще не означает невозможности обучения распознавателя этого семейства с небольшой средней ошибкой путем минимизации ошибки обучения. Невозможность возникает, когда распознаватель можно научить всем возможным ответам не на каких-то исключительно неудачных обучающих наборах, а на заметной доле от всех обучающих наборов.
26 Глава 1. Напоминание Минимизация ошибки задачи A.4) решать задачу обучения с регуляризацией N <ф(т) + E(F(w, •), Г) = ф(т) + У" E(F(w, х>), уг) -> min, A.8) г=1 В общематематической науке такой способ решения обратных задач — минимизация функционала A.8) вместо решения относительно w системы уравнений F(w, хг) = у{ — называется регуляризацией по Тихонову (см. [53]). В качестве функции штрафа можно взять норму ф(т) = e\\w\\ или квадрат нормы ip(w) = e\\w\\2 с малым коэффициентом е, причем норма ||-|| не обязана быть евклидовой. Множества решений семейства задач с ограничением A.7) и семейства задач с регуляризацией, например, N е|И|2 + У] E(F(w, х{)9 yi) -> min, A.9) ИЛИ N e\\w\\ + У) E(F(w, Xi), yi) -> min, A.10) при всевозможных значениях параметров С > 0 и в ^ 0, соответственно, при некоторых дополнительных условиях почти совпадают. А именно Предложение 1 • Каждое решение задачи A.9) или A.10) при е ^ 0 является решением задачи A.7) я/н/ некотором С ^ 0. • ?с/ш функция ошибки E(F(w, х), у) выпукла по w при любых хиу и норма w также выпукла, то каждое решение задачи A.7) при С > 0 является решением задачи A.9) шгк A.10) я/w некотором 6^0. ДОКАЗАТЕЛЬСТВО получается при применении к задаче A.7) идеи метода множителей Лагранжа (для формального применения метода требуется гладкость функции ошибки и сфер в выбранной норме). Технические детали оставляется в качестве упражнения. ¦
1.1. Постановка задач распознавания и обучения распознавателя 27 Упражнение. Приведите пример невыпуклой по w функции ошибки, при которой задача A.7) имеет решения, отличные от решений задачи A.9) и даже не лежащие в их замыкании. 1.1.7. Подбор параметров регуляризации Иногда можно теоретически найти функцию регуляризации ф или, что проще, константу С, гарантирующую, что минимизация выражения A.8) или, соответственно, A.7) обеспечивает малость средней ошибки A.2), но теоретические оценки слишком пессимистичны. Чаще берут простую функцию регуляризации (квадрат нормы параметра, количество листьев дерева и т. п.) с коэффициентом, который подбирают эмпирически. Для этого распознаватель обучают при разных значениях коэффициента регуляризации на обучающем наборе Т, оценивают среднюю ошибку на не пересекающемся с ним оценочном наборе (validation set, часто используется калька «валидационньш набор») Т" и выбирают значение коэффициента регуляризации, минимизирующее эту ошибку. Найденный минимум ошибки уже не является правильной оценкой средней ошибки распознавателя, обученного при оптимальном значении коэффициента регуляризации, поскольку этот распознаватель зависит и от обучающего набора Т, и от оценочного набора Т": для несмещенной оценки средней ошибки нужен третий набор данных — тестовый. Этот метод подбора параметра совершенно не зависит от метода обучения распознавателя. Например, так можно подбирать оптимальное число соседей к в методе к ближайших соседей, которое тоже является в некотором смысле параметром регуляризации, напоминающим 1/||гу|| для линейных распознавателей: чем больше fe, тем меньше изменяется ответ распознавателя при изменении признаков. Когда обучающих данных мало и жалко отделять от них часть только для оценки коэффициента регуляризации, применяется метод кросс-валыдации. fc-кратная кросс-валида- кросс-валидация ция состоит в том, что обучающий набор разделяют на к примерно равных частей, для каждого значения коэффициента регуляризации обучают к распознавателей, каждый раз выбрасывая одну к-ю часть обучающего набора, оценивают среднюю ошибку каждого распознавателя на выброшенной при его
28 Глава 1. Напоминание зящего контроля обучении к-й части, усредняют эти к оценок и минимизируют результат усреднения. Аналогичную процедуру можно применять и для тестирования (кросс-тестирование), хотя измеренная таким образом средняя ошибка тестирования будет относиться не к конкретному распознавателю, а к способу обучения. ЛГ-кратная кросс-валидация или кросс-тестирование на обучающем наборе длины N называется также методом скользящего контроля (LOO, Leave-One-Out). При этом обучается наибольшее число распознавателей, т. е. это, казалось бы, самый медленный способ. Но некоторые методы обучения распознавателей позволяют переучивать их при замене всего лишь одного обучающего вектора гораздо быстрее, чем обучать с нуля. Теорема 1. Среднее арифметическое этих N ошибок является на- смещенной оценкой для средней ошибки A.2) на всем пространстве, усредненной по всем распознавателям, обученным на N - 1 векторе. ДОКАЗАТЕЛЬСТВО состоит в расписывании (в одну строчку) четырех упомянутых усреднений (несмещенность оценки — это тоже некоторое утверждение про ее усреднение). Оставляется в качестве упражнения. ¦ 1.2. Обучение распознавателей и вероятностные модели Описанная в разделе 1.1.4 постановка задачи обучения распознавателей с одной стороны, предполагает наличие некоторой вероятностной модели (распределение 7Г на пространстве X х У), а с другой стороны, ничего про это распределение не предполагает (заложенное в формулировке ограничение 7г ? V пока никак не использовалось). Этим она отличается от типичной постановки задач статистики, когда про вероятностную модель что-то заранее известно или предполагается (принадлежность некоторому классу V и, возможно, еще что-то), на основании обучающего набора это априорное знание уточняется («модель обучается»), и полученное
1.2. Обучение распознавателей и вероятностные модели 29 апостериорное знание используется для прогнозирования (распознавания). В этом разделе будет приведен пример пользы, хотя и чисто теоретической, от знания распределения 7г, будут сформулированы несколько вариантов такой «классической» постановки задачи обучения и показано, что некоторые из них эквивалентны обучению минимизацией эмпирического риска. 1.2.1. Байесовский классификатор и байесовская регрессия Предположим, что распределение 7Г известно. Тогда можно предъявить самый лучший распознаватель, решающий задачу A.2) в пространстве всех возможных распознавателей, хотя и нет гарантии, что он будет принадлежать подпространству Т допустимых распознавателей. Рассмотрим задачу классификации: классификатор должен про каждую точку х Е X в пространстве признаков отвечать, какому классу у Е У она принадлежит. Будет ли он предварительно вычислять распределение условных вероятностей Р{у\х} на множестве классов — его внутреннее дело. В качестве функции ошибки (штрафа) возьмем 0-1-штраф: Е(г9у,х) = 1-Гу9 A.11) где Sa — символ Кронекера, т. е. штраф равен 0 для правильного ответа и 1 для неправильного. Если при такой постановке задачи известно распределение 7г на X х у или хотя бы условные распределения Ръ(у\х), то легко построить классификатор fn с минимально возможным ожиданием ошибки En(fv). А именно, при каждом векторе признаков х классификатор должен давать наиболее вероятный ответ, т. е. ответ у, максимизирующий условную вероятность Рп(у\х)> или, чт0 то же самое, минимизирующий условное ожидание ошибки по у при данном х: fn(x) = arg min / Е(г, у, x) dp^{y\x) = rey J у?У = argmin(l - pw(y\x)) = 1 - argmaxp^lz). A.12) rey r?y
30 Глава 1. Напоминание I (При конечном пространстве У интеграл Е(г, у, х)р7Т(у\х) dy уеу превращается в сумму ^2E(r9y9x)pv(y\x).) уеу Ожидание ошибки A.11) по всему пространству ЯЛ/тг) = / ЕAЛХ)> У> х) Мх> У) = (х,у)?Хху = I E(f7,(x),y,x)pir(y\x)dy)p7r(x)dx A.13) хех \еу ' при этом тоже оказывается минимальным. Этот классификатор называется байесовским, вероятно, потому, что если про распределение 7г известны вероятности классов Ртг(у) и условные распределения Ртг(х\у), то максимизируемая вероятность рп(у\х) выражается через них по формуле Байеса. Его ценность не в том, что его можно применить (ведь распределение 7г неизвестно), а в том, что он дает оценку минимально возможной ошибки классификации, и напоминает о том, что знать или уметь оценивать распределение 7г полезно. Такой же поточечно оптимальный классификатор можно строить не для неизвестного истинного распределения 7г, а для какой-то его оценки, и он тоже называется байесовским. Аналогично в задаче регрессии при известном распределении 7г поточечной по х минимизацией ожидания ошибки по условному распределению рж(у\х) f(x) = arg min / Е(г, у, х)р7Г(у\х) dy A.14) г?У J УСУ строится байесовская регрессия, минимизирующая ожидание ошибки A.2). При квадратичной функции ошибки Е(г, у, х) = (г- уJ
1.2. Обучение распознавателей и вероятностные модели 31 точка минимума считается явно: °= dr J (Г~ уJр*(у№ dy = уеу = 2 (г- у)р7Г(у\х) dy = 2 ( r - / ур*(у\х) dy), значит /*(&) = / ypAy\x)dy> A-15) т. е. в точности равна условному математическому ожиданию (в математической терминологии — регрессии) истинного ответа относительно вектора признаков. При других функциях штрафа байесовская регрессия, вообще говоря, отличается от регрессии в математическом смысле. То, что функции штрафа могут определяться вероятностными соображениями, будет показано в разделе 1.2.6. Упражнение. Вычислите байесовскую регрессию для кусочно- линейной функции штрафа Е(г, у) = \г - у\. 1.2.2. Пример: асимптотика ошибок метода ближайшего соседа Обозначим через EN усреднение по всевозможным обучающим наборам Т = ((xu yi),..., (xN, yN)) = ((xu • • •, xN)9 (г/ь • • •, Ум)) = (X, Y) длины N ошибки двухклассового классификатора (т. о. У = {0,1}), «обученного» методом ближайшего соседа. Попробуем сравнить асимптотику En no N с ошибкой Ев байесовского классификатора (раздел 1.2.1). Будем предполагать и распределение 7Г и условные вероятности Р{0|#} = рп@\х) и Р{1|#} = 1 —pv@\x) непрерывными по ж. Байесовский классификатор в точке х дает ответ 0, если Р{0|#} > Р{1|я}, и ответ 1, если Р{0|#} < Р{1|#} (какой ответ он дает при Р{0|х} = Р{1|#}, несущественно). Тогда вероятность ошибки байесовского классификатора в точке х равна EB(x) = min(P{0\x},P{l\x}).
32 Глава 1. Напоминание Пусть (хП9 Уп) G Т = (X, Y), а (х, у) — независимая от обучающего набора случайная (с распределением 7г) точка пространства X х у. Тогда ожидание по Y вероятности несовпадения значений у и уп равно Р{У Ф Уп} = Р{У = 0,уп = 1} + Р{у =1,уп = 0} = Р{0\х}Р{1\хп} + Р{1\х}Р{0\хп}. Если плотности распределений непрерывны и точка хп близка к точке х, то P{y*Vn}n2P{0\x}P{l\x}, а значит и ожидание по ответам Y обучающего набора ошибки метода ближайшего соседа EN(x) = Р{у ф уп} « 2Р{0\х}Р{1\х} = 2A - Ев(х))Ев(х). A.16) Кроме того, по построению байесовского классификатора EB(x)^EN(x). A.17) Беря ожидания приближенного равенства A.16) и неравенства A.17) по х и X, переходя к пределу при N -> оо (аккуратное обоснование предельного перехода см. в [12]) и учитывая вогнутость функции f(t) = 2A - t)t, получаем двустороннюю оценку Ев < lim EN < 2A - JS?b)^b < 2.БВ. Имеются аналогичные оценки ошибок классификаторов на к ближайших соседях, в том числе и многоклассовых, см. [12]. Напоминаем еще раз, что эти оценки — всего лишь асимптотические. 1.2.3. Классификация моделей и методов обучения В классическом статистическом подходе к обучению распознавателей используется специфическая терминология. Параметрические и непараметрические модели и методы обучения. Методы обучения, т. е. нахождения достаточно хорошей распознающей функции / G Т, традиционно подразделяются на параметрические и непараметрические в соответствии с тем, просто или
1.2. Обучение распознавателей и вероятностные модели 33 сложно устроено пространство Т. Параметрические — это те методы, в которых Т = {F(w, -)|гу Е W} для некоторого достаточно удобного (например, евклидова) пространства параметров W и некоторой функции F: W х X -> у, а непараметрические — это методы, в которых пространство J7 не зафиксировано заранее, а зависит от обучающего набора Т. Аналогично, параметрические модели — это просто устроенные и допускающие удобную параметризацию пространства моделей V (например, гауссовы распределения в R , определяемые центром и матрицей ковариаций, т. е. d + d(d + l)/2 числами), а непараметрические — это модели с более сложным пространством распределений. На самом деле разница между параметрическими и непараметрическими методами — только в употребляемых словах. Пример параметрических методов — методы обучения линейных распознавателей, которых даже для простейшей линейной peri грессии (^ = Mrf,^ = M,W = Rx Rd, F(w, x) = w° + ^2 *?*?) j=i довольно много. Классический пример непараметрического метода — метод ближайших соседей (см. раздел 1.1.3). Пространство распознавателей Т, получающихся при этом методе, легко описывается, только оно не конечномерно. Философский вопрос: метод распознающих деревьев (раздел 1.1.5) — параметрический? А метод распознающих пней? Дискриминантные и порождающие модели и методы обучения. Можно обучать распознаватели, минимизируя среднюю ошибку обучения E(f, T), оценивая качество обучения по средней ошибке тестирования ?"(/, Т1) и полностью забыв про вероятностную модель. Такие методы обучения называются дискриминантными (калька с английского discriminative methods, буквально — различающие, канонический перевод неизвестен, название происходит от двухклассовой классификации, когда вычисляемая распознавателем функция / в точности различает классы и поэтому называется дискриминантом). Можно, наоборот, пытаться все-таки восстановить распределение 7г. Такие методы обучения и сами вероятностные модели называются порождающими {generative methods, канонический перевод
34 Глава 1. Напоминание неизвестен, название связано с тем, что распознаваемые объекты порождаются в соответствии с распределением 7г). При поиске оптимального распределения заодно обнаруживаются «правильное» подпространство в пространстве распознавателей Т и «правильная» функция ошибки Е. Есть и промежуточный вариант: пытаться восстановить не все распределение тг(х,у), а только условные распределения тг(у\х) (в непрерывном случае определяемые плотностью A.1)). Такие методы обучения и модели снова называются дискримынантными, хотя, поскольку ответ у порождается признаками х в соответствии с распределением 7г(у|ж), возможна терминологическая путаница. Другим источником путаницы является то, что самый классический метод обучения порождающей модели унаследовал название от получающегося в результате классификатора — дискриминанта Фишера. 1.2.4. Обучение порождающих и дискриминантных моделей Порождающие модели. Буквальное применение классической теории вероятностей для обучения порождающих моделей и его упрощенные приближения таковы: Байесовское обучение. Предположим, что на пространстве моделей V задана вероятностная мера /л (априорное распределение), т. е. вероятностное распределение на пространстве вероятностных распределений. Для любого модели 7г Е V условная вероятность (или ее плотность) обучающего набора Г равна N р{Г|тг} = JJp^bW). A-18) Тогда по формуле Байеса для любого подмножества ПЕР f р{Т\п} ф(тг) М,(П) = Р{П|Т}=^ A.19) У р{Г|тг} ф(тг)
1.2. Обучение распознавателей и вероятностные модели 35 вычисляется апостериорное распределение р на пространстве V. Если же априорное распределение непрерывно и имеет плотность р^, то апостериорное распределение имеет плотность М')-н*т= /рты») , A.М) На этом байесовское обучение закончено. Его ответом является не какой-то один распознаватель, а распределение вероятностей на пространстве распределений вероятностей (моделей)! Для распознавания результат байесовского обучения применяется так: вычисляется ожидание по р(п) распределения рп(х, у) PMZ) = / P«(Z) dii'(n), ZCXxy A.21) или его плотности Р»,т(х>У)= / Р^, 1/)?у (тг)Аг, A.22) кет если у всех распределений 7г есть плотность р^, после чего для заданного вектора признаков х вычисляется условное распределение Р»А?)-РМ{Х}ХУУ У (L23) или, если существует, его плотность , , , р^Т(х,у) РиАу\х) = ~7^ > О-24) / р^т{х^У)ЛУ (формула A.1)) и выдается в качестве ответа. Или, если нужно дать конкретный ответ, вычисляется еще точка максимума (плотности), или ожидание по у вычисленного распределения р^т(у\х), или точка минимума ожидания какой-
36 Глава 1. Напоминание либо функции штрафа Е(г, у, х)\ \ Е(г, у, х)рц,т(у\х) dy-> min. A.25) J rey у?У Для нахождения точки максимума (плотности) вероятности ответа достаточно для любого вектора признаков х и любой пары ответов у и у" уметь вычислять отношение рМу"\х)' Упражнение. Покажите, что f i N / рп(х, у) Д pv(xi9 yi)dn(n) РцАу'\х) = *ер ^1 (\ ус\ Р»Ау"\х) Г „ Л " / РАХ> У ) 11Ртг(#г, yi)dfi(n) Замечание. Хотя формула A.26) проста и наглядна, вычислительно она крайне неэффективна, поскольку в ней обучение не отделено от распознавания, и при каждом распознавании нужно просматривать весь обучающий набор. Байесовский подход замечателен всем, кроме двух «мелочей»: очень редко бывает известно априорное распределение и очень редко удается все проинтегрировать честно. Аналитически интегрировать обычно невозможно, а численно — слишком трудоемко. Есть, правда, несколько общеизвестных и небесполезных случаев, в которых байесовское обучение можно провести аналитически: например, когда пространство моделей V конечно, или когда пространства X и V евклидовы и все распределения 7г G V и \х являются гауссовыми. Можно также пытаться интегрировать приближенно, например, для непрерывных распределений использовать аппроксимацию Лапласа \ хотя гарантий получения сколько-нибудь хорошей модели при этом уже нет. ' Аппроксимация Лапласа для распределения — это приближение его гауссовым, логарифм плотности которого является, с точностью до прибавления кон-
1.2. Обучение распознавателей и вероятностные модели 37 Когда нет достаточных оснований выбрать априорное распределение «потому, что...», его выбирают из соображений «для того, чтобы...»: например, для того, чтобы все удалось проинтефировать аналитически, для того, чтобы распознаватель распознавал быстро, или чтобы он был устойчив к возможным ошибкам в обучающем наборе. Чем больше обучающий набор, тем меньше получающийся распознаватель зависит от априорного распределения. Другой способ применения байесовского обучения — метод Гиббса — состоит в том, чтобы вместо усреднения по пространству моделей V A.21) или A.22) брать в нем случайную в соответствии с апостериорным распределением р модель 7г и по ней вычислять ответ Ртг(у\х). Максимизация апостериорной вероятности. Предположим, что пространство моделей V достаточно простое, например, евклидово, априорное распределение р на нем имеет плотность Рц(п), и каждое распределение 7г Е V имеет некоторую плотность р^{х, у). Не всегда, но довольно часто, плотность апостериорного распределения имеет единственную точку глобального максимума или несколько точек максимума, переводимых друг в друга симметриями пространства V и почти полностью сосредоточена возле точки (точек) максимума. Тогда интефал A.22) приблизительно равен плотности Ртг(#э У) в точке (точках) максимума 7г плотности апостериорного распределения, а значит при обучении достаточно вычислить не все апостериорное распределение, а только точку его максимума. Получившееся обучение методом максимизации апостериорной вероятности {MAP, maximum of apos- teriori probability) состоит в решении максимизаци- онной задачи N р(Т\тг; р) = рм(тг) ТТ рж(хи yi) -> max . A.27) 7ГЕг г=\ Ее решение — распределение 7г на пространстве X х у — позволяет для любого вектора признаков х вычислить условное распределение станты, квадратичной аппроксимацией логарифма плотности распределения в точке ее максимума.
38 Глава 1. Напоминание ответа ж(у\х) и/или его ожидание, точку максимума его плотности рп(у\х), если оно непрерывно, или точку минимума некоторого штрафа. Максимизация правдоподобия. И байесовское обучение, и метод максимизации апостериорной вероятности предполагают известным некоторое априорное распределение вероятности на пространстве моделей. А что делать, если никаких априорных идей нет? Можно считать, что априори все модели равновероятны, если пространство моделей дискретно, или плотность априорной вероятности моделей постоянна, если оно непрерывно (это называется non-informative prior). На некомпактном пространстве моделей V таких распределений обычно нет, так что байесовское обучение, состоящее только в уточнении априорных знаний с помощью наблюдений, формально невозможно. А метод максимизации апостериорной вероятности применим всегда и превращается в максимизацию плотности условной вероятности обучающего набора Т N р(Т\тт) = TTpirte, Vi) -> max> A-28) **¦ ir€V г=\ называемой также правдоподобием (likelihood) модели 7г. Получившийся метод обучения называется методом наибольшего правдоподобия (ML, maximum likelihood). Хотя формально метод наибольшего правдоподобия применим при любом пространстве моделей V, для успешного обучения пространство V приходится сильно ограничивать. Это необходимо для того, чтобы не получить плотность вероятности рж, сколько-нибудь отличную от нуля только возле точек обучающего набора, т. е. не построить вероятностную модель, объявляющую все, кроме того, чему ее учили, практически невозможным, а значит, неинтересным. Задачи, в которых естественно возникают такие сильные ограничения, действительно встречаются, но в большинстве остальных ситуаций метод наибольшего правдоподобия работает хуже других методов. При любом априорном распределении асимптотически, при росте обучающего набора, метод наибольшего правдоподобия сходится к методу максимизации апостериорной вероятности (см. [35]).
1.2. Обучение распознавателей и вероятностные модели 39 Обучение порождающих моделей и минимизация штрафа. Функция штрафа Е(г, у, х) при обучении условного распределения 7г(у|ж) не понадобилась: она была нужна только при желании превратить найденное условное распределение в конкретный ответ, зависящий от х. Легко проверить, что каждый такой ответ, упомянутый на стр. 35, получается минимизацией некоторой функции штрафа в формуле A.25): Упражнение. Докажите, что • при классификации (дискретном пространстве ответов У) наиболее вероятный ответ получается при минимизации 0-1-штрафа; • при регрессии ожидание распределения тг(у\х) получается при минимизации квадратичного штрафа; • при регрессии точка максимума по у плотности Pniylx) получается при минимизации любого штрафа Е(г,у,х), являющегося строго убывающей функцией от р^{г\х). Нетривиальные функции штрафа, явно не укладывающиеся в вероятностную модель, возникают при асимметрии, вполне встречающейся в жизни. Например, при двухклассовой классификации ошибки первого и второго рода (прогнозировать принадлежность одному классу, при том, что на самом деле объект принадлежит другому) могут штрафоваться по-разному. Или при регрессии достаточно точный прогноз (-в] < г - у < е2) может не не штрафоваться вообще, сильный недобор (г-у ^ -в\) может стоить 1 у.е., а сильный перебор (г - у ^ 62) может стоить 10 у. е. Априорный выбор пространства распознавателей Т также не имеет никакого отношения к обучению порождающих моделей: какой распознаватель получится, такой получится. Если же пространство Т все-таки фиксировано, то после обучения модели — распределения 7г на X х у — можно было бы обучать распознаватель, минимизируя ожидание штрафа (ошибки, риска, потерь,...) E(f, тг) = / E(f(x), у, х) сМх, у) -> min . A.29) (х,у)ехху На практике такое двухступенчатое обучение применимо только при очень простых моделях или небольших конечных пространствах
40 Глава 1. Напоминание признаков. При наличии априорных соображений о пространстве распознавателей чаще стараются обучать дискриминантные модели. Дискриминантные модели. Все три описанные для порождающих методов идеи, как найти самое лучшее распределение или как вместо поиска наилучшего усреднять по всем распределениям (ML, MAP и байесовский подход) применяются и при обучении дискри- минантных моделей. Подробнее это будет описано в разделе 1.2.6. А пока рассмотрим примеры порождающих моделей. 1.2.5. Пример: наивный байесовский метод Рассмотрим задачу g-классовой классификации с конечным d-мерным пространством признаков X = {(х\...,х )}, в котором j-й признак принимает Мг значений. Такое пространство признаков состоит из d D = ]jMj j=i точек. Каждая порождающая модель 7Г — это конечный набор вероятностей 7Tjfc сочетаний 1-го возможного набора признаков и к-то ответа. Пространство всех таких моделей является (Dq- 1)-мерным симплексом 7г^ ^ О, ^2 П1к = 1 в Dq-мерном евклидовом про- 1,к странстве. Максимизации в методах MAP и ML из раздела 1.2.4 проводятся по конечным множествам, так что, казалось бы, на любом обучающем наборе любым из этих методов можно воспользоваться. Это верно, если число D не слишком велико само по себе и мало по сравнению с длиной N обучающего набора. Ведь по N ответам нужно обучить Dq - 1 параметров и надеяться, что обучились чему-либо большему, чем распознаванию самого обучающего набора. В реальных задачах число D неприемлемо велико. Например, если имеется всего лишь d — 60 бинарных признаков, то D = 2 = = 260 « 1018 — по нынешним временам слишком большое число переменных даже для двухклассовой классификации (q = 2). Обучение порождающей модели становится реальным, если заранее резко сократить размерность пространства моделей V. Например, можно ограничится моделями, в которых признаки условно
1.2. Обучение распознавателей и вероятностные модели 41 независимы при фиксированных ответах, т. е. для каждого возможного ответа у условные вероятности р((х ,..., х )\у) представимы в виде произведения d р((х\...У)\у)=1[р(х*\у). A.30) i=i Такие модели называются наивными байесовскими. Они задаются q вероятностями ответов 7г^ = р(у = к) и qDf, где d j=\ условными вероятностями тг3тк= p(xJ = т\у = к). С учетом вероятностных нормировок их пространство всего лишь ((q—l) + q(Df — d)) - мерно и является прямым произведением (q-1)-мерного симплекса sq = {(тг1,...,7гд)ем5- Хл^1} и qd симплексов к=\ ( I W Л ^ ' т=\ У В том же примере двухклассовой классификации с 60 бинарными признаками размерность пространства наивных байесовских моделей равна всего лишь 121. Обучать наивную байесовскую модель можно всеми методами из раздела 1.2.4, хотя интегралы в формулах байесовского обучения A.19) и распознавания A.23) берутся аналитически довольно редко. Рассмотрим простой случай равномерного априорного распределения на пространстве моделей. При этом максимизация апостериорной вероятности совпадает с максимизацией правдоподобия. Байесовское обучение дискретной наивной байесовской модели с равномерным априорным распределением. Обозначим через S (г) и s (r) следующие d- и (d- 1)-мерный симплексы в d-мерном евклидовом пространстве, координаты в котором будем обозначать нижними
42 Глава 1. Напоминание индексами, чтобы не путать с показателями степени: d Sd(r) V) = { eRd+ xeRd+ Обозначим через Es(/) среднее арифметическое вещественнознач- ной функции / на многограннике S С R по мере Лебега размерности dim E) (это частный случай ожидания случайной величины /). Лемма 1. Среднее арифметическое монома ж ... xndd no симплексу s (I),равно d .7=1 Es,A)«...^)= d (y^nj + {d-\))\ ДОКАЗАТЕЛЬСТВО. Достаточно произвести следующую последовательность вычислений: : 1) объем симплекса v{Sd{r))= J dx = dV xesd(r) 2) средние значения по разным симплексам Esd(r)/(zb ... ,xd-i)g(xd) = Esd-i{r)f(xu ..., xd-x)g(r - ^2 хз ) I f(xi,...,xd-i)g\r-^2xA dx xesd-](r) i=i v(Sd~l(r))
1.2. Обучение распознавателей и вероятностные модели 43 3) элементарный интеграл: f «'л - г"'+' - r"'+'ni! J ж> ete_ щ + i ~ (п, + 1)Г xesl(r) 4) классическое упражнение на многократное интегрирование по частям: ГП,+П2+1 | | *dx=? ^г; (п, +п2 + 1)! х€5'(г) / x?(r-Xl) 5) его обобщение индукцией по размерности: ?п,-+(«*-1) * d-\ / d-\ ,nd ±± ' j=l /a-i у a-i \ nrf xes^(r) j~l ч '-1 ' fj2 nj + (d- I))! Применяя пункты 1, 2 и 5 в симплексе s A), получаем утверждение леммы. Подробности оставляются в качестве упражнения. ¦ Теперь можно провести байесовское обучение наивной байесовской модели на обучающем наборе Т = ((xi,yi),...9(xN9yN)). Введем обозначения Nk = #{i\yi = k}, fc=l,...,9 A.31) NL = #Ш = m,yi = k}, j = 1,... , d, A.32) m = 1,... , M\ к = 1,... , q. Тогда плотность условной вероятности N р(Т\7г) = Цр((Хг,Уг)\7г) = i=\ N = Цр(»1к)р(я»|у»,7г) i=\
44 Глава 1. Напоминание г=1 ^ j=\ ' = П((**)*ПП<0*-). u-33) *=1 ^ j=l m=\ ' Применяя лемму 1 в симплексах sq и 5^ , и учитывая, что MJ Х> = * и ХХ* = ^> fc=l т=1 получим, что плотность апостериорной вероятности A.20) q / d Mj РGГ|Г) = =- ^ , A.34) к=\ ТТТТ т=1 (JV+g-1)! УУ (JVfc + MJ-l)! где числитель является мономом от параметров распределения, а знаменатель от них не зависит. Предсказываемая обученной моделью совместная вероятность конкретных признаков х и ответа у равна Рт(х, у) = I Рп(х, у)р(тг|Г) dn = q , d Mj П с/'ППс./:' f k=\ X j=l m=\ ' -p-r j = У ; ^ ** 11 **„ d7r = ПП q k=\ TT T~T m=l (N + q-iy. И11 (Nk + MJ-l)\
1.2. Обучение распознавателей и вероятностные модели 45 d Mj ^р *=1 V j=l m=l ' fc=l TT Т~Г ra=l (N + q-l)\ П f}x (Nk + Mi - 1)! JVy+1 Т-Г _x>y , . где Sa — символ Кронекера; при интегрировании опять использовалась лемма 1 и два похожих громоздких знаменателя с факториалами почти сократились. Предсказываемая моделью условная вероятность выглядит менее изящно: (*у+1)П d N3i +1 р... РТ(Х,у) '?»* + "' Рт(у\х) = -q = — . A.36) ?Ж*,*) У(№ + 1)П^ + 1 fe=1 ±,w + l)LLNk + Mi k=\ з=\ Быстрее и точнее вычислять не сами вероятности Рт(х, у), а их логарифмы. Еще проще вычислять логарифмы отношений таких жл * обученного по Байесу вероятностей для пар ответов. Из формулы A.35) следует, что для пары ответов у и у" Ат(у', у"\х) = In р^^ = In (N„ + 1) - In (JV + О + d / N3., + l N3, , + 1 \ ^V Ntf + Mi Ntf+Mi) 4 j=i
46 Глава 1. Напоминание -(ln(AV + l)-]Tln(iV+M^) + d + E(ln(^V + 0-ln(^v + l)). A.37) Значение A.37) называется дискриминантом ответов у и у' при векторе признаков х. Если дискриминант положителен, то вектор х с большей вероятностью принадлежит классу у , чем у , а если отрицателен — наоборот. По значениям дискриминантов АТ(у\ у"\х) при любом зафик- сированнном ответе у" и всех ответах у можно восстановить условные вероятности A.36) (упражнение!), но для выбора наиболее вероятного ответа, что во некоторых случаях распознавания является конечной целью, это не требуется: наиболее вероятным является ответ у, максимизирующий дискриминант Ат(у,у"\х) (тоже упражнение!). Замечание. Дискриминант A.37) двух фиксированных классов, рассматриваемый как функция от вектора признаков х, является суммой константы и d функций, каждая из которых зависит только от одного признака. Такие распознаватели называются аддитивными. Обучение дискретной наивной байесовской модели с равномерным априорным распределением максимизацией апостериорной вероятности. Теперь вместо интегрирования мономов по симплексам, как при байесовском обучении, будем искать точки максимума тех же мономов по тем же симплексам. Лемма 2. Максимум монома р(х) = х^ достигается в точке xndd no симплексу 5A), \ X = щ rid Х>; Ё Tlj \,-=1 i=\
1.2. Обучение распознавателей и вероятностные модели 47 ДОКАЗАТЕЛЬСТВО. Поскольку в любой внутренней точке симплекса значение монома положительно, в точке максимума оно тоже положительно, значит если щ > О, то x*j > 0. Наоборот, если rij = 0, то х] = 0 (что и утверждается лемме), поскольку иначе значение монома в точке 1 * х. :Х - -—'-—е\ 1-х* 1-х* где eJ — j-й базисный вектор, больше, чем в точке х*. Так что, возможно, рассматривая вместо исходного симплекса его грань, можно считать, что все rij > 0 и что точка максимума обязана находиться внутри симплекса. Выписывая лагранжиан L(x, \) = р(х) + \(l -^хА ^ i=\ ' и приравнивая нулю его производные, получаем систему уравнений относительно х и \ 3L njP(x) . . , 0 = — = ¦ A, j = 1,..., a С/«A/ j Jb j Домножая j-e уравнение из первых d на Xj, суммируя по j и учитывая последнее уравнение, получаем d А = р(х)^2 пг Подставляя это значение А в первые d уравнений, получаем утверждение леммы. ¦ Поскольку априорное распределение на пространстве моделей равномерно, максимум апостериорной плотности A.27) достигается там же, где максимум правдоподобия р(Г|7г). Применяя лемму 2 к плотности A.33), получаем точку максимума *k - N , 7Tmfc - mk
48 Глава 1. Напоминание То есть, обученная модель в точке (х, у) предсказывает вероятность N„ т-т Nxjy j=l я;2/ **»>-2Пт?-^р*. о-») а значит условную вероятность W-dIK ^VB/k) = 3—d A.39) Е№)ИП4 к=\ j=\ Дискриминант наивного и дискриминанты At(V Vl#) = In г^ ' = Рт(х, у") d = (\- d)(in (ад - in (ад) + Е Aп «,) ",n W/)) • <L4°) Сравнение методов обучения дискретной наивной байесовской модели. Сравнение формул A.35) и A.38) показывает, что при одних и тех же априорных предположениях разные методы обучения наивной байесовской модели дают разный результат: байесовское обучение — верный, максимизация правдоподобия — неверный, да и по вычислительной сложности они мало отличаются. Разница между ответами не слишком велика, когда все числа NJmk большие, и весьма существенна, когда какие-то из них равны нулю: модель, обученная максимизацией правдоподобия, считает невозможным то, что ей не предъявили во время обучения. По сравнению с ней модель, обученная байесовским методом, ведет себя приблизительно (не в точности) так, как если бы кроме обучающего набора ей еще по одному разу предъявили все возможные сочетания векторов признаков и ответов. И байесовское обучение, и обучение максимизацией апостериорной вероятности, описанные в этом разделе, легко переносятся с равномерного априорного распределения на распределение
1.2. Обучение распознавателей и вероятностные модели 49 с плотностью, пропорциональной моному общего вида q , d Mj ч iK») а Щ^Г'ПП^т*)). A-41) к=\ ^ j=l m=l ' в котором показатели даже не обязательно целые, а вещественные неотрицательные для максимизации апостериорной вероятности и не меньшие -1 для байесовского обучения. Действительно, в лемме 2 использовалась только неотрицательность показателей, а не их целочисленность, а лемма 1 верна и при нецелых показателях с заменой факториалов на Г-функции \ которые потом точно так же, как факториалы, почти сокращаются. Упражнение. Проведите байесовское обучение и максимизацию апостериорной вероятности для дискретной наивной байесовской модели с априорным распределением, пропорциональным моному A.41). Замечание. В рецептурных справочниках по алгоритмам распознавания наивный метод Байеса иногда излагается в три с половиной строчки: • для набора Т вычислить Nk и NJmk по формулам A.31-1.32); • вычислить для вектора признаков х и всевозможных q ответов у вероятность Рт{х, у) по формуле A.35) или A.38); • выбрать ответ г/, максимизирующий Рт(х,у). Непрерывные наивные байесовские модели. Конечность пространства ответов У для наивных байесовских моделей существенна (т. е. они применимы для классификации, но не для регрессии), а конечность пространства признаков X совершенно необязательна. Некоторые признаки могут быть непрерывны, некоторые дискретны — лишь бы для каждого признака х3 условные вероятности или их плотности p(xJ\y) принадлежали конечномерным пространствам, 00 ' Напоминание: Т(х) = / tx~le~b dt при х > 0. Интегрированием по частям о получаются тождества Т(х) = (х - 1)! при целых х и Т(х + 1) = хТ(х) при любых.
50 Глава 1. Напоминание на которых к тому же можно как-то разумно определить априорное распределение. В частности, непрерывные признаки можно дискретизировать, т. е. разбить область допустимых значений каждого признака на непересекающиеся отрезки и заменять значение признака номером содержащего это значение отрезка, причем способ разбиения может не быть фиксирован заранее, а определяться по обучающему набору К Обучение максимизацией апостериорной вероятности обычно не очень сложно. Честное байесовское обучение, требующее интегрирования по многомерным пространствам, реализуемо только при некоторых довольно простых априорных распределениях. Применимость наивного байесовского метода. Наивный байесовский метод довольно успешно применяется в задачах классификации с очень большим числом признаков, как правило, дискретных, про взаимозависимость которых заранее ничего не понятно. Если множество признаков имеет какую-то структуру, например, признаки являются значениями чего-либо в разные моменты времени (звуковой сигнал) или в разных точках плоскости (оптический сигнал), то про взаимозависимость признаков и ответов можно сделать более разумные предположения, чем в наивной байесовской модели, и получить более точные модели (скрытые марковские модели, марковские поля и другие). Очень многие методы обучения дают более точные распознаватели, чем наивный байесовский, но по скорости обучения он вне конкуренции. 1.2.6. Обучение дискриминантных моделей (продолжение) При построении дискриминантных моделей пространство условных распределений р(у\х) отождествляется с пространством распознавателей У, и в зависимости от того, с какой стороны на него смотрят, получаются два изоморфных, но терминологически совершенно не похожих, подхода. ' То же самое имеет смысл делать для целочисленных признаков, количество допустимых значений которых сравнимо с длиной обучающего набора или превышает ее.
1.2. Обучение распознавателей и вероятностные модели 51 Подход со стороны распознавателей (см., например, [24], первоисточник неизвестен): пусть распознаватели из пространства Т вычисляют не принадлежащие небольшому пространству у (например, конечному или Е) ответы классификации или регрессии, а принадлежащие большему пространству Ту их распределения (в случае дискретных ответов) или параметры распределений (в случае непрерывных ответов), см. раздел 1.1.2. Пусть также на самом пространстве распознавателей Т определено распределение C. Формально C — обычная вероятностная мера, но ее положено называть не вероятностью, а доверием (верой, belief) и произносить ритуальные заклинания про то, что это доверие является чьей- то субъективной априорной оценкой адекватности распознавателя. Аналогично, распределение f(x) на У, где / ? Т и х Е X, положено называть условным распределением доверий к ответам (вер в ответы) у Е У при условии результата распознавания (т. е. предсказанного распределения) f(x). Воздержимся от философически-филологических упражнений по теории веры и будем формально обращаться с довериями как с вероятностями. Подход со стороны моделей (см., например, [7]) состоит в том, что C — действительно обычная вероятностная мера на пространстве Т\ состоящем, однако не из самих распознавателей, а из моделей условных распределений pf(y\x), где /EJT, х?Х и уЕУ, являющихся неполными моделями распределения р(х,у) =р(у\х)р(х) Е V. Задача обучения состоит в том, чтобы выбрать хорошую в каком- либо смысле модель. Имея такую модель, можно предсказывать распределение вероятностей ответов (или сами ответы) в каждой точке пространства признаков X точно так же, как и при наличии порождающей модели. Распределение р(х) на пространстве X и при таком подходе остается неизвестным; известно только, что именно им порождены векторы признаков х\,..., хдг обучающего набора. До конца этого параграфа будут продемонстрированы оба варианта терминологии [второй — в квадратных скобках], далее будет использоваться только второй (модели). Для простоты обозначений ограничимся случаем, когда распределения C на Т и f(x) на У непрерывны с плотностями р и Pf(x) соответственно. Тогда условная плотность доверия распознавателя / к тому, что последовательности векторов признаков Х=(х\,..., Xjv) обучающего набора Т = ((х\, у\),... , (ждг, удг)) со-
52 Глава 1. Напоминание ответствует последовательность ответов Y = (г/ь ..., у^) [т. е. вероятность последовательности ответов Y при последовательности признаков X в модели /], равна N p(Y\X,f) = HPfiXt)(yi), A.42) г=1 совместная плотность доверия к ответам обучающего набора и распознавателю / [условная плотность вероятности модели и ответов при данных признаках] равна p(Y,/|X)=p(Y|X,/)p(A полная плотность доверия к ответам [плотность вероятности ответов при условии данных признаков] обучающего набора p(Y|X) = J p(Y, /|X) df = J p(Y|X, f)p(f) df и плотность доверия к распознавателю / [плотность вероятности модели /] при условии обучающего набора Т равна *Л1?-*Лж.Ц = ^- /№/)р(/) • A-43) p{Y\X) J р(у|х,/)р(/)# Формулу A.43) можно применять для обучения распознавателей по крайней мере двумя способами: байесовским и максимизацией доверия [апостериорной вероятности], ср. с разделом 1.2.4. При байесовском подходе строится усредненный распознаватель [модель] /г= / fp(f\T)df (чтобы усреднение fy принадлежало пространству Т, достаточно чтобы пространство было замкнуто и выпукло), который замечателен всем, кроме практической невозможности честно его вычислить, кроме отдельных полезных случаев, например, когда все распределения f(x) — гауссовы, а /3 — тоже некоторого специального
1.2. Обучение распознавателей и вероятностные модели 53 вида. А вот максимизацию апостериорного доверия [вероятности] рассмотрим подробнее. Максимизация выражения A.43) по Обучение дискриминантной / эквивалентна максимизации его числителя N p(Y, /|Х) = p(f) П рт(у>) -»• max A.44) или минимизации функции N - In (p(Y, /|X)) - - In (p(/)) - ? In (p/fe)(y<)) -> min. A.45) *=i f Введем функцию штрафа E(r, у) = -In (Pr(y)) и обозначим через ^(/) выражение -1п(р(/)). В таких терминах минимизация A.45) превраща- ется в с регуляризацией N ф{!) + J2 E(f(xi), Уг) -+ min, A.46) т. е. в минимизацию суммарного штрафа с регуляризацией A.8) в несколько более общей ситуации. А именно, штраф Е теперь определен не на пространстве пар ответов У х у, а на пространстве пар распределение-ответ Vy x у. Аналогично максимизация правдоподобия A.42), для которой не требуется определять априорное распределение на пространстве распознавателей [моделей], обобщает минимизацию средней ошибки A.4) без регуляризации. 1.2.7. Пример: регрессия методом наименьших квадратов Предположим, что пространство ответов — действительные числа (У = М), пространство признаков X — любое, но на нем задано отображение ф : X —> R . Рассмотрим (d + 1)-мерное про-
54 Глава 1. Напоминание странство Т дискриминантных моделей (условных распределений) |V.W«)-B»)-w«p(-(l,-y))'). A.47) состоящее из гауссовых распределений с общей дисперсией s и линейно зависящими от ф(х) центрами d ыф(х) = ^Г^ Wj^(x). 3=1 Это соответствует ситуации, когда ответ должен бы определяться вектором признаков однозначно, но к нему добавляется большое количество мелких независимых случайных ошибок, а распределение суммы большого количества независимых случайных величин близко к гауссову по центральной предельной теореме. Применяя для обучения этой модели на обучающем наборе Т самый простой и «заведомо ложный» метод максимизации правдоподобия A.42), а лучше — минимизации его минус логарифма -ln(p(Y,ti;,*|X)) = ЛПпBтг) Nln(s) 1 JL ±i чч2 2 2 25 Т""-' w,s г=\ получаем, что задача распадается на минимиза- квадратов цию по w суммы квадратов N У2(Уг ~ ыф{хг)J -> min A.48) i=\ (это — классический метод наименьших квадратов Гаусса для приближения функций, известных в конечном числе точек Х{9 линейными комбинациями базисных функций ф3(х)) и последующую минимизацию по s N\n(s) 1 JL ±. ..2 2 + Ys ^Vi ~ W(MXi>f "^ ™n'
1.2. Обучение распознавателей и вероятностные модели 55 с очевидным ответом 1 N s= -^(yi-wcfrixi)J. i=\ Обученная модель для любого вектора признаков х предсказывает распределение ответа у по формуле A.47) с обученными коэффициентами, т. е. в частности предсказывает и ожидание ответа wcf)(x), и его дисперсию 5. Любопытно, что если обучать модели при фиксированном значении дисперсии s (например, s = 2008), прогнозы для ожиданий ответов будут теми же, хотя прогноз дисперсии s = 2008 — абсолютно не относящимся к делу. 1.2.8. Пример: применение регрессии для классификации с оценкой вероятностей классов Пространство распределений Ту на пространстве ответов У = = {!,...,</} является (q — 1)-мерным симплексом {(У1 l^)GRt | Е^ = 1}' пространство моделей Т можно считать вложенным в пространство функций из пространства признаков ^ в К9, удовлетворя- q ющих вероятностным нормировкам (f ) 0 и Е^ = *)' где з=\ f(x) — p(j\x, /). В такой постановке задача классификации оказывается сведена к задаче многомерной регрессии со специфическими ограничениями. Пространство ответов у, естественно отображается на вершины симплекса Vy, а именно, к н-> (б[,... , Sqk). Тогда условную вероятность р(у\х, /) формально можно записать в виде P(y\x,f) = f[(fj(x))v'- A-49)
56 Глава 1. Напоминание Формула A.49) определена для любого вектора у ? Vy, что позволяет обучать модель не только на достоверных, но и на «стохастических» обучающих объектах, состоящий из пар вида (вектор признаков, распределение вероятностей ответов). Соответствующая формуле A.49) функция штрафа E(f(x), y) = -ln (р(у\х, Л) = - Е У*ln <№» <L5°) совпадает с взаимной энтропией (cross entropy) распределений f(x) и j/, определенных на g-элементном множестве {1,..., q}. Получа- Обучение многоклассового ется, что обучение распознавателя методом максимизации апостериорной вероятности (формулы A.44), A.45), A.46)), равносильно решению задачи или правдоподобия v /п * * w> - Е Е Лln (/*(*«)) -* * о-51) г=1 j=\ а обучение методом максимизации правдоподобия — просто минимизации взаимной энтропии N q -ЕЕ^ижь™. A.52) Для двухклассовой классификации можно обозначить и упростить формулы A.51) и A.52) до N W) " 2 (У*1п №<» + A - Уг) In A - f(Xi))) -+ min, A.53) г=1 N - V (и ln (/(a*)) + A - Уг) In A - f(xi))) -> min, A.54) г=1 соответственно.
1.3. Другие задачи статистического обучения 57 Замечание. Вместо того, чтобы обобщать постановку задачи классификации настолько, чтобы можно было обучать распознаватель на образцах с недостоверной (вероятностной) классификацией, можно было бы ограничиться пространством достоверных ответов у = {1,..., q}, но при этом все равно обучаться оценивать их вероятности. Все формулы при таком ограничении и соответствующих ему обозначениях немного упрощаются: штраф A.50) превращается в E(f(x),y) =-lnf(x), A.55) а, обучение методом максимизации апостериорной вероятности A.51) превращается в N W)-X> (/"(*<))">"»• A.56) 1 /?•/" г=1 Таким образом, обучение модели, оценивающей вероятности классов, сводится к минимизации вполне определенной функции штрафа A.50) или A.55). 1.3. Другие задачи статистического обучения В этом разделе приведено всего лишь несколько примеров типов задач, похожих на распознавание и решаемых методами статистического обучения. Есть и другие типы таких задач. И наоборот, для приведенных задач есть совершенно другие методы решения. 1.3.1. Обучение с учителем и без Вспомним метод моделирования распределения тс Е V (раздел 1.2.4), которое опять для простоты обозначений будем считать непрерывным. Его плотность рп(х, у) представима в виде рАх>у)=рАх)рАу\х)> где рАх) = / pAx>y)dy уеу (ср. с формулой A.1)). Моделирование распределения можно разбить на два этапа: отдельно моделирование плотности р^(х), описывающей распределение наборов признаков безотносительно к ожидаемым ответам, и отдельно моделирование условной плотности
58 Глава 1. Напоминание рп(у\х), которую и оценивает распознаватель. Независимость первого этапа от ответов замечательна тем, что для обучения этой части модели не требуется размеченный обучающий набор (признаки и ответы), который может быть весьма ограничен, а годятся любые наборы признаков. Например, при обучении распознаванию речи годятся записи произнесения слов, собираемые автоматически, без их расшифровки, делаемой вручную. Такое обучение, использующее только векторы признаков и игнорирующее соответствующие им ответы, называется обучением без учителя (unsupervised learning) в отличие от рассматривавшегося ранее обучения с учителем (supervised learning). Обучение без учителя применимо не только в качестве промежуточного этапа обучения распознавателя, но и в некоторых других задачах статистического обучения. 1.3.2. Оценка плотности и обнаружение выбросов Оценка плотности распределения 7г на пространстве X по выборке X ? X — это одна из любимых задач классической статистики. Пример в разделе 1.3.1 показывает, что она может быть полезна при обучении распознаванию. Другой (тривиальный) пример ее применения в обучении распознавателя был приведен в разделе 1.2.5 при оценке вероятностей р(у) всевозможных ответов: в этом случае ответы обучающего набора выступают в роли признаков. И вообще, оценка плотности является частным случаем распознавания, а именно обучением вероятностной модели распределения на пространстве {0} х у по обучающему набору Т= (@,2/,),...,@,у^)). Оценка плотности может применяться как промежуточный этап и для решения задачи обнаружения выбросов (outlier detection), являющейся вырожденным случаем задачи двухклассовой классификации: в обучающем наборе представлены только объекты класса «нормальные», а объекты класса «выбросы» (объекты с аномальными значениями признаков) не представлены. Отсутствие выбросов в обучающем наборе необходимо компенсировать априорной информацией об их вероятности и, возможно, распределении.
1.3. Другие задачи статистического обучения 59 Другой подход к обнаружению выбросов больше похож на обучение распознавателя минимизацией эмпирического риска с регуляризацией: в заранее заданном классе «сигналов тревоги» Т С {/ : X —> {0, 1}} на обучающем наборе Т минимизировать какую-либо функцию от поданных сигналом ложных тревог и «сложности» сигнальной функции. Подробно рассматриваться задача обнаружения выбросов не будет: она приведена только как пример задачи, в которой применяется обучение без учителя. 1.3.3. Кластеризация Кластеризацией называется следующая задача. Есть некоторое количество N объектов, т. е. обучающий набор векторов признаков. Построить алгоритм (кластеризатор), разбивающий пространство признаков X на конечное число q областей, называемых кластерами, так чтобы векторы, из одного кластера были больше похожи друг на друга, чем векторы из разных кластеров. Конечно, понятие похожести нужно как-то определить, например, для метрического пространства признаков, через расстояние в нем. Таким образом, кластеризатор можно считать, как и классификатор, отображением f : X —> У = {I,... ,q}, a точнее, в отличие от классификатора, классом таких отображений, переводимых друг в друга перестановками множества у. Довольно часто кластеризация применяется при определении понятия классов для последующей классификации. Например, классификация в ботанике и зоологии начиналась с того, что имелось огромное количество описаний живых существ с разным количеством, цветом и формой листьев, лепестков, ног и хвостов, и нужно было разбить их на кучки похожих и предъявить алгоритм отнесения каждого нового существа к какой-то из кучек. Кластеризация похожа на классификацию, в которой в обучающем наборе отсутствуют ответы — номера классов. Чисто теоретически, можно назначить эти ответы всевозможными способами (очень многими: N9), обучить Nq классификаторов, выбрать один из самых лучших (которых не менее q\) и использовать в качестве кластеризатора. На практике, конечно, обучить столько классифи-
60 Глава 1. Напоминание каторов невозможно, но идея использовать в качестве кластериза- тора подходящий классификатор вполне применима. Задачу кластеризации можно разными способами видоизменять. Например, можно, как и в задаче многоклассовой классификации, строить кластеризатор / : X -л Rq, для каждой точки х пространства признаков вычисляющий не только ответ arg max/Дя) 3 (номер кластера), но и уверенность в нем, равную max fj{x). Такой з кластеризатор заодно может решать задачу обнаружения выбросов (раздел 1.3.2). Обучать такой кластеризатор можно следующим образом: потребовать, чтобы его ответы удовлетворяли обычным вероятностным нормировкам fj(x) ^ 0 и V~^ fj(x) — 1 и ДОЯ обучающего 3 набора X в стандартном предположении о независимости обучающих векторов искать «наиболее правдоподобную» кластеризацию N N max ТТ h (xi) = ТТ max fAxi) -> max. A.57) Для решения этой задачи возьмем какой-нибудь метод обучения классификаторов, максимизирующий оценку уверенности классификатора в ответах на обучающем наборе, и какую-нибудь, хоть бы и случайную, кластеризацию. Обучим классификатор классифицировать в соответствии с этим назначением кластеров. Затем каждый вектор признаков из обучающего набора классифицируем с помощью обученного классификатора. Хотя классификатор и обучался на этом же самом обучающем наборе, для некоторых обучающих векторов его ответ может отличаться от того, чему его учили. Для полученного разбиения на классы снова обучим классификатор, затем в соответствии с результатами обучения снова подправим классификацию и т.д. При обучении произведение уверенностей A.57) монотонно не убывает. Обучение останавливается, когда это произведение перестает возрастать. При таком обучении классификатор учится классифицировать не так, как задано в каком-то обучающем наборе, а так, как ему удобно максимизировать уверенность в своей работе. Результат обучения кластеризатора сильно зависит от начального разбиения на кластеры.
1.3. Другие задачи статистического обучения 61 Подробно эмпирические методы выбора начального разбиения или, что эквивалентно, начального состояния классификаторов, здесь не обсуждаются. Например, можно начинать обучение следующим образом: выбрать из обучающего набора несколько случайных векторов, по одному на кластер, объявить их принадлежащими разным классам и обучить классификатор только на них, после чего продолжать обучение уже на всем обучающем наборе. Во время обучения тоже могут возникнуть неоднозначности, разрешаемые довольно произвольно. К какому кластеру отнести вектор, для которого некоторые из уверенностей в принадлежности к разным кластерам совпадают (варианты: к случайному, к кластеру с меньшим номером, к кластеру с меньшим количеством векторов, что в свою очередь неоднозначно,...)? Что делать, если какой-то кластер стал пустым (варианты: не обращать внимания, продолжать кластеризацию с меньшим числом кластеров, родить этот кластер заново, поместив в него вектор с наименьшей уверенностью,...)? В качестве примера рассмотрим байесовский g-классовый классификатор (раздел 1.2.1) на d-мерном евклидовом пространстве признаков X, для следующей порождающей модели: вероятности р(у) всех классов равны l/q, а плотности условных вероятностей р(х\у) являются гауссовыми с единичной матрицей ковариации p(x\j) = Biryd/2 exp (-X-{x - Н)Л , l^j^q. Обучение модели состоит в подборе q векторов ц\, ..., /лд в пространстве X. При обучении методом наибольшего правдоподобия (формула A.28)) на обучающем наборе X = (х\,..., х^) с каким-то распределением у\,..., у^ обучающих векторов по кластерам, максимизируется по параметрам модели произведение вероятностей N N - N Y[p(Xu Уг) = П (Р(ХМР(У^) = "лГ ПР^*^*) "^ ШаХ' г=\ i=l ' г=\ М т. е. минимизируется сумма N У2 - In (p(xi\yi)) -*min,
62 Глава 1. Напоминание что эквивалентно минимизации суммы квадратов N VVxj - /%J -> min . A.58) г=1 Квадратичная минимизация сводится к очень простой системе линейных уравнений, которая элементарно решается: Упражнение. Докажите, что Е i\Vi=3 #{i\Vi=J} — точка глобального минимума суммы A.58). Таким образом, каждый вектор параметров p,j сдвигается в центр тяжести (среднее арифметическое) обучающих векторов j-ro кластера. Затем каждый обучающий вектор Х{ переводится в тот кластер j, для которого оценка байесовского распознавателя p(xi\j) максимальна, т.е. расстояние Цат* - fij\\ минимально. Снова обучается классификатор, снова пересчитываются кластеры, и т. д., пока правдоподобие не перестанет увеличиваться, т. е. распределение обучающих векторов по кластерам не перестанет изменяться. м , Этот пример обучения кластеризатора по сов- МвТОД К "ГПЭЭПэ местительству является самым распространенным примером описываемого в разделе 1.3.4 векторного квантования. Он обычно называется «k-means» (к средних), где к — обозначение числа кластеров (то, что выше обозначалось буквой q), a «means» — память о вычислении средних арифметических. В течение 25 лет он был известен в научном фольклоре, прежде чем его автор Стюарт Ллойд (Stuart Lloyd) опубликовал его в открытой печати: [40]. Как правило, метод fc-means сходится быстро, хотя есть и примеры очень медленной сходимости [1]. Напоминаем, что получающаяся кластеризация зависит от начальной кластеризации и не обязательно оптимальна. Метод fc-means легко обобщить, допустив в качестве плотностей условных вероятностей гауссианы с любыми матрицами кова- риации, в том числе и с разными матрицами для разных кластеров.
1.3. Другие задачи статистического обучения 63 Количество кластеров к может быть фиксировано заранее, а может, аналогично обучению распознавателей с регуляризацией A.8), подбираться минимизацией суммы какого-либо зависящего от к штрафа «за сложность» и убывающей функции от уверенности A.57). Стандартных рецептов, как именно штрафовать и как минимизировать по дискретному параметру к, нет. 1.3.4. Векторное квантование и понижение размерности Очень распространена следующая модификация задачи кластеризации. Одновременно с поиском хорошей кластеризующей функции f : X -> У будем искать «функцию центров» с : У -> X, сопоставляющую каждому кластеру у его «типичного представителя» с(у), называемого центром кластера. Хочется, чтобы центр кластера был достаточно близок ко всем объектам этого кластера. В такой постановке задача кластеризации обычно называется векторным квантованием (vector quantization). Векторное квантование часто применяется при необратимом сжатии информации для хранения или передачи по линиям связи. Информация любой природы представляется, возможно искусственно, в виде последовательности векторов признаков, лежащих в пространстве признаков X. При кодировании (сжатии) каждый вектор кодируется номером кластера, которому он принадлежит. При декодировании (раздутии) каждый номер кластера заменяется на его центр. Задачу векторного квантования можно формализовать в том же стиле, что и задачу распознавания (раздел 1.1.4). Имеется: пространство (векторов) признаков X, точками которого кодируются квантуемые объекты, например d-мерное евклидово пространство R или любое метрическое пространство; пространство кластеров У, обычно конечное, хотя возможны и обобщения; пространство Т кластеризующих функций f:X->y9 например, любых функций из X в У; пространство С функций центров с : У —» X, как правило, любых функций из У в X;
64 Глава 1. Напоминание пространство V распределений (вероятностных мер) на X, например, в случае для евклидова пространства X, — абсолютно непрерывных по мере Лебега, гауссовых смесей и т. п.; функция штрафа Е : X х X -» К, как правило, неотрицательная и равная 0 при совпадении параметров, например, в случае евклидова пространства X удобно взять Е(х, s) = \\х - s||2; обучающий набор Х= (х\,..., ж#), где векторы признаков ж» G X считаются значениями независимых случайных величин с одним и тем же, но совершенно неизвестным распределением Хочется поХ,У,Т,С,Т,ЕиХ построить кластеризатор / G Т и функцию центров с € С, минимизирующие ожидание штрафа #„(/) Ev(f,c)= / ?(c(/(x)),x)d7r(s)-> min , A.59) где 7г G V. Как и в случае распознавания, можно сложную задачу минимизации интеграла подменить задачей минимизации приближающей его суммы 1 N En(f, с) « E(f9 с, X) = - V Д(с(/(а*)), a*) -> min , A.60) г=\ но тогда, чтобы обеспечить малость ожидания штрафа A.59) может понадобиться регуляризация, ср. с разделом 1.1.6. Обратите внимание на то, что отображения / и с входят в формулы A.59) и A.60) только в виде композиции со/. Дальше, как и в случае распознавания, можно забыть про вероятностную модель и решать задачу, подобную A.60), а качество полученного квантования оценивать экспериментально, вычисляя штраф E(f, с, X') на независимом тестовом наборе X'. А можно продолжать изучать вероятностную модель и перенести на случай кластеризации и векторного квантования соображения из раздела 1.2.4 об апостериорной вероятности или байесовском обучении. В таком виде задача обучения осмысленна и полезна не только при конечном пространстве У, но при любом. Например, если X и У — евклидовы пространства, dimC^) < dim (А*), а класс С
1.3. Другие задачи статистического обучения 65 состоит из гладких или линейных функций, то обучение квантованию равносильно поиску dim (У) -мерного подмножества (гладкой поверхности или плоскости, соответственно), хорошо аппроксимирующего встречающиеся векторы признаков. Только называется эта задача уже не квантованием, а понижением размерности {dimension reduction). Квантование и понижение размерности можно рассматривать как частный случай задачи регрессии: пространство ответов у совпадает с пространством признаков X, и нужно приблизить тождественное отображение с помощью отображений вида со /, множество значений которых либо конечно (квантование), либо маломерно (понижение размерности). Огромное количество методов обучающегося векторного квантования (LVQ, learning vector quantization) и понижения размерности с помощью самоорганизующихся отображений (SOM, self-organizing maps), описаны в книге [32]. Такие методы классической статистики, как факторный анализ (factor analysis) и анализ главных компонент (principal component analysis) также являются методами понижения размерности, работающими в предположении гауссовости распределений р(х\у), см., например, [8].
ЧАСТЬ II ВЕРОЯТНОСТНЫЕ МОДЕЛИ, УЧИТЫВАЮЩИЕ СПЕЦИФИКУ ДАННЫХ
Каждая из последующих глав описывает какую-либо практически важную группу задач и методов распознавания, слишком сложных для буквального применения общих методов статистического обучения, намеченных выше во вводной главе и подробно описанных в книге [42]. Глава 2 Пропущенные данные и метод максимизации ожидания 2.1. Пропущенные данные При сборе реальных данных для последующего обучения распознаванию и непосредственно для распознавания значения каких- то признаков могут оказаться неизвестными. Например, 1) значение признака, измеряемого каким-то прибором, может оказаться вне диапазона чувствительности этого прибора; 2) в социологических анкетах какие-то графы могут оказаться незаполненными по неизвестным причинам; 3) какие-то стандартные медицинские анализы больному не делаются по указанию врача (потому ли, что некогда, потому ли, что врач счел их несущественными для диагностики этого больного либо не показанными при его состоянии — причин может быть много); 4) точное значение признака в момент измерения принципиально не может быть известно (в частности, время жизни тестируемого электроприбора не известно, пока он не сгорит), хотя что-то про него известно (а именно, что он еще не сгорел). Неизвестные значения из пунктов 1-3 обычно называются пропущенными данными (missing data), а частично известные (основной
2.2. Распознавание и обучение с пропущенными данными 69 пример, как в пункте 4 — время жизни чего-либо) — цензуриро- ванными данными. Пропущенные данные подразделяются в соответствие с тем, как зависит или не зависит факт пропуска значений признаков от неизвестных значений этих признаков и от значений других признаков. Если пропуск значения признака не зависит от значений пропущенных признаков, то этот признак называется пропущенным случайно (missing at random (MAR)), а если вообще не зависит от значений всех признаков, то пропущенным вполне случайно (missing completely at random (MCAR))*' . В частности, в пункте 1 был приведен пример, не удовлетворяющий условию MAR, а в пункте 3 — пример, не удовлетворяющий условию MCAR, хотя, возможно, удовлетворяющий MAR. Далее будет рассматриваться преимущественно случай вполне случайно пропущенных данных (MCAR), хотя некоторые общие соображения применимы и в других случаях. Распознавание с цензурированными данными — весьма важное в задачах прогноза выживаемости и весьма интересное с точки зрения применяемого математического аппарата — будет рассматриваться в разделе 3. Подробности можно прочитать в книгах [38] (пропущенные данные) и [13] (цензурированные данные). 2.2. Распознавание и обучение с пропущенными данными При наличии пропущенных данных в обучающем наборе и пропущенных признаков у распознаваемых объектов можно действовать различными способами, от кустарных до высоконаучных: 1) выбросить из обучающего набора примеры с пропущенными признаками и обучать распознаватель на остальных, а также ' Формальное определение таково. Пусть Tj — случайная величина, зависящая от вектора признаков и равная 1, если j-й признак пропущен и 0, если он не пропущен; z — вектор наблюдаемых (observed) признаков и z — вектор пропущенных (missing). Тогда условие MAR состоит в равенстве условных вероятностей P(rj\z, z) = P(rj\ z), а условие MCAR — в равенстве условной вероятности безусловной: P(rj\z, z) — P{rj).
70 Глава 2. Пропущенные данные и метод максимизации ожидания обучать сразу целое семейство распознавателей, использующих разные подмножества признаков; 2) применять методы обучения распознавателей, способные игнорировать пропущенные данные; 3) как-то доопределять (impute) пропущенные данные в обучающем наборе до обучения и доопределять пропущенные признаки при распознавании; 4) наличие или отсутствие каждого признака также использовать как признак со значениями 0 и 1; 5) строить и обучать порождающую вероятностную модель. Вариант 1 приемлем только когда пропущенные признаки встречаются очень редко. И то, когда, хотя бы и редко, у распознаваемого объекта есть пропущенные признаки, придется применять не распознаватель, использующий все признаки, а какой-то более слабый распознаватель, использующий только те признаки, которые известны. Кроме того, если условие MCAR не выполнено, то обучение производится на «статистически перекошенных» наборах. Вариант 2 от варианта 1 отличается не принципиально, а только тем, какую долю могут составлять пропущенные признаки. К наличию пропущенных данных более устойчивы распознаватели, получающиеся в результате голосования большого семейства «маленьких» распознавателей, каждый из которых обучается на очень небольшом подмножестве признаков. Из ранее описанных распознавателей такими являются например, наивные байесовский классификаторы. Каждый «маленький» распознаватель обучается на подмножестве обучающего набора, для элементов которого какое-то небольшое подмножество признаков или один признак (для наивного байесовского классификатора) определены. При распознавании в голосовании участвуют только те «маленькие» распознаватели, для которых определены все признаки. Применение наивного байесовского метода, модифицированного для обучения с пропущенными данными, будет подробно обсуждаться в разделе 2.2.1. Вариант 3 хорош тем, что после доопределения (imputation) пропущенных данных можно применять любые методы обучения рас-
2.2. Распознавание и обучение с пропущенными данными 71 познавателей. Способов доопределения много и они существенно зависят от имеющейся априорной информации о возможных значениях пропущенных данных и о взаимозависмости признаков. Иногда даже удается обосновать оптимальность какого-либо способа доопределения при каких-либо предположениях о структуре данных и о допустимых алгоритмах распознавания. Приведем несколько простейших примеров. При выполнении условия MCAR пропущенные значения дискретного признака (или ответа) доопределяются самым частым его значением, встречающимся в обучающем наборе (модой), а пропущенные значения непрерывного — средним арифметическим его значений, встречающихся в обучающем наборе (среднее арифметическое не инвариантно относительно нелинейных преобразований и обосновано только для применения линейных распознавателей), или медианой (медиана годится и для упорядоченных дискретных признаков). В предположении выполнения условия MAR, но не MCAR, естественно было бы доопределять пропущенные значения условными средними, медианами или самыми частыми относительно присутствующих значений. Это практически осуществимо только если все признаки и ответы дискретны и количество реально встречающихся сочетаний значений всех признаков и ответов намного меньше длины обучающего набора. При невыполнении условия MAR может оказаться полезнее заменять пропущенные значения признака не его «наиболее типичным» значением в обучающем наборе, как в предыдущих примерах, а наоборот, абсолютно нетипичным, в обучающем наборе не встречающемся, например, выходящим за диапазон чувствительности прибора, измеряющего этот признак. Подробнее эта идея развита в следующем варианте. Вариант 4 хорош тем, что не требует никаких предположений о независимости пропуска признаков от значений, как пропущенных, так и присутствующих. При нем не теряется никакая информация и не вносятся никакие статистические искажения в обучающий набор. Пропущенные значения признаков нужно как-то доопределить, но как именно — не очень существенно, например, каким-
72 Глава 2. Пропущенные данные и метод максимизации ожидания нибудь фиксированным значением \ Добавленные признаки наличия признаков можно рассматривать и как дискретные, и как вещественнозначные, так что применимы любые методы обучения распознавателей. Есть только одна техническая проблема: поскольку признаков стало вдвое больше, для успешного обучения распознавателя может требоваться искать его в большем пространстве, а также, во избежание переобучения, потребуется больший обучающий набор, чем при обучении без пропущенных признаков. Например, даже если при отсутствии пропущенных признаков можно хорошо обучить линейный распознаватель, при их наличии хорошего линейного (в пространстве вдвое большей размерности) распознавателя может не найтись. Вариант 5 обычно применяется в предположении выполнения условия MCAR; в противном случае нужно строить модель, описывающую совместное распределение не только признаков и ответов, но и пропусков их значений. Подробно он рассматривается ниже. 2.2.1. Пример: наивное байесовское обучение с пропущенными данными В наивной байесовской модели вероятности р^х, у) предста- вимы в виде произведения d d рЛх, у) = рЛу) П р*№\у) = ^ П К>у- (см. формулу A.30) и вводимые в следующем за ней абзаце обозначения 7Г*; и 7г^). Пусть теперь у вектора признаков х некото- + рые признаки пропущены, Dx С {1,..., d} — множество индексов + присутствующих признаков, Dx = {1,..., d} \ Dx — множество ин- + - + - дексов пропущенных признаков, а х = х ® х и X =ХХ®ХХ — разложения вектора признаков х и всего пространства признаков ' Если это фиксированное значение не встречается как значение признака реального объекта, то без парного к этому признаку признака наличия можно обойтись.
2.2. Распознавание и обучение с пропущенными данными 73 на присутствующие и пропущенные в х признаки. Тогда вероятность того, что значения присутствующих признаков и ответа такие, какие есть, а значения пропущенных признаков — любые, равна РЛ*> У) = Р*(?, У) = X) И* П ^у ) = ^ П ^У <2Л) хехх j<edx Аналогично, если пропущен еще и ответ у, то вероятность того, + что значения присутствующих признаков такие, какие есть, т. е. х и у, равна Р*(х) = Р*$) = X) ( ^ П ^у ) * ^2*2^ J?DX Рассмотрим сначала простейшую задачу двухклассовой классификации (пространство ответов У = {1,2}) по одному-единствен- ному двузначному признаку (пространство признаков X = {1,2}), и просчитаем несколько примеров. Наивные байесовские модели в этой ситуации задаются шестью числами п\, 7Г2, 7Гц, 7Г2ь ^п и 7Г22 (верхний индекс, всегда равный 1, опущен), удовлетворяющими соотношениям 7Г1+7Г2=1, 7Гц + 7Г21 = 1 И 7Ti2 + 7Г22 = 1 и образующим трехмерный единичный куб GГь тпь ^п) С [0> I]3- Априорную вероятность модели, как обычно, будем считать равномерной на этом кубе. Вместо байесовского обучения наивного байесовского классификатора (раздел 1.2.5), являющегося в случае единственного признака также и оптимальным байесовским (раздел 1.2.1), будем применять эквивалентную обучению формулу A.26). Пример. При обучающем наборе Т\ = (A, 1), B, 2)) отношение условных вероятностей ответов для «вектора» признаков х — 1 равно / 7Г17Гц • 7Г17Гц • A ~ 7Ti)(l - 7Ti2) d'K pr,(y=i|x = i) * РТ] (у - 2\х - 1) у A _ п^2 в ^ A _ ^)A _ ^ dn
74 Глава 2. Пропущенные данные и метод максимизации ожидания 1 1 1 / GTiJ(l — 7Ti)d7Ti • / GTiiJd7rir /A-7Г12)Й7Г 12 J_ 1 1 12 3 2 = 2 1 1 1 / 7ri(l-7TiJd7rr / 7ГцЙ7Г1Г / 7Ti2(l " 7Г12) dltn 12*2*6 О 0 0 и аналогично Ртх(У= 1|Д? = 2) = 1. Ртх(у = 2\х = 2) 2' При добавлении обучающих объектов с известным ответом, но неизвестным признаком, прогноз распознавателя смещается довольно естественным образом: Пример. При обучающем наборе Г2 — (A,1), B, 2), (, 2), (, 2)) отношение условных вероятностей ответов для «вектора» признаков х = 1 равно / 7Г17ГЦ -7Г17Г11 -A —7Ti)(l —7Ti2)-(l—7Ti)- рт2(у =l\x=l) 2dn Рт2(у-2\х-1) y*A_7riOri2.7ri7ril.A_7ri)A_7ri2).A_7ri) 1 1 /(TrO^l-TrO^Trr /ViiJ*rir [(l-ni2)dm2 ±_.l_.}_ 0 J J cc\ i о 2d7T 1 1 1 = 1 / 7Ti(l — 7TiLrf7Ti • / irUdirU- / 7Ti2(l-7Ti2)d7ri2 30 ' 2 * 6 о о Рт2(у= l|z = 2) 1 0 и аналогично рГ2(у = 2|х = 2) 4' Менее очевидно изменяется прогноз распознавателя (оптимального! лучше не бывает) при добавлении обучающего объекта с неизвестным ответом.
2.2. Распознавание и обучение с пропущенными данными 75 Пример. При обучающем наборе Т3 = (A, 1), B, 2), (, 2), (, 2), A,)) рГз(у=1|х=1)= / 7Г17Г11-7Г17Г11-A-7Г1)A-7Г12)-A-7Г1J-7Г17Г11Сг7Г + 7Г + / 7Г17Г1Г7Г17Г1гA-7Г1)A-7Г12)-A-7Г1J-A-7Г1OГ12Сг7Г = 7Г _3!3!3!0!0!1! 2!4! 2!0! 1!1! _ 1 /9 8\ _^Г~4Г^Г + ^Г1Г"зТ~7!\2 + 3/' а Рг,(у = 2|я=1) = = / A - 7TlOTl2 • TTlTTll • A - 7Г,)A - 7Г12) • A - 7TiJ • ТТ^п йж + 7Г + /A-7Г1OГ12-7Г17Г1ГA-7Г1)A-7Г12)-A-7Г1J-A-7Г,OГ12с/7Г = 7Г _2!4!2!0!1!1! 1!5! 1!0! 2!1! _ 1 /8 \ так что отношение условных вероятностей ответов для «вектора» признаков х = 1 равно 9 8 рГэ(у=1|а;=1)= 2 + 3 ^43 рт3(у = 2\х=1) 8 46 3 + (ср. с обучением на наборе Т2). > Ргз(у= 1|ж = 2) Упражнение. Вычислить Рт3(у = 2\х = 2) В общем случае байесовское обучение и применение наивной байесовской модели, допускающее пропущенные признаки (но не пропущенные ответы в обучающем наборе: с пропущенными ответами все более громоздко) выглядят следующим образом. Для обучающего набора Г = ((х\, У\),... , (xn, Vn)), в котором могут
76 Глава 2. Пропущенные данные и метод максимизации ожидания встречаться пропущенные признаки, вычисляются числа Nk (фор- мула A.31)), Nik (формула A.32)) и N{ = ? Kk ^ Nk - ко- 171=1 личество обучающих объектов /с-го класса с присутствующим j-м признаком. В этом и состоит обучение. Для распознаваемого век- Наивная байесовская модель, Т0Ра х с множеством присутствующих признаков Dx и ответа у прогноз их совместной вероятности равен пропущенных признаков jeDx (ср. с формулой A.35)). Упражнение. Докажите равенство B.3) Упражнение. Выпишите дискриминант A.37) для наивного байесовского распознавателя, допускающего пропущенные признаки. 2.2.2. Порождающие модели и пропущенные данные Напомним идеологию применения параметрических моделирующих методов для распознавания, аналогичную минимизации эмпирического риска: • построить конечномерное семейство моделей совместного распределения всех признаков и ответов, и, по возможности, определить на нем априорное распределение вероятностей моделей; • постараться выбрать в нем модель с наибольшей апостериорной вероятностью или правдоподобием («обучить модель»); • с помощью этой обученной модели по совместному распределению посчитать условное распределение ответов при условии признаков и именно его использовать в качестве распознавателя. Последний пункт применим и в ситуации пропущенных данных, когда известны значения не всех признаков. Только условное распределение ответов при условии всех признаков можно вычислить
2.3. Метод максимизации ожидания 77 однократно после обучения модели, а условные распределения ответов при условии части признаков придется вычислять при распознавании, вообще говоря, многократно, в зависимости от того, значения каких признаков распознаваемого объекта известны. В следующем разделе описывается еще один метод обучения порождающих моделей, допускающий и обучение, и распознавание с пропущенным данными. Более того, он позволяет обучать и применять модели с фиктивными признаками, значения которых всегда пропущены и при обучении, и при распознавании, но предположение о существовании которых позволяет строить более адекватные модели. 2.3. Метод максимизации ожидания 2.3.1. Обозначения Перенесем обозначения раздела 1.1.4 на случай допустимости пропуска данных и введем дополнительные обозначения: Для одного объекта (г-го): Х{ — вектор признаков (d-мерный, часть значений признаков может быть пропущена); Уг — ответ (g-мерный вектор, часть ответов может быть пропущена); Zi = (xi, Уг) — пара признаки-ответ(ы); Vi — фиктивные признаки (или векторы признаков) (latent variables), придуманные для упрощения модели. Те же самые векторы, компоненты которых перегруппированы в соответствии с тем, известно ли их значение: + Xi — вектор присутствующих признаков; + уi — присутствующие ответы; zi — (xi, уi) — все наблюдаемые параметры (присутствующие признаки и ответы); Xi, уi и Zi — пропущенные признаки, ответы и все пропущенные параметры; щ = (vi, Zi) — все ненаблюдаемые параметры, т.е. и фиктивные признаки, и пропущенные параметры.
78 Глава 2. Пропущенные данные и метод максимизации ожидания Для обучающего набора: Т = ((х\, 2/i),..., (xn, уn)) — обучающий набор, в котором значения каких-то признаков и ответов могут быть пропущены; v= (v\,..., vn) — все фиктивные признаки, z = (z\,..., zn) — все наблюдаемые параметры (присутствующие признаки и ответы) всего обучающего набора; z = (z\,..., zn) — все пропущенные параметры всего обучающего набора; и= (щ,..., un) = (v, z) — все ненаблюдаемые параметры (признаки и ответы) всего обучающего набора; таким образом, (z, и) — это все параметры обучающего набора — и признаки (наблюдаемые, ненаблюдаемые, фиктивные), и ответы (наблюдаемые, ненаблюдаемые); и) — распределение вероятностей на пространстве всех ненаблюдаемых параметров. Для вероятностной модели одного объекта: / — модель распределения вероятностей p(xi,yi,Vi) для каждого объекта, снабженного фиктивными признаками, принадлежащая некоторому пространству моделей Т. f считается случайной величиной с априорным распределением Po(f) на Т, так что распределение p(xi,yi,Vi) при конкретном значении / является условным и, соответственно, обозначается p(xi, yi,Vi\f); по нему вычисляются распределения p(xi9 yi\f) = / p(xu yi9 Vi\f) dvi и p(zi9 щ\/) Vi (то же распределение p(xi, yi,Vi\f), но с переупорядоченными аргументами). Для вероятностной модели всего обучающего набора: р(Т, \\f) или p(z, u|/) (это то же самое распределение, но с переупорядоченными аргументами); как обычно, элементы обучающего набора будут предполагаться независимыми, так что N N p(T,\\f) = Y[p(xi9yi9Vi\f) или p(z,u|/) = J\p(zi9Ui\f). i=\ i=\
2.3. Метод максимизации ожидания 79 В примерах будут также использоваться обозначения N^ A) для плотности d-мерного гауссова распределения с центром /i и матрицей ковариаций А <А)(я) = BпГа/2\АГШ exp D^~'(* - /i, x - м)), B.4) а также N^a^ для сферического гауссова распределения с центром /л и диагональной матрицей ковариаций al . <в)(х) = BТО)-^ехр (-^^)• B-5) В тех случаях, когда размерность распределения видна из контекста, будем писать просто Щ^д). Далее, за исключением нескольких конкретных примеров, со всеми переменными и распределениями будем обращаться как с непрерывными и, соответственно, писать их плотности и интегралы по ним. На дискретный случай все естественным образом тоже переносится. В частности, ожидание Еш;ид(-9 и) зависящей от и (и еще чего-то) величины g по распределению и с плотностью ш будем для наглядности расписывать через интеграл: Ew;uflf(-,u)= / flf(-, u)w(u) du, хотя в дискретном случае нужно писать сумму К;п9(; и) = Х^ 9('> из)и(из)- 3 Пространство моделей Т, как правило, параметризовано областью евклидова пространства, хотя может быть и дискретным, и еще каким-нибудь. Распределения р(х, у, v\f) будем считать непрерывными функциями от всех своих параметров, включая /. Тогда непрерывными будут и вычисляемые по ним условные распределения, их ожидания, логарифмы и т. п. Последующие рассуждения применимы и к весьма вырожденному, но широко распространенному, частному случаю, когда ответ «у» всегда принимает одно и то же фиксированное значение или, что эквивалентно, всегда отсутствует. Естественно, получающиеся
80 Глава 2. Пропущенные данные и метод максимизации ожидания модели распределения признаков не могут использоваться непосредственно для распознавания, но могут применяться в качестве составных частей распознавателей. Цель обучения модели — максимизация плотности апостериорной вероятности p(/|z) модели / при условии наблюдаемых параметров z обучающего набора, что равносильно максимизации плотности вероятности pit /) = Po(fMtf) = Poif) f Pit u|/) du -> max, B.6) или, что то же самое, ее логарифма L(f; г) = lnp0(f) + lnp(z\f) = lnpo(/) +ln / P(z, u|/) du -> max. B.7) Далее все плотности вероятностей предполагаются всюду положительными, чтобы логарифмы были всюду определены, хотя на самом деле это требование не принципиально. Во всех рассуждениях параметр z (все имеющееся знание про обучающий набор) будет фиксирован и функции будут рассматриваться как функции от остальных аргументов. Пример. Гауссова смесь и гребневая регрессия (см. [42, параграф 2.1.2]). • Признаки обучающих векторов Xi€X = R9i = l,...,N, часть из которых неизвестна. • Ответы обучающих векторов yi Е У = Ш9 i = I,..., N, часть из которых неизвестна. • Совокупность признаков и ответов обучающего набора длины N — это (d+ l)N чисел, часть из которых известны, и вместе образуют вектор z некоторой размерности N, а часть — неизвестны и вместе образуют случайный вектор z размерности N = (d+l)N-N. • Кроме того каждому обучающему вектору (х^З/г) приписан ненаблюдаемый признак V{, с конечным множеством значений
2.3. Метод максимизации ожидания 81 • Модель / состоит из линейной функции 1:Х ->У, l(x) = wx + b, положительного числа /3, к точек fij ? X и к положительно определенных квадратичных форм Aj на ^, и определяет условную вероятность р(х, у, v\f) как произведение не зависящего от v одномерного гауссиана в У, зависящего от v гаус- сиана в^и зависящего только от v положительного коэффициента: р(х, у, v\f) = р(у\х, /) p(x\v, /) Pv = = Nl0fP)(y-l(x))N(^Av)(x)Pv. B.8) Обучающие векторы считаются независимыми, так что N p((xuV\,Vi),..., (xN, улг, vN)\f) = Y[p(xi9 Vi, Vi\f). B.9) i=\ • Априорное распределение вероятностей модели / зависит только от w и является d-мерным сферическим гауссианом с центром в 0: Р0(/) = <а)Ы, B.10) где а > 0 выполняет роль параметра регуляризации и подбирается эмпирически. Гауссианы р(у\х, /) и Po(f) в этом примере — в точности те, которые приводят к методу гребневой регрессии, т. е. минимизации квадратичной ошибки с квадратичной регуляризацией. А «проинтегрированная» (просуммированная) по v гауссова смесь к к рыл = ^Z pfo vi/)= Yl p(x\v> лрм v—\ v=\ описывает плотность распределения векторов признаков. Вся же модель описывает распределение пар (х, у) (признаки-ответ) и позволяет вычислять условные распределения вида р(у\х), т.е. распознавать даже когда не все признаки известны. >
82 Глава 2. Пропущенные данные и метод максимизации ожидания 2.3.2. Алгоритм ЕМ для обучения порождающей модели Даже при несложных распределениях p(z,u|/) искать максимум логарифма апостериорной вероятности функции L(/; z) аналитически, дифференцируя L по / под логарифмом интеграла в формуле B.7) и приравнивая производные нулю — дело, как правило, безнадежное. Но функцию L можно оценить снизу более простой функцией Ьш, зависящей еще от распределения и ненаблюдаемых параметров и, предполагаемого всюду положительным: L(/;?) = lnM/) + ln^ Po(/)p(z,u|/) ^ po(/)p(z,ul/) + = lnE^;u — ^E^ln — =1^1/; z) B.11) o;(u) u(n) (неравенство следует из вогнутости логарифма). Оценивающая функция Ьш представима в виде разности Lw(f; z) = Eu.u \npo(f) + Е^ц lnp(z, u|/) - Ew;u lnu;(u) = = 1про(Л + Ew;u lnp(z, u|/) + H(u>), B.12) где априорная вероятность модели / от распределения ш не зависит и ее логарифм из-под ожидания вынесен, а последнее слагаемое — зависящая только от распределения и его энтропия Н(ш) = = -E^ulno^u). Хотя максимизация Lw(f; z) -> max, на первый взгляд кажется еще сложнее, чем максимизация L(/; z) B.7), сейчас будет предъявлен итеративный алгоритм, достаточно простой при просто устроенных логарифмах плотности lnp(z, u|/) и почти всегда сходящийся к решениям задачи B.7). Этот итеративный алгоритм называется алгоритмом максимизации ожидания, например, потому, что максимизируемая функция Lu(f; z) определяется как ожидание некоторой величины \ Идея ' Исторически слово «ожидание» в названии алгоритма появилось в несколько другом смысле, см. ссылку 4 на стр. 88
2.3. Метод максимизации ожидания 83 алгоритма состоит в чередовании двух увеличивающих значение функции АД/; z) шагов, которые в англоязычной традиции называются половинками названия алгоритма - Шаги Е и м MropiITMa EM expectation maximization или ЕМ: E(xpectation) максимизация (ожидания) Lu(f; z) по распределению ш при фиксированной модели /; ximization) максимизация (ожидайи фиксированном распределении и. M(aximization) максимизация (ожидания) Ьш(/; г) по модели / при Алгоритм 1: Максимизация ожидания (ЕМ); современная 1. Вход: обучающий набор Т = ((xuyl),...,(xN,yN)), в котором некоторые признаки и/или ответы могут быть пропущены: z — вектор всех присутствующих значений. 2 . Выбрать пространство фиктивных признаков v, пространство моделей распределения вероятностей троек (х, у, v), априорное распределение р0 на пространстве моделей и начальную модель / = /@). 3. В цикле Е максимизировать ожидание т if +x v , Po(/)p(z,u|/) Lw(/; z) = E^ In — по распределению ш всех ненаблюдаемых величин (фиктивных и пропущенных) при фиксированной модели /; М максимизировать Lw(/; z) по /при фиксированном распределении и; и выйти из цикла, если модель / не изменилась. 4. Выход: порождающая модель /. Для шага Е точка максимума не зависит от априорного распределения po(f) и предъявляется явно:
84 Глава 2. Пропущенные данные и метод максимизации ожидания Предложение 2 Условное распределение ненаблюдаемых параметров и при наблюдаемых параметрах г и модели f "/(и) =р(Ф,/) = т B.13) p(i\f) является единственной точкой глобального максимума Ьш(/', г) по и, и в ней достигается равенство LUf(f; z) = L(f; z). ДОКАЗАТЕЛЬСТВО. Точка глобального максимума L^f; z) по а; является решением вариационной задачи / 1 Р(^ц1/) / w _± In ——Ци) an -> max Ци) u\ f u(u) du=\ Выпишем лагранжиан и приравняем нулю его вариационную производную: 0=№*^*-A(/*>*-')) = Поскольку вариация 8и произвольна, при любом ненаблюдаемом и p(z,u|/) ч , ч p(z,u|f) lnn ' |>/;-А-1=0, т.е. а; и И Л+ ¦ Ци) еА_н Интегрируя это равенство по пространству ненаблюдаемых параметров, получаем 1 = / Ци) du — p(z,u[/) _ p(z\f) eA+i au~ ел+1 : значит p(z,u|/) + Ци) p(u| z, /) P(z|/)
2.3. Метод максимизации ожидания 85 и это распределение и является единственной экстремальной точкой функции Lw(f; z). To, что оно является точкой глобального максимума, проверяется непосредственно: LUf(f; z) = lnp0(/) + E^u In — = P(u|z,/) - 1про(Л + Kr,ulnp(z\f) = lnp0(f) + lnp(z\f) = L(f; z) и глобальность максимума следует из неравенства B.11). ¦ Следствие 1. На каждой итерации алгоритма 1 плотность апостериорной вероятности p(f\z) модели /, равно как и значение функции L(f; z) B.7), строго возрастает. Для шага М универсального способа поиска точки максимума нет, но максимизируемое выражение можно несколько упростить: Предложение 3 Любая точка /, . симума выражения Любая точка /, максимизирующая Ьш(/; z), является точкой мак- lnpo(f) + E„;u lnp(z, u|/) = Lw(/; z) - H(u>). B.14) В отличие от шага Е, во-первых, на шаге М точек максимума может быть много, и во-вторых, в них выполнение равенства Ьш(/; г) — = L(f; z) не гарантировано. Шаг М особенно удобно формулировать для регулярных экспоненциальных семейств распределений. Напомним, что регулярным экспоненциальным семейством распределений называется зависящее от параметра в Е в С Шп семейство распределений величины х е X с плотностями (для непрерывной величины) или вероятностями (для дискретной) вида р{х]в)=Ше(ФШК где ф : X —>- Rn — некоторое отображение в евклидово пространство Rn, а Л : Л' —>Ши g : Q —>Ш — числовые функции. Функция g
86 Глава 2. Пропущенные данные и метод максимизации ожидания однозначно определена нормировочным условием / p(x\6)dx= 1: g(9) = Г Н{х)е{ф{хШ dx. При обучении порождающих моделей для распознавания речь идет о семействах распределений на произведении X х у, а не просто на пространстве признаков X. Для регулярных экспоненциальных семейств необходимым условием максимума выражения B.14) является равенство 0 = d~f(lnpo(/) + E";u lnp(*'ul/))= d / N \ = -Qfln~^(f) + E*;u ( XI ^' Ui4 ' которое, в зависимости от конкретного вида функций ро и д, может оказаться легко и однозначно разрешимым относительно /, а может и не оказаться. Упражнение. Покажите, что семейство гауссовых распределений B.4), параметризованное парой (/х, А), является регулярным экспоненциальным с параметром .-(-^-.л-,) и отображением (на самом деле из-за симметричности матрицы Л размерность пространства моделей равна не d2 -hd, a d(d+ l)/2 + d). Вычислите функции /г и д. Предложения 2 и 3 позволяют переформулировать алгоритм максимизации ожидания 1, заменив в шаге Е максимизацию готовым ответом B.13) и несколько упростив шаг М. Получается алгоритм 2, в котором, в соответствии с исторической традицией, предварительные действия из шага М перенесены в шаг Е.
2.3. Метод максимизации ожидания 87 Алгоритм 2: Максимизация ожидания (ЕМ); классическая 1. Вход: обучающий набор Т= ((xi,yi),...,(xN,yN)), в котором некоторые признаки и/или ответы могут быть пропущены: z — вектор всех присутствующих значений. 2 . Выбрать пространство фиктивных признаков v, пространство моделей распределения вероятностей троек (х, у, v), априорное распределение ро на нем и начальную модель / = /@). 3. В цикле Е по / вычислить условное распределение ujf B.13) вектора и всех ненаблюдаемых параметров w/(u)=p(u|z,/); и определить (вычислять значения в точках пока не надо) зависящую от этого распределения функцию от модели / <?(/',/; z) = lnp0(/') + Eto/:-lnp(z,u|/'); B.15) М максимизировать Q(f', /; z) по модели /' при фиксированной модели / если / ф f, положить / = / , иначе выйти из цикла. 4. Выход: порождающая модель /. Замечание. В большинстве описаний метода максимизации ожидания в литературе максимизируется не апостериорная вероятность p(f\ г), что равносильно максимизации р( г, /) B.6), а правдоподобие p(z|/). При очень большом обучающем наборе разница между максимизацией p(z\f) и p(z,/) = Po(f)p(%\f) обычно пренебрежима, а при небольшом — может оказаться весьма существенной. Упражнение. Нетривиальное априорное распределение вероятностей может быть определено не только для параметров модели /, но и для признаков. Например, оно есть при доучивании уже
88 Глава 2. Пропущенные данные и метод максимизации ожидания когда-то обученной модели на новом обучающем наборе. Сформулируйте алгоритм максимизации ожидания как итеративную максимизацию апостериорной вероятности в таком общем случае. Конечно, не при всяком пространстве моделей и не при всяком априорном распределении алгоритм максимизации ожидания можно эффективно реализовать. Историко-литературное замечание. Алгоритмы, похожие на алгоритм максимизации ожидания, появлялись под разными названиями в решении разных задач построения оптимальных вероятностных моделей в 1950-60-е годы. Например, алгоритм Баума—Велша [3] для обучения марковских моделей является частным случаем алгоритма 2. В статье [15] было введено название «максимизация ожидания» ' , разделение алгоритма на шаги Е и М и продемонстрирована применимость алгоритма к любым пропущенным данным, а не только к вероятностным моделям специального вида. Удобная для исследования и обобщения формулировка алгоритма 1 появилась в работах 1980-х годов, а взята из статьи [44]. 2.3.3. Примеры обучения с помощью алгоритма ЕМ Самый популярный пример применения алгоритма 2 — оценка параметров гауссовой смеси. При этом моделируется только распределение вектора признаков х Е R , без ответов, к которым добавляется всегда неизвестный, фиктивный признак v с целочисленными значениями от 1 до к. Модель / имеет вид p(x,v\f) = PvNf^Sv)(x), v=l,...,k. B.16) Она определяется 2к положительными числами Pv и sv с соот- к ношением 2^ Pv = 1 и fc d-мерными векторами [iv. Априорная г/=1 плотность вероятности ро(/) модели / полагается равной 1, т.е. ' Под ожиданием понималось ожидание по старой модели логарифма правдоподобия новой (второе слагаемое формулы B.15)), а первое полагалось равным нулю.
2.3. Метод максимизации ожидания 89 вместо максимизации апостериорной вероятности модели производится максимизация правдоподобия. Если все векторы признаков Х{ полностью наблюдаемы, то шаг Е алгоритма 2 состоит в вычисление по модели / распределения wj всех ненаблюдаемых параметров, в данном случае всех фиктивных признаков Vi векторов обучающего набора, т. е. вычислении условных вероятностей P{j\xi, /} и выписывании остающегося от формулы B.15) при ро = I ожидания логарифма правдоподобия N к Q(f, /; z) = Ew/;u lnp( z, u|/') = ^2H pU\*i> /> Ьр(х» j\f) »=i j=\ Шаг М состоит в максимизации Q{f\ /; z) no /'. Этот пример легко обобщается на случай наличия пропущенных признаков в обучающем наборе. Чтобы избежать громоздких обозначений введем компактные, но нестандартные. Каждый вектор признаков х определяет разложение пространства признаков + X = Хх ф Хх в сумму пространства признаков, представленных в Х{ и пропущенных в нем. Это разложение естественно порождает разложение любого вектора \х Е X в прямую сумму /х = \хх © \ix, где + + -г + " /лх Е Хх и fix Е Хх. Обозначим также через dx и dx количество признаков, присутствующих и, соответственно, пропущенных в векторе х, а через #[//] = х ® /лх — вектор х, в котором пропущенные компоненты заменены на соответствующие компоненты вектора /х. Следующее предложение описывает основные этапы вычислений. Предложение 4 При применении алгоритма 2 для моделирования гауссовой смеси B.16) с пропущенными признаками в обучающем наборе к + ' ? РХ\ Й) 7=1 (Мхг8,) на шаге Е рыкп р{х,-щ]п к ЕрЙ,ЛЛ 1=1
90 Глава 2. Пропущенные данные и метод максимизации ожидания р(х{, Vi\xi9 f) = РЫхг, f}p(xi\xi, Vi, f) = P{vi\xi9 f}N Xt. (xi) u N k Г Q(f,f',h = Y2Yl / p(x*>^>Л 1пр(хь5\f)dxi = i=\ j=\ J = 2^ Z^ РЬкь /} In Pj - - In Bтг^) -J ; на шаге М тонка максимума Q no f = {Pu...,Pk,fiu...,nbsl,...,sk) задается равенствами гауссовой смеси при N , 1 ^—ч nf .,+ г=1 г=1 / г=1 лгр; •I + X) Pfe, /}(l№j] - /ЪН2 + <k,*j) / _ г=\ Sj ~ dNPj Доказательство представляет собой стандартное применение метода множителей Лагранжа и оставляется в качестве упражнения. Аналогично применяется алгоритм 2 и в более общем примере со стр.80 с распределением B.8)—B.10), в котором представлено все: и признаки, и ответы, в том числе пропущенные, и априорное распределение на пространстве распознавателей. Вычисление условных вероятностей Р{^|#ь 2/ь /} (или P{vi\xi,f}, если ответ jji не определен) и функции Q(f', /; z) требует интегрирования по пространствам XXi гауссовых плотностей общего вида, умноженных (для функции Q) на квадратичные функции от Х{, что легко
2.3. Метод максимизации ожидания 91 делается аналитически. Максимизация функции <2(/',/; z) no /' сводится к решению систем уравнений, получающихся дифференцированием по параметрам модели /' лагранжиана апостериорной вероятности B.7). Точка экстремума <3(/', /; z) единственна, является точкой глобального максимума и находится явно на нескольких последующих страницах. Чтобы выписать вычисления в хоть сколько-то обозримом виде, введем сокращенные обозначения. В общепринятых обозначениях любое разложение линейного пространства Z в прямую сумму Z = X@Y порождает соответствующие разложения для векторов (// = /jl\x © //|г, где \х ? Z, [х\х € X и /i|y E У), линейных форм (w = w\x © w\y, где для любого /х Е Z гюц — w\x[i\x + +w\yh\y) и квадратичных форм (А = А\хх © A\xy © Myx © А\уу, где для любых /i, г/ G Z А(ц, v) = A\Xx(lAx, Их) + ^1ху(^|х, Иг) + +^4|ух(м|у5 Их)+^1уу(д|у, Иг))- Для разложений пространства при- + знаков X — XXi ф Д^.. в соответствующих им разложениях векторов и форм индексы будем писать наверху и сокращенно: \х = /х ф /х, _ц _j ++г Н—г —|-г —г ги=г<;®,шиА = А Ф Аф Л ф4. Поднятие МФО квадратичной —г формы М (например, А ) с прямого слагаемого (соответственно, XXi) на все пространство, т.е. дополнение матрицы М строками и столбцами нулей, будем для краткости обозначать через М^. Такие же обозначения без индекса г будут относиться к разложениям пространства признаков X, порожденным произвольным вектором признаков х. Кроме того такие же обозначения будем применять для «расширенных» обучающих векторов Z{ = (#ь 2/г) и прочих векторов и матриц в пространстве Z = X х у, а также, для единообразия, в одномерном пространстве ответов у. Сперва приведем результаты вспомогательных вычислений для гауссовых плотностей, проверяемые непосредственно. Лемма 3. Для гауссова распределения N^a) на пространстве X — + = X ф X гауссовыми являются также плотности граничного распределения р(х) = / N(^A){x)dx = N +(х)
92 Глава 2. Пропущенные данные и метод максимизации ожидания и условных распределений р(х\х) = ——=N_ + -(ж), где А= (АГ1 -А'1 АА~{) , //(/х, А, х) = \х - АА'\х-%) и А = [А ) (обозначения А и А неравноправны/). Лемма 4. Ожидание по гауссову распределению Щ^А)(Х) линейной функции 1(х) равно 1(/л), а ожидание квадратичной функции R(x - и, х - v) I R(x - i/, ж - v)N(p9A)(x) dx = tr (RA~l) + R(v - //, v - /л). Напомним вероятностную модель B.8)—B.10): Р(х, У, v\f) = Pv N(^Av)(x) Nl{0il3)(wx + b - у)), Конкретно для нее сформулируем частный случай общего утверждения о произведении гауссианов Лемма 5. Nd{^A)(x) Nl@^}(wx + Ь - у) = Nd(+lB)(z), где В= (a-{®0+-(w®(-1))t(w®(-1))) , u = n®(wfi + b) и (напоминаем обозначения) z = х © у. При этом справедливо равенство \В\ =Р\А\. В дальнейшем для модели / будем использовать обозначения Vj и Bj ((d+ 1)-мерные) наряду с \ij и Aj (d-мерными) — где как удобнее. Введем также дополнительные сокращенные обозначения для зафиксированных модели и обучающего набора: — —г -+- уц — \x(vj, Bj, Zi) (применение леммы 3),
2.3. Метод максимизации ожидания 93 Рц = Р{3&,П = Р{з\Хг,Ш,П, X{j — %i[fAj\ = Xj ч) flj, Vij = yi[wXi[fJLj] +Ь], Zij = Xij Ш J/jji — \%ij> Vij)) w_{ = w0(-l) = (w, -1). Предложение 5 При применении шага алгоритма 2 для гребневой регрессии на гауссовой смеси с пропущенными данными в обучающем наборе на шаге Е PVN « $) Pi, = P{v\t /} = __-i^> f p(zj, v\zu f) = Pivp(zi\zi, v, /) = Pi„AT -; (zj), N k Г Q(f', /; z) = lnpo(/') + X1E/ V{zi,3\zi, f) \np(zi,j\f') dzi = i=\ j=i J . ЛГ A; = --AпBтга) + \\w\\2) + ^ E P^' где Iij = I p(zi\zi, j, /) Inp(zu j\f) dzi = . d In \A'A + In /?' 1 /-< --'.ч = In p; - - In Bтт) - J'2 - - tr (Bj(BJ)) + 1 "~г1 1 иа шаге М точка максимума Q no f = (P/,..., Pi n\,..., fi'k9 A\,..., A'k9 w', b\ /3')
94 Глава 2. Пропущенные данные и метод максимизации ожидания единственна и вычисляется явно: w и У получаются решением невырожденной системы линейных уравнений /о N k ,t. \ N к / / р W & + Е Е ра $\хх + *уЫт) ) + ь' Е Е ра(*а)Т = V i=\ j=\ ' i=l j=l TV jfe _.t = S E Pii (?i |л + уФи)т) ' t=l j=l N к N к N к w'YY paxa+ь' Y Y pv=Y Y риУч> i=\ j=\ i=\ j=\ i=l j=l а значения остальных параметров модели /' задаются равенствами 1 N PJ = ~n Y PiJ> N YL^jfaj+w^yij) i %=\ NPj N _.t Y Pii ((ж0' ~ Mj)(*y - n'jf + Bj |^J A — 1=1 3 dNPj N к P' = ~tr ((t«-i)Tti;-i ? E pa ((*« ~ »'№n ~ "J? + Ъ )) • i=l j=\ ДОКАЗАТЕЛЬСТВО (и исправление опечаток, которые наверняка есть), как и доказательство предложения 4, сводится к прямым вычислениям с помощью лемм 3-5 и оставляется в качестве упражнения. ¦ Напоминаем, что параметр а априорного распределения и число к методом максимизации ожидания не оцениваются. Их нужно подбирать внешним образом, например, с помощью кросс-валидации.
2.3. Метод максимизации ожидания 95 При распознавании вектора х, в котором нет пропущенных признаков, с помощью обученной модели /, от модели нужны только параметры w и Ь: ответ у = wx + fr, как и положено при линейной регрессии. Но распознавать можно и при пропусках признаков: тогда наиболее вероятный ответ y = ^c*\tf){wx + b) = b + w^(*\tf)x = k f = b + w^2Pj / xp(x\x, j, f) dx = k r = Ъ + У)У^ Pj I xN _ . - (x) dx = = b + W^2Pj(x @fJ,(lJLj,Aj, X)) = fc __-+ = 6 + wx + ги ^"^ Pj (/ij - Aj-AJl(x - /j,j)) (применялись леммы З и 4). Параметр /3 для распознавания не применяется; он оценивает среднеквадратичную ошибку ответа. 2.3.4. Сходимость алгоритма ЕМ Алгоритмы 1 и 2, вообще говоря, не останавливаются, так что на практике количество итераций в них нужно ограничивать принудительно. Как? Как ведут себя последовательность моделей у', получаемых на m-ом шаге итерации, последовательность логарифмов (плотностей) их апостериорных вероятностей L(/ , z)? Последствию 1 последовательность L{y , z) строго возрастает. Тогда при естественном предположении компактности множеств вида {f\L(f; z) > const} B.17) что обычно обеспечивается стремлением к нулю плотности априорной вероятности po(f) на бесконечности, функция L(-; z) имеет
96 Глава 2. Пропущенные данные и метод максимизации ожидания глобальный максимум, а последовательность L(ym , z) сходится (упражнение!). Но она может сходиться не к глобальному максимуму, а к локальному или даже к значению в какой-либо седло- вой точке функции ?(•; z). Множество троек (функция L(f; z), наблюдаемые параметры z, начальная модель /'°0, при которых L(y , z) сходится не к (локальному) максимуму, пренебрежимо мало (аккуратная формулировка и доказательство соответствующего утверждения весьма громоздки), а вот возможность сходимости к неглобальному максимуму — не пренебрежима. Сама последовательность моделей у\ даже в тех же предположениях о компактности множеств B.17) может и не сходиться. В статье [62] приводятся несколько вариантов дополнительных условий, при которых последовательность у' сходится. В частности, достаточно, чтобы у функции ?(•; z) не было седловых точек, точка максимума была единственна, а функция B.15) — непрерывно дифференцируема по первому аргументу [62, Corollary 1]. С практической точки зрения не так важно то, чтобы алгоритм ЕМ сошелся, как то, чтобы он не застрял в окрестности локального максимума или седловой точки функции L(-; z) со значением, заметно меньшим глобального максимума. Поэтому при отсутствии гарантий единственности максимума имеет смысл запускать параллельно несколько алгоритмов ЕМ с разными начальными моделями, останавливаться по каким-либо внешним оценкам моделей, например, при ухудшении распознавания тестового набора, независимого от обучающего, и выбирать из полученных моделей лучшую. Алгоритм ЕМ обладает всеми недостатками градиентного спуска, кроме двух: в нем не требуется вычислять производные оптимизируемой функции и не требуется подбирать длину шага. 2.3.5. Обобщения алгоритма ЕМ Алгоритм максимизации ожидания в формулировке последовательной максимизации (алгоритм 1) можно обобщить следующим образом: на каждом шаге Е и/или М не максимизировать значение функции Lw(/; z) поыипо/, соответственно, а только увеличивать ее значения. Такие обобщенные алгоритмы максимизации ожи-
2.3. Метод максимизации ожидания 97 даныя {generalized expectation maximization или GEM) не обязательно на каждой паре шагов увеличивают целевую функцию L(/; z), но могут обучать модели даже быстрее «честного» алгоритма ЕМ за счет более быстрых шагов обучения [44]. Недостижение максимума Lu(f; г) по / на шаге М на справедливость предложения 2 и следствия 1 и на рассуждения о сходимости алгоритма в разделе 2.3.4 вообще не влияет (оно влияет только на оценки скорости сходимости, все равно не приведенные). А недостижение максимума Ьш(/; г) по ш на шаге Е делает предложение 2 неприменимым, так что значение L(f; z) не обязано возрастать на каждом шаге. Но L^f; z) на каждом шаге возрастает, и алгоритм почти всегда сходится к локальному максимуму Luj(f\ z), а в точке локального максимума (J', /') предложение 2 применимо, так что Lu/(/'; z) = L(f'; z). Предложение 6 Если (J\ /') — точка локального (глобального) максимума Ьш(/; z), то /' является тонкой локального (соответственно, глобального) максимума L(f; z) ДОКАЗАТЕЛЬСТВО. Из условия непрерывности моделей р(х, у, v\f) по совокупности всех аргументов следует непрерывность отображения / н-> Wf (формула B.13)). Значит /' является точкой локального максимума функции / \-? LUf(f; z), но по предложению 2 LW/(/; z) = L(f; z). Для глобальных максимумов утверждение следует из предложения 2 автоматически, без каких либо условий типа непрерывности. ¦ Таким образом, обобщенные алгоритмы максимизации ожидания, как и необобщенный, почти всегда сходятся к точке локального максимума апостериорной вероятности модели, но, увы, только локального. В статье [44] предложено несколько вариантов обобщенного шага Е, которые, в предположении, что (обобщенный) шаг М вы-
98 Глава 2. Пропущенные данные и метод максимизации ожидания числяется быстрее шага Е, ускоряют сходимость алгоритма. Опишем один из них. Поскольку обучающие векторы предполагаются независимыми, вычисляемое на каждом шаге Е условное распределение B.13) / ч / |+ a P(z,u|/) p(z,u|/) p(z\f) [p(tu\f)du u N i=l _TT p{Zi,Ui\f) f UP(lui\f)dul...duN "fp&'ViWdui V »'_1 111 Щ..-UN l~X N = ПрЫъ,Л распадается в произведение распределений ш^(щ) = р{щ\ги /), то максимизацию Lw(f\ z) можно проводить только по распределениям вида N г=1 Но для таких распределений максимизируемое ожидание w(u) распадается в сумму, в которой каждое слагаемое зависит только от одного сомножителя и/ распределения и (кроме первого слагае-
2.3. Метод максимизации ожидания 99 мого, от и вообще не зависящего), слагаемые можно максимизировать независимо и максимум достигается в точке ш^(щ) = р(щ\гг9 /) (ср. с предложением 2). Максимизация по маломерному распределению (J намного дешевле, чем максимизация по всему многомерному распределению и/. Эта максимизация, т.е. вычисление условного распределения ненаблюдаемых параметров г-го обучающего объекта, и будет обобщенным шагом Е, а простейший способ организации последовательности шагов приведен в алгоритме 3. Алгоритм 3: Обобщенная максимизация ожидания (GEM); пример 1. Вход: обучающий набор Т= ((xuyx)9...9(xN9yN)), в котором некоторые признаки и/или ответы могут быть пропущены: z — вектор всех присутствующих значений. 2 . Выбрать пространство фиктивных признаков v, пространство моделей распределения вероятностей троек (х9 у9 v), априорное распределение р0 на пространстве моделей и начальную модель / = /0). 3. В цикле a) для г от 1 до N Е максимизировать (или хотя бы просто увеличить) Lu(f; z) по распределению а/ вектора щ всех ненаблюдаемых параметров г-ro обучающего объекта при фиксированной модели / и распределении остальных ненаблюдаемых параметров ; М максимизировать (или хотя бы просто увеличить) Lw(/; z) по / при фиксированном распределении о;; b) выйти из цикла, если модель / не изменилась. 4. Выход: порождающая модель /.
Глава 3 Цензурированные данные и анализ выживаемости В этом разделе приводится еще один пример применения вероятностных моделей, в частности, семипараметрических (параметрических по одним переменным и непараметрических по другим), для распознавания в сомнительных ситуациях с не вполне определенными данными. Он не задумывался как полноценное введение в анализ выживаемости, про который написано много толстых книг, например, [31]. 3.1. Постановка задачи анализа выживаемости и специфика терминологии Анализ выживаемости — это распознавание, в котором пространство ответов У имеет смысл времени, прошедшего после какого-то начального момента. Соответственно, ответ у в элементе (х, у) обучающего набора — это время жизни какого-либо объекта с вектором признаков х после какого-то момента (например, после измерения признаков). Цель распознавания состоит в том, чтобы научиться по вектору признаков вычислять типичное время жизни объекта с такими признаками, а еще лучше — научиться вычислять распределение условных вероятностей р(у\х). Реальные примеры: объектами могут быть атомы или изотопы, электрические лампочки или раковые больные. Время может быть непрерывным (У = R+, время жизни измеряют точно) или дискретным (У = Z+, время жизни измеряют
3.1. Постановка задачи анализа выживаемости 101 в днях); в обоих случаях к нему может быть еще добавлена точка оо, хотя, слегка упрощая некоторые формулировки, такое обозначение усложняет другие. Для случайной величины г) («времени жизни чего-либо») со значениями в у определена функция распределения F(t) = P{ri<t}. C.1) Для задач с непрерывным временем мы пока ограничимся дифференцируемыми функциями распределения, для которых определена плотность Для задач с дискретным временем всегда определены вероятности p(t) = F(t+l)-F(t). Возможность бесконечного времени жизни соответствует тому, что F(oo) может быть меньше 1. Вместо функции распределения F и плотности р при анализе выживаемости обычно применяют функцию выживаемости (survival function) S(t) = 1 - F(t) = Р{г) > t}9 C.2) равную вероятности выжить к моменту t, и риск (hazard) равный (плотности) вероятности погибнуть в момент t при условии, что до него дожили. Слово «плотность» в скобках — это единственное различие между случаями непрерывного и дискретного распределения . Легко видеть, что в непрерывном случае -(d/dt)S(t) d h{t)= s(t) =-JtlnS{t) ' В общем случае непрерывного времени, но не обязательно абсолютно непрерывного распределения, риск определяется как односторонний предел м*\ г Р{*<Ч<* + г} у S(t)-S(t + r) hit) = lim —7 г = lim —— 1 7 r\o tP{ti ^ t} т\о rS(t) в обобщенных функциях.
102 Глава 3. Цензурированные данные и анализ выживаемости t 5(<) = ехрГ- f h(r)dr\ C.4) о а при дискретном времени S(t)-S(t + l) S(t + l) h{t)=—щ—= "ей"* 5@) = 1 и t-\ S(t) = Yl(l-h(i)), C.5) так что по любой из функций р(-), F(), ?(•) и /i(-) остальные три однозначно восстанавливаются. В частности, риск h(-) может быть любой неотрицательной функцией, в случае дискретного времени не превосходящей 1, выживаемость S(-) — неотрицательной, начинающейся со значения 1 и монотонно невозрастающей, а условие 00 5(оо) = 0 равносильно расходимости интеграла / h(t) dt при 00 прерывном времени или ряда 2^ Нп) ПРИ дискретном. Замечание. В принятых обозначения, традиционных для русскоязычной математики, функции распределения C.1) и выживаемости C.2) непрерывны слева. Англоязычная традиция предпочитает непрерывные справа функции распределения F(t) = P{r) ^ t} и выживаемости S(t) = P{rj > t}, при прежней функции риска C.3). Некоторые вычисления в такой правонепрерывной системе определений получаются изящнее. Не переходя на нее полностью, будем пользоваться «функцией переживаемости» S>(t)= Р{т] > t} там, где это удобнее. Для множества из п объектов с разными функциями выживаемости {S\(t),..., Sn(t)} можно определить усредненную функцию выживаемости, S(t) равную математическому ожиданию доли объектов, выживших к моменту t: S(t) = I ? «.(*)¦ C-6) не-
3.1. Постановка задачи анализа выживаемости 103 Плотность p(t) и функция распределения F(t) получившегося «усредненного» объекта также равны средним арифметическим соответствующих функций индивидуальных объектов, а вот риск h(t) — нет. Примеры согласованных наборов функций р(-), F(-), ?(•) и h(-)\ Постоянный риск h(t) = h. Тогда S(t)=e~ht, F(t) = l-e-ht и p(t) = he-ht. Такое бывает при радиоактивном распаде в отсутствии внешнего излучения, выживаемость экспоненциально убывает и In 2 2 h — небезызвестный период полураспада. В отличие от периода полураспада, среднее время жизни равно 00 I tp{t)dt=1-. о Положительный ограниченный риск. S(t)=Ple-h]t+p2e-h2t (смесь двух нестабильных изотопов в пропорции р\ : р2, р\ Л-рг = 1). Тогда риск h(t) p{e-h]t _j_ p2e~h2t убывает от взвешенной суммы рисков p\h\ +Р2Л2 при t = 0 до минимума min(/ii, hj) при t -> ос. h Медленно убывающий риск h(t) = . Тогда Z ~т~ 1 (t+1)*' W (*+1)Л KW (t+l)*+r To есть, при любом степенном убывании плотности или функции выживаемости по времени риск убывает всего лишь обратно пропорционально времени.
104 Глава 3. Цензурированные данные и анализ выживаемости Быстро убывающий риск. S(t)=pe-ht + (l-p) (смесь нестабильного и стабильного изотопов в пропорции р : A -р). Тогда риск h(t) = I^t- г - ha fin -2— - ht] w pe~ht + (l-p) \ l-p ) экспоненциально убывает при t —>> ос. А 5(оо) = 1 - p > 0. Возрастающий риск h(t) = ht. Тогда S(t) = e-htl'\ F(t) = l-e-ht2/2 и p(t) = ht e"^2. Такое бывает при старении. Замечание. Первый и последний примеры являются частными случаями распределений Вейбулла, часто применяемых в анализе выживаемости — двухпараметрического семейства распределений с параметрами к, А > 0 и ktk~l ь F«(t)=l-e-^, Рм(«)=^е-<^. Замечание. В примерах со смесями изотопов риск на самом деле зависит не от времени, а от признаков объектов (например, атомарных весов), если только они известны... 3.2. Цензурированные данные Обучающие данные для анализа выживаемости, как правило, являются неполноценными с точки зрения статистического обучения: для многих объектов значение ответа — то самое, которое нужно научиться предсказывать — неизвестно, а известны только некоторые соображения про этот ответ. Как правило, эти соображения задаются неравенствами. Такие данные называются цензури- рованными {censored data). При анализе выживаемости чаще всего встречается цензурирование справа, то есть знание, что время жизни
3.2. Цензурированные данные 105 объекта не менее чего-то. Например, лампочка не сгорела до конца всех испытаний или больной выписался из больницы и уехал, а что с ними было дальше — неизвестно. Далее речь будет идти только про цензурирование справа2'. Формализуется цензурирование обучающего набора следующим образом. Обучающий набор Т — {(x\9t\9 6\),..., (хдг, *дг, 0n)) состоит из троек следующего вида: вектор признаков Xi Е X, время U ? У и признак цензурированности в{ ? {0, 1}, объясняющий, что это за время. При 0{ = О (цензурирования нет) U — это время жизни yi г-го объекта, а при 0* = 1 (цензурирование есть) U — это время наблюдения за г-м объектом, а время его жизни yi больше U. Аналогично устроен и тестовый набор. При 0{ = О говорят, что в момент ti произошло событие, а именно, смерть г-го объекта, а при 6i = \ никакого события с г-м объектом в момент ti не происходит. Практически всегда предполагается, хотя обычно про это забывают напомнить, что цензурирование в не зависит от времени жизни у при каждом фиксированном х. Формально это означает, что каждый объект имеет вектор признаков х, время жизни у и время наблюдения за ним z (возможно, бесконечное), причем тройки (х, у, z) G X х у х у считаются реализациями независимых случайных величин с одинаковым (неизвестным) распределением, таким, что условные распределения р(у\х) и p(z\x) независимы при всех х. Но из двух времен у и z наблюдается только минимум t = min(y, z) и признак в, того, что время цензурирования z строго меньше времени жизни у. Неформально, чтобы обеспечить независимость цензурирования от времени жизни, нельзя прекращать испытание живучести электрической лампочки потому, что из нее идет (или не идет) дым, но можно прекращать из-за независимых событий, например, протечки потолка. В медицине же часто поступают наоборот: наблюдение за пациентом прекращается при заметном улучшении его состояния. Далее везде предполагается независимость цензурирования от времени жизни. ' Кроме цензурирования бывает еще усечение {truncated data) — невозможность измерить признаки и даже определить наличие или отсутствие объектов со слишком большим или слишком маленьким временем жизни.
106 Глава 3. Цензурированные данные и анализ выживаемости Кроме специфического для анализа выживаемости цензурирования времени жизни объектов возможно еще и неполное знание их признаков. Про какие-то из признаков объекта могут быть известны не значения, а только ограничения на их возможные значения, или даже вообще ничего. Такие данные называются не цензури- рованными, а пропущенными (missing data). Они были подробно рассмотрены в разделе 2, а при дальнейшем обсуждении анализа выживаемости рассматриваться не будут. 3.3. Параметрические оценки выживаемости Предположим, что имеется конечномерное семейство V распределений (моделей) 7г, зависящих от векторов признаков, и априорное распределение вероятностей на нем. Тогда, в принципе, на обучающем наборе с цензурированными данными можно обучать модель всеми описанными в разделе 1.2.4 методами: байесовским, максимизацией апостериорной вероятности и максимизацией правдоподобия. Отличие цензурированного случая состоит в том, что правдоподобие модели, т. е. условная вероятность обучающего набора Т — ((x\,t\9 6\),..., (xn, tN, в^)) при этой модели, выражается не простой формулой A.18), в которую входят только значения плотностей распределения в точках обучающего набора, а более сложной р(Г|тг)= П pAUlxi) П #№*). C.7) г\вг=0 i\0i = \ Если моделируемая функция выживаемости непрерывна, то S>(-\x) = Sv(-\x) и правдоподобие удобнее выражается через функции выживаемости C.2) и риска C.3) N р(Т\тт)= Y\ pn(ti\xi) Y\ Sn(ti\xi)= Д KiUlx^YlSAUlxi). i\0i=0 г\вг = \ г\вг=0 i=\ C.8)
3.3. Параметрические оценки выживаемости 107 Наличие цензурирования приводит к тому, что при сколько- нибудь сложных моделях не только байесовское обучение, но и максимизация правдоподобия становятся слишком сложны вычислительно. Действительно, функция выживаемости S связана соотношениями C.4) или C.5) со значениями функции риска h на интервалах времени, и если она не вычисляется аналитически, максимизировать произведение C.8) нелегко. Приведем простой пример, когда функция выживаемости вычисляется аналитически и обучение максимизацией правдоподобия или апостериорной вероятности вполне возможно. Рассмотрим пространство моделей с риском h^(t\x) = r^x), зависящем от признаков, но не от времени. Для таких моделей S(t\x) — е~г^х'г и правдоподобие N Р(Г|7Г) = П K(ti\Xi) ПЗДЯг) = г|0г=О г=1 = ( П Г*(Х^ ) еХР ( ~ ]С ГЛХг)и ) • \\вг=0 ' ^ г=1 ' Для примера ограничимся моделями с евклидовым пространством признаков, риском, равным экспоненте от линейной функ- / \ wx+b ции rWtb(x) = e , и априорным распределением с плотностью вида Ро(м) = е , например, гауссовой или лапласовой. Тогда эквивалентная максимизации апостериорной вероятности минимизация минус логарифма совместной вероятности р(Т, w, b) выглядит так: lnp(T, w9 Ь) = <ip(w) + V (@{ - l)(wxi +b) + UeWXi+b) -> min . i=\ C-9) В минимизируемой сумме зависящие от обучающего набора слагаемые дифференцируемы и выпуклы по параметрам модели (w, Ь), и обучение можно проводить любыми методами выпуклой оптимизации. После того, как модель (w, b) обучена, прогнозируемая вероятность дожить до момента t для объекта с вектором признаков х равна S(t\x) = e~te .
108 Глава 3. Цензурированные данные и анализ выживаемости Но в реальных задачах построить семейство простых (аналитически интегрируемых по времени) и адекватных моделей удается редко. В анализе выживаемости более распространены непараметрические и семипараметрические модели, в которых про зависимость выживаемости от времени ничего не предполагается. Такие модели рассматриваются в последующих разделах. 3.4. Оценка Каплана—Майера В этом разделе речь идет не о распознавании выживаемости индивидуальных объектов, а только об оценке усредненной выживаемости C.6). Соответственно, в обучающем наборе Т векторы признаков Х{ полностью игнорируются. Сначала для разминки рассматривается оценка выживаемости по нецензурированным данным, после чего она обобщается на цензурированные. В отсутствии цензурирования, задача, как оценить функцию распределения вещественнозначной случайной величины г по набору Г из п ее независимых реализаций t\,..., ?п, была решена в 1930-е годы. Ответ: функция распределения F(t) приближается кусочно- постоянной функцией Fn(t) = ~Hi\U < t}. п Казалось бы, это получается очевидным применением закона больших чисел (сходимость частоты к вероятности) ко всем событиям вида т < t одновременно. Но для бесконечного числа возможных событий буквальное применение закона больших чисел некорректно. Точное утверждение (теорема Глшенко—Кантелли [11,18], доказанная авторами независимо и опубликованная в одном и том же номере журнала) состоит в том, что последовательность Fn при п —> оо сходится к F по вероятности }. Соответственно, и функция выживаемости S(t) приближается ступенчатой функцией Sn(t) = -#{i|«» > t]. То есть, V б > 0 lim P{ sup \Fn(t) - F(t)\ > е\ = 0. гс->°о tern
3.4. Оценка Каплана—Майера 109 Скачки этой функции происходят только в моменты событий U. Функцию выживаемости можно вычислять не только суммированием по обучающему набору, но и перемножением слева направо: 5@) = 1 C.10) C.11) Формула C.11) верна при любом положительном е, но интересна только при малых е и моментах времени t, в которые что-то случалось, т.е. равных U при некотором г. Пусть fy) < ... < t(j) < ... < Цт) — упорядоченные по возрастанию времена событий {^, г = 1,... ,n}, Vj= #{i\U — t^} — их кратности и pj = #{i\U > t(j)}- Тогда оценка выживаемости S пред- ставима в виде произведения При наличии цензурирования оценка функции выживаемости по набору Т= ((ti,^i),.. -,(tn,0n)) цензурированных значений случайной величины не столь очевидна, как для нецензурированных. Оценка, предложенная Эдвардом Капланом и Полом Майером в их совместной работе [29] и с тех пор широко используемая 4*, состоит в небольшой модификации формул пересчета C.10, 3.11). А именно функция выживаемости тоже оценивается невозрастающей ступенчатой функцией, равной 1 в 0 и имеющей скачки только в те моменты, в которые происходит нецензурированное (!) событие (одно или несколько одновременно): 5@) = 1 C.13) sS(t + e) = 5(^1 ^^ у C.14) ' В статье [29] рассматривалось несколько разных оценок выживаемости. Широкую известность и имя Каплана—Майера получила оценка, называемая product limit (предел произведений), в качестве первоисточника которой указывалась малоизвестная работа [9] 1912 года.
110 Глава 3. Цензурированные данные и анализ выживаемости В отличие от нецензурированного случая, в формуле C.14) число е должно быть столь мало, чтобы на открытом интервале времени (t, t + e) либо не было случаев цензурирования, либо не было не- цензурированных событий (и тогда S(t + е) — S(t)). Знаки строгих и нестрогих неравенств подобраны так, что на случай дискретного времени оценки переносятся без малейших изменений (годится б=1). Для цензурированного набора Т обозначим через *(!)<...< < t(j) < ... < t(m) упорядоченные по возрастанию моменты событий {U\Qi = 0}, через v3; = #{г|0» = 0, U = t^} — кратности событий, но, как и в нецензурированном случае, через pj = #{i\U > t^} — количество всех наблюдаемых (включая умирающих) в момент Ц$ объектов. В таких обозначениях оценка Каплана—Майера задается той же самой формулой 5(f) -Д ('-?)• <3|5> j\4j)<t x Pj что и оценка выживаемости C.12) в отсутствии цензурирования. В статье [29] утверждается сходимость по вероятности оценок C.15) с цензурированными данными к настоящей функции выживаемости (обобщение теоремы Гливенко—Кантелли), но доказательство не приводится. Зато оценка C.15) довольно легко выводится из соображений максимизации правдоподобия. Теорема 2. Для цензурированного обучающего набора Т распределение с выживаемостью Каплана—Майера C.15) имеет наибольшее правдоподобие в классе всех вероятностных распределений. Замечание. Единственность наиболее правдоподобного распределения в теореме не утверждается. ДОКАЗАТЕЛЬСТВО. Нужно было бы уточнить, что такое правдоподобие любого распределения при непрерывном времени. Действительно, выше рассматривались только либо распределения с дискретным временем, и правдоподобие было равно вероятности увидеть то, что увидели (т.е. обучающий набор), либо абсолютно непрерывные распределения, и правдоподобие C.7), C.8) равнялось плотности вероятности обучающего набора. Но вместо занудного
3.4. Оценка Каплана—Майера 111 честного обобщения правдоподобия на любые распределения мы дискретизируем непрерывное время с малым шагом б, настолько малым, чтобы несовпадающие по времени точки обучающего набора не совпали, максимизируем получающееся при дискретизации в-правдоподобие, докажем теорему, а затем устремим е к нулю. Для распределения с функцией выживаемости S вероятность цензурированного объекта (U, 1) равна S>(ti), а вероятность нецен- зурированного объекта (^, 0) равна S(ti) - S>(ti). Значит е-правдоподобие распределения, равное вероятности всего обучающего набора Г, LT,e(S) = Pe{T\S} = Yl (SM-S^U)) П 5>(**)' (ЗЛ6) %\0i=0 i\9i=l Функцией выживаемости S может быть любая (при непрерывном времени — непрерывная слева, но сейчас время дискретно) неотрицательная монотонно невозрастающая функция, равная 1 в нуле. Пусть Sj = S>(t^) = S(t^ + e) — значение функции выживаемости в момент времени, следующий за j-м по порядку событием, a So = 1. Тогда при фиксированных Sj увеличение значений S(t) в остальные моменты времени может только увеличить Lt,€(S) . Единственное ограничение на возможность увеличения функции выживаемости — сохранение ее монотонности, значит максимум правдоподобия можно искать только среди ступенчатых функций вида {S0 = 1 ПРИ t^t(i), Sj при ty) < t ^ fy+i), j < га, Sm При t(m) < t. Для таких функций выживаемости б-правдоподобие C.16) удобно переписать в виде произведения «слева направо» по времени ^-п(.„-.^—-пО-^) Ш • C.18) где для удобства введено обозначение рт+\ = 0. В последнем произведении каждый сомножитель можно максимизировать по отношению Sj/sj-\ независимо. В точке максимума ? получается C.17)
112 Глава 3. Цензурированные данные и анализ выживаемости Sj Pj — Vj , ч , zr— = (упражнение), а значит при к ^ га, Sj-x Pj к Для дискретного (или искусственно дискретизированного) времени получена оценка выживаемости C.17), C.19), совпадающая с оценкой Каплана—Майера C.15). Для непрерывного времени нужно еще устремить е к нулю, что не требует никаких усилий, поскольку буква б была предусмотрительно потеряна в обозначениях, а значения ?& от с не зависят. ¦ Замечание. Неединственность наиболее правдоподобного распределения имеет место при sm > О, т. е. когда после последней зарегистрированной смерти еще остаются выжившие объекты. Тогда при t > t(m) выживаемость S(t) может быть и меньше sm — б-правдоподобие C.16) от этого не изменится. Замечание. Как обычно бывает с наиболее правдоподобными оценками, оценка Каплана—Майера, обладая замечательными асимптотическими свойствами при росте обучающих наборов, далека от идеала при малых обучающих наборах: она объявляет невозможным то, чему ее не учили. Например, из нее следует, что вероятность Р{0 ^ t < t^)} смерти тестового объекта до момента первой смерти в обучающем наборе равна 0. 3.5. Модель Кокса Вернемся к задаче распознавания выживаемости, когда нужно оценить время жизни у объекта по вектору х его признаков. Если имеется нецензурированный обучающий набор, то для любой гипотезы о плотности распределения р(у\х) из какого-то пространства допустимых гипотез (или, что эквивалентно, любой гипотезы о функции распределения F(y\x), выживаемости S(y\x) или риске h(y\x)) можно (теоретически...) посчитать ее правдоподобие и обучить распознаватель методом максимизиции правдоподобия, максимизации апостериорной вероятности или байесовским. Если
3.5. Модель Кокса 113 обучающий набор цензурирован ;, то можно обучать распознаватель точно теми же методами, только вычисления становятся еще намного сложнее. Например, правдоподобие вероятностной модели, т. е. плотность вероятности наблюдаемых ответов на обучающем наборе Г при условии признаков X, выраженное через функции риска, равно (см. C.8)) п р(Г|Х)= П S(U\Xi) IJ p(U\xi) = l[S(U\xi) П h(U\xi) i\0i = l 1\6{=0 i=\ Щ=0 = exp I ~^2 / h(T\xi)dT) П h(U\xi) (все обучающие векторы и цензурирование независимы). Но в процессе обучения распознавателя придется решать интегральные уравнения, что трудоемко. В работе Дэвида Кокса [14] предложено некоторое ограничение на допустимые гипотезы (модель пропорционального риска) и некоторая замена правдоподобия (частичное правдоподобие), при которых обучение распознавателя на цензурированных данных происходит не намного сложнее, чем на нецензурированных. Этот подход стал так популярен, что модель пропорционального риска называют моделью Кокса, а метод обучения — регрессией Кокса. 3.5.1. Пропорциональный риск Модель Кокса {модель пропорционального риска, proportional hazard model) состоит в предположении, что риск h(t\x) распадается в произведение h(t\x) = q(t)r(x). C.20) Разложение C.20) неоднозначно: функцию q можно поделить на любую константу, а функцию г умножить на нее же. В терминах функции выживаемости модель Кокса равносильна существованию ' Здесь и далее предполагается независимость цензурирования не только от времени жизни 2/, как в разделе 3.2, но от пары (ж, у). В реальных же задачах цензурирование может оказаться зависящим от вектора признаков х.
114 Глава 3. Цензурированные данные и анализ выживаемости разложения S(t\x) = №)fx), C.21) причем Q(t) — это в точности функция выживаемости, соответствующая риску q(t): t Q(t) = exp(- f q(r)dr\ о В терминах плотности или функции распределения модель Кокса выглядит менее изящно. Замечание. В работе Кокса [14] предлагается чуть-чуть другая модель. Вместо риска h(')=P{0*} (формула C.3)) берется функция h{t) = pi^r} и для нее предполагается существование разложения, аналогичного C.20): ti(t\x) = q(t)r(x). C.22) Для непрерывных распределений с непрерывным временем модели C.20) и C.22) совпадают, а для дискретного времени модель C.22) превращается в h(t\x) q(t) 1 - h(t\x) 1 - q(t) r(x). C.23) 3.5.2. Частичное правдоподобие Идея Кокса состоит в том, чтобы обучать зависящую от признаков функцию г, ничего не предполагая про зависящую от времени #, которую потом оценивать непараметрически аналогично оценке Каплана—Майера. Для этого при обучении модели вместо правдоподобия (плотности вероятности увидеть то, что увидели, с точки зрения данной модели) можно использовать «частичное правдоподобие» (partial likelihood): (плотность) вероятности наблюдать именно такие события с точки зрения данной модели при условии, что времена и количества событий (смертей) такие, какие
3.5. Модель Кокса 115 они есть. Информация о том, что происходит в остальное время, например, какие цензурированные объекты сколь долго наблюдались между событиями или после последнего события, частичным правдоподобием не учитывается. Впрочем, как было показано в доказательстве теоремы 2, наиболее правдоподобно, что в остальное время ничего не происходит. К введенным на стр. ПО обозначениям ?у), Vj и pj добавим обозначения Nj = {i\9i = О, U = t^} и Rj = {г\и ^ t^)} для множеств объектов, умерших в момент Ц^ и не умерших до него, соответственно, и R0 — {1,..., п}. Естественно, Vj — #Nj и pj = #Rj. Обозначим через X — (хь ..., хп) набор всех векторов признаков, через Х^ набор векторов признаков подмножества А С {1,..., п}, а через Y = ((t(i), ^i),..., (?(m)> vm)) набор времен и количеств смертей в обучающем наборе Т. В обозначениях X и Y преднамеренно отсутствует имеющееся в Т знание о времени смерти или цензурирования каждого объекта. Тогда в стандартных предположениях независимости обучающих векторов и независимости цензурирования от ответов и признаков частичное правдоподобие р распознавателя / (модели условных распределений p(t\x), а значит и функций выживаемости S(t\x), рисков h(t\x) и всего прочего) равно m m р'(Т\Х, Y, /) = Ц р(ВД, X, Y, /) = IJр(ВД, XRj, tU), Vj, /) = =п Y[p(ti\xi) JJ S(ti\xi) i€Nj ieRj\Nj У Л Цр&м П s(u\xi)~ MCRj I #M-Vj i€M i€Rj\M TT h(U\xi) _ тпг *Щ MCRj | #M=i/j г€М т. е. удобно выражается именно через риски. Для модели пропорционального риска C.20) все зависящие от времени сомножители
116 Глава 3. Цензурированные данные и анализ выживаемости ч{Уг) сокращаются, и частичное правдоподобие равно Пфо i=i 2^ 11ФО МСЩ | *M=Vj i€M Если в обучающем наборе одновременных смертей нет, то вычисление частичного правдоподобия C.24) упрощается до P'(T\x,Y,r)= П ^уТ (з-25) Общественная практика состоит в том, чтобы в задачах с непрерывным временем всегда вычислять частичное правдоподобие именно по формуле общего положения C.25), даже тогда, когда она противоречит точной формуле C.24). 3.5.3. Обучение зависимости от признаков Для обучения модели Кокса нужно определить более конкретное пространство допустимых (всюду неотрицательных) функций риска г и, если нужно, априорное распределение вероятностей на нем. Чаще всего ограничиваются экспонентами от линейных однородных функций от векторов признаков ' r(x) = ewx, C.26) не имеющими, заметим, ничего общего с экспоненциальным же убыванием выживаемости по времени при постоянном риске. Получающаяся функция частичного правдоподобия о; Совершенно аналогично можно обучать модель Кокса в пространстве экспонент от линейных функций не от самих векторов признаков ж, а от наборов базисных функций от признаков, например, задаваемых ядрами. Свободный член в линейной функции не нужен из-за инвариантности модели пропорционального риска C.20) относительно одновременного умножения сомножителя г и деления q на положительное число. C.24)
3.5. Модель Кокса 117 л-r eWXj ,/(Г|Х,?,и,)=П^Г^ C.27) i\ti^tj (для непрерывного времени) уже вполне приемлема для максимизации и прочих вычислений, оптимизирующих параметр w. Удобнее, как обычно, проводить вычисления в терминах минус логарифма частичного правдоподобия. Тогда, например, максимизация апостериорной «частичной» вероятности будет записываться в виде L(w\T) = ij)(w) + ^2 (ln S ^ " wxi) ~* ™п' C28) где xj){w) = - log p(w) — минус логарифм плотности априорной вероятности параметра w, a L(w\T) — минус логарифм плотности апостериорной вероятности. От традиционного обучения распознавателей обучение модели Кокса отличается тем, что сумма в формуле C.28) не распадается в сумму слагаемых (ошибок) по отдельным обучающим векторам. Но многим численным методам оптимизации это безразлично. Зато при выпуклой функции ф минимизационная задача C.28) строго выпукла по w, так что минимум единственен и глобален. Упражнение. Докажите, что вторые производные суммы Win 5>--«*Л j\0j=O V i\U^tj ' по любому направлению w положительны. В частности, для обучения модели Кокса успешно применяется метод лассо, т. е. ip(w) = e\\w\\\, и получающиеся решения разрежены по признакам, см. [54]. 3.5.4. Обучение зависимости от времени После того, как зависимость риска в модели Кокса C.20) от признаков г(х) как-то оценена, его зависимость от времени q(t) можно оценивать, например, максимизацией правдоподобия, (уже
118 Глава 3. Цензурированные данные и анализ выживаемости настоящего, а не частичного). Получение этой оценки очень похоже на вывод оценки Каплана—Майера (доказательство теоремы 2), поэтому совпадающие технические подробности будем опускать. Как и в доказательстве теоремы 2 «базовая» функция выживаемости Q получается непрерывной слева монотонно невозрас- тающей ступенчатой функцией со скачками в моменты событий t(\) < ... < t{rn), а при ее оценке время дискретизируется с шагом е. Введем обозначения Qq = Q@) — 1, Q3; — Q(t(j) + e) при малом б > 0. Тогда, перегруппировав обучающие объекты по возрастанию времени их наблюдения (до смерти или цензурирования), получаем правдоподобие P(T\r,Q) = = П П (SDj)\xi) - S(tU) + fa)) П S(t{J) + *\*i) i=l 1гЩ ieRj\{Rj+]UNj) = П П ((^--)r(Xi) - (Qj)r(Xi)) П «w™ m ieRjMRj+iUNj) Его максимизация равносильна независимой максимизации по отношению qj — Qj/Qj-\ каждого (j-ro) сомножителя: ПО "О П 9?Xi>^max. C.29) Приравнивая нулю производную этого сомножителя по qj (и игнорируя случай q3-, = 0), получаем уравнение Y, Лгх\Хг) = S>fo)- i€Nj 1 C.30) i?Rj Упражнение. Проверьте, что решение уравнения C.30) в точности является решением оптимизационной задачи C.29). Уравнение C.30), вообще говоря, неразрешимо аналитически, но его левая часть строго монотонна по qj, так что оно имеет
3.5. Модель Кокса 119 единственное решение и легко решается численно. После того, как все т отношений qj вычислены, вычисляются и высоты ступенек Qs = П * базовой функции выживаемости Q. Если предположить, что все события некратны, т. е. все множества Nj одноэлементны, Nj = {ij}9 то уравнение C.30) решается явно: г€Я,- и базовая функция выживаемости Q обученной модели Кокса тоже выписывается явно: / ( \ \ l/r{Xi) ««>= п 0-у^Ь ¦ <з-32) Часто вместо точных формул C.31) и C.32) пользуются их приближениями: Фь) 1 qj = ехр Фъ) In 1- Х^Фг) ieRj 1 ехр - Ег(ж<)> C.33) г€Я7 верным при ФО < Х^ф*)> ieRj т. е. далеко не всегда, и Q(t) « ехр Е t|0i=O & tj<t ^ r\xk) , C.34) соответственно.
120 Глава 3. Цензурированные данные и анализ выживаемости 3.5.5. Прогнозирование Суммируем результаты, полученные для регрессии Кокса. После того как обучена зависимость модели C.20, 3.26) от признаков (раздел 3.5.3), т.е. оценена линейная функция w, для прогнозирования выживаемости S(t\x) объекта с вектором признаков х нужно в формулу C.21) подставить результат обучения зависимости риска от признаков C.26) и более или менее точную оценку базовой выживаемости (раздел 3.5.4). Например, для ситуации общего положения при непрерывном времени с самой грубой приближенной оценкой C.34) получится S(t\x)*exp 1-е™ Y1 V i\$i=0 & U а с более точной оценкой C.32) — S(t\x)= П I1" 1 <t Е gWXk w(x-Xi) E еги(хк-х{) Замечание. Можно обучать зависимость модели Кокса от признаков (вектор w) и оценивать зависимость риска от времени на разных обучающих наборах. Это имеет смысл, когда природа изучаемых объектов не меняется со временем, а базовая выживаемость Q зависит от меняющихся со временем факторов, например, от погоды.
Глава 4 Анализ последовательностей; марковские модели Во всех предыдущих разделах статистическое обучение (чаще всего, обучение распознаванию, изредка — кластеризации, поиску выбросов и др.) рассматривалось в предположении, что признаки объектов принадлежат фиксированному пространству X, обычно конечномерному евклидову, т. е. признаки — это векторы фиксированной размерности. Однако во многих реальных задачах и даже в большинстве примеров задач, приведенных во введении (стр. 8) фиксация размерности пространства признаков либо не вполне естественна, как при узнавании картинок и распознавании букв или голосовых команд, либо вообще нереальна, как при распознавании рукописных текстов или речи. Более естественным для таких задач является представление изучаемых объектов в виде структурированного набора, состоящего из не фиксированного заранее числа «элементарных» объектов, которые в свою очередь уже кодируются конечномерными векторами. Например, • изображения можно представлять в виде матрицы точек, каждая из которых кодируется своим цветом, например, тремя числами для цветных изображений или одним битом для черно-белых; • изображения можно также представлять в виде матрицы квадратиков фиксированного размера, каждый из которых имеет фиксированный набор как-то вычисленных характеристик (средний цвет, текстура и т. п.) или результат кластеризации или классификации по этим характеристикам (лес, вода, трава, асфальт и т. п. на аэрофотоснимке);
122 Глава 4. Анализ последовательностей; марковские модели • звуковой сигнал можно представлять в виде последовательности векторов спектральных характеристик, замеренных в последовательных временных окнах фиксированной длительности; • рукописный текст можно представлять в виде последовательности букв или палочек и кружочков, составляющих буквы; • рукописный текст можно также представлять в виде последовательности слов, являющихся последовательностями букв, или последовательности строк, являющихся последовательностями слов или букв; • данные для типичной задачи экономического или финансового прогнозирования — это фиксированный набор величин, измеряемых регулярно (ежедневно, ежемесячно, и т. п.) на протяжении некоторого не фиксированного времени. Далее в этом разделе рассматривается анализ данных, предста- вимых в виде последовательностей чего-то более простого: конеч- нозначных величин, конечномерных векторов или чего-то более сложного, но уже поддающегося классификации или кластеризации. Анализ изображений рассматривается (в очень ограниченном объеме) в разделе 5. Будем обозначать через Хуш^ последовательность векторов признаков (хш, ...,хп), через У[т,п] последовательность ответов (у™, ...,1/п)ит.п. Как правило, индексы элементов последовательности будут начинаться с 1. В качестве обучающего набора обычно будет использоваться последовательность последовательностей вида X = (Хь ..., Xjv) = (Xi[i>n,],..., XN[\^N]), возможно, совместно с некоторым набором ответов Y. j-й элемент г-й последовательности будем обозначать х^ = (Хф>п.]);-. 4.1. Задачи статистического анализа последовательностей Напомним, что в общей постановке задачи распознавания (раздел 1.1.4) был задан обучающий набор Т = ((#ь j/i),..., (х^, Vn)) пар, состоящих из векторов признаков Х{ и ответов уг и нужно было научиться по заданному вектору признаков ж, не принадлежащему
4.1. Задачи статистического анализа последовательностей 123 обучающему набору, разумно предсказывать ответ j/, а еще лучше — оценивать условные вероятности р(у\х). При этом пары признаки- ответ предполагались независимыми реализациями одной и той же случайной величины с неизвестным распределением. Кроме того в разделе 1.3 упоминались задачи кластеризации, оценки плотности и обнаружения выбросов, в которых ответы отсутствовали, а вся деятельность происходила в пространстве признаков. При анализе последовательностей можно ставить и решать все те же задачи, а также еще некоторые, специфичные для последовательностей. В частности, Прогнозирование. По последовательности -Х^ць] предсказать следующий элемент хь+\ или оценить условное распределение р(хь+\ \х\, ..., Xk). В зависимости от пространства значений признаков х\ — дискретного или векторного — получается задача классификации (в случае оценки распределения ответов — логистической регрессии) или (многомерной) регрессии, соответственно. Например, последовательность может состоять из нулей и единиц и Х{ — 1 означает, что в г-ю минуту (или час, или день) от начала наблюдений некоторый гейзер извергался, а ж» = 0 — что молчал. Восстановление порождающей последовательности той же длины. Имеется обучающий набор последовательностей векторов признаков X = (Xijijfcj],... ,Х^[1,А;дг]) и набор последовательностей соответствующих им ответов Y = (Уц^,],..., Yjvji,^]). Нужно научиться по любой последовательности векторов признаков Х\\д находить разумную последовательность ответов У[\д. От распознавания отдельных элементов последовательности эта задача отличается тем, что пары (xi, yi) и в обучающих, и в распознаваемых последовательностях не предполагаются независимыми. Например, при распознавании рукописного текста, вписанного посимвольно в клеточки разграфленного бланка, Х{ — это как-то закодированное изображение в г-й клеточке, а у{ — код соответствующего символа. Восстановление порождающей последовательности несколько другой длины. Задача и обучающие данные такие же, как и в предыдущем пункте, только длины последовательностей ответов могут отличаться от длин соответствующих им последовательностей векторов признаков. Например, так устроено распознавание печатного текста,
124 Глава 4. Анализ последовательностей; марковские модели литеры которого в клеточки не вписаны, а разделяются программой сегментации, которая, может ошибаться, объединяя лигатуру «ffi» в один символ или разделяя букву «ы» на два. Классификация последовательностей. Имеется обучающий набор последовательностей векторов признаков X = (Хф^],..., Xjyji,^]) и набор соответствующих им ответов Y = (у\9..., ум), не являющихся последовательностями или являющихся, но не рассматриваемых как таковые. Нужно научиться по любой последовательности векторов признаков Х[\9щ находить наиболее подходящий ответ из присутствовавших в обучающем наборе (т. е. классифицировать последовательность). Например, при распознавании рукописного ввода непосредственно в компьютер с помощью пера (графического планшета), векторы признаков могут кодировать последовательные сплайны траектории пера, а ответы — либо отдельные буквы, либо слитно написанные слова. Или при распознавании речи векторы признаков могут кодировать спектр звукового сигнала в последовательных временных окнах, а ответы — произносимые слова. Сегментация с классификацией сегментов. Обучающие данные такие же, как и в предыдущем пункте, т. е. «короткие» последовательности признаков, соответствующие ответам из фиксированного набора. Нужно научиться любую «длинную» последовательность векторов признаков Х[\д разумным образом разбивать на сегменты -Xjijb,], X[jfcl+ijfe2],..., X[kl_l+itk] и находить соответствующую последовательность ответов У[1,/]. Например, таковы задачи распознавания слитной речи при обучении на отдельных словах или словосочетаниях и распознавания слитного рукописного текста при обучении на отдельных буквах. Приведенные примеры задач сразу наводят на следующие соображения. • В задаче про прогноз извержений гейзера чего-то важного не хватает. Гейзер — это некоторая система сообщающихся сосудов с подогревом и извергается ли гейзер зависит не непосредственно от того, извергался ли он минуту или две минуты назад, а от того, где и сколько воды кипит под землей сию минуту. А вот это уже зависит от того, где сколько кипело под землей минуту (и две, и три, и более) назад, и довольно слабо
4.2. Вероятностные модели последовательностей 125 зависит от того, что происходило на поверхности. То есть, наряду с простыми наблюдаемыми величинами на самом деле имеются неизвестно как устроенные ненаблюдаемые. • В задачах про восстановление последовательности ответов по последовательности векторов признаков (почти) такой же длины возникает желание сначала обучить поэлементный распознаватель (в приведенном примере — распознаватель отдельных символов), восстанавливающий отдельный ответ по отдельному вектору признаков, а потом надстраивать над ним нечто, учитывающее взаимозависимость элементов. Далее в разделе 4.3 будет построена вероятностная модель последовательностей, пригодная в качестве основы для решения всех вышеописанных задач, и описаны способы ее обучения и применения, для разных задач разные. В разделе 4.4, наоборот, будут приведены примеры задач и методов их решения, обходящихся без вероятностных моделей. А пока посмотрим, как вообще можно строить вероятностные модели последовательностей. 4.2. Вероятностные модели последовательностей, применяемые для статистического обучения Вероятностная модель последовательностей неограниченной длины в пространстве X — это такая последовательность совместных распределений вероятности р (х\,..., Xk), %% G X, к = 1,2,..., что выполняется условие согласованности рк(хи... ,xl9X,...,X) =pl(xu... ,xi) при / < к. к-1 Даже при самом маленьком нетривиальном пространстве X — двухэлементном — пространство моделей бесконечномерно и необозримо, а значит попытки статистического обучения модели бесперспективны. Чтобы строить обозримые модели приходится делать какие-то предположения о распределениях. Безо всяких предположений, просто по определению условной вероятности, распределение р (х\,..., х*) представимо в виде
126 Глава 4. Анализ последовательностей; марковские модели произведения р (Х\9 ...9Xk)= Pk\k-\(Xk\X\, • • • , Хк-\)Р ~ (ЖЬ • • • , Xk-\) = = . . . = Pk\k-\{Xk\xU • • • , Xk-i) . . . P2\l(X2\X\)pl(Xi). D.1) Естественно, аналогичное произведение выписывается и для любой из к\ перестановок на множестве из к индексов. Но, если интерпретировать значение индекса как дискретное время, только в произведении D.1) каждый сомножитель описывает условную вероятность некоторого «настоящего» относительно его «прошлого» (величин с меньшими индексами). Это соответствует желанию строить вероятностную модель не чисто формально, а «в соответствии с природой вещей». Кроме того, это очень удобно, если модель применяется для предсказания будущего по настоящему и прошлому. Самое распространенное упрощающее предположение состоит в том, что условные вероятности рцк-\(хк\х\, • • •> Хк-\) в произведении D.1) зависят не от всех переменных, а только от небольшого фиксированного числа m переменных с наибольшими индексами и, возможно, от самого индекса к, т.е. Рк\к-\(Хк\Х\, . . . , Хк-\) = Рк,т(Хк\Хк-ш, • • • , Xk-\). Такая модель называется марковской моделью (марковской цепью, цепью Маркова) порядка га. Если же условное распределение рк,т не зависит от fc, то марковская модель называется однородной. Легко видеть, что любая (однородная) марковская модель порядка т на пространстве X представима в виде (однородной, соответственно) марковской модели порядка 1 на пространстве X последовательностей длины т (тривиальное упражнение), так что обычно ограничиваются изучением марковских моделей первого порядка. Однородная марковская модель первого порядка вполне обозрима: она определяется начальным распределением р (х\) и условным распределением перехода p.ti(xi+\\xi). Разложение совместной вероятности D.1) для нее выглядит так: рк(хи..., хк) = р.,\{хк\хк-\) • • • P,\(x2\xi)pl(xi). D.2) Если пространство X конечно, то пространство всех таких моделей конечномерно (упражнение: посчитать его размерность), а если
4.2. Вероятностные модели последовательностей 127 бесконечно, то приходится ограничиваться какими-то его конечномерными подпространствами. Для наглядности разложение совместной вероятности случайных величин а, 6, с, d,... (например, элементов последовательности х\,..., Xk, • •.) в произведение нескольких условных вероятностей вида р(-|...) (до черты-условия стоит одна переменная, а после — сколько угодно) часто изображают следующим образом *'. Берется ориентированный граф, вершины которого соответствуют случайными величинам, и для каждого сомножителя вида p(a\b, с,...) проводятся ребра из вершин Ь, с,... в вершину а. Например, марковская модель первого порядка изображена на рис. 1, а марковская модель второго порядка — на рис. 2. Однородны модели или нет, на рисунках не обозначено. Ух2 ) П яз ) *- • • hxn) Рис. 1. Схематическое изображение зависимостей случайных величин (признаков) в марковской модели первого порядка Рис. 2. То же для марковской модели второго порядка Более разнообразны модели последовательностей в пространствах, имеющих дополнительную структуру. Например, в задачах распознавания последовательностей эти пространства состоят из пар (xi,yi), т.е. (вектор признаков, ответ), а в задачах прогнозирования (см. рассуждения про гейзеры на стр. 124) — из пар (наблюдаемые признаки, ненаблюдаемые переменные). Даже в простом вырожденном случае, когда элементы последовательности независимы, есть по крайней мере два разумных ' Сомножители, являющиеся абсолютными, а не условными вероятностями, почему-то изображать не принято, хотя это совсем не трудно. ©
128 Глава 4. Анализ последовательностей; марковские модели У\ (-) У2 © Уз Ум (xn) Рис. 3. Схематическое изображение зависимостей при распознавании независимых объектов: зависимость признаков Х{ от ответов (классов) у{. У\ У2 Уз yN Рис.4. ...и зависимость ответов у{ от признаков жг типа моделей. В соответствии с двумя вариантами разложения совместной вероятности для каждого элемента последовательности p(xi,yi) = p(yi)p(xi\yi) и p(xi,yi) = р(хг)р(у{\хг), получаются два разных несвязных графа, изображенные на рис. 3 и 4. При этом модель, изображенная на рис. 3 соответствует, по крайней мере в задаче классификации, «природе вещей» (признаки объекта зависят от того, какому классу он принадлежит). Это традиционный способ построения порождающих моделей (см. раздел 1.2.3); в частности, такие модели применяются в наивном байесовским методе (раздел 1.2.5). Зато модель с рис.4 (дискриминантная) непосредственно по признакам предсказывает ответ. В содержательном случае, когда элементы последовательности фактически зависимы, есть много типов моделей, различающихся упрощающими предположениями от том, что от чего не зависит. Наиболее распространенная и при этом одна из самых простых моделей, точно соответствующая соображениям про устройство гейзеров (стр. 124), получается следующим образом. Совместное рас-
4.2. Вероятностные модели последовательностей 129 пределение2) р(х\9у\9..., а?ь у к) всегда представимо в виде произведения р(хи у\,...,хк, Ук) = p(xk\xi, 1/ь ..., Xk-u Ук-u Ук) х * р(Ук\х\,Уи ... 9хк-иУк-\)р(хиУ\ ...,хк-\,Ук-\) = ... = = р(жа;|д:ь 1/ь • •, я*-ь Ук-\, Ук)р(Ук\х\, Уь.. •, xfc-i, 2/fc-i) x ... х xp(x2\xuyuy2)p(y2\xuy{)p(xi\yl)p(y{). D.3) Предположим, что условное распределение р(х{\...) г-го вектора признаков зависит только от ответа (в задачах классификации ответы — это классы, которым принадлежат элементы последовательности, в задаче про гейзер — его ненаблюдаемые состояния) у{ с тем же индексом («в тот же момент времени»), т. е. P(Xi\Xi, J/i, • • • , Xi-u Ух-иУх) = р{Хг\Уг), а распределение р(у*|...) г-го ответа — только от предыдущего ответов (классов, состояний), т.е. Р(Уг|#Ь Уь • • , Яг-Ь 2/i-l) = РЫУь • • • , Уг-l). Более того, как и в марковской модели первого порядка D.2) предположим, что p(yi\...) зависит только от предыдущего ответа у^-ь P(yi|yb.-.,y*-i)=p(»i|yi-i). У1 fc) У2 Уз Уя (^ЛП Рис. 5. Схематическое изображение зависимостей признаков (наблюдаемых состояний, наблюдений) х{ и ответов (классов, скрытых состояний) yi в скрытой марковской модели ' В этом абзаце все распределения обозначаются одной буквой р без индексов, поскольку аккуратное выписывание индексов слишком громоздко. Следите за индексами аргументов!
130 Глава 4. Анализ последовательностей; марковские модели Получившаяся модель называется скрытой марковской моделью (НММ, hidden Markov model) и изображена на рис. 5. Векторы признаков Х{ традиционно называются наблюдаемыми состояниями модели, а ответы yi — скрытыми состояниями. Если же еще предположить, что модель однородна, т. е. что получившиеся условные распределения p(xi\yi) и р{Уг\у1-\) не зависят от индекса («времени») г, то как и в однородной марковской модели D.2), совместное распределение является произведением немногих маломерных распределений (а именно, трех: р(ж»|у»), p(y%\yi-\) и р(у\)), хотя и в большом количестве: p(xi,yu...9xk9yk) = = р(хк\Ук)р(Ук\Ук-1)-'-Р(х2\У2)р(У2\У\)р(х\\у\)р(у\). D.4) Именно такие модели и их модификации будут рассматриваться в следующих разделах. То, что при построении модели из многих возможных вариантов разложения полной вероятности систематически выбирались варианты, «соответствующие природе вещей» облегчает введение в модель априорных предположений и объединение моделей друг с другом. 4.3. Скрытая марковская модель (НММ, Hidden Markov Model) В этом разделе подробно рассматривается построение, обучение и применение простейших скрытых марковских моделей и кратко упоминаются более сложные скрытые марковские модели и их аналоги. Постоянно подчеркивается, что для разных типов задач описанных на стр. 123-124 — прогнозирования, классификации, восстановления последовательности и др. — одинаковые на вид модели обучаются и применяются по-разному. 4.3.1. Скрытая марковская модель с дискретным временем, конечным пространством состояний и конечным пространством наблюдаемых Распишем подробно, уже не обозначая все вероятностные распределения одной и той же буквой «р», однородную скрытую мар-
4.3. Скрытая марковская модель 131 ковскую модель (НММ) D.4), рис. 5, с конечным пространством (скрытых) состояний, в некоторых задачах имеющих также смысл ответов, У = {sb ..., sn} и конечным пространством наблюдаемых признаков X — {оь ..., от}. Кроме количества скрытых состояний п и наблюдаемых состояний т она определяется конечным набором действительных параметров: • n-мерным вектором-строкой П начальных вероятностей скрытых состояний: ТГг = Р{У\ = Si}, • (п х п)-матрицей перехода (transition matrix) A: a>ij = Р{У1+\ = Sj\Vi = si}, • п х т-матрицей эмиссии (emission matrix) В: bij = Р{я/ = Oj\yt = s^, удовлетворяющих стандартным вероятностным нормировкам (условию стохастичности): все элементы матриц и вектора неотрицательны и сумма элементов каждой строки равна 1. Итого получается ((п- 1) + п(п- \) + п(т— 1))-мерное пространство параметров. Через W= (П, А, В) будем обозначать весь набор параметров. В дальнейшем для краткости будем отождествлять и скрытые состояния, и наблюдаемые, с их номерами. Подбор модели (одной или многих) для каждой задачи условно разбивается на два этапа. Сначала модель «строится»: выбираются количество скрытых состояний п (если только, как в задаче распознавания последовательности символов, стр. 123, оно не определено самой задачей) и, иногда, количество значений признаков т (если на самом деле признаки непрерывны и их нужно дискретизировать искусственно). Кроме того используются имеющиеся априорные знания или гипотезы о природе задачи, чтобы сократить размерность пространства непрерывных параметров. Как правило, сокращение размерности состоит в разреживании вектора П и матриц А и В, т. е. принудительном приравнивании большинства их элементов нулю. После этого модель «обучается», т. е. при сравнении модели с обучающим набором подбираются оптимальные значения непрерывных параметров.
132 Глава 4. Анализ последовательностей; марковские модели Построение конкретных НММ. При построении скрытых марковских моделей наибольшее внимание уделяется подбору матрицы перехода А, поскольку, как будет показано далее, разреженность этой матрицы существенно ускоряет все вычисления с НММ. Разреженность матрицы перехода удобно изображать в виде ориентированного графа, вершины которого соответствуют скрытым состояниям Si, и из г-й вершины в j-ю не идет ребро тогда и только тогда, когда вероятность перехода a%j принудительно равна нулю. На рис. 6 изображен совершенно неинтересный граф переходов для НММ с тремя состояниями, в которой возможны все 9 переходов. На рис. 7 изображен граф переходов для НММ с пятью состояниями, моделирующей циклический случайный процесс: все состояния проходятся по кругу, но в некоторых состояниях с некоторой вероятностью процесс задерживается. Матрица перехода для этой модели уже разрежена: в каждой строке не более двух ненулевых элементов. Подобные модели применимы, например, в задаче про прогнозирование извержений гейзеров (стр. 123). При моделировании последовательностей, имеющих явное начало и конец, например, при распознавании печатных, рукописных или произносимых слов, чаще применяются модели, в которых переход из любого состояния возможен только в состояние О о^Эю с>—о Рис. 6. Граф переходов универсальной (скрытой) марковской модели с тремя состояниями: допустимы все переходы Рис. 7. Граф переходов циклической (скрытой) марковской модели с пятью состояниями: в трех из пяти состояний допустимы задержки
4.3. Скрытая марковская модель 133 о оооос? >¦ »' » & %^ ^; ^^Г Z& ^ 00000 О V &. К *L *' ^- >^- -^ -ч* -ч# Рис. 8. Четыре примера графа переходов для LR-моделей с пятью состояниями. Левая верхняя модель на самом деле детерминирована — в ней вероятности всех переходов равны 1. В остальных моделях разрешены задержки во всех состояниях и/или пропуски отдельных состояний. Из-за условия стохастичности ]? ¦ atj = 1 в последнем состоянии любая LR-модель обязательно задерживается. Левый верхний и правый нижний графы очень похожи на графы зависимостей для марковских моделей первого (рис. 1) и второго (рис. 2) порядков. Практического применения они не имеют и приведены только для напоминания о том, что не следует путать графы переходов с графами зависимостей с не меньшим (и с не намного большим) номером, т. е. матрица перехода является верхней треугольной. Такие модели называются лево-правыми или LR-моделями (left-right model). Примеры лево- правых моделей изображены на рис. 8. Как правило, в LR-моделях вектор начальных вероятностей фиксирован: П = A, 0,..., 0). LR-модели очень удобны для построения сложных моделей из небольших фрагментов. Предположим, что имеется марковская (не скрытая!) модель речи как последовательности слов, т. е. ориентированный граф, вершины которого соответствуют словам, а ребра — последовательному произнесению пары слов. Тогда вместо каждой вершины можно подставить LR-модель (уже скрытую!) соответствующего слова, входившие в эту вершину ребра прицепив к начальному состоянию LR-модели, а выходившие прицепив к конечному состоянию вместо петли. Получится скрытая марковская модель устной речи. А если вместо вершин подставлять LR-модели рукописных слов, получится модель рукописного текста. В задачах классификации последовательностей (см. стр. 124) для каждого класса нужно строить отдельную модель, причем размеры этих моделей могут оказаться существенно разными.
134 Глава 4. Анализ последовательностей; марковские модели Отложим обучение скрытых марковских моделей до стр. 141 и займемся их применением. Вычисления вероятностей с помощью НММ. Зафиксируем модель W = (П, Л, В) и проведем несколько простых, но полезных для дальнейшего, вычислений и оценим их трудоемкость. Вероятность того, что последовательность У[\ьц скрытых состояний порождает последовательность Х[\^ц наблюдений равна L P{X[lL]\Y[lL]} = llbyiXn D.5) а вероятность появления самой последовательности 1^[i,l] равна L-1 P{Y[i,L]} = 7rmIlayiyi+l D6) (обе эти равенства следуют непосредственно из формулы D.4)). Значит вероятность наблюдения последовательности Х[щ, порожденной последовательностью V[i,l], равна L-\ L P{X[ULhY[UL]} = P{Y[lL]}P{X[hL]\Y[UL]} = ттУ1 Yl am+] Ц byiXl i=\ i=\ D.7) и вычисляется за 2L - 1 умножений, а вероятность наблюдения последовательности Х[щ, порожденной любой последовательностью состояний, равна (L-\ L Я"У1 ПаИИ+> ЦЬУ1*1 D.8) Но по этой формуле вероятность вычисляется катастрофически медленно: за порядка 2Ln арифметических операций. То есть для модели с всего лишь 10 скрытыми состояниями нереально посчитать вероятность последовательности наблюдений длины 100. К счастью эту вероятность можно считать существенно быстрее с помощью алгоритма прямого и обратного хода или «вперед-назад»
4.3. Скрытая марковская модель 135 (forward-backward algorithm). Введем сокращенное обозначение X = Х[\чц и определим щ(г, X) al(i,X) = P{X[uhyl = i}= Yl P{XlU]>Ylu]}. D.9) У[\.1\\У1=г Тогда эти вероятности можно вычислять рекурсивно по I: а{(г,Х) = Р{хиу{ =%} = 7TibiXl, п aw(i,X) = J^P{X[i,q, yi=j}P{xl+i, yw =i\X[u], yi n = J]] ai(j, X)ajibixi+] при 1 ^ / < L, a n PW = $>i(t,.X). D.10) г=1 Таким способом Р{Х}, а заодно и все ai(i,X) при KKL и 1 ^ г ^ п можно посчитать за порядка ЪЬп операций. Более того, множитель п2 — это количество элементов матрицы перехода. Если матрица перехода разреженная и в ней только п элементов могут отличаться от нуля, то вероятность Р{Х} можно посчитать за ЪЬп операций. На практике обычно строят модели с довольно большим числом п скрытых состояний, но не очень большим, не превышающим га' , количеством допустимых (т.е. вероятность которых может быть ненулевой) переходов из каждого состояния, т. е. п ^ тп. Странное обозначение га' намекает на то, что обычно т я т (количество наблюдаемых значений). Вот еще несколько простых упражнений на осознание и быстрое вычисление условных вероятностей в скрытой марковской модели, результаты которых понадобятся при ее обучении. Упражнение. Для последовательности наблюдений X = Х[\ ь] все условные вероятности №,х) 0l(i9X) = P{Xll+XtL]\yl = i} D.11) =;} =
136 Глава 4. Анализ последовательностей; марковские модели при UUi и 1 ^ г ^ п можно посчитать за порядка ЪЬп операций: п 0i(i, X) = ^Г aijbjx^Pi+iiJ, X) при 1 = L - 1,..., 1. Упражнение. При любом 1 ^ I ^ L выполнены равенства п г=1 Упражнение. Сколько нужно операций для вычисления всех условных вероятностей *yi(i,X) и ?/(i, j, X), где ъ(^) = Р{ш = г\Х}=а1{^Х\ D.12) &(i, j, x) = Pfo, =», J//+1 = j|x} = _ &i(hX)aijbjXl+lPi+i(j,X) P{X} D.13) Мораль этих упражнений такова: для последовательности наблюдений X длины L и НММ с п состояниями и п ненулевыми элементами матрицы перехода (n ^ n ^ п2) за 0(Ln) операций можно посчитать все Ln вероятностей а;(г, X) и условных вероятностей Ci(i,X), после чего еще быстрее вычисляются вероятность последовательности X (она же — правдоподобие модели) D.10) и разнообразные условные вероятности. К сожалению, для вычислений вероятностей последовательностей длиной порядка 100 и более результаты этих упражнений неприменимы, поскольку вероятность Р{Х} каждой отдельной последовательности наблюдений исчезающе мала, меньше минимальных аппаратно реализуемых чисел типичных компьютеров. Уже при вычислении вероятностей ai(i,X) и (Ji(i,X) из-за перемножения огромного числа вероятностей, т. е. чисел, меньших единицы, произойдет потеря точности. При этом условные вероятности ji(i, X), &(г, j, X) и т. п. совсем не обязательно малы. С потерей точности
4.3. Скрытая марковская модель 137 можно бороться чисто техническими средствами, а можно немного (всего лишь в константу раз) усложнить вычисления. Вместо совместных вероятностей al(%,X) = P{yl =t,XM) будем рекурсивно по / вычислять условные вероятности a{(t, X) = Р{у{ = i\X[itl]}, rn(i, X) = Р{ух = г, »/|X[lfi_,]} HW(J0=P{XM|X[u.1,}: 7]i(i,X) ( = Р{у{ =i,x{}) = nibiX], m(X) ( = P{xl}) = ^2rl^X^ a\(i,X) m(%,X) i=\ m(x) ' n 7?/+l(i, X) = ^ a/(^' X)aiA W+i' n w+iW = 53»»+i(*.jo. > при 1 < I < L. i=\ a'i+l(i,X) = m+i(x) Затем вместо условных вероятностей Ct(i,X) = P{X[l+UL]\yi = i} вычислим отношения условных вероятностей Р{Х\1+иь]\У1 = i) fi(i,X) P{X[i+\,l]\Xhj]} ' 0'L(i,X)=l, P!(i,X) = ^2aijbjXl+l/3'i+l(j,X) i=\ mix) при I — L - !,...,!.
138 Глава 4. Анализ последовательностей; марковские модели В процессе этих вычислений никакого неустранимого стремления величин к нулю нет. Остальные условные вероятности легко вычисляются через a[(i,X), C[(г,Х) и r]i(X): 7/(t,X)=a{(i,X)A/(t,J0, aj(i, X)aijbjXl+l0'l+l(j9 X) 6(t,j,X) = vw(x) У^ У^ a|(i, X)aijbjk <;l(k,x) = ^-t± . $>i(t,X) t=l А вместо исчезающе малой вероятности Р{Х} легко вычислить ее логарифм: L lnP{X} = Y^^m(X). D.14) Упражнение. Проверьте вычисления. ¦ Для градиентных методов обучения НММ нужно уметь быстро вычислять не только вероятность Р{Х} или ее логарифм, но и градиент (удобнее — градиент логарифма) по параметрам модели W. D.15) Предложение 7 Э1пР{Х} ъ(г,Х) dni щ L-\ dinP{x} tt O&ij (Xij dlnP{X} _ l;Xl=k dbik bik D.16) D.17)
4.3. Скрытая марковская модель 139 Доказательство, чисто вычислительное, оставляется в качестве упражнения. Применение НММ. Предположим, что модель или (в задачах классификации) несколько моделей уже обучены. Тогда решение задачи прогнозирования сводится к тому, чтобы по последовательности наблюдений X — Х\щ вычислить вероятности п п P{xL+{ = k\X} = Y^ ^2 Р{УЬ = *' VL+l = Э> Хь+1 = к№ = п п = S 5Z р{Уь = *\Х}Р{уь+1 = з\Уь = i}P{xL+l = k\yL+l - j} = *=i j=i n n = ^2^2 7i(b Xhijbjk- Решение задачи классификации начинается с того, что для модели каждого класса по формуле D.10) оценивается ее правдоподобие или по формуле D.14) его логарифм. Затем, если модели прилично обучены и известны априорные вероятности классов, по формуле Байеса вычисляются апостериорные вероятности и в качестве ответа выдается либо само апостериорное распределение, либо один или несколько наиболее вероятных классов. В экзотическом случае, когда либо не удается обучить модели, либо нет никаких соображений об априорных вероятностях (даже соображения, что все они равны), можно вычисляемые правдоподобия моделей считать набором базисных функций и над ними строить классификатор общими методами. Интереснее всего решение задачи восстанов- Применение НММ ления по имеющейся последовательности наблюдений Х = Хцп последовательности скры- - v* лл* - СОСТОЯНИЙ тых состоянии Y = Y[ljL], порождающей эти наблюдения с наибольшей вероятностью (см. стр. 123). Длины последовательностей X и У* должны совпадать; для задач восстановления последовательности состояний длины, отличной от длины последовательности наблюдений, стандартная НММ неприменима.
140 Глава 4. Анализ последовательностей; марковские модели Искать максимум вероятности D.7) перебором по всем последовательностям состояний — неприемлемо долго (nL вычислений формулы D.7)), но можно воспользоваться методом динамического программирования, который для данного случая был впервые применен Эндрю Витерби в работе [59]. Выигрыш в скорости получается такой же, как при использовании формулы D.10) и непосредственно предшествующих ей вместо D.8). А именно, аналогично формуле D.9), определим ei(i, X) €t(i9X)= max P{I[UIJ|M]} D.18) У[1,1]\У1=г и будем вычислять б/(г, X) рекурсивно по / при всех г одновременно, запоминая для каждой пары (/, г) при / > 1 предыдущее состояние yl_i =vi(i,X) последовательности У*, максимизирующей правую часть равенства D.18). Вот эти вычисления (с пояснениями в скобках): Алгоритм Витерби ех(г,Х) ( = Р{хиу{ = i}) = щЪ^х9 ?/+i(i, X) ( = max P{X[U], ух = j}P{xM, yl+l = i\X[ul], yt = j}) = biXl max ei(j, X)a,ji при 1 < / < L, vi+\(i9 X) = arg max ei(j, Х)а# при 1 ^ / < L. Затем вычисляют максимальную совместную вероятность Р*(Х) последовательности наблюдений Х = Х[\^ц и порождающей ее последовательности скрытых состояний Y* = Y[ltL] и — справа налево — саму максимизирующую последовательность У*: Р\Х)= max eL(j,X), D.19) yl(X) = arg max eL(j,X), Vi(Xl\,L]) = VM (v*i+i(X[i,l])> XlUL]) при I = L - 1,..., 1. Как и при вычислении вероятности Р{Х\\ ц} последовательности наблюдений по формуле D.10), для поиска наиболее вероятной
4.3. Скрытая марковская модель 141 последовательности состояний требуется порядка ЗЬп арифметических операций. На практике, чтобы избежать возможной потери точности из-за того, что при больших / все б/(г, X) очень близки к нулю, в вышеописанном алгоритме Витерби вычисление б/(г,Х) и Р*(Х) заменяется на вычисление In ei(i,X) 1пР*(Х), соответственно: lnei(i,X) = lniri + lnbiXl, lnej+i(i,X) = ln&^+ max (in ei(j, X) +In a ji) при 1 ^ / < L, lnP*(X)= max lneL(j,X), а вычисления последовательностей состояний остаются без изменений. Обучение НММ. Обучение скрытой марковской модели состоит в подборе ее параметров W, чтобы модель как можно лучше решала поставленную задачу на обучающем наборе последовательностей. Но задачи и обучающие наборы бывают разными, и соответственно, способы обучения НММ тоже бывают разными. Продолжим рассмотрение нескольких примеров задач и сформулируем соответствующие задачам цели обучения, а затем рассмотрим соответствующие методы обучения. Прогнозирование (стр. 123). Обучающим набором является либо одна уникальная последовательность наблюдений X, как в задаче про гейзер, либо набор X = (Хь...,Хдг) таких последовательностей. Целью обучения обычно является построение наиболее вероятной модели при условии наблюдаемого набора3\ т.е. максимизация апостериорной вероятности. Но практически всегда все имеющиеся априорные предположения о вероятностях моделей заложены в конструкцию пространства моделей — сколько в моделях скрытых состояний и какие вероятности начальных состояний, переходов и эмиссий заведомо равны нулю. Тогда априорное распределение вероятностей на пространстве допустимых моделей считается равномерным, и максимизация апостериорной вероятности P{W|X} ' Байесовское обучение было бы еще лучше, но оно безнадежно сложно вычислительно.
142 Глава 4. Анализ последовательностей; марковские модели эквивалентна максимизации правдоподобия P{X|W} -> max . D.20) Классификация (стр. 124). Обучающим набором является набор последовательностей X = (Хь ..., Xjv) (например, последовательностей звуков) и соответствующий ему набор ответов Y = (уь ..., j/jv) (соответственно, произносимых слов), являющихся числами от 1 до q (то, что слова можно рассматривать как последовательности букв или слогов не учитывается). Обучается сразу q моделей W1,... ,W9, по одной на каждый ответ. В отличие от априорных вероятностей параметров моделей, априорные вероятности ответов Р1,..., Pq, как правило, известны. Для любой последовательности наблюдений X q-мерный вектор (P1(X,W),...,Pff(X,W)) = ( \ P{P{X\W1} PqP{X\Wq} ~ ~1 ' • ' ~q J2 pjp{x\wj} Yl pjp{xwj} \j=\ j=\ J должен оценивать условное распределение (P{y=l\X}, ..., P{y = q\X}). Целью обучения моделей может быть, например, минимизация ожидания на обучающем наборе (X, Y) какой-либо функции штрафа Е (см. раздел 1.2.6, формулу A.46)) N q J2 Z) Р*&> W)?(j, Уг) -> mln, D.21) в частности, минимизация ожидания числа ошибок классификации N ?(l-P*(X,,W))->min, i=\
4.3. Скрытая марковская модель 143 или максимизация правдоподобия N P{Y|X, W} = Yl PVi{Xu W) -> max, D.22) г=1 эквивалентная минимизации взаимной энтропии (см. раздел 1.2.8) N - In P{Y|X, W} = 2 - In PVi{Xu W) -> min . D.23) Такое обучение набора моделей называется дискриминантпным. Восстановление последовательности ответов (стр. 123). Обучающим набором является набор последовательностей X = (Xi,..., Х#) (например, последовательностей рукописных каракулей в клеточках бланка) и соответствующий ему набор последовательностей ответов Y = (Yi,...,Yjv) (соответственно, кодов написанных символов). Целью обучения моделей может быть, как и в случае прогнозирования, максимизация правдоподобия модели ' N Р{Х, Y|W} = П P{XU Yi№ -> max, D.24) w г=1 где совместные вероятности Р{Х^, Y^|W} вычисляются явно (формула D.7)), в отличие от вероятностей P{Xj|W} в предыдущих случаях. Сегментация с классификацией сегментов (стр. 124). Как и в задаче классификации, обучающим набором является набор последовательностей X = (Хь ..., Хм) (например, акустических записей произносимых) и соответствующий ему набор ответов Y = (Yj,..., Y#) (соответственно, номеров произносимых слов в каком-то словаре) и обучается сразу q моделей W ,...,W9, по одной на каждый ' В отличие от обучения для прогнозирования, в этом случае байесовское обучение с равномерным априорным распределением технически не сложно (интегрирование монома по прямому произведению симплексов) и очень похоже на байесовское обучение наивной байесовской модели. Но его результат непонятно как применить: для этого пришлось бы проинтегрировать по полученному апостериорному распределению алгоритм Витерби.
144 Глава 4. Анализ последовательностей; марковские модели ответ (слово). Но целью обучения является не самая лучшая классификация отдельных слов q моделями, а хорошее распознавание слитной речи как последовательности слов с помощью одной объединенной модели. Для восстановления последовательности слов в объединенной модели применяется алгоритм Витерби или какой- либо его аналог, поэтому, в отличие от классификации отдельных слов, не так важно, чтобы набор моделей слов давал правильную оценку апостериорных вероятностей слов, как то, чтобы выдаваемая алгоритмом Витерби наиболее вероятная последовательность скрытых состояний имела наибольшую вероятность в правильной модели (среди всех q моделей). Для простоты уточнение в скобках («среди всех q моделей») обычно игнорируют. Тогда каждую из q моделей (j-ю) можно обучать независимо на подмножестве обучающего набора XJ = {Xj|Yj = j} (т.е. на примерах произнесения только j-ro слова), максимизируя произведение выдаваемых алгоритмом Витерби максимальных совместных вероятностей Р* D.19) наблюдаемых и скрытых последовательностей: p*{X|W} - fj P*{X*|WJ} -> max . D.25) Далее подробнее рассматриваются методы решения оптимизационных задач D.20)-D.25). ¦ Для обучения НММ максимизацией правдоподобия последовательностей наблюдений D.20). можно при- правдоподобия ¦ менять градиентные и стохастические методы, как и для нейронных сетей (раздел 3.2.4 книги [42]), поскольку способ вычисления градиента правдоподобия предъявлен в формулах D.15)—D.17) и предшествующих. Но чаще применяют другой метод, использующий то, что модель — вероятностная, и тоже похожий на обучение нейронных сетей, описанное в разделе 3.3 книги [42]). Этот метод, называющийся алгоритмом Баума—Велша, был разработан в серии работ Леонарда Баума с соавторами в конце 1960-х годов, например, [2] или [3], в которых формально Ллойд Велш соавтором не является (см. лекцию Велша [61]). Алгоритм Баума— Велша является частным случаем метода максимизации ожидания (раздел 2.3.2). Он является итеративным и сходится, вообще говоря, не к глобальному максимуму правдоподобия, а к локальному.
4.3. Скрытая марковская модель 145 Поскольку параметры модели теперь будут меняться, будем явно указывать их в формулах. Зафиксируем обучающий набор X из N последовательностей наблюдений X* = Хфд,.] длин Li и начальный набор параметров модели w'0' (например, случайный) и будем пытаться увеличить правдоподобие P{X|W} или, что то же самое, уменьшить I?{X|W} = - lnP{X|W}. Из формулы D.8) следует, что N N Р{Х\Щ = [J P{Xi\W} = П Е Р{ЪНМ> Y[imW} г=1 г=1 Y[iiLi] N , Li-l Li 1У / Щ-v ui П J2 (^ П aww+i П * УЩ т. е. мы пытаемся максимизировать многочлен степени N г=1 с неотрицательными коэффициентами от не более чем п + п + тп переменных (их может быть меньше из-за разреженности матрицы перехода) в пересечении положительного ортанта с набором гиперплоскостей вида п п т ]Гтг, = 1, 53 aifc = 1 и 53bi* = L D-2б> j=\ jfc=i k=\ Для этой задачи легко выписывается лагранжиан, но уравнения Ла- гранжа получаются полиномиальными уравнениями высокой степени и аналитически не решаются. Поэтому мы пойдем другим путем. V^.n /V PiV IY W«»1 P{^^[,,L,]|W} \ *=1 %у
146 Глава 4. Анализ последовательностей; марковские модели -SS^^^^Sf)- ''=1 yM i,l iV = -EE р{уи,ьг]\^мо)}1пР{\,у{1М\^} +^ + EE P{y[iA1№,w<0)}inP{x<,y[1A,|w<0)}. Неравенство в этой цепочке преобразований следует из выпуклости функции - In (•) и того, что условные вероятности P{Y[itLt] |X*, W^0'} являются вероятностями, т. е. неотрицательны и их сумма по всем возможным последовательностям Y длины Li равна 1. Введем обозначение N Q(X,W@),W) - - Е Е Р{?1Ш\Ъ,W@)} lnP{Xby[1A]|W}. Тогда полученное неравенство означает, что Е(Х, W) < Q(X, W@), W) - Q(X, W@), W@)) + E(X, W@)). Правая часть мажорирует E(X, W) и совпадает с ней в точке W^ '. Значит чтобы уменьшить значение Е(Х, W) достаточно найти такую точку W, что Q(X, W@),W) < Q(X, W@),W@)). Но у функции Q(X, W^ \ •) нетрудно найти точки глобального минимума по всей области определения с помощью метода множителей Лагранжа. Вычисление точки минимума довольно громоздко и мы его оставим в качестве технического упражнения, ограничившись предъявлением и обсуждением ответа. Предложение 8 Минимум функции Q(X, W( v) достигается в точке W* с координатами
4.3. Скрытая марковская модель 147 1 N *i= лг5>'&*). D.27) N ¦ , г=1 <& = i1rib . и-28) ЕЕ- г=1 /=1 N ЕЕ- *=1 l\x\=k у«0'>*) YiCi.x,) г=\ 1=\ Здесь 7/(*? •) w &(•>•>•) определены равенствами D.9), D.11), D.12) w D.13) для параметров «старой» модели W( \ ?с/ш при каком-то значении j знаменатель правой части уравнения D.28) или D.29) равен О, то числитель тоже равен О w Q(X, W( , (П, А, В)) не зависит от j-й строки матрицы А (или, соответственно, В), т. е. точка минимума W* не единственна. В этом случае для однозначности положим а^ = a J (соответственно, Щк — "J) при всех к. Если W* ф W@), то Q(X, W@), W*) < Q(X, W@), W@)). Алгоритм Баума—Велша состоит в итеративном пересчете параметров марковской модели по формулам D.27)-D.29), пока модель не стабилизируется или пока не исчерпается лимит времени. Он замечателен во многих отношениях. Упражнение. Проверьте следующие утверждения: • Шаг алгоритма можно менее формально сформулировать следующим образом . ' В своей лекции [61] Велш рассказывал, что он догадался применить это преобразование для оценки параметров НММ и сколько-то раз экспериментально про-
148 Глава 4. Анализ последовательностей; марковские модели 7Tj = вероятность j-ro скрытого состояния в качестве начального, ожидание числа переходов из j-ro скрытого состояния в к-е djk b% = ожидание числа выходов из j-ro скрытого состояния ожидание числа пар (j-e скрытое, к-е наблюдаемое) ожидание числа появлении j-ro скрытого состояния Вероятности и ожидания вычисляются при «старых» значениях параметров модели W* ' и фиксированном наборе обучающих последовательностей наблюдений X. Если знаменатель правой части уравнений обращается в 0, т. е. набор обучающих последовательностей недостаточно представителен, чтобы все скрытые состояния модели могли реализоваться, то соответствующие нереализуемым состояниям строки матриц перехода и эмиссии не обучаются. • При пересчете автоматически сохраняется неотрицательность параметров и вероятностные нормировки D.26). • При пересчете автоматически сохраняется разреженность матриц перехода А и эмиссии В и начального распределения П: если какой-то элемент был равен нулю, он и останется нулем. N • Пересчет довольно быстр — порядка C(n + run) ^^ Li ариф- г=\ метических операций, где С — небольшая константа, см. упражнения на стр. 135. То есть время пересчета пропорционально произведению количества обучаемых параметров на объем обучающего материала. Начальные значения ненулевых элементов матрицы перехода А и вектора начальных вероятностей П можно задавать произвольно, уважая вероятностные нормировки. Начальные значения матрицы эмиссии В можно пытаться задавать осмысленно, если есть соображения, какие скрытые состояния могут порождать какие наблюдаемые. Алгоритм Баума—Велша всегда сходится и при этом почти всегда — к точке локального максимума правдоподобия P{X|W}, верил, что правдоподобие моделей при нем увеличивалось, но доказать, что оно увеличивается всегда, не смог.
4.3. Скрытая марковская модель 149 поскольку он на каждом шаге увеличивает значение непрерывной функции на компактном пространстве параметров. Однако остаются вопросы, на которые нет универсального ответа: с какой скоростью он сходится и сходится ли он к точке глобального максимума. Для дискриминантного обучения НММ можно применять градиентные методы, выразив градиенты * / обучение НММ входящих в оптимизируемые функционалы (например, D.21) или D.23)) апостериорных вероятностей PJ(Xj,W) через градиенты логарифмов правдоподобий P{X\WJ}, вычисляемые с помощью предложения 7, и спроектировав градиент на пересечение плоскостей D.26) для всех q моделей. Альтернативой градиентному спуску является применение обобщения алгоритма Баума—Велша [19], позволяющего оптимизировать функции от правдоподобий, которое мы сейчас опишем. Сравнивая шаг алгоритма Баума—Велша D.27)-D.29) с вычислением градиента логарифма правдоподобия D.15)—D.17), немедленно получаем Предложение 9 Шаг алгоритма Баума—Велша эквивалентен пересчету6' * г=1 J * i=\ JK *i = ~ n nnrvy ' а* = — ^ v^ dP{Xj} "' " ^ dP{Xj} ^дРШ h 3 h *>* Именно так формулировался алгоритм в первых работах Баума, например, [2].
150 Глава 4. Анализ последовательностей; марковские модели Обобщенный алгоритм Баума—Велша, предложенный в работе [19] для поиска максимума по W некоторой функции Д(Х, W) от обучающего набора X и параметров НММ W, это последовательное применение следующих итераций: N Я\- = * г=1 °# ~ — N "/am,*) \ Э n N У 6* г=1 J 1>4НГЧ fc=l г=1 где С > 0. В работе [19] показано, что для любой полиномиальной или рациональной по W функции R (в частности, для функции D.22) или D.21) с противоположным знаком) при достаточно больших, зависящих от R, значениях параметра С алгоритм сходится к точке (локального!) максимума функции. На практике при значениях С, гарантирующих сходимость к максимуму, сходимость неприемлемо медленная, но при меньших значениях алгоритм, как правило, сходится быстро и, как правило, куда надо. Опустим все подробности и сошлемся в качестве примера на статью [49], одну из очень многих подобных, в которой сообщается об успешном практическом применении двух вариантов дискриминантного обучения и обобщенного алгоритма Баума—Велша, а также приводятся литературные ссылки.
4.3. Скрытая марковская модель 151 Обучение НММ максимизацией совмест- Обучение НММ максимизацией ного правдоподобия последовательностей наблюдений и состояний —- самое простое. В нем не требуются итеративные алгоритмы, а явно предъявляется ответ. Предложение 10 Максимум совместного правдоподобия D.24) достигается в точке N Li-1 ' ik N Li ЕЕ«Г ЕЕ«Г 2=1 J=l 1=1 Z=l ДОКАЗАТЕЛЬСТВО. Правдоподобие D.24) — это моном от параметров модели, которые пробегают прямое произведение 2п + 1 симплексов, задаваемых вероятностными нормировками параметров. См. лемму 2. ¦ Обучение НММ максимизацией оптималь- Обучение НММ максимизацией ного правдоподобия D.25) производится итеративно. Для модели с какими-то, например, случайными, начальными значениями параметров и обучающего набора X из N последовательностей наблюдений с помощью алгоритма Витерби восстанавливается набор Y из N последовательностей скрытых состояний, после чего параметры модели переоцениваются согласно предложению 10. И так далее. Поскольку количество возможных последовательностей скрытых состояний конечно, алгоритм сходится (параметры модели перестают меняться) за конечное число шагов, хотя, возможно, слишком большое. На каждом шаге правдоподобие D.25) возрастает. Неформально говоря, этот алгоритм соотносится с алгоритмом Баума—Велша так же, как алгоритм кластеризации fc-means (стр.62) с оценкой параметров гауссовой смеси (стр.88), поэтому его называют segmental k-means, см. статьи [47] и [28], хотя ни параметра fc, ни каких-либо средних в нем нет. N ?*Г 7Г* г=1 N Q»ik =
152 Глава 4. Анализ последовательностей; марковские модели 4.3.2. Обобщения скрытых марковских моделей и объединение их с нейронными сетями и другими распознавателями В предыдущем разделе была описана самая простая скрытая марковская модель. Для распознавания и моделирования более сложных последовательностей более сложных объектов применяются более сложные модели более общего вида. Обобщения можно условно подразделить на «научные» и «технические». В первом случае строится честная вероятностная модель нескольких взаимодействующих явных или скрытых случайных процессов в разных пространствах. Во втором случае модель преобразуется каким-либо способом, вообще говоря нарушающим вероятностные мотивировки и нормировки, но сохраняющим возможность применения быстрых алгоритмов распознавания и обучения, похожих на алгоритмы Витерби и Баума—Велша. Целью преобразования является уменьшение размеров модели и, следовательно, надежда на ускорение ее обучения и избежание переобучения. Приведем примеры и мотивации возможных «научных» обобщений скрытой марковской модели. Непрерывное пространство наблюдаемых состояний. Это обобщение необходимо почти во всех приложениях. Например, чтобы приспособить стандартную НММ к распознаванию последовательности раздельно написанных символов, на стр. 125 было предложено предварительно классифицировать написанные символы независимым распознавателем. Если этот распознаватель допускает градиентное обучение, то и объединенную распознающую систему можно обучать градиентными методами. Чаще всего марковские модели интегрируют таким образом друг с другом или с нейронными сетями. Альтернативный и более популярный подход состоит в том, чтобы к каждому скрытому состоянию марковской модели привязать вероятностную модель распределения признаков, обучаемую совместно с самой НММ алгоритмами типа Баума—Велша. Наблюдаемое состояние модели — это последовательность X случайных векторов х\,... ,xl в некотором пространстве (как правило, в евклидовом пространстве R ) с плотностью распределения p(xi\X{9 ... 9Xi-\,Xi+\, ... ,Sji9 ... ,Sjt ...) =р(Х1\Зц) = bjt(xi)9
4.3. Скрытая марковская модель 153 не зависящей от /, j\,..., j/_b jz+ь • • • • Эти плотности, обозначенные bj(x), принадлежат какому-то заранее выбранному т-мерному параметризованному семейству, т. е. bj задается вещественными параметрами bj\,..., bjm. Матрица параметров В = Fjj) играет ту же роль, что матрица эмиссии в случае дискретного пространства состояний. Пример. Пусть bj — гауссова смесь V4 V~^ 1 ( \\х ~ ftikW \ Ъ,(х) = Е Р&М*) = Е Ъ^-^2 ехр {—^-) ¦ Тогда для восстановления последовательности состояний применим алгоритм Витерби с заменой bjXl на bi(xi) при вычислении €/(г, X), а для обучения такой модели максимизацией правдоподобия на наборе последовательностей X = {ХЬ...,Х^} применим алгоритм ЕМ (Баума—Велша) в следующем виде. В формулах для вычисления ai(i, X) и /?/(г, X) на стр. 135 и далее нужно заменить biXl на bi(xi), а последующие вычисления *yi(i, X), &(г, j, X) и т. п. оставить без изменения. Тогда вектор начального распределения П и матрица перехода А пересчитываются по формулам D.27) и D.28), соответственно, а параметры распределений bj — по формулам N Ц N U Е Е r^>k^ ЕЕг^''k> *)*« р* г=1 /=1 * г=1 /=1 Li ' *~эк N L. EE7iO'^) EEr^fc^) E E r'&fe' x<)iix« ~ ^*n2 * 1 i=i г=1 sjk = где EEr<fr*'*) t=l /=1 E PjkPjk(xi) k=\
154 Глава 4. Анализ последовательностей; марковские модели Доказательство получается естественным объединением стандартного доказательства для обучения гауссовой смеси методом максимизации правдоподобия (см., например, [42, стр. 129] и далее) или гораздо более общего доказательства из раздела 2.3.3 с опущенным доказательством предложения 8 и оставляется в качестве громоздкого технического упражнения. Алгоритм и доказательство легко переносятся со сферических гауссианов на общие m Ых) = 2 PJkPjk(x) = fc=l = 22 pik{B*)\AJk\) ехр у-— 2 )" * Замечание. Получившаяся модель несколько отличается от НММ, использующей в качестве наблюдаемых ответы нейронной сети. Ее можно представить себе как результат объединения многих (по одной на скрытое состояние) двухслойных нейронных сетей и замены их независимых вторых слоев единой марковской моделью. Непрерывное время. Для распознавания процессов реального времени (например, речи), можно было бы строить модель, содержащую вместо марковской цепи марковский (или не марковский) случайный процесс. На практике, наблюдаемый процесс (например, акустический сигнал) обычно доступен в виде последовательности замеров с дискретным шагом по времени. Поэтому строят модель на базе марковской цепи, но с контролируемым временем пребывания в каждом состоянии. Действительно, в чисто марковской цепи вероятность длительного пребывания в г-м состоянии управляется только одним диагональным элементом ац матрицы перехода. Вероятность оставаться в этом состоянии ровно к моментов времени равна а,ц(\ - ац), т.е. экспоненциально убывает по к, что совершенно не соответствует акустическим реалиям. Взамен предполагается, что время пребывания цепи в г-м состоянии описывается распределением из какого-либо другого, более адекватного параметрического семейства, и параметры этих распределений тоже оцениваются при обучении.
4.3. Скрытая марковская модель 155 Непрерывное пространство скрытых состояний. Во многих задачах, например, в прогнозировании извержений гейзера (стр. 124) пространство скрытых состояний, конечно же, непрерывно, а замена его дискретным — грубое приближение. Реконструкция состояния динамической системы по зашумленным (т. е. случайным) зависящим от состояния сигналам — весьма распространенная практическая задача в радиоэлектронике и вычислительной технике. Но вычислительно она разрешима только для самых простых динамических систем (линейных) и распределений эмиссии (гауссовых). Один из самых распространенных методов называется фильтр Кал- мана. Это отдельная большая наука. А для систем и распределений общего вида единственный практически приемлемый способ что- нибудь посчитать — это аппроксимировать пространство состояний конечным. si Н ^2 А S3 Н $N 0 Рис. 9. Схематическое изображение обобщения скрытой марковской модели: и признаки xit и ответы yi зависят от скрытых состояний «г Частично наблюдаемые состояния. В некоторых задачах удобны модели, в которых не сами скрытые состояния, но некоторые функции от них наблюдаемы, присутствуют в обучающем наборе, и именно их-то и нужно предсказывать. Например, для распознавания печатного текста может оказаться более адекватной не стандартная НММ, а модель, изображенная на рис. 9. Ее скрытое состояние Si — это, например, г-й символ вместе со спецификацией шрифта и кегля, которыми он напечатан, а содержательный ответ у\ — сам символ, зависящий от S{ однозначно. Неоднородность. Упрощающее предположение об однородности скрытой марковской цепи ничем не плохо для моделирования
156 Глава 4. Анализ последовательностей; марковские модели 1\ Уг У2 VN Xi Рис. 10. Другое обобщение скрытой марковской модели — Input Output НММ: и «выходные» наблюдаемые признаки Xj, и скрытые состояния у$ зависят от «входных» наблюдаемых ij и распознавания воспроизводимых последовательностей, вроде речи или письменного текста, и не вполне хорошо для моделирования уникальных последовательностей, например, численности саранчи или котировок биржевых акций. В этих случаях в модель нужно включить зависимость и скрытых состояний, и наблюдаемых, от тоже случайных, но наблюдаемых внешних параметров — урожая зерновых и политических новостей, соответственно. Такая модель, изображенная на рис. 10, и методы ее обучения были предложены в работе [4] под названием IOHMM (Input Output НММ). Эта же модель применима в другой ситуации: когда нужно по последовательности векторов признаков предсказывать соответствующие им ответы и пары (признаки, ответ) почти независимы, но все-таки какая-то зависимость распределения пары от предшествующих ответов возможна. Модели конечных последовательностей. Стандартная скрытая марковская модель и ее вариации, рассмотренные выше, описывают порождение бесконечных последовательностей наблюдений. Вероятность Р{Х[\ ?]} в формуле D.8) и далее — это вероятность того, что первые L наблюдений такие, как в последовательности X, а последующие — любые. Но, за исключением задач прогнозирования (стр. 123), в большинстве случаев анализировать нужно только конечные последовательности. Приспособить НММ к порождению конечных последовательностей можно разными способами. Можно добавить к простран-
4.3. Скрытая марковская модель 157 ствам скрытых и наблюдаемых состояний дополнительные «завершающие» состояния у* Е У и наблюдения х* Е X, такие что в состоянии у* модель с вероятностью 1 порождает наблюдение я* и остается в состоянии у*, а в остальных состояниях вероятность наблюдения х* равна 0. Такая НММ порождает последовательности наблюдений либо не содержащие признак конца х* вообще, либо кончающиеся бесконечным хвостом х*; последние можно отождествить с конечными последовательностями отрезанием этого хвоста. Если вероятность попадания модели в конечное состояние у* равна 1, то с вероятностью 1 модель порождает конечную последовательность наблюдений. Тем самым, модель определяет распределение вероятностей на множестве всех конечных последоваетльно- стей и вероятность конкретной конечной последовательности Х[{ д равна P{(Xa?*)[ifL+i]}. Другой способ модификации НММ для порождения конечных последовательностей состоит в том, то пространства X и у не изменяются, а условие стохастичности матрицы перехода А ослабляется до Y^ a,jk ^ 1. На практике чаще применяется третий способ, к гибридный, состоящий в том, что добавляется только одно «завершающее» скрытое состояние у*, из которого нет ни переходов (а*, = 0 при всех j), ни эмиссии F** = 0 при всех к). В графе переходов такой модификации НММ в завершающем состоянии нет петли, присутствующей и раздражающей на рис. 8. Упражнение. Выпишите вероятность порождения такой моделью последовательности наблюдений Х^ц. Ненаблюдаемая эмиссия. В ранее рассмотренных моделях последовательности скрытых состояний и наблюдаемых были синхронизированы: каждое скрытое состояние ' порождало ровно одно наблюдаемое. В некоторых задачах, в том числе при распознавании порождающей последовательности любой длины (стр. 123) естественно применять «асинхронные» модели, в которых скрытые состояния могут порождать целые последовательности наблюдаемых, в том числе и пустые. Зависимости между скрытыми состо- Кроме «завершающего» состояния в предыдущем абзаце.
158 Глава 4. Анализ последовательностей; марковские модели яниями и наблюдаемыми в таких моделях уже не описываются схемами, вроде изображенной на рис. 5. Порождение непустых последовательностей наблюдаемых можно выразить в терминах обычных «синхронных» моделей, заменив каждое скрытое состояния маленькой (или не очень маленькой) НММ. А вот непорождение наблюдаемых требует специального рассмотрения, поскольку для вычисления условной вероятности Р{Х\\д\У\\^м\} при М > L простая формула D.5) неприменима, а значит меняется и вычисление вероятности D.8). Чтобы формализовать вычисления, будем считать, что к матрице эмиссии В приписан нулевой столбец Ь0, элемент bj0 которого — это вероятность отсутствия эмиссии в jf-м скрытом состоянии. Условию стохастичности теперь удовлетворяет эта расширенная матрица «эмиссии и неэмиссии» В0 = 60 © В. Для простоты вычислений ограничимся невырожденным случаем, когда все bjo < 1, т. е. вероятность эмиссии из каждого состояния положительна. Обозначим через J диагональную матрицу diag(bo)- Тогда матрица «условной эмиссии» (если эмиссия была, то какая) (I — J)~ В — стохастическая, а матрица «переходов без эмиссии» J А — нет. Вероятность, начав со скрытого состояния j, за I шагов перейти в состояние к и не породить в / пройденных состояниях, кроме последнего, равного к, ни одного наблюдаемого, равна I hljk = P{yw =U= 0|Vi = Л = 5^ Ц byioaytyw = ((JA)l)jk y2,-..,yi г=\ (I в правой части равенства — это не верхний индекс, а показатель степени). Положим также Щк = SJk. Тогда сумма условных вероятностей, начав со скрытого состояния j, за какое-то число шагов перейти в состояние к и не породить перед этим попаданием в к ни одного наблюдаемого 00 00 ч = Е 4 = Е i(JA)l)Jk = Ш - ^г% (обратимость матрицы / - J А следует (!) из стохастичности матрицы А и условий bjo < 1). Обозначим Н = (I - JA)~ .
4.3. Скрытая марковская модель 159 Пусть У* = (y\,...,y*L) = (yu,...,yh) — последовательность именно тех скрытых состояний какой-то последовательности У = У[1,м]> которые порождают последовательности наблюдаемых X = Х\хд (т.е. У* входит в У как подпоследовательность), причем II = М, (концы подпоследовательности и последовательности совпадают). Вероятность P{X,Y*,Y} такой тройки последовательностей равна п / L—\ \ Тогда сумма Р{Х,У*} = ^Г>{Х,У*,У} Y совместных вероятностей по всем последовательностям У скрытых состояний, содержащим подпоследовательность с тем же концом, равную У* и породившую X, равна п / L-X ч j/„...,j4=i Ч '=i 7 L-1 = Or#)tfV*i П ((ЛЯ)«+А?+,*!+|)' г=1 а значит, полная вероятность последовательности X равна Р{Х} = Y, ПХ, Г) = ^ ((тгЯ),; П(ЛД)^+1 П О = у уЬ-;у1У '=' '=> 7 (ср. с формулой D.8)). Вычислять вероятности по этой формуле безнадежно долго, но зато понятно, что вычисление величин с^(г, X) (формула D.9)), /3i(i,X) (формула D.11)) и последующие вычис-
160 Глава 4. Анализ последовательностей; марковские модели ления при применении модели изменяются только в трех местах: всюду нужно писать • тг* = (тг#(/ - J))j = (тг(/ - JA)~\l - J)) вместо irJ9 • a% = (AH(I - J))jk = (A(I - JA)~X(I - J))jk вместо ajk и • b)k = {(I- J)~xB).k вместо bjk. Обучение марковской модели с ненаблюдаемой эмиссией требует пояснений. Вычислением в пол-строки можно показать, что матрица H(I - J) стохастическая, а значит (п^) — вероятностное распределение, а матрица (a*fc), как и (b*k) — тоже стохастическая, и их можно обучить алгоритмом Баума—Велша или его обобщениями. Этого достаточно для прогнозирования и классификации, но не для восстановления последовательности скрытых состояний, поскольку настоящая матрица переходов А остается неизвестной. Полностью обучить модель можно, например, градиентными методами, или максимизацией совместного или оптимального правдоподобия. Часто применяемыми «техническими» обобщениями НММ являются введение специальных состояний без эмиссии, в частности, начального состояния с начальной вероятностью 1, а также уже упомянутых завершающих состояний из которых нет выхода. Кроме того, применяется привязка эмиссии к переходам между скрытыми состояниями, а не к самим состояниям (при этом из одного состояния в другое может быть несколько разных переходов), что эквивалентно введению в модель дополнительных скрытых состояний «на серединах ребер» и превращению прежних состояний в состояния без эмиссии. Обучение и применение таких моделей почти не отличается от обучения и применения стандартных НММ. Такие обобщенные модели намного проще объединять друг с другом. Например, на рис. 11 показана модель символа с несколькими вариантами написания (или слова с несколькими вариантами произношения). Если есть какая-либо марковская модель построения слова из символов (или речи и слов), состояния которой соответствуют символам (словам), а переходы — последовательному выписыванию (выговариванию) то, положив, что ее переходы не производят эмиссии, и заменив состояния на модели соответствующих символов (слов), сразу получим объединенную модель. Объединять стандартные НММ было бы заметно менее удобно. Кроме того за счет
4.4. Анализ последовательностей в целом 161 Рис. 11. Пример графа допустимых переходов для марковской модели рукописного символа с несколькими вариантами написания. Эмиссия может быть привязана к переходам, а может быть к состояниям, кроме начального и завершающего введения состояний без эмиссии или привязки эмиссии к переходам иногда удается заметно сократить размерность модели. Литература по построению и применению скрытых марковских моделей весьма обширна и, как правило, перегружена техническими подробностями (увы, необходимыми). Наибольшей популярностью эти модели пользуются в задачах, связанных с распознаванием речи. Для ознакомления можно порекомендовать две вводных статьи [48] и [5], содержащие также многочисленные ссылки. 4.4. Анализ последовательностей в целом Наряду с построением специфических вероятностных моделей последовательностей, для их статистического анализа можно применять и универсальные методы, если на бесконечномерном про-
162 Глава 4. Анализ последовательностей; марковские модели странстве последовательностей определить те же структуры, что определялись на конечномерных пространствах признаков, например, базисные функции, метрику или ядра \ Этот подход хорошо применим в задачах, в которых не нужно ничего понять про устройство последовательности, а нужно только научиться характеризовать последовательности в целом, в частности, классифицировать последовательности на «хорошие» и «плохие» (например, оценивать, является ли электронное письмо, т. е. последовательность символов, спамом). Он применим также и для кластеризации последовательностей. Универсальных теорий того, как распознавать последовательности в целом, нет. В каждой задаче успешно применяются специфические для нее методы, а не только следующие из общей теории статистического обучения. Например, если разработчику программы, распознающей спам, попадется на глаза последовательность символов «V I @ G R а» среди обучающего материала, он немедленно зафиксирует в качестве одного из признаков спама наличие в тексте и этой последовательности, и похожих последовательностей, отличающихся регистрами букв, заменами «А» на «@», «I» на «1» и т. п., а также количеством пробелов между ними, причем ему даже не понадобится смотреть в ответ, действительно ли это письмо является спамом. Далее в этом разделе приводится несколько несложных примеров построения базисных функций, метрик и ядер на последовательностях. 4.4.1. Базисные функции на последовательностях Самая простая функция от последовательности Х[\^\ элементов пространства признаков X — это ее длина L. Сама по себе длина для анализа последовательностей довольно бесполезна, но часто используется для нормировки других функций. Чаще всего базисные функции на последовательностях строят, индуцируя их из функций на пространстве коротких последователь- ' Применение базисных функций и ядер для статистического анализа описано практически в любом учебнике, хотя терминология может слегка варьироваться. Далее будем ссылаться на книгу [42]. Наиболее часто используемые свойства ядер приведены в приложении.
4.4. Анализ последовательностей в целом 163 ностей фиксированных длин (будем называть их пробными последовательностями или зондами.). Зонды длины к — это то же самое, к что векторы в пространстве X , и последовательности Х\\х\ при L ^ к соответствует L—k+l векторов Х[ц+щ ? X , I ^l ^ L—k+l. к Для любой функции / на X можно взять сумму, максимум, среднее, произведение и т. п. от ее значений на этих L — k+l векторах. В частности, для строк, т. е. последовательностей символов некоторого конечного алфавита X, так можно получить количество вхождений в строку каждого символа или его частоту, частоты пар смежных символов, индикатор наличия подстроки «AUG» или число ее вхождений и т. п. Набор всех базисных функций определяет отображение пространства последовательностей в спрямляющее пространство Шп. При не слишком маленькой длине зондов к их количество, а значит и размерность спрямляющего пространства п бывает слишком велика, чтобы обучать распознаватели прямо в нем. Зато при этом последовательности представляются очень разреженными векторами, поскольку большая часть зондов в них не встречается ни разу В таких случаях обычно на спрямляющем пространстве определяют метрики, ядра и т. п., вычисление которых не зависит от количества не встретившихся зондов. Такие базисные функции учитывают локальную структуру последовательности, но игнорируют глобальную. Во многих задачах это разумно, например, при статистическом анализе художественных текстов. Для сравнения опишем способ построения базисных функций на последовательностях, не игнорирующий их глобальную структуру, по крайней мере явно. Предположим, что для последовательностей есть (т. е. придумано) параметрическое семейство порождающих моделей с параметром W, пробегающим некоторую область W С Шп и в нем выбрана (желательно, обучена) модель W*. Например, семейством моделей может быть пространство скрытых марковских моделей с фиксированным графом переходов. Тогда для любой последовательности X определен вектор Е/д-Е Еп, называемый Fisher score (оценка Фишера): d\nP{X\W}\ Ux = Ux(V!*,W) = <9W w=w*
164 Глава 4. Анализ последовательностей; марковские модели Отображение X н> Ux — это вектор-функция на пространстве последовательностей, т. е. п функций, предлагаемых в качестве базисных. Традиционное обозначение Ux вместо подробного ?/"x(W*, W) скрывает то, что получившийся набор базисных функций зависит от модели W* и даже от пространства W и способа его параметризации. Польза от применения этих базисных функций для анализа последовательностей будет в том случае, когда модель W* — лучшая или близкая к лучшей в пространстве W, например, получается в результате максимизации правдоподобия P{X|W} для достаточно представительного обучающего набора X. В статье [27] предлагается следующее применение отображения X ^ Ux для классификации последовательностей. Вместо того, чтобы для каждого класса обучать отдельную НММ (стр. 142), максимизацией правдоподобия обучают одну НММ, не обращая внимания на метки классов у г. С помощью этой обученной модели вычисляют оценки Фишера U*. для всех обучающих последовательностей Xj, а затем на парах (U^^yi) обучают классификатор в пространстве Rn, например, линейную логистическую регрессию (см. [42, параграф 2.2.2]) или SVM (см. [42, раздел 4.2]). В статье [27] приводятся экспериментальные результаты, что получается лучший классификатор, чем при дискриминантном обучении нескольких НММ. Приводится также теоретическое обоснование того, что так и должно быть, впрочем, не вполне строгое и не учитывающее того, что модели для разных классов можно строить с разными пространствами состояний и графами переходов. 4,4,2. Метрики на последовательностях Любой набор базисных функций осуществляет отображение пространства последовательностей в евклидово пространство Rn и, тем самым, позволяет любую метрику в нем (не обязательно евклидову) перенести на последовательности. Так получаются разнообразные метрики, основанные на различии частотных характеристик последовательностей. Для сравнения опишем существенно другую метрику, называемую расстоянием Левенштейна или редакторским расстоянием (edit distance).
4.4. Анализ последовательностей в целом 165 В исходной работе В. И. Левенштейна [36] расстояние определяется для последовательностей нулей и единиц, но определение немедленно переносится на строки в любом алфавите. Любую строку можно превратить в любую другую с помощью последовательного применения следующих трех операций: • замена какого-либо символа строки на любой другой символ; • удаление какого-либо символа строки; • вставка какого-нибудь символа в любое место строки. Действительно, достаточно сначала удалить все символы первой строки, а потом последовательно вставить все символы второй строки, а замену символов не использовать вообще. Но это не самый экономный способ. Расстояние Левенштейна между строками определяется как минимальное число операций, достаточных для превращения одной строки в другую. Упражнение. Проверьте, что так определенное «расстояние Левенштейна» действительно удовлетворяет аксиомам расстояния. Определение легко обобщается на последовательности элементов любого метрического пространства. Пусть на пространстве элементов с расстоянием d(-, •) определена еще положительная функция д. Введем следующие тарифы: • замена элемента х на элемент х стоит d(x,x), • удаление элемента х стоит д(х), • вставка элемента х тоже стоит д(х) и определим расстояние (!) между последовательностями как минимальную стоимость последовательности операций, превращающих одну последовательность в другую. Для обобщенного расстояния Левенштейна D очевидным образом выполняются соотношения D@9 0) = 0, D.30) D(Xu, 0) = D@, Xu) = D(X, 0) + g(u), D.31) D(Xu9 Yv) = min(?>(X, Y) + d(u9 v), D(Xu, Y) + + g(v),D(X,Yv)+g(u)), D.32)
166 Глава 4. Анализ последовательностей; марковские модели где X и Y — это последовательности, и и v — элементы последовательностей, 0 — пустая последовательность, а последовательное выписывание, вроде Хи, — это последовательное выписывание. Значит расстояние D(X, Y) легко вычисляется методом динамического программирования. Упражнение. Постройте алгоритм, вычисляющий D(X[\tTn]9Y[\tn]) за время порядка ran на памяти порядка га + п. Замечание. Все-таки вычисление расстояния Левенштейна между очень длинными последовательностями — очень очень медленное. Если вспомнить, что метрические методы распознавания, например, метод ближайшего соседа, сами по себе медленны, получается, что для статистического анализа очень длинных последовательностей расстояние Левенштейна в чистом виде неприменимо. Но для любой константы do > О расстояние (!) между строками min(D(X, F), d0), не уточняющее, насколько именно непохожи совсем непохожие строки, вычисляется за время порядка rf0(m -f п) (!). 4.4.3. Ядра на последовательностях Любой набор базисных функций осуществляет отображение пространства последовательностей в спрямляющее пространство Rn и, тем самым, позволяет не только любую метрику, но и любое ядро на нем (в частности, скалярное произведение) перенести на последовательности. Например, оценка Фишера X ь-> Ux индуцирует из скалярного произведения ядро Фишера9^ К(Х,Х*) = (Ux,UX')> Более того, из любого ядра к на пространстве Rn индуцируется ядро на ' Ядром Фишера чаще называется ядро / (Ux, Ux1) (B матричной записи, если считать градиент вектором-столбцом — UX,TГ Ux), где / — информационная матрица Фишера. Из традиционных обозначений, как и в случае оценки Фишера, заботливо удалены упоминания о модели W и пространстве моделей W, для которых эта матрица определена. Напоминание: информационная матрица Фишера I — Ex(UxUx ), где ожидание считается по распределению с параметром W. Так определенное ядро Фишера инвариантно относительно диффеоморфизмов пространства W\ зато его очень трудно вычислять. В отличие от оценки Фишера и информационной матрицы Фишера, ядра Фишера Рональд Фишер не придумывал и не использовал, но они названы в его честь.
4.4. Анализ последовательностей в целом 167 последовательностях К(Х, X1) = k(Ux,Ux'), тоже иногда называемое ядром Фишера. Ядра Фишера успешно применяются при классификации последовательностей (см. [27]) и не только последовательностей: ведь оценки Фишера и ядра Фишера определены для любых объектов, для которых есть параметрическое семейство вероятностных моделей. Кроме ядра Фишера есть и совершенно другие способы построения ядер на последовательностях (и не только на последовательностях), получающиеся из вероятностных моделей. Предложение 11 • Для любого распределения вероятностей р на пространстве X совместное распределение на пространстве X х X пар независимых элементов X р(х, х) — р(х)р(х) является ядром Мерсера. • Для любого распределения вероятностей р на пространстве Хху совместное распределение на пространстве X х X пар условно- независимых при любом у G У элементов X р(х, х) = Еур(х, х\у) = Еур(х\у)р(х\у) является ядром Мерсера. ДОКАЗАТЕЛЬСТВО. Эти утверждения — всего лишь переформулировка некоторых пунктов предложения 19 и следствия 3, к тому же не зависящая от того, непрерывны или дискретны ли рассматриваемые распределения. ¦ Удовлетворяющие предложению 11 пары условно-независимых или независимых последовательностей с одинаковым распределением можно порождать с помощью моделей, похожих на НММ. Рассмотрим три последовательности случайных величин х«, у{ и S;, зависимости между которыми изображены на рис. 9, последовательность Sj по-прежнему скрытая, а последовательности х\ и yi — наблюдаемые, но смысл у них теперь другой. Теперь Xi и yi — это равноправные последовательности в пространстве признаков X, порождаемые скрытыми состояниями одновременно и независимо с одним и тем же распределением, т.е. р(хь yi\si) = Pi(xi\si)pi(yi\si). Для однородных НММ с дискретными пространствами скрытых
168 Глава 4. Анализ последовательностей; марковские модели и наблюдаемых состояний это означает, что Xi и yi порождаются с одной и той же матрицей эмиссии В. Для удобства моделирования конечных последовательностей как и на стр. 4.3.2 будем считать, что в модели есть завершающее скрытое состояние s*, порождающее с вероятностью 1 пару завершающих наблюдаемых состояний. Тогда для любой последовательности скрытых состояний s длины N N / N \ / N \ Р{Х9 Y\s} = ]J(bSlXlbSiyi) = I Ц bSlXl 1 ( Д bsiyi J = P{X\s}P{Y\s}, значит по предложению 11 совместная вероятность порождения двух последовательностей наблюдаемых состояний, которую можно неформально интерпретировать как «вероятность замены элементов одной последовательности на соответствующие элементы другой», ^repl{^[l,L], Y[\,M]} = zZ PiXlUL]> Y[\,M]\S[\,N]}P{S[\,N]} = S[UN] ( О при ЬфМ, = \ ( L~] L \ I X) ( ^ П a**i+i YliKxtbsmhs^ ) при L = M \ 8\,...,8L ^ l=\ 1=1 ' D.33) (ср. с формулой D.8)) является ядром Мерсера и на пространстве всех последовательностей. Если большинство скрытых состояний порождают одно наблюдаемое состояние (каждое — свое) с намного большей вероятностью, чем любое другое, то из ядра D.33) после нормировки 10' р/ JY V \ ^repl{^[l,L],^[l,M]} ^repl\A[l,L]> M1,M]/ ~~ V Prep\{X[\tL]9 Xl\,L]}Prep\{Y[\tM]> Y[\,M]} получается разумное расстояние A-epl{^[l,L], У[\М]} = у 2 - 2PLp\{Xl\,L]> Y[\M\) ' Без нормировки все длинные последовательности пренебрежимо маловероятны и значения ядра D.33) на них исчезающе малы.
4.4. Анализ последовательностей в целом 169 между последовательностями: если последовательности одинаковой длины почти везде совпадают, то значение ядра на них довольно велико (но меньше 1), а расстояние между ними довольно мало. К сожалению, отнормированное ядро, как и само ядро D.33), никак не замечает того, что одна последовательность длины 1 000000 получена из другой последовательности длины 999 999 приписыванием всего лишь одного элемента, т. е. почти совпадает с ней: раз длина разная, значит значение ядра на этой паре последовательностей равно нулю. Совсем другое вероятностное ядро можно получить, если соединить последовательно два экземпляра одной и той же НММ с достижимым с вероятностью 1 завершающим состоянием (стр. 160), и считать, что первый экземпляр в получившемся тандеме порождает последовательность X, а второй — Y. Тогда, если через Р{} обозначить вероятность порождения последовательности одинарной НММ, а через Pins{*, •} — вероятность порождения пары последовательностей тандемом НММ, которую можно неформально интерпретировать как «вероятность удаления одной последовательности и вставки вместо нее другой», то Pim{X,Y} = P{X}P{Y}9 т. е. последовательности X и Y независимы и по предложению 11 Pins тоже является ядром Мерсера на последовательностях. Например, если одинарная НММ состоит всего лишь из двух состояний — основного и завершающего, начальная вероятность основного состояния равна а, из основного состояния каждое возможное наблюдаемое значение порождается с вероятностью 1/т, а переход в завершающее состояние происходит с вероятностью 1 - a, то и Pms{X[ULhY[UM]} = (-) A-аJ. Это ядро совершенно безразлично к несовпадению длин последовательностей, поскольку зависит только от их суммы.
170 Глава 4. Анализ последовательностей; марковские модели Рассмотрим теперь порождающую модель пар последовательностей, получаемую вставкой в каждое ребро графа переходов раздвоенной НММ, вычисляющей ядро D.33), маленького тандема НММ (можно даже вставлять разные тандемы в разные ребра, но не будем загромождать обозначения). Обозначим множество ее скрытых состояний, унаследованных от раздвоенной НММ и порождающих пары наблюдаемых, через S^ а множество скрытых состояний тандемов, порождающих только одно наблюдаемое, через S\. Любая пара последовательностей X и Y может порождаться разными последовательностями s — (s\,..., Sjv) состояний из 52, как-то перемежаемых состояниями из S\. Порождаемые этой НММ последовательности наблюдаемых условно независимы: P{X,Y\s} = P{X\s}P{Y\s}, а значит по предложению 11 совместное распределение Р{Х, Y} является ядром. Действительно, обозначим через fln(X) множество представлений последовательности X в виде конкатенации Х[\Д = ^,^,+1^-1] ... хШпХ[Шп+\9Шп+]-\] D.34) перемежающихся п элементов и п последовательностей любых длин, возможно, пустых (здесь uj\ — \ иоп+\ — L + 1). Тогда P{X,Y\s} = 2_л II (b5/xW|bs^y/P{X[Wz+lM+l_i|}P{Y'[V/+i,Uz+I_i]}J N Е [ Y1 ПЬ*1Х«,Р{Х1и,+ \М»-1\}) = N \ Y[baiy4P{Ylvi+Uvi+l-n}) = P{X\s}P{Y\s}. 7—1 / ¦ш€Пк(Х) l=\ N E venN(Y) i=\ To, что таким образом можно получить ядро Мерсера на последовательностях, было показано в статье [60]. Значение этого ядра уже не очень сильно меняется не только при замене, но и при
4.4. Анализ последовательностей в целом 171 вставке или удалении элемента одного из аргументов, так что, от- нормировав его, можно получить расстояние на пространстве последовательностей, напоминающее расстояние Левенштейна. В заключение опишем способ построения ядер на последовательностях по любым ядрам на элементах, являющийся точным аналогом построения обобщенного расстояния Левенштейна по расстоянию на элементах и не связанный ни с какой вероятностной моделью. В отличие от расстояния Левенштейна, происхождение которого известно, а свойства проверяются очень просто, ни первоисточника этой конструкции ядер, ни ее канонической формулировки автору найти не удалось. Ниже приводятся два разных варианта. Найденное в неопубликованной работе А. Серегина [50] доказательство того, что во втором варианте действительно получаются ядра Мерсера, очень красиво, но довольно сложно. Вместо него приводится доказательство, фактически повторяющее вышеприведенное, использовавшее условную независимость последовательностей, доказательство для вероятностных ядер. Пусть на пространстве X определено любое ядро Мерсера к и любая функция д. Определим на пространстве X* конечных последовательностей в X функции «замены» {0 при L/ М, TJu \ г м D'35) [[k(xhyi) при L = M и два варианта функции «удаления и вставки» KUX{],L], YluM]) = Щ 5(х,)) (ft 9(Vi)) > D-36) 4=i ' N=i ' ^(^.Ц, ^[l.M]) = (L^M)tfins(^[l.L|,^[l.Ml). D.37) Как обычно, из предложений 19 и 20 следует, что Ктер\ и К[т являются ядрами Мерсера. Чтобы убедиться, что ядром Мерсера является и i^j2ns, достаточно проверить положительную определен-
172 Глава 4. Анализ последовательностей; марковские модели ность матрицы биномиальных коэффициентов (га + п)! (га + п\ п ) ~ га!п! симметричность которой очевидна. Лемма 6. //га + п\\°° Матрица I I I ) положительно определена. V V п ) ) m,n=0 ДОКАЗАТЕЛЬСТВО. Положительную определенность матрицы будем доказывать по критерию Сильвестра: достаточно проверить положительность всех левых верхних угловых миноров. Докажем, что каждый такой минор (размера q) равен 1. Обозначим через Лр 1 < / ^ q сохраняющую определитель операцию вычитания (/ - 1)-го столбца матрицы из 1-го. Поскольку 'га + /\ /га + (/- 1)\ _ /(га- 1) + Г I )~\ 1-1 )~\ I операция А\ состоит в сдвиге /-го столбца на 1 вниз и дополнении нулем сверху. Последовательность операций А} о (Aql_l о А\) о ... о (А\ о... о Af) (естественно, выполняемых в порядке справа налево) /га + nN переводит «прямоугольный треугольник Паскаля» /га + п\ V п ) 1 1 2 3 4 1 3 6 10 1 ... 4 ... 10 ... 20 ... в более традиционный «остроугольный» га п 1 1 1 1 0 1 2 3 0 0 1 3 0 .. 0 .. 0 .. 1 ..
4.4. Анализ последовательностей в целом 173 — нижнюю треугольную матрицу с единицами на диагонали и определителями всех левых верхних угловых миноров, равными единице. Доказательство положительной определенности закончено п\ ¦ Ядра замены и вставки — это еще не то ядро, которое хочется построить из ядра к и функции д. Сейчас с их помощью будут построены ядра на других пространствах, из которых потом будут индуцированы желаемые ядра на последовательностях. Ядра замены и вставки на паре пустых последовательностей принимают значение 1, равное произведению пустого множества слагаемых. Любое ядро К на пространстве X* конечных последовательностей в X, такое что К'@,0) = 1, можно продолжить на пространство (X*)* конечных последовательностей конечных последовательностей (здесь повторение — не опечатка!) следующим образом. Дополним каждую последовательность последовательностей X — (Х\,..., Xi) до бесконечной последовательности Х°° — (Х\,..., Xl, 0, 0,...) и определим ядро 00 К*(Х,?) = ЦК(Х?,?Г). D.38) 1=1 По предложению 20 К* является ядром Мерсера. Назовем размеченной последовательностью в пространстве X конечную последовательность Х\\уц элементов X с выделенной в ней подпоследовательностью, возможно, пустой, т. е. пару (Х[^ц, и) •> ' Лемму 6 можно доказать иначе, предъявив спрямляющее отображение, реализующее ядро К{т,п)={ п J на множестве Z+ неотрицательных целых чисел. Годится отображение ф: Z+-$L (M+), переводящее число т в функцию фт(х) = Х—е-х/\ га! Это следует из общеизвестного и легко проверяемого тождества ос / хпе~х dx = п\. о
174 Глава 4. Анализ последовательностей; марковские модели где и С {1,..., L}. Определим на пространстве размеченных последовательностей два отображения х в пространство X* обычных последовательностей и ф в пространство (Л^*)* последовательностей последовательностей, сопоставляющие размеченной последовательности ее выделенную подпоследовательность и последовательность последовательностей ее невыделенных элементов перед первым выделенным, между первым и вторым выделенными, ..., после последнего выделенного, соответственно. Тогда по предложению 20 /Сагк((Х>ы),(У,и)) = = Krepl (x(X, u), X(Y, v)) (KisY (ф(Х, и), ф{?, vj) при г = 1, 2 D.39) является ядром Мерсера на пространстве размеченных последовательностей. Каждую последовательность длины L можно разметить 2 способами — по одному на подмножество множества {1,..., L}. Обозначим множество этих подмножеств через fi^. Таким образом определено отображение пространства последовательностей X* в пространство конечных подмножеств пространства размеченных последовательностей. Значит по всеспасительному предложению 20 К'(Х[щ,?1им]) = ^2^2К^((Х^)ЛУ,у)) при г = 1,2 D.40) является ядром Мерсера. Это и есть желанные ядра на последовательностях. Напоминаем, что пространство X и ядро к и функция g нем, с которых начиналось построение — абсолютно произвольные. Неформально, ядро к имеет смысл «вероятности» замены элемента последовательности на другой, а функция g — «вероятности» вставки или удаления элемента, но, в отличие от настоящих вероятностных ядер, эти «вероятности» могут быть и отрицательными, и сколь угодно большими. Ядра К1 и К2 удовлетворяют следующими рекуррентными соотношениями: К\0,0) = \ при г =1,2, D.41)
4.4. Анализ последовательностей в целом 175 К\Хи, 0) - Kl@, Xu) = К\Х, 0)д(и) при г = 1, 2, D.42) if1 (Xu, Уг;) = X1 (X, У) (fc(w, v) - g(u)g(v)) + + ^(Xu, УM(гг) + Kl(X, Yv)g(u), D.43) #2(Xu, Yv) = #2(X, У)ф, v) + K2(Xu, Y)g(v) + + #2(Х,УиM(и) D.44) (ср. с соотношениями D.30)-D.32)). Это проверяется непосредственной подстановкой формул D.35) и D.36) или D.37) в D.38), D.39) и D.40). Из соотношений D.41)-D.44) сразу следует способ вычисления ядер Kl(X,Y) и К2(Х, У), аналогичный вычислению расстояния Левенштейна, за время, пропорциональное произведению длин последовательностей. Способов построения ядер на последовательностях (а также деревьях, графах и т. п.) весьма много. Некоторые из них сформулированы в весьма общих абстрактных терминах в статье [23], ссылки на более новые имеются в историко-литературном обзоре [51]. Около половины публикаций по применению ядер за 1997-2007 годы, упомянутых в этом обзоре, посвящены построению ядер на строках. Такая популярность ядер на строках вызвана задачами биоинформатики, в которых нужно анализировать молекулы белков, РНК, ДНК и т. п., имеющие структуру строки в алфавите из двадцати (белки) или четырех (РНК, ДНК) букв. Поскольку эти последовательности очень длинные (особенно ДНК — порядка 108 пар нуклеотидов), особое внимание уделяется быстрым алгоритмам вычисления ядер или расстояний.
Глава 5 Анализ изображений; марковские и условные случайные поля Опять скажу: никто не обнимет необъятного! К. П. Прутков Распознавание изображений является одним из самых популярных видов деятельности, использующих статистическое обучение и стимулирующих дальнейшее развитие его методов. В частности, непосредственно из него выросла теория нейронных сетей. Нейронные сети и другие общие методы распознавания обычно рассматривали изображение — либо растровое изображение, пересчитанное на растр фиксированного размера, либо какие-то другие вычисленные характеристики изображения, вроде коэффициентов многочленов Фурье — как вектор признаков, по которому нужно научиться вычислять ответ — классификацию или регрессию. А в этом разделе будут рассматриваться методы восстановления изображений по изображениям же, аналогично тому, как в главе 4 рассматривалось восстановление последовательностей по последовательностям. То есть, пространство ответов, как и пространство признаков, является очень многомерным вектором, к тому же не фиксированной размерности и обладающим дополнительной двумерной структурой, чаще всего, структурой прямоугольной матрицы. Задачи с еще более сложными и существенно различными пространствами признаков и ответов, например, определение трехмерной структуры опухоли по рентгенограммам в нескольких проекциях, здесь рассматриваться не будут.
5.1. Модельные задачи статистического анализа изображений 177 5.1. Модельные задачи статистического анализа изображений Будем использовать обозначения, аналогичные обозначениям главы 4. Через X будем обозначать наблюдаемое изображение, через Xj — его j-й элемент (который в свою очередь может быть вектором, но уже небольшой фиксированной размерности), а через У и yj — изображение-ответ и его элемент, соответственно. Двумерная структура изображений в самих обозначениях отсутствует и описывается отдельно. Через R(Y) будем обозначать множество точек изображения У, а через Ya — ограничение изображения Y на подмножество А С R(Y) (в частности, У{;} = yj). Далее будут рассматриваться методы статистического анализа изображений, применимые для следующих простейших задач, являющихся составными частями многих реальных задач. Очистка изображения от шума. Имеется обучающий набор зашум- ленных растровых изображений X = (Xi,..., Хдг) и набор последовательностей соответствующих им исходных изображений Y = = (Yi,..., Yjv). Изображения могут быть черно-белыми, серыми, цветными — любыми, но однотипными. Для каждого г множества точек R(\i) и R(Xi) совпадают, хотя для разных г они могут быть разными. Нужно научиться по любому изображению X строить по возможности очищенное от шумов изображение У. Поиск подозрительных областей. Имеется обучающий набор растровых изображений X = (Xi,..., Х#) (опять же черно-белых, серых или цветных), на которых помечены некоторые области. Например, изображения могут быть рентгенограммами какого-либо органа, на которых помечены опухоли. Нужно научиться по любому изображению X оценивать вероятность пометки каждой точки R(X). С точки зрения реализации пометку на изображении X* можно рассматривать как черно-белую картинку Y» с jR(Y^) = Д(Х^), а оценку вероятности — как серую картинку У. Разметка изображения (image labeling). Имеется обучающий набор растровых изображений X = (Хь ..., Хдг) (опять же черно-белых, серых или цветных), размеченных на области из конечного набора типов. Например, изображения могут быть аэро- или космическими
178 Глава 5. Анализ изображений; случайные поля снимками, а разметка — леса, поля, вода, снег, здания, дороги и т. п. Нужно научиться размечать любое изображение X. Опять же, разметку на изображении X можно рассматривать как картинку Y с конечным набором цветов, причем не обязательно с R(Y) = R(X), а, возможно, гораздо меньшего разрешения. Заметим, что для каждой точки R(Y) в трех вышеописанных задачах требуется обучить регрессию (для черно-белых изображений вырождающуюся в классификацию), логистическую регрессию и (многоклассовую) классификацию, соответственно. Но общие методы статистического обучения для этого неприменимы, поскольку различные точки изображения нельзя считать независимыми, да и все обучающие изображения X* могут быть разных размеров и форм. Однако все три задачи можно решать достаточно стандартным путем (хотя и с различными техническими сложностями), если построить удачное небольшое (см. раздел 1.1.6) семейство вероятностных моделей пары изображений X и Y, не зависящих от устройства множества точек R(Y), и в нем найти («обучить») хорошую модель. При этом годятся и модели совместного распределения р(Х, Y) (порождающие модели), и модели условного распределения p(Y\X) (дискриминантные модели, см. раздел 1.2.3), поскольку искомые ответы зависят только от условного распределения. Пространство вероятностных распределений на изображениях любого размера необозримо велико, поэтому статистическое обучение во всем этом пространстве не только невероятно трудно технически, но и невозможно теоретически. Радикальное предположение, что разные точки изображения равноправны и независимы, резко уменьшило бы это пространство и свело бы анализ изображений к традиционным задачам классификации или регрессии, но такие простые модели совершенно не соответствуют реальности. Как правило, при моделировании изображений идут промежуточным путем: строят вероятностную модель изображения в небольшой, но все-таки не одноточечной области, и предполагают, что такие маленькие подобласти большого изображения равноправны, а далекие друг от друга — еще и независимы. Изучением именно таких моделей, являющихся многомерным аналогом однородных марковских цепей, мы и займемся.
5.2. Случайные поля 179 5.2. Случайные поля 5.2.1. Марковские случайные поля (MRF, Markov Random Fields) Рассмотрим неориентированный граф G без петель с S вершинами и семейство случайных величин Y = (у\,..., ys), определенных в его вершинах и принимающих значение в одном и том же пространстве у. В приложениях к анализу изображений граф чаще всего будет квадратной решеткой в некоторой области плоскости (см. рис. 13), но пока годится любой граф, не обязательно даже связный (см. примеры на рис. 12-16). Две вершины называются соседями, если они соединены ребром. Множество соседей вершины v («проколотую окрестность») будем обозначать через Nf(v), а вершину v вместе с ее соседями — N(v)= {v}\JN*(v). Все распре- Рис. 12. Случайное поле на одномерной решетке о—о—6- о о—6 Vs Рис. 13. Случайное поле на двумерной квадратной решетке
180 Глава 5. Анализ изображений; случайные поля Рис. 14. Случайное поле на двумерной треугольной решетке Рис. 15. Случайное поле на трехмерной кубической решетке
5.2. Случайные поля 181 Рис. 16. Случайное поле на нерегулярном лесе деления (или плотности распределений) будем обозначать одной и той же буквой р: р (yv) — распределение случайной величины в вершине v, p(Y) = p(y\,... ,ys) — совместное распределение во всех вершинах графа, р (Ya) — совместное распределение в подмножестве вершин А. Пара, состоящая из графа и семейства случайных величин на его вершинах, называется марковским случайным полем (MRF, Markov random field), если для люоой вершины v выполнено так называемое локальное марковское свойство p{Vv\Yv\{v}) =p{Vv\Ynhv))9 E.1) если его левая часть определена , т.е. условное распределение в любой вершине при условии значений в остальных вершинах на самом деле зависит только от значений в ее соседях. Прямым вычислением, оставляемым в качестве упражнения, можно доказать следующее предложение. 1' Условная вероятность p(yl\Yy\^vy) в точке Y* = (у{,..., y*s) € У — это, по определению, дробь p(Y*)/p(Y^vy), которая может оказаться равной и 0/0. В этом случае условие E.1) ничего не требует. Альтернативный подход: вместо условия E.1) накладывать условие р(Ум'(у))р(У) =p(Yn(v))p(Yv\{v})-
182 Глава 5. Анализ изображений; случайные поля Предложение 12 Для марковского случайного поля выполняется следующее попарное марковское свойство: для любых двух не соседних вершин v и v p{yv, Vi/\Yv\{v,v>}) = p(yv\Yv\{v,v'})p(yv>\Yv\{v,v>}). E.2) Будем сокращать словосочетание «марковское случайное поле» до традиционного в англоязычной литературе MRF. Одно и то же семейство случайных величин на одном и том же множестве вершин может быть или не быть MRF в зависимости от того, какие вершины считаются соседними (т.е. соединены ребрами). На полном графе любое семейство является MRF. Наоборот, на графе без ребер, состоящем из изолированных вершин, MRF — это в точности семейства независимых случайных величин. Возникают три естественных желания: • по условным распределениям p(yv\Yv\{v}) восстановить совместное распределение p(Y); • по совместному распределению семейства случайных величин построить граф с минимальным числом ребер, для которого это семейство является MRF; • по графу построить описание общего вида MRF на нем. Первое желание вообще никак не связано с марковским условием E.1). Оно легко удовлетворяется при строго положительных условных распределениях: для любого фиксированного значения у* ? У выполнено равенство p(Vv>Yy\{v}) _ p(yv\Yv\{v}) p(y\Yv\{v}) p(y*\Yv\{v})' значит P(Y)=p(y\,...,ys) = p(yj\yu---,yj-uy\--,y*) s N *-— = p(y*>---,v*) П~г^ * ~3 *\> 4 v ' f4 p{y * l/i, - -., 1/j-i, I/ ,...,2/ ) s J~l * v / s-j
5.2. Случайные поля 183 где вероятность р ( у ,..., у I однозначно определена вероятност- s ной нормировкой, в частности, положительна. Условие положительности всех условных распределений можно несколько ослабить, но следующий пример показывает, что, вообще говоря, совместное распределение по условным не восстанавливается. Пример. Пусть граф G состоит из двух вершин, соединенных ребром, а условные вероятности заданы равенствами Р(У\\Уг) = р{Уг\У\) = 8уГ Тогда совместное распределение р(у\, Ут) — это любое распределение с носителем на диагонали yx—y-i- > Второе желание, казалось бы, удовлетворяется обращением предложения 12: сначала берется полный граф, а потом ребра между парами вершин, для которых выполнено условие E.2), удаляются. В нижеследующих предложении и примере показано, что это действительно получается, если распределение строго положительно, и не получается в общем случае. Предложение 13 Если для всех nap вершин случайного поля со строго положительным распределением p(Y) выполнено попарное марковское свойство, то оно является MRF. ДОКАЗАТЕЛЬСТВО. Удобно начать с полного графа и удалять ребра, удовлетворяющие условию E.2) поштучно, проверяя, что при этом сохраняется локальное марковское свойство E.1). Для строго положительного распределения p(Y) условие E.2) эквивалентно (!) условию p(yv\Yv\{v}) =p(yv\Yv\{v,v>})> E-3) из условий E.1) и E.3) при v Е Nf(v) следует (!) P(Vv\Yv\{v}) =P(yv\YN>(v)\{v'})- Верно и аналогичное равенство с взаимно переставленными вершинами v и v , а значит ребро (г>, v) из графа MRF можно удалить. ¦
184 Глава 5. Анализ изображений; случайные поля Пример. Рассмотрим MRF с полным графом с четырьмя вершинами и случайными величинами в них, принимающими значения О или 1 с совместным распределением с носителем на диагонали: р@, 0,0,0) =рA,1,1,1) =2- Тогда для любой пары вершин выполнено условие условной независимости E.2), так что любое ребро графа, казалось бы, можно удалить без потери марковости E.1). Но если удалить все ребра, условие E.1) в изолированных вершинах не выполнено. Самый экономный способ сохранить марковость — это любым из трех возможных способов оставить два ребра, связывающие вершины попарно. > Перейдем к выполнению третьего желания — описанию общего вида распределения MRF с данным графом. Напомним, что полный, т. е. вместе с каждой парой вершин содержащий соединяющее их ребро, подграф графа называется кликой. В частности, кликами являются любая пара вершин, соединенных ребром, любая вершина или пустой подграф. Обозначим через C(G) множество клик в графе G. Распределение семейства Y случайных величин на вершинах графа G со значениями в пространстве У называется распределением Гиббса, если оно представимо в виде произведения p(Y) = Yl*c(Yc) E.4) по некоторому множеству FC C(G) клик графа G. Заметим, что Ф<? могут быть любыми функциями от своих #С 3^-значных переменных: ни равенства Фс(Ус) — р(^с), ни однозначность разложения E.4) не требуются. Поскольку распределение p(Y) неотрицательно, все функции Ф<? можно считать неотрицательными. Простейшим частным случаем распределения Гиббса является распределение независимых случайных величин. Предложение 14 Любое распределение Гиббса на графе является марковским случайным полем.
5.2. Случайные поля 185 ДОКАЗАТЕЛЬСТВО. Подставляя равенство E.4) в равенство p(Y) p(Vv\Yv\{v}) = fp(Y)dyv и сокращая совпадающие сомножители, не зависящие от yv, получаем П *c(Yc) P{Vv\Yv\{v}) = [( П *c(*c)W 4CGF, СЭи Аналогично, сокращая не зависящие от yv интегралы (при дискретном пространстве у — конечно же, суммы), в выражении / p(Y) dYv\N{v) p(yv\YN<{v)) = / p(Y) dYV\N(v) dyv получаем ту же правую часть: П ^c(Yc) ( IV \ C(iF,Cl)v . . p{Vv\Yn4o)) = —г! г • E.5) /( П *c(Yc))dyv Разбор случая, когда какие-то сомножители в знаменателе равны О, оставляется в качестве упражнения. ¦ Для всюду положительного распределения верно и обратное утверждение: Теорема 3 (J. M. Hammersley, P.Clifford, 1971 [20]). Если распределение p(Y) марковского случайного поля всюду положительно, то оно является распределением Гиббса вида E.4). Если распределение MRF не всюду положительно, оно может не быть гиббсовским.
186 Глава 5. Анализ изображений; случайные поля Пример (J. Moussouris, 1974 [43]). Граф G — квадрат с вершинами 1, 2, 3 и 4 и ребрами [1,2], [2,3], [3,4] и [4,1], случайные величины в вершинах принимают два значения 0 и 1, причем из 24 = 16 возможных наборов значений ненулевую вероятность имеют только 8: р@,0, 0, 0) = р@,0, 0, 1) = р@, 0, 1,1) - р@,1,1,1) = - рA, 1, 1,1) = рA, 1, 1, 0) = рA, 1, 0, 0) - рA, 0, 0, 0) = 1. Выполнение условия E.1) проверяется непосредственно; для облегчения проверки удобно заметить, что при любых фиксированных значениях на любой диагонали квадрата значение в одной из оставшихся вершин определено однозначно, а в значения в другой равновероятны. С другой стороны, все возможные сочетания значений в вершинах любой клики — т. е. ребра или отдельной вершины — принимаются с ненулевой вероятностью, значит распределение Гиббса E.4) было бы положительным всюду. Противоречие. > Для доказательства теоремы Хаммерсли—Клиффорда понадобится чисто комбинаторная лемма, аналогичная формуле включений-исключений. Пусть R — конечное множество, / любая функция на пространстве yR, со значениями в коммутативной группе (например, в аддитивной группе вещественных чисел R), у* Е У — произвольный элемент. Для любого подмножества А С R и набора Y = (з/ь • • • 9 Уз) € УК обозначим А (Vi при jeA, А [у при j 0 А, (в отличие от нижнего индекса в обозначении Уд, означавшего ограничение семейства величин на подмножество индексов А, верхний индекс в У означает фиксацию значений величин с индексами вне A), fA(Y) = f(YA) и AY) = T,(-l)*lA™f*(n E-6) ВсА Лемма 7. Для любого множества С С R f(Y) = Y^9A(Y), E.7) АсС
5.2. Случайные поля 187 в частности, /(У) = ДУ) = Е /М- лея ДОКАЗАТЕЛЬСТВО. Утверждение леммы получается прямым вычислением: E^)^EE(-1)#(^S)/V) = E( E (-оад)/в(у) = лес лес вел вес ^dcc\b ' вес ДОКАЗАТЕЛЬСТВО теоремы 3. Для MRF с всюду положительным распределением р применим лемму 7 к функции f(Y) = 1пр(У), заметим, что в получившемся представлении 1пР(у) = Е/(*о лея каждая функция gA(Y) фактически является функцией от ограничения Ya семейства Y случайных величин на множество А, и покажем, что все слагаемые, соответствующие не кликам, равны нулю. Пусть v, v Е А — не соседние вершины. Попарное марковское условие E.2), сформулированное в терминах условных вероятностей, можно переписать в терминах абсолютных вероятностей: / v ч р(Уу, Уу\{у,у'})р{Уу', Уу\{у,у'}) , йЧ Р{Уу, Уу', Yv\{y,y'}) = 771 ч . E.8) Р{Уу\{у,у'}) Для зафиксированных вершин v и v слагаемые в определяющей д (У) формуле E.6) можно сгруппировать в четверки, по одной на каждое подмножество В С A\{v, t/}: 9A(Y)= E (-D*B(\np(YB)-\np(YB^)- BCA\{v,v'} -\np(YBu{v']) +\np(YBu{vv'])) =
188 Глава 5. Анализ изображений; случайные поля ? (-l)#sln Р(У>(уВи{"'}) ВсА\{у^} ¦р(увиМ)р(уви{1/})' Но, если подставить формулу E.8) вместо каждого из сомножителей под логарифмом в каждом слагаемом-четверке, все получившиеся двенадцать сомножителей сокращаются и от слагаемого остается (-l)#jBln 1 = 0. ¦ Замечание. Поскольку в доказательстве теоремы 3 использовалось только попарное марковское свойство, то из него и из предложения 14 снова следует утверждение предложения 13. Таким образом, MRF с положительным совместным распределением всегда является распределением Гиббса вида р(У) = ехр( ]Г gc(Y)\ E.9) В дальнейшем будут рассматриваться только положительные распределения Гиббса, но вместо удобных для доказательства теоремы Хаммерсли—Клиффорда обозначений E.4) или E.9), будут использоваться классические обозначения, принятые в статистической физике: p(Y) = ^xp(-^2Ec(Yc)), E.10) где F — некоторое множество непустых клик, Ес(-) = — In Фс(*) (ср. с E.4)) — функция на ограничении поля на вершины клики С, а множитель Z = - In Ф0 однозначно определен вероятностной нормировкой распределения. 5.2.2. Модель Изинга и другие примеры Вероятностные модели вида E.10) широко применяются в статистической физике. Действительно, если в распределении Больц- мана p(Y) ос е~ * '/( т' набор случайных величин Y описывает набор систему частиц, находящихся в вершинах графа G, энергия Е системы считается равной сумме энергий взаимодействия групп
5.2. Случайные поля 189 Модель Изинга близких частиц, причем вершины графа соединены ребром в точности тогда, когда они входят в какую-то такую группу, а температура Г фиксирована, то распределение имеет в точности вид E.10). Самая простая и самая знаменитая модель такого рода — это модель Изинга, названная в честь Эрнста Изинга, впервые применившего ее в 1920-е годы для описания ферромагнетизма. Модель устроена следующим образом. Вершины графа G соответствуют атомам кристаллической решетки. У каждого атома Vj и имеется «магнитный спин» Sj, принимающий значения ±1 (грубо говоря, это проекция магнитного момента на фиксированное направление). Энергия взаимодействия г-го и j-ro атома считается равной -JijSiSj, где для пары соседних атомов коэффициент Jij = J > 0 постоянен (т. е. соседним атомам энергетически выгоднее иметь однонаправленные спины), а для не соседних — равен нулю. Взаимодействие групп из более чем двух атомов не учитывается, даже если в кристаллической решетке есть клики, отличные от пар вершин. Если вещество находится в одномерном внешнем магнитном поле напряженностью hj в j-й вершине, то к энергии попарного взаимодействия атомов добавляются энергии -hjSj взаимодействия атомов с полем (т. е. спину энергетически выгоднее быть направленным вдоль поля). В результате распределение Больцмана для модели Изинга получается следующим: V f X i<j\{vi,Vj}e? j ' где F — множество ребер графа G(Y), a z(T,h)= J2 ехр(^ Е s^ + ^EM;)- E-12) Самым сложным в применении модели E.11), является вычисление множителя Z(T, h), хотя бы приближенное, поскольку количество слагаемых в сумме E.12), равное 2 , экспоненциально велико. В модели Изинга проявляются экспериментально известные свойства ферромагнетиков: при слабом внешнем поле и низких температурах в решетке образуются довольно большие области ато-
190 Глава 5. Анализ изображений; случайные поля мов с одинаковым спином (магнитные домены); при повышении температуры они уменьшаются '. Примерно так же, как магнитные спины в ферромагнетике от внешнего поля, зависит чистое черно-белое изображение от изображения, на которое наложен случайный шум: чистое изображение коррелировано с зашумленным, но в нем всегда есть достаточно большие области постоянного цвета, что в зашумленном изображении крайне маловероятно. Эти соображения позволяют применить аналог модели Изинга для очистки изображения от шума. Нужно только научиться подбирать подходящую температуру... Аналоги модели Изинга ПУСТЬ G ~ квадратная решетка в дву- ализа изображений мерной области, обычно в прямоугольнике, X=(xi,...9xs)wiY= (уь ...,ys), X,Y6 {-1, \}R — наблюдаемое зашумленное и ненаблюдаемое чистое изображение, соответственно. Рассмотрим утрированно простую модель условного распределения p(X\Y): шумы в каждой точке независимы и одинаково распределены, вероятность значения Xj (-1 или +1, черное или белое) зашумленного изображения в j-м узле зависит только от значения yj чистого изображения в этом же узле, причем p(xj = yj) > p(xj Ф yj). Без ограничения общности можно считать, что P(*i\Vi) = ер + е-/г где /3 > 0. Априорное распределение p(Y) на пространстве изображений положим равным Р^ = ~7йл ехр (a ^ VW)' EЛЗ) как в модели Изинга без внешнего поля. Тогда пара изображений X и Y является MRF, граф которого — двухслойная решетка, изображенная на рис. 17 (ср. с рис. 5 для НММ), а совместное рас- ' В модели Изинга на неограниченных решетках размерности два и более, как и на практике, домены резко разрушаются при достижении некоторой критической температуры; в одномерной модели, исследованной самим Изингом, такого эффекта нет.
5.2. Случайные поля 191 пределение p(X,Y)=p(Y)p(X\Y) = z(^/3)exp v* S УгУз + Р^хту E. 14) J<j|{"i."j}eF где а,/? > 0. Пользуясь тождествами Xj = у^ = I модель E.14) можно переписать в виде 1 P(X,Y) = Z(a,C) exp -1 a XI (Уг~ Уз? + 0 5Z(s,- ~ УзJ) *<j|{t>i,Wj}€F i E.15) с вдвое меньшими параметрами а и /3 и другим нормировочным коэффициентом Z(a,C). В таком виде она применима не только к черно-белым, но и к серым (xj, г/j Е R) и цветным (#j, $/j € К ) изображениям. Кроме того, открывается простор для экспериментов с попарными энергиями, отличными от квадратов разностей, например, P(X,Y) = 1 Z(a9fl exp a S (Vi-Vif + P i<j\{vi,Vj}e? J ^\*j-Vj\jy Изображенное на рис. 17 MRP с совместным распределением E.14) или E.15) является порождающей моделью. При другой вероятностной модели шума (например, когда «грязное» изображение в точке зависит от «чистого» в нескольких соседних точках) получится другое MRF с другим распределением. На самом деле для распознавания изображений вместо совместного распределения р(Х, Y) достаточно моделировать условное распределение p(Y\X), имеющее, ту же самую функцию энергии, но зависящий от X нормировочный множитель. В частности, совместному распределению E.15) соответствует условное распределение p(Y\X) = 1 Z(a,C,X) exp [-(. <3\{vi,Vj}€f J E.16)
192 Глава 5. Анализ изображений; случайные поля Рис. 17. Граф двумерной модели Изинга а из совместного распределения E.14) получается (с точностью до обозначений) модель Изинга E.11). Можно показать, что при непрерывном пространстве ответов У для вышеописанных модификаций модели Изинга E.14)-E.16) наиболее вероятное поле ответов Y при данном зашумленном изображении X является сглаженным полем X \ Таким образом, вместе с устранением шума эти модели сглаживают контуры изображения. Поскольку контуры, ' Например, максимизация по вещественнозначному полю Y выражения E.16) на прямоугольной решетке сводится к решению системы уравнений 0 = -&. (° ? (у* - wJ+р ?<** - wJ) = Уз V i<3\{vi*vj№ J = ~2(а ? (Vi ~ Vj) + Р(х3 ~ У])) > V i\{vi,Vj}& ' т. е. к разностному аналогу эллиптического уравнения в частных производных второго порядка aV2y - /Зу = -/Зх.
5.2. Случайные поля 193 как правило, являются наиболее информативной частью изображений, для устранения шумов при сохранении контуров приходится применять более сложные модели. Опуская технические детали, приведем идею построения MRF для таких моделей, заимствованную из работы [17]. Граф этого MRF изображен на рис. 18. Изображение X, как и в модели Изинга (рис. 17), состоит из значений Xj (черно-белых серых или цветных) в вершинах прямоугольной решетки, а поле ответов — из таких же значений yj в вершинах решетки, а также двоичных значений уц Е {0, 1} на ее ребрах. Удобно считать, что эти значения у^ находятся в серединах ребер. На рис. 18 слева каждая такая середина ребра соединена с обеими его вершинами и для каждого элементарного квадрата решетки середины всех его ребер соединены друг с другом; справа изображены клики получившегося графа. Равенство уц — 1 означает, что между соседними вершинами V{ и Vj проходит линия контура, поэтому яркости/цвета yi и yj друг от друга не зависят, т. е. энергия их взаимодействия равна нулю. Но и сами контуры в поле ответов также имеют энергию, пропорциональную (с не очень большим коэффициентом 72) их суммарной длине, оцениваемой как количество пересекаемых ими квадратов решетки, плюс (с гораздо большими коэффициентами 7ь 7з и 74) количества особых Рис. 18. Граф упрощенного MRF для очистки изображения от шумов (по мотивам работы [17]). Слева изображен фрагмент графа, справа — клики, участвующие в вычислении энергии
194 Глава 5. Анализ изображений; случайные поля точек на них: концов контуров, тройных и четверных точек, соответственно. Обозначим для краткости через Q множество элементарных квадратов прямоугольной решетки, через n(Y, s) — сумму значений уц в серединах ребер квадрата s и положим 7о = 0. Обобщением распределения E.16) будет распределение P(Y\X)= \ Y,e~E^Y\ E.17) Z(a9 p, X) где E(X9Y) = a Yl (l-yiMyi-yjJ+^(xJ~yjJ + J2^(Y,sy i<j\{vi,Vj}e? j 5€Q E.18) 5.2.3. Условные случайные поля (CRF, Conditional Random Fields) Тройка, состоящая из графа G, семейства Y = (j/ь ..., 2/s) случайных величин, определенных в его вершинах и случайной величины X (которая может также являться семейством случайных величин в вершинах графа G, но может и не являться), называется условным случайным полем (CRF, conditional random field), если для любой вершины v выполнено равенство Условное случайное поле p(Vv\Yv\{v}> X) = p(yv\YNI{v), X), E.19) где, как и в равенстве E.1), через N'(v) обозначено множество соседей вершины v в графе G. Если распределение p(Y\X) условного случайного поля (CRF) положительно при любых значениях X и У, то для него справедлива теорема Хаммерсл и—Клиффорда 3, причем доказательство переносится с марковских полей на условные без малейших изменений. В дальнейшем будем предполагать распределение CRF положительным и представленным в виде распределения Гиббса E.10), зависящего от X как от параметра P(Y\X) = щ^ ехр (- J]) ЕС(Х, Ус)). E.20)
5.2. Случайные поля 195 Рис. 19. Кликами этого графа являются единичные квадраты решетки и их подмножества Выше было показано, что из гиббсовского представления E.15) совместного распределения р(Х, Y) марковского поля немедленно получается гиббсовское же представление E.16) условного распределения p(Y\X), т.е. из MRF получается CRF. Пример CRF Но CRF можно строить и другими способами. Например, разметку аэрофотоснимков можно организовать так. • Сначала на небольших фрагментах изображений, например, на квадратах фиксированного размера I x /, обучить распознаватель (скажем, нейронную сеть), оценивающий вероятность р (у\Х) принадлежности всего фрагмента каждому из возможных классов. • Затем построить MRF с распределением Гиббса p(Y) следующим образом: о каждая вершина графа соответствует квадрату / х / точек изображения; о вершины образуют прямоугольную решетку, но соседними считаются, например соседи и по горизонтали и по диагонали (рис. 19), так что кликами являются четверки вершин квадратов решеток и их подмножества, т. е. непустые клики бывают десяти типов: четверки, тройки четырех возможных ориентации, пары по вертикали, горизонтали или одной из двух диагоналей и отдельные вершины;
196 Глава 5. Анализ изображений; случайные поля о каждому возможному распределению меток классов Yq в вершинах клики С типа номер t(C) приписывается некоторая функция Et(c)(Yc)> не зависящая от положения клики С в решетке; при разметке на q классов получается порядка q параметров вне зависимости от размеров изображения. • И наконец, задать CRF (!) распределением / 10 p(F|X)ocexp hJ^lnp(yv\Xv)-Y^ Е Я,(УС) ^ veV t=\ C€C(G)\t(C)=t где Xv — это ограничение изображения X на квадрат, соответствующий вершине v разметки, fVv(Xv) — даваемая локальным распознавателем оценка вероятности p(yv\Xv), а параметр 7 определяет, насколько можно доверять независимой классификации квадратов, и подбирается вместе с функциями Et(Yc) при обучении. При изучении CRF часто заимствуется из статистической физики идея включать CRF E.20) в однопараметрические семейства p№,x) = _J_exp(_g^M). (,21) и терминология • Ес(Х, Yc) называется энергией взаимодействия в клике С; • - In Z(T, X) называется свободной энергией; • параметр Т > 0 называется температурой', • любой набор Y — (уь ..., ys) величин из пространства ответов У, а не только случайный, называется полем. В последующих разделах мы будем рассматривать семейства CRF на семействах графов немного более общего вида, чем в приведенных примерах. Зафиксируем семейство подмножеств С\,..., См множества всех непустых клик всех графов семейства, такое что клики одного подмножества Ст изоморфны (например, графы считаются вложенными в плоскость — все-таки речь идет о анализе изображений — а изоморфизмы клик порождены параллельными
5.2. Случайные поля 197 переносами плоскости). Множества Ст могут пересекаться и даже совпадать. Для каждого индекса га, называемого типом энергии, для каждой клики С Е Ст определена функция энергии Ет(Хт?, Yc), где Yc — это, как обычно, ограничение случайного поля на вершины клики С, а Хт,с — некоторая, зависящая от типа энергии га и клики С часть изображения X, которое не обязательно является случайным полем на том же графе. Тогда обещанное семейство CRF — это семейство случайных полей Y на графах G(Y), вообще говоря, разных, с распределениями Гиббса 1 г 'м p№'x) = z(^)exp -\У2*т S Em(Xmic,Yc)J 4m=l CeC(G(Y))nCm E.22) зависящими от вектора коэффициентов w = (w\,..., wm). Обозначим через Em,X,Y — 2^ Ет(Хт,С> Yc) cec(G(Y))ncm сумму энергий типа га по всем кликам графа G(Y), на котором определено поле ответов Y для изображения X, а через Ех,\ — вектор всех Ет^\- Тогда сумма м га=1 — это скалярное произведение (w, E\,y)9 и формула E.22) переписывается в более компактном виде p(Y\w,X) = -±-e^Ex*K E.23) Z(w, X) Однопараметрическое семейство распределений Гиббса E.21), зависящее от температуры, является частным случаем М-парамет- рического семейства E.22). В дальнейшем при обсуждении обучения CRF будет использоваться представление E.22) или E.23) для условного распределения, а при обсуждении применения фиксированного CRF — любое из представлений E.20), E.21), E.22) или E.23).
198 Глава 5. Анализ изображений; случайные поля 5.3. Применение случайных полей для анализа изображений После того, как для поля ответов Y в какой-либо задаче анализа изображений построено семейство CRF E.23), возникает потребность в следующих вычислениях: 1) по изображению X и полю ответов Y вычислить вероятность p(Y\X); 2) по изображению X вычислить наилучшее поле ответов Y (задачи очистки изображения от шумов или разметки), т. е. максимизировать p(Y\X) no Y; 3) по изображению X вычислить распределение вероятностей в каждой точке p(yv\X) (задача поиска подозрительных областей); 4) по обучающему набору (X, Y) выбрать оптимальное CRF в семействе (обучить CRF), например, максимизируя правдоподобие p(Y|X) по параметрам модели. Вычисление 1 нужно не само по себе, а как первый этап последующих вычислений. Основная трудность в вычислении 1 — это вычисление нормировочного множителя Z(w,X)= J e-^E^dyi...dys, y\,-",ys где, как обычно, для дискретного пространства ответов у интеграл превращается в сумму Z(w,X)= Yl e-{w'Ex-Y). E.24) y\,-'-,yszy Вычислять этот интеграл или сумму непосредственно — неприемлемо (экспоненциально по размеру изображения) долго. Сделать это аналитически удается крайне редко. Для CRF на одномерных решетках или деревьях известны быстрые рекурсивные алгоритмы вычисления таких сумм, аналогичные алгоритму «вперед-назад» для НММ (стр. 135). Но для двумерных решеток приемлемо быстрых точных алгоритмов не известно, зато известны разнообразные приближенные, более или менее быстрые, более или менее сложные, гарантирующие или не гарантирующие сходимость к разумному ответу.
5.3. Применение случайных полей для анализа изображений 199 К счастью, вычисление 2 (минимизация p(Y\X) no Y) не требует вычисления Z(w, X). Остаток этого раздела состоит из описания некоторых не слишком сложных стохастических алгоритмов проведения вычислений 2-4 в обход честного вычисления 1 (вероятности p(Y\X)) и рассмотрения методов приближенной оценки Z(w, X) и распределений р (Yr\X) ограничений полей ответов на небольшие множества узлов, например, клики. Эти оценки дают альтернативные способы проведения вычислений 3-4. 5.3.1. Поиск наиболее вероятного поля ответов Для распределения Гиббса E.20) или E.21) наиболее вероятный ответ для данного изображения X — это поле У, минимизирующее стоящую в показателе суммарную энергию E(X,Y) = J2Ec(x>Yc), E.25) являющуюся функцией от многих переменных у\9... 9ys- В задачах регрессии с непрерывным пространством ответов, например, У = R, для минимизации энергии можно применять любые методы, например, градиентные. В исключительно счастливом случае, если энергия выпукла по У, как, например, в CRF E.16), любой разумный градиентный метод сходится к единственному минимуму — глобальному. Если энергия не выпукла, градиентный спуск может привести в локальный минимум, не являющийся глобальным, и ничем не хороший. Для дискретного же пространства У градиентные методы вообще не применимы. Поскольку от каждого значения yv зависит очень небольшая доля слагаемых в сумме E.25), энергию удобно минимизировать покоординатно, циклически обходя все узлы v графа G(Y). Этот способ применим и для дискретного пространства У, но сходимость к глобальному минимуму энергии он тоже не гарантирует. Зато для распределений Гиббса минимизировать энергию можно с помощью специального варианта метода имитации отжига [42, стр. 119], который мы сейчас рассмотрим подробно.
200 Глава 5. Анализ изображений; случайные поля Выборка Гиббса (Gibbs sampler). Будем предполагать пространство ответов у конечным д-элементным. Тогда для распределения Гиббса E.21) условное распределение в одном узле p{yv\Yv\{v}> X) выписывается явно: В отличие от нормировочного множителя Z(T, X) распределения Гиббса в целом, вычисление нормировочных множителей адх,У) = ?ехр(- ? EciX.YPW)\ E2?) у*?У ^ Ce?,C3v ' никаких трудностей не представляет, так как сводится к суммированию небольшого числа слагаемых в каждой вершине графа. Это позволяет в пространстве случайных полей на графе G(Y) начиная с любого — случайного или нет — поля ответов У*0' строить случайные последовательности полей Y^' следующим образом: 1) зафиксируем некоторый порядок обхода г/ , гг2',... вершин v\,..., vs, так чтобы при каком-то К ^ S на любых К последовательных шагах обхода встречалась каждая вершина (например, просто обход в порядке номеров вершин с циклическим повторением); 2) на г-м шаге в вершинах v, отличных от г/, полагаем у у = = Уу , а в вершине v^ генерируем случайное значение у ^ по распределению p(yva) lYyTfJ^y X), т. е. условному распределению E.26) при условии у(г-1\ Процесс построения последовательности Y^ называется вы- боркой Гиббса {Gibbs sampler или Gibbs sampling). Последовательность Y^ очевидным образом является Марков- с ской цепью с пространством состояний у . Из пункта 1 ее построения и положительности распределения Гиббса следует, что она эрго- дична (из любого состояния в любое можно за сколько-то шагов попасть с положительной вероятностью), а из пункта 2 — что распределение Гиббса E.21) является ее стационарным распределением.
5.3. Применение случайных полей для анализа изображений 201 Теорема 4 (S. Geman, D. Geman [17]). Для любого начального поля У( ' распределение р(У*г'|У , X) при г —> оо сходится к распределению Гиббса E.21). Доказательство теоремы несложное, но громоздкое, поэтому ограничимся лишь иллюстрацией его идеи. Во-первых, в формулировке теоремы не уточнено, о какой сходимости идет речь (по вероятности, поточечной, равномерной и т.д.), поскольку рассматриваются распределения на конечных множествах и все виды сходимости равносильны. Во-вторых, из эргодичности марковской цепи и существования стационарного распределения следует, что сходиться она может только к нему. В-третьих, легко проверить, что если обозначить Д = max E(X, Y) - min E(X, Y) 8T = minp(yv\Yy\{v\x), Y,v ТО е"А/т 1 г 1 q 1 + (q - l)eA/i q и если от г-го до j-то шага пройдены все вершины графа, то для любой пары полей У и У' p(YU) = Y\Y{i~l) = У7, X) ^ (ST)S'. После чего сходимость, к тому же с явно оцененной скоростью, вытекает из следующей леммы, доказываемой почти непосредственным вычислением: Лемма 8. Для любой пары начальных полей У' и Y" и любого поля Y p{Y{i} = У|У@) = Y', X) - p{Y(i) = У|У@) = Y", X) | < < A - (qSt)S) Ш < A - eA/T) L*J. E.28) Выборку Гиббса можно строить не только для постоянного распределения Гиббса E.21), но (г) и для последовательности распределении: на г-м шаге значение у {i) генерируется по условному распределению E.26) г-го распределе-
202 Глава 5. Анализ изображений; случайные поля ния E.21). В частности, для последовательности распределений с температурой Ti -» 0 при г -» оо получается имитация отжига. Наличие количественной оценки скорости сходимости в доказательстве теоремы 4 позволяет построить «расписание отжига» (т. е. последовательность Ti), гарантирующее сходимость к минимуму энергии E.25) при любом начальном поле У*°\ Поскольку минимум энергии может достигаться в нескольких точках, понятие сходимости к минимуму необходимо уточнить. Обозначим через 7Tq(X) распределение вероятностей на пространстве полей У, сосредоточенное на множестве точек глобального минимума энергии E.25) и равномерное на нем (напоминаем, что пространство полей конечно). Будем также использовать обозначения, введенные в обсуждении теоремы 4. Теорема 5 (S.Geman, D.Geman [17]). Для любой последовательности температур Ti —>¦ 0, для которой найдется такое число го, что SA @) % ^ ;—ГГ7Т7Т пРи г > ц, и для любого начального поля Уv ; распре- In [г/К\ деление p(Y{i}\Y{0\x) при г -л оо сходится к распределению 7Го(-Х). Доказательство этой теоремы также опустим из-за его громоздкости. Легко заметить, что последовательность температур подобрана так, чтобы произведение в правой части аналога неравенства E.28) для переменной температуры стремилось к нулю. Внимательно проследив доказательство, приведенное в [17], можно получить еще и явную оценку скорости сходимости. Теорема 5, казалось бы, позволяет гарантированно находить минимум энергии E.25), т.е. строить по изображению X наилучшее поле ответов У. На самом деле при гарантирующем сходимость расписании отжига температура убывает безумно медленно, и для сходимости требуется неприемлемо большое число шагов. На практике распознавание изображений посредством имитации отжига с помощью выборки Гиббса применяется успешно, но расписание отжига приходится подбирать экспериментально.
5.3. Применение случайных полей для анализа изображений 203 Некоторым утешением может служить то, что порождение выборки Гиббса, как и покоординатная минимизация энергии, очень хорошо распараллеливается. Действительно, порядок обхода вершин графа может быть произвольным, а на каждом шаге построения выборки нужно знать только значения поля в вершинах, соседних с некоторой. Поэтому если организовать обход так, чтобы подрад шли большие массивы попарно не соседних вершин, то шаг во всех вершинах каждого такого массива можно делать одновременно. 5.3.2. Оценка распределения поля в точке В задаче поиска подозрительных областей (стр. 177), а также при некоторых методах обучения CRF, нужно научиться оценивать вероятности p(yv\X). В отличие от условных вероятностей p(yv\Yv\{v},X) E.26), вычисляемых легко, вычисление вероятностей ' p(yv\X) требует такого же неприемлемо трудоемкого суммирования, как и вычисление нормировочного множителя Z(X) E.24): YV\{v} Но из теоремы 4 следует, что для выборки Гиббса с любым начальным полем Y^' распределения р(уу\Х) сходятся к искомым вероятностям p(yv\X). Значит вероятность p(yv\X) можно оценить как частоту появления значения yv в выборке Гиббса, если только не попалась особенно неудачная выборка: Теорема 6. С вероятностью 1 для выборки Гиббса Y^' , ivv г #{г^п: у(у} = yv} p(yv\X) = km . тг-э-оо U } В англоязычной литературе совместное распределение подмножества случайных величин (в данном случае — значения yv случайного поля в одной вершине) называется marginal distribution относительно совместного распределения всего множества случайных величин (в данном случае — случайного поля Y). Название произошло от обработки статистических таблиц вручную, когда распределение одной из двух зависимых случайных величин вычисляли суммированием таблицы их совместного распределения по строке (или по столбцу) и писали на полях (margin!) таблицы. В русскоязычной литературе устоявшегося термина нет; иногда используется транслитерация «маргинальное распределение», иногда — перевод «граничное распределение».
204 Глава 5. Анализ изображений; случайные поля Аккуратное выведение теоремы 6 из теоремы 4, а также выведение из леммы 8 количественной оценки скорости сходимости (типа «для любых €>Ои77>Оип> N(e, rj) с вероятностью не менее 1 - г] выполняется неравенство #{г<п: yf =yv} p(yv\X) n < б», где N(e, rj) предъявляется явно) являются умеренно сложным техническим упражнением. Метод Монте-Карло для марковских цепей (МСМС, Markov Chain Monte Carlo). Теорема 6 для выборки Гиббса является частным случаем метода Монте-Карло для марковских цепей (МСМС, Markov chain Monte Carlo), который состоит в следующем. Пусть имеется эргодическая марковская цепь с пространством состояний У и стационарным распределением тг. Тогда для любой интегрируемой по распределению 7Г функции / и почти любой реализации j/1',..., у ,... марковской цепи ожидание функции по пространству равно ее среднему по цепи, т. е. Ъ*»М = [ f(v) d*(y) = Hm - ]Г /(/>). E.30) г=1 Замечание. Как и для оценки вероятностей в теореме 6, при наличии количественных оценок эргодичности марковской цепи можно получить оценку длины выборки Гиббса, требующейся для оценки интеграла с заданной точностью и надежностью. Метод МСМС бывает применим и тогда, когда доказательства теорем 4-6 не проходят, например, для выборок Гиббса для CRF с непрерывным пространством состояний У. Точные формулировки и обоснования этих голословных утверждений чересчур громоздки и поэтому опущены. Замечание. Метод МСМС для выборки Гиббса применим и для оценки распределений вероятностей p(YR\X) ограничений поля Y на небольшие подмножества R С V вершин графа, например, на пары вершин, соединенные ребрами, или на клики. Но поле на г-элемент- ном множестве может принимать qr значений, поэтому и количество обходов всех вершин в выборке Гиббса, и объем требуемой памяти
5.3. Применение случайных полей для анализа изображений 205 I должны расти с ростом г как qr, так что для практической применимости метода МСМС подмножества R должны быть действительно I весьма небольшими. 5.3.3. Обучение CRF Обучение CRF вида E.23), как правило, производится максимизацией апостериорной вероятности вектора параметров w при наличии какого-либо априорного распределения с плотностью po(w) и обучающего набора, состоящего из изображений X = (Xi,..., Х#) и соответствующих им полей ответов Y = (Yi,..., YN), причем пары (изображение, поле ответов) считаются независимыми, т. е. максимизируется выражение pHX,Y)ocp(ti;,Y|X) = N = Ро(™)Р (Y|w, X) = p0(w) TTp (Yi\w9 Xi) -> max. t=l Как обычно, если никакого разумного априорного распределения нет, полагается po(w) — 1, и максимизация апостериорной вероятности превращается в максимизацию правдоподобия р (Y\w, X) -> max. w Семейство распределений N p(Y\w,X) = Hp(Yi\w9Xi) i=l также является семейством распределений Гиббса E.23) на несвязном объединении G(Yi)U.. .UG(Y#) с нормировочным множителем N Z(ti;,X) = II ?(«;,*). г=1 Чтобы соответствовать введенной в разделе 1.2.6 терминологии для обучения дискриминантных вероятностных моделей вообще, введем обозначения ф(ь))= -1пр0(^) и L(w\X,Y)— lnp(Y\w, X) и будем формулировать обучение CRF как минимизацию функции
206 Глава 5. Анализ изображений; случайные поля потерь, равной, с точностью до прибавления константы, минус логарифму апостериорной вероятности: E(w, X, Y) - - \np(w, Y|X) - ф(%ю) - L(w\X, Y) = = t/>(w) + In Z(w, X) + (w, Ex,\) -> min E.31) w (ср. со стр.53). Если функция ij)(w) выпукла (в частности, если априорное распределение po(w) — гауссово, лапласово или равномерное), то минимизационная задача E.31) выпукла. Предложение 15 Функция -L(w\X, Y) = In Z(w, X) + (w, E\,\) (минус логарифм правдоподобия для семейства CRF E.23)) выпукла по w. ДОКАЗАТЕЛЬСТВО. Достаточно доказать выпуклость функции InZ(w,X), от которой -L(w\X,\) отличается на линейное по w слагаемое. Для этого достаточно доказать выпуклость ограничения функции In Z(w, X) на любую прямую w(X) = w° + Xwl, а для этого достаточно проверить, что вторая производная d2 — lnZHA),X) положительна. А это проверить легко. Обозначим через [Y] множество всех полей ответов, определенных в вершинах графа G(Y). Тогда d\ - " ' Z{w{\),\) уф] И Выпуклые минимизационные задачи хороши тем, что у них нет локальных минимумов, отличных от глобального, и любой метод
5.3. Применение случайных полей для анализа изображений 207 градиентного спуска сходится к глобальному минимуму. Градиент функции потерь E.31) легко выписывается (в предположении, что градиент функции ^{w) = - lnpo(w) легко выписывается) dE(w, X, Y) дф(т) д In Z(w, X) я = ~~а ' л *- Ех,\ = OW OW OW _ дф{г») 1 ^ -(w,ex,y) ,F _ - ~li "^7—^ч >, ^х,уе + Ьх,\ - aw Z(w,X) *-?Л dil>(w) dw dil>(w) г=1 ч Ye{\i] N М - J2 EWP (Y\w, X) + Sx,y = rem г=1 m=l C€C(G(Yi))nC, + X1EW"» S ( ^((Yi)c, (Xi)m>c) + - Y, E™(Y, (Ъ)т,с)р(Y\w,Xi)\. E.32) Yeyc * Сумма по всевозможным полям на клике С в формуле E.32) является ожиданием гТ™ №%К"с) по распределенмо wSZZZZ Гиббса р (Y\w, Xi). Все эти ожидания можно вычислять приближенно методом МСМС E.30), строя для каждого элемента обучающего набора выборку Гиббса и усредняя энергии по ней. Таким образом имеется все, что нужно для успешного градиентного обучения CRF: способ оценки градиента функции потерь по параметрам и выпуклость функции потерь, гарантирующая сходимость к глобальному минимуму. К сожалению, такой способ обучения на практике довольно медленен, поскольку для каждого шага градиентного спуска для каждого элемента обучающего набора нужно строить довольно длинную выборку Гиббса. Несколько ускорить вычисления можно, распараллеливая вычисление гради-
208 Глава 5. Анализ изображений; случайные поля ентов по элементам обучающего набора или наоборот, применяя стохастический градиентный спуск. Существенно более быстрыми, чем стохастический метод МСМС, на практике оказались вариационные методы обучения CRF основанные на приближенной оценке нормировочного множителя Z(w, X) или, что равносильно, свободной энергии - In Z(w, X), и локальных распределений — вероятностей p(Yr\w,X) ограничений полей ответов на отдельные узлы, клики или другие небольшие множества узлов R путем представления их в качестве решений некоторых экстремальных задач. 5.3.4. Оценки свободной энергии В этом разделе мы для краткости почти всегда будем опускать указание зависимости распределений CRF от изображения X, которое можно считать зафиксированным. Продолжим и обобщим начатое на стр. 196 напоминание терминологии статистической физики. Пусть имеется система из S частиц, каждая из которых может находиться в каком-то состоянии из конечного множества у. Тогда состояние всех системы описывается полем Y = (у\9... 9ys). Каждому состоянию (т. е. полю) Y приписана некоторая энергия E(Y). Системе в целом приписано также некоторое распределение вероятностей состояний p(Y). Тогда • средней энергией U(p) системы называется ожидание энергии состояния U(p) = EP,YE(Y) = Yl P(*W); E-33) Y • энтропией Н(р) называется обычная энтропия распределения р щр) = Ер;У(- Mr» = - >г p(Y) lnp(y); <5-34) у • свободной энергией F(p) системы называется разность F(p) = U(p) - Н(р) = ? № №) + ln Р(у))' E35) Y
5.3. Применение случайных полей для анализа изображений 209 Прямое отношение к свободной энергии имеет распределение Гиббса: Предложение 16 Распределение Гиббса P(Y) = \ е-?(У) является точкой глобального минимума свободной энергии F(p) no всем распределениям, а минимальное значение свободной энергии равно - In Z. ДОКАЗАТЕЛЬСТВО. Поиск критической точки (единственной!) лагранжиана L(p,X) = F(p) + \(^2p(y)-i) = = ]Г>(У)(Я(У) + In р(У) + А) - А, У выписывание свободной энергии в ней и проверка положительной определенности ее гессиана являются простым упражнением. ¦ Для CRF аналогами частиц являются вершины графа G, аналогами состояний частиц — значения yi поля в вершине, а для распределений Гиббса из семейства E.22) свободная энергия равна — In Z(w, X). Точное вычисление этой свободной энергии, как неоднократно отмечалось выше, экспоненциально медленно по количеству частиц и, тем самым, практически невозможно. Но в статистической физике разрабатывались методы приближенной оценки свободной энергии распределений Гиббса и некоторые из них оказались вполне применимы для CRF. Приближение распределения Гиббса с помощью минимизации свободной энергии. Приближенное вычисление распределения Гиббса путем минимизации свободной энергии по всем распределениям невозможно по такой же причине, что и прямое вычисление Z(w, X) — s Л потому, что размерность пространства распределении, равная q - 1, неприемлемо велика. Но можно пытаться минимизировать свободную энергию по подпространствам распределений приемлемой размерности и надеяться, что получится достаточно хорошее приближение. Или даже минимизировать «аппроксимацию свободной
210 Глава 5. Анализ изображений; случайные поля энергии» по подпространствам «не совсем распределений». Несколько вариантов построения таких подпространств и аппроксимаций, успешно применявшихся в статистической физике, мы сейчас кратко опишем, а затем один из них рассмотрим подробно. Аппроксимация усредненного поля (mean field approximation) в статистической физике состоит в том, что вместо системы нескольких взаимодействующих частиц, расположенных в вершинах графа, рассматривается несколько независимых систем, каждая из которых состоит из одной из частиц в поле, определяемом усреднением по состояниям остальных частиц. Пространство независимых распределений в вершинах, т. е. совместных распределений вида s P(Y) = I[p(Vi), имеет вполне приемлемую размерность (q- 1M. Для таких распределений и энергии E.25) свободная энергия имеет вид S S F(Pi,..-,Ps) = ^f[Pi(Vi)feEcW s = Е Е ec(y) П рЛ%)+ЕЕрЖ/Iп^)- С?? Y.C^y j:vj€C j=\ уеУ Если зафиксировать все распределения, кроме j-ro, то минимизация свободной энергии по pj сводится к задаче Е Е Ec(Y) П P*fo*) + Е Рз(Уз) topj(vj) -> min, Ce?:C3Vj Y:C->y kvk?C уеУ Рз которая решается явно (упражнение!): PjiVj) = V ехр -( Е Е Ec(yj9Y) П »(»*)) С??: СЩ Y: С\ {«,•}->У к: vk<EC\{vj} где нормировочный множитель Zj, естественно, равен сумме экспонент в правой части по всем q возможным значениям у; Е У. Выражение в круглых скобках в показателе экспоненты имеет смысл
5.3. Применение случайных полей для анализа изображений 211 энергии взаимодействия j-й частицы с усредненным полем (mean field) в j-й вершине. Начав с каких-то, например, равномерных распределений pj и, как и при построении выборки Гиббса, многократно обходя все вершины графа, на каждом шаге можно уменьшать свободную энергию. К сожалению, при этом сходимость свободной энергии к глобальному, а не к локальному минимуму никак не гарантирована. Более того, даже и глобальный минимум и реализующие его распределения Pj(yj), могут быть совсем не похожи на распределения p(yj) в отдельных вершинах, получающиеся из аппроксимируемого Гиббса p(Y), и его свободную энергию просто оттого, что минимум ищется в слишком узком классе распределений, в частности, намного меньшем, чем класс условных распределений E.20), определяющих распределение Гиббса. Аппроксимация Бете: анонс. Заметим, что для любого распределения р и энергии E.25) в вычислении средней энергии U(p) = Y,P(Y)E(Y) = J2 E Ec(Y)P(Y) E.36) Y C€F У: С->У участвуют только вероятности ограничений поля на клики. Возникает естественное желание минимизировать свободную энергию не по очень большому пространству всех распределений на всем графе, а по пространству наборов распределений V?= {рс : С Е F} на кликах. В типичном случае, когда, как в семействе E.22) имеются клики М типов, содержащие не более К вершин каждая и клики каждого типа переводятся друг в друга какими-то преобразованиями графа (например, для двумерной прямоугольной решетки М = 3 — вершины, вертикальные ребра и горизонтальные ребра — и К = 2), количество клик каждого типа не превосходит количества вершин S и размерность пространства таких наборов не превосходит (q - \)MS, что вполне приемлемо. Однако не всякое семейство V? таких локальных распределений рс на полях на кликах получается из какого-то глобального распределения р на полях на всем графе. Некоторые необходимые условия очевидны: для любой пары клик С', С" Е F с непустым пересечением С' П С" и непустого подмножества С этого пересечения (подмножество пересечения клик, конечно же, является
212 Глава 5. Анализ изображений; случайные поля кликой, но не обязательно принадлежит семейству F) распределение на С должно быть определено корректно: Pc(Yc) = J2 Pc'Vc, YC'\c) = Yl Pc"{Yc, Yc«\c). E.37) Yc'\c Yc"\c Но для графов с циклами есть еще и более сложные условия согласованности. Пример [41]. Граф G состоит из трех вершин 1, 2 и 3, соединенных в треугольник, множество клик F — из трех пар вершин, пространство ответов У двухэлементно, так что каждое совместное распределение pij на паре вершин {г, j} естественно записывается в виде матрицы 2 х 2 с положительными элементами и единичной суммой. Возьмем следующие (не зависящие от X) распределения на парах вершин: /0,4 0,1\ /0,4 0,1\ /0,1 0,4\ Pu=Ul <W' ^3==Ul 0,4,/ ' Pl-3=V0,4 0,lj и равномерные распределения р\, р2 и р3 в отдельных вершинах. Тогда в каждой вершине условие E.37) выполнено. А теперь предположим, что все локальные распределения рц получаются из некоторого глобального распределения р. Все B3 = 8) -элементное множе- ство 3^ полей на графе покрывается объединением трех 4-элементных множеств: у1^2 = {Y: у\Ф у2}9 у2^3 — {Y: у2 ф у3} и У=3 = {У: У1=Уз},но р(У1Ф2) +р(У2*3) +р(У1=3) = рЫУ1Ф2) +Р2ЛУ2ФЗ)+рЫУ1=3) = = (од + o,i) + (o,i + o,i) + (o,i + o,i) = о,б < 1. Противоречие. > Таким образом, пространство наборов локальных распределений, хотя и приемлемо по размерности, но довольно сложно устроено. В работе [6] Ханс Бете впервые применил подход, в современных терминах выглядящий так: ограничиться условиями локальной согласованности E.37) (к тому же только самыми простыми из них — для одноточечных множеств С), определить для семейств
5.3. Применение случайных полей для анализа изображений 213 локальных распределений V? энтропию и свободную энергию, в хороших случаях совпадающих с энтропией и, соответственно, свободной энергией глобального распределения р и минимизировать эту аппроксимацию свободной энергию по относительно простому пространству локально согласованных семейств локальных распределений. В отличии от аппроксимации усредненного поля, дающей оценку свободной энергии сверху, аппроксимация Бете гарантированной односторонней оценки не дает. Такие семейства локальных вероятностных распределений Vr на ограничениях полей на некотором семействе подмножеств R вершин графа, удовлетворяющих некоторым условиям локальной согласованности типа E.37), но не обязательно получающихся из какого-то распределения на всех полях, называются довериями (belief). Замечание. Смысл этого термина не совпадает со смыслом одноименного термина belief, введенного на стр. 51. Подход Бете и его аппроксимация свободной энергии оказались весьма успешными и в статистической физике, и, впоследствии, в анализе изображений. Во-первых, для минимизации аппроксимации Бете были найдены довольно быстрые алгоритмы. Во-вторых, распределения на кликах — это в точности то, что нужно для вычисления градиента по формуле E.32) при градиентном обучении CRF и достаточно для оценки распределения в вершинах (пункт 3, стр. 198). А то, что эти доверия могут не соответствовать никакому глобальному распределению вероятностей, на практике оказалось не очень существенным. Аппроксимация Бете уже разрекламирована, но еще не предъявлена. Ниже предъявляется более общая конструкция аппроксимации свободной энергии, содержащая аппроксимацию Бете как частный случай, а затем на стр.216 аппроксимация Бете рассматривается подробно. Аппроксимация Кикучи: анонс. В работе [30] Риоичи Кикучи (Ry- oichi Kikuchi) предложил аппроксимацию свободной энергии, более точную, чем аппроксимация Бете. А именно, он предложил рассматривать удовлетворяющие условиям локальной согласованности, аналогичным E.37), семейства доверий Vr для семейств
214 Глава 5. Анализ изображений; случайные поля «областей» — множеств R, уже не обязательно являющихся кликами, а, возможно, несколько больших. Каждому множеству R Е R приписывается средняя энергия доверия (т. е. вероятностного распределения) рл, равная сумме средних энергий содержащихся в R клик Щрк) = Yl P*V) E EdYch E.38) Y.R^y CcR и энтропия h(pr) = - J2 ЫгIпЫП Y:R^y а значит и свободная энергия F(pr) = U(pr) - H(pr) . Аппроксимация Кикучи Fr(Vr) свободной энергии семейства доверий Vr имеет вид Fr(vr) = Y,crf(pr)> E-39) ReR где целочисленные коэффициенты cr для максимальных (т. е. не входящих ни в какие другие) множеств семейства R равны 1, а для остальных подбираются по формуле включений-исключений, чтобы каждое слагаемое из правой части формулы E.36) (средняя энергия клики) входило с коэффициентом 1, т. е. чтобы средняя энергия вычислялась точно. Пример. Пусть граф G — квадратная решетка (рис. 13), а энергия равна сумме энергий по всем возможным кликам, т. е. по вершинам и парам вершин на ребрах, например, определяется распределением Гиббса E.16). В качестве семейства множеств R можно взять все клики (вершины и ребра) в все квадраты решетки (т. е. строго говоря, четверки вершин, являющиеся вершинами элементарного квадрата решетки). Семейство доверий Vr однозначно определяется довериями на квадратах, удовлетворяющими условиям согласованности E.37) на ребрах и в вершинах, по которым они пересекаются. Для любого квадрата средняя энергия E.38) получается суммированием по четырем его ребрам и четырем вершинам, для ребра — по нему самому и по двум его вершинам, а для вершины, естественно, только по ней самой. Легко видеть, что при коэффициентах cr в формуле E.39), равных 1 для квадратов и вершин и -1 для ребер, средняя энергия вычисляется правильно. >
5.3. Применение случайных полей для анализа изображений 215 Аппроксимация Бете получается как частный случай аппроксимации Кикучи 5\ когда семейство множеств R состоит из клик множества F, участвующих в вычислении энергии E.36), и вершин графа, т. е. при R = FU V. Условия согласованности E.37) при этом накладываются только в вершинах '. При рассмотрении аппроксимации Бете удобно отождествлять одноэлементные клики {г;} с вершинами v, распределения p{v} с распределениями pv и считать, что в каждой вершине определена энергия Ev(-) — E{v}(-) (а если не была определена, положить ее равной 0), а через F' = F\ V обозначать множество неодноэлементных клик в формуле E.36). Тогда семейство доверий Vy однозначно определяется своим подсемейством Vf> Обозначим nv=#{Ce?/: C3v}. Тогда коэффициент C{v) в формуле E.39) равен 1 - nv и свободная энергия Бете равна Ff(VF) = Y, (и(рс) + Е и<&) - Н(Рс)) + C€F' ^ veC ' + J2(l-n«)(u(Pv)-H(pv)) = v<EV = EE Pc(Y)(Ec(Yc) + lnpc(Yc)) + CeF'Yc:C^y + J212 Р"(У)W») + (J - n«) InР«(У» = E-4°) v€V уеУ = (E u<Pc)) - (E H^c) + ?A " nv)H(Pv)) = = U(VF)-HF(VF), E.41) где U(VF) совпадает со средней энергией E.33), a HF(VF) называется энтропией Бете. Применение аппроксимации Кикучи для анализа изображений подробно описано в статье [64], где показано, что технически это ' Исторически, конечно же, наоборот: аппроксимация Кикучи появилась как обобщение аппроксимации Бете. ' Как правило, аппроксимацию Бете применяют, когда энергия складывается из взаимодействия с внешним полем и попарных взаимодействий, т. е. каждая клика из F содержит не более двух вершин.
216 Глава 5. Анализ изображений; случайные поля не намного сложнее, чем применение аппроксимации Бете, а результаты получаются лучше. Мы, однако, ограничимся подробным описанием более наглядной и менее громоздкой аппроксимации Бете. Аппроксимация Бете бывает точной. Предложение 17 Для распределения Гиббса на ациклическом графе P(Y) = П ff^~ П^Ы = П Pc(Yc) П W"" • E-42) vec ДОКАЗАТЕЛЬСТВО. Сначала предположим, что граф G связен, т. е. является деревом. Будем строить расширяющуюся последовательность поддеревьев G\ С ... С G#f = G следующим образом: в качестве G\ возьмем произвольную вершину С/ Е F', а к каждому уже построенному поддереву G»_i будем добавлять очередное ребро С , имеющее общую вершину tr' с Gj-i (из ацикличности G следует что ровно одну). Справедливость равенства E.42) для ограничений поля Y на поддеревья G{ с кратностями вершин nV9 определяемыми в пределах поддерева, легко проверяется по индукции: база индукции тривиальна, а шаг следует из равенства P(YGi) /v IV \ /VI \ РС®(УС®) Рассмотрение случая несвязного ациклического графа (т. е. леса) оставляется в качестве тривиального упражнения. ¦ Следствие 2. ?с/ш гряф ацикличен, то свободная энергия Бете E.40) распределения Гиббса совпадает со свободной энергией E.35). ДОКАЗАТЕЛЬСТВО. Непосредственно проверяется, что энтропия E.34) для распределения E.42) совпадает с энтропией Бете (см. E.41)). ¦ Упражнение. На любом графе максимум энтропии Бете достигается на семействе V? равномерно распределенных доверий и совпадает с максимумом энтропии E.34). Значит, если средняя
5.3. Применение случайных полей для анализа изображений 217 энергия E.33) мала по сравнению с энтропией E.34), то минимум свободной энергии Бете E.40) близок к минимуму свободной энергии E.35). Вышеописанные частные случаи, конечно, никак не гарантируют, что минимизация свободной энергии Бете всегда позволяет оценить минимум настоящей свободную энергию, а значит, научиться вычислять распределение Гиббса (пункт 1 на стр. 198). Но попробовать стоит... Минимизация свободной энергии Бете — это решение минимизаци- онной задачи F?(V?) = ^2Y1 Pc(Y){Ec(Y) + lnpc(Y)) + C€F' У?УС + Yl ^2ру(у)Шу) + A -nv) In pw(y))-> min E.43) t^t^y iPc(Y),pv(y)} по переменным Pc(Y) (q чисел для каждой /.-элементной клики С Е F') и pv(y) (q чисел для каждой вершины v ? V графа G), удовлетворяющим линейным равенствам и неравенствам Pc(Y) > 0 Pv(y) > 0 Е Pc(Y) = 1 Yeyc ^2pv(v) = i У€У E Pc(Y)=Pv(y) Y?yc:yv=y при при при при при С € ?', Ye УС, vev, уе у, се?', vev, vece?', ye у, E.44) E.45) E.46) E.47) E.48) т. е. лежащим в пересечении произведения набора симплексов с плоскостью. Минимизируемая функция ограничена (!) и дифференцируема, область ее определения компактна и выпукла, так что ее можно было бы пытаться минимизировать свободную энергию Бете градиентным спуском. Но мы продемонстрируем другой метод, предложенный в статье [65] и, с теми или иными модификациями,
218 Глава 5. Анализ изображений; случайные поля успешно применяющийся. Основная идея состоит в том, чтобы вместо невыпуклой минимизационной задачи решать последовательность выпуклых, для которых почти все методы минимизации хорошо сходятся. Предложение 18 Если / = /+ - /~, где /+ и /~ — выпуклые функции, 1~ — опорная линейная функция к /~ в точке х и (/+ - 1~х)(х) < (/+ - 1~)(х), то /(*') < №. ДОКАЗАТЕЛЬСТВО, /(я') < (/+ - Гх){х) < (/+ - Гх){х) = f(x). Ш Из этого тривиального предложения и того, что для дифференцируемой выпуклой функции /~ опорная функция 1~ единственна и равна Ixix) = Г(х) + (Vf-(x),xf - х), следует следующий способ минимизации разности гладких выпуклых функций: начиная с начальной точки яг ' последовательно решать выпуклые минимизационные задачи x{i+l) =argmin/+(x)- (f~(x{i))+ (Vf-(x{i)),x-x{i))). x Если функция / ограничена и определена на выпуклом компактном множестве, то такая последовательность сходится (!) к точке минимума функции /, но, увы, не обязательно к точке глобального минимума. В зависимости от того, как именно представить функцию / в виде разности двух выпуклых, последовательность х^ может сходиться к разным точкам минимума. Применим этот способ к минимизации свободной энергии Бете E.43), представив ее в виде разности выпуклых (!) функций: Р+(Ъ) = Е Е Pc(Y)(Ec(Y) + lnpcOO) + cgf' уеус + ^2^2pv(y)(Ev(y) + ]npv(y))9 vev yty v<ev yey
5.3. Применение случайных полей для анализа изображений 219 Обе функции F+ и F~ дифференцируемы и строго выпуклы, а при превращении какого-либо из неравенств E.44) или E.45) в равенство производная F+ по соответствующей переменной равна -ос, что гарантирует отсутствие минимумов F+ с любой линейной добавкой на границах симплексов и позволяет не следить за условиями E.44) и E.45) на каждом шаге минимизации F+. Шаг минимизации F+ сводится к решению строго выпуклой задачи F+(vt1}) ~ (F-(V$})+(VF-(v?),vii+l))-vP) -+ min или, что эквивалентно, F+(VF)-(VF-(V$}),VF) = = F+(V?)-Y^nvY,P^+^Pv\y))^™* E.49) vev yey F при линейных ограничениях E.46), E.47) и E.48). Ее лагранжиан равен L(VF, A) = Y, 53 Pc(Y)(Ec(Y) + In Pc(Y)) + C€F' УеУс + 53 53 **№ (Е»М + lnP«fo) -nv(l+ lnPv\y))) vev yey ce?f \eyc ' vev ^yey ' +EEE^«( ? pccn-Pviv)), ceF1 vec yey ^yeyc:Yv=y где A — это набор множителей Лагранжа Ас, К и \c,v,y по одному на каждое условие E.46), E.47) и E.48), соответственно. Приравнивая нулю производные лагранжиана по довериям V? 0=d^V^)=Ec(Y) + lnpc(Y) + l + Xc + J2Xc,v,y, dpc(Y) ^ 0= л i\ =Ev(y) + inpv(y) + l-nv(l+lnp^(y))+Xv-y2\CiV>y, dpv(y) ^
220 Глава 5. Анализ изображений; случайные поля разрешая полученные равенства относительно доверий рс(У) и pv(y) pc(Y) = exp [- (ec(Y) + 1 + Ac + ^ \c,v.y) E.50) pv(y) = exp - ( Ev(y) + 1 - nv (l + 1пр^(у)) + A„ - Y^ xc,v4 СЭУ E.51) и подставляя полученные доверия pc(Y) и pv(y) обратно в лагранжиан, получаем двойственный лагранжиан L*W = ~J2 {Xo+ E exP \-(Ec(Y) + \ + Xc + YXc,v.y)] } + Yl \Xv+]Lexp vev ^ уеу Ev(y) + l-nv(l + lnp);)(y)) + Как и положено двойственному лагранжиану строго выпуклой задачи, функция L*(A) строго вогнута и имеет единственную точку глобального максимума, которую и нужно найти. Система уравнений VL*(A) = 0 легко выписывается: 0: 0 = д\с ЭГ(А) dXv Yeyc vtc ' * = -1 + ^ехр \-[Ev(y) + l-nv(\+lnp%\y))+\v-^\c,v,y) уеу L V C3v /J dL*(\) Г / M ° = 1ГГ^ = У) exp - Яс(У) + 1 + Ас + У>с,./,„) + - ( Я„(у) +1 - nvA + \npf (y)) + A„ - ^ Ac>,y ) , -exp
5.3. Применение случайных полей для анализа изображений 221 но не решается аналитически. Однако она разрешима относительно любой переменной при фиксированных остальных: Ас - In ^2 ехР I " (Ес(У) +1 + Y1 Хс*>у) Av = ln^exp - I Ev(y) +1 -nv(l +lnp{y\y)) - ^\c,v,y yey *- ^ сэу *C,v,y — = -ln< Yl exp Ytyc:yv=y EC(Y) + \C+ Y^ XW>v exp -(Ev(y)-nv(l+\np®(y))+\v- ]T Xc,v,y) C'3v,C'?C т. е. двойственный лагранжиан можно максимизировать по любой одной переменной. Из его строгой вогнутости следует, что последовательная минимизация при многократном обходе всех переменных сходится к искомой точке глобального максимума двойственного лагранжиана. Формулы E.50) и E.51), примененные в этой точке максимума, дают решение V? очередного шага E.49) минимизации свободной энергии Бете. Существует много вариантов этого алгоритма, различающихся способами обхода переменных, критериями остановки во внутренних циклах, способами введения множителей Лагранжа и их интерпретации, способом — явным или неявным — представления свободной энергии Бете в виде разности выпуклых функций, см., например, очень изящную формулировку алгоритма в статье [25]. Минимизация свободной энергии Бете: применение. Полученные с помощью этого алгоритма оценки доверий можно использовать при вычислении (минус) градиента логарифма апостериорной вероятности обучающего набора E.32) для шага градиентного обучения CRF. (Напоминаем, что не зависящие от X поля в этом разделе рассматривались исключительно для того, чтобы формулы помещались в строки.) Казалось бы, этот способ обучения ничем не лучше метода МСМС, а только хуже: в нем, как и при построении выборки
222 Глава 5. Анализ изображений; случайные поля Гиббса нужно многократно обходить все вершины всех полей ответов и в каждой вершине производить какие-то вычисления энергий всех возможных полей на содержащих эту вершину кликах; зато, в отличие от МСМС, нет никаких, даже статистических, гарантий сходимости к правильному ответу. Но на практике оказывается, что обучение минимизацией свободной энергии Бете сходится даже если внутренние циклы (максимизацию двойственного лагранжиана) проходить всего лишь по несколько раз, причем сходится намного быстрее МСМС. 5.3.5. CRF со скрытыми переменными и их обучение При анализе изображений с помощью вероятностных моделей, в частности, CRF, довольно часто модель описывает не только само растровое изображение, но и какие-то его дополнительные характеристики. Например, MRF E.17)—E.18) описывает также (предполагаемые) контуры изображения. На применение моделей наличие в них дополнительных переменных никак не влияет. Но обучение моделей с помощью обучающих наборов, не содержащих или не полностью содержащих эти дополнительные характеристики правильных ответов несколько затрудняется. Впрочем, оно полностью укладывается в схему обучения с пропущенными данными из раздела 2 и может производиться методом максимизации ожидания (ЕМ). Некоторые подробности применения метода максимизации ожидания для обучения CRF приведены в обзоре [52]. Мы же их полностью опустим. 5.4. Историко-литературные ссылки Марковские случайные поля как обобщение марковских цепей для нужд статистической физики появились в 1960-е годы [16], хотя модель Изинга — намного раньше, в 1920-е. Теорема Хаммерсли— Клиффорда [20] была доказана в 1971 году, но не опубликована сразу из-за кажущегося излишним требования строгой положительности распределения. Приведенный в статье [43] 1974 года контрпример показал, что оно не излишне. К этому времени уже были опубликованы несколько разных доказательств теоремы.
5.4. Историко-литературные ссылки 223 С работы [17] началось активное применение моделей статистической физики к распознаванию изображений. В частности, в ней впервые были применены выборки Гиббса и доказана сходимость получающегося распределения к распределению Гиббса. Последовавшая за ней лавина работ необозрима. Применению марковских случайных полей для анализа изображений посвящена, например, книга [39], доступная в электронном виде. Условные случайные поля [34] изначально предназначались для одномерных задач как дискриминантный аналог порождающих скрытых марковских моделей. Для их применения и обучения, как и для порождающих моделей, применимы аналоги алгоритмов «вперед-назад» (а именно, алгоритм распространения доверия [45]), Витерби и Баума—Велша. Эти же алгоритмы применялись, иногда успешно, и ранее для анализа двумерных изображений с помощью марковских полей, но ни обоснования применимости, ни гарантий сходимости алгоритмов не было. Более того, были реальные примеры их расходимости. Обоснование появилось в статье [63] про связь алгоритма распространения доверия с аппроксимациями свободной энергии Бете и Кикучи, после чего быстро появились и алгоритмы с гарантированной сходимостью [25,65 и др.] и более точной аппроксимацией (серия работ [63,64 и др.]). Довольно подробное введение в случайные поля с большим количеством ссылок приводится в обзоре [52], а наглядные примеры применения их в задачах анализа изображений — помимо классической работы [17], например, в статьях [33] и [26], а также в необъятном количестве других. Наряду с исторически сложившейся традицией использования при изучении случайных полей языка, заимствованного из статистической физики, встречается и описание их на стандартном языке теории вероятностей. Например, в книге [8] для моделей более общего вида, чем случайные поля, применимых не только для анализа изображений [8, глава 8], на чисто вероятностном языке описаны аналоги выборки Гиббса [8, глава 11] и приближенной минимизации свободной энергии [8, глава 10].
Приложение Напоминание о ядрах В этом приложении приводится определение ядер и простейшие способы их построения, на которые есть много ссылок в основной части текста. Приложение является небольшой частью главы 4 книги [42], в которой подробно описано применение ядер для построения распознавателей. АЛ. Ядра Пусть ф — произвольное отображение (не обязательно линейное, не обязательно непрерывное, не обязательно вложение) любого пространства признаков X (не обязательно евклидова R ) в евклидово или гильбертово пространство Н. Функция К : X х X ->• R, вычисляющая скалярное произведение в Н образов пары векторов признаков: К(х1,х2) = (ф(х1),ф(х2)) (АЛ) называется ядром (или неотрицательно определенным ядром или ядром Мерсера). Название «ядро» связано с тем, что при наличии на пространстве признаков X меры /х, в частности при X = Ш. , можно определить интегральный оператор / ^ K(f) = J K(; x)f(x) d^x), (A.2) х имеющий-таки отношение к делу, для которого функция К является ядром. Пространство Н будем называть спрямляющим пространством ядра К, а отображение ф — соответственно, спрямляющим отображением.
226 Приложение. Напоминание о ядрах АЛЛ. Построение ядер Мерсера Очевидно, что Предложение 19 Ядрами Мерсера и соответствующими им спрямляющими пространствами и отображениями являются • скалярное произведение в Ш , соответствующее тождественному отображению ф :Ш -> Е ; • произведение вещественнозначных функций K(x,z) = ф(х)ф(г); соответствующее отображению ф в пространство Н = R; • в частности, неотрицательные константы (отображение в точку) • и индикаторные функции декартова квадрата подмножества (отображение в пару точек {О, 1}). В качестве упражнения с подсказками докажите следующее предложение. Предложение 20 Ядра Мерсера можно строить следующими способами: • сумма конечного числа ядер — ядро; • произведение конечного числа ядер — ядро; • композиция ядра и любого отображения (т. е. К(ф(х), ф(г))) — ядро; • если отображение ф: X -> 2 переводит каждый элемент пространства X1 в конечное подмножество пространства X (возможно, пустое) и К — ядро на X, то К'(х', *') = ? ? К(х, г) — ядро; • предел сходящейся последовательности, в частности, сумма сходящегося ряда ядер — ядро. Подсказки. Симметричность и неотрицательная определенность вьщерживают предельный переход (последний способ построения ядер). Для остальных способов можно предъявить спрямляющее
A.1. Ядра 227 пространство и спрямляющее отображение. Это прямое произведение (оно же — тензорная сумма) исходных спрямляющих пространств и отображений, их тензорное произведение, композиция ф о гр и отображение х >-> 2_] Ф(х)> соответственно. х€ф(х') Следствие 3. В частности, ядрами являются: • линейные комбинации ядер с положительными коэффициентами; • интегралы по параметру от зависящих от параметра ядер; • многочлены с положительными коэффициентами от ядер; • экспоненты от ядер.
Литература 1. David Arthur and Sergei Vassilvitskii. How slow is the k-means method? (http://www.recognit ion.mccme.ru/pub/papers/clustering/ kMeans - socg. pdf) In Symposium on Computational Geometry, pages 144-153, 2006. 2. Leonard E. Baum and J. A. Eagon. An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology (http://www.recognition.mccme.ru/pub/papers/EM/ baum67inequality.pdf). Bull Amer. Math. Soc, 73C):360-363, 1967. 3. Leonard E. Baum, Ted Petrie, George Soules, and Norman Weiss. A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains. The Annals of Mathematical Statistics, 41A): 164-171, 1970. 4. Yoshua Bengio and Paolo Frasconi. An Input Output HMM Architecture (http://www.recognition.mccme.ru/pub/papers/HMM/ bengio95input. ps. gz). In Advances in Neural Information Processing Systems, pages 427-434. MIT Press, 1995. 5. Yoshua Bengio. Markovian Models for Sequential Data (http://www.recognition.mccme.ru/pub/papers/HMM/ Bengio99Markovian.ps.gz). Neural Computing Surveys, 2:129-162, 1999. 6. Bethe H.A. Statistical theory of superlattices. Proc. Roy. Soc. London ser. A, 150(871):552-575, 1935. 7. Christopher M. Bishop Neural Networks for Pattern Recognition. Oxford University Press, 1995. 8. Christopher M. Bishop Pattern Recognition and Machine Learning. Springer, 2006. 9. P. E. Bohmer. Theorie der unabhangigen Warscheinlichkeiten. In Rapports, Memories et Proces-verbaux de Septieme Congres international a"Actuaries, volume 2, pages 327-343, Amsterdam, 1912. 10. Leo Breiman, Jerome Friedman, Charles J. Stone, and Olshen R.A. Classification and Regression Trees. Chapman & Hall/CRC, January 1984. 11. Cantelli F. P. Sulla determinazione empirica della leggi di probabilita. Giom. 1st. Ital. Attuari, 4:421-424, 1933.
Литература 229 12. Cover Т. М. and Hart P. M. Nearest Neighbor pattern classification (http://v7ww.recognition.mccme.ru/pub/papers/NN/ cover67nearest .pdf). IEEE Transactions on Information Theory, 13:21-27, 1967. 13. Cox D. R. and Oakes D. Analysis of Survival Data. Chapman and Hall, London, 1984. 14. CoxD.R. Regression Models and Life-Tables (http://www. recognition. mccme.ru/pub/papers/survival/cox72regression.pdf). Journal of the Royal Statistical Society. Series В (Methodological), 34B):187-220, 1972. 15. Dempster A. P., Laird N M., and Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society. Series B, 39(l):l-38, 1977. 16. P. Л. Добрушин. Описание случайного поля при помощи условных вероятностей и условия его регулярности (http://www.recognition. mccme.ru/pub/papers/CRF/Dobrushin68description.pdf). ТВП, 13B):201-229, 1968. 17. Geman S. and Geman D. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images (http: //www. recognition.mccme. ru/ pub/papers/CRF/GemanPami84.pdf). IEEE Trans. Pattern Anal. Mach. Intell, 6:721-741, 1984. 18. Glivenko V. I. Sulla determinazione empirica di probability. Giorn. 1st. Ital. Attuari, 4:92-99, 1933. 19. Gopalakrishnan P. S., Kanevsky D., Nahamoo D., and Nadas A. An inequality for rational functions with applications to some statistical estimation problems. IEEE Trans. Information Theory, 37A): 107-113, 1991. 20. Hammersley J M. and Clifford P. Markov fields on finite graphs and lattices (http://www.recognition.mccme.ru/pub/papers/CRF/ hammersley71markov.pdf), 1971. 21. Trevor Hastie and Patrice Y. Simard Metrics and Models for Handwritten Character Recognition (http://www.recognition.mccme.ru/pub/ papers /tangent /hast ie97metrics .pdf). Statistical Science, 13:54-65, 1998. 22. Hastie Т., Tibshirani R., and Friedman J. The elements of statistical learning (http://www-stat-class.stanford.edu/~tibs/ElemStatLearn/). Springer, 2001. 23. Haussler D. Convolution Kernels on Discrete Structures (http://www.recognit ion.mccme.ru/pub/papers/kernels/ haussler99convolution.ps .gz). Technical Report UCSC-CRL-99-10, UC Santa Cruz, 1999.
230 Литература 24. Herbrich R. Learning Kernel Classifiers: Theory and Algorithms (http://www.learning-kernel-classifiers.org/). The MIT Press, 2002. 25. Tom Heskes. Stable Fixed Points of Loopy Belief Propagation Are Local Minima of the Bethe Free Energy (http://www.recognition.mccme.ru/ pub/papers/CRF/heskes02stable.pdf). In NIPS 15, pages 343-350, 2002. 26. Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpindn. Multiscale Conditional Random Fields for Image Labeling (http://www.recognition.mccme.ru/pub/papers/CRF/ he04multiscale.pdf). In In CVPR, pages 695-702, 2004. 27. Tommi Jaakkola and David Haussler. Exploiting Generative Models in Discriminative Classifiers (http://www.recognition.mccme.ru/pub/ papers/kernels/ jaakkola98exploiting.pdf). In In Advances in Neural Information Processing Systems 11, pages 487-493. MIT Press, 1998. 28. Juang B. H. and Rabiner L. R. The Segmental K-Means Algorithm for Estimating Parameters of Hidden Markov Models (http://www.recognition.mccme.ru/pub/papers/HMM/ juang90segmental.pdf). IEEE Trans, on Acoustics, Speech, and Signal Processing, 38(9):1639-1641, 1990. 29. Kaplan E. L. and Meier P. Nonparametric estimation from incomplete observations (http://www.recognition.mccme.ru/pub/papers/ survival /kaplanS8nonparametric .pdf). Journal of the American Statistical Association, 53:457-481, 1958. 30. Kikuchi R. A theory of cooperative phenomena. Phys. Rev., 81F):988-1003, 1951. 31. Klein J. P. and Moeschberger M. L. Survival Analysis. Techniques for Censored and Truncated Data. Springer, 1997. 32. Teuvo Kohonen. Self-Organizing Maps. Springer, Berlin, Heidelberg, 1995. 33. Kumar S. and Hebert M. Discriminative Fields for Modeling Spatial Dependencies in Natural Images (http://www.recognition.mccme.ru/pub/ papers/CRF/kumar03discriminative.pdf). In NIPS 16, pages 1531— 1538, 2004. 34. Lajferty J., Mccallum A., and Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Data (http://www.recognition.mccme.ru/pub/papers/CRF/ laffertyOlCRF.pdf). In International Confernence on Machine Learning, 2001. 35. LeCam L. On some asymptotic properties of maximum likelihood estimates and related Bayes estimate. Univ. Calif Public. Stat, 11, 1953.
Литература 231 36. В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов. ДАН СССР, 163D):845-848, 1965. 37. Yury Lifshits. The Homepage of Nearest Neighbors and Similarity Search (http: //simsearch.yury .name/references .html), 2004—2007. 38. Little R. J. A. and Rubin D. B. Statistical Analysis with Missing Data. Wiley Series in Probability and Statistics. Wiley, New York, 1st edition, 1987. 2-nd edition B002). 39. Li S. Z. Markov Random Field Modeling in Computer Vision (http: / /www. cbsr.ia.ac.cn/users/szli/mrf.book/book.html). Springer-Verlag, London, UK, 1995. 40. Lloyd S. Least squares quantization in PCM. Technical report, Bell Laboratories A957); IEEE Trans. Inf. Theory, 28:128-137, 1982. 41. Mackay D. J. С, Yedidia J. S., Freeman W. T., and Weiss Y. A conversation about the Bethe free energy and sum-product (http://www.recognition. mccme.ru/pub/papers/CRF/mackay01conversation.pdf). Technical Report TR2001-018, MERL, 2001. 42. А. Б. Мерков. Распознавание образов'. Введение в методы статистического обучения. URSS, Москва, 2011. 43. Moussouris J. Gibbs and Markov systems with constraints. Journal of statistical physics, 10:11-33, 1974. 44. Radford Neal and Geoffrey E. Hinton A view of the EM algorithm that justifies incremental, sparse, and other variants (http://www.recognition. mccme.ru/pub/papers/EM/neal98view.pdf). In Learning in Graphical Models, pages 355-368. Kluwer Academic Publishers, 1998. 45. Judea Pearl. Probabilistic Reasoning in Intelligent Systems'. Networks of Plausible Inference. Morgan Kaufmann, San Francisco, CA, USA, 1988. 46. Ross J. Quinlan. C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1993. 47. Rabiner L. R., Wilpon J. G., and Juang В. Н. A Segmental K-Means Training Procedure for Connected Word Recognition. AT&T Tech. J, 65C):21-31, 1986. 48. Rabiner L. R. A tutorial on hidden Markov models and selected applications in speech recognition (http://www.recognition.mccme.ru/pub/ papers /mm/rabiner .pdf). Proceedings of the IEEE, 77B):257-286, 1989. 49. Reichl W. and Ruske G. Discriminative Training for Continuous Speech Recognition (http: //www.recognition.mccme.ru/pub/papers/HMM/ reichl96discriminative.ps.gz). In Proc. 1995 Europ. Conf on Speech Communication and Technology, pages 537-540, 1995.
232 Литература 50. Arseni Seregin. Об одной положительно определенной форме, 2004. доступен черновик (http://www.recognition.mccme.ru/pub/papers/ kernelsZSeregin04StringKernel.pdf). 51. Martin Sewell. Kernel Methods (http://www.svms.org/kernels/ kernel -methods. pdf). http: / /www. svms. org, 2007—2009. 52. Charles Sutton and Andrew McCallum. An Introduction to Conditional Random Fields (http://www.recognition.mccme.ru/pub/papers/CRF/ suttonlOintroduction.pdf). arXiv:1011.4088vl, 2010. 53. Тихонов A. #., Арсении В. Я. Методы решения некорректных задан. М.: Наука, 1974. 54. Robert Tibshirani. The lasso method for variable selection in the Cox model (http://www.recognition.mccme.ru/pub/papers/survival/ tibshirani971asso.pdf). In Statistics in Medicine, pages 385-395, 1997. 55. Vladimir N. Vapnik The Nature of Statistical Learning Theory. Springer, 1995. 56. Vladimir N. Vapnik Statistical Learning Theory. Wiley, 1998. 57. Vladimir N. Vapnik An Overview of Statistical Learning Theory (http://www.recognition.mccme.ru/pub/papers/SLT/ Vapnik99overview.pdf). IEEE Transactions on Neural Networks, 10E):988-999, September 1999. 58. Вапник В. H., Червоненкис А. Я. Теория распознавания образов. М.: Наука, 1974. 59. Viterbi A. J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE Transactions on Information Theory, 13B):260-269, 1967. 60. Chris Watkins. Dynamic Alignment Kernels (http://www.recognition, mccme. ru/pub/papers/kernels/dynk.ps.gz). In Advances in Large Margin Classifiers, pages 39-50. MIT Press, 1999. 61. Welch L. R. Hidden Markov Models and the Baum-Welch Algorithm (http://www.recognition.mccme.ru/pub/papers/EM/Baum- Welch.pdf). IEEE Information Theory Society Newsletter, 53D), 2003. 62. Jeff С F. Wu. On the Convergence Properties of the EM Algorithm (http://www.recognition.mccme.ru/pub/papers/EM/ wu83convergence.pdf). The Annals of Statistics, 11A):95—103, 1983. 63. Jonathan S. Yedidia, William T Freeman, and Yair Weiss. Generalized Belief Propagation (http: //www. recognition .mccme. ru/pub/papers/CRF/ yedidiaOOgeneralized.pdf). In NIPS 13, pages 689-695. MIT Press, 2000. 64. Jonathan S. Yedidia, William T. Freeman, and Yair Weiss. Constructing Free Energy Approximations and Generalized Belief Propagation Algorithms (http://www.recognition.mccme.ru/pub/papers/CRF/
Литература 233 yedidia05constructing.pdf). IEEE Transactions on Information Theory, 51G):2282-2312, 2005. 65. YuilleA.L. СССР algorithms to minimize the Bethe and Kikuchi free energies: Convergent alternatives to belief propagation (http://www.recognition.mccme.ru/pub/papers/CRF/ yuille02CCCP.pdf). Neural Computation, 14:2002, 2002.
Предметный указатель 0-1-штраф 18 А 131 В 131 С 63 C(G) 184 + Dx 72 Dx 72 Е 18 Е42 Eo,;u 79 F 25 , 33 F(t) 101 JF 17 F 184 F' 215 H{w) 82 h(t) 101 fc-means 62 fc-NN (k Nearest Neighbors) 15 L(w\X, Y) 205 Lw 82 JV(v) 179 <a) 79 <A) 79 %Л) 79 ^ 115 ЛГ>) 179 nv 215 P 17 PF 211 7>y 51 Д(У) 177 Rj 115 5@ 101 S>(t) 102 T 15, 18 T* 20 t(j) 109 , 110 Ux 163 u78 v78 W 131 W 25 , 33 ^[m,n] 122 X 51 , 64 X' 64 Xx 72 A^72 * 11 , 17 X* 171 ж[/*] 89 Xij 122 [У] 206 YA 186 Ъ 177 У[го,п] 122 Y52 У 12 , 17 z 78 z 78 a/(t,X) 135 a[(i,X) 137 /?/(г,Х) 137 Pi(i,X) 135 7*(*>*) 136 <*a 29 , 45 ei(i,X) 140 »й(*.*) 137 m(x) 137 i/j 110 "j 109 П 131
Предметный указатель 235 7rfc 41 i>(w) 205 Pj 109 , 110 $i 105 vj(*.*) 140 ti(i,j,X) 136 0 166 Алгоритм ЕМ 83 — GEM 97 — Баума—Велша 147 обобщенный 150 — Витерби 140 — «вперед-назад» 134 — максимизации ожидания 82 обобщенный 97 апостериорное распределение 35 аппроксимация Лапласа 36 априорное распределение 34 Байесовская регрессия 30 байесовский классификатор 30 байесовское обучение 34 Векторное квантование 63 выборка Гиббса 200 выброс 58 , 60 Гребневая регрессия 80 Данные пропущенные 68 вполне случайно 69 случайно 69 дерево распознающее 20 дискриминант 46 доверие 51 , 213 Информационная матрица Фишера 166 Классификатор байесовский 30 классификация 13 кластер 10 , 59 кластеризатор 59 кластеризация 10 , 59 клика 184 кросс-валидация 27 кросс-тестирование 28 Логистическая регрессия 164 локальное марковское свойство 181 Максимизация апостериорной вероятности 37 — правдоподобия 38 марковская цепь 126 марковское случайное поле 181 матрица перехода 131 — эмиссии 131 метод к ближайших соседей 15 — к средних 62 — Байеса наивный 41 , 49 — ближайшего соседа 15 — Гиббса 37 — максимизации апостериорной вероятности 37 — Монте-Карло для марковских цепей 204 — наибольшего правдоподобия 38 — наименьших квадратов 54 — скользящего контроля 28 методы дискриминантные 33 , 34 — непараметрические 33 — параметрические 33 — порождающие 33 минимизация риска структурная 24 — среднего риска 19 — эмпирического риска 17 , 19 модели дискриминантные 34 — непараметрические 33 — параметрические 33 — порождающие 33 модель LR 133 — Кокса 113 — марковская 126 однородная 126 — наивная байесовская 41
236 Предметный указатель — пропорционального риска 113 — скрытая марковская 130 лево-правая 133 однородная 130 Набор валидационный 27 — обучающий 15 , 18 — оценочный 27 — тестовый 20 , 64 Обучающий набор 15 обучение 8 — байесовское 34 — без учителя 58 — дискриминантное 143 — с учителем 58 отображение спрямляющее 225 оценка Фишера 163 ошибка 18 — квадратичная 18 — обучения средняя 19 суммарная 25 — тестирования средняя 20 Пень 22 переобучение 23 поле 196 понижение размерности 65 попарное марковское свойство 182 потеря 18 правдоподобие 38 признак 10 — вторичный 11 — производный 11 проклятие размерности 16 пространство кластеров 63 — ответов 12 , 17 — признаков 11 , 17 — распознавателей 17 — распределений 17 — спрямляющее 163 , 225 Размерность Вапника—Червоненкиса 24 распознавание 8 — образов 8 распознаватель 8 — аддитивный 46 распределение Вейбулла 104 — Гиббса 184 расстояние Левенштейна 164 — редакторское 164 регрессия 13 — байесовская 30 — гребневая 80 — Кокса 113 — логистическая 164 регуляризация 26 риск 18 , 101 — средний 19 — эмпирический 19 Самоорганизующееся отображение 65 свободная энергия 196 символ Кронекера 29 , 45 случайное поле марковское 181 условное 194 состояние наблюдаемое 130 — скрытое 130 структурная минимизация риска 24 суммарная ошибка обучения 25 Температура 196 теорема Гливенко—Кантелли 108 — Хаммерсли—Клиффорда 185 Усечение данных 105 условное случайное поле 194 Функция выживаемости 101 — ошибки (потерь, риска, штрафа) 18 — распределения 101 Цензурирование 104 — справа 104 цепь Маркова 126
Предметный указатель 237 Штраф 18 — квадратичный 18 — обучения средний 19 — тестирования средний 20 Энергия взаимодействия 196 — свободная 196 энтропия 82 — взаимная 56 Ядро 225 — Мерсера 225 — неотрицательно определенное 225 — Фишера 166 Belief 51 , 213 Censored data 104 cluster 10 — analysis 10 conditional random field 194 confidence 13 CRF (Conditional Random Field) 194 cross entropy 56 curse of dimensionality 16 Derived feature 11 dimension reduction 65 discriminative methods 33 Edit distance 164 emission matrix 131 error function 18 expectation maximization 83 generalized 97 Feature 10 Fisher score 163 fitting 8 forward-backward algorithm 135 Generative methods 33 Gibbs sampler 200 — sampling 200 Hazard 101 hidden Markov model 130 HMM (Hidden Markov Model) 130 Imputation 70 impute 70 Input Output HMM 156 IOHMM (Input Output Hidden Markov Model) 156 Latent variables 77 learner 8 learning 8 — vector quantization 65 Leave-One-Out 28 left-right model 133 likelihood 38 LOO (Leave One Out) 28 loss function 18 LVQ (Learning Vector Quantization) 65 Machine learning 8 MAP (Maximum of Aposteriori Probability) 37 MAR (Missing At Random) 69 marginal distribution 203 Markov chain Monte Carlo 204 — random field 181 maximum likelihood 38 — of aposteriori probability 37 MCAR (Missing Completely At Random) 69 MCMC (Markov Chain Monte Carlo) 204 missing at random 69 — completely at random 69 — data 68 , 106 ML (Maximum Likelihood) 38 MRF (Markov Random Field) 181 Nearest neighbor 15 NN (Nearest Neighbor) 15 non-informative prior 38
238 Предметный указатель Outlier 58 overfitting 23 Partial likelihood 114 pattern recognition 8 product limit 109 proportional hazard model 113 Recognition 8 — tree 20 recognizer 8 response 12 Segmental k-means 151 self-organizing maps 65 SOM (Self-Organizing Maps) 65 statistical learning 8 structural risk minimization 24 stump 22 supervised learning 58 survival function 101 SVM 164 Test error 20 training 8 — error 19 transition matrix 131 truncated data 105 Unsupervised learning 58 Validation set 27 VC-dimension (Vapnik—Chervonenkis dimension) 24 vector quantization 63