Текст
                    ЭДВАРД А. ПАТРИК
ОСНОВЫ ТЕОРИИ
РАСПОЗНАВАНИЯ ОБРАЗОВ
Перевод с английского
В. М. БАРОНКИНА, Б. А. СМИРЕНИНА, Ю. С. ШИНАКОВА
Под редакцией Б. Р. Лев ин а
МОСКВА «СОВЕТСКОЕ РАДИО» 1980


EDWARD А. PATRICK FUNDAMENTALS OF РАTTERN RECOONITION Department of Electrical Engineering Purdue University PRENТICE-HALL, INC., ENGLEWOOD CLIFFS, N. J ., 1972
ББК 22.18 П20 УДК 621.391 Патрик Э. П20 Основы теории распознавания образов: Пер. с англ./ Под ред. Б. Р. Левина. -М.: Сов. радио, 1980-408 с., ил. /Пер. изд.: США, 1972. Впер.:2р.50к. l(ннга посвящена важнейшим разделам теории распознаванняl образов. Сне· тематически из.пожепы адекватные математические методы, вопросы синтеза алгоритмов распознавания в условиях полной и неполной априорной информации. сокращения размерности пространства признаков. l(нига рассчитана на научных работников. инженеров. аспирантов. 30501-029 П ---- 60 -80 1502000000 046(01)-80 Редакция кибернетической литературы ББК 22.18 6ФО.1 ~ Перевод на русский язык, издательство «Советское радио~, 1980 г.
От редактора перевода Многие процессы, иссJ1едовательские и технологические, на­ чинаются, как правило, с подготовки инструмента. Читатель не найдет в этой книге готовых решений конкретных задач, относящих­ ся к комплексной проблеме распознавания образов, но получит математический инструмент для точной постановки и корректного решения интересующей его задачи, если она базируется на стати­ стических методах. Как и многие другие математические средства, прикладные статистические методы, излагаемые в книге, сохраняют свою актуальность значительно дольше, чем конкретные задачи, для решения которых они уже были использованы. Это и определи­ ло целесообразность издания русского перевода книги через восемь лет после выхода в свет оригинала. В математической постановке задача :распознавания образов относится к классу статистических задач классификации совокуп­ ностей по их измерениям (наблюдениям). Правило классификации использует результаты предварительного обучения с учителем (по КJiассифицированной выборке) или без учителя-самообучения (по неклассифицированной выборке): Во многих случаях это правило синтезируется на основе байесовского критерия минимума средне• го риска с использованием оценок неизвестных параметров или плотностей вероятности по обучающим выборкам. Именно такой байесовский подход является нитью Ариадны в руках автора. Отметим некоторые особенности, отличающие эту книгу от дру­ гих монографий на аналогичную тему. Прежде всего, это идея использования смеси распределений и идентифицируемости смесей в задачах классификации, которая последовательно проводится на протяжении всей книги. Подробно рассматриваются такие непара­ метрические правила, как правила «ближайшего соседа». Широко используются методы кластеризации - разделения данных на под• группы. Читатель найдет и ряд других интересных вопросов в не­ традиционном изложении (например, вопросы, относящиеся к то­ лерантным областям или к воспроизводящим плотностям вероят­ ности, гл. 2). Книга не безупречна в методическом отношении. Редактор по­ пытался ослабить методические погрешности, опустив некоторые места, которые, как нам кажется, не способствуют лучшему пони- 5
манию текста. Исправлены также некоторые ошибочные утвержде­ ния и опечатки. Существенно сокращена гл. 1за счет общеизвестных математических результатов, большая часть которых к тому же не используется в дальнейшем. То же можно было бы сделать с м:ате­ риалом по стохастической аппроксимации, не необходимым в дан­ ной книге для сохранения логики последовательного изложения, но он не изъят по той же причине, по которой в статистических за­ дачах иногда нельзя избавиться от мешающих параметров функ­ ций правдоподобия. Читателю следует обратить внимание на тер­ мины, употребляемые в одном и том же смысле (наприме19, термины «категория» и «класс»). Книга содержит богатый библиографический указатель, редак­ тор добавил лишь несколько ссылок, которые отмечены звездочкой. Перевод выполнили В. М. Баронкин (гл. 1-3), Ю. С. Шинаков (гл. 4) и Б. А. Смирении (гл. 5-7, предисловие). Б. Р. ЛЕВИН
Предисловие Эта книга посвящена теоретическим и практическим способам классификации образов по их измерениям. Образ может представ­ лять, например, комплекс болезней, а измерения могут состоять из симптомов, признаков, истории болезни и результатов обследова­ ния пациента. В качестве другого примера образа можно привести подводную цель (например, подводную лодку), а измерения - это последовательности эхо-сигналов подводного гидролокатора. Примерами образов могут быть также клетки мозга и крови, ра­ ковые клетки, хромосомы, хлебные злаки на корню, облака, ангио­ граммы и ультразвуковые эхограммы при просвечивании внутрен­ них органов, рентгенограммы и т. д. Глава первая вводная. Она содержит основные сведения о тер­ минах и обозначениях, применяемых при оценке параметров, ха­ рактеризующих функцию плотности вероятности измерений образа. Так как функция плотности может иметь несколько мод или отли­ чаться от плотности нормального распределения вероятностей, допускается представлять ее смесью функций плотности. В пяти главах рассматриваются конечные совокупности измере­ ний (векторы конечной размерности). В гл. 6 говорится о процеду­ рах понижения размерности, включающих- статистические методы, а также новый метод, при котором вводятся априорные данные, отражающие корреляции между измерениями. В §1-2 главы 1 изложены некоторые основы теории аппроксимации; в этом парагра­ фе показано, что форма колебания или изображения является про­ странством с бесконечно большим числом измерений. Знание видов образов приводит к выявлению соотношений между размерностями в пространстве измерений, что позволяет образовать вектор с ко­ нечной размерностью. В cJiyчae непрерывных реализаций одним из способов является использование поДХодЯщих основных базисных функций для того, чтобы ввести эти данные о задаче с целью умень­ шения размерности. В § 1.3 приведены обозначения, используемые при оценке и при­ нятии решений. В § 1.4 показано, как можно подойти к оценке и принятию решений, когда дана последовательность образов (их векторы измерений), которые не являются статистически незави­ симыми. В § 1.5 подчеркнуты некоторые особенности оценки при самообучении (включая кластеризацию). В § 1.6 кратко рассмотре­ но понятие идентифицируёмости, которое представляет необходимое и достаточное условие возможности оценки при обучении без учи­ теля (при самообучении). В § 1.7 содержится напоминание о том, что оценки при обучении с учителем и без учителя отличаются ап­ риорными данными и сложностью. 7
В гл. 2 изложены свойства оценок, которые часто используются на протяжении всей книги. Основой книги является байесовская процедура оценки и вы­ бора решений. Например, в гл. 5 показано, что байесовская оценка по существу получается усреднением многих оценок по методу сто­ хастической аппроксимации; сЛедовательно, байесовская оценка не зависит от начальных данных во многих задачах, для которых оценка по методу стохастической аппроксимации зависит от них. В § 2.2-2.4 представлены такие свойства оценок, как сходимость, состоятельность, смещение, эффективность и достаточность. Затем представлены байесовская оценка, оценка максимального правдо­ подобия, оценка методом стохастической аппроксимации и проце­ дура оценки, управляемая решениями. В § 2.20 вводятся оценки, управляемые решениями, при этом применяются оценки вспомогательных параметров при вычислени,и апостериорной плотности, используемой при байесовском подходе. В § 2.9 представлена основная проблема получения оценки средне­ го значения распределения на основе и текущих и априорных дан­ ных; в § 2.11 дано обобщение, охватывающее и среднее значение вектора, и ковариационную матрицу. В§ 2.17 приведен пример ис­ ключения мешающих параметров для улучшения качества оценки. Главным препятствием при практическом распознавании образов является наличие мешающих параметров в необработанных дан­ ных. Снижение размерности и преобразование колебаний или изо­ бражения в вектор признаков (образа) или вектора данных в вектор признаков исключают мешающие параметры при «правильном» его применении. В § 2.21 вводятся толерантные области и их рас­ пределения; эти понятия используются при рассмотрении правил выбора решений по правилу «ближайшего соседа». В § 2.24 рассмо­ трена функция информации, так как она естественно возникает при изучении байесовских оценок и правил выбора решений. В гл. 3 изложены правила выбора решений, где также подчерки­ вается байесовский подход, и даны полезные практические реко­ мендации. Рассмотрены два рода правил: параметрические и непара­ метрические. В § 3.2, 3.4 изложены хорошо известные результаты, касающиеся байесовского правила выбора решений по критерию минимального риска, которое столь часто рассматривается в кни­ гах по теории связи. В этих книгах, как правило, не даются методы оценки таких параметров, как векторы средних, ковариационные матрицы и априорные вероятности классов. В § 3.3 рассмотрены правила выбора решений, основанные на локальной оценке плот­ ности; они основываются на байесовском методе, даже несмотря на то, что применяемые плотности могут быть непараметрическими. Локальная оценка плотности основывается на понятии толерантных областей, использованном затем в гл. 4. В § 3.4 рассматриваются все представляющие интерес правила выбора решений при нормальном распределении: байесовские пра­ вила выбора решений по критерию минимального риска, примени- в
мые тогда, когда совокупности имеют нормальные распределения. В п. 3.4 .4 допускается, что плотность каждого класса может пред­ ставлять смесь нормальных плотностей. Это позволяет провести па­ раметрuческий приближенный анализ непараметрических плотно­ стей, когда для оценки параметров можно воспользоваться методом кластеризации (гл. 5). Последний может оказаться одним из самых практичных методов выбора решений (распознавания образов). Существуют правила выбора решений, которые, на первый взгляд, не используют оценки плотностей, как, например, правило «ближайшего соседа». Однако можно показать, что эти правила от­ носятся к тем, в которых используется локальная оценка плотно• сти. Когда строится правило выбора решений для М категорий и отсутствуют классифицированные выборки из соответствующих категорий, а также когда распределение каждой категории может быть мультимодальным, оценка плотности каждой категории оказы­ вается затруднительной. Гл. 4 посвящена оценке функции плотности категории, когда имеется классифицированная выборка из этой категории. Параграф 4.2 служит введением в теорию непараметриче­ ской оценки плотности. В п. 4.3 .2 представлено правило Фикса и Ходжеса (первое правило ближайших соседей), в п. 4.3.2-правило Ковера и Харта (второе правило ближайших соседей), в п. 4.3 .3 - правило Патрика и Фишера (третье правило ближайших соседей). Сравнение этих правил выбора решений дается в п. 4.3 .4; сравни­ ваются также родственные им правила (правило Хеллмана с отказом выбора, основанное на приближении полиномов, и правило, в ко­ тором используется потенциальная функция). В § 4.4 представлены границы Ковера-Харта. Второе правило ближайших соседей с от­ казом от выбора приведено в § 4.5. В § 4.6 дана верхняя граница риска для правила Патрика - Фишера. § 4. 7 содержит пример оценки с помощью ЭВМ метрики для этого правила. Состоятельность правила Патрика-Фишера доказана в § 4.8, а в § 4.9 получены моменты риска для этого правила. Асимптотическое поведение ука­ занного правила рассматривается в § 4.10, 4.11, результаты, от­ носящиеся к скорости сходимости правила при малых выборках, приведены в§ 4.7, 4.12. В гл. 5 излагаются основные результаты, относящиеся к оценке при самообучении, включая кластеризацию, причем все рассмотре­ ние проводится на основе байесовского подхода. Хотя процедуры кластеризации выведены естественным путем на основе байесовского подхода, их можно считать предметом отдельной области исследо­ вания. Параграф 5.2. является введением, в котором показано, ка­ ким образом естественно появляется функция информации. В § 5.3 рассматриваются вопросы скорости сходимости при байесовском подходе для апостериорной плотности и оценок и показано, что при конечном числе точек в пространстве параметров возможна скорость больше 1/п. В п. 5.3 .5 для получения подхода типа апостериорного, несколько отличающегося от байесовского, использован критерий, отличающийся от функции информации. В п. 5.3.6 приводится ква- 9
зибайесовская оценка, которая основана на вычислении нескольких оценок методом стохастической аппроксимации, причем используют­ ся одни и те же наблюдаемые данные, но различные исходные точки; затем образуется взвешенное среднее значение. Весовые коэффи• циенты всех оценок, за исключением одной, ближайшей (в соот­ ветствии с критерием) к истинной точке параметра, быстро стремятся к нулю. В п. 5.3.8 изложен методЬценки с использованием функций Роббинса. В § 5.4 приводятся приемы кластеризации: первый прием, приведенный в п. 5.4.2, естественно вытекает из функции информации при байесовском подходе. Можно показать, что все иные приемы кластеризации связаны с байесовским решением. В по­ следующих пунктах представлены следующие приемы кластериза• ции: отображение кластеров (прием центра тяжести), цепное ото­ бражение, максимин, непрерывное отображение, выращивание кла­ стеров из их центров и кластеризация на основе вводимой априори функции сходства. В гл. 6 рассматривается весьма важная задача понижения раз• мерности, представлены обычные методы понижения размерности при помощи статисти.ческих процедур, но начиная с § 6.12 подчер­ кивается, что эти процедуры совершенно недостаточны. Показано, почему нужен метод, допускающий введение априорных данных в правило выбора решений, и как использование этих данных улуч­ шает качество, что, возможно, является важнейшим вопросом в теории распознавания образов. В гл. 7 представлен новый подход, при котором обучающие вы­ борки в пространстве измерений являются лишь одним из двух важ­ ных путей облегчения выбора решений. Другим путем является использование соотношений, вводимых человеком на основе своих знаний задачи. х Xt х х d-, $, CG, flJ, ?8 ... , '1J' ш 10 Список обозначений 1. Векторы, матрицы, множества скаляр (комплексное число, если это не вызывает недоразумений) скаляр с индексом вектор (если х имеет размерность L, то х = = [х1, Х2, ... , xL]) вектор с индексом (х1 = [xJl, Xj2 •.. , Xj L]) последовательность п векторов (хп = [х1 , х 2 , ... , Хп]) матрица, Х = [x;j]LL - квадратная матрица LX L пространства пространство измерений, хе /iC. Обычно Ш = '1J' L (которое определено ниже) называется также про­ странством наблюдений или выборочным простран­ ством
g Юt Pt х'I $'L 1/xll (х, у) 11х11=[iх~]1⁄2 l=J z rJ1 (х, У) =llx-y1! 2 = =11 х 11 2+11 У ll 2-2R .e(x,y) $" А,В,С,D, ... АС span /F xi, х-1 ~ => (О, l) Еу [R (у)] пространство классов (категорий) i-й класс (категория) априорная вероятность i-й категории, обознача­ ется также через Р (0>1) j-я векторная выборка из категории i, иногда удоб­ но обозначение (х1 , ro,) или (х1 , i) последовательность nt векторных выборок из клас- саi пространство решений (Q' ~ D.) L-мерное векторное пространство. Также /iC = '1J' L класс (или пространство) L-мерных комплексных чисел класс непрерывных функций, определенных на интервале (О, 1) действительной прямой. бесконечномерное эвклидово пространство (гиль- бертово пространство), т. е. L-мерное пространст­ во, когда L = оо, класс полиномов размерности L + l, т. е. класс функций, представимых в виде линейной комбина­ цииl,х, х2, .••, xL класс комплексных тригонометрических полиномов степени L норма скалярное произведение эвклидова норма расстояние в нормированном векторном простран­ стве со скалярным произведением класс линейных преобразований множества или иногда скаляры, например R-пол­ ный риск, L11 - потери. дополнение множества А линейная оболочка множества /F транспонированная и обратная матрицы равно по определению следует интервал действительной прямой, О < х < l индекс у при символе Е указывает случайный ве.~:. тор, по распределению которого вычисляется ма­ тематическое ожидание существует в нев для всех символ Кронекераб11=1, i = j;бiJ=О, ...i+j а при условии Ь а, деленное на Ь al Ы (а _ b)I , биноминальные коэффициенты II, 111, /(х) f (х 1001) Обозиачеиия для правял выбора решеняя и оценивания функция плотности вероятности плотность вероитности, когда х классифицирован как выборка из категории i. Также называется ус- 11
f(хIw;, Ь;) mi~ ~i~ N(x/m;, ~;) n; п n м d (х) L (ji) или Lji r (d (х)) R Xn r* R* 'l'Ji (х) (Ь)п gn (х) gn (х) lп - ~h(х81Ь) n s=I лонной по i-му классу плотностью вероятности. Обозначается иногда через f (х I i) и fi (х) условная по i-му классу плотность вероятности, которая определяется множеством векторных па­ раметров Ь;, т. е. при заданном bi эта функция плотности вероятности полностью известна и мо­ жет храниться в памяти ЭВМ Е [х I щ], иwогда один из векторов в Ь; Е[(х- mi)(х- mijlJw;] нормальная плотность вероятности число обучающих выборок из i-ro класса полное число векторов измерений из всех М клас­ сов,п=п1+n2+...+nм п=[п1, n2, .•. , nм] число классов правило выбора решения потери, когда решающее правило d (х) = j, а х из класса i условный риск, когда применяется решающее правило d (х) к наблюдению (измерению) х средний риск (усредненный по всему пространству наблюдений). Другое обозначение r (d) вектор М классифицированных обучающих век­ торов средний риск для правила выбора решения, кото­ рое использует обучающую выборку Хп оптимальный риск в точке х (т. е. минимально воз­ можный риск в точке х для байесовского решающе­ го правила) оптимальный средний риск вероятность, что х принадлежит категории i оценка величины Ь*, построенная на выборке х1 , х2, ... , Хп- Иногда используется обозначение Ъ эмпирическая функция плотности вероятности, основанная на п выборках (одномерных) эмпирическая функция плотности вероятности, основанная на толерантных областях эмпирическая оценка интеграла f h (х I Ь) Х Х h (х I Ь*) dx, где х1, х2, ... , Xn из распределения с плотностью h (х I Ь*). IV. Обозначения для правил выбора решения, основанных на выборке (в частности, решающее правило kNN 3) ~i (х; Xn) Фi (х; Xn) ki (х) юj (хп) 12 толерантная область, построенная относительно точки х для i-ro класса на основе обучающей выборки Хп объем области ri (х; Хп) число выборок из i-го класса в 7f; (х; Хп) правило d (х; х) порождает М множеств {Ю1 (х), Ю2 (х), ... , Юм (х)}, где х Е IOJ (х) тогда и только тогда, когда d (х; xn) = w1 б-й момент риска, μ~ = Е. [R 11 (хп)] хп
qj,, ... , j/J(x(l), х(2)' ,.., х<б)) вероятность того, что правило выбора решения одновременно классифицирует II точек II прост­ ранстве наблюдений. V. Обо.значения для кластерноrо анализа и оценивания при самообучении N Основные обозначения семейство или класс функций плотности вероятно· стиf1(х), ..., fN (х) а1, а2 , ••• , aN параметры, характеризующие f1 (х), f2 (х), ... , fN (х) соответственно h(x)= ~ f(x1·a/)P; 1, ~1 смесь функций из класса fF Р; ь м Ь; f(хIi) f(хIЬ;,i) Р1 ь i-й параметр смеси; Р; = Р (ai) [а1, а2, ... , af, Р1, Р2, •••, PN] вектор разреше­ ния 1 >. Заметим, что а1, а2 , ... , aN все известны. Параметры смеси Р1, Р2, ••. , Рм определяются так, чтобы получить «согласие» с h (х) Обозначения, когда известно, что существует М классов известное число классов параметры, характеризующие i-й класс, Ь; - один из параметров а1, а2 , ••• , aN плотность вероятности, когда х из класса i плотность вероятности, когда х из класса i с пара­ метрами Ь;, характеризующими плотность вероят­ ности априорная вероятность i-ro класса [Ь1, Ь2 ..., Ьм, Pi, Р2, •••, Рм1; все э.ти компо­ ненты вектора, вклю11ая М, могут быть неизвест­ ны. Обозначения, когда каждый класс может быть охарактеризован отдельно м Ь; (некоторые методы кластерного анализа) неизвестное число классов; М определяется под­ счетом числа выделенных классов параметры, характеризующие i-й класс или вы­ деленный кластер вероятность i-го класса или кластер а Общая задача N известных параметрических то1ек параметрическое пространство, а' Е d параметрическое пространство, Р (а 1 ) Е :f' верхняя граница числа классов, известная экспе­ риментатору, М -,;; М' -,;; N k-й ~ктор разрешения число классов в k-м векторе разрешения, т. е. число ненулевых параметров смеси Р 1 , Р 2 , ••• , ...,PN 1> В оригинале solution vector. (Прим. пер). 13
фактические значения м,,_ параметрических точек, соответствующие k-му разрешению, которое име­ ет Mk классов вероятность, приписываемая ь, [Ь~, ь~ . ..., Ьмk t Pkl,pk, ..., Pt] А 2 А 3амечание.Однимизспособовразделениях1,х2,•••,Xnнаклас­ теры является способ с k-м разрешением. Для k-ro разрешения существует Мл кластеров. Например, кластер i характериауется параметрами сдвига и формы в Ь~. Р: - «масса» в кластере i VI, Обозначение для редукции размерности Трудно провести точную границу между такими процедурами, как вы­ деление признаков, селекция признаков и классификация. Поэтому в книге применяется такой широкий термин, как редукция размерности, описываю­ щий преобразование вектора измерений х в одномерную функцию d (х). Следующие определения помогут описать несколько «этапов» в процессе ре­ дукции размерности. Пространство наб- Пространство конечного числа измерений х1 , х2 , ... , xL пюдений или про- (или бесконечного числа) без априорных данных, отно­ странство измере• сящихся к этим измерениям. иий Пространство приз- Пространство с точками у= [у1, у2 , •••, У11, где Yi - паков l-й признак, полученный как некоторая функция измерений на основе априорных данных. При этом ис­ пользуется известна я или предполагаема я связь между Х1,Х2,••••Х/, Пространство ре- Множество действительных чисел, соответствующих шений классам, которые должны быть разделены. Пространство клас- Множество действительных чисел, соответствующих сов истинным классам. Число точек в пространстве классов меньше или равно числу точек в пространстве решений. Дуальность понятий пространства классов и пространст­ ва решений является важной, когда число классов М неизвестно. На рисунке, приведенном ниже, изображена схема использованных выше определенм:й. х у d(XJ о-......----1преоdразо8t1ние 1----------1Лpeodpt1So8aнue 1----0 Пространст8о Пространст8о ______.ПpdcmpaнtJf['6o наолюаеншi праэнако8 решении х Е Пространство измерений [ х=(Х1,х,.,..., XL] У=[У,,У2,..., Yz] у Е Простраисl"вО признаков, l < L d (х)Е ] Пространство решений, которое ямяется одномер­ ным
ГЛАВА l ВВЕДЕНИЕ 1.1 . Применение в медицине, социологии и военной технике Теория распознавания образов применяется в вычислительных машинах, помогающих поставить медицинский диагноз и рекоменду­ _ющих лечение, при изучении взаимодействия лекарств, многоэтап­ ной сортировке и анализе, обработке нейробиологических сигналов, обнаружении и классификации гидроакустических сигналов, обра­ ботке изображений, промышленном контроле, в системах переработ­ ки информации и т. д. Например, автоматический анализ и класси­ фикация микрофотографий тканей клеток могут применяться при анализе крови, раковых опухолей, тканей головного мозга и опре­ делении свойств хромосом в генетике. Методами теории распозна­ вания образов можно анализировать и классифицировать такие кли­ нические данные, как электрокардиаграммы и электроэнцефало­ граммы. Другое применение теории распознавания образов - анализ сигналов в коре головного мозга, которые представляют со­ бой отклик на зрительное и слуховое воздействие. Помимо медицины теория распознавания образов широко ис­ пользуется в военной технике (например, в аэрофотосъемке), при решении задач, связанных с применением метеорологических спут­ ников, фотографированием Земли с целью изучения местоположения полезных ископаемых, при исследовании органической жизни на далеких планетах [13, 21-23], а также для обнаружения и клас­ сификации целей (в гидролокации и радиолокации) и компенсации межсимвольных помех. Библиография в данной главе включает недавно вышедшие книги по теории распознавания образов [10, 12, 21, 22, 23] 1>. Хотя оценивание и является важной составной частью проблем, возникающих при распознавании образов и в технике связи [2-4, 6, 7, 15], для полного их решения обычно необходимы и другие опе­ рации, например выделение признаков - очень важная и вес:~.ма 1) См. также [27*-33*] (Прим. ред.) 15
специфичная операция при обработке изображений, векторов или сигналов. По существу, выделение признаков включает в себя по­ строение модели задачи и преобразование изображения или сигна­ лов в вектор, который затем обрабатывается методами, рассматри­ ваемыми в данной книге. Существуют также методы, использующие дисплей вычислительной машины, которые помогают оператору ин­ терпретировать результаты а налим и классификации. При этом воз­ никает проблема: какие задачи лучше решает вычислительная ма­ шина, а какие человек. Это определяется или экономической целе­ сообразностью, или чисто техническими причинами. Например, сет­ чатка глаза и ушная раковина человека гораздо лучше осущест­ вляют параллельную обработку, чем очень сложные системы вы­ числительных машин, а знания человека о задаче иногда не могут быть представлены в форме, удобной для вычислительной машины. В задачах распознавания образов в технике связи исходные дан­ ные обычно представлены в виде сигналов и изображений. Считают, что первая операция, осуществляемая с такими данными, - преоб­ разование их в векторную форму. При этом используются априорные сведения о данной задаче. Кроме того, принято считать, что качество классификации зависит от точности имеющихся сведений. Первая задача, называемая пред­ варительной обработкой или выделением признаков, является слож­ ной, она обычно не имеет простого математического описания, реше­ ние ее - искусство. Из-за такой «артистической» природы предва­ рительной обработки или выделения признаков наблюдается сле­ дующая тенденция: специалисты по распознаванию образов, напри­ мер, в области медицины слабо связаны со специалистами в области обработки гидроакустических или нейробиологических сигналов или в области телеметрии. Помимо задачи выделения признаков, в данной книге рассматри­ ваются алгоритмы (которые могут быть реализованы с помощью средств вычислительной техники или программ для вычислитель­ ных машин) для анализа и классификации векторов при обучении как с учителем, так и без учителя (при самообучении). Различие классификации при обучении с учителем и самообу­ чении связано с количеством имеющейся априорной информации. Допустим, что имеется п векторов и (п + 1)-й вектор, классифика­ цию или категорию которого необходимо определить. Первые п векторов называются обучающими, а (п + 1)-й вектор - испытуе­ мым или собственно классифицируемым вектором. Если класси­ фикация п векторов известна, говорят, что имеет место обучение с учителем, в противном случае - самообучение. Как обучение с учителем, так и самообучение могут быть сформулированы как классическая задача оценивания (см. гл. 2). Однако самообуче­ ние приводит в общем к более сложным решениям задачи, чем обу­ чение. Поэтому мы стремились упростить задачу самообучения, вводя алгоритмы оценивания, максимально удобные для практики (например, методы кластерного анализа в гл. 5). Чтобы достичь это- 16
ro, требуется оставить в стороне теоретически обоснованные методы статистики и использовать техническую интуицию. Для иллюстрации различия между обучением и самообучением рассмотрим простой пример. Пусть х = [х1 , х2 ]-типовой обучаю­ щий вектор. Предположим, что существует п обучающих векторов х1, х2, ... , Xn, которые сгруппированы в три класса или кластеры 1 > (рис. 1.1). Если классификация этих выборок известна, то легко оценить характеристики каждой из этих категорий. Например, среднее и моменты второго порядка функции плотности вероятности каждой категории можно просто оценить с помощью выборочного Рис. 1.1, Иллюстрация трех кластеров некласси• фицированных выборок среднего и выборочной ковариационной матрицы. Если обучающие векторы не классифицированы, то одна из первых задач при обуче­ нии состоит в определении числа категорий. Например, должны ли быть выборки класса 3 отнесены к классам, как показано сплошной линией на рис. 1.1? На этот вопрос можно ответить, если имеются априорные сведения такого типа, как «существует категория, дис­ персия которой в данной размерности составляет приблизительно половину дисперсии в той же размерности другой категории». Ис­ пользование такой априорной информации человеком очевидно. Наша задача состоит в построении процедуры, допускающей реа­ лизацию в виде алгоритма, которая автоматически распределяет вы­ борки по категориям. Эта задача усложняется, когда размерность возрастает. Приведенная задача распределения выборок по категориям яв­ ляется основной во многих задачах теории распознавания образов и в технике связи. Следующие примеры типичны среди тех задач, для решения которых разработаны методы в данной книге. 1. Даже если векторы х1 , х2 , ... , Xn все из одной категории (обу­ чение с учителем), их можно еще разбить на группы. Группы могут 1) Кластерами называют группу точек (объектов), связанных каким-либо сходным признаком, см. [34*}. ( Прим. ред.) 17
соответствовать модам функции плотности вероятности каждой вы­ борк11 х. Чтобы запомнить эту плотность (знание плотности вероят­ ности является основным в классификации), очень удобно с практи­ ческой точки зрения указать и запомнить расположение и форму мод. Это требует применения процедур оценивания при самообучении (обычно включая кластерный анализ). 2. Когда векторы х1 , х2 , ... , x'n не принадлежат одной катего­ рии, задача состоит в распределении их по категориям. Это дости­ гается применением процедур оценивания при самообучении (вклю­ чая кластерный анализ). Возможно, что х1, х2 , ... , Xn - класси­ фицированная выборка из категории, имеющей полимодальную плот­ ность вероятности; в этом случае подкатегории категории опреде­ ляются на основе методов оценивания при самообучении, которые применяются к классифицированным выборкам из этой категории. Указание подкатегорий позволяет запомнить плотности вероятности каждой категории с достаточной степенью точности и малым объе­ мом памяти. 3. После того как указаны категории и подкатегории, необхо­ димо оценить характеристики подкатегорий. Выбранные характе­ ристики могут включать вектор средних, кова риационную матрицу 1> и меру расхождения 2> .Это не независимые операции; например, оцен­ ки характеристик подкатегорий используются для определения под­ категорий, на которые разбивается категория. Тогда уточненное определение подкатегорий улучшит оценку характеристик подка­ тегорий. 1.2. Обозначения векторов и матриц 3 > В книге некоторые обозначения используются многократно. Строчные полужирные буквы а, Ь, ... , х, у, z, а, р, v, 6, ... обозначают векторы, а строчные светлые буквы а, Ь, ... , х, у, z - скаляры. Скаляр с нижним индексом обозначается х1 , а вектор - х1 . Последовательность п векторов обозначается iп, а классы или пространства - латинскими прописными рукописными буквами .Л, fid, Сfб, 5:J, ... , ~. ~. :JC, ... Общее L-мерное векторное пространство обозначается 6/JI L; например, пространство L-мерных векторов - fgL· Множества обозначаются А, В, ..., Z, а матрицы А, В, ..., Z. Символ t указывает на операцию транспонирования как для вектора х1 , так и для матрицы Х 1 . Обратная матрица (если она существует) матрицы Х обозначается через х- 1. Тот факт, что х является точ­ кой векторного пространства 6/JI, обозначается х Е 6/JI. Сопряжен­ ное комплексное· число комплексного числа а обозначается а. 1) Например, как зто делается в прави.1е выбора решения для нормаль­ ного распределения (см. § 3.4). 2 ) Например, как в правиле выбора решения kNN 3 в п. 4.3 .3 . 3 ) Введение в векторный аиализ и его применения можно найти, напри­ мер, в [ 1.5]. 18
1.2 .1 . Свойства векторных пространств Линейная независимость. Множество векторов х1 , х2 , ... , Xn Е Ш .линейно независимы, если а1х1 + а2х2 + ... + anxn = О => а1 = =- а2 = ... = an = О. Векторы линейно зависимы, если они линей­ но не независимы. Линейная оболочка множества. Совокупность всех линейных ком­ бинаций векторов х1, х2 , ... , Xn данного множества называется ли­ нейной оболочкой множества и обозначается span (х1, х2 , ... , Xn). Конечномерное векторное пространство и базис. Говорят, что векторное пространство конечномерно, если существует конечное число векторов х1, х2, ... , Xn в Ш, таких, что Ш = span (х1, х2, ... , ... , Xn), Если эти векторы линейно независv.~ы, то они образуют базис. Ортогональность и ортонормальность. Два, вектора х и у (в пространстве со скалярным произведением) ортогональны х ...1 .. у, если (х, у) = О. Если, кроме того, (х, х) = (у, у) = 1, то векторы ортонормальны. Обозначим через х J_ 6/f то, что вектор х ортогона­ лен пространству 6/f; это означает, что х J_ у, \/ у Е 6/f. Линейное многообразие. Пространство 6/JJ' с: ?J' есть линейное многообразие, если из х, у Е 1Ш следует, что ах + Ьу Е 6/JJ', где а, Ь Е F, где F-поле скаляров. Процесс ортонормализации Грама-Шмидта. Предположим, что 6/JJ' натянуто на а1, ... , а,,_. Тогда о/.!! имеет ортонормальный базис Ь1 , ... , Ьr, где L ~ k. Одним из методов построения ортогональ­ ного базиса является описанный ниже процесс ортонормализации Грама-Шмидта. Пусть Ь~ = aif II а1 11 . Тогда вектор Ь2, ортогональный к Ь1, строится следующим образом. Пусть Ь2 = а2 - сЬ1, где с определяется уравнением (Ь2, Ь1) - = (а2 , Ь1) - с= О. Таким образом, с = (а2, Ь1), ь_ а2-(а2,Ь1)Ь1 2- 11 а2-(~, Ь1) Ь111 ' L-1 aL- ~ (aL, bj) bj ЬL = -,,- -- -;-j- _- ...,1,---- ._,. .. 1 aL-; ~: (aL, bj)bJII 19
1.3 . Обозначения для оценивания при самообучении Классифицируемые изображения, сигналы, данные и образы обозначаются L-мерным вектор-столбцом х: В дальнейшем, если не оговорено особо, вектор х - L-мерный век­ тор-столбец и принадлежит пространству наблюдений (также назы­ ваемым пространством измерений) Ш. Последовательность п век- торов обозначается1) Xn = [х1, х2, ... , Xn], Когда п векторов одина­ ково распределены, любой из них обозначается через х. Когда п векторов неодинаково распределены, то из-за нестационарности в общем необходимо рассматривать плотность вероятности Xn· Пусть х Е Р? L имеет функцию распределения F (х) и плот­ ность вероятности f (х). Чтобы решить технические проблемы, воз­ никающие в распознавании образов и в технике связи, часто исполь­ зуются семейства параметрических функций распределения, такие как нормальные и полиномиальные. Другим часто используемым семейством является семейство, элементы которого представляют собой линейные комбинации нормальных распределений. Эти се­ мейства называются параметрическими, поскольку их члены могут быть охарактеризованы конечным числом параметров. В качестве примера непараметрического семейства можно привести семейство плотностей вероятности, симметричных относительно определенной ТОЧКИ 6/fL, Пространство параметров и семейство функций распределения В книге символ .Л используется для обозначения векторного про­ странства параметров, параметрические точки а которого характе­ ризуют функцию распределения вероятностей. Семейство функций распределения 1f определяется следующим образом: (1) Предположим, что последовательность набЛl:щений есть после­ довательность одинаково распределенных случайных векторов х1, ... , Xn, каждый из которых имеет функцию распределения F (х I а*), где параметр а* неизвестен наблюдателю. Оценку пара­ метра а* как функцию наблюдений можно получить любым из ме­ тодов, рассматриваемых в гл. 2 и 5. Обозначим эту оценку а (х1 , х2 , ... , .. . , Хп) ил и сокращенно (а)п- 1) Заметим, что Xn Е g;n - прямое произведение пространств. 20
Оценивание при самообучении Предположим, что некоторые из. выборок х1 , х2 , ... , Xn имеют функцию распределения F (х I а1), другие F (х j а2) и т. д., где а1, w, ... Е .Jl. Иначе говоря, любая выборка х может иметь любую функцию распределения из семейства ff. Удобно определить смешивающее ра,спределение G (а) в пространстве i9, которое опре­ деляет вероятность, что именно точка а характеризует смесь (оп­ ределенную ниже). Формально выборка х определяется функцией распределения Н(х)=JF(х\a)dG(а), (2) которая называется смесью (см. [16-20, 24-26]). Для техники наиболее интересен случай, когда параметрическое пространство .Jl состоит из конечного числа точек а1, а2 , ... , aN. Тогда смешивающее распределение определяется выражением N G(а)= ~ Р(а1)б(а-а1), (3) •=! где Подстановка (3) в (2) дает конечную смесь N Н(х)= ~ F(хJа1)Р(а1). (4а) i=I Важно подчеркнуть, что все параметрические точки а1, а2, •. . , aN в (4а) известны, поскольку они составляют параметрическое про­ странство, которое определено априори; неизвестны в (4а) параметры смеси Р (а1), ... , Р (aN), принадлежащие пространству ff> параме­ тров смеси. Заметим, что существует прямое произведение про­ странств .Jl Х ff>, содержащее пары (а 1 , Р (а1 )). Чтобы подчерк­ нуть, что параметры смеси неизвестны, целесообразно записать (4а) в виде N Н(х/Р(а1), Р(а 2), ... , P(aN)) = ~ F(xla1)P(a•), ;(4б) 1=1 которая представляет собой смесь функций распределения при ус­ ловии, что параметры смеси заданы. Классы определяются как индексы тех параметрических векто­ ров из а1, ... , aN, которые имеют ненулевые параметры смеси. Пусть число классов равно М с соответствующими параметрическими точ­ ками Ь1, ... , Ьм и присоединенным классом вероятностей Р1, ... , Р м. Заметим, что М 3⁄4 N. На практике М может быть неизвестно, но верхняя граница М' ~ М считается известной. Будем говорить, что параметрическая точка Ь 1 характеризует условную по i-му клас- 21
су функцию распределения F (х Ii). Целесообразно также опреде­ лить F (х Ii, Ь1). Пусть (5) где ЬЕ.лм х !J>M~ffaM, 1~М ~М'. Тогда смесь функций распределения при заданном Ь определяется как м Н(хIЬ)=!,F(хIi, bi)Pi, l=l где м !, Pi=1, Pj>O, i= 1,2, ... ,М; ьi+ьj, i:#:j. l=l Если пространство gам· дискретное, содержащее параметриче­ ские точки bk, k = 1, 2, ... , V, где индекс в bk указывает частное значение, то bk=[Ь~,ь~....,ьt ,Р~.Р~...., Pt] (7) k k - k-й параметрический вектор с Mk классами. Смесь, когда gам• дискретно, определяется как м H(x\bk)= i F(xli, bf)Pf, k= 1,2, ... ,V. (8) l=I Условия на точки в :вм• Удобно суммировать ограничения, накладываемые на точки gам·, чтобы получить множество допустимых разрешающих векторов: Mk 1) b11 E.Aмkx!J>мk; 2) ~ Pf= 1; l=l 3) bf+Ьj, i+j для 1~i,j~Mk при каждом k; 4) если перестановка компонент вf в bk образует Ь1, то bk не отличается от bt; 5) дополнительные ограничения 1> на точки Ь7 и Р1 могут быть связаны с дальнейшей редукцией числа точек в gам·. Пример 1. Произвольно установим верхнюю границу на число катего­ рий М' = 10. Пусть х1 , ... , Xn двумерные векторы (рис. 1.2, а). Одно из возможных разбиений, соответствующее первой возможной параметрической точке смеси Ь1 с М 1 = 3, показано на рис. 1.2, б. Другое возможное разбие­ ние с М 2 = 6, соответствующее второй возможной параметрической точке 1 ) Такая редукция числа точек в$ может улучшить качество, как пока­ зано в гл. 5. Это служит основой при редукции размерности или выделени11 признаков, обсуждаемых в гл. 6 и 7. 22
Рис. l.2a. Выборки в пространстве наблюде- ний 6. Возможное под­ множество с М=З (k= l указывает первое возможное разрешение) в. Возможное подмно­ жество с М=б (например, k=2, что указывает на второе возможное раз- решение) а б в Xz # . r., xf xf . .. . . . .. .. mJ т/ . .. .. • .. .. gj о'-{! т rJ г mт,Хт 11⁄2 Рт= J .. zz1⁄4 m1,f '1= 5 - mf,P/='/4 .. .. • .. .. . :е, Т~1и l!z= mz,l:z т1⁄2 zJ Pz• J Т~Ти ll:1= mz,Ez р т-1⁄2 3- ;J :r, 2Z1⁄4 m:1,P:1= 5 ~ zZ;J ~l:i Z21⁄2 m+,P+= 5 l:5 •• m5,P5= 5 z.-@ -zz1⁄4 .. xf -@ -mf,Pf =1⁄2 :С1 23
смеси Ь2, показано на рис. 1.2, в. В этих примерах Ь~ содержит вектор сред­ них или центр кластера, ковариационную матрицу н Р}, которые пропорцио­ нальны числу выборок в i-м кластере k-ro разрешения. Кластеры в этом примере легко определяются визуально, но решение, какое из разбиений правильно (М = 3 или М = 6), за­ висит от априорных данных. Без соответствующих априорных дан­ ных невозможно определить число кластеров (величину М). Как было указано выше, оценивание при самообучении можно рассматривать как кластерный анализ; однако следует предупредить, что результаты, полученные с помощью кластерного анализа, мо­ гут не иметь смысла, хотя эта процедура целесообразна, когда раз­ мерность (L) велика, а число выборок (п) мало. Математический анализ оценок при самообучении точно указывает задачи, которые могут быть решены. Результаты этого анализа показывают, что кла­ стерный анализ имеет смысл только в терминах используемых ап­ риорных данных. Например, результаты кластерного анализа не могут иметь смысла, если они': интерпретируются человеком, ис­ пользующим данные, не включенные в процедуру кластерного ана­ лиза. Тщательное изучение оценивания при самообучении показы­ вает, что даже сильно перекрывающиеся категории могут быть раз­ делены при использовании теоретических методов. Они требуют априорных данных, которые на практике могут быть недоступны. Когда доступны ограниченные априорные данные, методы кластер­ ного анализа могут дать решение задачи, если категории несильно перекрываются. Два подхода к разрешению Смесь вида (4б) предполагает один подход к разрешению смеси а смесь вида (8) - другой подход. П о д х о д 1. Смесь вида (4б) предполагает построение N филь­ тров, соответствующих N параметрическим точкам а1, ... , aN с вы­ ходами этих фильтров Р1 , ... , PN . Поскольку параметрические точ­ ки а1, ... , aN все известны, то фильтры можно построить заранее. Недостаток этого метода проявляется, когда N очень велико или имеются трудности в построении фильтров. П о д х о д 2. Смесь вида (8) предполагает поиск для вектора разрешения bk. Ограничения на :1Ji3M' , так ие как М ~ М', ограни­ чивают число параметрических точек, включенных в поиск. Пример 2. Этот пример смеси связан с двумерной гистограммой с lOX 10 ячейками. Пусть если { ai<,Х1<af+l, ai<х2<а~+1, в остальных случаях, 24
где а/= [at, at] с at, равным наибольшему целому, меньшему или равно- 1 2 1 16.у t/10, и at равно остатку t/10 для t = 0,1, 2, ..., 99. Таким образом, 2 N = 100. Следовательно, f (х I а0) имеет вид как на рис. 1.3, а, а функция / (х I а24) имеет вид как на рис. 1.3, 6. z 'f 5 8 то Х1 Рис. !.За. f (.;r; ld. Z'fJ -r---- --1""'- -- .,,,.. ,,,..,,,..,, ,. 11 1 1 .,,,..,,,..,,,. 11 1 11 1 11 151 о z't 5 8 10 х, Рис. 1.Зб. f(:r) .,...,.-- 1,00 ___ .,.._ .,._ --- 11 0,75 .,,,. .,,,..,,,. 11 i1 151 0,25 и z 'f q 8 70 ;.r:1 Рис. 1.Зв. Смесь соответствует гистограмме с массой Р (at) в ячейке at. Если М из­ вестно, то смесь можно записать, задавая только те а1 , для которых Р (а1) > О. Полагая Ь; равным та·кому at и Pi = Р (а1). Пусть 99 h (х 1{Р (а1)}?1!..о = 2,j t (х I at) Р (at). t=O м h(x){bi, P;}f=i)= ~ f,(x/bi)P;. i=l Таким образом, для случая, показанного на рис. 1.3 в, где М = 2, Ь1= [О,О],Р1= 0,25,Ь2= [2,4),Р2= 0,75, 2 h(xlb1, Р1, Ь2 , Р2)= ~ f(xlb;)Pi=f(xj[0, 0])·0,25+f(x/[2,4])•0,75. i== 1 25
Если М неизвестно, ио известна верхняя граница М', то М' h(xj{bi, P1}f~i)= ~ t(xlbi)Pt, 1-1 где Р1, i= М+l,М+2, ..., М ',равныО.Числоскаляров,требуемыхдля того, чтобы задать смесь h (х), испольэуя {bi, Р i}t!,;1 , равно 3М' (2 для каж­ дого Ь1 и 1 для каждого Р 1 ). Для малых М' этот метод менее сложен, чем пред­ ставление 99 h (х 1{Р (а'}Н~о) = ~ t(x Iа~ Р (at), t=O которое требует N= 100 скаляров Р (а1 ), t = О, 1, 2, ... , 99; определяющими значениями являются 1 0,25, t=O, Р (а1) = О,75, t=24, О в остальных случаях. В результате сравнения по требуемому объему памяти как единствен ному критерию сравнения метод, использующий {bi, Pi}~1 , име ет преиму_ щества, если М' -,;;: 33. Однако требуется определенная плата за определение {bi}~1 из {at}t 1, которая обусловлена указанием а1 таких, что Р (а1) > > О. Поэтому М' фактически должно быть существенно меньше М', вычис­ ленного только на основе сравнения по критерию объема памяти, чтобы компенсировать эту дополнительную плату. 1.4. Зависимые выборки, нестационарные распределения вероятностей Большое внимание уделяется задачам, в которых выборки х1 , ... , Xn статистически зависимы. Удобно обозначить М классов через ro1, ro2, •.. , rом; любой из этих классов может «порождать» х. Для последовательности выборок Xn существует W = мn событий, соотве~твующих различным комбинациям классов, «порождаю- щих» Xn, Пусть О)гf обозначает, что Хг соответствует i-му классу. Опре­ делим r-ю возможную последовательность (1) СобЬIТИя (xn,2tr),r=1,2, ...,Mn=W, (2) образуют взаимно исключающее и исчерпывающее разбиение Xn. Таким образом, . w . w . Н(x,J = ~ F(xn, 1t7) = ~ F(хп11t7) Р(1t7), (3) ,_1 ,_1 26
р.е р (nr) будем называть вероятностью послеоrватеАьности. Пусть f (Xn Inr) характеризуется векторной точкой с,. Обозначим вектор­ иую параметрическую точку, характеризующую смесь (3), через ck: ck= {с~, Pk(n7 )}~~ 1 - (4) Тогда (5) - класс смесей в данной задаче. Подобно ограничениям, приведен­ ным в § 1.3, требуется сформулировать ограничения и на ck, чтобы определить допустимое множество параметрических точек. В приведенных выше формулировках не предполагалось, что х1, ... , Xn параметрически условно независимы или что Р (ffii) не зависит от выборок. Вычисление Р (ffint) через вероятности последовательности. Обоз­ начим через .1l подмножество последовательностей n 7 , которые содержат событие ffini. Таким образом, Р (ffini) = ~ P(ffini,nr)= ~ Р (nr). 1t7Ef/t, {1t 7 : ooni -последннй элемент в n7} Из этого уравнения следует, что р (ffiпz) можно вычислить через ве­ роятность последовательности. В п. 3.2 .5 будет показано, что апо­ стериорная плотность вероятности фиксированного, но неизвест­ ного параметра естественно включает в себя вероятность последо­ вательности. Таким образом, байесовский подход требует оценки вероятности последовательности. Трудность заключается в том, что в действительности число вы• барокпограниченоиоценкиF(xnlnr),Р(nr), r = 1,2, ..., w, мо­ гут быть плохими. Тогда полезными становятся априорные данные. Более детальное рассмотрение вероятностей последовательностей можно найти в [17] и в п. 3.2.5 этой книги. 1.5 . Оценивание при самообучении для случая, когда категории выборки классифицированы Предположим, что выборки принадлежат только одной катего• рии. Тогда возможно, что функция плотности вероятности рассма­ триваемой категории полимодальна и должна быть представлена с помощью плотности смеси. Это один из очень важных случаев, когда необходимо применение оценивания с самообучением. Если функция плотности вероятности имеет локальные области, где зна­ чения плотности велики, то часто важно знать ковариацию плот­ ности в каждой локальной области. Локальная ковариация исполь­ зуется в этой локальной области для того, чтобы измерить расстоя­ ние в неэвклидовой метрике. 27
1.6. Разрешение смесей Предположим, что х имеет плотность вероятности h (х I Ь* ), где м h(xlbl)= ~ fi(x/bi)P!; i~\ и «звездочка» используется дЛя обозначения истинного значения па­ раметра. Тогда возникает вопрос: для каких функций· h (х IЬ) = м = ~ f/x IЬ;) Pi и оценок Ь имеет место сходимость оценок к Ь*? i=1 Это возможно, когда семейство ff идентифицируемо (см. основное определение идентифицируемости [18-20]). Например, если h(x IЬ*)­ смесь нормальных плотностей ве­ роятности, то разложение этой сме­ си на компоненты нормальных плотностей вероятности f1 (х I bt) единственно. Предположим, что h(.&) Рос)толожflн11с Рис. 1.4 имеется h (х) (рис. 1.4). Здесь h (х) - смесь компонент плотно­ стей вероятности fi (х), каждая положением, амплитудой 3ry смесь невозможно. из которых характеризуется рас­ и длительностью. В общем разрешить Другая проблема, с которой часто сталкиваются на практике, возникает из-за малого размера выборки. Предположим, что выбор­ ки (рис. 1.2, а) взяты действительно из смеси нормальных плот­ ностей вероятности. Если имеется бесконечное число выборок, то можно определить, что есть точно шесть нормальных компонент вместе с точными значениями их параметров расположения и соот­ ветствующие априорные вероятности категорий. Однако для малого размера выборки определить, что существует шесть категорий, без дополнительных априорных данных невозможно. 1.7 . Определение оценивания при самообучении Было показано, что при самообучении задача оценивания воз­ никает, когда функция распределения F (х) яЕ,ляется смесью. Кро• ме того, одни заданные п выборок х1 , ... , Хп можно получить из F (х Iа1), другие - из F (х /а2) и т. д. Отсюда следует, что при оце­ нивании с самообучением мы пытаемся классифицировать выборки по категориям, чтобы оценить параметры, характеризующие эти категории. 28 С другой стороны, если задана м h(x/b) = ~ f(xlbJP; i=I
и задача состоит в оценивании Ь, то некоторые методы оценивания (максимального правдоподобия, байесовские) используются точно так же, как и в случае, когда смеси нет. Известно, что нет концеп­ туального различия меЖду оцениванием при обучении с учителем и самообучении, но существует действительное и практическое раз­ личие - сложность. Поэтому кластерный анализ, который умень­ шает сложность вычислений, широко используется как метод оце­ нивания при самообучении. 1.8 . Идентифицируемые смеси 1.8.1. Определения для конечных смесей Для рассмотренных выше конечных смесей идентифицируе­ мость означает, что имеет место следующее единственное представ­ ление: из М М' ~с1F(x/ai)= ~ cjF'(х/ai) l=l i=l вытекает, что 1) М = М'; 2) дЛя каЖдого l, 1 ~ l ~ М, сущест­ вует единственное j, 1< j < М', такое, что с1 = cf и F (хIai) = = F' (х) ai). Далее, F 1 означает F (xl ai). 1.8 .2 . Условия идентифицируемости Теорема 1. Чтобы класс ::J-e всех конечных смесей семейства ff был идентифицируемым, необходимо и достаточно следующее: ff должно быть линейно независимым множеством над полем действи­ тельных чисел [19, 26]. Доказательство.Необходимость. Пустьимеетсялиней­ N пая зависимость в ff: ~ aiFi = О, vx Е 61!' L, а1 - действительное 1=1 число. Предположим, что у а1 индексы выбраны так, что а1 < О тогда и только тогда, когда i < М. Тогда имеем N М N ~ а1F1= 0-+ ~ 1а11F1= ~ 1а;1F1• i=M+ 1 i=1 i=M+ 1 Так как F 1 - функции распределения, F 1 (оо) = 1, то М N ~jа11= ~ 1а11~Ь>О. l=l i=M+l Таким образом, определяя с1 = /ai llb, имеем 29
М N Таккакс1>О,1~i~N,и ~с1=~с1=1,токgзффи~ i=I i==M+I циенты с1 удовлетворяют условиям для параметров смеси. Зависи­ мость М N !,С;Fj= !, CjF; i=I l=M+I означает, что существует два различных представления конечной смеси, поэтому класс ;;с не может быть идентифицируемым. Так как доказательство необходимости основано на предположении, что класс ;;с идентифицируем, то мы приходим к противоречию, кото­ рое возникло из-за предположения о линейной зависимости членов семейства f,f. Следовательно, f - линейно независимое множество над полем действительных чисел. Достаточность. Еслиf- линейно независимоемно­ жество, то оно является базисом для span f,f. Если существуют два различных представления одной и той же смеси, что следует из пред­ положения о неидентифицируемости ;;с с span f,f', то мы приходим к противоречию со свойством единственности представления в дан­ ном базисе. Эrо означает не то, что существует только одно пред­ ставление смеси, а то, что для заданного базиса sрап f,f, состоящего из {F;}~1, из зависимости !'! N fl=!,CtF1= ~difi i=1 i=1 следует, что с; = di, 1 ~ i ~ N. Таким образом, из свойства един­ ственности представления в заданном базисе сJ~едует, что условие линейной независимости элементов Я: - достаточное условие для идентифицируемости. к к Теорема2.Чтобыкласс;;с ={~c;F;(х):с;~О, ~с;=1} l=I 1=1 всех конечных смесей семейства ff = {F1 (х), ... , F к (х)} был иден­ тифицируем, необходимо и достаточно, чтобы существовало К век- • торов х1 , ... , хк, для которых детерминант матрицьr, состоящей из элементов F; (х1), i, j = 1, ... , К, был бы отличен от нуля, Доказательство. До ст ат о ч но ст ь. Рассмотрим зависи- мость к к- !,с1F;(х)=~ С;F;(х), l=I i=I к к- - где !, ci= !, ci=1. Полагая d;=Cj--ci,i=1, ... ,K, i==\ l=I к имеем ~ diFi(x)=O. l=-1 30
к Так как это справедливо дЛя всех х, то тем более ~ d 1F, (х1) = О, t=I /-= 1, ... , К. В матричных обозначениях это выглядит так: [;:,!~~ ::: Fк;(х,) 1·[1'l=0 F1(хк) Fк(хк) к или Fd = О. Так как по условию det F + О, то существует един­ ственное решение d = О, т. е. с1 = с;, i = 1, ... ,К.Отсюда следует идентифицируемость 3-С. Необходимость. Аналогичнопредположениеобиден- тифицируемости требует, чтобы из к к- ~ciFi(х)=~ciFi(х) l=1 f=l следовало с1 = е;, i = 1, ... , К. Таким образом, в матричных обоз• начениях [ ?(~~~ Fк(х1) l·[ С1~С1 l=O. F1(хк) •••Fк(хк) Ск-ск Чтобы решение'было единственно, а именно с1 = с1 , i = 1, ... , /(, необходимо, чтобы det F + О. Следующая теорема полезна для определения идентифицируе­ мости конкретного семейства [26]. Теорема 3. Пусть J = {Fi} - семейство функций распределе­ ния и существует преобразование (J)f (t), определенное для t Е S(f). 1 (область определения (J)i), такое, что отображение М : Fi-+ (J)i линейно и взаимно-однозначно. Предположим, что существует пол­ ное упорядочивание Fi, такое, что из Fi < F 1 следует, что 1) s<pi = s<p1; 2) существует некоторое t1 Е S(f) 1 (А означает замыкание А), не зависящее от (J)j, такое, что lim [(J)1 (t)l(J) 1(t)] = О. Тогда класс 3С t➔t, всех конечных смесей J идентифицируем. Дока.зательство. Предположим, что существует два конечных множества элементов J, например ~ 1 = {F1, 1::::;:; i ~ К} и ~ 2 = - {F1, 1 ::,:;:; j:;,:;:; К}, такие, что к к-- - ~ciFi = ~ с1F1, О<ci,с1:;,:;:;1, l=1 J=1 к к- ~C1=~C1=l. i=l l=l 31
Без потери общности перенумеруем функции распределения так, что Ft < F1, fti < F"'i для i < j. Если F1 =1= Fi, предположим, что F1 ~F1• Тогда F1< F~, 1~j ~К. Преобразуя обе части: к клл ~ ciFt ia= ~ ciFJ, l=l /=1 получаем к клл ~cicpr(t)= ~ cicpi(t), l=I /=1 которое можно записать следующим образом: к к А с1+~ ci <р;(t) ==~ ci <pj(t). i=2 IJ)i(t) j=l (J)i(t) Пусть Т1 = s(f), n {t Icpl (t) =1= о}. Заметим, что при t-+ t1 имеем с1 = О. Это противоречит предположению о том, что с;> О. Таким образом, F1 = F1 . Следовательно, к к л (с1-с~)+~ci <р;(t) ==~ с~ <pj(i) . i=2 fP1(t) /=2 <p1(t) Опять полагая t-+ t 1 в Т1, получаем с1 = с1, так что к клл ~ c;F1=. ~ ciFi. l=2 /=2 Применяя эту процедуру конечное число раз, получаем Fi=F; и с;=е;, для i= 1,2, ..., min[К,kJ. Л А к Теперь, если К =1= К, положим К< К, так что ~ c;F1 = О, l=K+I откудаследует,чтос1=Одляk+1~i~К,ивновьприходим к противоречию. Таким образом, К= !(. Следовательно, ci = с;, F1= F1иК = К, 1~i~К,такчто'!f1 = '!f2иидентифицируе­ мость доказана. 1.8.3. Идентифицируемые семейства Используя теорему 3, можно легко исследовать идентифицируе­ мость некоторых семейств. Имеют место следующие утверждения. 1. Класс всех конечных смесей гамма-распределений идентифи­ цир-уем. 32
Дока,эательство. Функция распределения определяется выраже­ :flием )С F(x10, а) = 0а[Г(а))-1Jya-I e-6vdy, а,0> О. о Преобразование Лапласа ер (t; 0, а) = (1 + t/0)-a для t > - 0 . Введем упорядочивание, считая что F1 (х j 01, а.1) < F2 (х 102 , а.2), если 01< 02 или 01 = 02, но а.1>а.2. Тогда S(f), = (-01 ,оо) =(-02 , оо) = S(f), и 1. q,2 (t; 01 , а1) 1. (l+t/02Гa2 О 1m ----'------- = 1m .;.... ..~ - =. .:...- =. t➔ -в. (JJ1 (t; 01, а1) t----в, (1 +t/01)-a' Таким образом, теорема З применима. 2. класс всех конечных смесей одномерных нормальных распре­ делений идентифицируем. Доказательство. Пусть N = N (х 10, a2J обозначает нормальную функцию распределения со средним 0 и дисперсией а2 • Преобразова­ ние Лапласа ер (tj 0, а2) = ехр [(а 2 t2)/2 - 0t]. Считаем, что N1 = = N(х101, аП<N(х102, а~) =N2, если а1>а2,или01<02, еслиа1= а2• Если положитьS(f)=(-оо, оо) и t1= +оо, то 1. q,2 (t) 1. exp[aJ t2/2-02t] 1. [(t2 /2) 1m -- = 1m--'~ -=- ----''- -- = 1m ехр х t->-+oo IJ)1(t) t➔oo ехр [<Jf t1 /2-01t] t->-oo если 0'1 > 0'2 или если 0'1 = 0'2и02>01. Таким образом, теорема З применима. Используя этот резуль­ тат, покажем теперь, что L-мерное нормальное семейство иден­ тифицируемо. 3. Семейство g: L-мерных нормальных функций распределения порождает идентифицируемые конечные смеси. Доказательство. Предположим, что 5" неидентифицируемо. Пусть m, обозначает вектор средних, 1: 1 - ковариационную ма­ трицу. Неидентифицируемость f, выраженная через производя­ щую функцию моментов (производящая функция моментов много­ мерного нормального распределения ер (t) = ехр [t'm + l/2t'1:t], где t'- транспонированный L-мерный вектор-столбец t) означает, что для некоторого К ;;;;.: 1 к ~ dJехр[t' mJ+1;2t' ~Jt]===0, J=I rде все пары (1:J, mJ) различны. Полагая t = cu, где с - скаляр, nмеем , к ~ 1 d1exp[(;)u' ~ 1u + cu' m1] =:О. :33
Если все 1:1, 1~j ~К, идентичны, все m1, 1~j ~ К, различны. Таким образом, для всех u, не принадлежащих конечному числу гиперплоскостей, пары действительных чисел (u':I:1u, u'm1), 1 ~j~ ~ К, различны. Теперь, если все 1:1 неидентичны, то без потери общности положим, что только 1:1, ... , 1:1 - различные матрицы среди 1:1, ... , 1:к. Тогда для ur не принадлежащих конечному чис• лу поверхностей второго порядка, все действительные числа u':I:1u, 1 ~ i ~ j, различны. Благодаря предположению, что все пары (1:1, m,) различны, m1, соответствующие 1: 1, 1 ~ i ~ j, различны. Таким образом, для u, не принадлежащих конечному числу гипер­ плоскостей, все соответствующие числа u' m1 различны. Следователь­ но, для u, не лежащих на некотором конечном числе поверхностей второго порядка или гиперплоскостей, действительные числа (u':I:,u, u'm,), 1 ~ i ~ К, различны. Но для такого выбора u из условия _I di ехр[(;) u' Ii,u + cu' m,]==o ,... 1 следует неидентифицируемость класса конечных смесей одномер­ ных нормальных распределений, что противоречит утверждению 2. Дадим сводку некоторых дополнительных результатов относи­ тельно идентифицируемости. 1. Множество всех конечных смесей из семейства распределений Коши идентифицируемо. Доказательство можно найти в [ 18, 19, 26]. 2. Семей~во всех невырожденных отрицательных биноминаль­ ных распределений порождает идентифицируемое множество конеч­ ных смесей. Доказательство. Отрицательное биноминальное распределение имеет вид f(x; p,r) = (r+x-1)p'q", \ r-1 . гдеq=1- р; r>О;О~р<1.Производящаяфункциямомен­ тов имеет вид: (р/(1 - qt)]'. Упорядочив функции следующим образом: /1 < /1 , если Ps > Р1 илир2=р1иr2<r1, получим s(f), = {t: (l-p1)-1> 1tl} с {t: (l-P2)-1 > 1t 1} = s(f).• Если t1~(1-p1)-1 =q1 1, то l. q,1(t) _1 . p~•(l-q1 t)'• --О. 1m --- tm ..:.....:-'---=--'-- t➔t, (JJ1 (t) t➔l, р{• (1- Qg t)'• Таким образом, применима теорема 3. 3. Пусть ff = {F (х / ai)} - конечное семейство L-мерных нор­ мальных функций распределения с ai = (m1, 1:1), где m1 = (m, 1, m11, ... , т1п) - вектор средних и 1: 1 = [а}к1 - ковариационная
матрица. Упорядочив элементы семейства следующим образом: N1 < N,< ... < Nm, если а\1 >al1, ... О'~к >a~f1 , ... или а~к = a~f 1 , но тк +~.к> ткк, выясним, что семейство иден­ тифицируемо, так как применима теорема 3 с S(f)i = (- оо, оо), l=1, ...,М, иt=(оо,t,., ..., tz), t,., ..., t1 конечны. 4. Пусть 5' = {х; v1, {P1}f. - 1, О<Р1< 1, i=1,2,..., М}­ семейство полиномиальных распределений при фиксированном v1, где R - число вероятностей, характеризующих распределение: Здесь v1 - число наблюдений из одного и того же класса i. Достаточным условием того, что класс всех конечных смесей, состоящих самое большее из М элементов 5', был идентифицируем, является сле­ .цующее: v, ~ 2М - 1 (см. [20]). Приведенное выше условие не необходимо. Хотя нет опублико­ ванных на эту тему аналитических результатов, можно ожидать, что требование v ~ 2М - 1 может быть ослаблено с уточнением апри- орных данных относительно связей между pf, / = 1, 2, ... , R, для каждого класса i. Например, когда R-+ оо и pf образованы с по­ мощью нормального распределения, мы знаем, что условие v = 1 достаточное. Другой пример: предположим, что pf- вероятность j-й ячейки L-мерной гистограммы для класса i; существует много примеров, для которых соответствующие классы разделимы (не имеют общих ячеек с положительной массой), где смесь идентифи­ цируемасv=1. СПИСОI( ЛИТЕРАТУРЫ 1. Churchill R. V . Fourier Series and Boundary value proЫems. McGraw- Hill Book Company, Inc., New York, 1963. 2. Wozencraft 1. М. and JacoЬsy. Principles of Communication Engineering. John Wiley and Sons, Inc., New York, 1965, Ch. V . Воsенкрафт Дж. Н. и Джекобс М. Теоретические основы техники связи. Пер. с англ./ Под ред. Р. Л. Добрушина. - Мир, 1969. 3. Papoulis А. Probability, .Random VariaЬ!es and Stochastic Processes. McGraw-Hill Book Company. _ Inc., New York, 1965, Ch. 10. 4. Cooper G. R . and McGillem С. D. Methods of Signal and System Anlysis. Holt .Rheinhart and Winston HR W Series in ЕЕ, Electronics and systems, 1967, Ch. 3 . 5. Oturchill R, V. Complex VariaЬ!es and Applications, 2nd, ed. McGraw• Hill Book Company, Inc., New York, 1960. 6. Davenport W. В. and Root W. L . An Introduction to the Theory of R·an - dom Signals and Noise. McGraw-Hill Book Company, lnc., New York, 1958. Давенпорт В. Б. и Рут В. Л. Введение в теорию сигналов и шумов: Пер. с аигл./Под ред. Р. Л. Добрушина - М.: ИЛ, 1960. 7. Shwartz М. lnformation Transmission, Modulation and Noise. McGraw- Нill Book Company, Inc., Now York, 1959. -8 .· Hogg R. V . and Cralg А. Т. Introduction to Мathematlcal Statistlcs, The Maomillan Company, New York, 1965. 35
9. Rudin W. Real and Complex Analysis . .Мcdraw-Нill Book Compariy 1 Inc., New York, 1966. 10. Nilsson N. J . Learning Machines. McGraw-Hill Book Company, Inc., New York, 1966. Нильсон Н. д. Обучающиеся машины: Пер. с англ./Под ред. Э. М. Бра­ вермана. - М.: Мир, 1967. 11. Nagy G. State of the Art Pattern Recognition. Proc. IEEE, v. 56, No5, р. ~36-862, Мау 1968. 12. Sebestyen G. S . Decislon Making Process in Pattern Recognitlon. The Macmillan Company, New York, 1962. Себестиан Г. С. Процессы nринятня решений при распознавании образов: Пер. с анrл./Под ред. В. И. Иваненко -Киев: Техника, 1965. 13. Но У. С., Agrawala А. К. Оп Pattern Classification Algorithms-lntroduc- tion and Survey, Proc. IEE, vol. 56, No 12, р. 2101-2114, Dec. 1968. 14. Special Issue оп Technology and Health Services, Proc. IEEE, vol. 57, No11, 1969. 15. Van Trees Н. L. Detection, Estimation and Modulation, John Wiley and Sons, Inc., New York, 1968. Ван Трис Г. Теория обнару~ения, оценок н модуляции: Пер. с англ./Под ред. Тнхонова В. И. - М .. Сов. радио, 1972. 16. Patrick Е. А. and Costello J. Р. Оп Unsupervised Estimation ProЫems, IEEE Trans. Information Theory, vol. IТ-16, No 5, р. 556-569, Sept. 1970. 17. Patrick Е. А. Оп а Class of Unsupervised Estimation Systems, IEEE Trans. Information Theory, vol. IТ-14, р. 407-415, Мау, 1968. 18. Teicher, Н. Identifiabllity of Product Measures. Апп. Math. Statistics, vol. 38, No 4, р. 1300-1302, Aug. 1967. 19. Yakowitz S. and Spragins J. Оп the Ideпtifiabllity of Finite Mixtures. Ann. Math. Statistics, vol. 39, No 1, р. 209-214, 1968. 20. Patrick Е. А. and Hancock J. С. Non-Supervised Sequential Classification and Recognition of Patterns, IEEE Trans. Information Theory, vol. IТ-12, No 3, р. 362-372, July 1966. 21. Kanal L. ed. Pattern ,Recognition, Thompson Book Со. Washiпgton, D. С., 1968. 22. Uhr L. М. Pattern Recognition Theory: theory, simulations, and dynamic models of form perception and discovery, N. У., Wiley, 1966. 23. Cheng G. С., Pollock J. У., Ledley R, S. and Rosenfeld А. eds. Symposium оп Automatic Photo Interpretation, Wash. D. С., 1967. Pictorial Pattern Recog., Proc., Thompson Book Со., Washington. D. С., 1968. 24. Teicher Н. Оп the Mixture of Distributions, Аnп. Math. Statistics, vol. 31, р. 5f:>-73, 1960. 25 Tricher Н. Identifiability of Mixtures. Апn. Math. Statistics, vol. 32, р. 244-248, 1961. 26. Teicher Н. ldentifiability of Finite .Мixtures. Ann. Math. Statistics, vol. 34, р. 1265-1269, Dec. 1963. 27. Загоруйко Н. r. Методы распознавания и их применения. - М.: Сов. радио, 1972. 28. Миленький А. В. Классифнкация сигналов в условиях неопределенно­ сти. -М.: Сов. радно, 1975. 29. Цыпкин Я, З. Основы теории обучающнхся систем. - М.: Наука, 1970. 30. Левин Б. Р. Теоретнческие основы статистической раднотехники. - М.: Сов. радио, 1976. Кннrа третья. 31. Нелинейные методы в распознаванин образов. - М.: Наука, 1975 .. 32. Вапник В. Н., Червоненкис А. я. Теорня распознавания образов. - М.: Наука, 1974. 33. Duda R., Hart Р. Pattern Classification and Sсепе Analysis John Wiley, N. У., 1973. Дуда Р., Харт П. Расnознаванне образов и анализ сцен: Пер. с англ./Под ред. В. Л. Стефанюка. - М.: Мир, 1976. 34. Duran В., Odelf Р. Cluster Analysis. А survey. Springer-Verlag, 1974. Дюран Б., Оделл П. Кластерный анализ. - М.: Статистика, 1977" 36
ГЛАВА 2 ЭЛЕМЕНТдРНЫЕ СВОЙСТВА ОЦЕНОК 2.1 . Введение Основой для построения оценок при обучении и самообучении служат методы классической статистики. Во-первых, существуют свойства оценок,которые можно определять независимо от методов оценивания; эти свойства касаются сходимости случайных величин, функций случайных величин, асимптотических распределений слу­ чайных величин, смещенности, состоятельности и эффективности оценок, достаточных статистик и нижней границы Рао-Крамера для дисперсии. Во-вторых, существуют методы построения оценок, которые можно проанализировать и сравнить, используя перечис­ ленные свойства. К ним относятся байесовский метод, а также ме­ тоды: максимального правдоподобия, максимума апостериорной плотности вероятности, оценки, управляемые решением, минимума расхождения, стохастической аппроксимации и метод моментов. Из всех методов байесовский является наиболее общим, отчасти потому, что не существует теоретической оценки со среднеквадра­ тической ошибкой, меньшей, чем у байесовской оценки при квадра­ тичной функции потерь. 2.2 . Сходимость 1 > В этом параграфе рассматривается сходимость почти всюду (или с вероятностью 1), в среднеквадратическом, а также связанные с ними слабый и усиленный законы больших чисел. Законы больших чисел играют основную роль в изучении сходимости оценок во всех методах, включая байесовский. 1 > Обсуждение проблемы сходимости можно найти также в [3, 8). Обсуж­ дение сходимости преимущественно с инженерной точки зрения дано в L7]. Введение в теорию вероятностей дано в книге Крамера [1) и более современ­ ное изложение в его же книге [2]. Другой рекомендуемой книгой по теории ве­ роятностей может служить [6], а введением в теорию вероятностей - книга L40J. Очень простое изложение теории вероятностей с применением к цифро­ вой связи со~ержится в книге [47). 37
Сходимость почти всюду (или с верояtиостью 1) Предположим, что эксперимент состоит в «генерировании» п слу­ чайных векторов. Пусть он является одним из бесконечного числа экспериментов, которые могут быть проведены, и пусть каждый кон­ креrный эксперимент отождествлеl! с действительным числом 'YJ· Пусть '\'1 ('11), '\'2 (11), · · •• '\'п (11) (1) - случайный вектор, полученный в результате осуществления экс­ перимента 'YJ. Если для некоторого действительного числа е > О существует такое целое число п 0 , что 11 '\'п (11) - '\'11<едлявсехп>п0, (2) то можно сказать, что '\'п ('YJ) стремится к пределу у для данного эксперимента 'YJ. Если (2) верно для каждого эксперимента 'YJ, то говорят, что последовательность (1) сходится всюду. Сходимость всюду является слишком жестким требованием, менее ограничитель­ ное требование состоит в том, чтобы (1) сходилось в смысле (2) почти для всех экспериментов. Сходимость с вероятностью 1 (или почти всюду) определяется следующим образом1>: P{11:limyп=Y}=l (3) n➔oo или п. в. '\'п--+'\', Сходимость в среднеквадратическом Среднее значение квадрата расстояния 11 '\'п (11) - у 11 2 отно­ сительно распределения вероятностей, определенного на всевозмож­ ных экспериментах 'YJ, обозначается через Е { 11 Vn - у 112}. Тогда говорят, что '\'п сходится в среднеквадратическом (с. к.) к у, если lim Е{11 '\'n -у 112}= О. (4) n ➔oo с.к. Это можно записать иначе: '\'п - у. Сходимость по вероятности Для сходимост1;1 почти всюду требуется, чтобы для п > п 0 почти все эксперименты 'YJ «порождали» такие последовательности (1), для которых верно (2). Это требование может быть ослаблено, если рассматривать все эксперименты 'YJ, для которых (2) нарушается с малой вероятностью. Это все же будет сходимость с высокой ве- 1) Другие названия для сходимости с вероятностью 1: сходимость почти наверное .и почти всегда. 38
роятностью, однако при любом эксперименте (2) может нарушать­ ся для некоторого значения п > п0 • Поэтому сходимость у" к у по вероятности выражается следующим образом: или или И,/IИ или Р{11'Уп(ri)- 'У(ri)11<е}>1- б, п>по, Р{11'Уп(ri)- 'У(ri)11>е}~б, п>по, Iim p{llvn-vll>e}=O, n➔oo р limvn =v n➔oo р 'Уп-+ 'У· (5) Из сходимости в среднеквадратическом следует сходимость по с.к. р вероятности. Если Vn-+ у, то Vn-+ у, поскольку (теорема Чебышева) р{11vn- 'У11> 8}~Е[1/·'Уп- 'У112J/e 2 в предположении, что Е {11 Vn - у /1 2}< оо. Слабый и усиленный законы больших чисел Когда последовательность Vn сходится с вероятностью 1 или по вероятности к у? Существуют ли методы определения, когда после­ довательность Vn, возникающая в практической задаче, сходится? Слабый и усиленный законы больших чисел касаются сходимости по вероятности и сходимости почти наверное соответственно. Оба закона применяются к последовательностям Vn вида 1п Vn=-;;! v,-E[v), (6) s=l где v1, v2, ... , Vn - случайные векторы со средним Е [v) и диспер­ сией, удовлетворяющей соответствующим условиям, необходимым для сходимости. Указанный вид последовательности часто возникает в практиче­ ских задачах. Примером может служить вычисление апостериорной плотности вероятности величины Ь по формуле Байеса: п f1 h(Х8jЬ)Р(Ь) f(ЬI ) s=l Х1, Х9,••·• Xn = ------ - f(Х1,•••, Xn) =ехр[+f Iпh(Х8lb)] с, s== 1 39
где с определено соотвеrствующим образом и предполагаеrся, что х1 , ... , Xn статистически независимы. Свойства сходимости f (Ь Iх1 , х2, ... , Хп) связаны с последовательностью 1п 'Vп=-;;~ lпh(х81Ь)-Е[lnh(хIЬ)]. s=l Слабый закон больших чисел Возможны следующие случаи слабого закона больших чисел: р 1. 'Vn _. О, если Var(vs) ~const, для всех s и v1, v2, ..., Vn статистически независимы и одинаково распределены. р 2. 'Vп-о, если р 3. 'Vn_. о, если а) случайные векторы v1, v 2, ... , Vn статистически независимы и одинаково распределены; б) Е[v8] = const для всех s. р 4. 'Vn_. о, если lim (- 1 -)~Var(vs)=О. n➔oo n 2 ~1 Усиленный закон больших чисел Имеют место следующие случаи усиленного закона больших чисел: п. в. 1. 'Vп --о, если а) v1, ... , Vn статистически независимы; 00 б) ~ Var(v8 )/s2 <oo. s=l п. в. 2. 'Vn -- О, если а) v1, ... , Vn статистически незащ1симы и одинаково распр еде• лены; б)Е[v8] <оо, 40
Свойства функций сходящихся посJ1едоватеJ1ьиостей Существует несколько свойств функций сходящихся последова­ тельностей, важных для изучения оценок. Так как доказательство этих свойств дано в различных учебниках по статистике, то они здесь не приводятся. С в ой ст в о 1. Предположим, что имеется две последова­ Р тельности: {х1, х2, ..., Xn} и {w1, w2, ..., Wn }, причем 1/ Xn - wn 11-+ О р р ИXn-+х; тогдаWn-+Х. С в о й с т в о 2. Предположим, что существует последова­ Р тельность {х1, х2, ... , Xn}; тогда, если Xn-+ х и g (х) - непрерыв­ Р ная функция, то g (xn) -+ g (х). Определение сходимости по распределению следующее: если Xn имеет функцию распределения Fn (х), то Xn сходится по распреде­ лению к х, если lim Fn (х) = F (х) во всех точках непрерывности n-+eo F (х). р Свойство 3.Если Xn-+х, тоlimFn(х)=F(х) во всех n➔00 точках непрерывности F (х). Это следует из того, что lim Рп (xn ~ n➔00 р ~а]=р[х~а],еслиXn -+ х, гдеXn их - случайныевеличины 1 >. Две случайные величины имеют одно и то же распределение, если их моменты одни и те же2>. В гл. 4 вычислены моменты риска для некоторого класса решающих правил, которые зависят от вы­ борочных данных. Риск является случайной величиной, поскольку выборки случайны. Обычно выбор решающих правил основан на использовании первого момента риска (среднего риска), но этот выбор можно произвести и на основе функции распределения риска (всех моментов риска). С в о й с т в о 4. Если Xn имеет характеристическую функцию (J>n (t), то Xn сходится по распределению к случайному вектору х тогда и только тогда, когда cpn (t) сходится к функции ер (t)3>, не­ прерывной в точке t = О, причем с:р (t) - характеристическая функ­ ция х. Другие свойства перечислены в следующих параграфах. 1 ) Точное доказательство этого свойства приведено в [ЗJ. (Прим. пер.) 1) В общем случае распредеJ1ение не определяется однозначно своими моментами. УсJ1овия, когда оно однозначно определяется своими моментами, приведено, например, в книге В. Феллера «Введение в теорию вероятностей и ее приJ,rожения» (М.: Мир, 1967, т. 2). (Прим. пер.) 8) При каждом t. (Прим. пер.) 41
2.3 . Состоятельность, смещенность и эффективность Понятие состоятельности касается оценок (Ь)п, сходящихся в не­ r<отором смысле к истинному значению параметра Ь*. Важность свойства состоятельности оценки очевидна. Состоятельность. Последовательность (Ь)п называет­ Р ся состоятельной оценкой Ь*, если (Ь)п-+ Ь*. Состоятельность в среднеквадратич& с к о м. Оценка bn называется состоятельной в среднеквадрати­ ческомдляЬ*, если1411Е[11(Ь)п - Ь*112] = О. n➔оо С в о й ст в о 5. Если (Ь)п является состоятельной в средне­ квадратической оценкой Ь*, то lim Var [(Ь)п] = lim Е [ll(b)п -Е [(b)пJll2 = О, Iim Е [(Ь)пl = Ь*, поскольку Е[11(Ь)п- Ь*1121=Е[11(Ь)п-Е[(Ь)п]+Е[(Ь)п1- Ь*1121= = Е[11(Ь)п - Е[(Ь)пl1121+11Е[(Ь)п] - Ь*.112 = Var((Ь)п) + +IIE[(Ь)п]- Ь*112 и в пределе О= lim Var ((Ь)п) + lim 11 Е [ (Ь)п1-Ь* 11 2 , n➔oo n➔oo С в ой ст в о 6. Из состоятельности в среднеквадратическом следует просто состоятельность. Это аналогично свойству: из схо­ димости в среднеквадратическом следует сходимость по вероятно­ сти. С в о й с т в о 7. Из просто состоятельности не следует состоя­ тельность в среднеквадратическом. Несмещенные оценки. (Ь}п называется несмещен­ ной оценкой Ь*, если Е [(Ь}п] = Ь*. Разность Е [(Ь)п] - Ь* назы­ вается вектором смещения, а 11 Е [(Ь)п - Ь* 111 2 - квадратом мо­ дуля этого вектора, который также можно назвать расстоянием смещения 1>, так как Е [11 (Ь)п -Ь* /121= Var (Ь)п + расстояние смещения. Эффективные оценки Если (Ь)п - несмещенная оценка Ь* и не существует других несмещенных оценок Ь*, которые имели бы дисперсию, меньшую, чем (Ь)п, то (Ь)п называется эффективной оценкой или оценкой с ми­ нимальной дисперсией. 1) В оригинале Ыаs distance. (Прим, пер.) 42
Эффективность. Если(b)n - несмещенная оценка Ь* и существует эффективная оценка (b}n, то эффектию;Юсть (Ь)n при оценивании Ь* определяется выражением eff ((Ь)n IЬ*) = Var ((b)n IЬ*) < 1. (2) Var ((Ь)n I Ь*) 2.4. Достаточные статистики Всегда желательно заменить выборку х1, х2, ... , Xn такой стати­ стикой или оценкой, чтобы ее «сложность» не возрастала с увеличе­ нием п. Если при этом дисперсия оценки параметра не увеличивает­ ся, то такая замена оправдана. Например, в задаче оценивания Ь* = Е [х], когда х - нормальный случайный вектор, выборочное п среднее 1/п ~ Х8 - достаточная статистика. Для большинства s=l задач оценивания при самообучении не существует полезной с прак­ тической точки зрения достаточной статистики. Автор полагает, что достаточность1> следует определять следую­ щим образом: это то, что является достаточным для представления апостериорной плотности вероятности f (Ь IXn) вектора параметров Ь, характеризующего плотность вероятности выборки h (х). Если h (х) - плотность нормального распределения вероятности и Ь = m, п где m - среднее значение, то выборочное среднее (m)n = 1/п ~ х. s=1 является достаточной статистикой для характеризации апостери- орной плотности f (m /Xn)- В общем случае, когда h (х) представляет собой смесь, необходимо f (х:п IЬ) вычислять для каждого значения Ь в параметрическом пространстве ~м, и нет пути уменьшить эту сложность. Один из методов упрощения состоит в дискретизации параметрического пространства ~М' таким образом, чтобы полу­ ченное пространство состояло из V точек. Тогда имеются все осно- вания рассматривать f (хп IЬ'), r = 1, 2, ... , V, как достаточную статистику2>. Прежде чем будут изучены плотности вероятности смеси, сформу­ лируем принятое в статистике определение достаточной статистики. Пусть х1, х2, ... , Xn - параметрически условно независимые и одинаково распределенные случайные векторы с плотностью ве,. роятности h (х/ Ь*). Статистика 5i называется достаточной для оце­ нивания Ь*, если при любых других (п - 1)-х статистиках s1, 1) См, также (53*]. (Прим. ред.) п 2) Вrл.5показано,что(1/п) ~ lnh(х91Ь'),r = l, 2, ..., V, эквивалент­ s=-1 . но достаточной статистике. 43
s3 , ... , Sn условная плотность вероятности f (s 2 , s3 , ... , Sn Is1 )неза- висит от Ь*. С в ой ст в о 8. Теорема Неймана-Фишера. Ъ - достаточ­ ная статистика для оценивания Ь* тогда и только тогда, когда (Ь - функция выборок х1, х2, ... , Xn) п П h(X 8 lb*)=v(b!b*)w(x1,X2 , ••• , xnlb) s=I или эквивалентно п П h(Х81Ь*)=V(blЬ*)W(Х1,Х2,,.., Xn}, s=I где v(ЬIЬ*) - плотность Ь и w(х1, ... , Xn) не зависит от Ь*. (1) С в о й с тв о 9. Теорема Рао-Блекуэлла. Пусть х1, ..., Xn - выборки, имеющие общую плотность вероятности h (х I Ь*). Если Ь­ достаточная статистика для Ь* и Ь - несмещенная оценка Ь*, то g(b) = Е [blb] - несмещенная оценка Ь* и Var (g (Ь) 1Ь*) < Var (Ь IЬ*). (2) 2.5. Условия регулярности плотности вероятности Пусть Ь = (01, 02, .. . , 0n) характеризует плотность вероятности h (х). Говорят, что плотность вероятности регулярна относительно ее первой производной по 01, если S_д_[h(x /b)Jdx=-д-sh (х lb)dx. д6g д0t Отсюда непосредственно следует, что Е{-д-[lпh(хIb)J} =S-д-[lпh(хIЬ)]h(х/Ь)dx = д0t д0t =S-д- [h (х IЬ)] dх=-д- sh (х /Ь) dx =0, (1) д0t д0t так как fh (х IЬ) dx = 1. Следовательно, математическое ожида­ ние статистики д [In h (х8 1 Ь)]/д0 1 равно нулю для всех s. Говорят, что плотность вероятности h (х I Ь) регулярна относи­ тельно ее второй производной по 01, если s~~[h(х/Ь)]dx = :, s[h(х/Ь)]dx. Отсюда непосредственно следует, что Е{а:; [lпh(x fЬ)]}<О, (2) 44
поскольку а~:2 sh(xlb)dx=S[a:; Inh(xlb)1h(xlb)dx+ + S[ a:i Iпh(xlb)гh(x/b)dx=O, и так как S[_a_Iпh(xlЬ)уh(хIЬ)dx>О, д0t ~ то s[а:; lnh(хIЬ)]h(хIЬ)dx< О. Заметим, что функция информации 'l'J (Ь, Ь*) = Jln h (х IЬ) х Х h (х IЬ*) dx достигает экстремума в точке Ь = Ь*, если выполне­ но первое условие регулярности. Если, кроме того, выполнено вто­ рое условие регулярности, то экстремальная точка является точкой максимума. Более того, Ь* единственно, если семейство 1f плот­ ностей вероятности f1 (х) в смеси h (х) идентифицируемо. 2.6 . Нижняя граница Рао - Крамера Если плотность вероятности h (х IЬ) регулярна относительно ее первой и второй производных, то можно определить нижнюю гра­ ницу для дисперсии несмещенных оценок Ь. Нижняя граница Рао-Крамера (скалярный параметр) Если (Ь)п - любая несмещенная оценкё:t Ь, для любого Ь, при­ надлежащего параметрическому пространству, то а) Е [((Ь) -Ь)2] 2 1 . (1) n -:::--- Е {[д lп h(xn /Ь)/дЬ]2} или б)Var[(Ь)]> 1 ------ (2) п пЕ {[д ln h (х IЬ)/дЬ]2} -пЕ [(д2/дЬ2) ln h (х IЬ)]' г,lf.e х - общее обозначение для любой параметрически условно независимой выборки из х1, х2, .... , Xn• Первое и второе условия ре­ гулярности предполагаются выполненными. Доказательство. Посцольку (Ь)п - несмещенная оценка, то Е[(Ь)п-Ь]~5h(хпIЬ)[(Ь)п-Ь]dхп=О; _а_ 1 h (хп1 Ь) [(Ь)п-Ь] dxn =s-a-{-h,(xп-1 Ь) [(Ь)п-Ь]}dхп =0 дЬJ дЬ и тогда -sh(xпlb)dxп+ s :ь [h(хп-lЬ)][(Ь)п-Ь]dхп =0. -1 45
Заметим, что Таким образом, s[дlnh~:~I ь)] h (хп !'Ь) [(Ь)п-Ь) dхп = 1 или Srа\пhд~·пIЬ)V h(x~I Ь) )!У h(хпIЬ) [(Ь)п-Ь]} dxn =1. Неравенство Шварца для векторных пространств имеет вид Для рассматриваемого функционального пространства (а, Ь) =~а (хп) Ь (хп) dхп Применяя неравенство Шварца, имеем Равенство достигается тогда, когда а = kb: дlпhд~Xnlb) Vh (хп IЬ) =k V h (хп IЬ) [(Ь)п-Ь], где k - константа (не зависящая от (b)n), т. е. дlnh(хпIЬ) = k[(Ь)п-Ь]. дЬ Таким образом, п. а теоремы Рао-Крамера о нижней границе доказан. Чтобы доказать п. б, заметим, что Е ([дlnh~:~ rь) л =Е ![ д!n,9:(х.1Ь) л = =в{[ :Ь i.1пh(x1 lb)T}=nE{[ :Ь lnh(x/b)T}· поскольку Е{ :Ь [lnh(x1 lb)]: [lпh(x1 jb)J}IJ+s =(Е{ :Ь lпh(xlb)})2. 4е
так как х. и х1 параметрически условно независимы и Е[:ь lnh(хIЬ)]=s:ь (lnh(хIЬ)]h(хIЬ)ах-= =J дh(х(Ь) dx=_o_Jh(xlb)dx=O дЬ дЬ ' если выполнено первое условие регулярности. Нижняя граница Рао - Крамера (многомерный параметр) Если Ь =[01, 01, ... , 09 ) - любая несмещенная оценка Ь, где Ь = [01 , 0 2, ... , 0q] - любой вектор параметров в параметрическом пространстве, то для любых двух множеств констант с1 , ... , cq и ci, ... , с;, не всех в каждом из этих множеств, равных нулю, (4) где предполагается, что первое и второе условия регулярности вы­ полнены1>. Доказательство. Поскольку (b)n - несмещенная оценка Е [ t (0р-0р) с;] =0, p=I ~ 5h(xnlь)[f c;(ep-0p)]dxn= 11. р~1 1)1.u.Ь. - least upper Ьоund-(точная) верхняя грань. (Прим. пер.) 47
то -ckJh(xпlb)dxn+ S[ а: h(xn1ь)J[f с;(вр- 11. р=1 -0р)] dхп =0. Таким образом, S[3⁄4ti (Хп Iь)] [ f с;(0JJ-0P)] dxn = Ck. 11. р=1 Умножая обе части на с11., суммируя по k и возводя в квадрат, по­ лучим {J[k~t а:11. h(xnl ь) ck] [p~t с; (0р-0р)] dxnj 2 = = (fCkCk) 2 • ,k= 1 Заметим, что д:11. h(хп1ь)= дln:e~nlb) h(xпlb). Таким образом, (s[~С дlnh(х.пIЬ)V (. }Х ... k ае h Xnlb k=1 k { [ q - ]}•)2(q \2 х Vh(хп1ь) p~lc~(0p-0p) dxn = k~lckck;• Неравенство Шварца для рассматриваемого функционального прос:ранства имеет вид (а, Ь)~V11а1121/ь112 = Jа (хп) ь (хп) х Х dx 1i- Применяя это неравенство, получаем { S[k~I Ck a:k lпh(xnlb) Jh(xпlb)dxпj х Х{s[fс;(Вр- 0р))\(xn /Ь) dxпj ~(±с,:ck) 2 р=1 k=1 48
нл:и S[p~1 с~(0р-0р) Jh(xnlb)dxn~ (±с11 с11. ) 2 > k=I S[i ck _a_ ln h (хп IЬ)]\ (xn I b)dxn k=1 де11. что доказывает n. а. Доказательство п. б можно провести, если рас­ крыть скобки в знаменателе правой части приведенного вьШiе нера­ венства, учитывая, что х1 , ... , Xn статистически независимы и что ма- тематическое ожидание дh (хп /Ь)/д011. равно нулю. Ин форм а ц и я. В статистической литературе Е {[д ln h (х / Ь)/д0 1 ]2 } принято называть информацией 1>. Заметим, что для одномерного параметра большее значение «информации» соответствует меньшей нижней границе Рао-Крамера 2>. 2.7. Оценка максимального правдоподобия п Функция L (х1, х2, ... , Xn IЬ) = ln П h (х8 /Ь) называется функ- s=1 цией правдоподобия параметрически условно-независимых выборок х1, х2, ... , Хп, где х имеет плотность вероятности h (х /Ь). Если (b)n удовлетворяет условию L(хп/(b)n)~L(хп/Ь) (1) для всех Ь, (b)n, Ь*, принадлежащих параметрическому пространст• ву, то (b)n - оценка максимального правдоподобия (ОМП) Ь*. Во многих случаях вычисление (b)n сводится к решению уравнений3 > д (•) • -- lnh xnIь=о,l=1,2, ....q' д0t д2 (•) • а02 lnh Xnlb <0,t=1,2, ... ,q, i (2а) (26) где Ь = (0 1, 02, ... , 0q], Используя градиент Vь относительно Ь, (2а) можно записать в следующей эквивалентной форме: VlnL(х IЬ)=[дlnh(х.пIЬ) дlnh(xnIЬ)]=О. ь п д01 ' ...' д0q 1 ) Эту функцию не следует путать с функцией ннформацнн Sln h (х I Ь) Х Х h (х I Ь) dx, которая часто фигурирует в технических прнложеннях. 2) См. также § 2.24. 8) Может возникнуть необ!однмость рассматривать смешанные частные производные. 49
Свойство 10. Пусть х1, х2, ..., Xn - п параметрически условно независимых выборок, имеющих общую плотность вероят- ности h (х /Ь*). Если существует достаточная статистика Ь для Ь* и существует ОМП Ь, то Ь = g (Ь), т. е. ОМП является функцией достаточной статистики. Доказательство. Если Ь - достаточная статистика, то L (х1 , х2,..., Xn/Ь)= v (Ь, Ь)w(х1,..., ~n), так что максимум L (х1, ... , . . . , Xn IЬ) достигается в точке Ь, которая максимизирует v (Ь, Ь). В следующих теоремах представлены условия сходимости и асим­ птотическое распределение ОМП. Эти теоремы подобны теоремам, приведенным в [3]. Однако в [3] не имелись в виду смеси h (х IЬ); поэтому для усиления мы несколько видоизменим эти теоремы. Теорема о сходимости ОМП Пусть х1 , х2 , ... , Xn -- независимые и одинаково распределенные случайные векторы, имеющие общую плотность вероятности h (х I Ь* ), где Ь* = [0j, 02, .. , 0;]. Предположим, что h (х / Ь) регулярна относительно ее первых про­ изводных по '0/>. Пусть дh (х I Ь)/д0 1 -непрерывная функция Ь для всех х, возможно, за исключением множества нулевой вероятности. Тогда существует последовательность векторов вида bn = [0n 1 , ... , . .. , 0nq], которая сходится с вероятностью 1. Если решение, макси­ мизирующее функцию правдоподобия, единственно для п ~ п 0 , то последовательность сходится с вероятностью 1. Сходимость к истинному значению параметра будет единственной при выпол­ нении второго условия регулярности и идентифицируемости. Это локальное решение. Если h (х IЬ) регулярна относительно ее второй производной по 01, то оценка максимального правдоподобия асимптотически нор­ мальна. Теорема об асимптотическом распределении ОМП Если h (х / Ь) регулярна относительно ее первых и вторых про­ изводных по 01 и если Ь - единственное решение уравнения мак­ симального правдоподобия для п ~ п0, то Ь асимптотически (при больших п) распределено согласно q-мерному нормальному закону с вектором средних [0j, 02, ... , 0~] и ковариационной матрицей lnc 11i (b*)]i:1\ где c11i (Ь*)= - s[ iJJ lпh(хIЬ)] h(х /Ь*)dx. (3) д01д01~ 0 -е• г~ 67i=Lk 1) Определение условий регулярности первого и второго порядка см. в§ 2. 5 . 50
Предыдущие результаты относительно сврйств сходимости ОМП, основанные на двух условиях регулярности, накладываемых на h (х IЬ), являются менее общими, чем результаты Ле-Кама [18]. Леммы Ле-Кама о сходимости ОМП Предположим, что 1) Ь - точка в открытом подмножестве 291 q векторного параме­ трического пространства; 2) S llbll ll h(x8 jb)f0 (b)db<oo, 'Zl'q s=I где f0 (Ь) - априорная плотность вероятности; З) д lп h (xlb)/д0g и д2 lп h (xlb)/д0gд0i существуюти непрерыв­ иы в точке Ь почти для всех х; 4) Еь(supIд2Iпh(хIs) 1:11 s--b*11 < е(b*),s Е ~q)<оо д0; д0j для некоторого е (Ь*) и всех i, j; Ь* [Еь означает математическое ожидание относительно h (х IЬ*)]. Определим V как компактную окрестность Ь*, где (b)n - зна­ чение Ь, для которого stl lп h(Х81 (b)n) = maxCt 1 lпh(Х81Ь):ЬЕ V] и (b)n единственно для п > п 0 ; тогда существует такая окрестность п. в. V (Ь*), что для п > п0 (b)n --+ Ь* и существует п0 (х1, ..., Xn) такое, что п ~ Vь[lпh(X8I(Ь)п]=О. s=\ Как в теореме о сходимости ОМП, так и в лемме Ле- Кама о сходимости ОМП сделано предположение о том, что решение (b)n единственно для п > п0 • Такое условие единственности требуется для доказательства сходимости всех процедур оценивания, основан­ ных на оценке градиента. Поскольку оценка максимального правдоподобия (b)n является решением уравнения п п Vь ~ lпh(xalb) = ~ Vьlпh(xвlb)=O, s-1 S=1 то естественно определить вектор-функцию 1' (Ь, Ь*) как 1'(Ь,Ь*) =~Vьlпh(хIЬ)h(хIЬ*)dx. 51
Заметим. что n п.в п ~Vьlnh(xslЬ)--+1'(Ь, Ь*). S=1 В процедуре стохастической аппроксимации Роббинса-Монро (§ 2.12) вектор 1' ((Ь), Ь*) испОJiьзуется как «функция регрессии». Таким образом, оценка максимального правдоподобия (ОМП) свя­ зана со стохастической аппроксимацией. 2.8 . Байесовское оценивание При байесовском оценивании так же, как и при ОМП, вектор Ь рассматривается как неизвестный вектор параметров. Однако су­ щественное отличие состоит в том, что при байесовском оценивании апостериорная плотность вероятности f (Ь I Xn) вычисляется для всех точек Ь параметрического пространства. Таким образом, при байесов­ Ском подходе каждой параметрической точке Ь приписывается вес, соответствующий значению апостериорной вероятности. Кроме того, при байесовском подходе с каждым конкретным значением Ь, выбранном в качестве истинного значения вектора параметров, свя­ зывается некоторая величина, определяющая потери. Пусть f (Ь) - априорная плотность вероятности, которая харак­ теризует степень неопределенности. Обозначим байесовскую оцен­ ку через (b)n и определим функцию потерь L ((Ь)п, Ь) для выбранного (b)n, когда Ь - истинное значение вектора параметров. Тогда для данного f (Ь) Средние потери = f L ((b)n, b)f (Ь) db. (1) Байесовская оценка. При заданном f (Ь) оценка, минимизи­ рующая f L ((b)n, Ь) f (Ь) db, называется байесовской, соответст­ вующей априорной плотности вероятности f (Ь).Когда известна апо- стериорная плотность вероятности f (Ь I Хп), а не f (Ь), средние ус­ ловные потери определяются выражением Средние условные потери = f L ((b)n, Ь) f (Ь /Xn) db. (2) Если далее провести усреднение по Xn, то получим средние по­ тери Риск=ffL((Ь)п,Ь)f(ЬJхп)dbh (хп)dxn = fdbfL((Ь}п,Ь) х хf(Ь,хп)dxn дR. (3) С в ой ст в о 11. Пусть х1 , х2 , ... , Xn статистически независи­ мы и одинаково распределены согласно h (х IЬ*). Байесовская оцен• ка (Ь)п. соответствующая априорной плотности вероятности f (Ь) и квадратичной функции потерь L ((b)n, Ь) = с (Ь) 11 (b)n - Ь 11 2 , определяется следующим образом: 52
п SЬс(Ь) П h(хаIb)f(Ь)db (Ь) S=1 п = ___ п _____ (4) Sс(Ь)П h(хв/b)f(Ь)dЬ S=1 иеслис(Ь)=1,то (5) rде1> п П h(ХвIb)f(Ь) f(ьlXn)=- 5 =- 1 --- s[чнслнтель] dЬ (6) Этот результат доказан ниже для с (Ь) = 1 и Ь = Ь, действитель­ ного параметра. Обобщение этого результата на случай векторного параметра предлагается читателю как упражнение. Доказательспюо свойспюа 11. 00 00 R= ~ dbS[(b)n- bJ 2 f (Ь, xn) dxn, -со -со f(Ь,хп)=f(ЬIxn)h(xn), так что 00 00 R= Sh(xn) dxn ~ [(b)n- Ь]2f(Ь/xn)db. -оо -оо Заметим, что h (xn) неотрицательна; поэтому R достигает минимума при (b)n, которое минимизирует внутренний интеграл для каждого Xn. Решая уравнение 00 _д_ s[(b)n-bJ2'f (ьl Xn)db=-2 sbf (ь I Xn) db+ д (b)n -оо 00 +2(b)n sf(blxn)db=O -00 00 и учитывая, что Sf (Ь!xn) db = 1, видим, что -оо 1> Необходимо подчеркнуть, что Ь* - фиксированный, но неизвестный вектор параметров. Наши априорные знания относительно Ь* описываются с помощью f (Ь) - априорной функции плотности вероятности. 53
является искомым решением. Чтобы убедиться в том, что получен­ ное решение действительно соответствует минимуму, вычислим вто­ рую производную i1' s[(b)т-b]2 f(blxn)db=2, i1' (b)n которая оказывается положите,~ьной, как и должно быть в точке минимума. При выполнении условий этого параграфа апостериорная плот- ность вероятности f (Ь IXn) вычисляется следующим образом: f (ьl xn) = h(X1, Х2, "•, Xnf b)f (Ь) h(х1,Х2, •••, Xn) или f(ьIхп) = f (Xn 'Х1, XJ, ••• '~n-1, Ь)f(ь/Xn-1). f(xnIXn-J Если х1 , х2 , ... , Xn статистически независимы и одинаково распреде­ лены согласно h (х I Ь*), то п П h(ХвIЬ)f(Ь) f(ьjXn)=- 5 =- 1 -.--- h (хп) [ 1п ]п ехр-;;s~I lп h(Х81Ь) f(Ь) h(хп) С точки зрения последующего изложения интересно заметить, что при относительно слабых условиях, вытекающих либо из слабого, либо из усиленного закона больших чисел, имеет место сходимость 1п s !~-;; I lnh(xs I Ь)-+ Inh(x/b)h(xlb*)dx~ri(b) S=1 по вероятности или с вероятностью 1. Сравнение оценки максимума апостериорной плотности и байесовской оценки Главная идея данной книги состоит в том, что байесовская кон­ це~щия является основной, поскольку она требует вычисления апо- стериорной плотности вероятности f (Ь /Xn) для всех точек параме­ трического пространства. Исходя из апостериорной плотности ве­ роятности, можно определить многие виды оценок. Например, точка (Ь)п, в которой f (Ь I Xn) достигает максимума (единственность предполагается), называется оценкой максимума апостериорной плотности. Оценку максимума апостериорной плотности можно рас­ сматривать как байесовскую,поскольку при этом требуется вычис- ление апостериорной плотности вероятности f (Ь IXn). Различие меж­ ду байесовской оценкой, определенной в (2) для квадратичной функ­ ции потерь, и оценкой максимума апостериорной плотности состоит 54
13 различии функций потерь. Чтобы получить оценку максимума апостериорной плотности, достаточно приписать нулевые потери \Точке, которая апостериори наиболее вероятна, и единичные потери остальным точкам параметрического пространства. Таким образом, как оценка, определяемая (2), так и оценка максимума апостериорной плотности являются байесовскими, но они используют различные функции потерь. Преимущества и недостатки нескольких функций потерь описаны ниже. Квадратичная функция потерь. Квадратичная функция потерь L ((b)n, Ь) = 11 (b)n - Ь 11 2 приводит к хорошо известной форме байесовской оценки (5). Преимущество квадратичной функции по­ терь состоит в том, что она «подавляет» большие ошибки. В тех за­ дачах, где большие ошибки оценивания параметра приводят к прин­ ципиально неправильным решениям, желательно использовать квадратичную функцию потерь. Очевидный пример, где использование квадратичной функции потерь нежелательно, состоит в следующем. Пусть f (Ь IXn) имеет максимум в двух точках: Ь1, Ь2 . Оценка (b)n будет приблизительно равна (Ь 1 + Ь2)/2, в то время как в действительности. Ь* близка либо к Ь1), либо к Ь2 . Такая ситуация может возникнуть, если не наложены ограничения идентифицируемости, которые исключают одно из этих решений. Простая функция потерь. Функция потерь, приписывающая нуле­ вые потери точке Ь, в которой f (Ь IXn) достигает максимума, имеет следующий недостаток: максимум при малых объемах выборки мо­ жет быть обусловлен шумом или «плохими» выборками; в этом слу­ чае возможны большие ошибки. Возможное преимущество такой функции потерь состоит в том, что нет необходимости вычислять такой интеграл, как в (5); однако обычно это небольшое преимущест­ во в задачах оценивания при самообучении, где х имеет плотность вероятности смеси h (х) и f (Ь IXn), должно быть так или иначе вы­ числено в каждой точке Ь параметрического пространства. 2.9 . Байесовская оценка вектора срf;АНИХ (ковариационная матрица извест1-1а) Пусть х - L-мерный нормальный вектор наблюдений со сред• ним m и ковариационной матрицей Ф: f (хIm) =с1ехр{-+ [(x-m)1Ф-1(х - m)J}, (1) где с1 - константа и предполагается, что Ф известна. В используемой модели х часто рассматривается как вектор сум­ мы фиксированного вектора m и случайного вектора n; последний соответствует шуму. В этой модели Ф = Е lnn1], •m = Е (х]. 55
Обозначим (как всегда) через m* истинное значение m, неизвест­ ное статистику или классификатору. Априори предполагается. что истинным значением m является ma; пусть неопределенность этого предположения описывается функцией плотности вероятности f(m) =с2 ехр {-1⁄2[(m-ma)t 11; 1 (m-ma)]}. (2) Цель состоит в нахождении апостериорной плотности вероят­ ности f (m IXi, х2 , ... , Xn) и, таким образом, байесовской оценки m* по п статистически независимым и одинаково распределенным вы­ боркам х1, х2, ... , Xn. Можно надеяться, что f(mlx1, ... , Xn) для больших п будет близка к дельта-функции 1> в точке m*. Используя формулу Байеса2 > для одной выборки х1 , имеем f(mlxi)= f(х11m)f(m) =~ ехрJ__1 [(x1-m)lф-1(х1- m)J}Х f (х1) f (х1) l2 где хехр {-+ [(m-ma)t 11; 1 (m- ma)J} = =с3ехр{-+[mt (Ф-1 +11;1)m - -2m1 (Ф-1 х1 +11;1ma)J}, С1С2ехр{- 1⁄4WФ;,l+m~ ~аl ma]} f (Х1) (3) Можно показать, что f (m \х1) - многомерная нормальная плот­ ность вероятности, если f (х1 m) и f (m) нормальные. Следователь­ но, f (m Iх1) имеет вид многомерной нормальной плотности вероят• ности f (m/xJ =k1 ехр {-1⁄2 [(m-(μ)J1(11)1 1 (m-(μ)1)]} = =k1 exp{-1⁄2[m1 (11)1 1 m +(μ)~ (11)1 1 (μ)1 -2m1 (11)1 1 (μ)1]} = = k2 ехр{-1⁄2[m1 СЕ)1 1 m-2mt (11)1 1 (μ)1]}, (4) где k2 = k 1 ехр{-1⁄2[(μ){ (11)11 (μ)1]}- нормирующий множитель. Сравнивая (4) с (3), получаем (11)11(μ)1 =ф-lХ1+:Еа1Ша или (5) 1 ) Дельта-функция в точке m* концентрирует единичную вероятность в этой точке, и, таким образом, все остальные точки имеют нулевую вероятность. 2 ) Нельзя придавать особого значения тому, что m не случайный век­ тор! Отсутствие наших знаний об m позволяет нам рассматривать m как слу­ чайный вектор; при байесовских итерациях наши знания увеличиваютси. 56
Кроме того, или (:Е)1 = (Ф-1+ :Eal)-1 = [~1 (/ + :Еа ф-1)]-1 = = [~1(Ф+:EJф-1]-1= ф(Ф+ :Еа)-1:Еа• (6) Используя формулу Байеса для п выборок х1 , х2 , ... , Xn, получаем n Пf(xsIm)f(m) f(1 ) S=1 m Х1, Х2, ... ,Хп = ------= f(х1,х2,••• , Xn) f(xnlm)f(mlx1, Х2, ••• , Xn-1) - (7) Методом индукции можно показать, что f (m I Хн ... , Xn) - мно­ гомерная нормальная плотность вероятности для любого п. Среднее и коваf)иацию m при заданном Xn будем обозначать через (μ.)n и (:E)n соответственно. Нетрудно показать, используя индукцию, что выражение для (:E)n, эквивалентное (6), когда обрабатываются п выборок, имеет вид (:E)n = Ф [Ф + (:E)n-1)- 1(:E)n-1 = (Ф /n) (:Еа + Ф /п)- 1 :Еа. (8) Обобщение (5) на случай п выборок будет яснее, если переписать (5) следующим образом: (μ.1)= Ф(Ф+:EJ-l:Еаф-lХ1+Ф(Ф+:Еа)-1Ша= = Ф [(Ф:Е; 1 ) (ФЧ-:Еа)J- 1 Х1 + Ф(Ф+ :Еа)- 1 Ша= = ф [Ф:Е;1 (/•i+ :Еа ф-1) Ф]-1 Х1+ ф (Ф + :Еа)-1 Ша= = Ф [(Ф:Е; 1 +/) Ф]- 1 х1 + Ф(Ф+ :EJ-1та= = (Ф:Е; 1 +1)- 1 х1 +Ф(Ф+:Еа)- 1 mа = = :Еа (Ф+:Еа)-1Х1+ф(Ф-1- :Еа)-1ma. (9) Вновь используя индукцию, можно показать, что для п выборок (9) преобразуется к виду (μ.)n= :Еа (~а +7Ф )-! - - ; - tl Х8 ++Ф(:Еа1+-; Ф)-I Ша. (10) Так как (μ.)n - среднее для f (m Iх1, ... , Xn), то (μ.)n =Е[m IХ1,Х2,..., Xn], которое является байесовской оценкой m* при квадратичной функ­ ции потерь. Кратко опишем основные результаты. Байесовская оценка (μ.)n (при квадратичной функции потерь) вектора средних m* определя­ ется выражением (10), где ma - априори предполагаемое значение ()7
m* с неопределенностью, описываемой ковариационной. матрицей :Еа. Ковариация (μ,)n при размере выборки п определена в (8). Приведенные выше результаты получены в предположении, что х имеет нормальное распределение с неизвестным средним m* и известной ковариационной матрицей Ф. Диагональные ковариационные матрицы Когда Ф=allJ, :Еа=а~1, ( 11) выражения для (:E)n и (μ,)n упрощаются. Подставляя (11) в (8), имеем (:E)n = а~ [(а~ +_nlа2)•]-1 _nl а2 1= ___ а_~_а_2-- 1= п(aJ+(1/п)а2) а2 1 =-;: (1+а2/па~) 1. Если кроме (11) предположить, что а2 « а~. то (!.)n::::::: (1/n) а2 1, и если а 2 » па~. то (!.)n,..., а~ 1. Для больших п (:E)n::::::: (l/n)a2 •1. В предположении ( 11) выражение для (μ,)n упрощается: Для больших п, как легко увидеть из предыдущего, р (μ,)n-+E[x]= m*, lim (!.)n = О. Применяя усиленный закон больших чисел, получаем п.в. (μ,)n --+ Е [х) = m*. (12) (14) (15) (16) Скорость сходимости байесовских оценок обсуждается в гл. 5 для общего случая плотностей вероятности смеси. Эти результаты применяются также к задаче текущего оценивания вектора средних нормального распределения. 3 а м е ч а н н е. Неопределенность (~)n для оценки (μ)n не зависит от истинного значения вектора средних m*. Таким образом, увеличение энер­ гии сигнала не уменьшает неопределенность в байесовской оце1iке m*. 58
Поскольку апостериорная ПЛQтность вероятности х определяет­ ся выражением f(хIХ1, Xz, ..., Xn) = Jf(хIm)f(mIХ1, х2, ..., Xn) dm, (17) то можно показать1>, что f (х Iх1 , х2 , ... , Xn) - нормальная плот­ ность вероятности с вектором средних (μ,)n и ковариационной ма­ трицей (:E)n + Ф. Таким образом, применяя усиленный закон боль­ ших чисел, п.в. f(хIХ11Х2,..., Xn) --+N(хIm*, Ф), где мы также использовали (16) и (17). Следовательно, (:E)n + Ф является ковариационной матрицей эффективного шума после п наблюдений. Эффективный шум сходится к действительному шуму (с ковариационной матрицей Ф) с вероятностью 1. Вышеприведенная интерпретация очень полезна на практике, так как она показывает, что эффект оценивания плотности вероят­ ности х увеличивает ковариацию х по сравнению со случаем извест­ ного распределения. 2.10. Байесовские оценки вектора средних и ковариационной матрицы Пусть так же, как и в§ 2.9, х- L-мерный нормальный вектор наблюдений с вектором средних m и ковариационной матрицей Ф. Пусть как m, так и Ф неизвестны и f(xlm, Ф) =сехр{-1/2[(х- m)tФ-1(х- m)]}. (1) Удобно использовать обратную ковариационную матрицу А~ Ф-1. В предыдущем параграфе, чтобы описать априорную неопределен­ ность для фиксированного, но неизвестного вектора средних, было использовано нормальное распределение. Для фиксированной, но неизвестной ковариационной матрицы таким распределением явля­ ется распределение Уишарта. Распределение Уишарта 1. Если (х1 , Х:а, ... , Xn) - выборки L-мерного вектора (L < п), имеющие общее нормальное распределение N (х Im, Ф), и если {v11 } - элементы матрицы рассеяния выборок относительно сред­ него значения m, т. е. n ViJ = VJi = ~ (хвi -т1) (X8j-mJ), s=I 1) Необходимо учитывать, что h (xl m, х1, ... , Xn) = h (х I m) или что вы­ борки параметрически условно независимы (см. задачу 9). 59
to элементы [щ 1]u, имеют функцию плотности вероятности lfPiJ/(1/2)nlvц\<1/2)(n-L-1) ехр (-+ ~ fPiJVtJ) f ({VtJ}) = --------------' - -- - - -'l,J'-=-1_ _ _ 2(1/2)Lnn(l/4) L (L-1) r-(;) Г ( n z 1) ... г( n-~+1) (2) где матрица Ф = [cp111LL и f ({щ1}) = О в области, где {v11} не являются элементами положительно определенной матрицы. Для удобства обозначим это распределение через W ({vtJ} / L, п, Ф). 2. Можно показать, что Е [ / vц 1] = L! (1) /(J)tJ I и, следователь­ но, 1im Е [vц1 = ер11. n ➔oo Другие свойства матрицы рассеяния [vц] и распределения Уишар­ та следующие. 3. Если {v}i} и {vli} независимы и имеют соответствующие рас­ пределения Уишарта с параметрами L, n1 , Фи L, n2 , Ф, то {vl1 + + vl1} имеет распределение Уишарта с параметрами L, n1 + п2, Ф. 4. Пусть {щj} - матрица рассеяния относительно выборочного среднего, т. е. п - И1J = ~ (X 8 t-Xi}(X5 j -Х1), s=I - 1п где Xt =-;;- I X8t; тогда, если Хн Х2,••• , Xn из N(хIm, Ф), то эле- s=1 менты {щi} и выборочные средние х = [х1, х2•••. , X L] - независи­ мые множества случайных величин, имеющих распределения W ({иц}I L, п - Т, Ф) и N (х/ m, (1/п) Ф) соответственно. Таким образом, f ({uiJ}, x/m, Ф) = W ({щ1}/L, п - 1, Ф) N (x/m, (1/п) Ф). Из свойств 3 и 4 можно заключить следующее1>: 5. Если Х1, х2, ... , Хп, и Хп,+1, ... , Хп,+п. - выборки из N (х Im, Ф) с соответствующими независимыми матрицами рассея­ ния {ul1} и {иf1 }, то элементы {uli + uli} и 1! См. (3). 60
"'- независимые множества случайных вмичин, имеющих распре­ деления W({ul1 + u!J}IL,n1+fl2-l,Ф) И N (xlm, - 1 -Ф) n1+n2 • Применения Предположим, что наблюдаются выборки, имеющие общее нор· мальное распределение N (х Im, Ф), где m и Ф - фиксированные, но неизвестные параметры. Обь1чно важно, а иногда и необходимо использовать априорные «предположения» относительно m и Ф. Пусть эти «предположения» выражены в терминах выборочного <:реднеrо и матрицы рассеяния следующим образом: Априорные предположения 1п, п1 - эффективное число априорных выборок, μ,1 =-~Х8, n1s= 1 [иh] =[п1 1 1 f (X~;-μ[}(Xsj-- μ})]~Фl. S=1 Текущая оценка 1 п,+п. n 2 - число текущих выборок, μ, 2 =- ~ Х8 - текущая оценка n2 s=n,+I Новая оценка вектора среднего и ковариационной матрицы, ис­ пользующая как априорные, так и текущие выборки, определяется выражением n=ni +п2, (μ,)n = ~ - μ,1 +___!:!_ μ,2, n1+п2 n1 +п2 (Ф)n= _!L фl+~ ф2. п1 +п2 п1 +п2 Так как n1 фиксировано, когда n 2 возрастает, п.в. п.в. (μ,)п --+ Е [xJ = m*; (Ф)п --+ Ф*, (3) (4) rде m* и Ф* - истинные значения вектора средних и ковариа­ ционной матрицы соответственно. 61
Последовательная коррекция Существуют приложения. такие как кластерный анализ, где це­ лесообразно осуществлять коррекцию r раз. Предыдущие результаты обобщаются на этот случай. Определим nt, Фi, μ.t . i = 1, 2, ... , ,. Тогда (5) и новые оценки вектора средних и ковариационной матрицы имеют вид (6) г (Ф)п= I !:!..фl_ 1=1 n (7) Эта процедура применяется тогда, когда на каждом шаге су­ ществует неопределенность и вектор средних меняется (например, в режиме слежения). Конечно, неопределенность никогда не будет устранена, если только благодаря большим значениям п" нельзя установить высокую степень точности. Модификация при выращивании кластеров Один из методов кластерного анализа состоит в выращивании кластеров (см. п. 5.4.8, где рассматривается коррекция среднего и ковариационной матрицы). Целесообразно обсудить несколько правил коррекции. которые применяются при выращивании кла­ стеров. Цель состоит в следующем: показать, что статистический подход, основанный на оценивании, имеет ограничения, и обсудить, как могут быть модифицированы процедуры, основанные на решаю­ щих правилах (касающихся рассматриваемой проблемы). Предположим, что имеется кластер выборок х1 , х2 , ... , Xn, как показано на рисунке Определим μ. 1 , как и ранее, но положим r r (Ф)п=I :i фi + I (μ,l-μ/-1) (μ/-μ1-1) t. (8) 1=1 1=2 Далее предположим, что μ1, μ 2 , μ3иμ'дляr=4такие,какпо­ казано на рисунке 62
Мы видим, что (μ,)n, определенное согласно (6), будет стремиться к среднему значению кластера и (Ф)n, заданное (8), будет расти, чтобы соответствовать кластеру. Имеются другие многочисленные примеры выращивания кла­ стеров. Следующие задачи требуют особого рассмотрения. 3 а д а ч а 1. Предположим, что имеется два кластера, как по­ казано на рисунке. Возможно, что следующие один за другим средние будут такими, как изображено на рисунке, из-за используемого метода отбора множеств выборок. ,Ясно, что ковариационная матрица, определен­ ная в (7), некорректна. Возможный выход из этого положения со­ стоит в вычислении Отметим, что выборочные ковариационные матрицы существенно различны. Это предполагает, что существует два главных направ­ ления; процедуру можно начать снова, выращивая кластеры толь­ ко в этих двух направлениях. 3 ад а ч а 2. Предположим, что имеется один кластер в виде бумеранга, как изображеJiо ниже 63
Тогда выражение (μ/ - μJ-1) (μ,I - μ,i-1)1, i = 1, 2, 3, 4, 5, 6, 7, будет соответственно изменяться в главном направлении, и его можно будет использовать, чтобы указать присутствие такого кластера (в виде бумеранга). Существует множество всевозможных конфигураций, коrорые могут иметь кластеры в конкретных задачах. Например, они могут иметь такой вид: Разумный метод разделения таких кластеров состоит в исполь­ зовании контекст-таблицы. В этом случае сферические кластеры используются как базовые элементы. Тогда кластеры различной формы можно записать в таблицу и рассматриваемая задача форму­ лируется с помощью базовых кластеров. Это демонстрирует огра­ ниченност1., подхода, основанного только на статистических методах. Как видно из примеров, решающие правила должны быть модифи­ цированы при рассмотрении конкретной проблемы. Методы оцени­ вания очень важны, но, после того как теория оценивания освоена, студент или научный работник, специализирующийся в области распознавания образов, должен помнить, что он при этом находит­ ся только на начальном этапе: следует изучить «данные о задаче», связанные с его конкретной проблемой, и понять, как эти данные можно использовать, чтобы улучшить качество оценки параметров. В гл. 6 дается введение в перспективную проблему использования данных об исходной задаче в распознавании образов. 2.11. Воспроизводящие плотности вероятности и байесовские оценки Говорят, что функция плотности вероятности f (Ь) воспроизво­ дит саму сt>бя относительно условной плотности вероятности h (х I Ь), если f (Ь I х) принадлежит тому же семейству функций, что и f (Ь), отличаясь только значением параметров, характеризующих элементы этого семейства. Например, если f(b) нормальная плотность и f(bl х)= ~
= h (х IЬ) f (b)/f (х) тоже нормальная, то f (Ь) - воспроизводящая плотность вероятности в указанном смысле. Далее представлены две теоремы и замечания, касающиеся вос­ производящих плотностей вероятности, а также таблица плотно­ стей вероятности, которые являются воспроизводящими, вместе с байесовскими оценками параметров, характеризующих эти плот­ ности. Теорема 1 о существовании воспроизводящей плотности вероят­ ности. Если выборки х1 , ... , Xn параметрически условно независимы и одинаково распределены, то воспроизводящая априорная плот­ ность вероятности f (Ь) существует тогда и только тогда, когда вы­ борки х1 , ... , Xn допускают достаточную статистику фиксированной конечной размерности для оценивания Ь*. Доказательство.Достаточность.Предположим,чтосу­ ществует достаточная статистика фиксированной конечной размер­ ности , Так как f(blХп)= f(XnIЬ)f(b) , S[числитель] db то из теоремы Неймана-Фишера следует, что f(хпIЬ)=v(sп IЬ)w(хп) f(blxn)= v(sn\b)w(xп)f(b) S[числитель] db' (1) (2) (3) Поскольку w (хп) не зависит от Ь, то этот множитель выносится за знак интеграла; поэтому f(blxn)= v(sn1, Sn2, ••• , Snrlb)f,(b) . (4) S[числитель] db Это фиксированная функция параметров Sn1, sn 2, ... , S117 для всех п. Следовательно, апостериорные плотности вероятности отличают­ ся только значением этих параметров и все имеют один и тот же функциональный вид. Таким образом, они являются воспроизводя­ щи,ш относительно друг друга. Поэтому, если f (Ь) имеет множи­ тель вида v (s 0 1 Ь), где s0 - достаточная статистика для «априорного множества» векторов Х1, Х2, ... , Хт, то f (Ь) имеет ту же форму, что и f (Ь IXn) для всех п, и, следовательно, воспроизводящая априор­ ная плотность вероятности существует. Необходимость. Если воспроизводящая априорная плотность вероятности f (Ь) существует, то f (Ь Iх~) имеет фиксиро- 65
ванную функциональную форму,выраженную через элементы фик­ сированного множества r параметров независимо от п: f(ЬIХ~)= V (Sn1, ... , Snr, Ь). Таким образом, f(• IЬ)_ f(Ьlхп)f(:мп) _ ( )f(. ) Xn - ~~~~~~- V Snl• ..., Snr Xn ' f (Ь) где v зависит от Xn только через Sn и f (Хп) не зависит от Ь. Следо­ вательно, согласно теореме Неймана-Фишера, существует достаточ­ ная статистика фиксированной конечной размерности. Теорема 2 о существовании воспроизводящей плотности вероят~ ности. Если воспроизводящая априорная плотность вероятности существует, то f (Ь) является воспроизводящей плотностью вероят­ ности тогда и только тогда, когда она представима в виде f(Ь)= v (s01Ь)r(Ь) , (Б) f[1шслитель] db где r (Ь) - любая неотрицательная функция Ь, такая, что интеграл в знаменателе существует и , (Ь) не содержит множителя вида [v (s0 1Ь)]-1. Доказательство. До ст ат о ч но ст ь непосредственно сле­ дует из доказательства достаточности предыдущей теоремы. Необходимость. Предположим, что воспроизводящая плотность вероятности существует. Тогда f (Ь IХп) и f (Ь) имеют одну и ту же форму. При доказательстве предыдущей теоремы было по­ казано, что апостериорная плотность вероятности имеет вид v(snlb)f(b) f [числитель] db • Таким образом, f (Ь) должна иметь тот же вид, т. е. содержать мно­ житель вида f (s 0 1Ь), если она является воспроизводящей плот­ ностью вероятности. С л е д с т в и е. Если воспроизводящая априорная плотность вероят­ ности существует, то последовательность апостериорных плотностей вероят­ ности, вычисленная с помощью байесовских итераций, становится воспроиз­ водящей после нескольких наблюдений, независимо от того, является ли f (Ь) воспроизводящей плотностью вероятности или нет. Доказательство. После п наблюдений • f(xnlb)f(b) v(snlb)f(b) t (xn I Ь) = f[числитель] db = f [числитель] db и согласно теореме 2 эта форма является воспроизводящей. Это замечание указывает, что существование достаточной стати­ стики фиксированной конечной размерности действительно явля- 66
мс.я фундаментальным свойством при построении воспроизводя­ щих апостериорных плотностей вероятности. В тех случаях, когда воспроизводящие плотности вероятности существуют, часто наиболее легкий путь их построения состоит в выборе «априорного множества» m0 наблюдений, чтобы построить s0 и неотрицательную функцию r (Ь) и затем положить f(Ь)= f(Хт01Ь)r(Ь) , S [числитель] :dь что эквивалентно, если только выбрана достаточная статистика, f(b)= u(s0 \b)r(b) . S [числитель] db «Априорное множество» наблюдений и, (Ь) можно выбрать так, чтобы они отражали различные формы и количество априорных данных. Воспроизводящие плотности вероятности существуют не всегда. В частности, если f (хп /Ь) - смесь, то, так как обычно не сущест­ вует достаточной статистики фиксированной конечной размерности, не существует и воспроизводящей априорной плотности вероятно­ сти. Например, предположим, что М = 2, L = 1 и семейство явля­ ется семейством нормальных распределений: h(1 22)_Р [ (х-т1)2 ] х т1,т2,а1,а2,р -V_exp - + 2ла1 2af - --'---=с-- е хр - - -t (1-р) [ ~<х_п-=-12),_2 ] V2ла2 2а: • (6) Дынкин [52) показал, что не существует нетривиальной доста­ точной статистики для приведенной выше плотности вероятности, если по крайней мере один из параметров т1 , т2 , af, а~ или р не­ известен. Тривиальной достаточной статистикой является сама вы­ борка. Поэтому не существует достаточной статистики фиксирован­ ной конечной размерности и согласно теореме 1 для смеси не может существовать воспроизводящей априорной плотности вероятности. В табл. 1 представлены хорошо известные плотности вероятно­ сти, которые являются воспроизводящими. Эти плотности вероят­ ности детально рассмотрены в § 2.11. Заметим, что любая плотность вероятности имеет «дискретизированный» с помощью конечного чис­ ла точек ва~иант плотности, характеризующийся вероятностями р1,р2, ..., р (см. п. 9 в таблице). В общем данные, представленные х, не имеют воспроизводящих распределенпй. Существует, однако, несколько важных, хорошо известных распределений, которые являются воспроизводящими. Эти воспроизводящие распределения (особенно норl\fальное) можно использовать как основу для построения соответствующих воспроиз­ водящих представлений невоспроизводящих распределений. 67
~ Таблица 1 Воспроизводящие функции плотности вероятности Фиксирован- Распределение ные, но Воспроизводящие функции вероятности выборок неизвестные плотности вероятности Байесовскне оценки при квадратичной функции потерь параметры Биномиальное р Бета; ro, п0 (P)п=(r+ro+ 1)/(п+по+2) Мультиномиальное 1, ... , Ру Дирихле; r 01 , r 02 , ... ,rov, (p1J)n=(r.,,+ro1J+ 1)/(n+no+V) (V состояний) V по= ~ rov v=l • Нормальное m Нормальное; m0 , ~о 1[1 ]-1 (m)п=--; ~ --; ~+~о mo+~o Х [ 1 ]-1(1п) Х-;;- ~+~о ----;; ~l Xj Нормальное ~-1 Уишарта; mo, ~о (~)п=~ ~о+ _п_ (-1-}:п (xj-m) (xj-m)t) - n+ro п+rо п .J=l Нормальное m, ~-1 Гаусса-Уишарта; по,m0, Vo, ~о по п(1п) (m)п =-- mo+ -- -! XJ п+по n+no п i=l
(1:)n =- 1 - / ((п-1) Sn+ nx-n х~] + [vo :Eo+no m0 mt ]- n+~ о -(n+no) (m)п (m)ntJ, п п где Sn=- 1 - ~ (x1-xn)(XJ-Xn)t, Хп=- 1 -~Xj п-1 ."- п ."- i=l i=I Пуассоновское а Гамма; 'to, то (a)n= (1 +то+.± mj) / (-ro+ ,± 'tJ) /=1 /=1 Релеевское р=1/о2 Гамма; Ь0 , Со (Р)п=(Ьо+n+ 1)/ ( ) Экспоненциальное )., Гамма; Ьо, Со Щп=(Ь0+n+ 1) / (со+ i~l х1) Функция плот- pv Дискретное распределение I V ьv(pV) ( V) - h(хпIЬ0)(р 0 )п-1 ности при дискрети- {(pv)0}~=! в точках ~v };'=1 (b)n= п,рп-V зированном парамет- V=1 ~ h (хп I Ь0) (рV)п-1 рическом простран- стве V=ol $
2.11 .1 . Биномиальное распределение Пусть х-одномерная случайная величина и { 1 с вероятностью р, Xs = О с вероятностью 1- р. (7) Чтобы найти .nростую воспроизводящую плотность вероятности (простая означает, что r (Ь) = const), определим априорную после­ довательность ·хп., состоящую из r0 единиц и п 0 - r0 нулей. Соглас­ но теореме 2 \ р'' ( I -p)n0 -r0 f(хп /р) 1 ,O<p<l, f(p)= , . • = Sp''(1-p)n,-rodp Jf(xп.lP)dp о О в остальных случаях, но 1 Sp'•(l-p)n•-'•dp= Г(ro+I)Г(no-r0 +1) Г (п0 +2) о Таким образом, воспроизводящая априорная плотность вероят­ ности имеет вид по+ p'•(l-p)no-ro, О<р< 1, f(p)= Г(ro+I)Г(no-ro+l) (8) 1 . Г( 2) О в остальных случаях. Это плотность вероятности бета-распреде.1ения с параметрами , 0 и по, Теперь, если Xn содержит r единиц в п - r нулей, то f(р\хп)= f(хпIp)f(р) f [числитель] dp = р' (1-p)n-r [с (ro, n 0 -ro) рп• (1-р)п•-'•] = S[числитель] dp pr+r,, ( 1_ Р )n-f -n0 -(r+r0 ) - --'----'---'--'------- 1· Jpr+ro (I-p)n+n 0 -(r+r0 ) dp о где с (r 0, п0 - r0) - постоянная, и поэтому t<РIх,.)= Г (п+по+2) pr+ro ( 1-p)n+n,-(r+ro>, Г (r+ro + 1) Г [n+n0 -(r+ro)+ !] О<р< 1, О в остальных случаях, 70 (9)
которая также является плотностью вероятности бета-распределе­ нияспараметрами,+,0 и п+n0. Байесовской оценкой р при квадратичной функции потерь яв- ляется (Р)п = Е [р Iх~]. Так как f (р IХп)- плотность бета-распре­ деления с параметрами , +r0 и п + п0 , то среднее равно (Р)п=(r+ r0+1)/(п+п0+2), (Юа) где r - число единиц в Xn- Возможно представление в рекуррент­ ной форме (lОб) где (Р)о = (r0 + l)/(n0 + 2). (Юв) 2.11 .2. Полиномиальное распределение Пусть х - многомерная или одномерная случайная величина l t 'lf1 с вероятностью Р1, ';f 2 с вероятностью р 2 , XsЕ . . ,....... (11) 1 tfv с вероятностью Pv = 1_ v~ 1 Pv, t v=I где ';f1 , ';f 2, ... , tfv - непересекающиеся области, покрывающие пространство наблюдений. Удоб но записать (11) следующим образом: Определим 1 1 с вероятностью р 1 , х8 = 2 _с _ве:о~т~о~т~ю- р_2, V с вероятностью Pv. (12) Р=[р1, Р2, ..., pvl, (13) Чтобы найти простую воспроизводящую _плотносrь вероятности, определим априорную последовательность Xno, состоящую из , 01 V-1 единиц, , 02 двоек, ... и rov = п - ~ r0 i значений V. Согласно /=1 теореме 2 71
fo1 p'oi rOV Р1 2••••,Pv l l-P1 5l- ~~ =: р.,, SS...о p'i_o• р~о• ... p~ov dpv dpv-1 ... dp1 оо - V р.,,~о. ~ р.,,= 1, v=I О в остальных случаях. Знаменатель равен Г (ro1+I) Г (ro2+1) ... Г (r0v+I) Г (no+V) Таким образом, воспроизводящая априорная плотность вероятности 1 Г(по+V) r r 'ov О Г(r01 +1) ... Г(rov+l) Р1"' Р2•• ... Pv , Pv~ , '(р)=1 ±р.,, = 1, v=l О в остальных случаях, (14) которая является плотностью распределения Дирихле с параметра­ v миrov, v=1, ..., V,гдеп0=~r0.,,. v=l V-l Теперь, если Xn имеет r1 единиц, , 2 двоек, ... и rv = п - ~ r.,, v=I значений V, то r, r1 rv[ ( r),0, '•• p'ov =_Pi Р2 "'Pv с ro1, ... , ovР1Р2...v S[числитель] dp P(r, +ro,> р<'• +r 0,) р( rv+rov) 1 2 "' V - J[числитель] dp и, следовательно, f (р Iхп)= Г(п+п0 +V) p<r,+r.,) p~r,+r.,) ... p~v+rov), Г(r1+ro1+l) ... Г(rv+rov+l) 1 V р.,,~о. ~ р.,,=1, v=I О в остальных случаях, (15) 72
которая, как и ожидалось. является плотное'tью распределения Дирихле. Байесовской оценкой р для квадратичной функции потерь явля- ется (Р)п = Е [р IXnl- Так как f (р IXn) - плотность распределения Дирихле с параметрами ,1+ r01, j = 1•..., V, то среднее р равно [ r1+ro1+l, r2+ro2+l , ... , 'v+rov+ 1]· п+по+V n+n0 +V n+n0 +V Таким образом, (р ) = rv+ro11+ l (lб) 11n n+n0 +V ' где ,1) - число значений v в Xn· В рекуррентной форме (pv)n = бv(Хп) + n+no+V-l (р) (17) n+no+V n+n0 +V v n-l• где(Р11)0=(rov +1)/(по+V) и е,"(хп)={1, если Хп =v, О, если Хп =1= v. 2.11.3. Нормальное распределение - m неизвестно Пусть х - L-мерный вектор, 1: известна и f(хIm) = 1 ехр [-- 1 (x-m)t I- 1 (x-m)] . (2n)L/21~/l/2 2 Чтобы найти простую воспроизводящую плотность вероятности, определим априорную последовательность Хп0 , Согласно второй теореме по П }j(XJlm) f(m = fi(xnolm> __ . ;_1=_ 1__ __ _ ) Sf(ХпоIm)dm J[числитель] dm ехр [-1⁄4 ~ (xj-m)t ~ - 1 (x1 -m)] 1-1 ---'---'-------------- s[числитель] dm 73
Таким образом, k (:Е, хп0)ехр[-+ (m-хпУ(- 1 - :Е( 1 (m-- хп.)] f(m) = по S[числитель] dm Нормирующий множитель равен 1(2n)Lf 2 I (1/п0 ) ~ i 112)-1 . Пусть ~о=(1/n)~ и m0 = хп.· Тогда воспроизводящая априорная плотность вероятности f(m)= ц/ 112 exp[- .... !_(m-m0)t~0 1 (m-m0)], (18) (2n) J:Eo 1 2 - нормальная с параметрами ~о и m 0 • Теперь f(mIXn)= f(хпIm)f(m) . S[числитель] dm Но, как и ранее, f (хп Im) можно записать в виде но f (xпlm)=k(~. хп)ехр[-+(m-хп)t(+~)- 1 (m-хп)], Таким образом, - lп где Xn=-I Xj- n j=l f(mlXn) = с (:Е, :Ео, хн) ехр [-+ (m-x11 )t (-; - :Е)- 1 (m-хп)- -+ (m-m0)t :Е-1(m-m0) l --- ----- ---- ----- -- j' [числитель] dm (m--хп)1 (+~{ 1 (m-Хп) -j- - (m-Ш0)1 ~О~ (П1-Ш0) -__:.: =mt(+~{ 1 m-2mt(-;- ~г 1 Xll + +х~ (+~)- 1 Xn + mt (~o)- 1 m-2mt (~o)- 1 mo+mt ~Q1П10= =mt ~; 1 m-2m1 ~,1 1 mп +d(x.11 , ~.m0,~ 0), ГДе ~,i' 1 =(~0)- 1 +(+~{ 1 ; mn=~n[(~o)-lmo+ (~~) -lxn]· 74
Дополняя до полного квадрата, прибавляя и вы.читая m~:I:; 1mn, имеем (m-mп) 1 :I:;; 1 (m-mп)+ do (х~, 1:, mo, :I:0). Следовательно, ехр [-1⁄2 (m-mп) 1 ~;; 1 (m -mп)] f(mIХп)= ---'----------"- S[числитель] dm После нормирования f(mIх·п)= ц/ 112 ехр [-- 1 (m-mn)I :I:;; 1 (m-mп)] , (19а) (2n) 1~п 1 2 где (19б) mn = _l1:[-11:+1:0]-1mo +1:о[-11:+1:0]-1 _l i xi· (19в) п п . п п j=l Байесовской оценкой m при квадратичной функции потерь явля­ ется (m)n = Е [m IXn]. Так как f (m IХп) - нормальная плотность вероятности со средним mп, то (m)n =-;- 1:[--; - 1: +1:0]-l m0+1:о[-;- 1: +1:0]- 1 (-; - jilxj). (2Oа) В рекуррентной форме (m)n = 1: (1: + :I:п-1)-l (ш)п-1 + :I:n-1 [1: + :I:n-1J-l Хп, (20б) где 2.11 .4. Нормальное распределение - неизвестны }.; -1 Если х - L-мерный вектор, то при известном m ,~-1 1112 [ l ] f(х11:-1)= ---'--- ехр -- (x-m)1 1:- 1 (x-m) . (2n)L/2 2 (20в) Чтобы найти ПJ,JОстую воспроизводящую п:1отность вероятности, определим априорную последовательность Хп0 • Согласно теореме 2 f (:I:-1) = ~ (Хпо 1;E-l) _ Sl (Х110 / ~-l)d~-l 1~-1 Jno/2 [ 1 Ino ] ехр --2 ·= l(Xj-m)t ~ -I(x-m) (2:t)n 0 L/ 2 ---------~-------- f [числитель] d~ - 1 75
по Определим V по= ~ (xi-m) (xi-m)1; тогда, учитывая j=I тождество имеем п. trVпо ~- 1= ~(xj-m)1~- 1 (x1-m), /=! f (~-1) = с(по, хпо)1~-11по/2 ехр[-+ tr Vпо ~-1]= (21) =c(n0 , Хп0)! ~- 11<00-L-2>t2exp[-+trv0~0 ~- 1], (22) где v0=n0+L+2; ~0 =Vn0 /v 0• Эта плотность вероятности имеет форму плотности вероятности распределения Уишарта относительно ~ - 1 . Нормирующий множи• тель равен 1~ ~оl(Vo-1)/2/ [пL(L-1)/4j~Ir(Vo/ )]. Таким образом, воспроизводящая априорная плотность 1 v0 l(Vo-1)/2 2~0 -----------! ~-1l(v0 -L-2)/2 Х L ( • 'Лl,(L-1)/4 п Г Vo2 J) /=! Хехр[-+trv0 ~о ~- 1 ], ~- 1 - положительно определенная симметричная мат• рица, О в остальных случаях, (23) которая является плотностью вероятности распределения Уишар• та [ 11, 53, 54) с параметрами ~о и v0 • Итак, fс~-11хп)= f(хп1~-1>f<~-1> • j [числитель] d~- 1 но, так же как и ранее, f (хп1~- 1) можно записать в виде 76 • I ~-1 ,n/2 [1 ] f (хп 1~- 1) = ......;...._,__ _ ехр - - trVп~- 1, (2n)nL/2 2 п где Vn = ~ (x 1 -m)(Xj-m)I, /=1
Таким образом, fс~-11Хп)=с1~-1J<n+v.-L-2)/2 х Хехр[-+[trv0 ~о ~- 1 +tr Vп ~-1)] , ноtrvu~о~- 1+ trVп~- 1=tr(v0 ~о+Vп)~- 1, так что 1 Vn l(vп-1)/2 т~п 1~-ll(Vп-L-2)/2 х :rtL(L-1)/4~ г(Vп2 j) fс~-11 Хп)= J=l (24) Х exp[-+trvп~n~-1} ~ - 1 - положительно определенная симметричная матрица, О в остальных случаях, которая, как мы и ожидали, имеет форму плотности вероятности распределения Уишарта с параметрами Vn=Vo+n; . Vo ~о+п (+ .:± (xj-m) (xj-m) 1 ) ~ 1=1 ~п= • v0 +n Байесовской оценкой ~ - 1 для квадратичной функции потерь является с~-1)п = Е [~- 1 1:хп], Так как f с~- 1 Jхп) - плотность вероятности распределения Уишарта со средним (~п)- 1, то (~ - 1)11 = = (~п)- 1 . Поскольку~= (~ - 1)-1 , соответствующая оценка имеет вид (~)п=~п=~~0 +-п-[-1 ,i, (xj-m)(xj-m)1], (25а) п +v0 п+vo п ."'"- 1=1 В рекуррентной форме (~)п = n+v0 -1 (~)п-l + (хп-m) (хп-m) 1 (2б~ n+v0 n+v0 ПолагаяVn=п+Vo=Vn-1+1, (~)п = Vn-1 (~)п-l + (хп -m) (хп -m) 1 Vn Vn (25в). 2.11.5. Нормальное распределение - неизвестны m и }_; -l Если х - L-мерный вектор, то f(xjm, ~ - 1)=1~- 1 1 1 1 2 ехр[--1 (x-m)t~-l(x-m)]· (2:rt)L/2 2 77
Чтобы найти простую воспроизводящую плотность вероятности, определим априорную последовательность Хп,. Согласно теореме 2 f(m, ~-1) = '(xn, 1m' ~- 1) 1\ [числитель] dmd~- 1 I ~--1 1п,/2 [ 1п, ] ехр-- 2 -~ (Хj-ш)1 ~- 1 (x1-m) (2л)п• Lf 2 ~1= 1 • f f [числитель] dm d~- 1 Теперь \п, гдеXn0=-I Xj, по f=l Раскрывая скобки, после преобразований получаем п, ~ (xj-m)1 ~ - 1(x1-m) = /=! = (m-хп.) 1 ( n\o ~)-! (m-хп.)--1- tr v/1. ~ - 1, Таким образом, f(m' ~ -l)-_ l(i~)- 1 11 ' 2 [ 1с - )1 .,, ехр -- 2 m-xn. Х (2л)Lf 2 ( 1 '-1 - ] 1~- 11('10-1)/2 х -~) (m-x ) ------ Х по по n~/2 (2лj<n,- l) L/2 Хехр[-+trV110 ~- 1] / fJ[числитель ) dm d~- 1• (26) Итак, первый множитель в (26) зависит от m так же, как плот­ ность вероятности нормального распределения зависит от своего 78
аргумента, а. второй множитель зависит от ~ - 1 так же, как плот­ ность вероятности распределения Уишарта от своего аргумента. Полагая,чтоv O = n O + L+1,~о=Vп.fvO,m0 = Хп., после нормирования получаем (1( 1 )-11112 ~ 2 :)L/z ехр [-+ (m-mo)1( : 0 ~)- 1 (m-m0)] х 1 Vo l(vo-1)/2 -~ 2о Х ---'------=------- / ~-1 j(v0 -L-2)/2 Х nL(L-1)/4~ г(Vо2 j) 1=1 (27). Хехр[-+trvO ~о ~- 1 ]• ~- 1 -- положительно опредеденная симметричная матрица, О в остальных случаях. Интегрируя сначала по m и учитывая, что f (m, ~- 1)= = f (m1~- 1)f (~- 1), можно дать следующую интерпретацию приве- денной выше плотности вероятности. Из выражения для этой плот­ ности вероятности следует, что ~ - 1 имеет распределение Уишарта с параметрами vO и ~ 0 , а среднее - условное нормальное распре­ деление со средним m0 и ковариационной матрицей 1/n 0 ~ , где пара­ метр nO отражает степень доверия к m0 как значению истинного среднего [ 11]. Далее, f(m, ~-1Iх:п)= f(xnlm, ~ -l)fl(m, ~ - 1) ~ SS[числитель] dm d~ - 1 Раскрывая скобки и собирая члены, как это было сделано ра­ нее, получаем f (ХлIm, ~- 1 ) =. 1 1~-l 1п12 ехр [--- 1 trVn ~- 1 ] х (2n)лL/2 2~ Х СеХр [-+ (m-Xл)I(+ ~)-l (m-Хл)], Таким образом, f(m, ~ -1/xn)=c/~ -l/(n+v,-L -1)/2 Х [1 [1 Хехр-2 trVn~ - 1+trv0~ 0 ~- 1)exp - 2 (m-m0)1Х Х(nlo ~)- 1 (m-m0)-+ (m-Xn)1(-;; ~) - 1 (m-Xn)] • 79
п _ Iп где Vn = I (х1-хп) (х1-Хп)1; Хп =-;; I Xj, /=1 /=1 Раскрывая выражения, входящие во вторую экспоненту, полу­ чаем -+{mt [(-t -~)-1 +(-; ~)-1] m- - 2mt[( ~о ~)- 1 m0 +(-;~)- 1 xп]+m~( п~ ~) - 1 m0+ Дополняя до полного квадрата, прибавляя и вычитая величину --m --х - - ,.,,, --m - --х ( по +n-)t(1~)-1(по j- n - ) n+no O n+no п n+no п+п0°п+nоп' получаем в показателе экспоненты выражение --1-{(m-mп) 1 (- 1 - ~)-l (m-mп) +п0mt ~- 1 m0+ 2 n+no +nx/i ~- 1 Хп-(п+n0) m~ ~- 1 mп}, где mn = n0/(n+п0)m0+n/(n+n0) Хп· Так как х1~-1х = tr~- 1xx 1, то, подставив предыдущее выра­ жение снова В f (m, ~ -l Jxn), получим 80 /(m, ~-11хп)=с1~-l1(п+п0 -L-1)/2 Х Х ехр{--1 (m~mп) 1 (-1 -~)- 1 (m-mп)}'x 2 п+п0 J { 1 t --1 Хехр- 2[tr([Vn+V0~о+n0m0mo+n0хпХп+ +(п+n0)mnm~) ~- 1)]} • Таким образом, полагая 1 1п - - Sn = п-1 Vn = п-1 I (Хj-Хп) (xj-Xп)t; /=1 nn=n+n0; Vп=n+v0 ;
имеем f(m, ~-llxп)=kl( :п ~)-111/2 х Х ехр{-+ (m-mп)t( nln ~) -1 (m-mп)} 1~-lJ(vп-L-2)/2 Х Х ехр{- 1⁄2-trVn ~п ~- 1 }, которая, как и ожидали, имеет форму плотности вероятности «со­ ставного» распределения с параметрами nп, mп, Vn и ~n• После нор­ мирования 1(+. ~) -111/2 .:......:...._:_:_(2-л-'--)L_/.....;2,____ ехр {--+ (m-mп)t (п: ~)-\m-mп)} Х 1 Vn l(vn-1)/2 Х -2-~n ,~ -1\(vn-L -2)/2 Х лL<L-1)/411 г(v\ i) /=1 Хехр{-+trVn ~п ~- 1 }• ~- 1 положительно определенная симметричная матрица, О в остальных случаях. (28) Байесовской оценкой m и ~ - 1 при квадратичной функции потерь является (m)n = Е [m 1~n], (~- 1)n = Е[~- 1 1Xn], Однако 1 Е[mIхп]=~Е(tЬ1~- 1, хп)f(~- 1J хп)d~- 1, Еlm II,- 1, Xn] = mп (независимо от ~- 1). Таким образом, (m)п=mn=~ m0 +-n -(_l ,i, х1): (29а) n+п0 n+noп~ ,~1 (~-l)п = (~n)-1 . 81
Так как 11 = (~-1)-1 , то еоответстьующая оценка ~ имеет вид (:Е)п= :En = - 1 - {[(п-1) Sn +пх"п ~] + п+ао + [v0 :E0 +n0 m0 mИ-nn mn m~). (29б) 2.11.6. Распределение Пуассона - неизвестно rx Пусть х = [т, т) означает число событий т за время т. Чтобы найти простую воспроизводящую плотност_ь вероятности, опреде­ лим априорную выборку: т0 событий за время т0 • Согласно теоре­ ме2 НО f(a)= f(хоIа) _ ff(ХоIа)da (ато)m• e-a'to mol --------, а;;,.О, с,о о е-а,;о da; 5 (а, )m• m01 LO О в остальных случаях, с,о с,о S(rx-r0)mo е-а,;, drx=- 1 -J ет. е-оd0=- 1- Г(т0 + 1). То •о о Так что воспроизводящая плотность вероятности !т:;1•+ 1 rxmo е-а,;,, 1Х :>, О, f(rx) = r (то+1) О в остальных случаях, (30) является плотностью вероятности гамма-распределения с параме­ трами т0, т0• Далее, если Xi представляет собой mi событий за время -ri, то f(rx1~n) = Ь(xnIa)t(а) J[числитель] da Таким образом, . \ (то+ f т1) -а(,;•+ f 1:1) f(rxlxn)= crx 1""' 1 е /=! , О в остальных случаях, 1Х>о, (31) 82
которая и является плотностью вероятности гамма-распределения с параметрами n n nп =то+~ т1; 't'n = 't'o + ~ 't'J, /= -1 /=-1 и нормирующим множителем С='t'~n+ 1 /Г(nп+1). Байесовская оценка rx при квадратичной функции потерь имеет вид 2.11.7. Респределенне Релея - р= 1/cr 2 неизвестно f(хIР)=рхе-<х•P>l2и(х), р>О. (32) Чтобы найти простую воспроизводящую плотность вероятности, определим априори Xn0 , Согласно теореме 2 f(p)= f(~n.lP) Sl(Xn0 1Р)dp ( no )-Р(_~1 х}12) р"•ПXjе J /=! -----о - -~--- -----, р,:::::::: ' S[чиСJiитель] dp О в остальных случаях. Это плотность вероятности гамма-распределения относительно р no с параметрами Ь 0 = п 0 и с0 = ~ х]/2. Таким образом, априор- 1=1 ная плотность ,вероятности { с~•+ 1 p/Jo е-РСо р~О, f (р) = Г(Ьо+I) ' О в остальных случаях. (33) 1n ) -р (со+ .± х7/2) k{ПXJ рn+ь.е J=l f{pl xn)= l(xnlP)t(P> _ ---' -\'-1=_1~------- S[числитель] dp SJ [числитель] dp Далее, в.з
которая имеет форму плотности вероятности гамма-распределения относительно р. Таким образом, после нормирования где п bn=b0 +n; Cn=co+ !i xf/2. i=I (34) Байесовская оценка р при квадратичной функции потерь имеет вид 2.11.8. Экспоненциельное респределение - ').., .-1еизвестно f(х]л)=ле-лхи(х), л>О. (35) Чтобы найти простую воспроизводящую плотность вероятности, определцм априорную последовательность /хп.• Согласно теореме 2 -л.(~хj) л.п•е i=I ------, Л ~ О, f [числитель] dл. О в остальных случаях, но эта плотность вероятности имеет форму плотности вероятности гамма-распределения относительно л с параметрами Ь 0 = п 0 , с0 = "• = ~XJ, i=I Таким образом, воспроизводящая априорная плотность вероят­ ности после нормирования имеет вид 1 io+I -лс0 о ~ь.е ~ ----- О f(л)= Г(Ьо+!) "' 1 "'~ ' О в остальных случаях. (36) Далее, (со+ ±Xj) Кл.11+ь. е-л /=1 f (лIxn) = f (хпIл.) f(л.) - ------- s[числитель] dл f [числитель] dл. 84
которая также имеет форму плотности вероятности гамма-распре­ деления относительно л. Таким образом, после нормирования ! сьn+• '(лlх )= п льпе-kп, л>,О, п Г(Ьп+!) О в остальных случаях, (37) п где Ьп=ьо+п; Сп=со+!iXj. /=1 Байесовской оценкой л при квадратичной функции потерь явля­ ется п с0+ !iXJ j=l 2.11 .8. Экспоненциальное распределение - л неизвестно параметрическом пространстве (38) Предположим, что h (х \ Ь) - любая функция плотности вероят• ности, возможно и смеси. Если 5а дискретно с V возможными значениями ьv, то любая априорная плотность вероятности f (Ь) есть просто множество V V величин pv, таких, что pv;;;:: О, ~ pv = 1, каждое pv - априор- v=l ная вероятность, что истинное значение параметра равно ьv. Очевидно, что после наблюдения выборок х1 , ... , Xn апостериор­ ная плотность вероятности на 5а будет дискретной с массой, сосре- доточенной только на множестве {bv}~= 1. Будут изменяться только величины pv, После наблюдения х1 апостериорная плотность вероятности h (Х1 1ь(/) (pv)o где К1 - нормирующая константа. V Так как должно выполняться условие ~ (pv) 1 = 1, то v=I V К1= !ih(х11ь,(pv)o, v=l где {(pti) 0 }~=t - априорная вероятность на fla. Таким образом, (pv)1 = / (х1 / bv) (pr,)o ' V=1,2,.,.,V. !i h (х11 Ь(/) (pV)o v=I 85
Следовательно, после п наблюдений в предположении, что Xi параметрически условно независимы и одинаково распределены, имеет место рекуррентная формула (рV)п= :(xnlbV)(pV)n-1 'V=l,2, ... ,v. (39) !i h (xn I ьv)(pv)n-t v=I Таким образом, плотность вероятности является воспроизводя­ щей, независимо от вида h (х IЬ). Байесовская оценка Ь при квадратичной функции потерь опреде­ ляется выражением (Ь)n= Е [ЬIXn] = ±bV (рv)п- (40) V=\ 2.12. Стохастическая аппроксимация Как было показано раньше (см., например, § 2.8), функция ин­ формации ri (Ь, Ь*) = jlnh (x/b)h (xlb*)dx (1) естественнQ возникает при байесовском подходе, когда вычисляет­ ся апостериорная плотность вероятности f (Ь Ixn)• В § 2. 7 (а также в § 2.14) было показано, что вектор-фующия 1'(Ь,Ь*) =Svь[lnh(xlЬ)]h(xlЬ*)dx (2) естественно возникает при оценивании по методу максимального правдоподобия. В настоящем параграфе исследуется процедура сто­ хастической аппроксимации на основе понятия «функции регрессии» р (Ь, Ь*). Одна из этих процедур - процедура Кифера-Воль­ фовица - использует р (Ь, Ь*) = ri (Ь, Ь*). Другая - процедура Роббинса-Монро - использует 1' (Ь, Ь*) в качестве вектора функций регрессии. Обе процедуры могут рассматриваться как спе­ циальный •случай процедуры Дворецкого. В гл. 5 детально рассмотрено, как при байесовском решении, соответствующем минимуму условного риска, вычисляется функция ri (Ь, Ь*) для всех точек Ь параметрического пространства. В основ­ ном применение процедуры стохастической аппроксимации Кифера­ Вольфовица состоит в поиске решения максимизирующего ri (Ь). Мы увидим, что байесовский подход включает в себя оценки, осно­ ванные на стохастической аппроксимации. Функция регрессии Чтобы пояснить идею, лежащую в основе стохастической аппрок­ симации, предположим, что каждая выборка из х1 , х2 , ... , Хп имеет плотность вероятности h (х IЬ*), где Ь* фиксировано, но неизвест­ но. Цусть ~ (х, Ь) - случайный вектор, зависящий от случайного 86
еектора х и фиксированного вектора параметров Ь. Регрессия слу­ чайного вектора ~ (х, Ь) определяется как р(Ь, Ь*)дSs(х, Ь)h(х/Ь*)dx, (За) а оценка этой регрессионной функции как 1п (р(Ь))п= -;;- I S(Х8,Ь). s=1 (Зб) Если р (Ь, Ь*) удовлетворяет некоторым условиям регулярности в окрестности точки Ь = Ь*, то можно использовать (р (Ь))п для оце­ нивания Ь*. Когда р (Ь, Ь*) = 'l'J (Ь, Ь*), то Если то s(x, b)=lпh(x/b). s(х,Ь)=Vьlпh(х/Ь), р(Ь,Ь*)=1'(Ь, Ь*). (4) (5) (6) Необходимо подчеркнуть, что на практике для конкретной задачи р (Ь, Ь*) неизвестно, потому что неизвестно Ь*. Однако для этой за­ дачи должна быть определена функциональная форма р (Ь, Ь*), которая, в свою очередь, определяется видом s (х, Ь) и h (х I Ь). Ис­ пользуя выборки ~ (х1 , Ь), ~ (х2 , Ь), ... , ~ (хп, Ь), можно построить оценку (р (Ь))n- Прежде чем перейти к изложению фундаментальных теоретиче­ ских результатов, полезно рассмотреть пример, показывающий связь стохастической аппроксимации с байесовским оцениванием. Пример, устанавливающий связь стохастической аппроксимации с байесовским оцениванием. Пусть х1 , х2 , ... , Xn представляют собой п параметрически условно независимых и одинаково распределенных наблюдаемых векторов с плотностью вероятности h (х I Ь*), где Ь* фиксировано, но неизвестно. Для любого вектора Ь в параметриче­ ском пространстве ;JaM' определим ~18lnh(х11Ь)=~(х1,Ь), ~ 2 д Iпh(х2\Ь) =s(х1,Ь), (7а) lr оцеrшу (8а) которая является оценкой функции р(Ь,Ь*)=flnh(хIЬ)h(хIЬ*)dx =n(Ь,Ь*). (9а) 87
Байесовский подход требует построения оценки вида (8а) для каждой точки Ь параметрического пространства. Это показывает одну из сторон общности байесовского подхода и ограниченности стохастической аппроксимации. Пример, иллюстрирующий связь стохастической аппроксимации с оцениванием по критерию максимального правдоподобия. Пусть все будет так же, как в предыдущем примере, за исклю­ чением того, что s1= Vьlnh(Х11Ь), s2=Vьlпh(x2jb), Sn =Vь lпh(Xnlb). Оценим р (Ь, Ь*) с помощью 1п (p(b))n=-;;- I vь ln h (X8 IЬ). s=l Это оценка вектор-функции (7б) (8б) р(Ь,Ь*)=fVь[lnh(хIb)Jh(х/Ь*)dx. (9б) Процедура l(ифера - Вольфовица (Ь=Ь, где Ь - скаляр) Предположим, что функционал s (х, Ь) известен и наблюдаются выборки х1 , х2 , ... , Xn, Одно из требований процедуры Кифера - Вольфовица состоит в том, чтобы дисперсия случайной величины s(x, Ь) была конечна: 00 S [s(x, Ь)-р(Ь, b*)J 2 h(x/ b*)dx~const. (10) -оо Другое требование касается поведения р (Ь, Ь*) в окрестности Ь = = Ь*: р (Ь, Ь*) - строго возрастающая функция для Ь < Ь*; (11) р (Ь, Ь*) - строго убывающая функция для Ь > Ь*. Далее выбираются две бесконечные последовательности положи­ тельных чисел lli, а2 , ... и с1 , с2 , ... со следующими ~свойствами: а)limс =О· 8 ' 00 (12) г) ~ а:Cs- 2 <00. s=l Примером таких последовательностей могут служить следующие: а8=s-1,С8=s-i/З,S= 1,2, ... 88
Рекуррентной оценкой для Ь* при наблюдаемых векторах х1, х2 , ... , Xn, Хnн и функционале s (х, Ь) (который используется в процедуре Кифера - Вольфовица) является следующая оценка: (b)n+l = (b)n + an Hxn+1, (Ь)n+сп)-~ (xn+1, (Ь)п-Сп) (lЗ) Cn Если функция регрессии р (Ь, Ь*)==fs(х, Ь)h (х/Ь*)dx (14) также удовлетворяет условиям регулярности, приведенным ниже, то (b)n сходится в среднеквадратическом (и, следовательно, по вероят­ ности) к Ь*. Заметим, что (15) Сп определяет дифференциал s (хпн, Ь) в точке Ь = (b)n, Если это выражение положительно, то (b)n возрастает при стремлении к Ь*; если отрицательно, то (b)n убывает при стремлении к Ь*, Условия регулярности для р(Ь, Ь*) в процедуре l(ифера - Вольфовица (одномерный параметр) Выражение (15) является оценкой наклона функции регрессии (14) в точке Ь = (b)n· Если (Ь)nн ближе к Ь*, чем к (b)n, то мате­ матическое ожидание величины этого наклона должно быть либо отрицательным, либо положительным в зависимости от следующего: (b)n > Ь* или (b)n < Ь*. Это требование выражается с помощью условий регулярности: 1. Существуют такие положительные числа d и е, при которых для любых Ь', Ь" изIЬ'- Ь*1+1Ь"- Ь*1<d следует 1р (Ь', Ь*)- р(Ь",Ь*)1<еIЬ'- Ь"1. 2. Существуют такие положительные числа q и ,, при которых изlb' - Ь"/<qследует]р(Ь',Ь*)- р(Ь",b*)I<r. 3. Для любого б > О существует такое положительное число , i; (б), при котором из /Ь - b*I > б следует1> inf \ р (Ь+с, Ь*)-;р (Ь-с, Ь*) ! > ,i; (б), О<с< Т б. Обсуждение условий регулярности с практической точки зрения Условие 1 не позволяет производной р (Ь, Ь*) в окрестности точки Ь = Ь* принимать слишком большие значения, поскольку 1Ь'- Ь"1=1Ь'- Ь"+Ь*- Ь*1=1Ь'- Ь*+Ь*- Ь"1~ ~1Ь'- Ь*1+1Ь*- Ь"1 1 > inf означает нижнюю границу, 89
JJ(b,b"} А или практически производная р (Ь, Ь*) в точке Ь = Ь* равна нулю. Условие 2 не допускает слиш­ ком крутых подъемов функции р (Ь, Ь*) в любой точке Ь. Усло­ вие 3 не позволяет р (Ь, Ь*) быть lJ слишком плоской в точках Ь, уда­ ленных от Ь*, так как ограничивает снизу абсолютное значение произ­ водной р (Ь, Ь*). Примером функции регрессии, удовлетворяющей условиям регулярности 1-3, может служить функция: Ь* Рис. 2.1 р(Ь,Ь*)=ехр[-(Ь - Ь*)2],Ь1~Ь~Ь2, которая изображена на рис. 2.1 . Впервые статья Кифера и Вольфовица, описывающая данную процедуру, бы.11а опубликована в 1952 г. [13]. Процедура Дворецкого (одномерный параметр) .Обобщение процедуры Кифера - Вольфовица [13), а также про­ цедур или модификаций, предложенных другими исследователями, включа'd процедуру Роббинса - Монро [ 15), которая обсуждается в следующем параграфе, было дано Дворецким [ 17). Процедуру Дворецкого можно получить с помощью схемы Кифера-Вольфо­ вица [ 13): к слагаемым в числителе правой части (13) прибавим и выч­ тем р ((Ь)n + Cn, Ь*) - р((Ь)n - Cn, Ь)*. Тогда (Ь)nн = (b).n + ,an [р ((b)n + Cn, Ь*)-р ((b)n -Сп, Ь*)] + Cn (16) где а" Yn ~ ~ {[~ (xn+l• (b)n +cn)-p((b)n +сп, Ь*))-[~ (хnн, (Ь)п - -Сп)-р ((Ь)n -Сп, Ь*)]}. (17) Последовательность Tn - детерминированная, сходящаяся к Ь* при условии, что an, Cn и Tn удовлетворяют некоторым условиям регулярности, которые приведены в статье Дворецкого; Yn интер­ претируется как компонента шума, сходящаяся по крайней мере по вероятности к нулю. Читателя, интересующегося результатами Дво­ рецкого, мы отсылаем к литературе [ 14, 17]. С практической точки зрения рассмотренная процедура Кифера - Вольфовица и после­ дующее рассмотрение результатов Роббинса -Монро иллюстри­ руют сущность стохастической аппроксимации. 90
Nроцедура Роббинса- Монро (одномерныt! парамеtр) В процедуре оценивания, описываемой уравнением (13) (про­ цедура Кифера- Вольфовица), коррекция оценки (b)n для получе­ ния оценки (b)n+i производится с помощью оценивания производной s(xn, Ь) в точке Ь = (b)n• Так как требование заключается в том, что­ бы Шs (х, Ь)] было максимально в точке Ь = Ь*, то математическое ожидание производной s (х, Ь) в точ- ке Ь = Ь* равно нулю (заметим, что p{!J,b*) для процедуры Кифера - Вольфови- цар(Ь,Ь*)=Е[s(х,Ь)]). В процедуре Роббинса - Монро (15) используется такая функция ре­ грессии, для которой р (Ь, Ь*) = О при Ь = Ь*. Такая функция регрес­ сии соответствует подходу, основан- ному на оценивании по методу мак- ь симального правдоподобия. Пусть р (Ь, Ь*) определяется cor- Рис. 2.2 ласно (За) и удовлетворяет следую- щим условиям: 1. р (Ь, Ь*) < dIЬ1+ е< оо для всех Ь и соответствующих констант d и е; 1 2. infр(Ь,Ь*)>О,,;<Ь*-Ь<k; supр(Ь,Ь*)<О,1/k<Ь- Ь*<k для всех целых k. 00 00 3.~а8=оо,~а:<оо;например,а8=1/s,s=1,2, .... s=I s=I Тогда при произвольной начальной точке Ь0 рекуррентная последо­ вательность {bn}, определяемая соотношением (b)n+l = (b)n - ans (Xn+i, (b)n), (18) сходится к Ь* как по вероятности, так и в среднеквадратическом. Рекуррентную форму процедуры Роббинса -Монро (18) можно преобразовать к форме Дворецкого, прибавляя и вычитая р ((Ь)п, Ь*). Тогда (b)n+l (b)n - an р ((b)n, Ь*) + Yn, (19) где Yn = ~ [s (xn, (b)n) - р ((b)n, Ь*)]. (20) Пример функции регрессии р (Ь, Ь*), удовлетворяющей усло­ виям1и2,показаннарис.2.2,гдеЬ1~Ь~Ь2. Пример. L = 1. Предположим, что h(хIЬ*)=/=О,Ь1<х<Ь2; Е[х/Ь*] = Jxh(х/Ь*)dx = Ь*; ~(х,Ь)=х-Ь,an= lln. 91
Тогда ь. р(Ь, Ь*)=\' (x-b)h(x/b*)dx=b"-b ь, и согласно (18) (b)n+1 = (b)n +(.1/п) [Xn+ 1-(b)n] • Обобщение процедуры Кнфера - Вольфовнца иа случаii миоrомериого параметра (21) Предположим, что р (Ь, Ь*) = JG(х, Ь) h (х\Ь*) dx имеет един­ ственный максимум в точке Ь = Ь*. Пусть существуют последова­ тельности, удовлетворяющие следующим условиям: со а)limС8=О; б)~а5=оо; S➔CO s=I в)si\а5с5<00; r) s~I ( :: ) 2 <оо. (22) Пусть Ь - точка векторного пространства, натянутого на орто­ нормальный базис ei, е2 , ... , eq. Построим случайный вектор s с помощl!ю q + 1 независимого наблюдения и определим бх,Ь,сn ~[(G(x,b+cne1)-G(X,b)), (G(x,b+cne2)- -G(х, Ь)), ..., (G(х,Ь+ Сп e11)-G(х,Ь))]. (23) Тогда рекуррентная оценка Ь* определяется выражением б (ь) - (Ь) +а xn+1, (b)n' сп n+l - n п . Сп (24) Заметим, что бxn+i· <Ь>n• cnfcn - вектор . направления максималь­ ного наклона плоскости, определяемой ~q + !векторами G(Хnн, (Ь)п), G(Хп+1, (Ь)п + Сп е1), ... , G(Хnн, (Ь)п + Сп eq). Теорема Блюма [37, 381 утверждает, что (Ь)пн, определенное в (24), сходится с вероятностью 1 к Ь*, если кроме (22) функция рег­ рессии р(Ь,Ь*)= S1aG(х,Ь)h(xlЬ*)dx удовлетворяет следующим условиям регулярности: 1. р (Ь, Ь*) непрерывна в точке Ь с непрерывными первой и вто­ рой производными. 92
2. S(~(к, Ь) - р (Ь, Ь*)}2 h (к\ b*}dx ~ const. 3. Для любого положительного в существует положительное числор(в)такое,чтоиз/\Ь- Ь*11~вследуетр(Ь,Ь*)~ ~р(Ь*,Ь*},l!d(Ь,Ь*)11~р(в), где вектор первых частных производных р (Ь,Ь*) относительно ком­ понент Ь обозначается через d (Ь, Ь*). 4. Вторые частные производные д2р (Ь, Ь*)/д0;д0 1 ограничены дляi,J= 1,2, ..., q, где0i- i-я компонента вектораЬ. Для полноты можно определить р (Ь, Ь*}: р (Ь, Ь*) ~ sбх;ь,с h (х IЬ*) dx, хотя только что описанная процедура неявно включает в себя эту вектор-функцию регрессии. Возможно, однако, сформировать оценку пб (р(Ь)}п = _1 "' xs,b,c =0 п~с s=I и искать решение (Ь)п этого уравнения; заметим сходство этого метода с решением, основанным на методе максимального правдо­ подобия, которое дано в (8б). Имеется очень большое количество статей по стохастической аппроксимации. В дополнение к уже сделанным ссылкам можно указать на [14, 16, 20-23, 25, 39, 42, 43, 54*, 55*]. В § 2.13 обсуждаются трудности, возникающие при применении методов стохастической аппроксимации к смеси нормальных плот­ ностей вероятности. Одна из причин возникновения этих трудно­ стей состоит в необходимости введения некоторых ограничений на параметры смеси 1 >. В § 2.14 обсуждается связь между оцениванием по методу мак­ симального правдоподобия и стохастической аппроксимацией. В § 2.15 показано, как функцию регрессии '\'(Ь), которая связана с байесовским подходом, можно использовать для построения оце­ нок либо типа Кифера-Вольфовица, либо типа Роббинса-Монро для параметров, характеризующих смеси нормальных плотностей. В § 2.16 для стохастической аппроксимации используется функция информации n (Ь). 2.13. Применение стохастической аппроксимации к смеси нормальных плотностей 2 > Пусть ft (х) Е ~, где~ - семейство L-мерных нормальных плот­ ностей вероятности с вектором средних mi и ковариационной мат- 1> Те же самые проблемы возникают н прн подходе, основанном на методе максимального правдоподобия. 2) См. [45, 46). 93
рицей ~i - crPI. Это означает, что bi = [m,, :Ei11 f(lb")-тf [-т?(x-m1)1 (x-m1)] х 1,t - ----,--,- ехр _______ , (2.rt)L/ 2 2 где 'ti - 1/cri, В качестве функциw регрессии выберем функцию n (Ь) = S[In h (x/b)Jh (х) dx, (1) м• где h(хIЬ)= ~ f(xIЬ1,i)Р1 и (как всегда) l=l Ь=[Ь1,Ь2,..., Ьм·, Р1, Р2, ... , Рм•J. Ограничения на параметры смеси Р1 , Р2 , ... , Рм , след ующ ие: м• ~рi=1. р1>о, l=- 1 l-1 или, полагая di = ~ 1Р1, d1 = О, видим, что (3) эквивалентно О3⁄4Pi3⁄41-di,i=1,2, ...,М'-1; Рм· = 1-dм,. (2) (3) (4) Необходимо вычислить производные 'У} (Ь) относительно всех пара­ метров, входящих в Ь. Предполагая, что 'YJ (Ь) регулярна относи­ тельно этих частных производных, соответствующие производные можно вычислить под знаком интеграла. Это следующие производ­ ные: [I~f( /Ь .)Р-]- Р;тf(x-m;)f(хIЬ;, i) . \7m. П ,._ Х 1,t , ---------, ' t=I /1(xl Ь) (5) -0-[Iп ~ f(хIЬ1,i) Р1]= Р; f(х IЬ;, i) [_!::._-,, (x-m1)1(х--mд]; ih; ~ li(хIЬ) т1 Z=l (6) _a_ [ln f f(xjb1, i)P1] =-1 -[f(xlb1,i)-f(xJbм,,M')], дР1 l=l h(xl Ь) i=;l=M', (7) где в последнем выражении использовано условие Рм, =1- ~ Р1• ЦМ' (8) Наблюдается следующая трудность: когда т1~0, дlnh (xlb);chi-+ - - + оо, и когда Pi-+ О, д ln h (х I Ь)/дР1 может становиться очень 94:
большим. Чтобы обойти эту трудность и удовлетворить ограничени­ ям (6), в работе [4] введены две новые переменные w1 и у 1 : 1 1 Wi='t'i- - =- -<1;, 0<-r; < оо, 'ti О'; (9а) т. е. т. е. (9б) (lOa) (lОб) Уравнение (9а) - взаимно-однозначное отображение открытого ин­ тервала (О, оо) в интервал (-оо, оо,); (lОа)-взаимно-однозначное отображение для каждого Р 1 замкнутого интервала [О, 1 - d 1] в интервал [-оо, оо]. Следовательно, мы можем оценить w1 и у1 с ограничениями на -r 1 и Р 1 , которые выполняются автоматически. Применяя процедуру Роббинса - Монро, получаем (Щ)nн = (m;)n + ап _д_ lп h(x/ b)I x=xn; (11) дm; b=(b)n (wдnн=(w;)п+ап[ ih; 1 _д_ln/i(x/Ь;,i)lx=xn ]; (12) дw; 1:;=(1:;)n д-r; b=(b)n [м•-! дРr I д •/ ] (у;)nн=(у;)n+ап ,I ~ ap°"lnh(x/b;,t)x=xn , r=t , Pr=(Pr)n r b=(b)n где {ап} удовлетворяет обычным ограничениям 00 (13) 00 ~as = оо, s=l ~ а:< оо. В алгоритмах (11)-(13) необходимо учесть (5)-(7), s=l (9б), (10б) и зависимости ~=...!...[1+ ~]; дw; 2 Vwr +4 дР;= ....!_[l_ 2 ]• ду, yf V(l-d;)2 yf +4 ' r-1 дРr _ 1 "' дР1 [l (1-dr)Yr ] i<r<M'. ду; - -2 ~/ау;- +VO-dr)2у~+4 ' Этот подход, использующий оценку функции регрессии, имеет сле­ дующий недостаток'>: могут потребоваться большие размеры выборки 11 В баiiесовском подходе нет такого недостатка. 95
из-за плохого выбора начальной точки. На практике обычно имеет­ ся ограниченное число выборок. Другой подход состоит в использовании правил, основанных, возможно, на моментах кластера (когда имеется подозрение, что кластер состоит из двух или более кластеров) для «расщепления» кластера. Тогда ч (Ь) можно использовать для вычисления качества такого «расщепления». 2.14 . Пример. Функция регрессии, связанная с методом максимального правдоподобия Согласно определению (см. § 2.7), оценкой максимального прав­ доподобия для Ь*, когда х имеет плотность вероятности h (х j Ь*), является решение уравнений где п ~vь[lnh(xsIЬ)]=О, s=1 n - 1 '"' ~lnh(x8 lb)<0, i=l,2, ... ,q, п~д02 S=1 { ( 1а) Тогда (lб) 1. Если h (х IЬ) регулярна относительно ее первых производных, то JVЬ[Iпh(хIЬ)]h(x·IЬ)dx = Vb Jh(хIb)dx = О; (2а) 2. Еслиh (х IЬ) регулярна относительно ее вторых производных,.то lim ~s ~(lnh(x/b)Jh(x/b*)dx<O, i=l,2, ... ,q. (2б) ei ➔e; д01 д01 Доказательство. Условие 1 следует из условия 1 регулярности, поскольку JVbh (х I b)dx = Vbfh (х j Ь) dx. Условие 2 вытекает из соотношений ~ s _o_[lnh(x/b)Jh(x/b")dx=!.._ S I дh(xlb) h(x/b")dx= д0i д01 д0i h(хIЬ) д01 =-s 1 [дh(х1Ь)]2h(хIЬ*)dx+ h2(xIЬ) д0;. +f-1 - д2 h(х I Ь) h(x/b*)dx Л а(Ь Ь*). h(хIЬ) д0f - ' Тогда lim а (Ь, Ь*) = - (положительное число) + О < О. ь➔ь• Следовательно, функция lь = JVь (lnh (хjb)]h (х./1b*)dx (3) 96
- нулевой вектор, когда Ь = Ь* и каж- дая компонента имеет отрицательный z;1 , наклон в точке Ь = Ь*. Например, если _ "- Ь - скалярная вещественная переменная, 1--------'tь~:с,----,)1,-ь lь может быть такой, как изображено на "' рис. 2.3 . На языке стохастической аппрокси­ мации li, - функция регрессии для про­ цедуры Роббинса - Монро. Заметим, что lь>О,ь<Ь*ilь<о,ь>Ь*. Рис. 2.3 (4) Это предполагает следующую процедуру оценивания Ь: оценка Ь*, обозначаемая (Ь)п, определена через (Ь)п-~ и Хп следующим образом: (Ь)п = ап (Ь)п-1 +Сп Vь ln h (хп IЬ) lь=(b>n-l • (5) Проиллюстрируем эту процедуру на примере. Пример1.L=!,Ь=Е[х]и h(x/b)= 1 [ 1 (х-Ь)2]. aV2'n ехр -2 а2 Тогда д х-Ь - Inh(xlb)= -- дЬ а2 и, таким образом, (6) Пример 2. В примере I в качестве h (х I Ь) была выбрана нормальная плот­ ность вероятности. Если выборки х1 , ... , Хп нек лас си фнц иро ва нны е, то h (х \ Ь) является более сложной функцией и :Ь [lnh(xnlb)]/ь=(b)n-i = :ь [1n~ f(xnlb;)Pi]I i=I Ь=-(Ь>п-1 нелегко вычислить. Кроме того, требуется, чтобы дh (х I Ь)/дЬ и д2h (х \ Ь)/дЬ 2 были интегрируемы, чтобы соответствующие оценки сходились. 2.15. Стохастическая аппроксимация, использующая функцию v(Ь) Когда х1, Хе, ... , Хп -· выборки, имеющие общую плотность ве­ роятности смеси h (х I Ь*), то соответствующая функция регрессии, фигурирующая в методе стохастической аппроксимации для оце­ нивания Ь*, должна иметь либо единственный максимум в точке Ь* (процедура Кифера - Вольфовица), либо единственный нуль в точке Ь* (процедура Роббинса- Монро). 97
Функцией, имеющей единственнwй максимум в точке Ь*, Яlil­ .1111~• у (Ь), у(Ь)=2Е[h(хIЬ)]- 11h (хIЬ)112, (1) которая детально обсуждается в п. 5.3 .5 . Чтобы применить метод Роббинса -Монро, в качестве фу"кции регрессии можно использо­ вать производную у (Ь) относительно Ь. Приmер процедуры Кифера - Вольфовица, использующей -у(Ь) В общем, неизвестные параметры, входящие в Ь, которые необ­ ходимо оценить, включают параметры, характеризующие М ус­ ловных по классу функций плотности вероятности и М параметров смеси Pt, i = 1, 2, ... , М. Параметры смеси удовлетворяют естест­ венным ограничениям: они должны быть неотрицательными и в сумме равны 1. Хотя ограничение, состоящее в том, что оценки Р 1 в сумме равны 1, может быть учтено с помощью метода множителей Лагранжа, ограничение, связанное с неотрицательностью Р 1 , аналитически громоздко. Оба ограничения просто могут быть уч­ тены следующим образом: каждое Р;, 1 ~ i ~ М - 1, оценивается последовательно, ecJiи оценка находится вне интервала [О, 1 - 1-1 - ~ Pi], за оценку принимается ближайшая граничная точка ин­ i=I М-1 тервала. В конечном счете Рм оценивается как 1 - ~ Pi· Тогда i=I задача оценивания состоит в поиске стационарной точки у (Ь), огра­ ничения на параметры смеси при этом учитываются согласно методу, описанному выше. Пусть (Ь)n - оценка Ь* на п-м шаге, когда уже обработаны п наблюдений; пусть (Ьk)п - k-й параметр (компонента) в (Ь)п· При (bk) 0 , выбранном произвольно1', (bk)n+i вычисляется. рекуррентно согласно выражению (bli) _ (bk) + ап (У~11 -У~п- 1) . n+l - п 2Сп (2) Величина (У~п - Yin- 1) /2сп - оценка наклона функции регрес­ сии у (Ь) в k-м направлении, т. е. У~п =2h (Хп 1(Ь)п + Сп e1i)-II h (х 1(Ь)п + Сп e1i) 11 2, (3) У~п-1 = 2h (хп 1(Ь)п -Сп e1i)-II h (х 1(Ь)n -Сп e1i) fl 2 • Таким образом, оценка (Ь)n перемещается в направлении оце­ ниваемого градиента. Неотрицательные числа {а8 }:= 1 и {cs }:... 1 - lj На качество оценки на п-м шаге в энач11тельноц степени в.rшяет выбор начальной точки. 98
последовательности, удовлетворяющие условиям lim Са tc: О; S➔00 "" ,., а =оо· ."'-1 s ' s=I со ~а:с;-2<оо, S=l (4) у вектора ek k-я компонента равна 1, а остальные - нулю. fF : Нормальное семейство Если 11 - семейство нормальных многомерных плотностей ве­ роятности, то h (х.1 Ь) определяется выражением м h(хIЬ)=~Р1N(хImj, ~1), (5) i= -1 где Ь = {Р;, щ, :Ei}fi= 1. (6) Норма h (х I Ь) определяется следующим образом: мм llh(xlb)jj2 ~ ~ h2 (xfb)dx= ~ ~ PiPiciJ, (7) l=I f=I где (8) Дополняя до полного квадрата, интеграл в (8) можно вычислить rсн = (2л)-L/2 ( 1:Ei 1·1 :Ej l)-l/2 .111,-1 +:EFl 1-112 х где х ехр [-1⁄2 (m;-mii)1 :EГ 1 (mi-mii)- -1⁄4 (m1-mo)t 1:.г1 (m1-mil)], (9) mu = (:ЕГ 1 + :Е11)- 1 (:ЕГ1m1+:Е11 m1). (1 О) Таким образом, (3) в данном случае имеет вид k М У2п=2 ~ P;N(xп\((m;)n, (:Е;)п)+спеk)- 1=- 1 мм - ~ ~ Р1 PiclJ, (lla) l=l /=I k М У2п-l = 2 ~ Р; N (Хп 1((m;)n, (:Е;)п)-сп e1i)- (1 lб) l=I мм ~ ~ Р; Pic11• 1=- 1 i=I 99
hример процедуры Роббинса - Монро, использующей v(b) Оценки типа Роббинса - Монро, основанные на у (Ь), можно получить, используя в качестве функции регрессии производныа у (Ь) относительно различных параметров в Ь. Эти оценки будут получены для нормального семейства ; в предположении «боль­ шого отношения сигнал/шум»: (щ-mi)t :1':Г1 (щ-mi) +(mi-щ)t :1':Т1 (m1-Щ) >d, i,j =1,2,..., М;i=1=j, (12) где d » 1. Заметим, что C;J ~ О, если выполнено (12). Так как у (Ь) достигает максимума в точке Ь* (см. п. 5.3 .5), первые производные у(Ь) равны нулю в точке Ь=Ь*. Тогда, чтобы получить оценки Роббинса-Монро, положим равными нулю про­ изводные математического ожидания величины t (хIb)~2h(хIЬ)-11h(хIЬ) j/2 • Учитывая (12), получаем м м t(xlb)~2h(xlb)- ~ Plc;;=(2n)-Lf 2 ~ Р; j:1':;l- 112 х i=I i=I (13) х {2ехр [--+(x-m;)I :1': 1 1 (х-щ)J-2- 1 1 2 Р;} · (14) Чтобы найти оценки Pi, m; и~;, необходимо вычислить производ­ ные t (х IЬ) относительно этих величин. Производная относитель­ но pi дt(xlb) =2N(xjm- :1':)--21/2(2n)-l -/2j:1":-l -112p. (15) дРi i• 1 1 Р и производные относительно m1 и :1': 1 дt(хIЬ) = 2Р; N(хIЩ, :1':i)·:1':11 (х -щ); (16) дm; дt (х IЬ) = Р1 N (х I щ, :1':;)·(:1':;-(х-щ) (х-щ)1). (17) д~t Обозначим через (Р 1 )п, (Щ)п и (:1':;)п оценки Роббинса - Монро для Р 1, m1, и :1': 1 соответственно при произвольных начальных точ­ ках (Р 1 )0 , (m 1) 0 и (:1': 1) 0 ; соответствующие оценки определяются ре­ куррентно следующим образом: (Р;)пн = (Р;)п + ап {2N (Хп 1(m;)п, (:1':;)п) - - 21/2 (2n)-Lf2 I (:1':;)п j-1/2 (Р;)п}, (18) (mдпн = (m;)п -ап {2 (Р;)пн N (хп 1(Щ)п, (:1':;)п) Х Х (:1': 1),-;- 1 -(хп-(m1 )п)}; (19) (:1":дп+1 = (:1':1)п -ап (Рi)пн N (хп 1(m1)n+l• (:1':;)п Х Х [(:1':;)п -(Хп -(Щ)п+~) (хп -(m;)пн) 1]. (20) 100
00 Положительные числа {as}~=I удовлетворяют условиям~ as = оо; s-1 00 ~а:< оо. s=I Заметим, что оценка m; включает скорректированную оценку (Р 1 )n-н параметра Р 1 и оценка :1": 1 - скорректированные оценки Р; и m1. Ограничения на параметры смеси,которые состоят в том, что значения параметров неотрицательные и в сумме равны 1, учиты­ ваются так же, как и в процедурах Кифера - Вольфовица. 2.16. Стохастическая аппроксимация, использующая функцию информации В этом параграфе при построении процедуры стохастической аппроксимации для оценивания Ь* в качестве функции регрессии используется 'YJ (Ь, Ь*) = flп h (х I Ь) h (х I Ь*) dx. Ограничения, накладываемые на параметры, следующие: М' 1). Р 1 ~ О; 2) ~ Р 1 = 1; 3) выполнены условия, достаточные для i=I идентифицируемости, например, если 5" - семейство одномерных нормальных плотностей, то выполнено условие т1 < m2 < ... < тм,. Условие 3 необходимо для того, чтобы сходимость была един­ ственной и чтобы исключить из параметрического пространства точки, которые уменьшают скорость сходимости. Конечно, это ог­ раничение не противоречит условиям, требующимся при стохасти­ ческой аппроксимации, единственности локального экстремума или нуля функции регрессии. Процедура Роббинса - Монро Процедура Роббинса - Монро с учетом ограничения 2 основа­ на на уравнении VьHlп(h(xjb))-л[ с~! Р;)-1 ]}h(xlb*)dxlь=ь• =0. (1) Предполагая, что градиент и интеграл можно поменять местами и полагая Р; = Qi, чтобы удовлетворялось ограничение 1, из урав­ нения (1) следует, что f[2Q;f(х\bi)-2 Q1лh (х\Ь*)] dx = О, i = 1,2, ..., М'. (2) Выполняя интегрирование в уравнении (2), получаем, что л = 1. Следовательно, (3) где SQi (Хп, (b)n) = 2 (Q1)nL1 (Xn+l• (b)n) - 2 (Q1)n, (4) 101
с Интересно, что М' ~ (Q;)пн (Q;)п = 1 (5а) i=I или М' _}: [(Q1)пн]2 ,-= 1+ О (~) • (5б) 1=1 Из уравнений (5а) и (3) окончательно получаем, что (Р;)пн == ((Qд,J 2 + 2ап ((Q;)п] 2 [L; (х 11 н, (Ь)п)-1 ]. (6) Если ;f - нормальное семейство, то в (6) необходимо исполь­ зовать следующие оценки векторов средних m; и ковариационных матриц :1: 1: (mдпн = (mi)n + ап (:1":-1)п [Х"н -(m1)п] [(Q;)n] 2 L; (хпн, (Ь)п); (7) (:1":;)пн = (~1)п + ап [(Хпн--(m;)п) (Хпн -(m1),.)t - - (:1":;)n] [(Q;)n] 2 L; (Хпн, (Ь)п). (8) 2.17. Исключение мешающих параметров Чтобы определить, что такое мешающие параметры, рассмотрим оценку (:1":)п ковариационной матрицы :1":* при наблюдении пара­ метрически условно независимых выборок х1, х2 , ... , х11 , когда вектор средних m* = Е[х) неизвестен, 1п (:1":)n =~ - ~ (X 8 -(m),,) (X 8 -(m),,)t, п-1 ~s=I • где (m)п = 1/п 2,; Х8 • Поскольку m* неизвестно, оценка (m)п парамет- s=I ра m* является мешающей относительно (:1":)п. Определенная выше оценка (~)п имеет большую дисперсию по сравнению со случаем, когда m* известно. В книге [49) содержатся примеры мешающих параметров, которые соответствуют параметрам сдвига и масш­ таба. Следующий пример возникает в задаче классификации сигналов: предположим, что сигнал f (t) дискретизируется в моменты времени t 1, t2, ... , tk. Это порождает выборки х1 , х2, ... , xk. Согласно теореме выборок1 >, известной в теории связи, сигнал может быть восстанов- 1 > Теорема Котельникова. (Прим. пер.) 102
лен по этим выборкам следующим образом: к f(f)= ~ Xk{/)k(f), k=I где {/)1< (t) - базисные функции вида (sin t)lt. Предположим, однако, что априори известно, что f (t2) = = af (t1). Тогда можно определить базисную функцию •ф1 (f) = (t)= С1~11(f), f1~f~{2, { а, t=f2 f 1, t=i1, с f U1)+af U2) С1=;__:_;~----'--'-"-'-, а2+1 Другими словами, вместо двух измерений х1 и х2 существует единст­ венный признак с1: это редукция размерности, использующая ап­ риорные данные. Обобщение этой процедуры состоит в представ­ лении К' t(t> = ~ c1i ч11~(t), к'<К. k=I В этом параграфе показано, что в задаче распознавания образов редукция размерности, благодаря исключению мешающих парамет­ ров, может улучшить качество. Предположим, что решение задачи распознавания образов фор­ мулируется следующим образом: существует п 1 L-мерных выборок для каждого из М классов, i = 1, 2, ... , М, затем оценивается fi (х), i = 1, 2, ... , М, и принимаются решения, использующие эти оцененные плотности вероятности в байесовском правиле решения (см'. гл. 3). Если имеется неограниченное число обучающих выборок, эта процедура может давать хорошее качество; если есть ограни­ ченное число обучающих выборок, эта процедура может давать низкое качество. Модель исходной задачи может быть полезной с точки зрения редукции числа параметров, характеризующих статистики каждой категории. «Исключенные» параметры можно рассматривать как мешающие, поскольку необходимость их оценивания может уве­ личить суммарную ошибку. Тщательный выбор модели задачи может уменьшить число обучающих выборок, требуемых для достижения заданного качества. Хотя, возможно, это и наиболее важная про­ блема в теории распознавания образов, только в последнее время на нее начали обращать внимание исследователи по теории распо­ знавания образов. Методология, показывающая, как можно использовать модель задачи, чтобы исключить мешающие параметры и повысить каче­ ство, основана на байесовских многошаговых проце,цурах, пред­ ставленных в§ 2.9 и 2.11. Байесовский подход предусматривает ис- 103
пользование «нечетких предположений» (fuzzy quess) в оценивании параметра; таким образом, можно использовать оценку одного параметра как «нечеткое предположение» для оценивания дру­ гого. Предположим, что сигнал х (t) имеет вид х(t)=[s(t)+п(t)Jsinrot, (1) где s (t) - детерминированный процесс, а п (t) - белый шум. При отсутствии априорных данных, для того чтобы преобразо­ вать х (t) в вектор наблюдений, можно использовать стандартную процедуру дискретизации. Реализация х (t) при этом преобразуется в вектор х=[х(t1), х(t2), ... , х (t1i)J Л [х1, х2, ... , x1iJ, (2) Если х принадлежит одной из двух категорий, то важно знать плотность вероятности х для этих двух категорий. Предположим, что эти плотности вероятности нормальные с неизвестными сред­ ними и ковариациями. Оценивание этих средних и ковариаций очень важно для вычисления «расхождений», которые используются в байесовском правиле выбора решения. Исследователи в области распознавания образов часто полагают, что неопределенность, воз­ никающая из-за оценивания ковариационной матрицы (при фик­ сированном объеме выборки), увеличивается при увеличении раз­ мерности; это происходит из-за увеличения неопределенности в «расхождении» [возможное определение меры расхождения (х - m)' :1:- 1 (х - m)J. Это плохо, когда неопределенность возрастает вместе с увели­ чением размерности; скорее неопределенность должна уменьшать­ ся, если размерность используется должным образом. Мы проил­ люстрируем это при k = 2. Предположим, что имеющиеся априорные данные позволяют установить связь между статистиками х1 и х2 : х = [х1, x2l, следующего вида т2 = ат1, Var [х2] = а2 Var [х1], (3) (4) Пусть наблюдается п выборок Х8 = [х81, Х82], s = 1, 2, ... , п, и предположим, что х имеет нормальное распределение, причем дисперсии х1 и х2 равны а2 и а2а 2 соответственно. Без использования конкретных априорных предположений байе­ совские оценки 1> для т1 и т2 имеют вид 1п 1п (mJп =-; ~ Xsi, (m2)n =-; ~ Xs2, (5) s=I s=I Дисперсии этих оценок равны а2/п и а2 а2/п соответственно. 11 Строго говоря, это оценки максимального правдоподобия. 104
Теперь, следуя байесовскому подходу, будем рассматривать а (т1)п как априорное значение11 т2 с дисперсией а2а'/п. Тогда апо­ стериорная оценка т 2 имеет вид (6) с дисперсией (7) Если а= О, то (m2)n=а(т1)п=Ои(a2)n=О.Еслиа =оо,то Как и следовало ожидать, случай а = 1 соответствует удвоению числа обучающих выборок при использовании знаний о модели по сравнению со случаем, когда эти знания не учитываются. Общее решение Когда, согласно (2), имеется k выборок и существует связь меж­ ду j-й и k-й выборками (8) из этого следует, что неопределенность в оценке любого т j умень­ шается благодаря связи (8). Процедура уменьшения неопределенности, использующая линейную модель, эквивалентна той, которая имеет место в согла­ сованном фильтре. Интерпретация связей (8) состоит в том, что они образуют априорный сигнал или базисную функцию, отражающие сильные связи значений сигнала x(t). Априорный сигнал или базисная функция - это только один путь введения априорных данных. Другой путь связан с нелиней­ ными функциями. Нелинейная функция может привести к сущест­ венно более сильным результатам, поскольку она допускает такую же связь, как и (8), с зависимостью от аргументов. Это, по-видимому, особенно важно в распознавании образов, где целью является раз­ деление образов и априорные данные заданы в виде связей. 1 > Мы используем все априорные данные, поскольку иет корреляции между (m1)n и х12, ... , Хпа• так как шум предполагается белым. 105
nрименени!I Существуют многочисленные приложения, где модмь задачи может быть полезной для улучшения качества. Мы часто сталкиваем­ ся со следующими проблемами при оценивании автокорреляцион­ ной функции стационарного или нестационарного шума или ревер­ берации: какие базисные функции ,должны быть использованы при построении пространства признаков 6/J' L? Все ли известно о связи между компонентами или векторами в 'rJ' L, возможно приводящей к новому пространству 'rJ' 1, l < L? Эти вопросы рассматриваются вгл.6. 2.18. Маргинальные апостериорные плотности вероятности компонент Ь Иногда нужно получить апостериорную плотность вероятности едпнственного параметра 0, представляющего одну из компонент вектора Ь. Например, байесовская оценка одного параметра вычис­ ляется на основе маргинальной апостериорной плотности вероят­ ности этого параметра. Пусть 0h 1 - некоторый параметр в Ь1,,, который, в свою очередь, содержится в Ь. Апостериорная плотность вероятности:01,,J получается интегрированием f (Ь I Хп) по всем ком­ понентам Ь, за исключением 0 kJ· Интегрируя, получаем ~ fPif(ХпIbi,i)f(bIх·п-1)db • 1"1-k f(01,,1IXп)= ---------+ f (Хп I Хп-1) .\Р1,, f(ХпJЬ1,,, k)f(ЬIХп-1)db + ~----------- ' (Хп IХп-1) (1) где Ь - вектор, не содержащий параметр 01,, 1 , но содержащий все другие компоненты Ь. Определим «весовые коэффициенты» ( ·) =f(Хп, ifXn-1• 01,,j) WIn • • (2а) f; (Хп IХп-1) • Тогда (1) можно переписать в следующем виде: 1 • 1 (01ijIХп)= = { ~ (wдп + (w1,,)п Еь (f (Хп, k 101,,1, Ь1,,, Хп-1)]} f (01;11 "п-~>, 1"1 -k f(xп,kJXп-1) • (2б) где Eii (f (хп, k 101,,1, Ь1,,, Xn_i)] ~ sf (хп, k /Ь1,,, 01,,1) f (Ь 101,,j, "п-1) db (2в) и Ь1,, определяется как вектор, не содержащий параметр 01,,J, но со­ держащий все другие компоненты Ь1,,. 106
Интерпретация (2) следующая: 1. ~ (wt)п - вероятность, при заданном Xn-i, того, что Хп не l,fk принадлежит образу класса k. f (0 kJ IХп-~) сохраняется на п-м шаге как апостериорная плотность вероятности 0 kJ с вероятностью :1: (wдп• Цk 2. (wk)n -вероятность, призаданномхп_1,того, чтохп из классаk. Таким образом, с вероятностью (wk)п плотность вероятности f (0 kJ IХп-1) корректируется, при этом Хп используется так, как если бы было известно, что Хп из класса k. 3. Математическое ожидание Еь [f (Хп, k 10 kj, ьk, Хп-1)] вхо­ дит в уравнение (2), поскольку f (хп, klbk), в общем, является функ­ цией фиксированных, но неизвестных параметров, за исключением 0kJ• Байесовская оценка 0kJ при квадратичной фуикции потерь имеет вид для непрерывного параметрического пространства (ekj)n = Sekj f (0kJ IХп) d0ki;, (3) для дискретного параметрического пространства v r r1• (0kj}n = ~ 0ki р (0ki Хп). (4) r=J Важно подчеркнуть, что, в общем, (0kJ)п нельзя вычислить без совместной апостериорной плотности вероятности f (Ьlхп) других параметров. Предыдущий результат является общим в том смысле, что 0kJ - любой скалярный параметр в bk. Показано, что, хотя и существует итеративная форма f (0 kJ IХп), она зависит от f (Ь 1~: _1) через:(wдп и от «редуцированной» совместной плотности вероятности f (bk lxп-i) через (2 в). Из этого следует, что апостериорная плотность вероятности f (bk \ Хп) в итеративной форме, выраженная через где Ет,(f (Хп, •k Ibk, Xn.-JJ = Jf(хп Ik, bk) Pkf (ЬIXn_J dЬ, (5в) 107
и Ъ содержит все компоненты Ь, за исключением bk. Таким образом, f (bk IXn) в (5б) зависит от совместной плотности вероятности f (Ь 1~n -1) через (wi)n- Очевидно, что если априорные вероятности классов Р k известны, то имеется только зависимость от совместной апостериорной плотности вероятности через весовые коэффициенты (5а). Подобно этому апостериорная плотность вероятности для k-ro параметра смеси Pk в итеративной форме, выраженная через (ба) имеет вид (бб) где Eii [f(x,i, kIPk, Ь, Хп-1)] = Pk~f(Xn Ik, Ь)f(Ь/"п-1)db (бв) и Ь в этом случае определено как вектор, не содержащий Pk, но содержащий все другие компоненты Ь. Таким образом, f (Pk I Xn) в (бб) зависит от совместной плотности вероятности f (Ь IХп-~) через (w1)n и «редуцированной» плотности вероятности f (bk I Хп-1) через (бв). _ Вектор Ь будем называть вспомогательным вектором парамет­ ров, который является мешающим параметром. Из этих результатов можно сделать важное заключение: мар­ гинальную апостериорную плотность вероятности можно вычис­ лить из совместной апостериорной плотности вероятности. Существенное упрощение получается при аппроксимации (56), когда вместо f(ЬIXn-i) используются оценки (Рk)п- 1 и (Ьн)п-~· Это обусловлено основной трудностью, возникающей в оценивании при самообучении, которая состоит в том, как запомнить апостериор­ ную плотность вероятности f (Ь IХп- 1); запомнить же оценки (Рk)п-1 и (bk)n-i относительно несложно. При аппроксимациях Е- • ь [f (Хп, k f b1i, Хп-1)] = (Pli)п-1f (хп Ik, ь,J, f (Хп, k / Хп-1) = (Р1;)п-1 f (Хп / Xn-1), (5б) значительно упрощается и 108 ( ) _ (Pi)n-1 f (Хп I i, (Ь;)п-1) wiп- м ~ (Pj)n-1 f (Xn I j, (b1j)n-1) j=I (7а) (76) (7в)
Параметры (Р 1 )п-~ и (b 1)n-i - оценки вспомогательных парамет­ ров, которые мы должны построить. В предположениях (7) байесов­ ская оценка (bk)n имеет вид (Ьk)п=~ bkf(Ь1;\Хп)dbk =[~ (w;)п](Ьk)п-1+ 1=fk +[(W1;)п]Sbk f(ХпI~• bk) f(bk J Хп-1)dbk, f (Хп I Xn-1) (8а) где интеграл в правой части - байесовская оценка ь;; в предполо­ жении, что выборки классифицированы из классаk. Точно так же (Рk)п=SPkf(PkJ~п)dPk = [~ (w;)п](Р1;)п-1+ 1=fk (8б) Выражение (w1 )п, определенное в (2а), является точным, но для вычисления (w 1)n необходимо, чтобы совместная плотность вероят­ ности f (Ь IXn) была известна. Использование аппроксимации (7в) может привести к затруднениям, если оценки вспомогательных пара­ метров (b 1)n-i и (Р 1 )п-~ «недостаточно» близки к Ы и Pi. Возможные трудности иллюстрируются следующим примером. Пример. Предположим, что h (х) - смесь нормальных плотностей ве­ роятности и b1t = mk, •где mk - вектор средних. Положим, что/ (mk I Xn-i) - нормальная плотность вероятности на (n - 1)-м шаге. Тогда нетрудно пока­ зать, что выражение (8а) имеет вид что эквивалентно Может случиться, что (wk)n будет сколь угодно близко к нулю и это станет препятствием дальнейшей коррекции среднего k-ro класса. Положим, что / (Pk I Xn-i) - плотность вероятности бета-распределения. Тогда (8б) преобразуется к виду или 109
2,1g, Байесовский подход к стохастической аппроксимации :В § !.12 рассматривались оценки Кифера - Вольфовица для Ь* где 6x,b,cn=((~(x, ь+cnei)-s(x, Ь)), ... , (s(x, ь+cneq)-s(x, Ь))]:., В предыдущем параграфе была построена оценка, основанная на байесовском подходе (bk)n-H = (b1i)11 + [(wli)nнJ {[S bk f (xn+i I ~• bk) Х f (Xn+i I Xn-1) Х f (b1i I Xn) dbk ]-(bh)n} , которая по форме подобна оценке Кифера - Вольфовица, за исклю чением вероятностного весового множителя [(w1i)nн!. Сравнивая эти две процедуры, можно модифицировать процедуру Кифера - Воль­ фовица следующим образом: (1 а) где 6;n+1, <Ь>n, сп = {(W1)n (s (х nH• bn + Сп e1)- -s (Xn+l• (b)n)J, ... , (wм)n!S(Xnн, (b)n+cneq)-s(xnн,(b)n)]}, (lб) [(w1)n - весовой коэффициент для класса 1, а (wм)n - весовой коэффициент для класса MJ. Применение (lб) приводит к сильным локальным скачкам значений параметра для класса, из которого Xn+i «приходит» с-высокой вероятностью. Условия, когда урав­ нение (la), использующее (lб), будет сходиться к Ь*, в общем не­ известны, но такая сходимость, по-видимому, является правдо­ подобным предположением, основанным на байесовском подходе, когда последовательно обрабатываются выборки х1 , х2 , ... , Xn- 2.20. Оценка, управляемая решением, основанная иа байесовском подходе Уравнения (2) § 2.18 дают возможность построить оценку, уп­ равляемую решением для 0 kJ• любого параметра k-ro класса, если апостериорная плотность параметра определяется следующим соот­ ношением: 110
Учитывая (7) § 2.18, получаем f (01i11 "п-1), если ~ (w;)n > (wk)n, 1-+ k f(xn l(b1i)n-1, 01tj, k)f (е ·J • ) _ 1,1 Xn-1 , l (Xn 1 (b1i)n-1, k) в остальных случаях. При этом уравнение (5б) § 2. 18 преобразуется к виду f(xnIb1t, k)f(bkIХп-1) f(xn/k) ных случаях. в осталь- (2) (За) Простой вывод состоит в следующем: не проводить коррекцию параметров класса k, если ~ (w 1)n >(w1i)n, что определяет область i"1-k в пространстве наблюдений, где на п-м шаге принимается решение о том, что выборка х не принадлежит классу k. Если используются оценки вспомогательных параметров, простой путь получения ве­ совых коэффициентов состоит в следующем: (Зб) Пример. Предположим, что b1i = m1t (где m1i - вектор средних) и $' - семейство многомерных нормальных плотностей вероятности. Тогда (4) 111
2.21 . Толерантные области h их построение 2.21.1. Бета-распределение и распределение Дирихnе В гл. 4 значительное внимание уделяется локальным оценкам плотности вероятности. В частносv~, исследуется правило выбора решения kNN 3 на основе понятия толерантной области. Толерацт­ ные области важны, потому что математическое ожидание вероят­ ности попадания в толерантную область равно числу выборок, по­ павших в область, деленному на п + 1, где п - число выборок. Кроме того, неопределенность этой вероятности попадания в толе­ рантную область описывается распределением Дирихле, которое определяется следующим образом (см. также [l], прим. ред.). Предположим, что используется п выборок х1 , х2 , ... , Xn для по­ строения б толерантных областей, основанных на k1 , k 2, ... , k6 выборках соответственно, k = k1 + k2 + ... + kr,. Далее, доля толерантной области-это мера области относительно :v1еры, соответ­ ствующей наблюдениям; грубо говоря, это вероя1·ностная масса в области. Обозначим доли соответст!Jующих областей через и1 , ... , щ,. Тогда совместная плотность вероятности этих долей яв• ляется плотностью вероятности распределения Дирихле f(u1,U2 ,•• ·• uб/k1,k2,••·• kб; n-k+l)= k1- I kr,- l(l )11-k =- 6 -------U1 ... Ur, -U 1-,•. -UI) , п! П [(kv-1)!] (n-k)! V=I 6 0~Щ~1; 1:ll;::::;:;1, (1) 1=1 которое иногда обозначается через D (k1 , k 2, ... , kб; k6+ 1), где k<ч1 = n-k. Гамма-функция и гамма-распределение. Гамма-функция 00 Г(g)=~ xg-l е-хdx, (2) о используется в определении плотности вероятности гамма-рас­ пределения f (х) = хμ-lе-х/Г (μ),μ>О; х;;;::: О; f (х) = О, х < О. (3) r-й момент /J,r гамма-распределения равен (4) Из (4) следует, что Е[х]=μ, о-2(х)=μ. (5) 112
Бета-распределение. Плотность вероятности бета-распределения определяется выражением f (и)= г (k1 +k2) uk,-l (1-u)k•- 1 (6) Г (k1) Г (k2) для О< и< 1, f (и) = О в остальных случаях. С бета-распреде­ лением связана зависимость 1 г (k1) г (k2) =f xk,-t (l-x)k.- t dx· Г(k1 +~) ' о (7) r-й момент случайной величины, имеющей плотность распре­ деления (6), равен Из (8) следует, что μr = Г(k1+k~)Г(k1+r) Г(k1+k2+r)Г(k1) Е[и]=....!2_, a2(u)= k1k2 k1 +k2 (k1 +k2)2 (k1 +k2 + 1) (8) (9) Плотность вероятности бета-распределения часто обозначается через Ве (k 1, k2), а интегральная функция бета-распределения - через I (v 1, v2) (называется неполной бета-функцией). Распределение Дирихле. Естественным обобщением плотности вероятности бета-распределения на случай б степеней свободы яв­ ляется плотность вероятности распределения Дирихле _ Г(k1+- •• +k<HI) k,-l k<'l-1 f (и1, и2, ••. , Иб) - ---------- и1 ... ur, Х Г(k1)-·· Г(k<'l+t) ( k<'l+I ) х 1-111·- ... -/ 1('\ -1' (10) <'1 длялюбойточкивобласти{(и1,..., Иб) :ui~О,i= 1, ..., б, ~ и, ~ i=I ::::;:; 1}. Очевидно, для б = 1, D (.k1; k2) идентична В11 (k1, k2). Приведем несколько полезных свойств плотности вероятности распределения Дирихле. Свойство 1. Еслиu= [u1, .. . , u<'I] имеет б-мерное распре­ деление ДирихлеD (k 1, ... , k<'I; k<'I+ 1), то маргинальное распределение [и1 , ... , Иб,], б1 < б, представляет б 1-мерное распределение Дирих­ ле D (k1, ••• , k<'I,; k<'l,+t + ... + kб+1). Свойство2. ЕсЩtu= [u1, ... , u<'I] имеет б-мерное распре­ деление Дирихле D (k1, ... , k<'I; kн 1), то сумма u1 + ... + Ur, имеет бета-распределение В 11 (k1 + ... + k<'I,, k<'I+ 1). Предположим, что введено следующее преобразование: У1=U1 У2=111+и2 (II) 113
Тогда f(yl,···• yr,)= - г (k1 + •.. +kн i) y~, -I(Y2-Y1)k,-I ...(yr,-yr,-1) kr,-1 х Г (k1)••• Г (kr,+ 1) х (1-yr,)kr,+i-l' (12) которое иногда называется упорядоченным k-мерным распреде­ лением Дирихле и обозначается через D* (k1 , ... , kб; kr,+ 1). 2.21.2 . Порядковь1е статистики ПустьдляL=1Хп=[х1,..., Хп] - выборка из генеральной совокуnности, имеющей непрерывную функцию распределения F (х). Представляя х1, ... , Хп в порядке от наименьшего к наиболь­ шему, получаем упорядоченные значения хщ, ... , Х<пJ, где X(l) ~ ~ Х(2) ~ .•• ~<п>, которые называются порядковыми статистиками. Интервалы (-оо, X(l)], (хщ, x< 2J], ... , (Х<п>, + оо] называются вы­ борочными блоками J1 , J 2 , .•• , Jпн соответственно и функции F (x(l)), F (x<zJ) - F (x<1J), ..., 1 - F (Х<пJ) этих блоков - до­ лями U1, U2, ••• , Ип+1· Если хщ, ... , Х<пJ - порядковые статистики выборок, имею­ щих непрерывную функцию распределения F (х), то случайные ве­ личины F (x(l)), ... , F (Х<пJ) имеют упорядоченное п-мерное рас­ пределение Дирихле D* (1, 1, ... , 1; 1). Из приведенного распределения порядковых статистик следует, что а) любое число б (б < п) долей и1, ..• , и11+1 имеет б-мерное рас­ пределение Дирихле D (1, ... , 1; п - б + 1); б) сумма любого числа б долей и1 , ... , Ипн имеет бета-распре­ делениеВе(б,п- б+1). 2.21.3., Упорядочивающие функции для многомерных наблюдений Чтобы распространить понятия порядковых статистик, долей и их распределений на многомерный случай (L > 1), требуется ввести упорядочивающие функции. Упорядочивающая функция g (хн ..., XL) вводится так, что w = g(х1,. .. , XL) - случайная величина, которая имеет непрерывную функцию распределения Н (w). Тогда случайные величины 114 W1 = g(Х1), Wz = g(х2), (13)
являются выборками, имеющими функцию распределения H(w) и эти выборки могут быть упорядочены. Доли U1 = fl (W<1J), и2 = Н (w<2J) - Н (w(l)), Un = Н (w(n)) - Н (W(n+1J) определяются для соответствующих областей ?J, 1 , 'l/ 2 , ... , tfn, полу ченных с помощью «упорядочивающих функций» w = g (х,). Доли, полученные с помощью упорядочивающих функций g (х) для L-мерных выборок х, имеют те же самые свойства, что и доли одномерных выборок х1 , х2 , ... , Хп. Обобщенные толерантные области Кемпермана. Наиболее близ­ кой к обобщенной процедуре построения толерантных областей яв• ляется процедура, предложенная Кемперманом [35] в 1956 г. В про­ цедуру построения вводятся два лица: статистик (S) и его ассистент (А). А имеет п выборок х1 , ... , Xn; S имеет в своем распоряжении класс упорядочивающих отношений q> в пространстве наблюдений !!С. На первом шаге построения S выбирает упорядочивающее от­ ношение q>1 и положительное целое число т0 , т0 ~ п, и просит А дать ему т0-е наименьшее наблюдение x*(l) относительно q>1 вме­ сте с двумя множествами индексов, соответствующих т0 - 1 и т1 - 1 = п - т0 наблюдениям, которые меньше или больше, чем х* (1). Далее, S может сформировать (т0 , m~)-разбиение х = = 7}0 U;}* U7}1 пространства !!С относительно q>1 и множеств п наблюдений, где ~о={хЕШ:q>1(х)~х*(1)}; 1*= {х Е Ш: q,1 (х) =х* (1)}; ?f1={хЕ!!С:(()1(х)>х*(1)}.: ПустьD0(О)=!!С,D1U)= trJU= 0,1)иDi= ?f*. Послеkшагов(О~k~п- 1)Sполучаетразбиение!!Снаk+ + 1 непересекающиеся области Dk U) U= О, 1, ... , k) и k гранич­ ных множеств D; (i = 1, ... , k). Далее, для каждого из этих 2k + 1 множеств S точно знает множество индексов, соответствующих наблюдениям х1 внутри множества. Для каждого граничного мно­ жества D; (i = 1, ... , k) S знает действительное значение гранич­ ных наблюдений x*(i) в Dl•. Формирование подобластей внутри уже сформированных об­ ластей. Далее (k + 1)-й шаг построения продолжается следующим образом. Опираясь на выбор, зависящий каким-либо образом от полученных данных, S выбирает: 1) различающиеся области D = = Dk (j*) средитехk + 1областейDk (Л(j= О, 1, ..., k), которые содержат по крайней мере одно наблюдение; 2) положительное це­ лое число т0 не больше, чем число т - 1 наблюдений в D; 3) упорядочивающую функцию {()k+l• 115
S затем просит у А т0 -е наименьшее наблюдение х* (k + 1) в D относительно {()k+i вместе с двумя множествами индексов, соответ­ ствующих т0- 1 или т1=т- т0- 1наблюдениям вD, которые меньше или больше, чем х* (k + 1) соответственно. Используя полученное значение величины х* (k + 1), S далее производит (т0, т1 )-разбиение D = D 0 UD* UD 1 области D отно­ сительно {()k+l и т - 1 наблюдений в D. Впоследствии он перену- мерует области D11 (О), ... , D11 (j* - 1) D0, D1, D11(j* + 1), ... , D11 (k) какDk+1(j)(j=О, 1, ..., k +1).И,наконец,пустьD'k+1 = D*. После точно п шагов построение заканчивается. Таким образом. S получает разбиение fC на п + 1 непересекающиеся области Dn(j)(j=О,1, ..., п) и п граничных множествD;(k= 1,2, ..., п). Свойство. Доли и1, и2, ..., ип, соответствующие Dn (2), ... , Dn (n), имеют распределение Дирихле D (1, ... , 1; 1). Процедура построения Фрезера. Фрезер [4) предложи.11 про­ цедуру построения толерантных областей, использующую п упоря­ дочивающих функций q, 1 (х), q> 2 (х), ... , {()п (х), j - 1 действитель­ ных переменных r1, , 2 , ... , r1_1 и функции р1, р2, •.. , Pn· Когда используется функция q,1 , действительные величины , 1 ,, 2, ... , Гj-J являются соответственно значениями функций q,1 , ... , q,1 _ 1; р1 = р1(r1, r2, ..., Гj-1) - целоечислоиз 1,2, ..., п и оно может зависеть от j - 1 действительных паременных r1, ... , Гj-l• Исследуются первые п значений q,1 (х1), ... , q,1 (хп) и выбирается п р1-е наибольшее значение, max (р1 ) q>1 (xi)• fC делится на две области: i=I п tf-1 = {х: (()1 (х) >max (Р1) (()1 (xi)}; 1=1 п tfi = {х: (J)1 (х) < max (Р1) (/)1 (xi)}. i=I п Затем, чтобы показать возможную зависимость от max (р1) ср1 (х1 ), i=I запишем ср2 (х) и р2 как п ср2 (х) = ср2 (х; max (р1) (/)1 (xi)), 1=1 п Р2 = Р2 (max (Р1) (/)1 (х;)). i=I Для р2 , одного из целых чисел 1, 2, ... , р1- 1, область 711 делится на 712 и 71-;: 116 tf2 = tff П {х: (j)z (х) > max (Р2) <р2 (Х;)}. xle~f tfi = 'lfi П {х: ср2 (х) < max (р2) ср2 (xi)}. xie~[
Эта процедура продолжается, пока мы не получим п + 1 область '!11, !l-2 , ... , ?/,.+ 1 . При этом на j-м шаге используются q>J (х) и р1. С в о й с т в о. Используя правила, предложенные Фрезером, доли и1, и2, ... , Uп+1 , соответствующие областям ?/1, ?/2, ... , ?!п,1 , описанным выше, имеют распределение Дирихле D (1, ... , 1; О). Основной вопрос теории толерантных областей. Часто возникает вопрос: могут ли толерантные области быть любыми функциями вы­ борок? Например, может ли быть использовано семейство эллипсов, центрированных относительно выборочного среднего для упоря­ дочивания выборок? Ответ на этот вопрос начинается с того, как бы­ л и получены свойства, касающиеся распределения порядковых ста­ тистик на действительной прямой. Если F (х) - любая непрерывная функция распределения, то произвольной точке х соответствует значение у = F (х) такое, что р [У~ у! = р [Х ~ р- 1 (у)] = у, т. е. распределение случайной величины F (х)-равномерное на интервале [О, 1). Для п выборок х1 , х2 , ••• , Хп совмес тная плотн ость веро ятно сти у,= F (х6), s = 1, ... , п, определяется выражением f(У1,У2,•··• Уп) =1,О~У6~1;S=1,2, ..., n. Сформируем порядковые статистики Ут, ... , У<пJ выборок У1, ... , Уп· Имеется п! точек [у1, •.. , Упl, соответствующих [ущ, ... , У<пJI­ Таким образом, f (y(l), У<2>, ... , У<пJ) = п!, О~Ущ~У(2)~•·· ~ У(п) ~1, которое является упорядоченным п-мерным распределением Ди­ рихле D* (1, ... , 1; 1). Можно считать y(l), Y<2J-Y(,), ... , У<п>-У<п-1>, 1 - У(п) ОСНОВНЫМИ ДОЛЯМИ. Если и1, и2, ••• , U 8- суммы соответственно k1 , k2, ••• , k8 основ­ ных долей y(l), У<2) - Ут, . .. , У<п) - У<п-1), 1 - У(п), то распреде­ ление и1, и2, .•• , U8 - s-мерное распределение Дирихле D (k1 , k2,, ... ...,ks;п-k1 - ... - ks+1). Итак, основное требование, вытекающее из изложенного выше, состоит в том, чтобы любая выборка х6 имела бы равномерное рас­ пределение у6 = F (х6). Если упорядочивающая процедура каким­ либо образом приводит к тому, что УШ = F (x<;J) не имеет равн.омерного распределения, то порядковые статистики не явля­ ются свободными от распределения. Могут ли априорные данные быть введены в процедуру построе­ ния толерантных областей? Нет, не могут. Конечно, форму упо­ мянутых выше эллипсов можно выбрать произвольно, но при этом они не отражают данные о функции распределения вероятностей. После того как толерантные области сформированы, можно, скажем, проанализировать распределения r = (и1 + u2 )/2, поскольку сред­ нее двух первых долей входит в анализ проблемы. Однако мы не мо­ жем использовать априорные данные следующего сорта: две обла- 117
Xz Xz~ 3 z 7 't-о-б б т - Рис. 2.4 . Круговые толерантные об- Рис. 2.5 . Толерантные области, исполь- ласти зующие в качестве упорядочивающих функций прямые линии сти fJ: имеют одну и ту же вероятностную массу, когда «конструи­ руются» толерантные области. Все это предполагает, что структуры распределений вероят­ ностей нельзя изучать при конечном числе выборок. Скорее, следует априори постулировать множество структур и затем проанализи­ ровать, насколько хорошо согласуются п выборок с каждой соот­ ветствующей структурой. Это то же самое, что имеет место при ис- пользовании апостериорной плотности вероятности f (Ь IXn) в байе­ совском параметрическом подходе. 2.21.4 . Примеры толерантных областей, свободных от распределения Пример 1. Интервал, образованный наибольшим и наименьшим значе­ ниями из п одномерных выборок. Пример 2. Пусть упорядочивающая функция g (х) = V xr + xi, L=2. Тогда границами толерантной области являются коицентрические окруж­ иости (рис. 2.4). Пример 3. Пример для L = 2, предложенный в [36], изображен на рис. 2.5, где используется множество упорядочивающих функций. Этот тип построения толерантных областей особенно удобен с точки зрения реализации на ЭВМ или на специализированном цифровом устройстве. Пример 4. Если известно, что f (х)-нормальная плоти ость с параметрами m, ~, то функцию g (х I m, :Е) = (х - m)I :Е-1(х - m) можно использовать для построения свободных от распределения толерантных областей. Толерантные области для одного класса можно определить на основе обу­ чающих выборок из кпасса, который является функцией другого множества переменных. В частности, в работе [51] использованы свойства кластеров в обучающих выборках из другого класса. 2.22 . Представление плотностей вероятности с помощью ортонормальных &азисных функций В гл. 3 показано, что правило выбора решения, минимизирующее вероятность ошибки, предписывает отнести х к той категории, для котор9й величина P1f1 (х), i = l, ... , М, максимальна. 118
В распознавании образов и в теории связи плотности вероят­ ности fi (х) могут быть неизвестны и должны быть оценены. Задача состоит в том, как оценить fi (х) при конечном размере выборки п и ограниченном объеме памяти. Оценивание плотности вероятности для параметрического семей­ ства ff рассматривалось в § 2.12. В § 2.9 представлены результаты, полученные в [ 10, 11 ], для оценивания вектора средних и ковариа­ ционной матрицы нормальной плотности вероятности. Для случая, когда предположение о нормальном распределении не выполняется, в работе [24) использовались полная ортонормальная система ба­ зисных функций {'фJt (х) }: (1) где предполагалось, что Nii (х)} известны априори, а {сJi} оцени­ ваются. При соответствующей оценке ел ~ R~ р f(xla1)= ~ Cjt1!1ji(x)-► f(x\aJ), (2) i=I ух В работе [25] также использована ортонормальная система Nii }~ ,, но не предполагается, что система полная. Показано, что при соот­ ветствующей оценке CJt минимизируется интегральная квадратич­ ная ошибка (ИКО) ИКО = ~ (f (х Iro1)-f (х Iro1)) 2 dx. (3) В [26] {'фii }~ 1 - система линейно независимых функций. В этой работе при использовании (1) и соответствующих оценоксil минимизируется среднеквадратическая ошибка (СКО) СКО = ~ (f (х Iroi)-f (х Icu1))2 f (х IroJ) dx. D В [27) использована оценка вида (1), где {'фJt (х)} - известные функции п1 выборок и c1i = 1/п 1 . Пусть где ап. и К удовлетворяют условиям, рассмотренным в гл. 4. В этом } u случае используется подход, основанныи на измерении плотности вероятности с \1ерой расхождения, определяемой функцией К (· ). Много работ по локальному оцениваниюфункции плотности вероят­ ности приведено в [28], см. также (29-33]. Другой хорошо известный подход состоит в применении метода гистограмм. В этом методе{'фii }~, - множество индикаторных функ­ ций областей разбиения пространства наблюдений, а именно: ,j/Jt (х) = { 1, х принадлежит i-й области, О в остальных случаях, 119
~ _ 1 nj(i) C·- -- --- llW(i)п1' rде п1 (i) - число наблюдений обучающей выборки из класса ro 1, попавших в i-ю область; W (i) - объем этой области. Все эти подходы, которые главным образом связаны с попыткой представить f (х I ro1) в виде уравнения (1), можно также интерпрети­ ровать как попытку найти функциональные компоненты плотности вероятности. Заметим, что уравнение (1) по форме является част­ ным случаем смеси; таким образом, методы оценивания при само­ обучении также могут быть использованы для представления f(x I ro 1). Однако необходимо подчеркнуть, что уравнение (1) не является очень общей формой смеси, поскольку компоненты 'Ф ii (х) предпо­ лагаются известными. В общем, структура и «расположение» ком­ понент 'Фп(х) неизвестны и должны быть оценены. Это одна из на­ иболее общих и важных задач в распознавании образов при само­ обучении. 2.23. Сравнение весовых функций и функций концентрации Чтобы представить плотность вероятности f (х) в точке х при за­ данной выборке х1 , х2 , ... , Xn, следует учесть, что один из подходов состоит в использовании весовых функций К (х; Х8 , :Е8 ), где х8 - вектор, определяющий местоположение; :Е8 - ковариационная мат- рица для s-й функции. При этом f (х) представляется в следующем виде: - 1п f(х) =--;; I К(хIХ8, :Es)- (1) s=l Другой подход состоит в представлении f (х) в виде f(х)=к(хIm, 2), (2) ~ln ~ ln ~ - где m=--;;I Х8 ; :E=-;;-I (X8 -m)(x8 -m)t. s=l s=l Недостатки представления (l) следующие: l) не уменьшена сложность для последующих принятий ре­ шений; 2) оценивание ~s требует дополнительных предположений; ис­ следователи часто полагают, что :Е8 = а21; 3) по существу это оценка эмпирической плотности вероятности с весовой функцией К (х), отличной от дельта-функции; 4) нельзя непосредственно ввести локальную ковариационную матрицу, которую можно последовательно корректировать. 120
2.24 . Функция информации Предположим, что случайный вектор х может быть одной из k точек х< 1 ), x< 2J, •.. , x<k> в пространстве наблюдений. Тогда средняя неопределенность (или переданная информация), которая устра­ няется при наблюдении величины х, определяется как k Н(х)= - ~ lп [р (xU>)] р (xU>). (1) 1-= 1 Это математическое ожидание функции Iп р (х). Когда х - непрерыв­ ная величина, то Н(х)= - 5 lп [f (x)]f (х) dx. (2) Мера расхождения, связанная с Н (х), которая естественным образом возникает в байесовском оценивании, определяется выражением 1J (Ь, Ь*) = 5lп [f (хIb)]f(хIЬ*)dx, (3) где Ь - точка в параметрическом пространстве, характеризующем ~. Функция 'l'J (Ь, Ь*) - мера расхождения между Ь и Ь* и макси­ мальна, когда Ь = Ь*. Заметим, что 1J(Ь,Ь)=- Н(х); f(x)=f(xlb). (4) Таким образом, максимум 'l'J (Ь, Ь*) в точке Ь = Ь* соответствует минимуму функции неопределенности Н (х). Совместная неопределенность двух векторов х1 и х2 определяет­ ся выражением и, в общем, для п векторов совместная неопределенность их компо­ нент Н(Х1,Х2,..., Xn)=5...5f(Х1,Х2,..., Xn)lnf(Х1,Х2,..., Xn)Х Х dx1dX2 ... dxn, (6 Подобным образом изменение неопределенности для векторов с плотностями вероятности f (х) и f (х) определяется выражением ЛН=-Й(х)+Н(х)=~f(х)lnf(x)dx-~ f(х)lпf(х)dx. (7) Расхождение между классами Предположим, что имеются две плотности р (х I ro1)P1 и р (х I ro 2)P2, которые используются в правиле выбора решения, основанном на критерии минимума среднего риска. Одной из возможных мер, ко- 12\
торая для этих плотностей аппроксимирует вероятность ошибки, является К=-Sf(х1@1)Р1ln[ f(х102)Р2] dx + f(х101)Р1 +ff(xlro2)P2Ir1[ f(xfro1)P1 ]dx = f(х102)Р2 = J[f (х 1@1) Р1-f(хIш2)Р~][lnf(хIro2)Р2- -lnf(хIro1) Р1]dx (8) или, для дискретного пространства наблюдений, R К=~ [р(xU>1@1)Р1- р(xU>1@2) Р2]Х 1=1 Х [ln р(xU> 1@2) P2 -lnр (xU> 1ro1)Р1]. Из уравнения (8) следует, что К=j"f(х1@1)Р1lnf(хIro2) Р2dx -- - Sf(xlro1)Р1lnf(xlro1)Р1dx + + Sf(xl@2)Р2lnf(xl@1)Р1dx- - Sf(xlro2)Р2ln f(xlro2)Р2dx Л 'YJ (ro1, ro2) - - 'YJ (@1 ffi1,) + 'У) (@2, Ф1) - ' YJ (с,)2, ffi2), (9) Выражение для ri (ro 1, roj), где ro 1 и roi обозначают соответствующие классы, не требует параметрического представления, т. е 11 (ro1, roi)ЛSf(хIro;)Р1lnf(хIroJ Pjdx. Другое выражение для К (Ь, Ь*) играет заметную роль при пара­ метрической характеризации соответствующих плотностей вероят­ ности, где Ь содержит Ь1 и Ь 2 - параметры, характеризующие плот­ ности вероятности f (xlro1) и f (xlro 2) соответственно, 122 К (Ь, Ь*) = S f (x/bi, ro1) Pi lnf(x]b2, ro 2)P2dx- - .\' f (xlbi, ro1) Pilnf (х\Ь~, ro1) Р1 dx + + Sf (xlb2, ro 2)P2 lnf (xfb1, ro1)P1dx - - Sf (xlb2, ro2)P2 lnf (хJЬ2 , ro 2)P2dx = - 'YJ (Ь1, bi) - 'YJ (Ь2, Ь2) + 'YJ (Ь1, Ь;) + 'YJ (Ь2, bi). (10) Используя соотношение Sf; (х)Pjlnf2(х)Р2dx = sfi(х)Pj!пf2(х)Р2+ + \fi(х)Piln 1:(х)Р2• dx, .; t~(x)P2 (11) Jf2(х)Р;lпf1(х)Р1cix= ~П(х) Р2lnfi(х)Pi+
--1 - Сf'(х)Р*ln 11(х)р1 dx J22 f~(x)P~ ' можно выражение (10) представить в виде К (Ь, Ь*) = -11 (Ь1, Ьi)-ri (Ь2, Ь2) +1'J (Ьi, Ь2) -t 1'J (Ь2, bi) + +sf(xlb*).P*ln f(xlb2)P2 dx+ 11 f(xl ь;)Р: +rf(хIЬ2)Р;ln f(х1~i)~1 dx. (12) J f(xlb1)P1 Из (12) следует, что 1'J (Ь1 , bj) - мера качества Ь1 как точечной оценки для bj; 1'J (Ь;, bj), i =/= j, - мера расхождения точечной оценки bi и bj. Относительно интегралов в (12) заметим, что они близки к нулю, если Ь1 ~ bj. Состоятельными оценками для слагаемых в (10) являются вы­ борочные средние. Следовательно, 1~ 1~ К(Ь,Ь*)=--п-~ lnf(х}1Ь~)Р1---;-I lnf(х:1Ь2)Р2+ l S=1 2 S=1 lns lп, +-~ lnf(х~1b:J Р2+-I lnf(х:/Ь1)Р1, (13) n1 s=I n2 s=I где xsi (s = 1, 2, ... , п,)-::: п, выборок из i-ro класса. Можно использовать К (Ь, Ь*) как функцию регрессии и искать .значение параметра Ь, максимизирующего эту функцию. Такое решение будет соответствовать минимизации функции неопределен­ ности или максимизации расхождения между двумя классами. Ниже приводятся другие функции расхождения, отличные от функции, определенной согласно (8). Дискретное пространство k ~ (P1P1j-P2 Р21) 2 i=I k ~ miп [P;PiJ] j=t l=I, 2 k ~ (Р1 P1J) (Р2 P2J) j=I Непрерывное пространство J miп [Р1 t(х Iffit)I dx 1=1, 2 где PiJ = р (xf Iro1), Pi = Р (ro,) и xi - наблюдение из класса j. 123
2.25. Свойства функций ri(b, Ь*) и v(b, Ь*) Явных выражений для ri (Ь, Ь*), даже для нормального семей- тва, нет. Численные вычисления проведены для смеси двух (М = = 2) одномерных (L = 1) нормальных плотностей вероятности, где общая дисперсия (а*)2 = 1 и Pi = Р2 = 1/ 2 известны, а истинное значение средних mi и т2 неизвестно. Задача состоит в построении контуров, где ri (Ь, Ь*) постоянно. ri (Ь, Ь*) = ri (т1 , т2, Ь*) определяется как ~(т,,т,,Ь')-1[ln t,+f(хIт1, (а")'] х 21 Х~2 f(х/т/,(а*)2)dx. j=I Вычисления проведены при отношениях сигнал/помеха равных 4 и 9; результаты приведены на рис. 2.6. При С/П = 4 плотность вероятности смеси унимодальна; при С/П = 9 класс плотностей вероятности начинает разделяться (хотя все еще имеет значительное перекрытие). Функция у (Ь, Ь*) = 2 Е [h(xlb)] - !ih(xjb)Jl 2 где е2 (Ь) = Jlh (xlb) - h (xlb*)l\2. IJh(xib*)l1 2 - е'1- (Ь), допускает простую интерпретацию. На рис. 2.7 представлена за­ висимость у (Ь) от квадрата нормы ошибки е2 (Ь), причем 124 [ м м• ]2 е2 (Ь)=~ 1 ~ 1 P;f(xji, b1)-/ ~i Pjf(xjj, bj) dx= мм = ~ ~SР;Pkf(хIi,b;)f(xIk,bk)dx+ l=I k=I м• м• + ~ ~ SPiPk{(xlj, bi)f(x/k, bk)dx- i=' k=I мм• -2 ~ ~SР,Pjf(хIi, Ь;)f(хIj,bj)dx. 1-1 /=1 Определим
h1z Dтношвнов 5 CU8HII.Л/lllf/H=f 5 f 3 z 1 о 1 2 J 'f 5 Рис. 2.6а. Графики контуров постоянных значений rJ(b) при [(m 1-m2)/o-]2=4 mz б 5 J z Отношение CUlHil.Л/ШflH=9 Рис. 2.6б. Графики контуров постоянных значений ri(b) при [(m1-m2)/o-]2=9 125
r де r или s либо *, либо пробел (указанный с помощью «-») мм л~• м• мм• е2(Ь)=~~ci~- +~ ~ c~i.-2~ ~ci__!_•. i-=li=I i=lj=I i=IJ=I Если ТО ~ )L ехр(--1-2 llm~-m1II~), 1/2:rt а 4а и :мы видим, что cl_!_ . увеличивается, когда llmi - mJI/ уменьшается. Рис. 2.7. Зависимость v(b) от е2 (Ь) 3 а м е ч а н и е. Процедуры оценивания параметров ( особенно байе­ совские), представленные в этой главе, необходимы для понимания распозна­ вания образов. Ограничения, свойственные оцениванию по методу максималь­ ного правдоподобия и стохастической аппроксимации, состоят в том, что учет модели должен быть выражен в терминах функционалов, чтобы можно было применять эти процедуры. Байесовский подход, с другой стороны, применим к задачам, где функциональные модели ие могут быть определены. Байесов­ ский подход имеет дело с множеством точек Ь и вероятностями, соответствую­ щими этим точкам. 2.26. Доказательство того, что апостериорная плотность вероятности максимизирует энтропию Когда выборки х1 , х2 , ... , Xn параметрически условно независи­ мы и каждая выборка распределена согласно h (х ib*) Е ,f, то апо­ стериорная плотность Ь Е fВ вычисляется следующим образом (см. § 2.8): (1) Желательно, чтобы lim f(ЬIхп)=6(Ь, Ь*). n-+00 (2) 126
Условия, при которых это имеет место, будут исследованы в гл. 5. Что можно скамть о f (Ьlxn) при малых объемах выборки? Имеются ли какие-либо данные о форме этой функции? Будет показано, что f (blxn) максимизирует энтропию d(f(ЬIХп))~ -~ In f(ЬIХп)f(ЬIХп)db (3) на каждом шаге п при некоторых определенных ограничениях. Первое ограничение требует, чтобы функция апостериорной плотности вероятности f (Ьlхп) была нормированной. Далее, определяя 'l'J (Ь*) ~Jln h (х /Ь*) h(х /Ь*) dx, получаем второе ограничение: 'l'J (b*)-lim - 1 '[ln (fо (Ь) f(хп /Ь))] f(ЬIх·п) db~~ 1 О, (46) n➔оо n Je что эквивалентно (2) и 1п п. в. -;;- ~ lnh(xs/Ь*)--+ 'l'J (Ь*), s=l где предполагается, что семейство плотностей вероятности ff = - {h (х\Ь)} удовлетворяет следующим условиям: Е[/ln h(x\b)1] < оо; (5а) Е [lпh(xjb)] = 'l'J (Ь); (56) 'l'J (Ь) < 'l'J (Ь*), V Ь =/= Ь*. (5в) Второе условие имеет вид ri(b*)-- 1 s [ln(f0 (b)f(xnlb))}f (b/x~)db=0. п 9:) Используя метод неопределенных множителей Лагранжа (50), . получаем, что функция f (blxn), максимизирующая (3) при ограни­ чениях (4), удовлетворяет уравнению д. f - s Iпf(Ь/x·n>f(Ь/;~)db+л['l'J(Ь*)- д[(Ьf Xn) l 9:) - -;; s [ln fо(Ь)f (хп I b)]f (bl хп) dь] +у r5f (Ь Iiп) dЬ-1]} =0. Ш 91 127
Откуда следует, что -ln f (Ь /хп)--!:.Iп [/0 (Ь)f(хп /Ь)] +у-1 =О. п Решая это уравнение, получаем выражение для f(blxn), максими­ зирующее энтропию (3) f(blxn) = ехр [л/п lп [fO (Ь) f(xnlb)] + (1 - у)]. (6) Теперь следует использовать ограничения для определения у ил. Подставляя (6) в (4а), получаем ехр (у-1) = ( S ехр [л/п lп f0(b) f (х,)Ь)] db)- 1 • $ Тогда выражение (6) примет следующий вид: ехр[л./пlnfo(Ь)f(xnIЬ)] f(ЬIхп)= --=-~-~~-'----'-'--=-- !ехр[л./пln fо(Ь)f(xn I Ь)] db (7) Интересно отметить, что (7) является апостериорной плотностью вероятносrи (1), если положить л = п. Однако на этом этапе л - произвольный параметр, для определения которого можно исполь­ зовать условие (2), эквивалентное требованию, чтобы при п - оо вероятностная масса точки Ь вне в-окрестности Ь* стремилась к нулю. Определим Ре (Ь*) ~ {Ь: 11 Ь-Ь* 11 < в}; 3i3* i 53-Ре (Ь*). Для любого в J ~ . fl(Ыхп)db f(ЬIхп)db< $* - ,qy• Jь• f(Ыxn)db Ре( ) .J ехр [л./п ln fo (Ь) t (xn\b)] dЬ f ехр[л./пlnfо(Ь)f(xn I b)]db Ре (Ь*) (8) Определим V (в)~ S db и пусть 5Зi, 5З2,, .. , f!Вк - конечное р8(Ь0) покрытие 53* и
ОкончатеJJьно для некоторого Ь11 Е 5а; и Ь' Е Ре (Ь*) (8) экви­ ваJJентно к ~ Ve (в) е'А,fп fo (Ье) f (xnlbe) \ • e=I f Ь Хп)dЬ< . . (1 V (в) ехр [)./п ln fo(b' )f(xn I Ь' )J $• или (9) Из (5) следует, что для любого В > О и s> О а п(б) такое, что для всехп>п(В) 1-;;- :f lnf0 (b)f(xslb)-11(Ь)!<б s=I с вероятностью, большей 1 - s. Выбирая б = _! _ min 1'l'J (Ь')-11 (Ье) 1, 4 Ь' Е:р8 (Ь*) ье Е: ;93: из (9) получим, что ~ f(Ьlхп)dЬ<КСе-'А,· 26• (10) $• Из (10) очевидным образом вытекает: чтобы (2) удовлетворялось, необходимо, чтобы л (п)-+ оо при п-+ оо. Предположим, что л(п)=nq. (11) Тогда условие (2) удовлетворяется для любого q > О. С другой стороны, при q-+ О энтропия максимизируется, хотя и нарушается ограничение (2). Если q-+ оо, асимптотическая скорость сходи­ мости, по-видимому, будет увеличиваться, но это повлияет на схо­ димость при конечных размерах выборки. Таким образом, оказы­ вается, что значение q должно быть выбрано так, чтобы асимптоти­ ческая скорость сходимости была ни максимальной, ни минималь-. ной. Для этого рассмотрим отношение правых частей неравенства (1 О) на двух последовательных шагах R= ехр[- 2л.(п)бl =exp[-2б((n+l)q-nq)]. (12) ехр [-2Чп+ 1) б} Из дR = -2B[q(n+ J)q-t_qпq- 1 ]exp(-2б((n+ J)q-nq)];;;::10 дq находим, что только q = 1 является стационарной точкой. Вычис- 129
ление .второй производной показывает, что q = 1 - точка перегиба (точка минимума). Таким образом, для q = 1 ни максимума, ни f(Ь\хп)= fo(b)f(~n IЬ) ' Jfо(Ь)f(ХпIЬ)dЬ т. е. совпадает с апостериорной плотностью вероятности. Задачи 1. Как показано в [9], функция, обозначаемая/ (1, 2), I(1,2)Аjln h(х) h(х)dx>О - h' (х) ( 13) с равенством тогда и только тогда, когда h (х) = h' (х). Покажите, что fln h (х) h (х) dx > S ln h' (х) h (х) dx, с равенством тогда и только тогда, когда h (х) = h' (х). 2. Пусть х1, х2, ... , Хп - статистически независимые и одинаково ра­ спределенные случайные векторы. Докажите, что если I х8 1 < с д.1я всех s, то выборочное среднее сходится к Е [х] по вероятности и с вероятностью 1. 3. Пусть х1, х2, ... , Хп имеют общую функцию плотности вероятности f(хIЬ), где f(хIЬ) Е$' - семейство нормальных распределений, Ь = = (m, ~ ) . Предполагая, что ~ известна: а) вычислите нижнюю границу Рао-Крамера для дисперсии оц'"нки максимального правдоподобия m; б) покажите, что д [1п ] дт lnf(Xnlb)=k -- -; ;-~ x8 -m , s=l где b=(m, ~); в) покажите, что если оценка ыаксимальноrо правдоподобия m единственна для п > некоторого п0 , то она сходится с вероятностью 1. 4.Пустьf(хIЬ)Е$' - семейство нормальных плотностей вероятно­ сти. Постройте байесовскую оценку m при произвольной априорной функции плотности вероятности f (Ь). 5. Пусть м h(xlb)= ~ f(xjb;)Pi, 1=1 где f (х ib;) Е f7 - семейство нормальных вероятностей. Найдите байесовскую оценку для каждогоm;, i = 1, 2, ... , М. 6_ Покажите, что нормальное распределение воспроизводит само себя при байесовских итерациях для одномерных и L-мерных пространств. 7. Покажите, что если х1 , х2 , ... , Хп статист ически нез ав иси мы и одинаково распределены с нормальной плотностью вероятности f (х I Ь), то μп = = Е[тiх1,х2,..., Хп] - байесовская оценка m* при ква,:ратичной функ­ ции потерь. 8. Покажите, что мультиномиа.1ьное семейство фупкцпй плотности веро­ ят11ост~1 яв.1ястся воспроизводящим от11ос11те:о,но байссовских 111epaцi1ii, 130
9. Если :X:t- , :х:2, ... , Xn статис1'Ически независимы и одинаково расnре­ делены как N (х J m *, Ф), где Ф известна, а m * неизвестно, то покажите, что р(х/х1х2, .. ,,xn)=~ p(x/m)p(m/x1 , х2 , ••• , Xn)cim является N (х [ μn, ~n + Ф), где μn - байесовская оценка m* и имеет не­ определенность ~n- 10. Покажите, что для х1, х2, ••. , Xn, имеющих функцию плотности ве­ п роятности h (х1, х2, .. , Xn/Ь*)=сехр[-1/2~(xs- m)2],т.е.Ь* =т, s=l L= 1,f(хIЬ*)= N(xlm); а) h(x1, Х2,, .. , Xn[m)=dexp l- 1 /2 ±(xs-x)2 ]exp[- 1 /2n(x-μ) 2 ] s=l и, таким образом, (b)n = _I_ i х8 является достаточной статистикой для n S=I оценивания μ; б) покажите, что h (т /х1, х2, ... , xn) полностью характеризуется (b)n 1п _· ~ Xs, n s=I 11. Покажите, что в общем случае h (Ь) не является воспроизводящей от­ носительно h (х I Ь), если h (х I Ь) - смесь. 12. В связи с нижней границей Рас - Крамера покажите, что когда выполнено первое условие регулярности и выборки х1 , х 2 , ... , Xn пара• метрически условно независимы. 13. Пусть х1 , х2 , ... , Xn - условно независимые выборки из N (х I т, <12). Покажите, что: п а) 1/п ~ х8 - оценка максимального правдоподобия длят; s=l n б) дисперсия оценки 1/п ~ Xs достигает иижией границы Рао-Крамера; s=l n в) 1/п ~ х8 является оценкой стохастической аппроксимации; s=l п г) 1/п ~ х5 - байесовская оценка (на самом деле, строго говоря, в - s=l байесовская оценка). 14. Пусть х1 , х2 , ... , Xn - выборки, имеющие функцию плотности ве­ роятности Покажите, что: !-- 1 -, а<х<Ь, f(x/a, Ь)= Ь-а О в остальных случаях. а) f(x1, х2 , ... , Xn I а, Ь)= 1/(Ь-а)п; б) для max {xs} и min {xs}- s s 131
максимума и минимума упорядоченных выборок f(max{xs}, min{xs})= s s п (п-1) (max {xs}-min {х8})11 - 2 ,= s s (Ь-а) 11 где а< шin {xs} -: max {х8} < li. s s в) функция плотности вероятности 1/(Ь- а) 11 nредставима в виде произ­ ведения двух сомножителей: множителя, являющегося функцией достаточ­ ной статистики для оцеиивания а и Ь, и множителя, не зависящего от доста­ точной статистики. СПИСОК ЛИТЕРАТУРЫ 1. Cramer Н. The EJements of Probabllity Theory, J ohn Wiley and Sons. !пс., New York, 1962. 2. Cramer Н. Mathematical Methods of Statistics, Princeton University. Press. Princeton, N. J ., 1963. Крамер Н. Математические методы статистики: Пер. с англ./Под ред. А. Н. Колмогорова. - М.: Мир, 1975. 3. Wilks S. S . Mathematical Statistics, John Wiley and Sons., lnc., New York, 1963. Уилкс С. С. Математическая статистика: Пер. с англ./По4 ред. Лин­ ника Ю. В. - М.: Наука, 1967. 4. Fraser D. А. s. Nonparametric Methods in Statistics, John Wiley and Sons, !пс., New York, 1963. 5. Fisz М. Probabllitity Theory and Mathematical Statistics, John Wiley and Sons, !пс., New York, 1963. 6. Parzen Е. Modern Probability Theory and Its Applications, John Wiley and Sons. !пс, New York, 1960. 7. Papoulis А. Probability, Random VariaЬles and Stochastic Processes. McGraw-Hi]I Book Company, Inc., New York, 1965. 8. Loeve М. Probability Theory, Van Nostrand Reinhold, New York, 1963. Лоэв М. Теория вероятностей: Пер. с англ./Под ред. Ю. В. Прохоро­ ва. - М.: ИЛ, 1962. 9. Kullback S. lnformation Theory and Statistics. John Wiley and Sons., Inc., New York, 1959. Кульбак С. Теория информации и статистика: Пер. с англ. /Под ред. А. Н. Колмогорова. - М.: Наука, 1967. 10. Abramson N. and Braverman D. Learning to Recognize Patterns in а Ran- dom Enviroment. ЩЕ lntern. Symp. Information Theory, vol. IТ-8, р. 558-563, July 1962. 11. Keehn D. G. Learning the Mean Vector and Covariarice Matrix of Gaussian Signals in Pattern Recognition. Stanford Electronics Laboratories Tech. Rept. 2003-6, Stanford, Callf., Feb. 1963. 12. Spragins J. D . Reproducing Distributions for Machilie Learning. Stanford Electronics Laboratories Tech. Rept. 6103-7, Stanford, Calif., Nov. 1963. 13. Кiefer J. and Wolfowitz J. Stochastic Estimation of the Maximum of а Regression Functions Ann. Math. Statistics, vol. 23, No 3, р. 462-66, Sept. 1952. 14. Venter J. Н. Оп Dvoretzky"s Stochastic Approximation Theorims. Ann. Math. Statistics, vol. 37, No 6, р. 1534-44, 1960. 15. Robblns Н. and Monro S. А. Stochastic Approximation Method. Ann Math Statistics, vo]. 22, No 3, р. 400-407, Sept. 1951. 132
16. Henrici Р. Elements of Numerica\ Analysis. John Wi\ey and Sons, •Inc., New York, 1964. 17. Dvoretzky А. Оп Stochastic Approximation, Proceeding of the Thisd Ber• keley Syшposiuш оп Mathematica\ Statistics and Probability, vol. I, Uni- versity of California Press, Berkeley, Ca\if. р. 39-55, 1956. 18. LeCam L. Оп Same Asymptotic Properties of Maximum Likelihood Esti- mates and Related Bayes Estimates (University of California PuЬlication in Statistics, vol. I, No 11, р. 277-329, Un. of Calif. Press., Calif. Jan. 30, 1953. 19. Но У. С. and Lee R. С. К, ldcntification of Lineaг Dynamic Systems. Proce- edings of tl1e Third Symposium оп Adaptive Processes, р. 86-101, Oct.1964. 20. Saridis G. N . and Stein G. Stochastic Approximation Algorithms for Linear Discrete- Time System I dentiflcation. IEEE Trans. Automatic Controls, vol. АС-12, No 5, р. 513-523, Oct. 1968. 21. Dublns L. Е. and Savage L. J . А Tchebysheff-like Inequality for Stochastic Processes. Proc. Natl. Acad. Sci., vol. 53, No 2, р. 274-275, Feb. 1965. 22. Sakrison О. J. Stochastic Approximation, а Recursive Method of Solving Regresion ProЬ!ems. Advances in Communication Theory, vol. 2 . А. V. Ba- labrishnan. ed., Academic Press, !пс., New York, 1966. 23. Saridis G. N ., Nikolic Z. J . and Fu к. S. Stochastic Approximation Algo- rithms for System ldentification. Estimation and Decomposition of Mixtu- res, IEEE Trans. System Science and Cybernetics, vol. SSC -5, No 1, р.~8- 151, Jan., 1969. 24. Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Вероятностная за­ дача .об обучен ни автоматов распознавания образов и метод потенциаль­ ных функций. Автоматика и телемеханика, 1964, т. 25, No 9. 25. Цыпкин Я. 3 . Применение метода стохастической аппроксимации к оцен­ ке неизвестности плотности распределения no наблюдениям. - Авто­ матика и телемеханика. 1966, т. 27, No 3. 26. Kashyap R, L. and Blaydon С. С. Estimation of Probabllity Density and Distribution Functions, IEEE Trans. lnformation Theory, vo\. IТ-14, No 4, р. 549-Ь56, J ul у 1968. 27. RosenЫatt М. Remark оп Some Nonparametric Estimates of а Density Function, Ann. Math. Statistics, vol. 27, No 3, р. 832-837, Sept. 1956. 28. Parzen Е. Оп Estimation of а Probability Density Function and Mode. Ann. Math. Stat., vol. 33, No 3, р. 1065-1076, Sept. 1962. 29. Murthy V. К, Nonparametric Estimation of Mu\tivariate Densities with Applications, Multivariate Analysis, Р. R. Krishnaiah, ed., Academic Press. !пс., New York, р. 43-56, 1966. 30. Whittle Р. Оп the Smoothing of Probabllity Density Functions. J. R оу. Statistical Soc., Ser. В., vol. 20 .No 2, р. 334-343, 1958. 31. Watson G. S. and Leadbetter М. R, Оп the Estimation of the Probabllity Density., Ann., Math. Statistics, vol. 34, No 2, р. 480-491, June 1963. 32. Cooper G. R ., and J. А. TaЬczynski. Estimation of Probability Density and Distribution Functions, Purdue University School of Electrical Engine- ering Tech. Rept. ЕЕ-65-15, Aug. 1965. 33. Loftsgaarden D. О. and Quesenberry С. Р. А Nonparametric Estimate of а Multivariate Density Function, Ann. Math. Statistics, vol. 36, .No 3, р. 1049-1051, 1965. 34. Wilks S. S . Determination of Sample Sizes for Setting Tolerance Limits, Ann. Math. Statistics, vol. 12, No 1, р. 91-96, March 1941. 35. Kemperman J. Н. В. Generalized Tolerance Limits. Ann. Math. Statistics, vol. 27, .No 1, р. 180-186, March 1956. 36. Tukey J. W . Nonparametric Estimation, II, Statistically Equivalent Blocks and Tolerance Regions - The Continuous Case. Ann. Math. Statistics, vol. 18, No 4, р. 529-539, Dec., 1947. 37. Blum J. R, Multidimensiona\ Stochastic Approximation Methods, Ann. Math. Statistics, vol. 25, No 4, f. 734-744, Dec. 1954. 38. Blum J. R, Approximation Ме hods Wihch Converge with Probability One, Ann. Math. Statistics, vol. 25, No 2, р. 382-386, June 1954. 133
39. Wolfowitz J. On the Stochastic Approximation Method of Robblns and Monro. Ann. Math. Statistics, vol. 23, No 3, р. 457-461, Sept. 1952. 40. Hogg R- V . and Craig А. Т. Introduction to Matl1e1natical Statistics, 2nd ed., tl1e Macшillian Сошраnу, New York, 1965, р. 156-157. 41. Wilde D. Optimum Seeking Methods. Prentice-Hall. Inc., Englewood Cliffs. N. J. 1964, р. 159-192. 42. Kesten Н. Accelerated Stochastic Approximation, Ann. Math. Statistics, vol. 29, No 1, р. 41-59, March 19'58. 43. Fu К- S. Sequential Methods in Pattern Recognition and Machine Lear- ning. Academic Press., lnc., New York, 1968. Фу К- Последовательные методы в распознаваr1ии н обучении машин: Пер. с англ. /Под ред. Л. А. Мееровича и .Я. 3. Цыnкина. - М.: Наука, 1971. 44. Young~T . У. апd Giorgio Coraluppi. Stochastic Etsimation of а Mixture of Normal Density Functions Using an Information. Criterion, I ЕЕЕ Trans. Information Theory. Vol. IТ-16, р. 258-263, Мау 1970. 45. Patrick Е. А. Asymptotic Distribution of Maximum Likelihood Estimators for Nonsupervised Adaptive Receiver, IEEE Interns. Communications Conf. Record, Phi!adelphia, J une 1966. 46. Wolfe J. Н. NORMIX: Computational Methods for Estimating the Para- meters of Multivariate Normal Mixtures of Distributions, U. S. Naval Personnel Research Activity, Research Memorandum SR.M 68-6, San. Diego, Calif. Aug. 1967. 47. Shwartz М. Information Transmission, Modulation and Noise, McGraw- Нill Book Company, Inc. New York, 1959. 48. Fraser D. А. S. Sequentially Determined Statistically Equivalent Вlocks, Ann. Math. Statistics, vol. 22, No 3, р. 372-381, Sept. 1957. 49. Ferguson Т. S. Mathematical Statistics: А Decision Theoretical Appro- ach, Academic. Press. Jnc., New York, 1967. 50. Kaplan W. Advanced Calculus, Addison - Wesley PuЫishing Со., Inc., Reading, Mass, р. 128-129, 1952. 51. Andersoп М. W. and Benniпg R, D. А Distribution-Free Discrimination Procedure Based on Clustering, IEEE Transaction Informatioп Theory, vol. IТ-16, No 5, р. 541-548, Sept. 1970. 52. Дынкии Е. Б. Необходимые и достаточные статистики для семейства рас­ пределений вероятностей. Успехи матем. наук, 1951, т. 6 No l. 53. Zacks S. The Theory of Statistical Inference, John Wiley, N. У., 1971. Закс Ш. Теория статистических выводов: Пер. с англ./Пщ1 ред. Ю. I(. Беляева. - М.: Мир, 1975. 54. Невельсон М. Б., Хасминский Р. 3. Стохастическая аппроксимация и ре­ куррентное оцеиивание. - М.: Наука, 1972.. 55. Wasan М. т. Stochastic Approximation. Cambridge Univ. Press, 1969. Вазаи М. Стохастическая аппроксимация: Пер. с англ./Под ред. Д. Б. Юдина. - М.: Мир, 1972.
ГЛАВА 3 ПРАВИЛА ВЫ&ОРА РЕШЕНИЯ, ИСПОЛЬЗУЕМЫЕ В РАСП,ОЗНАВАНИИ О&РАЗОВ 3.1. Введение Ранние работы по теории связи и теории информации были свя­ заны с анализом правил выбора решений. Эти исследования, по существу, концентрировались на оптимальном правиле выбора решения, которое минимизирует средний риск. Правило выбора решения, минимизирующее средний риск, определяется через ус• ловные по классу функции плотности вероятности f(xli) для i-ro класса, соответствующие вероятности класса Р;, потери Ln, обу­ словленные принятием решения, что х из класса j, тогда как в дей­ ствительности х из i-ro класса, i = 1, 2, ... , М, где М - число клас­ сов. Правило выбора решения, минимизирующее средний риск, получено в п. 3.2 .1 . Когда неправильному решению приписываются потери, равные 1, и правильному решению - потери, равные О, правило выбора решения, минимизирующее средний риск, пере­ ходит в правило выбора решения, минимизирующее вероятность ошибки. Это правило рассматривалось многими авторами (см. [1, 2, 3, 5-7, 9, 11-14, 31*]). Сущность правила состоит в том, что в пространстве наблюде­ ний формируются границы решений. Эти границы определяют М областей или множеств точек 'JJ1 , 'JJ 2 , ... , 'JJм; если вектор наблю­ дений находится в 'JJ;, то принимается решение о том, что данное наблюдение соответствует i-му классу. В п. 3.2.3 приведен пример, когда имеются две области для случая двух классов (М = 2). Здесь же определены вероятности: ложной тревоги PF, правильного обнаружения Р0 и пропуска Рм, которые так часто используются в задачах радиолокационного и гидролокационного обнаружения. Это правило прочно вошло в практику медицинской диагностики и лечения, использующих вычислительные машины, классификации гидроакустических целей и других областей науки и техники. На основе байесовского подхода в п.3.2.4 получено оптимальное правило, минимизирующее апостериорный риск. Важной стороной этого подхода является то, что необходимо вычислять апостериорную 135
плотность вероятности f (bJ:x:n), где Ь принадлежит параметрическому пространству фиксированных, но неизвестных параметров. Проб­ лема заметно усложняется, когда плотность вероятности выбор- м ки х представляется смесью h (х) = ~ f (х Ii, bJ i=J Аппроксимация правила выбора решения, минимизирующего условную вероятность ошибки, состоит в получении оценки (b1)n параметров, характеризующих f (xli) (при этом предполагается, что семейство 1f известно), и формировании оценки плотности вероят­ ности вида· f (xli, (Ь1)п), i = 1, 2, ...,М. Например, когда х1,х2,..., Xn - выборки из смеси (случай самообучения) и М не­ известно, эти параметры можно оценить на основе применения мето­ дов кластерного анализа (см. гл. 5). По-видимому, это является очень хорошим решением многих проблем, требующих принятия решения. Ясно одно: способность использовать априори выбран­ ные начальные векторы (Ь1 )0 , (Ь2)0 , ... , (Ьм)0 для М классов с по­ следующей коррекцией этих начальных векторов на основе обу­ чающих выборок-эффективное средство в таких областях, как медицинская диагностика, использующая вычислительные маши­ ны, классификация гидроакустических целей и др. В п. 3.2.5 сформулирован оптимальный подход к принятию решения для случая, когда выборки х 1 , х2, х" могут быть ста­ тистически зависимыми. Эта сложная и важная задача. В п. 3.2 .6 обсуждается правило выбора решения, которое минимизирует средний риск при простой функции потерь, когда правильному решению не приписываются потери и неправильному решению приписываются потери, равные 1. Близкий подход к принятию решения описан в§ 3.3, где форму­ лируется так называемое «правило выбора решения, основанное на выборке». Здесь строится М областей 3J1 (х,,), fJJ 2 (хп), ... , .?Dм(хп) на основе п выборок х1 , х2 , ... , Хп· Эти области таковы, что правило d(х;Хп)=w1,еслихЕ . ?D1 {хп). Читатель может предполагать, что область .?D1 (хп) - область пространства, где мы оцениваем, что выборки из f (xJi) более сконцентрированы, чем из любого другого класса. Существуют различные методы построения таких областей, например кластерный анализ. В правилах выбора решения, основанных на выборке, испоJrь­ зуются не все априорные данные, потому что в противном случае они были бы правилами, минимизирующими апостериорный риск (байесовскими правилами). Исследование правила, основанного на выборке и различных последовательностях выборок, позволяет уви­ деть пути «улучшения» функции распределения риска благодаря свойствам обучающих последовательностей. В § 3.4 мы возвращаемся к правилу выбора реIIIения, миними­ зирующему вероятность ошибки, когда семейство распределений J;J(i
нормальное. Это простое, но полезное и важное правило является основой в понимании теории распознавания образов. Мера расхождения, заданная в виде квадратичной формы (х - m 1)t I.l (х - mt) для i-го класса, показывает, как важно знать меру «локального расхождения». Недостаток использования таких локальных мер в том, что они дают плохие результаты при приме­ нении многих правил выбора решения (например, правила ближай­ шего соседа). В гл. 5 представлены методы кластерного анализа, при помощи которого для i-го класса можно ввести априорные пред­ положения о параметрах~, и m 1 с определенной степенью доверия. Это простая процедура учета априорных данных о задаче. Предпо­ ложения затем корректируются на основе обуч-ающих выборок х1, х2, ... , Xn. В п. 3.4.4 представлено правило выбора решения для случая, когда каждый класс плотности вероятности f (xli) является смесью М плотностей вероятности. Некоторые правила выбора решения, основанные на выборке, приведены в гл. 4. Сюда включены три вида правил k-ro ближай­ шего соседа и некоторые результаты работ [15-19, 25-28]. Если в этих правилах в качестве меры локального расхождения используется квадратичная форма, то они подобны правилам, ми­ нимизирующим условную вероятность ошибки (когда ff - нормаль­ ное семейство). Существуют некоторые задачи распознавания образов, в которых проблема выбора решения по существу является простой и оче­ видной. Например, при L = 2 (т. е. когда х имеет две компоненты) выборки образов из соответствующих классов могут легко разделять­ ся при помощи прямой линии. Не следует чрезмерно эксперимен­ тировать с правилами принятия решения, когда некоторый прак­ тически приемлемый метод предварительной обработки (выделение признаков) представляет задачу такой, которая требует простой формы принятия решения 1 >. Читателю могут быть интересны обзор­ ные статьи и книги (10, 20, 21], а также содержащиеся в работе [8] другие подходы. 3.2 . Правила выбора решения, минимизирующие средний риск и апостериорный риск 3.2 .1 . Минимизация риска Пусть заданы п выборок Xn =[х1, ... , Xn], каждая из которых ха­ рактеризуется плотностью вероятности h (х). Пусть d (х) - правило выбора решения, являющееся элементом известного класса правил, обозначаемого через D. Потери L (j, i) (иногда будем обозначать 1> Выделение признаков, рассматриваемых в гл. 6, - это процесс уста­ новления связей между измерениями (компонентами х) для построения при­ знаков. Признаки можно построить для каждого класса отдельно, используя априорные сведения об исходной задаче, 137
L1i) возникают, когда х отl:lосится к категории (классу) /, d (х) = = j, в то время как в действительности х принадлежит категории i. Предположим, что известен класс плотностей вероятности f(xli), i =1,2, ..., М, наряду с классом априорных вероятностей Pi,i=l,2, ... ,M. Потери, когдах принадлежит К"8Тегории i, а принимается решение d(x), равны L (d(x), i). Риск в точке х определяется как м м r(d(x))= I L(d(x),i)p(i/x)= ~ L(d(x),i) f(xJi)P; , (1) i=I i=I h(x) который равен средним потерям в точке х. Средний риск R (d) равен R(d) = f r(d(x))h(x)dx или с учетом уравцения (1) R(d)= sf L(d(x),i)f(xli)P;dx. i=I (2) (3) Средний риск можно, по определению, записать сразу как по­ тери, усредненные по М категориям и пространству наблюдений: м м R(d)=~ ~ L(d(x),i)f(x,i)dx= ~ ~ l,(d(x),i)f(x\i)P;dx. (4) i=I i=I Классическая задача состоит в том, чтобы найти правило выбора решения d (х), которое минимизирует средний риск (2). Это дости­ гается выбором из D такого d* (х), которое минимизирует риск в каждой точке х. Из (2) заключаем, поскольку h (х) неотрицатель­ на, что риск R (d) минимизируется выбором из D такого d*(x), что d*(x) = категория, для которой м м ~ L(d*(x),i)f(x\i)P;< ~ L(d(x),i)f(xji)P;, yd(x)ED (5) i=I 1=1 для каждого х. Студентам иногда трудно понять, что (5) является уравнением, определяющим правило выбора решения d* (х), которое миними­ зирует риск, потому что это уравнение является функцией d* (х). 3.2.2. Решения для простой функции потерь Когда имеется М категорий, средние потери в точке х, вычислен­ ные для простой функции потерь, т. е. для матрицы с элементами равны соответственно: 138 (6)
d* (х) 1 2 м Средние потери n точке х IPif(xli) i1'М h(Х) I - Р_2_/_(_х_12 _) h(х) ' Рм(х/М) 1---- . h (Х) Таким образом, согласно правилу, минимизирующему средние потери (средний риск) в точке х, принимается j-я категория (d*(x) = j), если Р1 f (xjj) = max {Pif (x/i)}f=,, (7) так как это эквивалентно условию 1 - Р1 f (xlj)/h (х) - = min {1 - Р1f(хIi)/h (х)}. 1 Правило выбора решения, определенное с помощью уравнения (7), максимизирует вероятность обнаружения или минимизирует ве­ роятность ошибки. 3.2.3. Разделяющая поверхность и вероятность ошибки Множество точек, для которых в (5) имеет место равенство, оп­ ределяет поверхность, разделяющую пространство наблюдений на две области (?D1 и ?D 2), соответствующие категориям 1 и 2. Средний риск R для задачи с двумя категориями (М = 2) определяется вы­ ражением 22 R=~ ~Ljiр(j,i), (8) /=1 i=I где р (j, i) - вероятность принять решение, что имеется категория j, когда на самом деле имеется~катеrория i, L11 - соответствующие потери. Величины р (j, i) определяются следующим образом: (9) Тогда R=± ~PiLii S f(xli)dx=P1 L11S f(x/l)dx+P2 L12 X 1=1 l=I IOJ Ю1 х ~ f(x/2)dx+P1L21 ~ f(xl l)dx+P2L22 .\ f(xj2)dx. (10) Ю1 Ю2 Юа 139
Прибавля" и вычитая P1L2 1 ~ f(x/l)dx+P2L22 ~ f(x/2)dx, Ю1 Ю1 получаем R = P1L21+ P2L22+ J(Р2(L12- L22)f(х/2) - Р1(L21 Ю1 -L11) f (xil)] dx, (11) потому чтоflJ1+flJ2 = '1?-L - пространство измерений. Из уравнения (11) следует, что средний риск будет минимальным, если сделать подынтегральное выражение отрицательным для всех х. Эго опреде­ ляет область '!/)1 : 'J)i={x: f(xll) > P2(L12-L22 ) }, (1 2) f(х12) Р1 (L21 -Lн) при этом предполагается, что L12 > L22 , L21 > L11, Для матрицы потерь средний риск равен R=P1 ~ f(xll)dx+P2 ~ f(x!2)dx=Pe (13) Ю2 Ю1 и представляет собой полную вероятность ошибки Р8 • Обобщение для задачи с многими категория'vfи см. в [6]. Вероятности ложной тревоги, обнаружения и пропуска. Пусть 6)1 - индекс категории, соответствующий наличию цели, а 6) 2 - ее отсутствию. Вероятности ложной тревоги, обнаружения и про­ пуска определяются следующим образом: Рр= Jf(хIw2) dx Р2; (14а) Ю1 Pv = ~ f(хIw1):dxP1; (146) Ю1 Рм= ~ f (xlwJ dxP1. (14в) :1)2 Из (11) средний риск, выраженный через PF, Pv а Рм, можно представить в виде R=P1L21+ (1- Р1)L22+([,12 - L22)Рр- (L21- Lн)f!v, или, подчеркивая зависимость от Р 1 , R(Р1)=!L22+(L12- L22)РF- (L21- Lн)Pvl+ + Р1 !L21 - L22J, 05) 140
Предположим, что правило вы­ бора решения, определенное в (12), построено на основе априор- ного предположения, что l\ - истинная априорная вероятность категории ro 1, когда в действитель­ ности истинное значение равно Pi. В таком случае области '!1) 1 и '!1) 2 и соответственно PF и Pv опреде­ ляются согласно предполагаемому значениюР1 . Обозначим эти обла­ IJ 1, 1 Рис. 3.1. Пример R(P1, Р~), R(Pi, Pi) сти через ~ 1 и?Ь 2 . Действительный средний риск, однако, зависит от истинного значения Pi. Тогда вместо (15) имеем R(Р1,Pi)=!L22+(L12- L22)PF- (L12- Lн)Рv] + + Pi (L21 - L22), (16) или R(Р1,Pi) = [L22 + (L12-L22)j f(хIro2) dx (l-Pi)- I01 -(L1a-L11) _) f (х I roi) dxPi +Pi (L 21-L22)] . (16а) Ю1 Определяя с1 = L22+ (L12-L22) ~ f (х Iro2) dx, Ю1 С2 = [ (/- 21 -L22)-(L12 -L11) ~ 1 f(хIШ1)dxJ- -r L22+ (L12- L2;) i/ (х Iro;) dx], запишем (1ба) иначе: R(Р1,Pi)=С1 + Pic2- (17) Выражение среднего риска, когда для определения Рр, Р 'Ь ис­ пользуется Pi, имеет вид (рис. 3.1) R(Pi,Pi)=[L22+(L12- L22)Pj, - (L12- Lн)Pbl+ + P~(L21 - L22)· (18) Средний риск, когда используется фиксированное значение Р1, выражается с помощью уравнения (17) (прямая линия на рис .. 3 . 1). Очевидно,. что R {i\, Pi) ~ R (Pi, Pi), так как Pi - истинное значение. Отсюда следует, что когда оценка Pi уточняется, средний риск может быть уменьшен. 141
В работах (22, 23} были предложены оценки Pi при самообу­ чении. Также, как средний рискзависитотоценок7\, для величины Pi он зависит от оценок Ь1 и Ь2 для bi и Ь2 соответственно. Таким обра­ зом, имеет место соотношение R (1\, Б1, Б2, Pi, bi, ь;)>R (Pi, bi, ь;; Pi, bi, Ь2), потому ЧТО, В общем, PF И Pv -функции l\, Ь1, Ъ2, Pi, bi И ь;. Области '1J 1 и '1J 2 , используемые в правиле (12), вычислены на ос- нове 7\, Ь~, и 62 • Однако действительный средний риск зависит от истинного значения Pi. Обсуждение. Области '!JJ 1 и '!JJ 2 определяются, в общем, на основе априорных предположений о параметрической точке Ь*, где пред- полагаемое значение обозначается через Ь. Пока еще имеется мало теоретических результатов, показывающих, как велико может быть значение R (Ь, Ь*) - R (Ь*, Ь*) как функции размерности L и числа параметров в Ь*. Некоторые результаты можно найти в работе [24]. Методы использования априори выбранной начальной точкиЬ с последующей ее коррекцией на основе обучающих выбарок являются очень важными. 3.2.4. Минимизация апостериорного риска Правило выбора решения, определенное в (5), сформулировано для известных f (xli), Pi, i = 1, ... , М. В гл. 4 и 5 представлены методы оцеиивания этих распределений при помощи классифи­ цированных и неклассифицированных выборок при обучении с учи­ телем и без учителя соответственно. Хотя эти оценки можно непосред­ ственно подставить в (5), желательно избегать двухшаговой проце­ дуры (по крайней мере с теоретической точки зрения) и искать пра­ вило, минимизирующее апостериорный риск1>. Непосредственное обобщение уравнения (1) приводит к следую­ щему выражению апостериорного риска: ,n(d(x),i) д r(d(x),ilxn) =L(d(x),i)f(x,ilxn), (19) Лf гn(d(х))= ~ ,п(d(х),i). (20) i=1 В результате рассуждений, аналогичных тем, которые приве­ дены в п. 3.2 .1, получаем правил.? выбора решения, минимизирую­ щее средний риск, при заданном хп; оно имеет вид: 1> Апостериорный риск- случайная величина, зависящая от обучаю­ щих выборок Xn. Предполагается, что все априорные данные об исходных ста­ тистиках f (х / i), Pi для всех i используются при вычислении этого апостери­ орного риска, т. е., иначе говоря, для последовательности обучающих вы- борок Xn известно все возможное об апостериорной плотности вероятности фиксированных, но неизвестных параметров. 142
d* (х) = категория, для которой м . м . - ~ L(d*(х),i)f(х,iIXn)< ~ L(d(х),i)f(х,iIXn),yd(х)ЕD. l=I l=1 (21) Вычисление f (х, i IXn) - классическая задача. Предположим, что х1, х2, ... , Хп - параметрически условно независимы 1 > и ве­ роятности категорий Р t фиксированы, но неизвестны. Тогда f (Xnlb, Хп-1) = f (ХпiЬ), р (i!Pi, хп-1) = Pi. (22) (23) Заметим, что f (х, фсп) вычисляется на основе апостериорной плот­ ности вероятности f (b/xn) следующим образом: f(х,ilx~) = Jf(х,i,Ьlхп)db= Jf(х,iib,хп)f(Ь/хп)db= = Jf (xli, Ь, хп) р (iib, хп) f (Ьlхп) db. Так как bi Е Ь и Р I Е Ь, то, применяя соответственно уравнения (22) и (23), последнее выражение преобразуем к виду f (х, i\хп) = J ff (x/i, bi)PiJ f (Ьlхп) db. (24) Функция f (х, i\хп) определяется следующим образом. Обозначим через bk k-e множество точек в параметрическом пространстве gам'. Это k-e множество относится к М 11. классам с соответствующими параметрическими точками ьJ, i = 1, 2, ... , М k· Таким образом, Ьk = {ь~. ь: .... ,ь~11.' Р~. Р:, ... , Р111.}. В этом случае f (bk Iх,,) = f (хп Iьk, Хп-1)_f ~ьk IХп-1) ' f (хп I Хп-1) но из (2.2) следует f (хп/Ьk, Хп_ 1) = f (x 11 /bk), и, поскольку (хп, i), i = 1, 2, ... , М11., взаимно исключающие и образующие пол­ ную группу события, М11. Mk f(xп/bk)=~ f(x 11 ,iJbk)= ~ f(xп/bf,i)Pf. 1=1 l=1 Таким образом, r1i 1 f(хп[ьf,i)P7jf(bk \Хп-1) f [числитель] dbk (25) 1 ) Напомним читателю, что параметрическая условная независимость означаетf(х1, х2, ..., •.,, ХпIЬ) = f(х11Ь)f(хаIЬ) ...f(хпIЬ). 143
где использовано соотношение f(хпIХп-1) =Jf(хп\Ьk,Хп-1)f(Ьk1~n-1)dbk, Упрощенный подход. Соотношение (24) может быть неудобно с практической точки зрения. Поэтому в книге рассмотрено много раз­ личных упрощенных подходов. Упрощенный подход, наиболее часто используемый на практике, по существу включает получение оценки (Ь)п и подстановку ее непосредственно в (24) для вычисления 3.2.5. Учет параметрически условной зависимости и нестационарных вероятностей классов (26) Вернемся К задаче вычисления f (Хп, ilxп-1), не предполагая, что выборки х1 , х2 , ... , Xn параметрически условно независимы, и допуская, что Р 1 зависит от выборок. Предположение, что выборки параметрически условно независи­ мы, не всегда оправдано на практике. С другой стороны, нет осно­ ваний считать, что Хп зависит от всех предыдущих выборок; поэтому можно предполагать, что Xn параметрически условно зависимы толь­ ко от предыдущих v - 1 выборок, где v ~ п - любое целое число. Так как имеется (Mk)v комбинаций категорий, которым могут соответствовать последние v выборок, то пусть W11 = (М11) 11• Цель, как И прежде, состоит В вычислении f (Хп,ilхп-1), Имеем (27) (28) где .Ji - множество всех последовательностей, для которых х при­ надлежит категории i. Таким образом, задач.а состоит в вычислении f (Хп, ЛrlХп): f (хп, лr Iхн) =~f (Хп, Лr, с IХп-1) dc = ~' (хп, Пrf c,'xn-1)/ (с~'хп-1)Х Хdc = ~f(хпjп"Xn-l• с) р (лrIх0_1,с)f(сIХп-~)dc = = ~[f(хпJПr,~п-1,с)Р(п")lf(с/"п-1)dc, (29) где использовали тот факт, что (30) 144
Поскольку Xn параметрически условно зависимы только от Хп-1• Хп-2• ... , Xn-v+l• то f (хп 1:rcr, ck, Хп-1) = f( k ) f(xn, •·•,IXn-v+1lnr,ck) = Xn I nr, С , Х11-1, Xn-2• •··• X11-v+1 = k ' f(Хп-1, •·•, Xn-v+1/Л:r,C) (31) Это выражение использовано в (29). Окончательные вычисления дают . [ i f,(Xnj:l1r,cк,x11-1, ···,Xn-v+1)P(:n:r)] f(cK/x 0 11-1) f (ck! Хп)= r=l 1 (32) f [числитель] dск [ ~ f(xn, ... ,Xn-v+1/nr,cк) ] ~ ---'-'-' -- ----' -' -'"-'-- --' ---- -' --P(:n:r) f(сК\Хп-1) f (Хп-1, ••• , Хп-v+11 :n:r, ск) f(ck/Хп)= -=-r_=_l ____________-=----- J' [числитель] dск (33) Заметим, что смесью для этой задачи (ck можно заменить на с~) яв­ ляется ~ f(хп, ••• , Xn-v+1/ :n:r, с~) ~ --------Р(пr)• r= 1 f (Х11-1, ••• , Xn-v+1 /:n:r, с~) (34) Пример. Чтобы применить прави.JJО (21), минимизирующее апостериорный риск, когда выборки х1 , х2 , ... , Хп не являются параметрически условно неза­ висимыми или когда вероятности классов не фиксированы, необходимо вычис- лить f (х, i \ Хп) согласно (28) и (29). Отметим, что используются вероятности последователь·ности Р (nг), а не вероятности классов. Можно увидеть, что свойства r-й последовательности влияют на f (х / nr, Xn, с) через структуру семейства этих функций так же, как через f (с I Xn)- Это иллюстрируется следующими примерами. 1. Предположим, что М=2 и х1 , х2 , ... , Xn, соответствуют классу 1, а не 2. Можно построить признак у, который измеряет соответствие <~той последо­ вательности, оценить плотность вероятности у для каждого из двух классов и использовать в правиле выбора решения. В этом методе «структура соот­ ветствия» вводится относительно простым способом. 2. Предположим, что все п выборок принадлежат либо классу 1, либо классу 2, но не обоим. Тогда существуют две последовательности n 1 = = [1,1, ..., 1] иn2 = [2,2, ..., 2Jиненулевые вероятностиР(n1)иР(n2). Ясно, что одна из этих последовательностей «наилучшим образом согласуется с выборкой х1, х2, ... , Хп»- Чтобы убедиться в этом, предположим, что • /(Хп/t)/(с) f(cJxn)= . = f (хп) 2 ~ f (Хп JCr, Л:r) р (Л:r) r=I --- ------ t (с); f (хп) (35а) 145
iп takoe, Чtо f(kn Jс1, 1t1)Р(1t1) >> f(Xn Iс2, n2) Р(n2). Тогда • /(хпlл1)Р(л1) f(Р(л1),Р(Л2)1Хп)~ . f (Р (л1), Р (Л2))· (356) f (Хп) Предположим, что f (Р (:n:1), Р (Л:2)) - равномерная, Р (Л:1) + Р (Л:2) = = 1, f(Р(Л:1),Р(л2))=2б(Р(,t'1)- (!- Р(Л:2))), (35в) О<Р(л:1)< 1,0< Р(Л:2)< 1, гдеб(•)-б-фупкция. Далее f(Р(Л:1),Р(Л:2)1Хп)= 2 Р (л1)б(Р(л1)- (! - Р (л:~))). Маргинальная апостериорная плотность вероятности имеет вид 1 f (Р (1t1) 1Хп) = f2P (л1) б (Р (л1)-( 1-Р (л2)) dP (лJ =2Р (:t1), (35г) о 1 f (Р (Л:2) 1хп) = J2Р (Л:1) б (Р (л1)-( 1-Р (л2))) dP (л1) =2 ( 1-~Р (.'12)). (35д) о Очевидно, что из (35r) и (35д) •следует Е [Р (Л:1) 1Хп] > Е [Р (л2) 1Хп], (35е) поскольку f (Р (л:1) j Хп) имеет большее значение около верхней границы ин­ тервала, чем f (Р (л 2) 1 хп)• Байесовские оценки Р (л1 ) и Р (л 2 ) при квадратич­ ной функции потерь равны (35ж) Заметим, что мы наблюдаем только одну выборку последовательности Хп, и это объясняет, почему приведенные выше оценки не зависят от п. Интересно отметить, что (353) Таким образом, если xn+ 1 из класса 1, можно ожидать, что f(хп+ 1 , л:1J ·хп) > > f (хп+ 1 , л:2 1 Хп) с неравенством, обусловленным как эффектом, показанным в (35ж), так и фактом, что мы ожидаем f (хп+ 1 / л:1) > f (Хп+~ / л::~)- 146
Правило выбора решения в этом случае предписывает ва1числение ве­ личин р (хпн / л:;) р (л:;) f (хп+1) Это означает, что решение принимается на основе сравнения /'(xп+1/1ti) р (~1) с f (Хп+~ 1 Л:2)Р (Л:2)• Рассмотренный пример характерен для автоматического обна­ ружения и классификации в гидролокаторе, где имеется два класса цел"ей (подводные и надводные корабли) и Хп - последовательность эхо-сигналов от цели. 3.2.6. Риск, выраженный через вероятности решений Другой подход, незначительно отличающийся от подхода, пред­ ставленного в п. 3.2 .5, основан на представлении точечного риска через вероятности решений. Как и прежде, пусть Lл - потери, возникающие при отнесении х (здесь х - общее выражение для Хп) к кат.егории j для решения d (х) = j, когда в действительности х принадлежит категории i. Определим с помощью Р(1 (х) = j; i, х/хп_ 1) совместную вероятность при заданных выборках Хп-~, если х яв­ ляется наблюдением и отнесено к категории j, когда имеет место категория i. Когда d (х) = j, точечный риск при наблюдении х имеет вид м r 1 (x) = ~ Lup(d(x)=j; i, xliп-J, i=I но так как р(d(х)=j; i, ХIXn_1) = р(d(х)=jIXn-l•i,х)р(i, Х/·хп_J, то, как следует из (36), это эквивалентно (36) м . ri(x) = ~ LnP(d(x)=jlxn-1, i, х)111 (х), (37) i=I где 11? (х) ~р (i, х IХп-1), Таким образом, риск при наблюдении в точке х имеет вид м мм r(х)=~ri(х)= /=1 - ~ ~р(d(х)=jIi.n-l•i,х)Lл 'rli(х). (38) j=l l=I Точечный риск при наблюдении х минимизируется, если прини­ мается решение, минимизирующее (38). Предположим, что построе­ ны М непересекающихся областей (которые образуют покрытие /!С), 147
такихчтоd(х)= j,j = 1, 2, ..., М, для этих областей. Тогда р (d (х) = jlxn-i, i, х) = 1, когда х принадлежит j-й области и нуль ·В остальных случаях. Теперь (38) упрощается, благодаря сле- дующему: если р (d(x) = jjx,. _ 1, i, х) = 1, когда х принадлежит j-й области и нуль в остальных случаях, то точечный риск при на­ блюдении х минимизируется с помощью d (х) = j, если fLnri7(х)= min{~Lr~'r]~(х)}м • i=I r ~=1 r=I В гл. 4 рассматриваются непараметрические правила выбора решения, в частности правила k-го ближайшего соседа. Для этих правил необходимо вычислить р (d (х) = iJxп-i, i). Однако для того, чтобы выполнить такое вычисление, нужно предположить су­ ществование некоторой исходной плотности вероятности f (х / i). Другими словами, характеристика правила, свободного от распре­ деления, может не быть свободной от распределения. Это иногда вызывает удивление, если непараметрические методы действительно составляют теоретическую основу распознавания образоа. Эти ме­ тоды выбирают, главным образом, из соображений удобства. В терминах (38) средний риск R имеет вид R=f r(x)h(х)dx, (39) м где h(х)= ~f(хIi)Р;. i=1 3.3. Средний риск при использовании правила выбора решения, основанного на выборке 3.3 .1 . Введение Подход, отличный от подхода, основанного на минимуме апо­ стериорного риска, состоит в определении правила, основанного на выборке, обозначаемого через d (х; хп)- Это правило отображает точки (п + !)-мерного пространства В: х :J:n в единственный эле­ мент из ffi1, ffi2, .., ffiм. ·t Рассмотрим i-ю обучающую последовательность Хп; = = [х~, х~, ... , x~ . J, совокупность n1 независимых векторов в выбо- ' рочном пространстве В:, которые имеют одну и ту же функцию ра- спределения 1> F (xjffi;). В целом обучающие последовательности м • •l •2 • .\1 '\°1 _ обозначаются через Хп д. [хп,, Хп,, ... , Xnw1, где ..... ni-пи ' i=I 1 ) Чтобы GытL :11атематически точны:11и, по.1ожю1, что 83 - борелев­ ское а-!lоле !13 !:.С. На (."С Х .%') имеетсн М функциii раснредедения вероят­ ностей f (xlw1), i = !, 2, ... , М. 148
Правило выбора решения d(x; xn) порождает М множест1 {1\ (xn), .;Ю2 (xn), ... , ~м(хn)}, где х Е D1 (хп) тогда и только тогда, когда d (х; Xn) = ffi 1. г При заданном наблюдении х вероятность того, что х будет отнесено к классу ffij, когда х имеет функцию распределения F (x/ffii), обозначается через ал: R* R RH Рис. 3.2. Функция распределения рис­ ка для правила, основанного на вы­ борке Di(х;хп)={I, ее.ли хЕ ~j(хп), (2) О в остальных случаях. Средний риск или математическое ожидание потерь при исполь­ зовании d (х; Xn) для заданного Xn, определяется выражением . м м r . R(хп)= ~Р1 ~ L11 JD1(х;х0)dF(х/ffii}. i=I i= \ !!lJ (3) Конечно, невозможно, чтобы средний риск R (xn) был меньше, чем R* - естественной нижней границы (байесовского риска для из­ вестной статистики) рисков всех правил. Средний риск R (xn) - случайная величина, так как х0 - слу­ чайный вектор с функцией распределения F (хп), . . Мni . 1 F(xn)= П П F(x1/ffi;). (4) i=I }=\ Действительная случайная величина R (х0) лежит между R* (бай­ есовским риском) и некоторой верхней границей R* *. Типичная функция распределения R (xn) для соответствующего множества ИС· ходных функций распределения {F (х/ ffii)} при нескольких значе­ ниях размера выборки показана на рис. 3.2 . Когда п увеличивается, среднее значение R (хп) может уменьшаться до значения, не меньше­ го R*, а дисперсия R (:xn) - до нуля. После выбора вероятностной модели и использования ее в оп­ ределении среднего риска соответствующего правила, основанного_ца выборке, функцию распределения R (х 0) можно оnредёлИtь n завй­ симости от размера выборк11, правила выбора решения и априорных данных. Однако, так как пос,ТJедовательность моментов функции ра­ спределения случайной величины определяет функцию распреде- 149
лiния всюду, за исключением точек разрыва, то достаточно оп­ ределить моменты функции распределения R (iп)- 3.3.2 . Моменты среднего риска при использовании правила выбора решения, основанного на выборке Так как рассматриваемый средний риск при заданном Хп огра­ ничен снизу конечной величиной R*, а сверху конечной величиной R**, 6-й момент этого риска существует для любого положитель­ ного целого 6 и определяется выражением бЛ • б μп=Ех [[R(хп)J ], (5) п где математическое ожидание вычисляется по обучающим после­ довательностям. Подставляя (3) в (5), получаем μ~ = ~1fР;fLn ~Dj(х,Хп)dF(х/СО;)} 6 dF (х 0). (6) 9:ni=1 J=1 9) Выражение (6) дает окончательный результат, но, если имеются данные, вытекающие из вероятностной модели, которые определяют величину J9:D 1 (х, Хп) dF (xjro;) для некоторого (х, i, j), эти дан­ ные должны быть, конечно, использованы. Чтобы пояснить эту мысль, запишем (6) в ином виде. Выразим подынтегральное выражение {· }6 в (6) как произве­ дение 6 величин, включающих интегрирование по всем переменным и суммирование по всем индексам v: (7) или х С~, [P;VLjvivIDjv(x<v>; Xп)df(x<v) /co;v) J}dF(xn)- (8) Дважды применяя теорему Фубини [29, с. 136], которая позволяет заменить произведение интегралов многократным интегралом про­ изведения, получаем },, v~1[JDjv (x<v>; Хп) dF (x(v) 1Ы;)] dF (хп) = \БО
(9) (10) где (11) - вероятность того, что случайная обучающая последовательность Хп приводит к правилу, основанному на выборке, которое относит (1) (2) В р (6) вектор х к Wj1 , вектор х к ffi/,, ... , екто х к ffij6, т. е. q'/,, .... iб (x(I), ... , х(11>) =р [d (x(v); Xn) =ffijv' V= 1, 2, ... , б] (12) для б точек x(l), х( 2), ... , х( 6 > J3 пространстве наблюдений. Следова­ тельно, подставляя (10) в (8), находим Вычислять б-й момент риска из (13) все равно, что «охотиться за муравьем с телеграфным столбом», поскольку моменты риска мо­ гут быть вычислены непосредственно (см. п. 3.3 .5). Однако формула (13) будет полезна при вычислении моментов риска для правила kNN 3 при заданных исходных статистиках. Заключение. Из (13) следует, что б-й момент среднего риска для правила, основанного на выборке, не является свободным от распределения, а зависит от функции распределения класса F(хiffii),i =1, 2, ..., М. Можно также заключить, что если в выборочном пространстве В: имеются области, содержащие значимую вероятностную массу, то области принятия решения {::lJ1 (хп), ::lJ 2 (хп), ... , ::Dм (хп)} должны быть выбраны (и, следова­ тельно, определены qi,, ... .1 6 (x(l>, ... , х< 6 >); х0) такими, чтобы уменьшить моменты μ~. 151
3.3 .3. Центральные моменты среднего риска nри исnо11ьзовании правил выбора решения, основанных на выборке б-й центральный момент равен μ~~Ех0 [R («п)-μАJ6 ; μ~ = i (-1)6-w ( б ) (μI06-w Е ;n [R (xn)W)J. w=O W Из (13) и теоремы Фубини непосредственно следует, что Х\ •••~i((-1)6-w(б)q'/,_ ... fw (x(l>, ... , x(w)) Х !fc Шw=О W (14а) (14б) Пример правила, осиоваииого на выборке. Детальное исследо­ вание дано в гл. 4. Предположим, что имеется п обучающих выборок х1, х2, ... , Хп, причем {х~};~ 1 выборок принадлежит i-му классу, м ~ ni = п. Решение состоит в отнесении точки х Е f.C к одному из i=1 классов. Сначала оценим плотность вероятности f(xli) в точке х дляклассаi,i = 1,2, ..., М, (/ (xli))n = k,/(ni + 1) Ф,. В этой оценке плотности вероятности «окрестность» точки х, обоз­ начаемая через tfi, строится для каждого класса и содержит k1 вы• борок из ni выборок i-го класса; Ф1 - объем окрестности. Правило выбора решения, основанное на выборке, определяется сле­ дующим образом: принимается класс Фа, если Это правило - частный случай правила kNN 3 , рассмотренного в гл. 4. Если Ф1 = Ф2, = ... = Фм, то это правило упрощается: принимается класс Фа, если 152
3.3.4 . Точечный риск при использовании 11равила, основанного на выборке В уравнении (38) п. 3.2.б представлен точечный риск мм . r(х)=~ ~р(d(х)=jIХп-нi,х)Lj;'l'Jf(х). (lба) J=I i=I В п. 3.2.б на d (х) не наложено никаких ограничений, которые бы не позволяли отнести правило к классу правил, основанных на выборке. Поэтому приведенное в п. 3.2.б выражение можно исполь­ зовать для правила, основанного на выборке. Если такое правило определяется следующим образом d (х) = j с вероятностью 1, когда _i Lл'l'J:(x)=min{ f Lr, 'l'J~(x) }м , r=l,2, ... , М, i=I r ;=1 r=I то r (х)=min{fLj;'l'J?(х)}. I 1~1 3.3.5 . Риск при малом объеме выборки Предположим, что имеется N обучающих последовательностей х<:>, k = 1, 2, ... , N. Обозначим выборки из i-ro класса в k-й обу- u i(k) i(k) i(k) чающеи последовательности через Х1 , Х2 , •.. , Хп; , пред- полагая что все обучающие последовательности для i-ro класса ' 6 имеютп1выборокиn= n1+n2+...+пм.Тогдаоценкидляμп в (6) определяются выражением Таким вид μ~=; I I piI Lj;I Dj(х~(k)' x~k>)- л N(М Мn; k=I i=I J=I s=I NМ М ni 16 -+IIpiI LjiI Dj(x~<k>, x~k)>t, б =2,3,... k=li =I j=I s=I J (17) имеет (18) Конечно, D1 (х, х~) описывает границу решения как функцию х, которая зависит от частного вида используемого решающего правила. Эта граница решения может заметно меняться, если есть заметные изменения обучающих последовательностей и решающее правило 153
априори это не учитывает. Имеется несколько интересных и заслу­ живающих внимание случаев. С л у ч а й 1. μ~ очень велико; μ~ очень мало. Это случай боль­ шого риска для любых обучающих последовательностей. С л у ч а й 2. μ~ умеренно большое; μ1 большое. Это случай, когда есть большие вариации ср~и обучающих последовательно­ стей, некоторые дают малый апостериорный рискμ~, а некоторые - очень большой. С л у ч а й 3. R (хп) имеет бимодальное распределение, одна мода расположена в области больших значений, другая в области малых значений. μ1, таким образом, велико. Это случай, когда име­ ются некоторые обучающие последовательности с большим риском и некоторые - с малым. Примером случая 2 служит задача, где признаки столь неэффек­ тивны, что риск большей частью велик. Примером случая 3 служат две группы враче~: одна устанавли­ вает диагноз с малым риском, другая - с большим риском. Очевид­ но, что желательно отождествить наличие двух таких групп врачей с причиной появления больших вариаций в риске. 3.3.6 . Асимптотическое распределение среднего риска, при использовании правил, основанных на выборке Всегда интересно знать, насколько хорошо «работает» правило выбора решения, основанное на выборке, если размер обучающей выборки неограниченно возрастает. Поскольку качество такого правила неявно характеризуется функцией распределения среднего риска, то качество правила, когда п -+оо, можно описать предель­ ным поведением этой функции распределения. Ниже приведены пять естественных типов асимптотического поведения функции распределения среднего риска R (хп), расположенных в порядке возрастающей значимости: 1) не сходится по распределению; 2) 6-й момент R (хп) сходится к константе для некоторого 6; 3) сходится по распределению к распределению Н (r); 4) сходится по вероятности к константе R; 5) сходится с вероятностью 1 к константе R. В работе [26] доказано, что средний риск для правила kNN 1 сходится по вероятности к байесовскому риску R*, если k возрастает медленнее, чем п. В этой работе найдено асимптотическое значение первого момента среднего риска при фиксированном k. В работе [15] показано, что для правила kNN 2 при фиксированном k указан­ ное асимптотическое значение ограничено функцией R* и указаны границы скорости сходимости, уточненные в работе [27], в которой также показано, что скорость сходимости порядка п-2 имеет место для правила 1NN 2 в случае одномерных'' распределений. В [28] более детально рассмотрены !{екоторые свойства сходимости. 1[j{
3.4 . Правило выбора решения для нормального распределения 3.4.1. Введение Если f (xli) - нормальная плотность вероятности с известным lf1 1 и ковариационной матрицей ~i , то правило, минимизирующее вероятность ошибки, когда известны также Р; и число категорий М, имеет вид: принимаем решение о принадлежности к категории а, если Ра ехр [-- 1 (x-ma)t ~а 1 (x-ma)] = / Ia 1112 (2:i)L/2 2 =max{ Р; exp[-_!__(x-m;)i~1- 1 (x-m;)]}м . (1) i II;/1/2(2:t)L/2 2 i=l Поскольку ln (~) - монотонно возрастающая функция ~. правило (1) эквивалентно следующему правилу: принимаем решение о при­ надлежности к категории а, если lп Pa-ln 1~а 111 2 -+ (x-ma)t ~а 1 (x-ma) = =m:x{lnP;-lnl~;l 112-+(x-mt)t~i'' (x-m1)}. (2) ПриМ=2из(2)имеем ln P1/I21112 _, _1_[mt~ -1m-mt~ -1m]+ (1-Р1)1:1:111/2 2 1 1 1 а 2 z + _! _ _ [xt ~ 21x-2m: ~;-1х]-_!__ [xt ~, 1 x-2mf ~, 1х] = 2 2 > О : принимаем решение о принадлежности к категории <О: принимаем решение о принадлежности к категории 1, 2. (3) Первое слагаемое ln (P11~ 2Jll2/ Р 2 1 ~1 / 112) в (3) - «смещение», не равное нул~р, например, когда справедливо хотя бы одно из не­ равенств Р1 '4=, 1 12 и ~ 2 '4=, ~ 1 ; второе слагаемое также «смещение». Выражение m~~1- 1 x представляет собой выход согласованиого фильт­ ра, когда на входе действует х. Случай: ~1 = ~2 . Когда~1= ~2= ~. слагаемые в (3) мо­ гут быть более удобно сгруппированы. Это приводит к следующему результату: (4) \55
где (5) Уравнение (4) со знююм равенства - это уравнение гиперплоско­ сти, (m1 + m2)/2 - точка на этой гиперплоскости и (m 2-m1)1 ~- 1- нормаль к этой гиперплоскости. Гиперплоскость является разделя­ ющей поверхностью между двумя категориями ДJIЯ принятия ре­ шений, которые минимизируют вероятность ошибки. С л у ч а й: Диагональные ковариационные матрицы. Когда r af, О ~i= о (Ji~ о ... правило (2) переходит в следующее: принимаем решение <ila, если lпр-lпПа2. _ _!_ """ (х1-та1) = r L j1/2 L 2 а GJ 2~ 2 i=I i=I (Jaj (6) С л у ч а й: Равные диагональные ковариационные матрицы. Когда ковариационные матрицы равны и являются диагональными, r afО о (J~ ~;=~= . о...о то решающее правило (6) становится следующим: принчмаем ре­ шение <ila, если \L 2 !пр __ """ (XJ-maj) = а2~ cr2 j=I / 1 /, }L = max lnР;--1 - ""' (xi-m;j) 2 • i 2~ (J~ j=I 1 i=I (7) Для двух категорий (7) эквивалентно L оо 2 ""'т21-т11 [x•-m21+m11]>• Ь. ~ cr2 1 2 < j=1 / оо, (8) С л у ч а й: Равные векторы средних. Когда векторы средних идентичны, mi в (2) заменяется m для всех i. Для двух категорий 156
правило упрощается: 3.4.2. Правило выбора решения для нормальных распределений, реализованное с помощью фильтров Методология, лежащая в основе построения приемников в тех­ нике связи, состоит в том, что слагаемые в (2) вида можно вычислить априори 1> и, таким образом, смещение ьI Р; __1_mt~-1m- ; = П ,~;11/2 2 1,Щ l (10) для i-й категории можно запомнить. Далее будем интерпретировать (11) как операции фильтрации. Начнем с предположений о модели канала. Предположим, что для i- й категории • Х=St+П;, (12) где s1 - векторы нормального сигнала со средним m1 и ковариацион­ ной матрицей ~ 8 ;; n1 - векторы нормального шума с нулевым сред­ ним и ковариационной матрицей ~ni• Если предположить, что s1 и n1 не коррелированы, то ковариационная матрица ~i векторах будет иметь вид ~; =Е[(s;+n;)(s;+n;)1]= ~si+~nl' Заметим, что ~Г 1 = (~81+~,,1)- 1 и определим матричный фильтр Н1 : (13) Тогда (14) Действительно, ~1 1 = ~;;°;1 ~ni ~l l = ~;;°;1 [~;-~sJ ~i-l = = ~;/[1-~si ~Г1] = ~;;/-~;;?~si ~Г 1 = ~;;/-~;;-/ Н;, 1 ) Здесь мы предполагаем, что все параметры известны. 157
Подставляя (14) в (11), получаем х1 ~;- 1х=х1~,:;/х-х1~,:;/Н;х, (15) t~_1 t~-1 mt~-1н m1,..;f Х=mt""nl Х- i "nl iХ, Используя (10) и определение Н 1 , сформулируем правило (2) в следующем виде: принимаем решение <ila, если Са = max {с1 }f=- 1 , i где с1 для каждой категории вычисляется согласно рис. 3.3 . На ри­ сунке операции, определяемые означают с= at Ь и сложение скалярных величин. Фильтр, показанный ниже, осущест­ вляет операцию Ь = Аа. 1/ " )о ь )оо По-видимому, представление с помощью фильтров (рис. 3.3) не вызывает больших затруднений, когда используется цифровая техника. Вычисление квадратичной формы (рис. 3.4) достаточно просто в технической реализации. Квадратичная форма (x-mдt ~ - 1 (x-m1) =(x-m)t А (x-m;) = LL = ~ ~ (xk -mlk)(x1-mu) ah1 k=I j=I легко вычисляется с помощью специализированного вычислитель-. ного устройства. Наиболее трудоемкая в смысле затраты времени операция состоит в вычислении обратной ковариационной матрицы А= ~-1_ 158
Фильтр Фильтр Hi z;I -mi Фильтр Фильтр Hi Е-~Пl +;с Е-;/2 +.х Eii Рнс. 3.3. Алгорптм принятия решения для нормальных распрсделеннй, реали­ зуемый с помощью фильтров Когда ~si = О (фиксированный сигнал), .l:п; = 1 (белый шум), ci = x1m;, т. е. получаем классический согласованный фильтр. Пример. Рассмотрим пример из теории связи 1). Пусть Х=П: W1, x=n+s: w2 Cov [х I w1]= Kn=cr; 1, Cov [х /w2] = Кs+Кn­ Тогда Если ТО (16) ( 17) 1 ) Категория wi соответствует только шуму, категория w2 - сигналу и 111уму. Распределение s является нормаль11ым с нулевым средним. 159
Используя (17), поJ1учаем 1-Н А =--1 2 (J~ -Н ЛА=--, cr2 п Таким обраsом, Если то 8ЫtfUt'дlJH!iC -(.x -miJEj1(.x -miJ -х1 Нх w, d(x)=---> Ь' а2<• n W2 Рис. 3.4. Квадратичный алго­ ритм принятия решения для нормальных распределений Теперь, если Ks = а~ 1, то 3.4.3 . Качество правила выбора решения для нормальных распределений, М = 2 1. ~ 1= ~ 2 . Вновь рассматривая случай двух категорий ( = 2), перепишем (4) в виде w,1 (ш2---m1)1 Ах: 2 (m~ Am2 --mi Am1 + Ь) = Ь", Wt !60
rде мы положили А= ~- 1, а Ь определено в (5). Определим Лm=m2- m1, (22) Тогда правило выбора решения имеет вид оо, d(х)=ЛmtАх~ Ь". (23) оо, Так как:d (х) - результат линейных операций надх, то это нормаль­ ная случайная величина со средним и дисперсией, зависящих от того, какая категория (ffi 1 или ffi 2 ) имеет место (рис. 3.5). Заметим, что Е [d (x)/ffi1] = Лm 1 АЕ [xlffi1] = Лm1Am;, (24) Var [d (x)/ffiil = E{[Лmt А (х - m;)] 2} = - Е{[Лm1А (х - m1)] [(х- m1)1А Лm} = Лm1 A:l;iAЛm = = Лmt АЛm. (25) Пусть 'р (е), р(е I ffii} и p(effi 2) обозначают соответственно полную вероятность ощибки, вероятности ошибки, когда имеется ffi1 и ког­ да имеется ffi 2 . Чтобы вычислить p(e/ffii), определим С-= b"-E[d(x)/ooi] ' 1/Var [d (х) / OOi] Тогда Ь" p(e/ffi1)= s I ехр(--1 {~ - E[d(x)/001]}2)d~= 1/2л Var [d (х) 1001] 2 Var [ d(x) 1001) -оо = erf* (с1); (26а) 00 р10)2 (е) =S 1 Х Ь" 1/2л Var [d(x) 1 00 2] х ехр (-- 1 {;-Е [d (х) 1002]} 2 ) d~ = erfc,. (с2), (26б) 2 Var [d (х) 1002] rде и erf* (у)= S- 1 - ехр (-- 1 ~ 2 ) d~; У2л 2 -оо 00 erf~ (У)= s- 1 - ехр (-. .!_ ~ 2) d~, 1/2л 2 и являются табулированными функциями, свяаанными соотношением erf * (-у) = erf с:11 (у). 161
Вероятность ошибки р (е) = P1 p(elffi1 ) + P1 p(elffi2 ):;:;: Р1 erf* (с1)+Р1 erfc* (с1). (27) Когда Р1 = Р 2 = 1/ 2 , полезно определить нормированное (Var [d (x}lffi1] = Var [d(x)Jffi 2]) расстояние между средними r= f[d(Ж)/ Е[d(х)1001]-Е[d (х) 1002] _ Лm1 Am1 -Лm1 Am2 1/Var [d (х) / 001] - VлmtА Лm =(Лmt AЛm)1l2. (28) Рис. 3.5. Функция плот• ности вероятности d(xlooi) Изэтогоследует,что- с1= r/2= с2и р (е) =+ erf* (-+) ++ erfc* ( f) =erfc*(Т) · (29) Таким образом, качество правила выбора решения для двух ка­ тегорий и нормальных распределений с равными ковариационными матрицами полностью определяется квадратичной формой Лmt АЛm и Ь". Ортогона.чьное преобразование. Если у = Вх, то ~и~ Е[(у - Е[у]) (у - E[y])f]=Е[В(х - Е[х])(х-Е[х])1Bt]= = В~хBtдD. Если В - ортогональная матрица, столбцы которой собственные векторы ~х, то где Л~, л.2 , ••• , л.L - собственные числа ~х. Тогда для двух катего­ рийпри1:1 = ~~ = ~х. Лm = в- 1E[y[ffi2] - в-1E[y[ffi1] = в-1 [μ2 - μ 1] = в-1Лm', 162
(30) Заметим, что (30) по форме идентично d (х) для случая, когда ~ - диагональная ковариационная матрица; в таком случае LЛт d(x)= ~ -;f- . (31) J=I J ЕслиЛтi=Лтиoj=о2,то ,2 = L дт21а2. Это демонстрирует основной результат-расхождение между ка­ тегориями растет линейно с увеличением размерности, если отноше­ ние сигнал/помеха одно и то же для каждой компоненты. На практи­ ке, однако, исследователи наблюдали, что увеличение размерности может «снижать качество». Необходимо подчеркнуть, что приведен­ ные результаты предполагают, что параметры (среднее и дисперсия) известны; если они неизвестны, то они могут быть «мешающими». Таким образом, мыдолжны быть уверены в том, что при увеличении числа параметров производится точное оценивание, так как раз­ мерность увеличивается. 2. Равные векторы средних. Если m1 = m2 = m, но ~ 1 ==/= ~2, то определим ЛА Л ~ 2 1 - ~ 11 , у :::::; (х - m). Тогда из. урав­ нения (9) следует, что u>, d(У)=ytЛАу~ Ь'. u>, Качество можно вычислить~при определенных условиях для ~ 1 и~ 2, приводящих кd (у), которое имеет Г-распределение (см. задачу 17). 3. Пример вычисления характеристики решающего правила. Если М=2;Р1=Р2=112;ЛтiЛЛт; ~i = 021, (m21+т11)/2=хвдлявсехj, то или [IL Лт ] LЛтхв u>, d(x)= -х1--->Ь u2 о2< i=1 u>1 163
и r2 = LЛm 9/at. Таким образом, вероятность ошибки равна erfc*(VLЛm/(2 а)). Противоположные векторы средних. Предположим, что m1 = = mиm~ = - m, :1:1 = :1: 2 = а21 и средняя энергия сигнала L Е=~т} = m1m. Тогда i=1 ,2 == Таким образом, Р [е] = erf с* (VE!a). (32) Ортогональные сигналы. Если m2 и m1 ортогональны, то m~m 1 = - О. Предполагая, что ~1 = :1:2 = а21, Е = m1 2 m! = m;_m1, получаем Таким образом, 3.4.4. Правило выбора решения, когда каждая категория соответствует смеси нормальных распределений Предположим, что М; f (х Ii) = ~ f(x ImiJ, :1:u) Ри)· /=1 (33) Тогда правило, минимизирующее вероятность ошибки, имеет вид: принимаем решение о принадлежности к категории юа, если = max 1 ~ ___Р--"1-=-1--- ехр [-- 1 - (х- mii) 1 :1:ij1 х i /~1 / '!.aj 11 /2 (2л)L/2 2 Х (x-mu)]jм . {=1 Если правило реализуется с помощью фильтров, то для каждой i-й 164
kатегории требуется М i систем, каждая из которых показана на рис. 3.3 . Если правило реализуется с помощью вычисления квадратичных форм, то для i-й категории требуется М i систем, вид каждой из ко­ торых показан на рис. 3.4 . Если М t и параметры, характеризующие М 1 квадратичных форм, неизвестны,то их следует определить на основе выборок с плотностью распределения f (xli), используя методы оценивания при самообу­ чении. Для осуществления этой операции наиболее практичными являются методы кластерного анализа. Задачи 1. Пусть М = 2, L = 1 и Л: - семейство нормальных плотностей ве­ роятности; матрица потерь определена. а. Постройте области [/) 1 и [/) 2 для правила выбора решения, миними- зирующего риск (уравнение (12) п. 3.2 .3), используя оценки т1, <11, pi и т 2 ,а2 , Р2 для параметров !-го и 2-го классов соответственно. б. Пусть т~, ar, Р~ и т;, о;, Р; - истинные значения параметррв. Получите выражение для риска R (i\, т1, т2, а1, а2; Pi mi, т;, ai, а;), введенного в п. 3.2 .3. в. Установите, что R {Р1 , ';;;1, /71⁄2, &';., (1⁄2; Pi, тi, т;, ai, а 2 ) > > R(P~, mi, т;, <1i, а;; Р;, mi, m2 , ai, а;). 2 а. Для примера, рассмотренного в задаче 1, постройте области [/) 1 и [/) 2, сначала используя оценки параметров ь = (m1, <11, 7\, т2, <12, 7\) и истин­ ные значения параметров Ь* = (т~. ai, Pi, т;, а;, Р;). б. Используя Ь и Ь* в правиле выбора решения, вычислите риски R_(b, Ь*) и R (Ь*, Ь*). в. Покажите, что R(Ь, Ь*) > R (Ь*, Ь*). 3. Для областей [/) 1 и [/) 2, построенных с помощью оценок параметров Ь, прирост в риске R (Ь, Ь*) - R (Ь*, Ь*) по сравнению с областями, исполь­ зующими истинные значения параметров, должен быть функцией размер­ ности L и числа параметров в Ь*. Обсудите опасность использования пло­ хих априорных предположений оЬ, когда число параметров и размерность L увеличиваются. 4. а. Покажите, что (!) (2) мм ~~ (3) 1,=1i,=1 б. Убедитесь в том, что уравнение (6) в п. 3.3.2 можно существенно уп­ ростить. Представление (3) имеет преимущество,'; когда J dJvlv (x(v))dx< 11 >, х скажем, равно нулю для некоторых' значений (j 11 , i 11 , xv). 165
5. Покажите, что, поскольку А D I (x.(V) i Xn) - ~б+n - измеримая неот- 1:1-= l 11 рицательная функция на з;-«Нп, для получения (9) и (10) из (8) в п. 3.3.2 мож­ но применить теорему Фубини [29, с. 136]. 6. Покажите, что 7. Проверьте уравнение (15) для о-го центрального моментаμ~, получен­ ного в п. 3.3.3. 8. Запишите на языке ФОРТРАН IV вычислительную программу, реа­ лизующую правило, минимизирующее вероятность ошибки, для нормаль­ ных распределений и для случая, когда все параметры {Р 1 , ~; . m1}~ 1 из­ вестны (уравнение ( 1) п. 3.4 .1 ): принимаем решение о принадлежности к ООа, если 9. Запишите на языке ФOPTPAH-IV вычислительную программу, реали­ зующую приведенное выше правило для нормальных распределений, когда м=2,~1=~2= ~: ( m+m)(J)• 2(m-m)t~- 1х- 1 2 >Ь 2 1 \ 2 <, (J), где Ь=ln [Pi/{l - Р1)]. 10. а. Запишите на языке ФOPTPAH-IV вычислительную программу, реализующую правило kNN 3 для случая, когда Ф1 = Ф2 , а {k;, n;, P 1}f!: 1 произвольны. Используйте при определении окрестности расстояние d;(х,у)=11х- у11дляi-roкласса,i=1,2, ..., М. б. Предположите, что d; (х, у) = (У - х) 1 ~ 1 1 (у-х) для соответствую­ щим образом определенной ковариационной матрицы ~i «в точке х». Можете ли вы предложить метод оценивания ~i и использования dt (х, у) в указанном правиле kNN 3? 11. Пусть наблюдается п выборок х1, х2 , ... , Xn с {x~}i~ 1 из i-ro класса, i= 1,2, ..., М. Тогда при заданн~х М областях Dj(х,Хп),j= 1,2, ..., М, и оценке функции распределения F (х / ooi), i = 1, 2, ... , М, риск для такой обучающей последовательности имеет вид м м ~ Р; ~ L1; \ Dj(X, Xn)dF(x/ 00;). i=I /=1 ,qJ 166
а. Покажите, что указанный выше риск можно оценить следующим образом: б. Риск п. а определен для конкретной обучающей последовательности и правила, порождеииого областями {Dj (х, Xn)}f!,. 1• Обсудите, почему можно изменить это правило с помощью выбора правила, дающего меньший риск вп.а. 12. Обсудите, почему qj • ( <1> x<6>)- 1,..,, J6х ,..., - 6 = Sп П [D1v (x(V); Xn)] dF (xn) fiC V=I безусловна относительно обучающих выборок Xn, 13.а. Используя выражение для математического ожидания риска μА, мм покажите, что оно равно~ Р; ~ L1;p (принимаем решение о принадлежности i=I /=1 к категории j; в действительности имеет местоiкатегория i) и ие зависит от об- учающей последовательности Xn и правила выбора решения. б. Предположим, что S D1 (х, Xn) dF (xn) -+ р (относим х к категории j) 9:n ~dj(X), Покажите, что м м μ.}.,=~Р; ~Lj; Jd1 (x)'l'J;(x)dx, t=I /=1 /!С где 'l'];(x)=P;fi(x)/ f P1f1(x). /=1 в. Предположим, что L1; = l - б1; и d { 1, 1')1 (x)=max{'l'J;(x)}~ ., 1 (х)= 1 О в остальных случаях. Покажите, что м μ""'= ~ P;'l '];(x), 1=1 i,f=/ где выборка х классифицируется к категории j. 14. Укажите условия, при которых б.Sf(z)dzSg(у)dy=Jff(z)g(у)dzdy. 167
15. Покажите, что, хотя р (ooi I Хп, Ь) = Р; не истинно, всегда верно, что р (tcr I Хп, с) = Р (tc 7 ), Когда истинно предыдущее? 16. Покажите, что р (tcr/Xn) = Е [р (tc; 1Xn)J. 17. Вероятность ошибки при использовании правила выбора решения, когда рассматриваются два класса L-мерных нормальных распределений с равными векторами средних, вычисляется без труда, если оба класса имеют скалярные ковариационные матрицы., Например, пусть ~ 1 = af I и ~ 2 = = afl. 001 а. Покажите, что правило можно зав псать в виде d (у 1 00;) = yt у "= Ь 111 оо, и выразите Ь111 через Р1 , Рз, а}, и а~. d (у/ w;) имеет вид б. Покажите, что функция плотности вероятности f,(djоо;) dL/2-1 ехр (--d/2al) 2L/2 <11L Г (L/2) в. Пак ажите, что для f (d/oo;) является экспоненциальной функцией плот­ ности вера ятности L = 2, и найдите вероятность ошибки. г. Найдите вероятность ошибки для любого L, выразив ее через непол­ ную гамма-функцию: иvм+1 м fг(и,М)= S t, ехр(-~)d;, о которая табулирована [30]. СПИСОК ЛИТЕРАТУРЫ 1. Wilks S. S . Mathematical Statistics. John Wiley апd Soпs., Iпс., New York, 1963. Уилкс С. С. Математическая статистика: Пер. с англJПод ред. Ю. В. Линника. - М.: Наука, 1967. 2. Helstrom С. W. Statistical Theory of Sigпal Detection. Vol. 9, 2nd ed., Pergamon Press, Oxford, 1968, р. 470. Хелстром К. Статистическая теория обнаружения сигналов: Пер. с англ./ Под ред. Ю. Б. Кобзарева. - М.: ИЛ, 1963. 3. Hancock J. С. and Wintz Р. А. Signal Detectioп Theory McGraw-Hill Book Company, Inc., New York, р. 247, 1966. 4. Nlllsson N. J . Learning Machiпes, McGraw-Hill Book Company, Iпс., New York, 1965. Нильсои Н. Д. Обучающиеся машины: Пер. с англ./Под ред. Э. М. Бра­ вермана. - М.: Мир, 1967. 5. Llonel Weiss. Statistical Decision Theory, McGraw-Hill Book Company, lnc., New York, 1961. 6. Van Trees Н. L. Detection, Estimation апd Modulation Theory, John Wi- ley and Sons, Inc., New York, 1968. Ван Трис Г. Теория обнаружения, оценок и модуляции: Пер. с aнrJ1./ Под ред. В. И. Тихонова. - М.: Сов. радио, 1972. 7. Wozencraft J. М. and Jacobs 1. М. Principles of Communication Engine- ering, J ohn Wiley and Sons, Iпс., Ne\V York, 1965. Возенкрафт Дж. М. и Джекобс И. Теоретические основы техники связи: Пер. с англ./Под ред. Р. Л. Добрушина. - М.: Мир, 1969. 8. RosenЫatt F. Principles of Neurodyпaшics: Perceptons апd the Theory of Brain Mechanism, Spartan Books, Washiпgton, D. С. 1962. 9. SeЬestyen G. S. Decision Making Processes in Pattern R.ecognition, Thr: Macmillan Сатрапу, New York, 1962. 168
Себестиан t. С. Лроцессы принятия решений при распознавании образов: Пер. с англ./Под ред. В. И. Иваненко. - Киев: Техника, 1965. 10. l(ullback S. Information Theory апd Statistics, J ohn Wiley and Sons, Inc., New York, 1959. l(уяьбак С. Теория информации и статистика: Пер. с англ./Под ред. А. Н. Колмогорова. - М.: Наука, 1967. 11. Thomas J. В. Ап Introduction to Statistical Commuпication Theory, John Wiley and Soпs, Iпс., New York, 1969. 12. Raemer Н. R. Statistical Commuпication Theory апd Application, Pren- tice-Hall, Iпс, Englewood Ciiffs., N. J,, 1969. 13. l(ailath Т. А General Likelihood-Ratio Formula for Random Signals in Gaussian Noise, IEEE Traпs. Iпforination Theory, vol. IТ-15, р, 350- 361, Мау 1960. 14. l(ailath Т. Likelihood Ratios for Gaussiaп Processes, IEEE Trans. In- formation Theory, vol. IT -16, р. 276-288, Мау, 1970. 15. Cover т. М. and Hart Р. Е. Nearest Neighbor Pattern Classification, IEEE Trans, Iпformation Theory, vol. IT-13, No 1, р. 21-27, Jan. 1967. 16. Cover Т. М. Estimation Ьу the Nearest Neighbor Rule, IEEE Trans. In- formation Т11еоrу, vol. IT -14, No 1, р. 50-55, 1968. 17. Hart р, Е. The Coпdensed Nearest Neighbor Rule, IEEE Trans. Informa- tion Theory, vol. IТ-14, р. 515-516, Мау 1968. 18. Patrick Е. А. and Fischer F, Р. 11 А Generalization of the k Nearest Neigl1- bor Decision Rule, presented at the 1969 Iпternatioпal J oiпt Conference on Artificial Intel\igence, Мау, 1969. 19. Patrick Е. А. and Fischer F. Р. А Geпeralized k-Nearest Neighbor Decision Rule, Information and Control, vol. 16, No 2, р. 128-152. Apr. 1970. 20. Nagy G. State of the Art in Pattern Recogп itioп, Proc. IEEE, vol. 56, No 5, р. 836-862, Мау 1968. 21. Но У. С. and Agrawala А. К- On Pattern Classification Algorithms- Introduction and Survey, Proc. IEEE, vol. 56, No 12, р. 2101-2114, Dec. 1968. 22. Cooper D. В. and Cooper Р, W. Nonsupervised Adaptive Signal Detection and Pattern Recognition, Information and Control, vol. 7, No 3, р.416- 444, Sept. 1964. 23. Patrick Е. А. and Carayannopoulos G. Codes for Unsupervised Learning of Source and Binary Cl1annel ProbaЬilities, Information and Control, vol 14, No 4, р. 358-375, April 1969. 24. Patrick Е. А. and Costello J. Р. Asymptotic ProbaЬility of Error Using Two Decision Directed Estimator for Two Unknown Mean Vectors, IEEE Trans. Information Theory, vol. IТ-14, No 1, р. 160-162, Jan-1968. 25. Patrick Е. А. Distribution Free, Minimum Conditional Risk Learning Sys- tems, Purdue University School of Electrical Engineering Tech. Rept. ЕЕ 68-18, Nov. 1966, 26. Flx Е. and Hodges J. L . Jr. Discriminatory Analysis: Nonparametric Dis• crimination: Consistency Properties, USAF School of Aviation Medicine, Project 21-49-004, Rept, 4, Randolph Field, Texas, Feb. 1951. 27. Cover Т. М. Rates of Convergence for Nearest Neig!Jbor Procedures, First Annual Internatioпa\ Confereпce on System Sciences, В. К- Юnariwala,ed., Universitv of Hawaii Press, Hoпolulu, Hawaii, J an. 1968. 28. Peterson i>. W . Some Convergence Properties of а Nearest Neighbor Deci- sion Rule, IEEE Tra11s. Iпformation Theory, vol. IТ-16, No 1, р.26-31, 1970. 29. McShane Е. S. and Botts Т. А. Real Analysis, Van Nostrand Reinhold, New York, 1956. 30. Pearson К- ТаЬ!еs of the Iнcomplete Г-Futiёtion, Cambridge University *Press, Cambridge, 1934. 31. Левин Б. Р. Теоретические основы статистической радиотехники. М.: Сов. радио, 1974. книга вторая, 2-е издание. 169
ГЛАВА 4 ОЦЕННВАННЕ ПО КЛАССНФНЦНРОВАННЫМ Нд&ЛЮДЕННЯМ 4.1. Введение Исследование правил выбора решения, проведенное в гл. 3, показывает, что с точки зрения реализации этих правил важной является задача оценивания плотности. Существенным является также и то, что любое правило выбора решения полностью опре­ деляется вводимым им разбиением выборочного пространства /!Б* = V'1 L· Поэтому вполне естественным можно считать подход, сво­ дящийся к прямому оцениванию границ этого разбиения однако, при таком подходе приходится сталкиваться со значительными труд­ ностями. При чтении данной главы для читателя могут оказаться полез­ ными сведения об обучающихся машинах, изложенные в работе [I]. Более сложный подход рассмотрен в [2), где разбиение выбороч­ ного пространства подбиралось таким образом, чтобы максимизи­ ровать критерий, определяющий качество правила. Даже когда объем памяти фиксирован, этот подход все же оказывается сложным, особенно для многомерных задач, в которых размерность L ;;:=:: 2. И хотя к настоящему времени имеются незначительные сведения о качестве получаемых при этом правил, представляется, что эффек­ тивность подобных подходов, основанных на прямом оценивании границ правил, ниже эффективности процедур, использующих ло­ кальное оценивание плотности (на основе соответствующей меры ~асстояния). Другой подход к решению этой же задачи был предло­ жен в работе [3]. Существуют правила выбора решения, которые, как может по­ казаться, не содержат операцию оценивания плотности; к ним от­ носится правило ближайшего соседа. Однако эти правила принад­ лежат к классу правил выбора решения, использующих локальное оценивание плотности. Если правило синтезируется для М категорий, а высорки из соответствующих категорий не классифицированы и к тому же при каждой категории возможны полимодальные плотности, то задача оценивания плотности, соответствующей каждой категории, может 170
оказаться чрезмерно сложной. В данной главе рассматривается проблема оценивания функции плотности для категории, для ко­ торой имеется классифицированная обучающая выборка1>. Даже при наличии классифицированных выборок каждой категории для оценивания соответствующих плотностей необходимы методы оценивания при неклассифицированных наблюдениях (например, методы кластерного анализа), если только соответствующие разным категориям плотности являются полимодальными. Если бы положение мод распределений разных категорий можно было определить, то эти моды мы представили бы с помощью плотностей из соответствующим образом выбранного семейства. Так, если это семейство нормальных плотностей, следует оценить вектор средних и ковариационную матрицу, характеризующие каждую моду. Оцененная ковариационая матрица может служить основой для введения меры расстояния при локальном измерении расстояния в процессе вынесения решения. Альтернативный подход состоит в том, чтобы измерять локальную плотность, вводя толерантные об­ ласти2>; он приводит к обобщенному правилу k ближайшего соседа, обсуждаемому в этой главе. К сожалению, может оказаться, что требуемая форма толерантной области будет изменяться на выбороч­ ном пространстве или даже будет разной для каждого возможного значения наблюдаемого вектора. Поэтому невозможно будет оце­ нить идеальную форму толерантной области в каждой точке про­ странства наблюдений. Таким образом, приходится вновь использовать подход, осно­ ванный на определении положений мод распределений категорий и на подборе для каждой моды плотности из заранее выделенного семейства. Кластерный анализ, используемый при неклассифици­ рованных наблюдениях, можно рассматривать как один из прак­ тических способов выделения этих мод и, возможно, даже опре­ деления вектора средних и ковариационной матрицы, характе­ ризующих каждую моду. Другим полезным свойством кластерного анализа является значительное снижение размерности, поскольку нет необходимости хранить в памяти всю получаемую выборку. По мнению автора, хорошие результаты с точки зрения оцени­ вания и вынесения решения может дать оценивание плотности по положению ее мод с помощью кластерного анализа. Существуют, однако, задачи распознавания образов, в которых простота правил k ближайших соседей имеет решающее значение. Поэтому в данной главе изложена также большая часть недавно полученных резуль- татов относительно правил k ближайших соседей. . Задачи оценивания распределений F (х\юi), i = 1, 2, ... , М, по классифицированным обучающим выборкам иэ каждого класса нужно рассматривать преимущественно при следующих условиях. 1 ) Выборка, полученная при обучении с учителем. (Прим. ред.) 2) Толерантные области определены в гл. 2. 171
1. Функции распределения F (xlro 1), i = l, 2, ... , М, известны. Это предположение является исходным в гл. 3 при построении пра­ вил выбора решения, обеспечивающих минимальное значение сред­ него риска. 2. Известно, что распределения F (x\ffi;), i = 1, 2, ... , М, при­ надлежат параметрическому семейству :f, причем i-e распределение полностью определяется векторным параметром Ь1 i = 1, 2, ... , М; значения этих векторов неизвестны и должны оцениваться. Задача оценивания векторнЬiх параметров как при классифицированнЬiх, так и при неклассифицированных наблюдениях рассматривалась в гл. 2; более детальный ее анализ при неклассифицированных на­ блюдениях проведен в гл. 5. 3. Сведения о распределениях F (x\u);) отсутствуют или известны лишь некоторь1е свойства этих распределений, такие как непрерыв­ ность или симметрия, указывающие на принадлежность этих распре­ делений к непараметрическому классу. Для этого случая строятся правила k ближайших соседей. • Случай 1 рассмотрен в гл. 3. О случае 2 можно сказать следующее. В [4] показано, что условная вероятность ошибки при фиксированной выборке х~ для задачи с классифицированными наблюдениями ока­ зывается минимальной, если вычисляются апостериорнЬiе вероят­ ности f(Ь;\х:п),i= l,2, ..., М, (1) которые затем используются для вычисления плотности f (x\i, хп) = ff (xli, Ь;)f(Ь;\хп) db; Л (f (х\i))п. (2) Этот случай является параметрическим, поскольку предпола­ гается известной функциональная форма плотностей f (x\i, Ь 1 ), в которой неизвестным остается лишь значение параметра Ь;. Этот подход был использован в [5, 6], когда :f являлось семейством нор­ мальнЬiх распределений. В качестве субоптимального можно рас­ сматривать подход, при котором по обучающим выборкам вычис­ ляются оценки ьr неизвестных параметров и подставляются в (1). Дискриминантная функция Фишера [7] служит хорошим примером использования такого подхода при нормальных распределениях. р В [8] показано, что если (Ьдп - . Ь1 , то риск при использовании пра­ вила, полученного подстановкой (f (xli, (Ь 1 ))п вместо f (x;\i, Ь 1 ,), оказывается случайной величиной, которая -сходится по вероят­ ности к риску для оптимального правила. Случай 3 представляется наиболее трудным, поскольку даже при непараметрическом подходе должна использоваться априорная информация. Процедуры построения байесовских правил выбора решений, основанные на использовании оценок плотностей f (x\i), получаемых по обучающим выборкам, названы позднее «эмпири­ ческимд байесовскими процедурами» [37]. Возможно, эмпирические байесовские процедуры уместны для рассматриваемого случая 3. 172
Один из разумных подходов к задаче непараметрического оценива­ ния плотности состоит в предположении, что оцениваемая плотность :может быть хорошо аппроксимирована линейной комбинацией функ­ ций из некоторого семейства if. При этом можно считать, что все функции этого семейства полностью известны и необходимо только выбрать такое подмножество из этого семейства, чтобы аппрокси­ мuция получалась достаточно точной. Однако задачу аппрокси­ мации можно свести также и к оцениванию параметров, определяю­ щах функции семейства. Возможен и третий подход-разделение выборочного пространства на толерантные области. 4.2. Введение в непараметрическое оценивание плотности В простейшем случае плотность h (х) оценивается с применением единственной плотности из семейства if. Например (см. гл. 2), в [5] вводилось предположение, что h (х) = N (xlm, :1":), и задача оце­ нивания плотности сводилась к оцениванию вектора средних m. Затем в [6] оценивались и вектор средних m, и ковариационная мат­ рица :1":. В гл. 2 также уже указывалось, что в [9] в аналогичной задаче использовано множество полных ортонормальных базисных функций {{ФJ1 (х)} }, которые предполагались полностью извест­ ными априори. В [ 10] для этих же целей применено множество ортонормальных базисных функций, таких, что пространство, натя­ нутое на них, не обязательно является полным, но содержит оце­ ниваемую плотность h (х); здесь также предполагалось, что базис­ ные функции выбираются априори. Аналогичное предположение вводилось в [ 11], но при этом требовалось, чтобы выбираемая си­ стема базисных функций была линейно независимой. Построение гистограмм фактически также предполагает использование базис­ ных функций, выбираемых априори. Подходящим с точки зрения многих задач теории распознавания образов представляется следующий подход. Предположим, что м h(х)=~Р;f(хIi,Ь;), (1) 1=1 где функции f (xli, Ь;) принадлежат, например, семейству нормаль­ ных шютностей вероятности 1>, а {Р 1 , Ь;,}{'!:1 и М следует рассмат­ ривать как параметры, значения которых подлежат оценке. Прак­ тические методы оценивания этих параметров при большой размер­ ности L основываются на методах кластерного анализа (см. гл. 5). Кластерный анализ позволяет заменить п выборок оцененными параметрами {(Р 1)n, (b;)n }f= 1- Может показаться, что если nL 1) Нетрудно привести примеры, в которых kNN 3 -правило, применяемое при фиксированных наблюдениях, может быть получено этим способом при использовании квадрати111ной: меры расстояния. Этот факт ук11зывает на на­ личие и других возможностей:, кроме описываемых здесь. 173
меньше, чем общее число используемых параметров, то лучше при­ менять другой подход, основанный на сохранении выборок. Это было бы действительно так, однако слишком малое значение п, пожалуй, нельзя принять, поскольку при этом качество основной процедуры оказь1вается низким. Альтернативой здесь дЛя априор­ ного знания о локальных сгущенщ1х (кластерах) является, воз­ можно, использование знания сущности рассматриваемой задачи. Важность такого взаимодействия не может быть переоценена! В последующих параграфах рассматриваются правила выбора решений, которые часто называются правилами k ближайших со­ седей. Чтобы пояснить связь этих правил с только что обсужден­ ными проблемами, рассмотрим задачу оценивания функции f (xli): 1 k; . ' хЕ'!};, (f(x[i))71 .= (n1+I)Ф; 1 О в противном случае, (2) где Ф; - объем области ?ti, которая содержит k 1 выборок, расстоя­ ние в ней измеряется на основе соответствующим образом введенной меры расстояния d (х, у). 4.3 . Правила выбора решения, основанные на локальных оценках плотности 4.3 .1. kNN 1-правило; правило k первых ближайших соседей 1> В 1951 г. в работе [8] было описано правило выбора решения для различения двух категорий. Оно основывалось на непараметричес­ ком оценивании плотности вероятности. Примененную процедуру оценивания можно обосновать с помощью общепринятого в настоя" щее время рассуждения: для· оценивания плотности в точке х исполь­ зуют выборки, которые попадают в малую окрестность около значе­ ния вектора х. В [8] сформулировано следующее утверждение, если плотность f (х) непрерывна в точке х и последовательность областей {'!fs};= 1 - с объемами {Ф8 }:= 1 такая, что 1. lim sup llx-yll=O; n ➔ oo YE:;,n 2.Iim nФп=оо. n➔00 3. Число k статистически независимых выборок х1 , х2 , ... , Xn из распределения с плотностью f (х), попадающих в область 'lfп, таково, чтоеслиk~ооприп~оо,то 1 ) Обозначение NN от первых букв английских слов: «Nearest NеighЬоr»­ ближайший сосед. Остальные индексы в обозначениях рассматриваемых пра• вил понятий (Прим. ред.) 174
kР (f(х))п=- -+f(х). пФп (1) Таким образом, если последовательность {:Ys }:= 1 стягивается к точке х достаточно медленно, так что среднее число выборок, попадающих в 'lfп, неограниченно возрастает при n-+ оо, то пред­ полагаемая оценка плотности оказывается состоятельной. Следует иметь в виду, что ас, мптотически (при n-+ оо) хорошие оценки могут оказаться мало полезными для приложений, посколь­ ку число наблюдений всегда ограничено. Поэтому важно уже для малых объемов выборок иметь области {'!fs}i=1, хорошо согласую­ щиеся с локальными свойствами плотности. С практической точки зрения нет необходимости стараться достичь согласования с конкрет­ ной плотностью в каждой точке х, как это может показаться читате­ J1Ю на первый взгляд. Скорее, более важным является согласование в локальных областях конечного размера, что приводит к необходи­ мости применения кластерного анализа для получения таких об­ ластей. Начиная с результата (1), дальнейшие теоретические исследо­ вания проводились в трех направлениях. Одно из них развито в [38], где найдены среднее значение и дисперсия приведенной выше оцен- ки (f (х))п для последовательностей {Y-s}i= 1 вида 1п={y:\ly-xll~hп}, lim hп=О. (2) n-+ оо В [ 12] и позднее Парзеном в [ 13] метод локального оценивания плотности был обобщен заменой области '!fп весовой функцией Кп(у,х).ПриКп(у,х)=1дляIу- xl~hпиКп(у,х)=О в остальных точках такие оценки совпадают с оценками, предложен­ ными в [38]. В общем случае функция Кп (у, х) может иметь любые неотрицательные значения, которые подбираются так, чтобы полу­ чить более -сглаженную оценку плотности. Значение локальной оценки в точке х при этом можно получить, если ввести более общие определения объема Фп и числа k с помощью следующих соотно­ шений: Фп=5Кп(х,у)dy, k=п~ Кп(х,УНп(у)dy, (3) flJ* 9)* где fп (х) - эмпирическая функция плотности, построенная по n наблюдениям. Таким образом, п k=~Кп(Х,Х 8) s=I и, следовательно, п ~ Кп(Х, х,) (j(х))п= _k _= __ s~_1__ _ nФп nФп (4) (5) 175
В [14] указаны наилучшие весовые функции (ядра) Кп (х, у), при которых для некоторых частных видов !Тлотностей f (х) инте­ гральная среднеквадратическая ошибка оказывается минимальной. В [ 15] оценки Парзена обобщены на многомерный случай. Наконец, в [ 16] показано, что при использовании оценок (5) в эмпирических байесовских правилах выбора решений средний риск по вероят­ ности сходится к байесовскому. В [ 17] в рамках эмпирического байесовскоrо подхода для решения прикладных задач применялись оценки, подобные оценкам Парзе­ на. Тщательный теоретический анализ качества этих оценок не проводился. Здесь применялись, скорее, инженерные методы выбора локальных областей, характеризующихся параметрами положения и рассеяния. Каждой из этих локальных областей была приписана весовая функция парзеновского типа. Впоследствии в [ 18] был развит красивый подход1>, основан­ ный на сочетании понятий кластерного анализа, весовых функций и ближайшего соседа. Выборочное пространство разбивается с по­ мощью кластерного анализа; при этом каждый кластер распола­ гается около соответствующей кластерной точки. На областях выбо­ рочного пространства, расположенных сравнительно близко с клас­ терной точкой, строятся оценки плотности парзеновскоrо типа. Вы­ борки х, не попавшие в кластеры, относятся к классам их ближай­ ших кластерных точек.Чтобы учесть локальные условия, расстояния от разных кластерных точек измеряются по-разному. Упомянутая процедура выделения кластеров, определения ло­ кальной меры расстояния и последующего получения оценки плот­ ности является основным предметом исследований в данной книге. В гл. 5 детально анализируются методы оценивания по неклассифи­ цированным наблюдениям (включая методы кластерного анализа). Это, конечно, не означает, что упомянутые вьппе правила k ближай­ ших соседей не. могут оказаться более подходящими в некоторых задачах с точки зрения приложений. Второе направление исследований, отправной точкой которого также является результат (1), основывается на понятии адаптив­ ной гистограммы. Здесь выборочное пространство разбивается на ячейки заранее заданной формы2>. Если число ячеек возрастает с ростом размера выборки, то можно применить оценку плотности (5), в которой в качестве области z!п следует выбрать ячейку, содер­ жащую точку х. Третье направление исследований впервые указано в [8], где отмечено, что объем области zf п должен зависеть не только от раз­ мера выборки п, но и от выборочных значений х1 , х2 , ... , Xn, «близ­ ких» к точке х. Чтобы получить такую зависимость, в этой работе предложено определить область 1f п в форме шара с центром в точке х 1> В [19] предложена более общая схема, в которой плотность f ( х li) представляется смесью нормальных плотностей. 2 ) Имеется много работ, в основу которых положено понятие гистограммы. 176
на основе некоторой произвольной меры расстояния d (х, у), доста­ точно большого, чтобы содержать k выборок из конкретной совокуп­ ности. Для случая М категорий получаем М наборов областей {У18 }:;,, 1, {lf28 }sn~ 1 , •.• , {z f м в} ; ~ 1, области первой группы зависят от n1 выборок категории 1, второй группы-от п" выборок категории 2ит.д., п=п1+п,.+...+пм.В[8]осталсяоткрытымвопрос о состоятельности правил выбора решения, основанных на таких оценкал, поскольку наборы {zj- 18 } оказываются случайными. Много позднее в [20] было дано доказательство состоятельности подобных оценок при некоторых ограничениях. В работе [8] также содержится следующая полезная рекомен­ дация: для задачи с двумя категориями использовать единственную последовательность областей {У-в}:= 1, в качестве элемента d'n ко­ торой следует выбрать наименьший шар с центром в точке х, содержащий k выборочных значений результатов наблюдений х1,х2,..., Хп из обеих категорий. Ниже описывается эта проце­ дура, которая в дальнейшем будет называться первым правилом k ближайших соседей или, более коротко, kNN1 -правилом. kNN1-правило: первое правило k ближайших соседей. 1. Существует единственная последовательность областей {Y's}~= 1, каждая из которых является шаром с центром в точке х. Область ifn содержит k элементов объединенной выборки Х1, х2, ... , Xn, п = n1 + n2; область 'lfп содержит k1 выборочных значенийизi-й категории, i= 1:2, k = k1+k,.. 2. Мера расстояния d (х, у) произвольна 1>, но не зависит от клас­ сификации обучающей выборки. 3. М = 2 и Ф1 = Ф2 = Ф, поскольку выбрана единственная последовательность областей {У,8}:= 1 • 4. Оценка (f(xli)k=_.!!L_Ф, i=l,2, n1 является состоятельной оценкой для f; (х). kNN1-правило имеет вид: наблюдение х относится к классу j, если (f(х/j))пj>(f(х/i))п1, i=I=j, i =1, 2. (6) Это правило можно записать в иной, более общей форме: - kJ >c}!J_, • 12 i=I=j,i= , , (7) п1 n; где с - произвольная постоянная. 5. Если с = L11 Р tf LiJP 1, то правило (6) или (7) можно рассмат­ ривать как оценку байесовского правила, минимизирующего сред­ ний риск (эмпирическое байесовское правило). Такие правила рас­ сматривались в гл. 3. 1) Качество правила зависит от введенной меры расстояния. 177
В работе i21] были приведены результаты исследования свойств правила (7) при малых объемах выборки для частного случая - нормальных распределений. Вероятности ошибок при k = 1 были вычислены с помощью численного интегрирования как для одномер­ ных, так и для двумерных нормальных распределений. Мера рас­ стояния введена с помощью равенства d (х, у) = max lx; - у;!. Качество правила при k > 1 оце~но лишь для больших размеров выборки. Приведенные результаты характеризуют качество правила в среднем, а не для какой-то единственной точки х. 4.3.2 . kNN2-npaв11лo; второе правило k ближайших соседей В работах [22, 23] было предложено правило выбора решения, которое в дальнейшем будем называть вторым правилом k ближай­ ших соседей или коротко kNN 2-правилом. Это правило описывается следующим образом: имеется совокупность п статистически неза­ висимых векторных наблюдений Хн х2 , .. , Xn, о каждом из которых известно, к какой категории оно принадлежит; новый неклассифи­ цированный век1:ор х относится к категории, представленной боль­ шим числом элементов среди k ближайших соседей вектора х. Ос­ новные свойства этого правила: 1) существует единственная последовательность областей {У8}:= 1, каждый элемент которой представляет собой шар с центром в точ­ ке х, lfп содержит k элементов общей выборки х1 , х2 , ... , Xn, м п=~п;; i=1 2) мера расстояния d (х, у) произвольная, не зависящая от обу­ чающей выборки; 3) параметр М может принимать любое значение, а Ф1 = Ф2 = ... = Фм; 4) предполагается, что отношением n;ln можно заменить вероят­ ность Р;. kNN 2-правило: вектор х относится к категории j, если k1>k;,j =I=i,i=1,2, ..., М. (8) Заметим, что kNN 2-правило (8) можно записать в виде (6), если по­ ложить1 ) (f (х !i))n. = kJ(ni Ф), ' но помнить при этом об ограничении Pi = п;/п. Таким образом, kNN 2-правило применимо не только при двух категориях (М = 2), как это имеет место для kNN1-правила. В 1966 г. в [24] со ссылками на более ранние работы по сравне­ нию с [22, 23] рассматривалась возможность применения kNN 2-пpa- 1) В дальнейшем, если это не может привести к недоразумениям, вместо (/ (х I i))п 1 будем использовать обозначение ft (х). 178
вила при «квазиклассифицированных» выборках 1>, здесь предпо­ лагалось, что имеющаяся обучающая выборка содержит векторы, вероятность правильной классификации которых ~ > 1/ 2 (условия анализа, рассмотренные в [22, 23), получаются как частный случай при~ = 1). Хорошо известно, что оценивание параметров на основе обу­ чающих выборок и классификация новых наблюдений взаимосвя­ заны. Желательно при этом попытаться исключить двухшаговую процедуру, содержащую сначала оценивание параметров, опреде­ ляющих плотности вероятности, и последующую подстановку оце­ ненных таким образом плотностей в правило выбора решения (на­ пример, в (6)). В 1968 г. в работе [28) было предложено модифициро­ ванное kNN 2-правило, включающее операцию оценивания парамет­ ров следующим образом: пусть [х1 , а1 ], [х2 , а2], .•. , (xn, an] - по­ следовательность из п двухкомпонентных векторов, в которых а; является вектором параметров, определяющих ту категорию, к ко­ торой принадлежит обучающий вектор xi; все имеющиеся двухком­ понентные векторы запоминаются. Затем новый вектор наблюдений х относится к той категории хранящихся обучающих векторов, век­ тор Ха которой оказался ближайшим к вектору х относительно про­ извольной меры расстояния d (х, Ха) (тем самым осуществляется фактически и оценка параметра аа, соответствующего вектору х). При отсутствии каких-либо априорных сведений в качестве расстоя­ ний d (х, Ха) можно выбрать эвклидово расстояние. Эгот пример иллюстрирует общие черты, присущие как операции оценивания параметров, так и операции выбора решения. Кроме того, он также является хорошей иллюстрацией того, каким обра­ зом такая непараметрическая процедура классификации теряет ка­ чество при отказе от использования априорных сведений. (Решите задачу 3.) Нетрудно привести примеры задач, в которых kNN-правила (непараметрические) обеспечивают низкое качество классификации, в то время как параметрические правила, основанные на оценках пара­ метров, в тех же условиях обладают намного лучшим качеством2>. Тем не менее существуют задачи, в которых kNN-правила имеют явные преимущества при не слишком больших размерах п обучаю­ щих выборок (когда еще не возникают проблемы объема памяти и времени наблюдения) и при данных, не требующих нескольких различных локальных мер расстояния. Например, если каждая категория имеет сферическую симметрию и не перекрывается с дру­ гими категориями, то kNN-правила могут обеспечить нулевую вероятность неправильной классификации. (Решите задачу 4.) 1) При обучении с неидеальным учителем (см. также (42]). (Прим. ред.) 2 ) Качество правил выбора решения типа kNN-правил можно улучшить соответствующим выбором меры расстояния. Так, kNN 3-правило, рассматри­ ваемое в следующем параграфе, допускает введение различных мер расстоя­ ния для каждого класса. Целесообразно меры расстояния вводить параме­ трическим образом. 179
4.3.3. kNN 3-npaвилo; третье правило k ближайших соседей Краткий обзор работ, в которых рассматриваются kNN-правил а1 >, позволяет предположить, что большой интерес именно к указанным kNN1- и kNN 2-правилам частично можно объяснить более тщатель­ ными исследованиями, проведенными Фиксом и Ходжесом для един- п. ственной последовательности областей {Y's}s;,, около точки х. Опи- сываемое ниже пр_авило классификации, предложенное Патриком в [26], основывается на обобщении эtой первоначальной идеи Фикса и Ходжеса и предполагает использование для каждой i-й катего- рии своей последовательности областей {У,; 8 };~1, i = 1, 2, ... , М. Любая мера d; (х, у) расстояния между элементами х и у из Ш*, отображающая пространство Ш* х Ш* на неотрицательную дей­ ствительную ось, называется допускаемой мерой расстояния, если: 1. Определение меры d1 (у х): а)lim [max {11х-у/1:d;(х,у)<в}]=О, vxЕШ*; Е-+0 УЕ fC* б) область {у : d 1 (у, х) =в} имеет объем, равный нулю для всех в>ОивсеххЕШ*; в) k1 (х) - положительная функция х с целочисленными зна- чениями, '!f 1 (х; Хп) - окрестность точки х (содержащая k; (х) элементов обучающей выборки) с размером и формой, зависящими отХп,Ф1(х;Xn) - объемобластиifi(х;Xn),i = 1,2, .., М. 2. Для каждой категории выделяется последовательность об- ластей {'!f;s};!,.I' i = 1, 2, ..., М. 3. В качестве априорных сведений предполагаются заданными вероятности {Р1}f=, и потери {Lл}f= 1, j = 1, 2, .. , М. kNN 3-правило определяется следующим образом: вектор х относится к j-й категории, если м м ~ Р,. L1·,· k; (х) <~р.L. k; (х) (9) ..:. , ,..: ,. l mi •, i=I (n;+I)Ф;(х;хп) i=I (n;+l)Ф;(X,Xn) т=/=-j;т=1,2, ..., м. В частном случае, когда 1)k1=k2=...=kм=k; 2)n1=n2= ...= пм=п/М; 3)d1(у,х)=lly - xll,i=1,2, ..., М; 4)Lii=О,еслиj=i,Lл =1,еслиi=1=- j; 5)Р1=Р2= ... = Рм=1/М. 1) Термин «kNN-правнла» в этой кинге охватывает непараметрические правила, основанные на нэмереннн расстояния от некласснфнцнрованноrо вектора х до каждого элемента обучающей выборки, хранящейся в памяти. 180
kNN 3-правило принимает вид: вектор х относится к категqрии ro j, соответствующей j-й обучающей выборке х.1, k элементов которой оказываются ближайшими к х (в смысле обычного эвклидова рас- . стояния) и среди подобных групп других категорий. Правило (9) было введено Патриком [26], а затем опубликовано в [27]. В работе [28] это правило называлось обобщенным прави­ лом k ближайших соседей. В данной книге оно называется kNN 3-правилом. 4.3.4. Сравнение правил Недостатком описанных до сих пор kNN-правил является не­ обходимость хранения в памяти обучающей выборки 1>. Другие варианты kNN-правил, определяемые с учетом ограничений на па­ мять, обсуждаются в этой главе (например, правило сгущенных ближайших соседей, предложенное в [29]). Другой, возможно очень серьезный, недостаток трех kNN-пра­ вил, обсуждавшихся выше, состоит в том, что они непосредствен­ но не вводят для оценивания локальной меры расстояния d (х, у) для каждой категории. Для kNN 3-правила, правда, имеется воз­ можность включить оценку локальной меры расстояния для каж­ дой категории. kNN 3-правило имеет следующие преимущества по сравнению с kNN 2-правилом: 1. Для четных k при использовании kNN 2-правила возможны совпадения, когда объявляется сразу о всех возможных решениях, поскольку для М категорий существует только один шар 'lf п, со­ держащий х. Однако такие совпадения можно исключить, вводя рандомизацию и случайно выбирая одну из категорий, или, ска­ жем, выбирая ту категорию, которая оказывается ближайшей к х. Для М = 2 и нечетных k совпадения при использовании kNN 2-правила невозможны. Однако совпадения часто имеют место на практике при М > 2 и малых k, обусловливая низкое качество kNN 2-ripaвилa. kNN 3-правило не приводит к совпадениям в указан­ ном выше смысле; это объясняется тем, что для i-й категории исполь- зуется последовательность областей. {'111s} ;~ 1 и вероятность появле­ ния равных значений оценок (f (xJi))n 1 для двух или более катего­ рий мала. 2. При построении kNN 2-правила предполагается, что размер выборки ni заменяет вероятность Р 1. kNN 3- правило обеспечивает возможность учета априорных вероятностей Р 1, если ониj известны; конечно, при этом допускается замена вида Р 1 = n 1/n. Читателю, желающему продолжить сравнение свойств этих правил, рекомендуем решить задачу 5. 1) Этот недостаток не является очень серьезным, если учесть возможность хранения оценок локальных функций: плотности, таких как нормальные функции. 181
4.3.5. Другие правила, связанные с kNN-правилами Правило, являющееся модификацией kNN-правила и преду­ сматривающее возможность отказа от классификации, описано в [30]. В соответствии с этим правилом выборка х относится к той категории, к которой принадлежат 1;ю крайней мере k' из k ближай­ ших к х выборок; в противном случае принимается решение об от­ казе от классификации наблюдения х. Таким образом, можно было бы говорить о kNN 2 -правиле с потерей наблюдений. В [31] было указано, что если ядро Kn (х, у), используемое в оценках плотности Парзена (п. 4.3.1), имеет вид ( 1 ) -l lx-yll2 Kn (х, у)= 1 ехр - 2 , (2л:а2)L/2 а2 (10) то правило выбора решения, основывающееся на оценке Парзена (f (x))n с достаточно малым значением параметра а, оказывается 1NN 2-правилом. Этот результат становится очевидным, если учесть, что оценка Парзена содержит сумму, каждое слагаемое которой соот­ ветствует одному элементу в обучающей выборке. При cr -+ О сла­ гаемое, соответствующее ближайшему к х элементу из обучающей выборки, оказывается существенно больше остальных. Следуя это­ му рассуждению, модифицируем оценку Парзена следующим обра­ зом: заменим сумму v-м наибольшим слагаемым из всех имеющихся. Если для этого слагаемого ввести обозначение max (v) х 1,;; ,J ,;;_ni Х {пГ 1 Kn (х, xJ) }, то для предлагаемой оценки можно записать (11) Введем расстояние d(х,у)=Kn(х,х)- Kn(х,у). (12) Тогда при матрице потерь, элементы которой равны либо О, либо 1, М = 2, Р1/п1 = Р 2/п2 , эмпирическое правило выбора решения, основанное на оценке плотности (11), эквивалентно kNN1- и kNN 2-правилам, использующим в качестве меры расстояния функ­ цию (12) для каждого х, если k = 2 v - 1 . Чтобы показать это, предположим, что в соответствии с эмпирическим байесовским правилом1>, основанным на (11), выборках отнесена к классу ro 1 : (13а) 1 ) Эмпирическое байесовское правило получается из байесовскоrо пра• вила, если в последнее вместо истинных (неизвестных) плотностей и априор• ных вероятностей подставить их оценки. 182
или или max (v){-Кп(х,х/)+Кп(х,х)}< ,1 <;J~n, (13в) или max (v){d(x,x/)}<max{v){d(x, xl)}: (13r) 1,;;;j,:;п, 1~j~п, или (14) Таким образом, v-й ближайший к х вектор среди элементов обучаю­ щей выборки из класса ro 1 оказывается ближе кх, чемv-й ближайший к х вектор среди элементов обучающей выборки из класса ro 2 . Сле­ довательно, среди общего числа 2v - 1 ближайших соседней к х относительно меры расстояния ( 12) число векторов, принадлежа­ щих классу ш1, должно быть больше числа векторов из ro 2 . В ре­ зультате в соответствии с kNN 2 -правилом при k = 2v - 1 также будет принят класс ш 1 . Более того, согласно kNN1-правилу будет выбран классе ш1, так как P1k1ln1 > P-1,k 2ln 2, поскольку k 1 -чис­ ло элементов обучающей выборки из класса ш 1 среди 2v- l общих, ближайших к х векторов, и предполагалось, что Р1/п1 = Pin2. Таким образом, kNN-правила и правила, основанные на приме­ нении потенциальных функций для локального оценивания плот­ ности, оказываются взаимно связанными. 4.4 . Границы Ковера-Харта для 1NN 2-правила при двух категориях, Продолжим анализ kNN 2-правила. Приведем здесь границы для асимптотического значения риска, характеризующего качество этого правила. Как и ранее, будем рассматривать М классов или категорий, каждой из которых соответствует плотность вероят- ности / 1 (х), i = 1, М, где х - L-мерный вектор, являющийся эле­ ментом пространства наблюдений. Пусть L U, i) - потери при от­ несении к j-й категории наблюдаемого вектора из i-й категории. Предположим, что известны априорные вероятности Р1 , Р 2 , ... , Рм получения наблюдаемого вектора из соответствующей категории, м причем ~Р1= 1. /=: 1 183
Апостериорная вероят~юстъ 'l'Jt (х) того, что получе1шый вектор х принадлежит i-й категории, можно вычислить по формуле Р· f· (x) 'l'J;(x)~p(i\x)= м 1 ' , i=l,2, ... ,M. (1) ~ P1f1(x) /=1 Апостериорные потери для данного вектора х при его отнесении к j-й категории определяются соотношением м r1(х)=~1];(х)L(j,i),j=1,2,..., М. (2) i=I Пусть r* (х) - минимальное значение потерь (2), когда этот минимум определяется по всем М возможным категориям. Если для каждого вектора х выбирается та категория, для ~шторой апосте­ риорные потери минимальны, то получаем байесовскую процедуру классификации. Глобальный минимум среднего риска R* можно записать в виде R*= Е[r* (х)] -).r* (х)[;iiPJi(х)]dx. (3) Если известны вероятности Р 1 и плотности f1 (х), i = 1, 2, ... , М, то можно вычислить либо r* (х), либо R*. Обычно в ус.1ювиях, при которых применяется 1NN 2-правило или другие непараметри­ ческие правила, таких полных точных сведений нет (правда, эти вероятности и функции плотности f\Южно оценить непосредственно или каким-либо косвенным образом). Пусть Rп = Е [L (rolll, ro)] (4) -потери при применении 1NN 2-правила, где ш1 1 1-категория век­ тора х[ 1 ] Е {х1, х2, ... , Хп}, являющегося ближайшим соседом век­ тора х, принадлежащего категории ro. При больших размерах вы­ борки риск R 1NN 2-правила определим следующим образом: R=lim R11- (5) п-+ оо Ограничимся теперь рассмотрением частного случая двух ка­ тегорий (М = 2) и матрицей потерь L=[~ ~]· Предположим также, что заданы плотности f1 (х) и f2 (х) и выборки 1 1 1 2 2 2 х1, х2, ... , х;;: 1 и х1, х2, ... , Хп 2 со статистически независимыми эле- ментами. Теорема. Границы Ковера - Харта для риска 1NN 2-правила. Пусть Ш* - сепарабельное метрическое пространство и функции f1 (х) и f-e (х) таковы, что с вероятностью 1 точка х является: либо 184
точкой непрерывности f1 (х) и f2 (х), либо точкой сосредоточения неотрицательной вероятностной меры. Тогда для риска R 1NN2-правила, который при выбранной матрице потерь равен вероят­ ности ошибки, имеют место следующие границы: R*~R~2R*(1- R*). (6) Докозательство. Апостериорный риск при фиксированном классифицируемом векторе х и ближайшем векторе xl 11 равен r (xl1J, х) = E[L (wllJ, ro)lx, xl1J] =р[wllJ = 2Jxl1J]р[ш = llx] + + р [ro[lJ = ljx[ 1J]p[ro = 2Jx]. (7) С учетом (l) это равенство можно записать следующим обра­ зом: r (xllJ, х) = '1)2 (x[1J) '1)1 (х) + '1)1 (х[11) '1)2 (х). (8) Можно показать, что при слабых ограничениях [22, 23] п. в. lim '11 (xl 1J) --+f) (х). (9) n-+ 00 Следовательно, с вероятностью 1 r (xl1J, х)-+ r(х) =2'1)1(х) '1)2 (х). (10) Б айесовский риск при х r* (х) = miп {'111 (х), '1)2 (х)} = miп {'111 (х), 1- '111 (х)}. (11) Теперь,таккакr(х) = 2f\1 (х)f\2 (х), то r(х)=2r*(х)(l- r*(х)). (12) Общий, или глобальный, риск при больших размерах выборки явля­ ется пределом среднего значения r (xl 11, х) относительно xl 1J и х: R=lim E[r(xl 1J,x)]=E[lim r(xl 1J,x)]. (13) n-+oo n-+oo Последнее равенство здесь вытекает из соответствующей теоремы о сходимости. Таким образом, используя (10), получаем R=Е[r(х)] =Е[2'1)1(x)f12(х)] =Е[2r* (x)(l- r* (х))].(14) Так как байесовский риск R* равен среднему значению r*, то R=2R*(1- R*)- 2varr*(х). (15) Следовательно, R~2R*(1- R*), (16) где равенство достигается при Var r* = О, что справедливо лишь в том случае, если апостериорный риск равен глобальному байесов­ скому риску (т. е. r* = R*) с вероятностью 1. Нижнюю границу мож­ но получить, переписав (14) следующим образом: R=Е[r* (х)+r* (x)(l- 2r* (х))] = = R* + Е [r* (x)(l -2r*(x))] ~ R*.
Здесь равенство имеет место, если r* (x)(l - 2r* (х)) = О для почти каждого х. Приведенные границы Ковера-Харта для риска INN 2 -пра­ вила не зависят от меры расстояния d (х, у), вводимой для опреде­ ления ближайшего к х вектора xr 11. 4.5. kNN 2-правило с отказом от решения 4.5.1. Отказ от выбора решения Правило kNN2-типа с отказом от решения предложено в [30]. Пусть имеются две категории (М = 2) и матрица потерь с элемента­ ми, равными О или 1. Тогда байесовский апостериорный риск r* (х) = miп {'l'J1 (х), Ч2 (х)} (1) совпадает также с вероятностью ошибки. Если значение риска близко к 1/2, то выбор решения оказывается не лучше обычного уга­ дывания; в этом случае может оказаться более целесообразным от­ казаться от выбор а и не принимать никакого решения 1>. Пусть t обо­ значает отношение потерь при отказе к потерям при ошибочном ре­ шении, а потери при правильном решении примем равными О. Тог­ да общие потери оказываются минимальными, если отказ от приня­ тия решения осуществляется всякий раз, когда r*(х)~t. (2) Вероятность Rш отказа можно найти по формуле 1/2 R[k]=р[r*(х)~t]=~f(r)dr, t а вероятность ошибки Рш t P[kJ = Srf (r) dr. о (4) kNN2-правило с отказом от решения определяется теперь сле­ дующим образом: выделяются k ближайших к х соседей и решение выносится только в том случае, если все k выборок принадлежат од• ной и той же категории2>. 4.5.2. Оценка скорости сходимости вероятностей P[k] ошибочных решений и R[kJ отказа от решения Пусть сначала k = 2 и одно из решений принимается только в том случае, если оба ближайших вектора принадлежат одной и той же 1) В теории связи существует аналогичная процедура, которая называет­ ся стиранием. 2 ) При малых размерах обучающих выборок это правило может иметь низкое качество, поскольку оно не предусматривает возможности введения различных мер расстояния для соответствующих классов. !86
категории. Если ro, ro[ 1] и roL 2J обозначают истинные классы век­ торов х и его ближайших первого NN (x[ 1J) и второго NN (x[ 2J) соседей соответственно, то р [отказ Iх, xt 11, xt 2]] = р [ш[ 1] =f= =1= wt211x, x[lJ, х[2]] = f\1 (x[l]) f\2 (х[2]) + f\2 (x[l])f\1 (xl2]), (5) р[ошибка Iх, x[1J, х[21] = Рr [ro[1J = ro[2J=f= ro Iх, xl1], х[21] = = f\1 (xt11) У11 (xt21) У12 (х) + '1')2(xt11) f\2 (xt21) f\1 (х). (6) Так как при п-+ оо с вероятностью 1 'l'Jt (х[ 1 1)-+ rli (х) и :ri,(xt 2J)-+ ~ rli (х), то с вероятностью 1 р [отказ lx, xl 1] 1, xl 2J] -+ 2'1')1 (x)f1 2 (х) 6 Rt2] (х); (7) р [ошибка /х, xllJ, xt 2]]-+ [1] 1 (x)]2fj 2 (х) +fli (x)[f\ 2 (х)] 2 = = f\1 (х)'112 (х) 6 P[2J (х). (8) В результате для 2NN 2-правила с отказом от выбора решения имеем R[2] (х) = 2r* (х)[1- r (х)], Pt2] (х) = r* (x)[l - r (х)]. Из (9) и (10) следует, что R[2] (х) = 2Pt2] (х). (9) (10) (11) Сравнивая (9) и (10) с асимптотическим значением вероятности ошибки для 1NN 2-правила, получаем R[ 2] = вероятность ошибки при 1NN 2-правиле, (12) Pt2] = 1/2 [вероятность ошибки при 1NN 2-правиле]. (13) Таким образом, если любая ошибка приводит к потерям, по меньшей мере в два раза большим, чем отказ от решения, то 2NN 2-правило с отказом обеспечивает меньшие средние потери, чем 1NN 2-правило. Чтобы показать это, поступим следующим образом. Пусть Cr и Се - потери при отказе от решения и ошибке соответственно. Тогда для 2NN 2-правила с отказом потери равны Rt2]Cr + Р[2]Се = Pt21[2cr + Се], в то время как для 1NN 2-правила они оказываются равными 2Pt2 J Се. Таким образом, 2NN 2-правило предпочтительнее 1NN 2- правила лишь при 2cr < Се• Рассмотрим далее общий случай произвольного значения k, ког­ да одно из возможных решений принимается только при условии, что все ближайшие kNN-coceди принадлежат одной и той же кате­ гории. Тогда асимптотически Rш (х) = р [отказ /х, Jtt11, xt2J, ..., xtkJ] = 1 - [f\1(x)]k - - [!J2(x)]k = 1·- [r* (x)]k - [1- r* (x)]k, (14) 187
И, следовательно, Rtk]=Е{1- [r(x)]k- [1- r(x)]k}. (15) Аналогично получаем, что Рш(х)= [f11(x)]k[1- '1')1 (х)] + [f12 (x)]k[ 1 - '1')2 (х)] = = [r* (x)]k[1- r* (х)]+r* (x)[l- r* (x)]k, (16) Pth] = Е [Рш (х)]. (17) Модифиц1:1рованное правило классификации. Рассмотрим прави­ ло, согласно которому вектор х относится к i-й категории, если k' или большее число ближайших к х соседей принадлежат этой кате­ гории. Если k - четное число, то для обеспечения ненулевой ско­ рости убывания вероятности отказов значение k' должно быть боль~ ше или равно (k/2) + 1. Если k - нечетное число, то достаточно выполнить неравенство k' ~ (k + 3)/2. Вероятность отказа для этого правила, обозначаемая Rk,k , (х), определяется соотношением Rk,1i'(х)= ~ . {(r* (х)] 1 [l -r* (x)Jk-i + k'-1 (k) f=[(k+3)/2J- L +[r* (x)Jk-t [l-r* (х)] 1}, (18) где[~]- обозначает наибольшее целое, меньшее или равное значе­ нию ~- Вероятность ошибки Ph,k' (х), обеспечиваемая этим прави­ лом, Pk, h' (х) = ~ (~) {[r* (х)]; [1-,* (x)Jk-1 + i=k' L +[r*(x)Jk-1[1-r*(x)]k}. (19) kNN 3-правило с отказом от решения. kNN 3-правило с отказом определим так же, как это.было сделано прн введении kNN 2-прави­ ла с отказом. Пусть потери при правильных решениях равны О и t обозначает отношение потерь при отказе к потерям при ошибке. Тогда среднее значение потерь оказывается минимальным, если отказ от решения имеем всякий раз, когда r (х) ~ t, т. е. так же, как и в случае kNN 2-правила. Определим теперь kNN 3-правило, воспользовавшись оценками Р1 (f (xli))n;, i = 1, М, для каждой категории. Пусть r<атегория а принимается, если Pa(f(x/a))n . -----=-а> а для всех i ==1=- а, а> 1, Р,(f(хIi))n, где а - константа, а (f(хIi))n1 = (n1 :\Ф; ; d1 (х, у) - подходящая для данной задачи мера расстояния от х до у из i-ro. класса. 188
4.6 . Ьерхняя граница дJiя значений риска kNN3-npaiшлa Рассмотрим более подробно случай двух категорий (М = 2) при матрице потерь L=[~ ~]· Апостериорный риск r (х) для kNN 3-правила при этом принимает вид (см. п. 3.2 .6) r (х) = rJ1 (X)q~ (х) + 112 (x)q1 (х), (1) где п() [ Р;kt РJk1 • ==/=- ·]· qi х =Р (п1+l)Ф1 < (п1+1)ФJ 'L J • (2) В п.4.3.1 уже были сформулированы условия, при которых k· Р (ni+\)Ф, -+ f(хIi). (3) Используя те же условия, сформулируем следующую теорему. Теорема. Если для каждого i = 1,2 функции f1 (х) непрерывны в точr(е х, а области {У.tв};!,, 1 с соответствующими объемами {Фt,};!,,, 1 таковы, что 1) lim sup /х-у/=0; n1 -+оо У E:ftn; 2)limn;Ф1п,=оо; !ti➔00 3) ki - число статистически независимых случайных векторов l • i Х1, х~, ... , Хп., полученных из распределения с плотностью ft (х) t и лежащих в tftn, то 1 Пояснения кдоказательству.Справедливость(3) обеспечивается условиями 1-3 . Следовательно, q1 {х) сходится ли­ бо к 1, либо к О, за исключением случая, когда P1f1 (х) = Р2'2 (х). Теперь обратимся к уравнению (1). На основании теоремы о доми­ нантной сходимости [40] можно изменить порядок выполнения опе­ раций математического ожидания и предельного перехода и записать R =lim E[r(x)]=E[lim r(x)] =R*. п1➔оо n1➔оо п,,➔оо п2-+оо Таким образом, общий риск для kNN 3-правила сходится к бай­ есовскому риску R* : R = R*. 189
4. 7. Примеры мер расстояния при оценивании для k NN3-правила В соответствии с kNN 3-правилом оценка (f1 (х))п 1 = kif[(n1 + l)Ф,] (1) должна вычисляться для каждой категории. Для сферических до­ верительных областей с центрами в точке х значение Ф 1 определяет­ .Xz Рис. 4.1 . Геометрическое место точек у, для которых d; (х, у)= coпst где(дляL=2) ся как объем наименьшей сферы (с функцией расстоя­ ния di), содержащей ki из п1 имеющихся векторов. Меру расстояния, аналогичную ме­ ре, неявным образом содер­ жащейся в многомерной нор­ мальной плотности вероят­ ности, определим следующим образом: d;(х,у;А;)=(х- y)t А;А1 (х- у), (2) а1siп0i ] cos0i ' Использование этой меры расстояния d 1 для определения k 1 бли­ жайших к х векторов с последующим определением Ф 1 для примене­ ния в уравнении (1) эквивалентно линейному преобразованию имею­ щихся векторов из категории i с помощью невырожденного преоб­ разования Ai с последующим привлечением эвклидовой меры рас­ стояния d 1 (х, у) = //х - yl/ в kNN 3-правиле, которое теперь уже оперирует преобразованными векторами. На рис. 4.1 изображена линия, на которой d 1 (х, у; Ai) = coпst. Приводимые ниже приме­ ры, основывающиеся на результатах моделирования с помощью ЭВМ, иллюстрируют, как можно оценить А;, чтобы улучшить ка­ чество kNN 3-правила при малых размерах выборок. Пример 1. Пусть имеются две категорип (М =2), Р1 =Р 2 = 112, k 1 =k2 =k, А;= А, i = 1, 2. Псевдослучайные (моделируемые) векторы имеют двумерные нормальные плотности вероятности со следующими известными. средними значениями и ковариационными матрицами: Байесовский риск можно рассчитать с помощью соотношений, приведен­ ных в гл. 2. В данном примере его значение оказалось равным 6, 7% при следующих исходных данных: размеры обучающих выборок п 1 = = п 2 = 50, размеры выборок, подлежащих классификации, равны 250 из каждо:!· категории. 190
Таблица 1 Число ошибок классификации д.ля kNN3-npaвu.лa как функция от значения параметров а и 0 меры расстояния при размерах обучаю­ щих выборок из каждого класса, равных 50 !, а 0=0 Л/8 Л/4 3Л/8 л/2 1 47 47 47 47 47 2 50 44 48 47 46 5 51 56 55 42 30 1 10 61 64 59 44 36 20 79 79 61 42 39 50 123 113 76 40 43 100 172 135 89 46 43 1 29 29 29 29 29 2 31 33 29 29 26 5 40 37 37 35 23 3 10 47 63 44 37 25 20 112 88 46 32 27 50 206 138 72 35 25 100 245 161 75 35 23 1 23 23 23 23 23 2 23 26 27 25 22 5 48 46 39 31 22 10 10 114 91 53 34 20 20 200 134 62 34 20 50 240 157 63 34 20 100 243 162 63 34 20 Суммарное число ошибок классификации 500 векторов при обучении по выборкам размером 100 было определено для 35 мер расстояния, соответствую­ щих различным значениям пар параметров а= 1, 2, 5, 10, 20, 50-, 100 и 0 = О, n/8, n/4, 3n/8, n/2. Указанные 35 мер расстояния применящ1сь для k = 1, 3, 10. Результаты моделирования приведены в табл. 1. Этот эксперимент был повторен для п1 = п 2 = 250; результаты моде­ лирования приведены в табл. 2. На основании данных обоих экспериментов можно сделать следующие выводы: 1. Выбор различных мер расстояния приводит к разному качеству клас­ сификации и эвклидова метрика (А = 1) не является «слишком плохой». 2. При больших значениях а качество классификации улучшается при приближении значения 0 к m2. 3. Число ошибок минимально при 0 = л/2 и слабо изменяется при откло­ нении 0 от этого значения; при 0 = О число ошибок классификации макси­ мально и быстро уменьшается при отклонении значения 0 от О. В заключение отметим, что приемлемым для введения расстояния может оказаться преобразование }91
Таблица 2 Число ошибок КА.асс..tфикации как функция параметров а и 0 меры расстояния np11 размерах обучающих выборок из каждого класса, равных 250 k а 0=0 ft./8 Л/4 1j Зn/8 11/2 1 46 46 46 46 46 2 43 38 38 44 42 5 46 42 38 42 38 1 10 46 43 36 34 33 20 47 49 45 35 26 50 67 62 45 35 28 100 91 69 49 40 29 1 25 25 25 25 25 2 23 25 25 26 28 5 29 26 29 30 28 8 10 35 27 31 33 30 20 41 33 40 34 24 50 67 53 47 35 25 100 114 83 55 35 25 1 27 27 27 27 27 2 25 30 32 28 26 5 29 33 35 29 27 10 10 36 42 38 29 28 20 58 56 47 33 27 50 120 93 53 37 25 100 213 129 60 37 24 согласно которому мера расстояния должна определяться только по первой компоненте (признаку). Байесовское правило выбора решения для этой за­ дачи могло бы основываться только на одномерных наблюдениях. Пример 2. (Выполните самостоятельно необходимые вычисления; реши­ те задачу 20.) Рассмотрите следующий пример: m1=[-l, О], :Е1=[ 1 ~ ~], m2 =[1, О], :E~=[l~ ~]• Пример 3. (Выполните самостоятельно необходимые вычисления; реши­ те задачу 20.) Рассмотрите следующий пример: Пример 4. (Выполните самостоятельно необходимые вычисления; реши­ те задачу 20.) Рассмотрите следующий пример: m1 =[-2, О], :Е1-[~ ~]; m2 -[2, О], :Е2-=[~ ~] • 19?,
4.8. Состоятельность kNN 3-правила при увеличении ki Если допустить медленное увеличение ki (х) при возрастании ni, то сравнительно просто доказать, что риск для kNN в-правила схо­ дится по вероятности к байесовскому риску R* (четвертый тип схо­ димости, СМ. П. 3.3 .6). Теорема. Пусть ki (х) - такая функция от ni, что lim ki (x)/ni= ni➔OO = О. Когда плотности вероятности f (xlw;) являются непрерывны­ ми функциями в точке х, то риск для kNN в-правила сходится по ве­ роятности к байесовскому риску R*, если объемы обучающих выбо­ рок п1 , n2, ... , пм неограниченно увеличиваются. Пояснениякдоказательству.Таккакфункция расстояния d; (у, х) индуцирует непрерывное распределение для фиксированного значения х и плотность f (xlw;) непрерывна в точ­ ке х, то точно так же, как это было сделано в [20], можно показать, что оценка плотности k; (x)/((ni + l)Фi (х; Хп)) сходится по вероят­ ности к f (хIшi)- Пусть Dj (х) = 1, если и только если вектор х с помощью бай­ есовского правила выбора решения относится к классу ш 1 и О в противном случае; тогда для любого в > О и каждого х существует такое число п (в, х), что для всех п > п (в, х) справедливо неравен- ство I q1 (х) - D j (х) 1 < в для всех классов, для которых байесов­ ское решение является единственным. Для некоторого в> О пусть 'tn.e есть множество всех тех значений х, для которых п (в, х) < п. Тогда на основании соотношений п.3.3.2 можно записать . м м Exn[R(xn)]= ~ Р;_~ L1; ,\ q1(x)dF(Xjffi;) + i=I J=I 'tn,e м м + ~ Р; ~ Lji ,\ q1(x)dF(xlu);) ~ i=I f=I ,:С п,8 ммs(. <~Р1-~ Lji Dj х; хп) dF(xlш;) + •=1 J=I ,; , п.8 м м +.~ Р; ~ Lli .\ вdF(xlwJ+ t=1 f=l ,; п.8 м м +~ Р;2:Ln ~ q1(х)dF(хIш;), i=I i=' ,:С (1) п,в где т~. 8 - множество значений х, для которых п (в, х) ~ п. Пер­ вое ~;:лагаемое всегда меньше R*. Второе слагаемое мьжет быть мень­ ше некоторой положительной величины 11/2 при соответствующем выборе достаточно малого значения в. Так как при фиксированном 193
в > О множества 'tn,e образуют монотонно возрастающую после­ довательность множеств, имеющих своим пределом Ш, то пусть п (ri/2) - такое число,что при п > п ('1']/2) значение третьего слагае­ мого оказывается меньше'l']/2. Следовательно, для любого '1'] > О су­ ществует такое число п ('1']/2), когда при п > п ('1']/2) справедливы не- равенства R* ~ Ехп [R (хп)] < RI + '1'].Следовательно, Ехп [R(xп)J сходится к R* как к нижней границе случайной величины R (хп)· Этот результат и то, что R (хп) ~ R* *, где R* * - постоянная, оз­ начают, чтq дисперсия риска сходится к О, т. е. имеет место сходи­ мость в среднеквадратическом и, следовательно, по вероятности. При этом сразу же возню<ает вопрос: как быстро следует уве­ личивать k; (х) при росте п;, чтобы получить наибольшую скорость сходимости? В [20] отмечаются некоторые эмпирические данные, сви­ детельствующие о том, что хорошие результаты обеспечиваются • 1/2 оценкой плотности (1) п.4.3.1, если k; (х) имеет порядок n; . В [28] также на основе экспериментальных данных показано, что «наи­ лучшее» значениеk; (х) является также фушщией L и степени глад­ кости рассматриваемых функций плотности. Другой вопрос час10 возникает в связи с выбором функции расстояния. Ясно, что если функция расстояния оказывается приемлемой с точки зрения сходи­ мости оценок плотностей, то kNN 3-правило является состоятельным. Но выбор меры d1 (у, х) влияет и на скорость сходимости. Какова «наилучшая» функция расстояния с этой точки зрения? Практичес­ ки выбор осуществляется на основе знаний о свойствах гладкости входящих в задачу плотностей вероятности и других априорных све­ дений о соотношениях между данными измерений. 4.9 . Моменты риска для kN N 3-правила Изучим теперь момент порядка б распределения риска для kNN 3-правила как функцию от k1, п1 и исходных распределений. Согласно результатам, приведенным в п.3.2.8, момент порядка б риска для любого правила, основанного на обучающих выборках, можно определить, если для любого б-набора (x(]J, ... , x< 11 J) мож­ но найти п (х< 1> х(6)) q. / ' ..., . /, •...• 6 Согласно п.З.2.8 и на основании результатов, приведенных в этой главе, имеем
~М k; (x(vJ) < р1. L1n,• ____;;_ .: ___;___ , ((V)••) i-l (пi+ !)Ф1 х ,Xn т=1, ..., М; т=I=jl),v=1,2, ..., б], (1) где Ф, (х<0>; Xn) - объем окрестности rf 1 (х< 0>; Xn) = {y:d, (у, х< 0>) ~ ~ 81 (x< 0 J; Хп)} около точки х< 0>. Введем «вес» u) 0 > окрестности t/ 1 (х< 0>; Xn) следующим обра- зом: и1~1(x<v>,xп)~H1 (Ф1 (x<v>;xn),x<v>)~ ~ dF(x/@1). (2) :ft (x(v); ~n) Здесь Н, - неубывающая функция от Ф 1 (х< 0>; Xn), которая за­ висит от исходных плотностей вероятности и функции расстояния. Обратную функцию определим соотношением (3) Таким образом, формула (1) принимает.вид q ( (1) (11))-р ~рL1l ' < [ М k· (x<v)) i,,..,,/11Х , •••,х - 1~1 i v (n;+l)H1-1(uf;x<v>) < IР1Lmt kt (x<v>) i== I (n1+ 1) щ- 1 (и1;х< 0>) т=1, ..., м, т=I=jl),v= 1,2, ...,б]. (4) Пусть 01 (иf, ... , и~) обозначает совместное распределение б вели• чин (uf, ... , иf). Так как величины иf и uj независимы при i =I= j для любого w и v в силу независимости получения обучающих выборок из разных классов, то уравнение (4) можно записать в виде 6 qj 1(x(I>, ...,х<11>)=\ ...\П[Qj(и~,... '' ..., l\ J Jv=l " м ... ,и~;х<0>)] П (dG1 (иt, ... ,uf)], i=I (5) 195
Осталось теперь найти только G; (ul, ... , иР). Это распределе­ ние найдем на части б-мерного единичного куба установлением ана­ логии с другой последовательностью весов неперекрывающихся мно­ жеств, обозначаемых {У, 1 (х< 0>, Хп)}, построенный на основе обучаю­ щих выборок. Последние области я~ляются обычными толерантны­ ми областями, известными в теории порядковых статистик (см. § 2.21). Такие толерантные области вводятся следующим образом: пусть (j);D (у) = d; (у; х<0>), v = 1, 2, ..., б, (7) о о о о о о / 1 . (З:(f). ;j; ) . l ' 'r/ о Оо "" Jлснснтьt '-OO!J'fllIOЩCif 1/ыоорки i i :r.,, ... , Жz5 UJ i-го KЛIICC/l о Р11с. 4.2 . Толерантные о(>ласти k; (х< 0>) - число выборок в 1/f; (х< 0>); Хп), принадлежащих клас­ су i. - (8) Используя процедуру построения толерантной области Тьюки1 > [33, с.152) и введенные выше обозначения, определим области с помощью соотношений 2 >: 1) См. гл. 2. 2 ) mln (k; (х< 0 ))) [q>;v (х(): 1 <;; j < n1] означает, что для всех выборок i 1 i-ro класса вычисляются порядковые функции q>; 0 (х!), из них выбираются k; (x(t')) функции с наименьшими значениями. 1 196
'f; (x<l); хп) = {y:(J)1 1 (y)~~in(k; (хО))) [(J);, (х}), 1~j ~ п 1 ], (9а) '1!; (х<2>; Хп) = {у:у Е t/,; (x(l>; Хп) и (J); 2 (у)~ mtп (k; (х<2>)) Х - - / Х [(J)1, (х}): 1~ j ~n;, их; Е 7/:.; (x{l); xn) ]}, (96) 7/:.; (х<11>, Хп) = {у:у E[i (x<v); Хп), V = 1,2, ... , 6-1, И (J)1v (Y)~mjп(k;(x;v>))[(J)1v(xj):l ~j~n;, и х;Е[t (x<v);хп),v=1,2, ..., 6-1]}, (9в) где min (k 1 (x<v>)) обозначает k-; (x<v>)-e минимальное значение. Рис. 4.2 иллюстрирует такой способ построения для i-го класса, когдаk;(х)=4,п1=26,d1(у,х)=]у- xJ,6=4, иданачаст- о о о о о о°" Jлснснты OO!J'IIZIOllfCli Db[OOДKIZ жf, ... ,жJ5 ll3 i-lO KЛIZCCIZ о Рис. 4.3. Нетолерантные области 197
иая обучающая выборка. Для сравнения аналогичные области {d'i (x<vJ; хп)} изображены на рис. 4.3 при тех же условиях. - Обозначим и~ вес области '!f l (x<vJ; Хп), определив его аналогич­ но весу иr. Еёли предположить, что функции F (xl@i) таковы, что расстояние di (у, х) индуцирует непрерывные распределения для фиксированного х, то на основании теоремы 3.2 Фразера [32), слу- чайные величины ui, ... , и? имеют распределение Дирихле [33, с.238): (1 О) определенное на симплексе uf + ... + u/J ~1 . Области '!fl (x<vJ; Хп называются «не зависящими от распределения толерантньiм:и облас­ тями» (которые рассматривались в гл.2) , поскольку функция рас­ пределения их весов не зависит от функциональной формы исходных плотностей вероятности. Из сравнения рис. 4.2 с рис. 4.3 становится очевидным, что об­ ласти {?!:, (x<v>, хп)} (толерантные) и соответствующие им веса {~f} идентичныlJ нетолерантным областям {';/ 1 (x<vJ, Хп)} и их соответ­ ствующим весам {u<yJ }, если последние не пересекаются. Обозначим .Лi (x<v), ... , x< 6J) 6 .л? множество всех б-наборов 1 6 - ~ 1, ... , U1) весов возможных непересекающихся областей • • 6 1 (x< 1J, Хп), ... , tf1 (x< 6J; Хп). Нетрудно показать, что .Л1 обла- дает следующими свойствами: 1) границей этого множества является простая замкнутая по­ верхность, содержащая начало координат; 2) если (lli, ... , аь) принад.лежит .лf, то (а1, ... , аь) принадлежит .лr,гдеО~av~av, v=1,2, ..., б; 3) а, (x< 1J) принад,лежит интервалу [О, IJ; 4) .Л~ содержит только начало координат, если х< 1) = хШ для некоторых значений i и j. Нетрудно показать, что вектор (ui 1 , • • • , и?) принадлежит .Лi 6 , если и только если (uf' ... , и?) принадлежит .Лf и в этом случае иr = иr. Следовательно: веса (и}, ... , и~) имеют распределение Дирихле -на .Л~. Если обозначить р1 (х< 1), ... , x<6 J) вероятность попадания 1) Области 1 i (x(Z') , Хп) используются при определении kNN 3-правила 198
(uj, ..., и~) в .Л? при распределении а, (и~, ... , и~ и А 1 (и{, ... , uf; 6 х< 1>, ... , х< 11 >) - индикаторную функцию множества .Л,, то мож- но записать м ~ 1- П Pi(x( 1>, ... , х<6>), (11) i=I где l\ q' .n . (х( 1), ... , х<6)) "-" ssПГQn(ио uo•х<о>]Х -.· l/ t>•··• м, 11••••>1/j O=I" м ХП[А1(иt,... , и~; х<1>,..., х<11>)]х i=l м х П [dG(иl, ... , иf)]. i=l (12) Все результаты проведенного анализа момента порядка б рас­ пределения риска можно сформулировать в форме следующей тео­ ремы. Теорема. Если F (xlro 1) и di (х, у) таковы, что порядковые функ­ ции (8) индуцируют непрерывные распределения, то д,ля момента порядка б риска kNN 3-правила справедлива граница ~t,~I iil ... itl i!I lo~I [Pi" Li" 1 "]Х х J... J. r1- i~I Pi(x(l), ... ,х<6>) jdF(x0>/@1,) •.. dF (х<11> l@111)j, (13) где правая часть второго неравенства равна О, если области '!f 1 (х< 0>, Хп) не пересекаются для всех возможных Хп, Формула (13) будет впоследствии использована при отыскании предела для qj1, ... , ;6 (x(l>, ... , х( 11 >) в п.4.11.l и оценке скорости сходимости ~ §4.12.
Следует заметить, что, так как Pi (хщ) = 1, первый момент записывается явно. В следующем параграфе показано, что для любого б значение р;(хщ, ... , x<II>) может быть сделано сколь угодно близ­ ким к 1 nутем выбора достаточно боль­ шого значения п 1 . 1 .:с Рис. 4.4 . Треугольные плотности вероятности в задаче классификации Пример. Чтобы проиллюстрировать вычи­ сления первого момента риска для kNN 3-прави­ ла, проанализируем задачу, рассмотренную в [22, 23] и в [34] 1). В этом примере рассматриваются одномерные наблюдения из двух классов, име­ ющих одинаковые априорные вероятности (р 1 = р2 = 1/2) и "плотности вероятности на интерва­ ле(О,1)видаf(хIw1)=2х,f(хIw2)=2-2х, которые изображены на рис. 4.4. Пусть потери при ошибочном решении равны 1, а при пра­ вильном - О. Для классификации будем ис­ пользовать kNN 3-правило, основывающееся на п1 = п 2 = п/2 обучающих выборках из каждого класса, и положим k1 = k 2 = 1. Первый момент риска μ~ будем вычислять по формуле (13), где для простоты опустим верхний индекс б = 1: В силу симметричности задачи q1 (ll2 - х) = q~ (l/2 + х). Так как q~ (x)+q~ (х)= 1, то, подставляя явные выражения f (х/ w1) и f (х/ w2), по­ лучаем где 1/2 μп=++2 S(1-2x)q1(x)dx, о 11 2 q1(x)=.\SQ1(и1, ~; х) П [п;(l-и;)пгI dиl] ОО i== 1 ( 16) (17) для О < х < 1/2; здесь Qn (и 1 , и2 ; х) является индикаторной функцией и опре- 1 деляется следующим образом: (18) 1) Хотя этот пример позволит вычислить ожидаемый риск для kNN 3-пра­ вила для частного вида исходных распределений, в нем используется только что пе>Лученное соотношение для в~,rчисления моментов высокого порядка. :гоо
t,r.xJ Первое, что необходимо сделать для определения области Q~, используемой для вычисления интеграла в (17), - получить соотношение между и1 и и2, Для этого рассмотрим интервал 2Л около точки х (см. рис. а). Очевидно, что х+д и1= J 2xdx=4L\x, L\,с;х, х-д х+д и~= f 2хdх=(х+Л)2 , о х+д х,;; L\,;; 1-х; 1⁄2=(2-2х)(2Л), Л ~ х, и2 = J (2-2х)dх=2(х+Л)2 , х < L\ ~ 1-х. о Теперь Q1 (х( 1)) = Н1 1 (иl, х< 1)) .s;: Н2 1 (и~, х< 1)) или, что эквивалентно, соответствует решающей границе. Таким образом, используя интервал Л для каждого класса, как это было сделано выше, запишем 2--2х 2х Ut=2иlf2-u1, 4х2 ~ и1 < 1, Эту зависимость можно изобразить графически (см. рис.). Ри.:унок соответ- llz ствует равным объемам толерантных областей каждого класса в kNN 3-пра­ виле. Таким образом, вероятность выбора i-го класса с помощью kNN 3 -пра­ вила можно вычислить; результаты таких вычислений для рассматриваемого примера представлены на рис. 4.5. Эти результаты получены в предположении, что идеально реализуемое kNN 3-правило должно иметь линейную зависимость и2 от и1 при и1 , и2 - О. Пример с одномерными наблюдениями следует использовать при рассмот­ рении и многомерной задачи, где метрики, используемые для измерения рас­ стояния в kNN 3-правиле, могут не согласовываться с исходными распределе­ ниями.
IO~L-------J--_____..,__.........: __ 1 10 100 Оlfьты оfigчшощих Выасрок из .<:rпкдсго нласr:::r Рис. 4.5. Задача классификации с треугольными плотностями вероятности; средний риск при малых размерах выборок Даже для этого относительно простого примера верхнюю и нижнюю гра­ ницы для моментов второго и более высокого порядков вычислять чрезвычай­ но трудно (в том числе и численными методами). 4.1 О. Асимптотическая оценка апостериорного риска для kNN 3-правила В этом параграфе оп ределяется асимптотическое значение ве­ роятности q1(х) принятия категории j -с помощью kNN 3-правила при фиксированной выборке х. Вводимые при этом ограничения со­ стоят в следующем: при п1 , n 2 ~ оо число k1 остается постоянным, а объем доверительной области Ф1 -+ О; число категорий равно двум (М = 2).
Теорема. Если ди/дФi = f (xlffiд в точке х для i = 1, 2, то асим­ птотическое значение для q1 (х) определяется иеполной бета-функ­ цией 1/(l+w) ql(х)= S Ве(у;k1, k2)dy= о k,- 1 (m+k1 -1) wm =Jo т (1+w)m+k, ' где Рис. 4.6 . Взаимозави­ ·симость, известная статистику, но не учи­ тываемая в kNN 3-пра- виле w= f(х1002)L1tР9k2 / (х1001)L,1Р1k1 (1) (2) Пояснения кдоказательству.Таккаки1имеет бета-плотность Ве (е 1 ; k 1, п 1 - ki + 1), то случайная величина ti = = (ni + l)u1 также имеет нормированную соответствующим обра­ зом бета- плотность Beft1/(n1+l); k1,n1-k;+I] n;-f --1 Далее, в силу независимости обучающих выборок совместную плотность вероятности двух величин t1 и t2 запишем в виде (3) Эта плотность имеет предел g (t1 , t2). Так как пределом рассматри­ ваемого здесь норм-ированного бета-распределения является гам­ ма распределение "r (t1; k1), то 2 g(t1, t2)= П "r(t1; ki) с Eft11=k1. (4) 1=1 Теперь учтем, что между u1 и Ф 1 существует взаимосвязь (рис. 4.6), хотя значения этих величин не используются в самом kNN 8-правиле. Решающая граница при точке х определяется 203
соответствующими объемами Ф1 и Ф2 допустимых областей, содер­ жащих х: k1 Р1 L21 Ф1 (n1 +,1) (5) Так как ti является функцией Фi, то существует решающая грани­ ца и в плоскости t1 , t 2 (рис. 4.7). Обозначим Тп область, на кото­ рой, как это известно статистику, согласно kNN 3-правилу прини­ ГрОНОl(О рсшсниil мается категория 1, при этом пред- полагается также, что статистик знает и соотношение1 >, связываю­ щее ui и Ф 1 (рис.4.6). Тп является областью на плоскости t1 , t2 , в ко­ торой согласно kNN 3-правилу при­ нимается категория 1, и это ста­ тистику известно. Предел, к кото­ рому сходится Тп, обозначим Т. t1 На границе области Т п Рис. 4.7 . Граница решений в ПJIOC· k1 Р1 L21 Ф1 (n1+ 1) и справедливо соотношение и 2 = '\j, (и 1). кости f1, f2 В соответствии с правилом дифференцирования сложной функции дf21 дt2 дu2 1 дu1 п2+1 дu2 1 дt1 х.р.г.- дu2 дu1 х.р.г. дt1 - n1+l дu1 р.г.х, ~, =~, дu1 р.г.,х дФ2 х дФ21 дФ1 1 дФ1 р.г.,хдщ р.r. х f(хIro2) L12Р2k2(n1 +1) f(xlro1) L21P1k1!(n2+l)' где использовано условие теоремы, согласно которому дui/дФi = f (х I wJ в точке х. Таким образом, дt2 1 - дt1 р.г.,х и после интегрирования f(хIro2)L12Р2k2 f(хIro1) L21 Р1 k,. , 2 = wtl, w--'-" f(хIroJLи Р2k2 f(хIro1)L21Р1k1 ' поскольку постоянная интегрирования равна О, (6) 1) В kNN3 = правиле используются значения Ф1 и Ф~. Если статистик знает взаимосвязь между Иi и Фi и, таким образом;_ между t; и Ф;, то он может построить решающую границу в плоскости t 1, t 2. 204
Формула (6) устанавливает взаимосвязь между t 2 и t1 на плоскос­ ти t1 , t2 , соответствующую х, на решающей границе kNN 3-правила. Статистик при этом использовал, что ди/дФ 1 = f (xjro1) в точке х. Таким образом, асимптотически 00 00 q1(х)=S J"r(t1;k1)"у(t2;k2)dt2dt1= 11=Оt, = -vt1 00 00 2 SSnf l tk,j-\ e-lj} dt2 dt1, = 1 (kj-1)! t,=ot,=wt,I=1 Согласно [39 с.100, 3.351.2] со s t1=wt, В результате имеем k1-I wm ql (х) = }: -(-m -,)-(k_1 ___l)-I m=O 0,8 О,б о, 't {',Z "" s tт+k,- 1 e-t, o+m) dt1 11=0 Оптим11льнgс проВuло Рис. 4.8. Асимптотическая вероятность q1 (х) как функция f\1 (х) t k1 и No. в качестве параметров kNNз-nравила 20Б
r(Ж) 0,5 0/t o,J O,Z о,1 Рис. 4.9. Ji.симnтотическое значение апостериорного риска r(x) как функция от f(i (х) с k 1 и k 2 в качестве параметров для kNN 3-правила Интеграл в последнем выражении также вычисляется (см. 8 [39], 3. 351), так что окончательно получаем q1(х)= mk~=-.01 (т+km1 - 1) wrn (7) ._ (l+w)m+k, • Пример. Пусть Li1 = l - бij; тогда f(хIro2)Р2k2 k2(l-ri1(х)) W= с::11 f(Хfroi)Р1k1 k1f(1(х) (8) где Р1 f (х 1<01) 1)1 (Х) = 2 (9) ~ Ptf(xlroi) i=I - вероятность того, что вектор х получен из категории roi. Апостериорный риск r (х) s точке х при этом определяется выраже11ием r(х) = q1(х)[1- f(1(х)]+ri1(х)[1- q1(х)]. (10) Таким образом, w и q 1 (х) являются функциями ri1 (х), k 1 и k9 . На рис. 4.8 изображена зависимость q1 (х) от f( 1 с k1 и k 9 11 качестве параметров. На рис. 4.9 приведены графики, иллюстрирующие зависимость апостериориого риска r (х) от ri1 (х) для неско,11ьких значений (k 1, k9). 206
4.11 . Асимптотиttеские моменты риска для kNN3-прави.ла при фиксированных значениях ll 4.11 .1 . Сходимость qJ,, .... iб(x(l), ... , х<б>) В § 4.8 было показано, что если объем выборки неограниченно возрастает так, что п1 также стремится к бесконечности, а ki с рос­ том п1 достаточно медленно стремится к бесконечности, то средний риск для kNN 8-правила сходится к байесовскому 1 >; второй и цент­ ральные моменты более высокого порядка сходятся к нулю, что обеспечивает сходимость по вероятности. В этом параграфе будет показано, что при некоторых ограничениях этот риск для каждого фиксированного значения параметра ki правила также сходится по вероятности к некоторой константе, т. е. является функцией исход­ ных распределений и параметра ki. Эти результаты существенно обобщают факты, приведенные в§ 4.10. Теорема. Если 1. Порядковые функции (7) § 4.9 допускают непрерывные функ­ ции распределения для x<v>, v = 1, 2, ... , б. 2. lim Hi (в, х<v>)/в = hi (x<vJ) < оо Е➔О длявсехх,i= 1,2, ..., М;v= 1,2, ..., б, тодля q'! (x<v>) существует предел q, (x<v) ), равный qi (х <v>) = lv v v 00 00 М [( )k~-1 - tf] ~ V V (V) tr I е = S... J@i (t1, ... , tм; х ) П --'--'--- dtv ... dtv V (kf) -1) ! 1 м' О i=1 1 (1) где , m= 1, ... , M,m=f=jv\. (2) Далее, если 3. Существует число а> О такое, что если и{~ а, J=1,2, ...,б,i=1,2, ..., М, то (иl, ...,и~) Е.Лi(х1,...,x{I)и 1) Этот результат в § 4.8 основывался на расстояниях, введенных в [20], которые nозволили показать, что [ki (x)l(n; + 1) Ф; (х; хп)J сходится но nе­ роятности к f (х I i). 207
q· . (х<'> x<II>) = limqn (х<'> х<б>)= 11, •••, 1О ' ••·' n➔oo i1, ... i i{J ''''' б = П qfv (x<v>). (3) V=I Доказательство. Так как асимпТQтически распределение Дирих­ ле.О, (и}, ... , и?) концентрируется вблизи начала координат1>, то при отыскании предельного распределения введем нормирование: tf=(ni+l)uf,v= 1,2, ..., б;i=1,2, ..., М. (4) Пусть :Л7 (х<1>, ... , х<11)) и @'Jv (хР>, ... , х< 11>) обозначают инду- цированные при таком преобразовании множества .А? (хщ, ... , х<б>) и @7v (х<1>, ... , х< 6 >) соответственно; пусть далее А1 (tt', ... , t1; х<1>, ... , х<6>) и Q7v (t~. ..., tм; х<1>, ... , х6) - соответствующие этим множествам индикаторные функции в t-пространстве. Тогда на основании2 > (11) и (12) из§ 4.9 можно записать 6 О<,q1п, . (xP>, ... ,x<ll>)-5 ... 5 П [Q7 (f~, ... ,t~;xO>, ... "., //j V V=1 м .... , х<0>)] П [А7(п,...,t~; хО>, ... , х0)]х i=1 ( 1 16 )] t; ~- (1) (о) х dG. ---, ... , ,х ,...,х . -• n;+l n;+l (5) Для доказательства этого неравенства достаточно показать, что при введенном стабилизирующем предельное распределение преобразо­ вании предел интеграла, стоящего в правой части первого неравен­ ства, равен интегралу от предела подынтегральной функции и этот интеграл стремится к нулю при n-+ оо. При этом можно воспользо­ ваться теоремой о доминантной сходимости [40, с.125], если подын- 1) Поскольку k; имеет фиксированное значение, то более вероятными ста­ новятся малые значения ui, так как объем области Ф; уменьшается. 2)Заметим,чтоdO.i(n;~1, ..., ni11;х(Ч,..., х<б>) =d,Oi(nit~1 , , .. , ni 11 ), так как распределение Дирихле не зависит от этих выборо•1ных значспий. 208
тегральная функция интеграла равномерно ограничена некоторой интегрируемой функцией и имеет место сходимость к пределу в каж­ дой точке (или почти всюду). Далее последовательно необходимо доказать справедливость сле­ дующих утверждений: 1) @'jr, (tf, ... , tt; x<v>) сходится в каждой точке к @1v Х х(t~....,tм;x(v)); 2) g; (-tl_, ... , _1_)!(п;+1)11<с Г1 "r (tf; kf) - n·+l n·+l , 1 1 v=I для всех n; >И, v = 1, 2, ... , б, где с - некоторая конечная по­ стоянная; это неравенство можно доказать в результате решения задачи 16; 3) предел последовательности Чiv (x<v>) равен интегралу от предела соответствующей подынтегральной функции; -п 4) А, (х<Ч, ... , x<v>) при каждом значении аргумента сходится к 1 с ростом п 1 (поточечная сходимость); 5) интеграл, стоящий в (5) после первого знака ~. сходится к О, а интеграл после второго неравенства сходится к значению это­ го интеграла от предела подынтегральной функции в указанном выше п.2 после применения теоремы Фубини 140). 4.11.2. Сходимость моментов Теорема. Если 1) порядковые функции .(7) § 4.9 допускают непрерывные рас­ пределения; 2) lim Нi(в, х)/в =h1(x), vx, i= 1, 2, ... , М, то1> В➔О м м μ=limμ~= ~ ~ P;1 L 11 ; 1 fq11 (xO>)dF(xO>iro1 1). (6) n➔oo l,=1/1=1 Далее, если 3) вероятность выпадения частных значений величин x(l), ... , х< 11 >, являющихся независимыми и имеющих распределения F (x<1>/ro;,), ... , F (х<б> ro1a), которые не удовлетворяют условию 3 предыдущей теоремы, равна О для любой последовательности i1, ... , i11, или если 4) hi (х) = f (xjrot) почти всюду относительно F (x\ro 1), i = = 1,2, ..., М, то μб= Jimμ~ = [μf, (7) n➔oo и R (хп) сходится по вероятности к μ. 1) Этот же результат получен в § 4. 10 другим способом. 209
nOЯСНеНИЯ К ДOКаЗаТеЛЬСТВУ. q7,(x(l)) ОГраltИ• чена единицей и далее сходится в каждой точке к % (х< 1>). С,пе­ довательно, для доказательства (6) достаточно применить теоремы о доминантной сходимости [40]. Аналогично, если выполнено условие 3, то мм мм 11 μ11 = ~ ~ ... ~ ~ п [P1VL1v1v1x l,=li , =I iб=lfб=lv=I После представления этого интеграла в виде произведения ин­ тегралов и записи суммы произведений как произведения сумм получим (7). Далее, так как все моменты конечны и сходятся к моментам вы­ рожденной случайной величины μ, то распределение риска схо­ дится к вырожденному распределению, вся вероятностная мера которого сосредоточена в одной точке R (хп) = μ; следовательно, R 6сп) сходится по вероятности к μ. Если выполняется условие 4, то предельное значение среднего риска μ равно О. Так как риск не может быть меньше О и не превы­ шает некоторой величины R**, то это означает, что все моменты рис­ ка должны сходиться к О. Таким обр.~зом, риск сходится по вероят­ ности к О, т. е. доказана последняя часть теоремы. 4.12. Скорость сходимости риска В этом параграфе исследуем скорость сходимост11 функций qJ,, f., .. . . 111 , определенных в п.З.3.2, что позволит оценить скорость сходимости момента порядка б. Предположим, что элементы матрицы потерьравнылибоО,либо1,М =2,k1(х)=k2(х)=kип1= =п9=п/2. • Скорость сходимости определяется функцией Hi. Действительно, моменты являются функциями от q (см.(10) п.3.2.8), которые в свою очередь также являются функциями их областей интегрирования @ (см. (5), в§ 4.9); но последние зависят от уравнений для решений и Н, (см. (2), § 4.9). Hi представляет собой функцию, которая харак­ теризует сходимость области в терминах объема этой области и функ­ ции расстояния, определяющей форму области. Напомним, что kNN 8-правило основывается на локальных объемах, определяемых с помощью априорно вводимой меры расстояния для соответствую­ щих классов. В данном параграфе исследуется скорость сходимости риска kNN 8-правила в условиях, когда исходные распределения приводят к некоторы:\-1 специальным типам связи между весами и 210
объемами, определяемыми с помощью той же меры расстояния, кото­ рая принята в самом правиле. Свойство (В, а) Будем считать, что распределение вероятностей F (х) и мера расстояния d (у, х) имеют свойство (В, а) в точке х для некоторых по­ ложительных чисел В и а, если существуют некоторые функции h (х) и В (х, Ф), такие, что вероятность и, вычис.,1енная для распре­ деления F (х) и окрестности {y:d (у, х) < е} точки х с объемом Ф можно записать в виде и=h(х)Ф+В(х,Ф)фl-f-a (1) длявсехФ,для которыхО~и~1,где \В(х,Ф)I<В. Числа В и а описывают в некотором смысле максимальную нели­ нейность зависимости веса от объема на выборочном пространстве. Как это следует из приводимых ниже теорем, скорость сходимости моментов распределения риска kNN 8-правила увеличивается с рос­ том а. С другой стороны, величина разности между значениями не­ которого момента и его предела увеличивается с ростом В. 4.12.1 . Скорость сходимости функций q7,, ... , fа(хЩ, ... , х<а>) Теорема.ПустьМ=2,k1(х)=k2(х)=k,п1= n2=п/2 и элементы матрицы потерь равны либо О, либо 1. Если 1) F(x I roi) и di (х, у) имеют свойство (В, а) для некоторых В > О, а>О; 2 о> (а>•- М ) распределение весов Ut , ... , и,,i-1,2, ..., , непре- рывно, то последовательность q1(х) в каждой точке сходится к пре­ делу q1 (х), определяемому соотношением (4) § 4.9 со скоростью н_е менее чем п-е, где е = min (1, а). Если дополнительно к условиям 1 и 2 выполняется условие 3) функции h1 (х) и h2 (х) никогда не оказываются одновременно положительными для одного и того же значения х, то последователь- ность q1 (х) сходится в каждой точке к пределу q1 (х) со скорос;ъю не менее чем п-а.k, Если дополнительно к условиям 1 и 2 выполняется условие 4) существуетчислоа> Отакое,чтоесли и{~а,j = 1,2, ..., б, t•- 12 М(и<1> <а>)1>сл(1 а)•- 12т - , ,..., , 1,...,ut ,._ ,/f;iх,...,х,i- , , о после- довательность ql, . ... ,ia (х1, ... , ха) сходится к своему пределу q1, . ... ,ia (х<1>, ... , х~~>) со скоростью, не меньшей чем п- 0 где е = = min (1, а). 1 Напомним, что uf, ... , и? представляют собой веса толерантных обла• ~тей. 211
Доказшпельство. Так как f (x/ffi;) и d (у, х) имеют свойство (В, сх), то l. и 1. h(х)Ф+В(х,Ф)Ф<1+е1,) h() 1m- = 1m --'---'-----'-----=---'----'---- = х Ф➔О ф Ф➔О Ф (2) и условие 2 теоремы§4.11 выпЬлняется. Из результатов§ 4.11 следует, что условия 1-3 этой теоремы являются достаточны­ ми для обеспечения сходимости q71 , ... ,ir, (x(l>, ... , х<6>) -+ -+ qi,, ... ,ir, (хш, ... , х<6>). Из неравенства (5) п .4 .11 .1 следует, что r, q. / (x(l), •••• х(6)) <J ••• snQ7 (t~, f~; x(D)) Х J,,...• 6 V D=I Хl◊Jd~(п/:~1' •••, п/;?+1)/(; +1)r,J+ +J... J11- 1 ~ 1 [Af(t/, ... , t?; x(I>, ... , х<6> )]1 Х хГ][dG·( t! ... tf )/ (..!!_ +1) 6 ] (3) • _i п/2+1 ' ' п/2+1 2 ' l=I ~n VD rдeQiv (/1, 12; x<v>) - индикаторная функция множества @1v(xV)={ij',tf;Фj(x(V);xп)<Ф1(x(V); Хп)}, l-=/=j; j=l,2. (4) Заметим, что без нарушения справедливости этого неравенства функции А1 (tl, ... , t?; x(l>, ... , х< 6 >) в первом интеграле правой час­ ти могут быть заменены 1. Учитывая условие 1 теоремы и вводя преобразование t1/(n 1 + 1) = uj = hi (х)Ф + В(х, Ф)Ф 1 +С1., по­ лучаем tv tv _ _:_l_<hj(x<v>)Ф+BФ 1 +e1,, (5а) 1 >,h1(х<v>)Ф-ВФ 1 +С1.. (56) п/2+1 n/2+1 Далее непосредственно можно проверить, что для любого w > О спра­ ведливо неравенство либо t,+t'! > w, (ба) либо t1+ t1< w; следовательно, (66) 212
Таким образом, область интегрирования в уравнении (3) можно ограничить следующим образом: @7 C6/J!V(W) л ((f;,fr):f1,tr>o, И tj+ff>W [1 = или tj < wv(w)t~\. (7) Так как распределение Дирихле ограничивается сверху произ­ ведением одномерных гамма-распределений (решите задачу 16), то можно записать Следовательно, для первого слагаемого в правой части неравенства (3) можно указать границу сверху Заметим, что 2 qj (x(D)) = s... sln= 1 1' ( tf, k) dtf dt~ {( t,, tr):t'j < hj (x(V)) tV} , (10) h1 (x(D)) 1 и область интегрирования полностью принадлежит 6l/J"r1(w), так что S Il [1(t~;k)]dtf~qi(x<v>)+p[t1+t~< _w o/JJ'D (W) i= \ или hj{x(D)) tv<tТ? < wv (w) tv]' hz (x(V)) l 1 l (11) где fi и tr - независимые величины, имеющие гамма-распределе­ ния 1' (tf, k). В работе [33] показано, что сумма t1+ tr имеет гамма-распреде­ ление с параметром 2k, а tfl (t1+ ~) - бета-распределение. Сле­ довательно, р t1:1 + fV>w или J fV<f'I!<wv(w)fD =р tV+t~>w l - h. (x<v>) j[ 1 i flt (x(v)) l 1 ' l l 1 213
00 с. < sу(у;2k)dy+5.ве(у;k,k)dy. (12) w Так как функция Ве (у; k, k) имеет максимум в точке у = 1/2 и Cz-C1 = В (w/(n/2+ l))a ' (13) [h1 (x(v)) +h2 (X(v))] 1+а то, используя разложение, приведенное в§ 4.10 (см. (39], с.100), по­ лучаем Итак, второй интеграл в правой части неравенства (3) можно ог­ раничить сверху. В частном случае, когда б = 1, А? (и:, ••. , и?; (1) (б))- 1 и•1 б х,..., х - для всех возможных значен и ul' ••• , а; и второе слагаемое в правой части (3) равно О. С другой стороны, подставляя (8) в (3), имеем S·--f(1- 11 [лr( t} , ... , t~ ;x< 1J, ... ,x<б>)j) • 1., .1. n/2+ 1 n/2-f -l / 214
хГ11dGi(_!}__ , ..., :? )/(..!:.. +1) 11 ]~ l=Il- n/2+1 n/-+I 2 ~s ...5(1- Г1 [Af( t/ , ..., t? ; x(l>, ... ,x<II>)]) Х , 1=1 n/2+1 п/2+1 хпг1r , у(tf; k)J dt} ...dt~ = i=lv=I (l-(k-J --l)/(n/2+1))k-f -l =r 1 1211 f1- S···S 11 [Ап( tl (1-(kt-1)/(n/2-1 -l))k+tJ [ . l=I I n/2+1 ' ... ... , __!J____; x(l>, ... , x<II>) П у(tf; k)]dt{ ...dt~. n/2+1 r,=\ (17) Теперь в соответствии с условием 4 теоремы существует_ число а такJе, что S...SП[Af( t/ , ..., t? ; x(I>, ... ,х<111)] х l=I п/2+1 n/2+1 хп[у(t"!;k)]dtl...dt~ = ri[S...sAf( tl ' ..., _1__; D==I ' l=I п/2+1 п/2-1--1 x(I>, ... , х<111)Х П ['\' (t~; k)] dtl ... dtf ~ (18) 1 D=:2 2 [a(n-t-1) a(n-t-1) 11 ] ~1 ~ 1 .f J}]1[у(tf; k)J dtl ...df? = =Г(a(n+l);k) 211 . (19) (20) Следовательно, второе слагаемое правой части неравенства (3) всегда меньше, чем ( 1- k+l) )<k+1>211 (1-Г(a(n+l);k)211J. (21) п/2+1 Объединяя соотношения (16)-(21) получаем, что для любого w > О q': 1(x<l), . .. ,x<ll))::::;:::(1-- k+I )-(k-t-1)21\lпll [q1 (x(D))+ /р "•' /1 - - .;::: n/2+1 V v=I +e-w ~ ~+ B[w (n/ +I] +(l-Г(a(n+l);k)211J . 2k-t-1 т /2)С1.] ) m=O т! [h1 ("(v)) +hu(x(v))]l+a (22) 215
Это неравенство содержит произвольный параметр w. Неравен• ство справедливо для любого значения w. Чтобы получить более точ­ ную верхнюю границу, требуется выбрать такое значение параметра w, которое обеспечивает минимальное значение этой границы. Ясно, 2k-1 что такое значение может быть, пос:к.ольку e-w ~ wm/ml для боль­ m=0 ших w монотонно убывает при неограниченном росте w. Предположим, что w медленно растет как некоторая сколь угодно малая степень n:w = n6.Множитель[1-(k+l)/(п/2 + l)J-<k+I)/ 211 211-I стремится к 1 со скоростью порядка п- 1 . Член e-w 2: wm/m! внут- m=о ри квадратных скобок стремится экспоненциально к О с ростом w. Следовательно, их произведение стремится к О быстрее, чем п- 1 , как и последнее слагаемое, содержащее неполный гамма-интеграл. Вто­ рое слагаемое в квадратных скобках, содержащее wCI,, стремится к О как nCl,<,- 11 . Таким образом, верхняя граница для q'l, . ... , ir, (х< 1>, ... , х< 6 )) схо- дится к qi, (х<1)), ... , q16 (х<6)) = qi , ..... ir, (x<l), ... , х<6)) со скоростью п-Р, где р - наименьшее из двух чисел 1 или сх (1 - 6) для любого положительного 6· Это завершает доказательство части 3 теоремы о скорости сходимости риска. Обсуждение. При увеличении В значение щ минимизирующее верхнюю границу, уменьшается, но сама граница при этом растет. Таким образом, величина в- 1 может служить критерием того, на­ сколько хорошо функция расстояния «cor ласуется» с исходными рас­ пределениями в точках х< 1 ), ... , х< 6 ). Если функции рас­ стояния оказываются «согласованными» с функциями плотности так, что В равно О, то слагаемые в приведенном выше выражении, зависящие от произвольного параметра w, выпадают и (1) (б) ( k+l )-(k+l)26 <tJ (6) q1 n . ,х<,...,х)~1- -- {q. . (х, ... , х)+ ,, ..., 16 n/2-'t- 1 1,, •··· 16 В этом случае сходимость не определяется произвольно малыми зна­ чениями h1 (x<v)) + h 2 (x(v)) в областях малых значений плотности смеси. Для l:, = 1 (когда а = 1) слагаемое . (l k+l )-2 (k+l)I w 2 ~ 1 wm+ m1п - ---'--- е- ~-- O<w<oo n/2 +1 m=O т! +В [w/ (n/2+ 1)]е1, 1 [h1 (x<v)) +h2 (x(v))] 1 +е1, 216
можно интерпретировать как добавок, обусловленный применением неподходящих функций расстояния в точках x<D). 4.13. Предварительная обработка для правил ближайших соседей Методы кластерного анализа (см. гл. 5) являются методами пред­ варительной обработки, согласно которым каждый кластер наблю­ дений заменяется вектором средних и ковариационной матрицей. Без какого-либо вида предварительной обработки kNN-правила могут оказаться сложными с точки зрения необходимого объема памяти вычислительного устройства или времени вычислений. В работе [29] решалась задача отыскания подмножества таких обу­ чающих выборок, когда 1NN2-правило, основанное на таком под­ множестве, могло бы правильно классифицировать все обучающие выборки. В п.4.13.1 представлена одна процедура, которую можно использовать при предварительной обработке для kNN-правил. 4.13.1. Процедура предварительной обработки Пусть х1 , х2 , ... , Хп есть п векторов (не обязательно различных). Переставим эти векторы таким образом, чтобы получить новую пос­ ледовательность1 ) х1, х2, ... , хп. Первый элемент х1 выбирается произвольно из исходной после­ довательности х1 , х2 , ... , Хп- Предполагается, что т векторов уже упорядочено, т < п, (т + 1)-й вектор выберем следующим обра­ зом: определим сферу Sт (х) как множество точек z, которые нахо­ дятся от х на расстоянии, равном или меньшем r, измеряемом с по­ мощью эвклидовой меры расстояния d: Sт(х)={z:d(х,z)<r}. (1) Пусть R (т) обозначает такой наименьший общий радиус т сфер с центрами в первых т упорядоченных точках, что объединение этих сфер покрывает все п рассматриваемых векторов: R(m)~min{r:x;Е USr(xi)i=·1,2, ..., п}; (2) /=1 обозначим Ст объединение первых т таких сфер: т Ст= USr(xi),r=R(m). /=! (3) 1) Не исключено, что два вектора в последовательности х1 , х2 , ... , Хп ока­ жутся идентичными, поэтому более приемлемым для новой последовательно- сти было бы обозначение х8 (i), х8 ( 2 ), ... , х8 (п), rдe___ s (f)-номер i-ro эле- мента в новой последовательности . 217
При таком построении по крайней мере одна1 > точка xi обязательно находится на границе Ст (обозначим ее Ст) и не принадлежит упо­ рядоченной последовательности х1, х2 , ... , хт. Эту точку выберем11 > в качестве хт+ 1 . Пусть N (т + 1) - индекс (наименьший) вектора в упорядочен- ной последовательности х1, х11 , ... , ~т. являющегося ближайшим к xm+ 1; положим N (1) = О. Эта процедура построения очень похожа на максиминную клас­ терную процедуру, описанную в гл. 5 и предложенную в [41]. Если т xi Е U S7 (xl), то для любого i можно утверждать, что х 1 находится i=I на расстоянии R (т) по крайней мере от одного из т первых упоря· доченных векторов или что min {d (xi, xl): 1 ~ j ~ т} < r. Следовательно, или R(т)=min{rmind(xi, xi)~r длявсех i 1 }, l<i :;т R(т)= max miп d(xi, xi), l~i,;;n l<J,(_m (4) (5) которое называется максимальным значением минимального расстоя­ ния. На основе этого выражения можно предложить итеративную аJirоритмическую процедуру, которая упростит вычисления R (т); (5) можно переписать следующим образом 3 >: л - шах {А (т, Х;)}, x(xtl!' \xljj=:;} где А (т, Х;) t:,. {miп [d (xi, хт), А (т--1, хд оодлявсехxi;т=1. t,, (ба) (66) Таким образом, упорядочивание можно выполнить рекуррент­ ным вычислением значений п коэффициентов А (т, х;), ... , А (т,хп) на каждом шаге, требующем запоминания 11 действительных чисел. 1) Если R (т) =I= О, то все xi Е Ст не совпадают с каким-лпбо из первых упорядоченных векторов. 2) Если в Ст больше, чем один вектор, то следующим упорr~доченным век- тором принимаем тот, который имеет меньши~·1 иrт·tскr. • ~ ) Если две выборки ощшаковые, тu требусто1 н,::суще,~·п,,,1ll"'·· ИJШ,,1е11и,~
.4.13.2. Свойства процедуры 1. Если дана упорядоченная последовательность векторов х1 , х2, •• ... , хп, то можно построить последовательности 1> N (i) и R (i): N(i)={mi~{k;d(xk,xi)~d(xi,x 1), l~j; k~i -1}, i::;=1, (7 а) о,i=1, R(i)= ' . ' ,,, ' { dfx1+1 xN (i+li\ i=;=n О, t=n. 2. Последовательность R (т) невозрастающая, поскольку R(т)= max miп d(xi, xf). 1-, ;i<;;n 1<;/,;;т (76) 3. Последовательность х1, х2, ... , хт может быть укорочена до m-ro вектора; при этом гарантируется, что выборки хт, xm+t, . .. , xn находятся на расстоянии, меньшем R (т - 1), по крайней мере от одного из векторов х1, х2 , ... , х171- 1 . 4. В упорядоченной последовательности х1, х2 , . •. , хт нет двух точек, которые находятся друг от друга на расстояни1;1, меньшем R (т - 1). Это утверждение является следствием того, что R (i) является убывающей функцией от i. 5. Если R (т) < l/2R (т - 1), то все наблюдения могут быть покрыты т неперекрывающимися сферами с общим радиусом, где каждая сфера будет содержать хотя бы один вектор. Действитель­ но, в соответствии с построением сферы имеют центры в точках х1, х2, ... , хт и отделены друг от друга по крайней мере на расстояние R(т- 1).ТаккакR(т)~l/2R(т- 1),тонесуществуетточек х в выборочном пространстве, расстояния от которых до каких-либо х1 и х/ оказалось бы меньше, чем R (т), для 1 ~ i, j ::;; т. Следова­ тельно, такие сферы не пересекаются. 6. Если существуют М разъединенных групп векторов, для кото­ рых максимальное значение внутиrрупповоrо расстояния меньше половины минимального межrрупповоrо расстояния 2 ), то R (т) < <l/2R(т- 1). 7. Пусть у - вектор, не обязательно отличный от любого век­ тора х;, i = 1, 2, ... , п. Обозначим x~I k-й ближайший к у вектор в последовательности х1, х2, ... , хт. Если d (x~J, у)< l/2R (т), то xm+i =;= xUI; это указывает на то, что xm+l не может быть ближайшим соседом у. Таким обра­ зом, запоминая расстояние d (у, xl:J) от у до его текущего ближай­ шего соседа и сравнивая его с R (т), можно определить, окажется 1 ) N (i) - индекс того неупорядоченного вектора, который является ближайшим к вектору х1 и имеет порядок, меньший i. 2 ) Межгрупповое расстояние между группами I и 2 определяется как наи­ мень~ее расстояние d (х;, х1), где х; принадлежит первой группе, а х1 - второи. 219
ли вектор xm+t ближайшим соседом у до того, как будет вычисле­ но расстояние d (у, xm--1 - 1). 8. Другой способ установить возможность для вектора xm+t оказаться одним из k бJ1ижайших к у векторов среди всех векторов х1, ... , xn до вычисления расстояния d (у, хт+ 1 ) состоит в следую­ щем. Следует подстроить и запомнить наилучшие(наибольшие) зна­ чения нижних границ расстояния ctr у до xi, i = 1, 2, ... , т, по­ скольку эти векторы упорядочены. Затем, основываясь на знании R (т), N (т + 1) и текущего значения наибольшей нижней грани­ цы для d (у, х1), можно определить необходимость вычисления расстояния d (у, xm+'). Пусть D (i) - текущая наилучшая (наибольшая) нижняя гра­ ница для всех расстояний d (у, х1), i = 1, 2, ... , п; пусть xJ:J _ k-й ближайший сосед к у среди х1, ... , хт (при условии, что т > k). До определения k-ro ближайшего к у соседа все расстояния d (у, xi), i = 1, 2, ... , п, неизвестны и, следовательно, их начальные значения можно принять равными О. Процедура начинается с вы­ числения d (у, х1), i = 1, 2, ... , k. ЗатемзначенияD (l),D (2), ... ,D (k) могут быть приняты равными d (у, х1), ... , d (у , xk) соответственно. Так как значение R (k) известно (поскольку R (k) = = d (xk--1- 1, xN <k+ 1))), то как следствие простого векторного соотношения имеем d(y, xk+ ')>d (у, xN(k--1 -1))-d (xk+ 1, xN <Ч '>), d(у, xN (k+ 1>)>D(N(k+1)) и, следовательно, d(у,xk+1);;;;,,D(N(k+1))- R(k). Теперь можно уточнить1> наибольшую нижнюю границу D(k+1)= max{О,D(N(k+1))- R(k)}. Возникает вопрос: может ли вектор xk+ 1 быть одним из k бли­ жайших соседей среди векторов х1, ... , хп. Это будет, действительно, так, если d (у, xkH) больше, чем расстояние от у до его k-ro бли­ жайшего соседа среди х1, ... , xk, т. е. если d (у, x~kJ) < D (k), то хН1 не может быть одним из ближайших соседей у. Следователь­ но, d (у, xk+1) не нужно вычислять и проце.Цуру вычисления это­ го расстояния можно исключить из процесса распознавания. С дру­ гой стороны, если d (у, xikJ) ~ D (k), то, согласно проводимым здесь рассуждениям, вектор хн 1 может быть одним из k-x бли­ жайших соседей у и расстояние d (у, хН1 ) нужно вычислить для оконечной проверки. В этом случае значение D (k + 1) изменяется 1) С этого момеита значения D (i), i = l, ... , п, последовательно могут уточняться, однако тот же результат получается, если эти коэффициенты в даниый момент не пересчитываются. 220
и принимаеrся равным d (у, xk+l). Последний шаг на этом этапе состоит в изменении значения D (k + 2), как это делалось ранее: D(k+2)=max(О, D(N(k+2))- R(k+1)). Такая процедура повторяется, этим проверяется необходимость вы­ числений для хН2, ... , хп. Общее описание процедуры проверки точки хт (после выполнения ее для точек х1, ... , xm-1, т ~ k) может быть следующим; если 100 ~ / БезnpciJ6.~umcльнoii 1 DOP/l отки 90% <., !::>. <::,_ ': ::S :::, "' "" <.:; "" ~~ос, "" ~ ~ 10 100 7000 Размер п обучающей Оыоорни Рис. 4.10. Эмпирическая верхняя граница числа вычислений расстояния для lNN 2-правила с 10%, 20% и 90%-ными доверительными уровнями d {у, х~]._ 1 ) < D (т), то расстояние d (у, xm) можно не вычислять (опустить). Если d (у, х):!_ 1 ) ~ D (т), то значение d (у, xm) долж­ но быть вычислено, после чего следует положить D (т) = d (у, хт). В каждом из эт11х случаев изменяется наибольшая нижняя граница дляd(у,xm+1):D(т+1)=max(О,D(N(т+1))- R(т)). Следует отметить, что описанную процедуру можно немного улучшить. Расстояние вычисляется каждый раз, скажем, между у и xm, коэффициенты D1 можно пересчитать для значений i, мень­ ших т (а также больших т). Если d (у, хт) вычисляется, значение R(т- 1)=d (хт, xN<m>) известно и d(у, xN<m>)>D(т)- - R (т - 1), то D (N (т)) можно изменить, заменив ста­ рое значение D (т) значением D (т) - R (т - 1), если последнее больше D (N (т)). Аналогично можно изменить значения D(N(N(т)))ит.д. Достоинство такой модифицированной процедуры состоит в сле­ дующем: дополнительно сокращается число необходимых вычисле- 221
ний расстояния между у и другими векторами х1 ; значение D (N (i)) может быть слишком большим как нижняя граница для d (у, xN< 1>); это позволяет сразу опустить вычисление соответствующего расстоя­ ния. Благодаря такому пересчету можно достичь большего сокра­ щения числа вычислений. Пример предварительной обработки. Чтобы получить представ­ ление о зависимости количества ооераций вычисления расстояния в практических задачах от объема п обучающих выборок, было про- Без прсiJDадитвльноil • ,odpnffvmкu 50 100 200 500 100Q Размер otlg'fflIOЩCif Dыоорки Рис. 4.11 . Размер классифицируемой выборки, при котором возможно сокра­ щение суммарного числа вычислений расстояния для lNN 2 -правила по край­ ней мере с 90%-ным эмпирическим доверительным уровнем ведено моделирование для п = 50, 100, 500 и 1000. п векторных на­ олюдений были получены из двумерного нормального распределе­ ния с единичной ковариационной матрицей. Используя процедуру предварительной обработки (п.4. 13.1), моделируемую выборку упо­ рядочивалJ:i, чтобы получить последовательности xi, R (i) и N (i), i = 1, 2, ... , п. Другой выбор независимых векторов,подлежащих классификации, содержал 1000 выборок из того же распределения. Каждый классифицируемый вектор рассматривался последователь­ но как вектор у, и определялось число вычислений расстояния, не­ обходимое для отыскания первого ближайшего соседа (k = 1) у среди х1, х2, ... , хп. Эти вычисления повторялись 1000 раз для каж­ дого значения п. Вместо графического представления оценок среднего значения и стандартного отклонения, вычисленных по результатам 1000 вы- 222
борок как функций от п вычислялись эмпирические 100%-50%- и 90%-ные уровни (рис. 4.10). Основной вывод из прю~еденного гра­ фика можно сфомулировать следующим образом: при размере обу­ чающей выборки п = 1000 для 900 и 1000 классифицируемых векто­ ров для определения их ближайшего соседа потребовалось менее 86 вычислений расстояний, и без предварительной обработки - 1000. Заметим, что в рассмотренном примере моделирования умень­ шение сложности, достигаемое с помощью предварительной обра­ ботки, нелинейно зависит от размера обучающей выборки. С ростом размера выборки п отношение числа действительно выполняемых вычислений расстояния к числу вычислений, требуемых обычно без предварительной обработки, стремится к О. Этот результат часто ис­ пользуется, чтобы уменьшить сложность реализации правил бли­ жайшего соседа. По результатам такого моделирования можно эмпирически уста­ новить, сколько вычислений расстояния могло бы потребоваться, если бы число подлежащих классификации наблюдений отличалось от 1000. Из полученных данных следует, что если размер классифи­ цируемой выборки превышает значение функции размера п переупо­ рядочиваемой обучающей выборки (рис. 4.11), то, ориентируясь на эмпирический 90%-ный уровень с точки зрения суммарного числа вычислений расстояния, целесообразна предварительная обработка обучающей выборки [п(п + 1)/2 вычислений] с последующим при­ менением указанной процедуры отыскания ближайших соседей 1 >. 4.13.3. Применение кластерного анализа Свойства 4-6 указывают, как можно использовать описанную процедуру построения для локализации (выделения) кластеров на основе наблюдений значений R (т). Этот способ аналогичен про­ цедуре кластерного анализа (см. гл. 5). Один недостаток этой про­ цедуры локализации кластеров состоит в том , что она основывается на эвклидовой мере расстояния; следовательно, наличие несферои­ дальных кластеров может послужить причиной неприемлемости этой процедуры. После осознания этих трудностей был развит метод выращивания кластеров (см. п. 5.4 .9). 4.13.4. Применение kNN-правил kNN 2-правило, рассмотренное в работах [22, 25), неудобно в том отношении, что при его применении требуется запоминать весь объем данных. Поздне~ в [23) было предложено «правило ближайшего со­ седа со сгущениями», предполагающее предварительное преобразо- 1 ) Читателю предлагается проверить, что число вычислений расстояния можно дополиительио уменьшить, если учесть априорные сведения об исход­ ных распределения:~:. Например, ес.1и можно оnреде.1ить области равной плот­ ности, то д.~я каждой выборки достаточно проверить лишь принадлежность К ТАКОЙ об;rастп.
вание данных такого вида, чтобы выделить подмножество, на осно­ ве которого можно правильно классифицировать (с помощью 1NN2· правила) остающиеся векторы. Общей тенденцией здесь можно счи­ тать стремление уменьшить размер обучающей выборки, используе­ мой при выполнении каждой операции классификац~и, чтобы умень- шить число необходимых вычи­ слений расстояния, а также объем памяти. Процедуру, предложенную в данном подразделе, можно ис­ пользовать для уменьшения чис­ ла вычислений при выполнении каждой операции распознава­ ния. При этом строится пере­ упорядоченная выборка xt, ... , xrn и вычисляются связанные с 100 500 п ней последовательности N (i), R Рнс. 4.12 . Гипотетические гранпцы для эмпирических рисков как функ­ ции от числа параллельно обрабаты­ ваемых элементов обучающих выбо- рок (i), i = 1, ... , т, получаемые на этапе предварительной обработ­ ки. Приводимый ниже пример иллюстрирует эти вычисJlе­ ния. kNN 3-правила. Основное отличие kNN 3 -правил от kNN 2-правил состоит в том, что для kNN 3-правил обучающая выборка разделена на классы, а kNN 2-правила оперируют с полной объединенной обучающей выборкой. Следовательно, чтобы применить описанную выше предварительную обработку при kNN 3-правилах, необходи­ мо предварительно обрабатывать отдельно каждую обучающую выборку. Для уменьшения сложности kNN 3-правила можно использовать дополнительные возможности. Например, в последнем параграфе отмечалось, что поскольку все векторы в переупорядоченной выбор­ ке рассматриваются поочередно, то область, в которой находится k-й ближайший сосед у, монотонно уменьшается. Более точная фор­ мулировка следующая: после того как п-й вектор в переупорядочен­ ной выборке обработан, становится известным, что ~ m<,d (у, x[kJ)<, Вт, где В-~ {0, tn=1,2, •••, fl, _т- шax[Bm_ 1 ,d(y,x!,~1)-R(m-l)], k<m<_n; - [k] Вт=d(у,Хт). Таким образом, оценку функции плотности k;I (п; + 1)Ф 1 для i-ro класса можно ограничить сверху и снизу 1 >. Следовательно, для 1) Теоретически оценки функциi'r плотности в точке х, используемые в kNN 3-правиле, можно ограничить сверху и снизу до того. как будуr изу­ чены .все обучающие выборки, 224
оценки риска при принятии класса roi можно указать также верх­ нюю и нижнюю границу на каждом шаге для каждого класса, по­ скольку риск является функцией объемов толерантных областей. Если обучающие выборки обрабатываются параллельно, то на неко­ тором шаге оценка риска окажется меньше некоторой величины, поэтому параллельную обработку можно закончить на этом шаге, не обрабатывая оставшиеся выборки. Пусть, например, Гт (i) и Гт (i) обозначают нижнюю и верхнюю границы эмпирического риска kNN 3-правил, полученные на основе !!_m и Вт. Рис. 4.12 иллюстрируют несколько идеализированную сходимость этих границ риска к пределам. Пример. С помощью моделирования исследовался случай двух классов (М =2). Использовались генераторы псевдослучайных чисел. Для класса 1 было получено 500 векторов из двумерного нор мальноrо распределения с ко­ вариационной матрицей 62 1 и вектором средних (-2, -2]; для класса 2 по­ лучено также 500 векторов с ковариационной матрицей cr2 1 и вектором сред­ них [2, 2]. Эти две векторные выборки были предварительно независимо обра­ ботаны, и для них построены последовательности упорядоченных векторов и связанные с ними последовательности {R (i)}, {N (i)} для каждого класса. Затем 1000 векторов, подлежащих классификации, были выбраны случай­ ным образом из двух этих распределений. Численные расчеты для 1NN 2 -правила оказались следующими: числа вы­ числений расстояния, требуемого для принятия решения о классификации одного вектора, оказались равными 3, 10 и 19 для 10%-, 50% • и 90%-ных уров­ ней соответственно. Среднее число вычислений расстояния равнялось 8,2 (вместо 1000 вычислений, которые потребовалось бы выполнить без предвари• тельной обработки). Для сравнения укажем, что для правила ближайшего соседа со сгущением, чтобы получить те же результаты, потребовалось 16 вы­ борок. 4.14 . Адаптивные пороговые элементы 4.14.1. Линейная дискриминантная функция Способ решения задач классификации построением границ в вы­ борочном пространстве для разделения категорий был предложен в работе [ 1). В данном параграфе кратко описаны некоторые аспекты этого подхода, чтобы указать на его связь с результатами, изложен­ ными в этой главе. Минимальное значение вероятности ошибочного решения при двух категориях (М = 2) и нормальных распределениях f (xli) Е Е ~ определяется формулой (2) п.3.4.1.Если ковариационные мат­ рицы распределений рассматриваемых классов одинаковы, т. е. ~ 1=~2=~. то оптимальное правило выбора решения прщrимает вид принять ro2 , (1) принять ro 1 . 225
Можно ввести вектор и скалярную величину do= - - 1 dt(m1 +m2)-- 1 ln__!:.L_ . 2 2 1-Р1 Тогда правило (1) запишем следующим образом: d__dt _, d f>О:принять())2, -- хгot < О: принять~ш 1 . ж1:~~++---+---+-~r-- Xz. o---+-t-+--------11-------11 / 11-------0 AiJrJnmи8нrJR цСЛЬ §Пpf18ЛCH/JR Рис. 4.13 . Линейный пороговый элемент K8rJнmo/lrJmвль Рвшвмв (J)z,CCЛIJ;;,0 (J} 1 ,всла</! (2) (3) (4) На основании выборок xt, х1, ... , х~, из класса 1 и xf, х~, ... , х~. из класса2можнооцеюпьdиd0, а (5) можно рассматривать как гиперплоскость, разделяющую две рас­ сматриваемые категории. Возможный способ реализации уравнения (5) изображен на рис. 4.13. Обучение. Пусть d1 и d2 - возможные значения статистикиd для двух соответствующих категорий. Определим ошибку классифика- 1 ции вектора Xs: et = dl-di. s s (6) Пусть далее д [Xl] У~={; (7а) • t:, d'= (d,d0) (76) 226
и функция средней ошибк11 (8) где g1 ( •) - подлежащая определению функция. В общем случае может оказаться невозможным отыскать такое c:i, которое минимизирует значение функции (8). Пример. Пусть d1 = (-1)1 и gi (е~) =(JI у;-( 1/)2. Тогда (8) принимает вид g (d) В [35] показано, что рекуррентный алгоритм 1 при О<μ<----­ max [11 Ys 1/21 ( 10) ( 11) будет сходиться к такому значению d, которое минимизирует g (d). Для луч• шего понимания сущности обучающих процедур, подобных описанной, мо­ гут оказаться полезными некоторые результаты исследований регресснониых функций с привлечением методов стохастической аппроксимации (гл. 2). 4.14.2. Нелинейная дискриминантная функция Более общий вид по сравнению с уравнением (4) разделяющей поверхности для двух категорий можно описать следующим обра­ зом: h (х, d) +do {> О: принять ())2, < О: принять <ui, L где h- нелинейная функция. Например, h (х, d) = [~ (хi - d1)21 1 / 2 • f=I Другие примеры при L=2 h(х, d)= (х2- d2)/(x1- d1) h (х, d) = arctg-1 (xix1). Методы оценивания d при нелинейных функциях, подобных ука­ занным, несомненно, заслуживают особого внимания. Такие нели­ нейныефункции позволяют учитывать дополнительные сведения о ре­ шаемой задаче и в конечном счете улучшить качество классифи­ кации. Более детально эти вопросы обсуждаются в гл. 6. 227
4.14 .3. nолиномиальные дискриминантные функции Произвольная нелинейная дискриминантная функция может быть аппроксимирована полиномиальной. В данном подпараграфе описана одна процедура оценивания параметров, определяющих полиномиальную границу решенйя (более подробные сведения об этом можно найти в работе (31]). Рассмотрим случай двух категорий (М = 2) с fi (х) не обязатель­ но нормальными и обучающими выборками {х~};!: 1' i = 1,2. В ка­ честве оценок для ft (х) примем f;(x) = - 1 ~ (2n)-Lf2 o-L ехр!--1- {, (x;-xi1)J. (12) ' п·~ 2а2 ~ s 1 s=I J=1 Найдем теперь такой полином р (х) = P1f1 (x)-P2 f2 (х), (13) с помощью которого можио было бы принять решения следующим образом: р (х) {> О: категория ())1 , < О: категория ()) 2• (14) Чтобы получить полиномиальную форму, перепишем показатель экспоненты в (12) 1/, 1 --- ~ (x1-xi.) 2 = --- [х1 x-2xtх1+(х1)1х'] 2а2 .~ s1 2а2 ~ s s• 1=1 что позволит также записать f;(х)- ( 2 n)Lf' aL ехр ( ~ 1.: )[:, ,j, ехр ( х•::) ехр (С:)] , где Далее разложим ехр (х1х~/о2) около нуля в ряд: ехр(xlх~)=1+ xtх~+-1[xlх:]2+...= 1+ а2 а2 21 а2 L L L + 1~ 1+1 ~~ i i...L ~~XkХ81, 21а'~ ~Xk,Xk,Xsk,Xsk, 1 ... k=I k, =1 k,=1 Член h-ro порядка в этом разложении имеет вид 228
rде Таким образом:, f;(х)= ----ехр{- xtх}[-1 ~ ехр(с~) ~ - 1 - Х (2:rt)L/2 "L 2112 n;~ ~ 02h v s=I h=O Исходное выражение для оценки f~ (х) запишем более компактно: (15) L L L pi(x)=d~+~ dtxk+ ~ ~ d~,. k,Xk,Xk,+...+ k=I k, =k,k,= 1 L L +~...~dkik k xk,xk.• • ·xkh+ ... , ~ ~ 1' 2,•••I h kh=kh-l k1= 1 (16) а 1ni (cl) di=- ~ ехр _s о п;~ а2 s=I dt"k,, •••kh = :i s!ехр(::)r<12hz1!z:! ...zL1]/~/X~i)zj (17) -L с ~ Zk=h. k=I Полиномиальную дискриминантную функцию теперь можно за­ писать в виде (18) где функции pi (х) определяются формулой (16), а оцениваемые па­ раметры в (16) определяются согласно (17). (Покажите, что pi (х) представляют собой ряды Тейлора отно­ сительно точки х = О.) Априорные сведения. В соответствии с сущностью байесовского подхода к оцениванию можно было бы надеяться, что имеются пt, i = 1, 2, выборок, по которым априори вычисляют оценки (19) 229
Затем наблюдаются текущие выборки размерами пr, i = 1, 2, на ос• нове которых формируются оценки (d~)nf'""' (dk,, k2 , .. ,. kh) n1 z. (20) Апостериорные оценки, вычисляемые по суммарной выборке, можно записать с п = пf + nl сл~дующим образом: (dl) nl (dl) n? (di) о=nl+п, опl+п12+пр оп;2• nl (i )- i (i )1+ k1,k2, ... ,khп-- 1+2 k,,k,, ... ,khni п1 п1 nf (d1 )2 -t 1 z k,. k,,..., kh ni• ni +n1 Полиномиальная дискриминантная функция в принципе позво­ ляет вводить имеющиеся априорные сведения в нелинейную зада­ чу. Однако это довольно сложная нелинейная функция. Представ­ ляется, что более широкое применение на:йдут другие простые не­ линейные границы решения. Непросто представить себе проблемы, в которых задачу учета априорных знаний можно легко решить при использовании представления (16). Но результаты будущих иссле­ дований трудно предвидеть, так что это утверждение через некото­ рое время может оказаться несправедливым. 4.15. Адаптивное построение выборочного множества Адаптивное построение выборочного множества уже обсуждалось в п.4.3.1 применительно к задачам классификации в теории распоз­ навания образов. Полезные сведения об этом вопросе можно найти в работах [17, 18). Пусть ni - размер классифицированной выборки из класса (J)i, i = 1, 2, ... , М. Выборки из класса (J)t группируются в подмножест­ ва или подклассы (J)i/, j = 1, 2, ... , Mt, Подмножество (J)tJ характе­ ризуется вектором средних m1 (j) и радиусом t (еще не определенным). Эти подмножества выделяются следующим образом: когда регистри­ руется первый вектор наблюдения из класса (1) 1, он относится к под­ классу (J)н; mi (1) принимается совпадающим с этим вектором; число выборок Mil, находящихся в окрестности mi (1), полагается равным 1; если второй наблюдаемый вектор из класса (J)t находится от mi ( 1) на эвклидовом расстоянии1>, не превышающем заданного значения t, он относится к подмножеству (J)il, mi (1) изменяется и полагается равным Мн = 2; если же расстояние между вторым наблюдаемым вектором и m1(1) оказалось больше t, то этот вектор относится к но- L 1 ) Эвклидово расстояние между двумя векторами х и у равно [ ~ (xi - i=1
вому подклассу ro 12 с вектором средних m1 (2), равным полученному вектору, и принимается М 12 = 1. Эта процедура продолжается до тех пор, пока все выборки раз­ мером ni для каждого из М классов не окажутся сгруппирован­ ными. Плотность вероятности наблюдаемых векторов из класса ro 1 ап­ проксимируется суммой многомерных нормальных функций, j-я функция из которых имеет ковариационную матрицу 021, вектор средних m1 (j) и весовой коэффициент М 11 : Mi L f~(х) =I Миехр[- 2 : 2 I (xk -tn1k (j))2 ], (1) /=1 k=I где m1k (j) - k-я компонента вектора щ (j). Правило выбора решения теперь можно записать в обычном ви­ де: принимается класс roa, если ~ 1~ Jм fa(x)Pa=max\f1(x)P1 i=I• I (2) Следует отметить следующие недостатки этого подхода: 1) значение радиуса t должно быть задано априори1>; 2) нормальная весовая функция может не соответствовать ис­ тинной плотности вероятности f t (х), но строго обосновать здесь дру­ гой подход тру дно. 4.16. Кусочно-линейные дискриминантные функции Линейная дискр иминантн ая функция была рассмотрена в п .4 .14 .1 . Здесь обсудим целесообразность использования кусочно-линейной дискриминантной функции [1]. Для простоты положим М = 2. Рас­ смотрим пример, который иллюстрирует рис. 4.14 . Зесь h1 (х), h2 (х), h 3 (х) - три линейные функции; кусочно-линейная функция h (х) представлена ломаной линией АВСD.Решения при данной дискри­ минантной функции принимаются·следующим образом: Принимается класс ro1 , если h1 (х);;,, О, (l) Принимается класс ro 2 , если h 1 (х) < О. В общем случае кусочно-линейную дискриминантную функцию можно записать в виде h(х)=щах(h1(х)}~1. (2) 1 Каждая функция h 1 (х) разделяет выборочное пространство на две части. Следовательно, с помощью К функций h 1 (х) (называемых вспо­ могательными дискриминантными функциями) выборочное про- 1) Это может оказаться преимуществом с точки зрения статистика, имеющеrо практический опыт решения задач распознавания образов. 231
А /hт(Ж)=О + hz(Ж)=O странство можно разбить на 2к обла­ стей. Каждой из них поставим в соот­ ветствие код (1 или -1) в зависимости от того, какой из двух классов (ro 1 или ro 2) принимается в данной области. / Теперь границу (2) можно реализо­ вать с помощью пороговой бинарной ло­ гики (ПБЛ). ПБЛ реализует ht (х) в ви­ де знаковой функции sign [h; (х)]. На­ пример, cor ласно рис. 4.14, h(х)~О,еслиh1(х)~О,или h2(х)~О,илиh3(х)~О. (3) Эта функция реализуется с помощью следующей знаковой функции: Рис; 4.14 . Кусочно-линейная дискрнминантная функция sigп [h (х)] = sign {sign [h1 (х)] + sigп [h 2 (х)] + sigп [h 3 (х)]+2}. В общем случае дискриминантную функцию (2) можно записать в виде sign[h(x)] =sign(~ 1 sigп[h;(x)]+(K-1)}. (4) Реализация функции (4) с помощью ПБЛ иллюстрируется рис. 4.15. Возможна и другая реализация функций h; (х) с применением адаптивных пороговых элементов: Принимается класс ro 1 , если d~x + dto > О, Принимается класс ro 2 , если d~x + d 10 < О. (S) Легко показать, что при некоторых условиях дискриминатор с кусочно-линейной границей решения эквивалентен классификато­ ру, основанному на минимальном эвклидовом расстоянии. Пусть d (х, xl') - наименьшее расстояние между неклассифицированным вектором х и элементами обучающей выборки из класса ro 1. Тогда d(x, xi) = min (x-xf)t(x-xi) = min (х1 х-2 (xi)1х + (xi)1xi). j=l,2,..., М (6) Разумный способ принятия решения может основываться на провер­ ке неравенств: 232 Принимается класс ro1, если h (х) = d (х, х2) - d (х, х1) ~ О, Принимается класс ro2, если h(х) = d (х, х2) - d (х, х1)< О. Подставив (6) в (7), получим (7) h(х)= -~ (x2)fх+(x2)f(х2)+2(x 1 )fх- (х 1 )1х 1
или в общем виде h(х)= max {-2(xf)tх+(xi)1xi}f=1 . Очевидно, что функция (8) имеет вид (5). К настоящему времени еще не найдены какие-либо общие про­ цедуры обучения при кусочно-линейных функциях. Первые предло­ жения в этом направлении были сформулированы в работе [36). В работах (2, 3] рассмотрены другие подходы к этой же задаче, кото­ рые приводят к чрезмерно сложным алгоритмам. Рис. 4.15. Структурная схема ПБЛ-реализации кусочно-линейной дис1.рими­ нантноi\ функции Подход к задаче классификации, основывающийся на кусочно­ линейных границах решения, представляется полезным в тех слу­ чаях, если имеются априорные сведения о том, как следует рас­ положить К линейных границ. Недостаток этого подхода состоит в следующем: он не позволяет непосредственно учитывать информа­ цию о локальной корреляции. Недостаток устраняется при переходе к кусочно-нелинейным дискриминантным функциям. Конечно, мож­ но иметь в виду, что для нелинейных функций возможна аппрокси­ мация с помощью кусочно-линейных функций. Задачи 1. Пусть с помощью оценки правила, обеспечивающего минимальное значение условного _ри~ка при матрице-потерь Lij = 1 - бij принимается решение а, если Pafa (х) = max {P;f; (х)}, Покажите, что применение l kNN 2-правила фактически означает введение предположения Pt = n/n (свойство 4 этого правила). 2. Предположим, что L = 2, М = 2 и из этих категорий даны обучаю- щие выборки (рис. 4.16). • а) Если в kNN1- и kNN2 -правилах использовать в качестве меры расстоя­ ния d(x, У)=[~ (x;-Yi)•] 1 ' 2 =/х-у/, I=1 какие выборки окажутся классифицированными неправильно? 233
б) Предположим, чrо категория 2 характеризуется многомерным и·ор• мальным распределением, а категория 1 - смесью двух нормальных распре­ делений и что все векторы средних и ковариациоиные матрицы оценены. По• кажите, что существуют фактически три меры расстояния, определяемые чис• лом категорий и занятой областью выборочного пространства. в) Сформулируйте ограничения иа п, L и М, при которых можно при• меиить kNN1• или kNN2-правила для решения задач подобного типа, а также условия применимости подхода, излож~нного в б. 3. Пусть х1 , х2 , ... , Xn - обучающая выборка размером п в двумерном пространстве (рис. 4. 17). Предположим, что задана каким-либо образом операция установления соответствия между векторным параметром tti и каж­ дым элементом выборки х, пусть значения пар (х;, а;) хранятся в запоми­ нающем устройстве. Предположим далее, что имеется только М = 6 раз­ ных векторов at и с каждым из них связано п/6 обучающих выборок. Пред­ положим, что выборки, отнесенные к каждому вектору а;, получены из усеченного многомерного нормального распределения. Плотность каждого кластера в его центре (сгущение наблюдений) относительно высока. а) Покажите, почему при мере расстояния d (х, x1i)= 1х - xk 1, k= 1, 2, ... , п, 1NN 2 -правило будет мало результативно, даже если классы (вектор• иые параметры) IX], а2 , ..• , ав разделены. б) На основании результатов гл. 2 покажите, что если ввести шесть мер расстояния вида d; (х, ai) = (х - a;)l:r. 1 1(х-а;),i=1,2, ..., 6,тове• роятность ошибки окажется равной нулю. 4.а) Покажите, что kNN 1 - , kNN 2 - и kNN 3 -правила могут обеспечить ве• роятность ошибки, равную нулю, для произвольных значений L, М и n, ес­ ли плотности f (х I i) сферически симметричны и (f (х \ i), f (х I j)) = О, i=f=j. На рис. 4.18 изображены выборки при М = 3, L = 2. б) Может ли kNN1-правило привести к ошибкам для некоторых зна­ ченийkиPi,i=1,2, ..., М? в) Ответьте на вопрос п. б для kNN 2-правила. г) Ответьте на вопрос п. б для kNN 3-правила, рассматривая возможные значения k1 , k2 , kз. д) Укажите точно, когда более экономно хранить в памяти все п элемен­ тов выборки, чтобы применять kNN-правила, по сравнению с методом клас­ сификации, осиоваииым иа выделении множества векторов средних и скаляр­ ных ковариационных матриц с последующим применением параметричес­ кого правила, полученного в предположении нормальности исходных рас­ пределений. 5. Предположим, что kNN 2-правило применяется, когда Р1 = Р 2 = ... ... = Рм, но п1=1=п2=1= ... =1=nм· а) покажите, что в этих условиях kNN 2-правило будет изменено таким образом, чтобы учитывать только п выборок, где п = min (п1 , п 2, ... , nм )· б) Покажите, что kNN1-правило ие изменится при введении ограничений: априорные вероятности разных категорий одинаковы, а размеры обучающих выборок, соответствующих этим категориям, различны. 6. Предположим, что х1 , х2 , ... , Xn - выборка, полученная из распре­ м деления с плотностью вероятности h (х), причем h (х) = ~ f; (х) Р;, Если i=I априорные вероятности Р1 , Р 2 , ... , Р м неизвестны, то они должны быть оце• иены по выборке х1, х2, ... , Xn- a) Покажите, что если элементы выборки х1 , х2 , ... , Xn классифициро• ваны (т. е. известна их принадлежность одной из М категорий) и принимает• м ся, что Р; = n;Jn, п = ~ ni, то это эквивалентно точному знанию априорных 1=1 вероятностей Р1 , Р2, ... , Рмl б) Поясните, почему при классифицированных элементах выборки х1, х1, ... , Xn предположение Pi = niln является излишним. 234
в) Почему предположение о равенстве объемов в kNN1- и kNN 1 -правилах оказывается нежелательным? г) Какое заключение о kNN2 -правиле является следствием решения за­ дачаиб? 7.а) покажите, что Ре f; (х) 1li (х) = __м.....;;..с..:.....;'-"--- ~Р1f1(х) /=! есть вероятность того, что обраg при данном векторе наблюдений принадле­ жит к категории i. :Cz Рис. 4.16 Рис. 4.17 б) Покажите, что апостериорные потери в точке х, связанные с отнесе­ нием образа при наблюдении х к категории /, определяются по формуле м r1 (х) =.~ 1li (х) LJi· •=! в) Покажите, что для байесовского правила апостериорная вероятность ошибки равна r* (х) = 1 - max {111 (х), 112 (х), ... , 11м (х)}. п.в. 8. Укажите условия, достаточные для того, чтобы lim 11 (х1) = 11 (х). n .... oo 9. Докажите, что если R. = Е [2r* (х) (1 - r* (х))], то отсюда следует R= 2R.* (1- R.*) - 2Varr* (х) и, следовательно, R. < 2R.* (1- R.*). 10. Выведите выражения для границ Ковера-Харта при М катего­ риях. 11. Рассмотрите задачу классификации с двумя категориями (М =- 2) и с объемами обучающих выборок из каждой категории, равными 5 (эти выбор­ ки изображены на рис. 4.19). а) Покажите, что 1NN 2-правило с эвклидовой мерой расстояния всегда будет приводить к ошибке в условиях: в качестве классифицируемого век­ торах рассматривается одни из указанных 10 векторов, а обучающую выбор­ ку составляют оставшиеся 9 элементов. б) Покажите, что в этих же условиях 1NN 3-правило со следующими ме­ рами расстояния для двух категорий 2 ~ (х1-У1) 2 d; (У, х)= _. ;.. 2 , 01=1/•• 0 2 =4, l=1 (Jl никогда не приводит к ошибке. 235
12. В§ 4.9 была введена функция и; = Н; (Ф; (х, Xn), х) как неубываю­ щая функция объема Ф; (х; Xn), в которой учитываются исходная плотность вероятности и функция расстояния. а) Покажите, что если ;f; (х; Xn) - область с центром в точке х, то и;= - S . dF (х I ro;) не зависит от функции расстояния. ;f ;(x, xn> б) Предположим, что плотность f (t I ro;) постоянна на области ;f; (х; Xn), L которая определена с помощью функции расстояния d (у, х) = ( ~ (х; - i=\ - yi)D) 112 , вычислите и; как функцию от r, где ;f; (х; Xn) - множество таких векторов у, для которых d (у, х) < r. iCz .Xz 5 Kflmcгopuн 3 't о @ Kflmcгopuн Z 3 . о 2 о :с, Рис. 4.18 ' о Рис. 4.19 1⁄2 13. Покажите, что определение (см. § 4.9) Нг 1 (и;; Xn)=min[Ф:и;=H;(Ф, х)] f(umcгopuн! Кflmвгорин 2 :с, обеспечивает единственность Н-; 1 для функций Н; (Ф, х), не возрастающи:,с no Ф иа некоторых областях значений Ф. 14. Построение толерантных областей основывается на упорядочиваню· последовательности х1 , х 2 , ... , Xn, веса этих толерантных областей имеют рас­ пределение Дирихле. Покажите, что если процедура построения областей выбирается после данных векторов х1 , х2 , ... , Xn, то эти области в общем слу­ чае не являются толерантными областями, не зависящими от распределений. 15. Покажите, что, хотя в kNN 3-правиле используются меры расстояния для соответствующих классов, распределение весов толерантных областей не зависит от априорного знания исходных распределений. 16.Покажите,чтоеслиk=k1+ k2+ ...+ k6и rп(t1, t2 , ••• , t6)= l .. ;:g:...(:...1 1-' -/(,:..n_+;._..al)..;..,._._·-·t_ 11_;/(_n_: _l . .; ...);__;k1:..., _.·_·-'_k11_; _n_- _k).....1-'(п___с.+_1___)1! 1 ' t <.: п+1, = П У(tv' kv) V=\ О, t>n+l, где 236
то _____ n'----(ul)k'-1 ... (иб)kб-1 (1-ul-, .. -иб)п-k; 6 П [(kv-1) !} (n-k)! V=I 6. ~и'< 1, !=! { tv)k-1 e-tv y(tv; kv)=.....; .. _; _ __ _ _ , tv~o . (kV-1)! п б) rп(t1, ••• , t6)-+1 для ti ~О, i=1, 2, ... , б. 17. Проверьте, что все точки х1 , х2 , ... , Xn накрываются т сферическими областями с общим радиусом R(m)= max min d(x;, xi), l,;;;;l, _; ;nl <./,;;;;п как ,то отмечалос~. в п. 4.13.1. 18. Соотношение (6) в п. 4.13.1 представляет собой математическое оnи­ саiие относительно простой процедуры кластерного анализа по критерию «максимального расстояния» а) Каково сокращение необходимого объема памяти при переходе к хра­ нению величин А (т, i), i = 1, 2, ... , п, вместо хранения всей выборки? б) Как осуществляется переупорядочивание с применением соотношения (6)? 1~. Проверьте, используя процедуру предварительной обработки, опи- санную в§ 4.13, что последовательность х, х2 , ... , xn можно усечь после m-го вектора при условии-, что векторы хт, хт+ 1 , ... , xn находятся на рас- стоянии, меньшем R. (т - 1), по крайней мере от одного из векторов r, х2 ... , хт-1_ 20. Задача относится к нескольким примерам численного моделирования и введена для того, чтобы проиллюстрировать, как оценивание локальной мет­ рики может улучшить качесто kNN 3-правила. Закончите вычисления: а) в примере 2 § 4. 7 аналогично вычислениям приме­ ра 1; б) в прямере 3 § 4. 7 аналогично вычислениям примера 1; в) в примере 4 § 4. 7 аналогично вычислениям примера 1. СПИСОК ЛИТЕРАТУРЫ 1. Nilsson N. J. Learning Machines. McGraw-Hill Book Company, lnc., New York, 1965. Нильсои Н. Дж. Обучающиеся машины: Пер. с а игл. /Под ред. Э. М. Бра• вермана. - М.: Мир, 1967. 2. Patrick Е. А., Bechtel F. Р, А Nonparametric :Recogn!tion Procedure with Storage Constr aint. Purdue University School of Electrical Engineering Tech. :Rept. ЕЕ 69-24, Lafayette, Ind., Aug. 1969. 237
3. Fu 1(. S., Henrichon Е. G. Jr. Оп non-parametric Methods for Pattern Recog- nition, Purdue University School of Electrical Engineering Techn. Rept'. ЕЕ 69-24, Lafayette, Ind. Aug. 1969. 4. Brawerman D. Learning Filters for Optimum Pattern Recognition. ЩЕ Trans. Information Theory, vol. IТ-8, р.280-285, July 1962. 5. Abramson N., Braverman D. Leaгning to Recognize Patterns in а Random Environment. Щ Е Trans. Information Theory, vol. IТ-8, No 5, р. 58- 63, Sept. 1962. 6. l(eehn D. G. А Note оп Learning for Gaussian Properties. IEEE Trans. Information Theory, vol. IT-11, р.126-132, Jan. 1965. 7. Fischer R. А. Use of Multiple Measurements in Taxonomic ProЫems. Ann. Eugenics, vol. 7, р. 179-188, 1936. 8. Fix Е., Hodges J. L . Jr. Discriminatory Analysis; Nonparametric Discrimi- nation: Consistency Properties, USAF School of Aviation Medicine Project Number 2!-49-004, Rept. No 4, Randolph Field, Texas, Feb. 1951. 9. Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Вероятностная задача­ об обучении автоматов распознаванию классов и метод потенциальных функций. - Автоматика и телемеханика, 1964, т. 25, No 9. 10. Цыnкии Я. 3 . Применение метода стохастической аппроксимации при оце• нивании плотностей неизвестных распределений по результатам наблю• дений. - Автоматика и телемеханика, 1966, т.27, No 3, с.94-96. 11. l(ashyap R. L ., Blaydon С. С. Estimation of Probability Density and Dis- tribution Functions, IEEE Trans. Information Theory, vol. IТ-14, No 4, р.549-556, July 1968. 12. Whittle Р. Оп the Smoothing of Probabllity Density Functions J. Royal Statistical Soc., Ser. В., vol. 20, р.334-343, 1958. 13. Parzen Е. Оп Estimation ::,f а Probability Density Function and Mode. Ann Math. Statistics, vol. 33, No 3, р. 1065-1076, Sept. 1962. 14. Watson G. S . LeadЬetter М. R, On the Estimation of the Probabllity Den- sity, Ann. Math. Statistics, vol. 34, No 2, р.480-491, June 1963. 15. Cacoullus Т. Estimation of а Multivariate Density. Techn. Rept. N 40, Dept. of Statistics, University of Minnesota, Minneapolis, Мау 1964. 16. Van Ryzin J. The Sequential Compound Decision ProЫem with mxn Finite Loss Matrix. Ann. Math. Statistics, vo!. 37, р. 954-975, 1966. 17. SeЬestyen G. Pattern Recognition Ьу an Adaptive Process of Sample Set Construction. IEEE Trans. Informdtion Theory, vol. IТ-8, No 5, р.582-591, Sept. 1962. 18. Sebestyen G., Edie J. An Algorithm for Non-parametric Pattern Recogni- tion, IEEE Trans. Electronic Computers, vol. ЕС-15, N 6, р.908-915, Dec. 1966. 19. Ball G. Н., Hall D. J . ISODA ТА. An lterative Method of Multivariate Ana- lysis and Pattern Classification. 1966 IEEE the International Communi- cations Conference, Philadelphia. Digest of Technical Papers, р.116-117, Lewis Winner, New York, N. У., June 1966. 20. Loftsgaarden D. О. QuesenЬerry С. Р. А Nonparametric Estimate of а Mul- tivariate Density Function. Ann. Math. Statistics, vol. 36, N 3, р.1049- 1051, 1965. 21. Fix Е., Hodges J. L . Jr., Discriminatory Analysis; Non-parametric Discri- mination: Small Sample Performance. USAF School of Aviation Medicine Project Number 21-49-004. Rept. No 11, Randolph Field, Texas, Aug. 1952. 22. Cover т. М., Hart Р. Е. Nearest Neighbor Pattern Classification. IEEE Trans. Information Theory. vol. IТ-13, No 1, р.21-27, Jan. 1967. 26. Hart Р. Е. An Asymptotic Analysis of the· Nearest Neighbor Decision R ule, Stanford Techn. Rept. No 1828-2, Stanfor d Electronics Laboratories, Stanford, Calif ., Мау 1966. 24. Whitney А. W., Dwyer S. J ., III, Performance and Implementation of the k-Nearest Neighbor Decision Rule with Incorrectly ldentified Training Samples, Proceedings of the Fourth Annual Allerton Conference оп Circult Theory and System Theory, Champaign, III, Oct. 1966. 238
25. Cover т. М. Estimatioп Ьу the Nearest Neighbor Rule, 1 ЕЕЕ Traпs. lпfor• matioп Theory, vol. IТ-14, No 1, р.50-55, Jап. 1968. 26. Patrlck ·Е. А. Distribution Free, Minimum Conditional R isk Learning Sys- tems, Purdue University School of Electrical Engineering Technical Rept. ЕЕ66-18, Lafayette, Ind., Nov. 1966. 27 Patrick Е. А. Distributioп Free, Minimum Coпditional Risk Learпing Sys- tems. Proceediпgs of the 1967 Iпternatioпa! Coпference оп Communicatioп, Minпeapo!is, Minn., Iпstitute of Electrica! апd Electronics Eпgiпeers, New York, Juпe 1967. 28. Patrick Е. А., Fischer F. Р. Geпeralized К Nearest Neighbor Decision Rule, J. Information and Control, vol. 16, No 2, р.128-152,. April 1970. 29. Hart Р. • Е. The Condensed Nearest Neighbor R ule, IE-EE Trans. Informa- tion Theory vol. IТ-14, р.515-516, Мау 1968. 30. Hellmaп М. Е. The Nearest Neighbor C!assification R ule with а Reject Optioп, preseпted at I ЕЕЕ Iпternational Coпveпtion оп lnformation Theo- ry, Nourwisk, Holland, Juпe 1970. 31. Specht D. F . Generatioп of Polynomial Discriminant Fuпctioпs for Pat- tern Recogпitioп, preseпted at IEEE Patterп Recognition Workshop, Puerto Rico, Oct. 1966. • 32. Fraser D. А. S. Nonparametric Methods in Statistics, John Wiley & Sons, New York, 1957. 33. Wilks S. S. Mathematical Statistics, Johп Wi!ey & Sons, New York, 1962. Уилкс С. С. Математическая статистика: Пер. с англ./Под ред Ю. В. Лин­ ника. - М.: Наука, 1967. 34. Peterson D. W . Some Coпvergeпce Properties of а Nearest Neighbor Desi- 35. sion Ru!e, IEEE Traпs. lпformatlon Theory, vol. IТ-16, No 1, р. 26-31, Jan. 1970. Koford J. S ., Groner G. F . The Use of an Adaptlve Threshold Element to Desigп а Liпear Optimum Pattern Classifier. IEEE Traпs. Iпformatioп Theory, vo!. IТ-12, No 1, р. 42-50, Jап. 1966. 36. RoseпЬ!att F. Principles of Neurodynamics: Perceptroпs апd the Theory of Braiп Mechaпism, Spartaп Books, New York, 1962. 37. Розенблат Ф. Принципы нейродинамики. Перцептроны и теория механиз­ мов мозга: Пер. с англ./ Под ред. С. М. Осовца. - М.: Мир, 1965. Robblns Н. An Emfrical Bayes Approach to Statistics. Proc. Third Berke- ley Symp. Math. S atistics Prob., vol. 4, р.157-163, 1955. 38. RosenЫatt М. Remarks оп Some Nonparametric Estimates of а Density Functioп. Апп. Math. Statistics, vol. 27, No 3, р.832-837 Sept. 1956. 39. Градштейн И. С., Рыжик И. М. Таблицы интегралов, рядов и произведе­ ний. - М.: Физматгиз, 1962. 40. Loeve М. Probabllity Theory. Van Nostraпd Reinho!d, New-York, 1963. Лоев М. Теория вероятностей: Пер. с англ. Под ред./Ю. В. Прохорова- М.: ИЛ, 1962. 41. Batchelor В. G., Wi)kins R- В. Method for Location of Clusters of Patterns to Iпitia!ize а Learniпg Machiпe. E!ectromics Letters, vol. 5, No 20, р.481- 483. Oct. 1969. 42. Пугачев В. С. Оптимальные алгоритмы обучения автоматических сис­ тем в случае неидеального учителя. - М.: ДАН СССР, 1967, т.172, No 5.
ГЛАВА 5 ОЦЕНИВАНИЕ ПО НЕКЛдССИФИЦИРОВдННЫМ Нд&ЛЮДЕНИЯМ 5.1 . Введение Оценивание по неклассифицированным наблюдениям применяет­ ся при определении числа сигналов, передаваемых по каналу связи, при оценке положения и формы мод функции плотности вероятности, размещения предметов на картинах и во многих других случаях. Существуют две основные области исследований, которые можно рассматривать как оценки по неклассифицированным наблюдениям (т. е. при обучении без учителя). Первая область включает методы, основанные на оценке параметров; главный среди них основан на байесовском подходе. Включает также метод максимального прав­ доподобия, стохастическую аппроксимацию, стохастический метод спуска (подъема), псевдодетерминистический метод спуска (подъе­ ма), оценки, управляемые решениями, метод моментов. Вторая область включает методы кластеризации, в которых нс• пользуется априорная информация, присущая решаемой задаче, чтобы образовать группы выборок. Хотя в данной книге методы кластеризации выводятся на основе байесовского подхода, их мож­ но рассматривать как отдельную область. Понимание соотношения между кластеризацией и байесовским методом расширяет перспекти­ ву при практическом распознавании образов. Появляется вщмож­ ность использовать кластеризацию как вспомогательный прием цри оценке условных плотностей вероятности классов, применяемых в байесовском правиле выбора решения. Следует предостеречь тех, кто хотел бы применить методы клас­ теризации или другие методы оценки по неклассифицированны:м вы­ боркам для обработки многомерных векторов измерений. Прежде всего следует использовать априорную информацию о задаче, отра­ жающую известные соотношения между измерениями, чтобы опре­ делить характеризующие векторы меньшей размерности. Затем к этим векторам можно применить элементарные процедуры класте­ ризации. В гл. 1 задача оценки по неклассифицированной выборке была сформулирована при помощи векторного параметра Ь, характери- 240
зующего плотность h (х) данных выборок х1 , х2 , ... , Хп· Классифи­ кация выборок Хп = [х1 , ... , Хп] может быть неизвестной. В гл. 1 приведена модель смеси, когда функция плотности h (х) представ­ лена в виде линейной комбинации функций плотности известного семейства, члены которого характеризуются векторным парамет­ ром; такая модель называется параметрической структурой. В пре­ дыдущих главах было показано, что часто применяемым параметри­ ческим семейством является семейство нормальных функций плот­ ности, когда .каждая функция семейства характеризуется вектором средних и ковариационной матрицей. Другой структурой, которую труднее определить точно, является структура, которую можно назвать «модальной» или «кластерной»; в ней выборки, в некотором смысле близкие, считаются находящимися в «кластере». Одно из первых применений оценки или группирования по неклас­ сифицированной выборке рассмотрел Пирсон в 1894 г. [ 1] и в 1902 г. (2). Пирсон «кластеризовал» в одну категорию виды: животных, ко­ торые он считал вымирающими, а в другую-ооды, которые он счи­ тал могущими выжить; х представлял измерения из представитель­ ной выборки вида. Несомненно, Дарвину оказало бы большую по­ мощь вычислительное устройство, в программу которого были бы заложены алгоритмы кластеризации, если бы он мог воспользоваться им при изучении эволюции видов. Здесь не приведен полный перечень литературы по оцениванию по неклассифицированной выборке. Дополнительные источники имеются в перечне рекомендуемой литературы. В данном параграфе рассматриваются результаты, основанные на байесовском решении по критерию минимума условного риска. Первое поисковое исследование по критерию минимума услов­ ного риска было выполнено в работе (6). В ней подход для двух ка- тегорий (М = 2) основывается на том, что для п выборок Хп суще­ ствует М п возможных последовательностей, если рассматривать все способы классификации выборок. Если дана одна из этих последо­ вательностей, то можно считать, что выборки для этой последова­ тельности классифицированы: или упорядочены. Предположим, на­ пример, что ff - нормальное семейство распределений; тогда, если дана определенная последовательность, можно определить среднее значение {mi} как будто выборки классифицированы. Конечно, по­ лучается столько устройств для оценки среднего значения, сколько имеется последовательностей, а их мп. По очевидным причинам это решение было названо «решением возрастающей сложности». В работе (7) при допущении, что апостериорную плотность f (Ь \Хп) параметров, характеризующих М классов (М известно) можно представить как произведение апостериорных плотностей параметров, характеризующих каждый из классов, найдено итера­ тивное решение, для которого не возникает проблемы возрастающей сложности устройства. В работах (8, 13) найдено общее итеративное байесовское решение и показана эквивалентность работ [6 и 9]. 241
Оценки по неклассифицированной выборке появляются в некото­ ром классе задач, включающем нестационарные распределения ве­ роятностей, статистически зависимые векторы измерений х1 , ... , Xn и неизвестную синхронизацию. Общие задачи были сформулированы в [ 10] для байесовского критерия минимума условного риска с использованием понятия смеси. Вместе с аналогичной рабоm [ 11] это дает точную формули­ ровку задачи. Понятие смеси было введено в гл. 1, использовано в гл. 2 при разработке процедур оценки и применено в гл. 3 для раз­ работки правил принятия решения по критерию минимуму услов­ ного риска. Придавая особое значение понятию смеси, авторы работы [12] ввели функцию информации n(Ь, Ь*)= Sln h(xlb)h(xjb*)dx, где h (xlb*) представляет истинную плотность, а h (xlb) - плот­ ность смешанного распределения, характеризуемую параметром Ь. Было показано, что оценка 1п ~(Ь)= -;-~ lпh(xs IЬ) (1) S=I должна вычисляться для каждого значения Ь в пространстве пара­ метров. Байесовское решение при квадратичной функции потерь ис- пользует~ (Ь) косвенно, чтобы определить вес Ь и получить среднюю оценку (b)n, которая и является байесовской. Это свойство байесовс­ кого метода - дать усреднение - можно противопоставить свой­ ствам метода стохастической аппроксимации (основанного на неко­ тором исходном значении (Ь) 0 , которое подбирается для получения максимума 11 (Ь) относительно Ь). Стохастическая аппроксимация зависит от исходного значения, тогда как байесовский метод позво­ ляет «усреднить» исходные точки. Рассмотренный в п.5.3.6 квазибайесовский метод был разрабо­ тан, чтобы совместить полезное усреднение, даваемое байесовским методом, с привлекательным свойством меньшей сложности метода стохастической аппроксимации. Свойства моделей смеси были впервые рассмотрены в литературе по статистике [15-18,68] и применены к решению задачи оценки по неклассифицированной выборке инженерами [8, 13, 14]. Задача оценки по неклассифицированной выборке состоит n разделении не­ известной смеси на входящие в нее категории или, что эквивалентно, в отыскании индексов (векторов параметра) и весов (параметров смешения), которые позволяют выразить неизвестную плотность смеси в виде линейной комбинации функций плотности. При решении таких задач неявно используется понятие иденти­ фикации. Должно существовать однозначное отображение или соотношение между множеством смешиваемых параметров и получае­ мыми параметрами смеси. Работа [16] о конечных смесях была сведе- 242
на к теореме, утверждающей, что необходимым и достаточным усло­ вием идентифицируемости некоторого класса конечных смесей яв­ ляется линейная незавuсимость фуню~ий плотности в каждой конеч­ ной смеси [19]. Было показано также, что большинство параметри­ ческих семейств (включая нормальное) идентифицируемо (см. гл.2). В работе [21 ]1 > показано, как для решения некоторых задач можно использовать легко вычисляемые статистики. Показано, например, ~ 1п что среднее значение выборки векторов измерения смеси m = - ~Xs n s=I является состоятельной оценкой порога (m1 + m 2)/2 для правила решения по критерию минимального риска при двух категориях, если f - нормальное семейство, f1 (х) и f2 (х) имеют равные кова­ риационные матрицы и априорные вероятности категорий равны. Из результатов, полученных в гл. 3, следует, ,что этСJТ порог пол­ ностью характеризует правило решения при приведенных выше ус­ ловиях. В работе [14} показано, что если \m 2 - m 1\ велико по срав­ нению с а2, где~ = о-21, то квантили выборки плотности смеси дают оценки m1 и m2, приводя к лучшей оценке для (m1 + m2)/2. В рабо­ те [21] показано также, как можно использовать собственный век­ тор, соответствующий наибольшему собственному значению, для оценки разнообразных статистик. Оценки моментов для параметров, характеризующих правило решений при двух нормальных катего­ риях, рассмотрены в [14 и 21]. Оценки максимального правдоподобия· для задач с двумя нор­ мальными категориями были получены в [21] для одного неизвестного • параметра. В [13, 24] дано обобщение на случай нескольких неиз­ вестных параметров. Эти результаты получены для М = 2. В ра­ боте [25] даны численные методы решения задач со многими катего­ риями и с неизвестной величиной М. Алгоритмы стохастической аппроксимации для отыскания мак­ симума усредненной функции правдоподобия определены в [26]. Оценка максимального правдоподобия Ь для Ь*, где х1, х2, ••. , Xn имеют плотность h (xjb*), получается как решение уравнения Ь= arg [max ln f (х1,... , ХпIЬ)]=arg [maxln 11 h(х81Ь)]= Ь Ь s=l = arg[max f lnh(х81Ь)]= arg[maxп~(Ь)]· ь 8-=1 ь Метод оценки, управляемый решением 2>, можно хорошо проил­ тострировать на примере с М категориями, когда !f нормальное. 1) См. также [22, 23, 81]. 1) Дополнительно к указанной выше литературе см. [4, 5], а также гл. 2 настоящей книги (связь с байесовским методом). 243
Предположим, даны априори М векторов средних, ковариационных матриц и априорные вероятности категорий: (m;)o, (~;)0, (Р;)0, i = 1, 2, ..., М. Когда получена выборка х1 , применяется следующее (оптимальное для нормального распределения) правило выбора решения: х1 принадлежит к i-й категории, если ln l(~:);}~1;2 [X1-(m;)oJl[(~;)oJ-1[X1-(Щ)o] больше, чем для любой другой категории. Тогда х1 используется для пересчета (m;) 0 [и(~;) 0 ] в (m;) 1 ( и (~ 1) 1 ] при помощи процедур, рас­ смотренных в гл. 2 (за исключением случая па = 1). Можно также пересчитать (Р 1 )0 . Для большинства задач оценки по неклассифицированной вы­ борке непосредственная реализация байесовского решения с исполь- зованием апостериорной плотности р (b\xn), рассмотренное в § 5.2, требует приближенного представления пространства параметров ко­ нечным числом V точек. В § 5.2 доказано, что байесовская оценка Ь* сходится с вероятностью 1 и среднеквадратической. Найдены так­ же асимптотическая оценка и исследована скорость сходимости. Эти результаты приводят к информационному критерию 11 (Ь). В п.5.3.1 исследована скорость сходимости байесовской оценки; в п.5.3.2 представлены условия экспоненциальной скорости сходи­ мости. Альтернативный вид асимптотической байесовской апосте­ риорной плотности выведен в п. 5.3.3; альтернативный вид диспер­ сии байесовской оценки при конечном множестве параметров дан в п.5.3.4. В п.5.3.5 оценка по минимуму нормированной среднеквад­ ратической ошибки Ь* приводит к определению критерия Г (Ь): Г(Ь)=2Е[h(xlb)- \lh(х\Ь)112 = 2Jh(х[Ь)h(xlb*)dx- Jh2х Х (xlb)dx = l\h (xlb*)!l 2 - е2 (Ь), где е2 (Ь) = llh (х[Ь) -h (х\Ь*)\1 2 . В п. 5.3.6 рассмотрена оценка, названная «квазибайесовской» при использовании критериев 11 (Ь) и Г (Ь). Квазибайесовская оцен­ ка совмещает полезное свойство усреднения байесовской оценки с простотой оценки при помощи стохастической аппроксимации. В п.5.3.7 сформирована оценка величины Г(Ь), обозначенная че­ рез Гn (Ь); затем для отыскания величины Ь, минимизирующей Гn (Ь), используется метод наискорейшего спуска. 5.2 . Введение в байесовскую теорию Ограничения, налагаемые на допустимые bk, определяют мно­ жество возможных точек, обозначаемое fiaM'. Пусть число точек bk или возможных векторов равно V и число классов в k-м решении равно М". Соответствующие параметры класса для k-го решения бbkbkbkbk-[bkbk bk •pk pk pk] удут- 1, 2, ... , М11.и - 1, 2, •.., мв' 1, 2, ..., мв. 244
Для нахождения байесовской оценки истинного параметра Ь*, характеризующего h (х), вычисляется апостериорная плотность в каждой точки bk в fJdM' при помощи формулы Байеса: r;~f(x1lbnP1 ]p~(bk) р(bkIХ1)= - ' ~ [числитель] k=1,2,..., V, всеbkЕfJdM' (1) при задании одной выборки Х1, априорной плотности {Ро (bk) }r= \ и семейства 2f плотностей1> .При заданной последовательности п вы- борок Xn, априорной плотности и семейства f.f апостериорная плот­ ность равна . r /~\f(xnIьf)Pf]р(ьkIXn-1) р (bk Ix,i) = - . , ~ [числитель] k=1,2,..., У, всеbkЕfEM'. (2) В приведенном выше выводе предполагалось, что выборки х1 , х2 , ... . . . , Xn параметрически условно независимы и априорные вероятнос- ти Р~ (или параметры смешения) фиксированы. Обобщения, охваты':' вающие широкий класс задач оценки по неклассифицированной выборке, содержатся в работе [IOJ. Для вычиСJiения величины (2) необходимо, чтобы fEM' явля­ лось конечным множеством V точек {bk}r= \. При квадратичной функции потерь и дискретизированном таким образом пространстве параметров байесовская оценка равна V • (b)n= ~bkР(Ьk/Хп), (3) k=l где р (bkJxn) вычисляется по формуле (2). Обозначим истинную плотность смеси h (х) и определим функ­ цию 'У\ (bk): ri (bk) = Е [ln h (x/bk)J = f[lnh (x/bk)Jh (x)dx. (4) В пп. 5.3.1, 5.3.2 будет показано, как сходимость р (bk[x)n и Ьn зави­ сит от n (bk). 1) Строго говоря, вместо f (х1 \ Ь') следует использовать выражение f (х1 1 ь,, i). Индекс i в данной главе опущен для удобства там, где это не при­ водит к недоразумению. 245
5.3. Байесовское решение 5.3.1. Сходимость при применении функции информации Здесь рассмотрены характеристики сходимости байесовской оценки для конечного множества fEM'. Будет показано, что эта оценка при некоторых условиях сходится в среднеквадратическом и с вероятностью 1 к асимптотической точке; показано далее, что байесовская оценка сходится быстрее,'чем 1/п, если E[llпh (xib*)l 5] < < оо при некотором s < 3. Одно из требуемых условий состоит в том, чтобы Ь* соответствовало единственному максимуму 11 (Ь). Эта сходимость, более быстрая, чем 1/п, рассмотрена в п.5.3.3 с другой точки зрения. При доказательстве сформулированной ниже теоремы исполь­ зуются следующие допущения: 1. h (хпlХ1, Х2, •••, Xn-1, Ь) = h (хпJЬ). 2. Существует положительное це.,1ое число s > 1, такое, что Е[ jln h (xjbk)j5] < оо для всех bk Е ff;JM'. Пусть s* - наиболь­ шее целое число, для которого существует этот абсолютный момент. 3. Меры вероятности, соответствующие {h (xl bk)}, абсолютно непрерывны по отношению к мере Лебега v. 4. v[x: lh(xjbk)-h(xlb')i>0]>0пpивcex·ьk, Ьi, j=l=,k. Два последних условия требуют, чтобы в смеси отсутствовали дельта-функции и чтобы пары плотностей смеси были различны на открытом множестве. Они удовлетворяются для таких семейств рас­ пределений, как нормальное, биномиальное и Коши. 5. {h (xl bk)} содержит истинную смесь h (х). При доказательстве теоремы допущения об условной независи­ мости выборок (при данной точке параметрического вектора Ь) и о существовании абсолютного момента (1 и 2) позволят применить уси­ ленный закон больших чисел. Если не выполняются допущения 3 и 4, то проекция 11 (bk) функции ]п h (х Ibk) на h (х) для различных h (х Ibk) не будет единственной. Допущения 3-5 использованы при доказательстве единственности байесовской оценки. Дополнитель­ но требуется, чтобы никакие точки bk не отбрасывались, как истин­ ная точка Ь*. 6. Априорные вероятности р0 (bk) отличны от нуля. Теорема 1. Если допущения 3-5 выполнены, то1> а) Ь* = arg [max J11 (bk) }] единственно. Если, кроме того, вы­ ьkЕ$ ' полнены допущения 1, 2 и 6, то байесовская оценка (Ь)п, определен­ ная по формуле (3) § 5.2, обладает свойствами: б)р[lim(Ь)п=b*I=1; n-+ 00 1) ь•=arg [max l'I] (bk)}] означает, что ь• является sначеиием параметра, bkE 91М' при котором ТJ (Ь) максимальна. 246
в) существует такое положительное число с< оо, что при до­ статочно большом п Е [ ~ (b)n - Ь* jj2] ~ сп-s• /2. Доказательство. Хорошо известно (см., например, [56, с.14)), что при выполнении допущений 3 и 4, если h (х) Е {h (х I bk) }, толь­ ко при h (х IЬ*) = h (х) величина Е [lп h (х Ibk)) имеет максимум. Допущение 4 подразумевает также единственность плотностей смеси (такое единственное отображение {bk} и {h (х Ibk)} на3Ывается иден­ тифицируемостью). Рассмотрение идентифицируемости см. в рабо­ тах [8, 15-20). Следо:вательно, существует лишь одно значение Ь*, при котором h (х I Ь*) = h (х), что доказывает утверждение а. Чтобы доказать утверждение б, представим байесовскую оценку с помощью формул (2) и (3) § 5.2 в виде п у П h(xs /bk)Ро(bk) (Ь)п= ~bk__ s=_I_____ - ~ Vп k=1 ~ Пh(xsIЬ1)Ро(Ь1) i=I s=l (1) В силу допущений 1 и 2 можно применить усиленный закон больших чисел (см. гл. 2), в результате чего имеем р[}~~-; i 1 lnh(x8 lbk)=11(bk)] =1. (2) Таким образом, р[}~ехр (-;; ~ 1 lп h (х6 bk)) =ехр (11 (bk))] = 1 (3) и с вероятностью 1 lim {р (bk IХп) }1/п = ехр [т~ (ьk)] n ➔ oo р(Ь*lхп) ехр[Т)(Ь*)] . [Ро(bk)]1/п l1m -- . n-+ -oo Ро(Ь*) Вследствие условия 6 значения р0 (bk) и р0 (Ь*) отличны от нуля и lim [Po(b")]l/n =1; п-+- оо Ро (Ь*) рrlim Р(ьkI~п) =ОlJ=1, bk+Ь*. ll➔00Р(Ь*1Хп) 247
Таким образом, из утверждения а следует, что р [lim (Ь)п = n➔oo = b*l = 1; это доказывает справедливость утверждения б. Чтобы доказать утверждение в, представим сначала среднеквад­ ратическую ошибку в виде суммы Е[11(b)n-Ь*112) =Е[f ~(bk-b*)tх k=I f= -1 Х(bi-b*)Р(bkjXn)р(bfJXn)J= VV . . = ~ ~ (bk-Ь*)t(Ьf-b*)E[p(bkJxn)p(biJxn)). (4) k=\ i=\ Для упрощения предположим, что векторы {bk}f=i расположены таким образом, что Ь1 = Ь*. Тогда можно верхнюю границу средне­ квадратической ошибки представить в виде VV Е[1\(Ь)п- Ь*/12)~ ~ ~(hk-b*)tх k=2 i=2 х (Ьi-Ь*)min{E[p(bklxn)J, E[p(Ьf/xn)l}. (5) Потребуются следующие несколько шагов, чтобы показать, что при bk =/=, Ь* Е [р (Ь~ j Xn)l ~ О (п-s• 12 ); это вместе с соотношением (5) позволяет сделать вывод о справедливости утверждения в. При bk =/=, Ь* для случайной величины р (bk I Xn) можно указать следующую оценку: 1 р(bk/Xn) р(bkJХп)<e-ndk/2 z~~ р(Ь*1хп)'р(Ь*1хп) ' 1, вне этой области, (6) где (7) Тогда среднее значение случайной величины zi является верхней границей среднего значения случайной величины р (bk j Xn): • k Е[р(bkIХп)J~Е[zпl, (8) k • • Обозначив Гп = р (bkl Хп)lр (Ь* 1Xn), можно представить среднее зна- чение величины z~ в виде оо ехр [-пdk/2] Е [z:] =~ z:p(z~) dz: = J rkр(rk)drk+ о о 00 + 5 р(rk)drk. ехр [-шtkL2] (9) 248
Второй интеграл в формуле (9) представляет вероятность того, что ,: больше или равно ехр [-ndk/2). Интерпретируя этот интеграл как вероятность, получаем р [р (bk 1~n) ~ e-пdk/2] == Р (Ь* 1Xn) г1п = рl-;; ~ 1 [ln h(x./ bk)-ln h (х.1 Ь*)]~ >-~ --1 lnPo(bk)] = 2 п Ро(Ь*) = Р[-1 -i, [lnh(xs Ibk)-lnh(х81Ь*)+dkJ~ !!:':..._ __ l lnРо(bk)]~ п~ 2 п Ро (Ь*) ~=1 ~P[I+ 5 ~ 1 (lnh(xslbk)-lnh(xsl~)+dk],~ :k] (10) при п> 6lln (р0(bk)/p0(~)) //dk. При помощи неравенства Маркова [57) можно найти верхнюю грани­ цу выражения (10): 00 5 р (rk) drk~ ехр [-пdk/ 2] 3⁄4( :k )s Е [l-;-ft [lnh(x1/bk)-lnh(x1 )~)+dkjп = ( 3)s1[n =-k - 5 Е 1 ~ (lnh(x1 /bk)- d n f=l -lnh(x1 /b*)+dkJП • (11) Предлагается доказать, что (см. задачу 2) 1> Е[1i~\ [lnh(х11bk)-lnh(х11Ь*)+ dkJ 1s]~ ~ ns/28 +2s-l _ \ ~ ( 5) (dk)s-iЕ(llnh(xIbk)- ---:::: s/21 f::!0 i - lnh(хIЬ*) 11}. 1 ) См. также [12].
Используя неравенства /а- Ь/ ~ Jal + Jbl, (см. гл. 1) и Мин­ ковского [58], получаем Е [(1 а 1+ 1b:)k)1/k ~ (Е [1 а lk)l/k+ (Е [1 Ь l"J)l/k, E[i]&e-пdk/2+п-s•;2 - s+ - Х ( 3)s•*2s•-11 п -;::: dk s*/21 хr(dk)s* + f(s~ )(dk)s•-1((Е[1lnh (хIbk)1;])1/1+ 1=1 t +(E[llnli(x/b*)l1 ]) 1l 1)]. (12) Вместе с (8) это доказывает справедливость утверждения в. Обозначив R = max 11 bk - Ь* /!, найдем константу с, содержа­ ьk щуюся в формулировке теоремы: ( 3 )s• s*+2s*- · 1-l с =R2 (V-1)2 -dk _..... _____ х s* /2! Х {(dk)s•+ f (' ~) (dk)s*-l(E[llпh(xJbk)JIJ)lfl+ 1=1 t +(E[jlnh(xJb*)J1]) 111)}. (13) 5.3.2. Достаточные условия экспоненциальной скорости сходимости С л ед ст в и е 1. Если выполняется условие 1 теоремы 1 п. 5.3. I и, кроме того, если ~,:: 2. sup llпh(хIbk)1~сдля некоторогос< оо при любыхbk Е хЕю Е !JЭМ', где множество ;JJ является опорным для истинной смеси h (х) (т. е. ;JJ равно замыканию множества {х: h (х) > О, х Е V'L]). 3. Ь* = arg max {ТJ (bk)} единственно. ьk 4.R=max11Ьk-Ь*11, k то Е111 (Ь)п-Ь* IIJ ~ R• (V-1)2рп 112, р < 1, для достаточно больших п. Доказательство. Из доказательства теоремы 1 видно, что доста- п точно найти экспоненциальную границу р { ~ [ln h(xs / bk) - s=l - ln h (xs I Ь*) + ndkJ > ndk/З}. Так как в силу допущения 2 слу­ чайная величина [ln h(xs I bk) - ln h (xs I Ь*)] ограничена, то (cr11) 2 д E[/lnh(x!bk)-lnh(x/b*)\2] (14) 250
конечна. Обозначим л c'=sup sup /lnh(x1bk)-tnh(xlb*)+dk (15) х ьkе:ЮМ' и заметим, что с' < оо. Как следует из неравенств Колмогорова [57), для произвольного в< О и (c'/cr,i)e > 1 Р { п\f~u,i [s~ 1 lnh(X8 jbk)-lnh(x5 jb*) + +пdk]>e)>exp[~::~]- (16) Если положить е = п 1 1 2 (dk/За 11 ), то выражение (16) ограничено при п > [3 (cr,i) 2/c' dk}2, так что Р {[st/n h(xsl bk)-lnh (x 8lb*)+ndk j> n:k} < ехр[-п 1 / 2 dkf12c'Jx х PZ\/2' где p11 =e-dk/izc' <1. Окончательно E[l/(b)n-b*ll2 l~R2 (V- -l)2 pn 112 , где p=max{p11 }. k 5.3.З. Иное представление асимптотической формулы для байесовской апостериорной функции плотности Полученный в данном параграфе результат представлен ниже в !.!Иде теоремы, устанавливающей условия, при выполнении которых байесовская апостериорная плотность вероятности в области вне е-соседства Ь* убывает до нуля с экспоненциальной скоростью. Обо­ значим Je семейство функций плотности (смесей), зависящее от век­ торных параметров Ь Е f!д', где f!д' представляет множество1> допу­ стимых значений Ь. Обозначим х L-мерный результат наблюдения, имеющий плотность h (xl Ь*). Индивидуальные наблюдения х обо­ значим х1 , ... , xn; они параметрически условно независимы и рас­ пределены одинаково. Примем следующие допущения: 1. Функция 11 (Ь) = Е [ln h (х Ib)l имеет единственный макси­ мумприЬ=Ь*,т.е.Ь=/=Ь**11(Ь)<11(Ь*). 2. Имеется практическое ограничение множества 5iJ, т. е. извест­ но,чтоЬЕf!д'сfJaичтодлявсехЬЕ!JЭ' llb- Ь*11~R<09. 1 ) Обозначение.%'' использовано (для простоты) вместо юМ', опреде,,ен­ ноrо в гл. 1. 251
3. Е[(lnh(х/Ь)- 'll (Ь))2] < оо, уЬ. Допущение 1 обеспечивает сходимость байесовской оценки к ис­ тинному параметру Ь*; допущение 2 является практическим огра­ ничением, а допущение 3 дает возможность применения усиленного закона бьльших чисел. Теорема 2. Обозначим е проиsвольное малое положительное число и пусть ff<e> представляет в-окрестность Ь*, т. е. Ь Е ff<e> : : ~ Ь - Ь* 11 < е. Если для семейства ;;е справедливы допущения 1-З, то при достаточно большом п S р (Ь /хп) db<К ехр (-n2c5), (17) $'-;;,(е) где с5 > О и К - целое число, зависящее от е. Доказательство (18) [ J Пh(Х81Ь)db]Ро(Ь)JПh(ХвIЬ)db $'-:;, (e)=I $' s=1 - ------ ----------- -- [ J П h(x8 /b)dЬ]Po(b) J 11 h(Xsib)db ;;,(e/2)s=I $'s=1 (19) Допущение 1 обеспечивает местную унимодальность '1] (Ь) на if<e>, если е не слишком велико; т. е. Ь' Е if(e/2), Ь Е 5iJ' - if(e/2J, '1] (Ь') > 'll (Ь). По теореме о среднем значении (20) и V (';f (ef2)) представляет объем ff<e-2 >· Область ffiJ' - if<e> можно разбить на К областей 5iJ1 , Sif2 , ... , ffiJк. таких, что (21) и никакая область не имеет объема, превышающего V ('lf<e/2J), где К конечно вследствие ограниченности ffiJ'. Следовательно, (22)
t1рименяя теорему о среднем значении к каждому из k интегралов в формуле (22), получаем J П/1(X8 IЬ) db3⁄4 1: Пh(Х81bk)V(tf(e/2)), $'-11- S=1 k=1S=1 (8) (23) где hk Е 5ilk- Таким образом, кп ~ П h(xsIbk) S р(ЬIХn)db< .....::.:.._=....:..l-=-s=--=-!--- . 'lJ '-'cf (eJ П h(х81Ь8) (24) S=1 В силу допущений 3, можно применить усиленный закон больших чисел, что дает п п.в -;;-I lпh(хпIЬ) -+ '1](Ь),vbЕfE'. S=1 (26) Так как в силу допущения 1 положительная величина rJ (Ье) - - rJ (bk) ограничена отличным от нуля числом, то можно выбрать Вследствие соотношения (26) при заданном б t[n (б) что (27) таково, (28) Тогда при п > п (б) левая часть формулы (18) удовлетворяет не­ равенству 5 р (ьl хп)dЬ<К ехр(-п2б). (29) 9i'-'cf<e> Из формулы (27) следует, что «постоянная времени» скорости сходимости зависит от величины градиента 'll (Ь) вблизи Ь*. Эта ско- 253
рость возрастает тем больше, чем более острую форму имеет пик функции 'll при Ь*. Подобным образом из формулы (29) следует, что скорость зависит посредством величины К от того, насколько сильно ограничено$. Чем больше может быть ограничена область поиска $', тем меньше будет К при заданном е. Следствие 2. Предположим, что il Ь - Ь* ~ < R; тогда для байесовской оценки (b)n = J Ьр (Ь IXn)db $' а~= E[jj (b)n - Ь* /J 2 ]<KR(R+в)Хехр(-п2б)+в2• (30) Доказшпельсrпво. Е fl/ (Ь)п-Ь* 11 2 ] = Er ~ db' ~ (Ь - Ь*)'(Ь'--Ь*)р(Ь'/хп),., $' ,'ll' xp(blxп)dь_j-=E/.Jdb',1⁄2'J.~E (Ь--Ь*) 1 (Ь' -Ь*)>, х p(b/xn)P (Ь' lxл)db J+ +в[~ db' _\ (Ь-Ь*) 1 (Ь'-Ь*)р(Ь Jхп)Р(Ь'/хп)dЬ]~в1 +Е2 • $' :fв (31) Так как (Ь-Ь*) 1 (Ь' -Ь*) <,R2, то E1 <,R 2 ~ p(b\xп)db~p(b'jx")db'= $'-'сf в $ =R 2 $'I:r р (Ь Iхп)db. Е Заметим, что Е2 =Е[. S db' ~ (Ь-Ь*) 1 (Ь'-Ь*)р(Ь\хп) $'-'cfe 1fв Хр(Ь'/хп)db]+Е[ ~db' ~ (Ь-Ь*)1(Ь'- i;*)х 'cf е 1fe хр(Ь'1хп)р(Ь' lxn)db]. Так как (Ь-Ь*) 1 (Ь' -Ь*) <, вR, ЬЕ'!f.e, Ь' Еffa'-1е,(Ь-Ь*)1(Ь'- Ь*)<,в2, ЬЕ?fe, Ь'Еife, ТО 254 (32)
Е23⁄4вRЕ[ ,l p(b'lxп)db' .r p(blxп)db]+ $ 11-е #,е +в2<вRЕ[ S р(Ь'!хп)db')+в2, $'-1fв (33) где последнее неравенство вытекает из соотношения J~ (Ь /Xn)db< 1. Из двух полученных верхних границдля Е1 и Е2 [32_ и 33] следует О'~<R(R+8)Еl s р(Ь'lxn) db')+е,2• $'-1fв (34) Учитывая [29], получаем cr~ < R (R + в)Кхехр (-п2б) + в 2 . 5.3.4. Байесовская оценка при конечном множестве параметров Пусть х L-мерный наблюдаемый случайный вектор с функцией плотности h (х / Ь*), характеризуемой s-мерным вектором парамет­ ров Ь* и принадлежащей известному семейству функций {h (х I Ь) }, Ь Е .бfl, где fB - допустимое множество параметров. Наблюдаемые значения векторах, как обычно, обозначим х1 , ... , Xn. Для удобства будем обозначать Xn = {xk }~= 1. Пусть f!д' конечное множество точек множества ffl, т. е. 5;3v = {Ь'}~= 1 . Байесовская оценка (b)n, ми­ нимизирующая средний риск на множестве 9а при квадратичной функции потерь (см., например, [59]), определяется, как и в преды­ дущих параграфах, выражением (Ь)п= f ьгр(br jхп), (35) Г=1 где р (Ь' /Хп) -- апостериорная вероятность Ь', равная п П /i(xkIbr) р(brIXn)= _k_=_I____,r=1,2, ...,V, Vп (36) ~ П h(x8 1br) r=ls=! Для /прощения в (36) предполагается, что априорная плотность на 5З равномерна. Определим функцию регрессии (которая, как было показано в предыдущих параграфах, так естественно появляется в байесо­ вском решении) ТJ(Ь)= Е[lnh(х/Ь)]. (37) 255
Обозначим ьт точку множества ~v, в которой величина 'll макси­ мальна, т. е. '1] (bm) = max {ri (br)}. Г=!.2...., V (38) Будет показано, что р (Ь' 1Хп) пра r =1= т, определенная формулой (36), для достаточно больших значений п стремится экспоненциаль­ но к нулю с вероятностью 1, откуда следует, что и средняя нормиро­ ванная квадратичная ошибка cr~ л Е [jj (Ь)п - ЬmJi2] (39) экспоненциально стремится к нулю. Другими словами, байесовская оценка при конечном множестве параметров является асимптотиче­ ски сверхэффективной 1>. Лекам 2 > [30] указал, что оценка может быть сверхэффективной только на множестве ш1р1:1метров меры нуль. Пер­ вый из указанных выше результатов содержится в следующей теоре­ ме. Теорема 3. Если выполняется допущение 3, то для апостериорной вероятности р (br IХп), определенной формулой (36), при достаточно больших значениях п имеет место неравенство р (br IХп) < ехр (-пбr), r =1= т, ~ вероятностью 1, где бг = 1/3['1] (bm) - 'll (Ь')]. Доказшпельство. Так как р (bmlxп) < 1, то р(Ь'lхп)< р(Ь'l~п). р(ЬтIХп) Из (36), (42) и тождества w = ехр (ln w) следует (40) (41) (42) р(br jхп) <ехр \-п [+s~I ln h(Xs Iхт)-+s*I ln /z (х81Ь')]}• (43) применив опять усиленный закон больших чисел и введя обозначе­ ние бr = 1/3['1] (bm) - ri (Ь')], придем к выводу, что при п > п (cSr) р (br IХп) < ехр (-пб7) с вероятностью 1. Следствие 3.Прип = max {п(б7)}средняянормирован- r ная квадратичная ошибка, cr~, определенная формулой (39), имеет верхнюю границу, cr~ < ~ ~ (Ьi-- bm)t (bk-Ьm) ехр ( -пб j); (44) i=fmk=fm 1 > Оценка называется сверхэффективной, если ее дисперсия убывает бь~­ стрее, чем 1/п. 2 ) См. также работу [29]. 256
сr~<Сехр(-пб') (45) с вероятностью 1, где с5 j и С - положительные константы и с5' = min {бj}- (46) Nm Доказательство. Среднюю нормированную квадратичную ошиб­ ку можно представить в виде ряда О'~=~ ~ (Ьi-bm) 1 (bk-Ьm)E[p(Ьilxп)P(bklxп)J. (47) faf=mk=fm Замечая, что р (Ь' 1Хп)Р (Ь' 1Хп) < р (Ь' 1Хп) и применяя теорему 3, приходим к выводу, что при п > шах {п (бj)} с вероятностью 1 I а~< ~ ~ (bi-Ьm)t (bk-bm) ехр (-n2c5J. (48) iaf= mkaf= т Обозначим С= ~ ~ (Ьi- Ьm)I (bk- bm). (49) iaf= mk 1=т Тогда, учитывая определение с5', приходим к выводу, что cr~ < < С ехр (-пб'). Хотя этим завершается доказательство следствия. заметим еще, что если R = max [11 Ь' - Ьm /1], то в силу следствия 3 r и соотношения (49) а~< (V - 1)2R 2 ехр (-пб'). (50) Приведенное выше следствие утверждает, что байесовская оцен­ ка сходится в среднеквадратическом к точке множества :JдV, в ко­ торой 11 имеет наибольшее значение. Однако, так как для некоторого семейства :К и некоторых значений Ь* 11 может быть многомодальной, то нельзя гарантировать близость Ьm к Ь*. Полученную границу для а~ можно сравнить с соотношением cr~ < С (v)п-и для п > v, где v имеет порядок наибольшего конечного момента :~rеличины In h (х IЬ) и С (v) монотонно возрастает при росте v; последнее утверждение содержится в п. 5.3 .1 . 5.3 .5 . Оценка по минимуму нормированной квадратической ошибки Рассмотрев асимптотические свойства байесовской оценки при конечном множестве параметров, можно сказать, что сверхэффектив­ ность оценки является следствием двух ее особенностей: экспонен­ циальная скорость сходимости следует из того, что оценка фактори­ зуется, а сходимость к истинному значению параметра является следствием того, что функция 11 достигает максимального значения при истинном значении параметра. Таким образом, выражение бай­ есовской апостериорной плотности вероятности позволяет предполо­ жить, что могут быть использованы юше факторизирующиеся функ- 257
ции. Одна из таких функций приводит к оценке, которую назовем оценкой по минимальной нормированной среднеквадратической ошибке (МНКО). Вид оценки МН КО определяется из второй функ­ ции регрессии, так называемой функции Г, рассматриваемой ниже. Непрерывное множество параметров. Оценка МНКО, обозначае­ мая (a)n, определяется на множестве :В' как (a)n= ,1 bq(blxп)db, (51) ..'lJ' где . ехр{stl [2/t (xs / Ь)-1/ (х IЬ) 112} q(ЬIхп)= ---''-------- J [числитель] db $' (52) и норма функции по определению равна jlf (x)I? = Jf2 (x)dx. Заме­ тим, что q (Ь IXn) > О и .f q (Ь Ixn)db = 1, что представляет свой­ $' ства функции плотности на множестве fA'. Обозначим е2 (Ь) нормированную квадратическую ошибку или разность между h (х IЬ) и истинной функцией плотности h (х IЬ*): е2(Ь) = //h (хIЬ)- h (хIb*)ii2 = 11h(хIb)ii2 - 2Е{h (хIЬ)} + +I/h(хIЬ*) 11 2 • (53) Это выражение можно представить в виде, который назовем средней относительной квадратической ошибкой, е2(Ь)= s{[h(х IЬ)-h(хIЬ*Jl2 1/i(хjb*)dx = h(хIЬ*) , =Е{ [h(xJb)-h(x/b*)]2 }· (5 4) h(хIЬ) Определим функцию регрессии Г (Ь) следующим образом: Г(Ь) л 2Е[h(хIЬ)]-I/h(хIЬ)li2 = llh(~ 1Ь*)11 2 - е2 (Ь). (55) При таком определении функции Г (Ь) ясно, что если h (х I Ь*) иден­ тифицируема (т. е. h(x)=h (х IЬ) единственна), то функция Г (Ь) имеет единственный максимум при Ь*; это является следствием того, что е2 (Ь);;:,: О, причем равенство имеет место тогда и только тогда, когда h (x;,J Ь) = h (х 1'.Ь*) с вероятностью· 1. Таким образом, идентифици­ руемость означает, что при е2 (Ь) = О функции h (х IЬ) и h (х IЬ*) мо­ гут отличаться только на множестве меры нуль. Рассматривая числитель (52), заметим, что можно применить уси­ ленный закон больших чисел, так как h (х I Ь) имеет конечное сред­ нее. Тогда получим 1~ п.в. --- ~ 2h(x,[bl-l/li(xlh)ll2 - ► /fl2(xJ\1'')/1 2 -P 2 (!))--Г(b) (56) п- s=1
Теорема 4. Обозначим lfщ окрестность радиуса е величины Ь*. Если h (х I Ь) имеет конечное среднее значение для всех Ь Е 3iJ', то с вероятностью 1 при достаточно больших п s q(ьIхп)db < кехр[-+(е2(Ь')-е2(ЬЕ)}]. (57) .' /J'- ;;(E) гдеЬ'Еffc,' - if(eJ, ье Е d'<e> и К конечно. Другими словами, ве­ роятность, определяемая областью, находящейся вне шара 11 Ь- Ь* 113⁄4 3⁄4 е, стремится асимптотически к нулю по экспоненциальному за­ кону. Доказательство этого утверждения аналогично доказатель­ ству теоремы 2, причем бm выбирается равным 1/2[Г (ЬЕ)- Г(Ьт)]. Конечное множество параметров. Оценка МНКО (а)п при конеч­ ном множестве параметров ffiJV определяется дискретным вариантом формулы (51 ): где ехр Сil [2h (Xs IЬ') - 11 h ( •lb')[i2]} q (Ь' 1Хп) =----v --- -- ~ [числитель] r=l (58) (59) Обозначим опять bm точку множества ffiJV, в которой функция ре­ грессии имеет максимум, т. е. Г (Ьm) = шах {Г (Ь')}. (60) r Асимптотические свойства оценки (а)п устанавливаются следующей теоремой. Теорема 5. При достаточно больших значениях п р (Ь' Jx~) < ехр {-п-[е2 (Ь') - е2 (bm)]}, (, =1=- т, (61) с вероятностью 1 [61-] . Доказательство теоремы 5 аналогично доказательству теоремы 3, причем б 1 набирается равным б1 = 1/3 [Г (bm) - Г (bi)]. Следствие 3. Обозначим среднюю нормированную квадра­ тическую ошибку (а)п через cr2 (п), т. е. 0' 2 (п) д Е[11(а)п - ьml1t]. (62) При достаточно больших значениях п cr2(п)< Сехр{п•[е2(Ь') - е2(bm)]} (63) с вероятностью 1; здесь О< С< оо; Ь' Е {Ь'},,,, m• Соотношение (61) указывает,что скорость сходимости зависит как от степени близости h (х I Ь'), r =1= т, к h (х I Ь*) относительно 259
h (х Ibm), так и от степени близости h (х Ibm) к h (х IЬ*) в смысле нор­ мированного квадрата. Другими словами, вероятность в точке Ь', r -=,= т, будет стремиться к нулю тем быстрее, чем bm ближе к Ь*. Тео­ ретическое сравнение скоростей сходимости при использовании Г (Ь) и !1 (Ь) отсутствуют. Хотя такие сравнения были бы полезны, следует помнить, что прагматичеQ{ие допущения могут приводить к оценкам, делающим подобные теоретические сравнения ненужны­ ми. Например, рассмотренный в§ 5.4 метод кластеризации основан на использовании априорных данных, которые нелегко применить при использовании методов, изложенных выше, с введением Г (Ь) и n (Ь). Все же метод кластеризации для многих задач может давать удобные для реализации решения. . Функция регрессии Г более удобна, чем 'l"J, так как в нее входит h (х j Ь), а не ln h (х I Ь). Метод кластеризации с использованием функ­ ции Г при условии большого отношения сигнала/шум представлен В П, 5.4.6. 5.3.6. Квазибайесовская оценка (конечное множество параметров) Представленный в гл. 2 метод стохастической аппроксимации (с. а.) можно считать стохастическим вариантом методов отыскания нуля или максимума функции, которую в этом случае называют функцией регрессии. Обычно функция регрессии бывает неизвест­ ной, однако ее значение можно измерить. Исходная точка для оцен­ ки выбирается произвольной, и затем оценке даются приращения, основанные на использовании последнего наблюдаемого в шумах значения функции,регрессии. Хотя сходимость и обеспечивается при произвольном начальном значении, выбор этого значения существен­ но влияет на скорость сходимости алгоритма оценивания. Далее излагается метод улучшения алгоритма ослаблением влияния на­ чального значения. Метод предусматривает вычисление нескольких оценок с использованием одних и тех же наблюдений, но при раз­ личных начальных значениях и образование затем взвешенного среднего, причем весовые коэффициенты всех оценок стремятся к ну­ лю, за исключанием одного - при оценке ближайшего (в соответ­ ствии с некоторым критерием) к истинному значению параметра. Для обеспечения последовательности изложения сначала будут рассмот­ рены основополагающие результаты, полученные в работах, неко­ торые из которых уже упоминались в гл. 2. Рождение метода с.а. совпадает с работой Робинса и Монро [61], в которой авторы предложили итерационную схему определения нуля функции регрессии. В следующем году Кифер и Вольфовиц [62] описали метод с.а. для определения максимума функции ре­ гресии с одним неизвестным параметром. Позднее Блум [63] обоб­ щил результаты Кифера и Вольфовица для нескольких неизвестных параметров. Все эти работы были впоследствии объединены, уси­ лены и- обобщены Дворецким [94]. Хороший анализ основных поло- 260
жений, служащих основанием этих методов, можно найти в книге Уайлда [65, гл.6] 0 . Один из двух исходных подходов к решению задачи улучшения метода с.а. был представлен Кестеном [66]. Его метод состоит в умень­ шении шага только тогда, когда оценка изменяет знак - идея осно­ вана на том, что при значении оценки, далеком от точки нуля или максимума, нельзя ожидать изменений знака; при значениях же ·оценки, близких к нулевой точке, имеют место частые изменения знака. Второй подход предложил Круц-Диас [67, с.178], который предложил использовать только знак измеренного в шуме значения функции регрессии, а не ее действительное значение. Благодаря этому шаг в алгоритме с.а. возрастает в областях, удаленных от то­ чек изгиба. Представленный здесь метод отличается от упомянутых выше тем, что он не приводит к ускорению сходимости алгоритма с.а. Этот ме­ тод «выделяет» наилучшую из нескольких оценок по методу с.а. Рассматриваемый метод основан на сверхэффективности бай­ есовской оценки при конечном множестве параметров. Оценка назы­ вается сверхэффективной, если ее дисперсия убывает быстрее, чем 1/п. Ле Кам [28] указал, что сверхэффективность возможна на мно­ жестве параметров меры нуль. Излагаемый метод усреднения осно­ ван на байесовском решении для конечномерного пространства параметров (см. п. 5.3 .4). Вычисление байесовской оценки в случае конечномерного про­ странства параметров требует оценки 'll (bk) в каждой точке Ь\ k = = 1, 2, ... , V, пространства параметров ~ 1п '1] (bk) =-;; ~ lnh(xs jbk), k= 1, 2, ... , V. s=1 (64) Цель введения квазибайесовского метода оценки состоит в умень­ шении числа точек V перемещением выбранных точек ближе к истин­ ной точке Ь*. Так как одна из выбранных точек будет вначале ближе всего к Ь*, можно ожидать, что она приведет к истинному значению Ь* быстрее, чем другие начальные точки. Поэтому можно ожидать, что байесовская оценка, определенная с учетом этих перемещенных точек, будет менее чувствительна к выбранным априори исходным значениям. Метод. Предположим, что Ь* принадлежит ограниченному мно­ жеству ;JJ', так что i-я компонента bi вектора Ь* лежит в интервале [а1, Pil, причем ai и р1 , i = 1, 2, ... , q, известны. Множество flд' разделяется на V ячеек, образованных разделением интервала [ai, q Pil на V1 равных подынтервалов, причем П V1 = V. После выпол­ i=I нения п-го наблюдения Хп величины х вычисляются V оценок с.а. 1 ) См. также [90*, 91*]. (Прим. ред.) 261
(Ь')п.+t, r = 1, 2, ... , V, причем исходными точками служат цент­ ры ячеек множества fJJ'. i-я компонента (Ь')п + 1 вычисляется по формуле (ьnп.+1= (ьnп +~ (i. 2п-у~. 2n-1), r = 1, 2, ... , V, (65) Сп где {ап} и {сп} представляют бесконечные последовательности, удов­ летворяющие условиям 00 lim Сп= О, n➔oo 00 ~an= 00, n=I ~а~с;2<оо, n=l (66а) (66б) (66в) (66г) t i а у,,2n и y,,2n-I - измерения функции регрессии при наличии шума: У~.2п = lh (х1(h')п+Спet) , У~.2п-1= lпh(Хп/(Ь')п- Спе1), (67а) (67б) Вектор е; представляет вектор-столбец, ·элементы которого равны 1 в i-й строке и О в других строках. Если вычисленное по формуле (65) значение (Ь;)п + 1 не попадает в r-ю ячейку, т. е. если 1(ьПп+1-(ЬПо 1> 1⁄4 (P;-a;)/V;, (68) то (б{)п + 1 перемещается в ближайшую-точку (Ь{)0 + 1/2(Р; - a1)IV. Таким образом, (Ь~)п + 1 будет отличаться по абсолютному зна­ чению от своей исходной точки (Ь~)о не более, чем на 1/2(Pt - a 1)/V;. Соотношения между этими величинами изображены на рис. 5.1 для q=2,V1=4иV2=5. Получив V оценок с.а. в соответствии с формулой (65), образуем затем квазибайесовскую оценку (Ь)п + 1 : (Ь)пн = ±(h')n+i Р ((ЬГ)о Ixn), (69) r=l где р ((Ь')о I Хп) - апостериорная плотность, определенная 11 по фор­ муле (36) п. 5.3.4 . Таким образом, (Ь)п + 1 является взвешенным средним значением V оценок с. а., причем весовой коэффициент r-й 1 ) Читателю предоставляется возможность рассмотреть, почему в формуле (69) не. использованы р ((Ь')п I Хп), 262
оценки - апостериорная вероятностная мера в центре r-й ячейки. Определение V оценок с.а. таким путем делит интервал поиска Ьi на V1• При достаточно большом п можно добиться сколь угодно малого отличия (Ь)п + 1 от Ь*. Однако при практической реализации воз­ никает ошибка квантования при возрастании п. Так как весовые коэффициенты при r * т быстро сходятся к нулю, остается только (Ьm)п + 1 , наилучшая оценка с.а. в смысле максимума величины 11 · Далее показано, что при больших п средняя нормированная квадратическая ошибка при использовании (Ь)п сколь угодно близка к средней нормированной квадратической ошибке при использо­ вании (hrn)n- Рис. 5.1. Совокупность . 'li, содержащая Ь* Качество. Средняя нормированная квадратическая ошибка при использовании оценки (Ь)п равна д VV 02 (п) =E{!l(b)11 -b*l/2}= ~ ~ Е{[(Ь')п-Ь*] 1 [(Ь')п-Ь*]Х r=-1 t=-l Прибавляя и вычитая величину (hrn) 11 к стоящим в скобках членам суммы получаем VV 0 2 (n)= ~ ~ Е ([(ЬГ)11 -(hm)п}1 [(Ь1)п-(Ьm)п] Х r-.lf=I r,t+т хр ((ЬГ)о Ixn) р ((b1)ol Xn)J +2Е {[(hrn)n-b*] 1 f [(ЬГ)п- г,f=т - (Ьm)п} р ((Ь')о I x,i)} + E{II (Ьm)п - Ь* // 2}. (71) ~б.3
Так как множество параметров ограничено, то 11 (Ьr)п - (bm)пll~ ~ R < оо. Используя это обстоятельство и неравенство Шварца и обозначив О'~ (п) л E{ll(bm)n - Ь* li2 }, находим + 2Rат· (п) (Е {[гiр ((br)o Ixn) Т}) 112 +(J~ (n) < (72) <(V-l)R2 .i E(p(bГ)olxпH+2Rom(n)x (73) Как показано в п. 5.3 .4, при больших значениях п р ((Ь')о I Хп) < < О [ехр (-п6,)], но из неравенства Рао-Крамера следует о~ (п) > > О (п- 1), так что при больших значениях п о2(n)~о~(п). (74) Причина целесообразности образования взвешенного среднего (69) состоит в том, что байесовский алгоритм сходится гораздо быст­ рее, чем оценки с.а. Иной вид функции регрессии. Иной путь осуществления метода усреднения состоит в применении функции Г (Ь), определенной со­ rласно_(55), и в вычислении ее среднего с весовыми коэффициентами q ((Ь') 0 1 Хп), 1 ~ r ~ V. В частности, i-я компонента (Ь')п + 1 опре­ деляется по формуле (75) i • где и,, 2п и и~. 2 п- 1 являются измерениями функции регрессии в присутствии шума, т. е. И~. 2n = 2h (Хп j(Ь')п +Спе;)-11 h(•1(Ь')п +Спе;) 112 ; И~. 2п-\ = 2h (Хп 1(Ь')п-Сп е;)-11 h (-j (Ь')п-Сп е;) 11 2 • Среднее вычисляется по формуле V . (Ь)пн = ~ (Ь')п+l q r(Ь')о IХп], r=l (76а) (76б) (77) где (Ь')п + 1, r = 1, 2, ... , V, определена согласно (75). Аналогично п. 3.3 .4 следует, что усредненная оценка (77) вы­ деляет оценку с.а., начальная точка которой является наилучшей в том смысле, что соответствующая функция плотности является «на- 263⁄4
иболее близкой» к истинной плотносtи по критерию минимума нор­ мированной квадратической ошибки. Результаты моделирования на ЭВМ. На ЭВМ моделировался про­ цесс усреднения с использованием функций регрессии 11 (Ь) и Г (Ь) 1,0 \ \\ '\ \ \ Ь\ Оценки лоJ.!Bmollg o,g D,8 \ \ 'h стохастическоil ч,[1ЛПД0KCllMf1/{ll/J С ,acxoilнoil.mo'lкoii 't,...Ш7=-5,5;mz=;f,UJU; , m4 =5,5 V\ \ °''°'- 'о Ь..,, KBaзalfaileco8cкaя 'Q \ O,Z /'\ Оценка по мemotlg стоха- \ cmll'lecкoil f1ПЛ/J0KClll1f1ЦlllJ \ -х::---х с acxoilнoil mo'IKoif, liлaжatl- ь--,-о.-0 0,1 шeil к b*(m1=...Z,5; т2=O; m3=2,5) 0 1----,01....o --20., _o __ JO.,_o __ lf...,_O_o __5...,_o,_o __n _. Рис. 5.2. К:ачество кв&зибайесовской оценки при истинной плотности, представляющей смесь трех одномерных нормальных функций плотности: 3 h(xlb*)= ~ Р;N(х[щ, а). (78) 1=1 1 Параметры были выбраны следующим образом: Р = 3 и из• вестно; m1 = -3инеизвестно; m2 = О и неизвестно; т3 = 3 и неизвестно; а = 1 и известно; V = 36. 265
Результать1 моделирования на ЭВМ показаны иа риа. 5.2 и 5.3 . На рис. 5.2 иормироваииая квадратичная ошибка квазибайесовс­ кой оценки сравнивается с ошибками двух рассматриваемых_оце­ нок с.а., причем одна из них является оценкой с.а., на• чальная точка которой ближе к Ь*. Подобным образом на рис. 5.3 нормированиая квадратичная ошибка средией оцеики, основанной на Г (Ь), сравнивается со средней нормированиой квадратичиой fl,7 х О,б !/сре8ненния 111.(elllrfl 0,1 0'----=,oc=-o=----::2в~o=---~:,~oo,,,_..--,,,.i,o.~u--5.,-!,o,,,.o-n Рис. 5.3 . Качество квазибайесовской оценки, основанной на Г (Ь) ошибкой оценки с.а. (основанной на а (Ь)) с начальной точкой, бли­ жайшей к Ь*. Кривые для других оценок с.а., основанных на Г (Ь), на рисунке не показаны. Заключение. Накладывая сверхэффективную оценку иа оценку с.а., образованную как среднее нескольких оценок с.а., можно уменьшить влияние выбора начальной точки и улучшить качество алгоритма с.а. по сравнению с качеством, достижимым при одной оцеике с.а., для которой иачальиая точка выбирается случайио. Хо­ тя методика усреднения была рассмотрена в связи с алгоритмами с.а. типа Кифера-Вольфовица, ее можно прчменять также и к алгоритму Робинса-Монро. 266
Если при некотором семействе функций плотности функция ре­ грессии многомодальна, то можно применить метод усреднения, что­ бы предотвратить сходимость к локальному максимуму, отличному от главного максимума, при условии, что V достаточно велик. Дру­ гими словами, с помощью метода усреднения не только выделяется оценка с. а. с наилучшей начальной точкой, но он является алго­ ритмом автоматической параллельной обработки. 5.3.7. Псевдодетерминированный поиск экстремума Достоинство байесовского метода состоит прежде всего в том, что он указывает на необходимость вычисления р (Ь IXn) для каждой точки Ь пространства параметров; конечно, если в пространстве па­ раметров точек много, то это может оказаться непрактичным. Так как апостериорная вероятность вычисляется для каждой точки Ь, байесовская оценка (b)n = Sb р (Ь Iхп)dЬ не должна зависеть от вы­ бора начальной точки. С другой стороны, стохастическая аппрокси­ мация зависит от выбора начальной точки; при заданном числе п ите­ раций в алгоритме стохастической аппроксимации качество оценки ·может быть очень плохим. Достоинством стохастической аппрокси- мации является возможность его реализации при сравнительно не­ большой сложности вычислений. Введенный в предыдущем параграфе квазибайесовский метод представляет попытку соединить простоту стохастической аппрокси­ мации с усредняющим свойством байесовской оценки, которое умень­ шает зависимость от выбора начальной точки. Б айесовский метод косвенно наводит на мысль об ином подходе, который требует увеличения длительности вычислений, но не так сильно зависит от выбора начальной точки; этот подход реализуется следующим образом. Медленная сходимость алгоритма с.а. вызыва- ется частично тем обстоятельством, что последовательности {as}~ =t и {cs}~=I, управ.JJяющие размером шага, стремятся к нулю слиш­ ком быстро, чтобы преодолеть влияние выбора начальной точки. Это наводит на мысль, что последовательности следует выбирать на ос­ нове оценки степени близости начальной точки к истинному пара­ метру. Как раз это и обеспечивает байесовская оценка. Рассмотренные в гл. 2 методы стох;астической аппроксимации тре­ буют изменения оценок на величину, определяемую оценкой гра­ диента функции регрессии. Для оценки градиента, в свою очередь, нужно выполнить в присутствии шума два измерения функции ре­ грессии вблизи оцениваемого параметра. Каждое из этих измерений основано на одном наблюдении и обладает «какой-то дисперсией». Если вместо этого каждое измерение функции регрессии вьшолнять как выборочное среднее на основе п наблюдений, то дисперсия умень­ шится в п-1 раз. Псевдодетерминированный поиск экстремума осно­ ван на идее, состоящей просто в оценке11 Г (Ь) при помощи всех п на- 1 > Вместо Г (Ь) можно использовать tJ (Ь). 267
блюдений х1 , х2 , ... , Xn и в применении затем алгоритма, управляе­ мого градиентом, для определения стационарной точки. Обозначим Гn (Ь) оценку Г (Ь), основанную на х1, х2, ... , Xn и вы­ числяемую по формуле п Гп(Ь)=--;- ~ {2h(xstb)-/[h(•lb)//2} = s=1 =: i h(x8 /b)-l/h(-/b)l/2 • (79) S=1 Обозначим е некоторую предвидимую допустимую ошибку оценки па­ раметра и введем две положительные постоянные с и d (с меньше е). Обозначим (Ь)п, k k-ю рекуррентную оценку Ь* основанную на п наблюдениях, причем j-я компонента (Ьi)п, k вычисляется по фор­ муле (Ьj)п, k+l = (Ьj)п, k + .!! __ [Г((Ь)п, k + сеj)-Гп ((Ь)п, k)], (80) с где е1 - единичный вектор с j-й компонентой, равной 1, и осталь­ ными компонентами, равными нулю. При этом алгоритме оценке дается приращение по направ.r~ению градиента на величину, пропорциональную градиенту. Итерации по индексу k заканчиваются, когда (81) При использовании алгоритма (80) не возникает проблемы запо­ минания, однако при больших /_ может оказаться невозможным пе­ ребор всех возможных значений Ь. Алгоритм может применять­ ся после кластеризации, когда начальное значение вектора (Ь1),,, 1 уже определено при I<nастеризации. Следует подчеркнуть, что оценка, получаемая стохастическим поиском экстремума, вообще не столь хороша, как байесовская. В наилучшем случае оценка (Ь),,, 00 есть решение, максимизирующее Г,, (Ь) или 'YJn (Ь). При байесовском методе оценивается \ п Чп(Ь)= - ~lnh(x.sIЬ) п ... s=1 для каждой точки Ь пространства параметров и затем вычисляется среднее. 5.3 .8. Один класс алгоритмов, основанных на минимуме интеграла квадрата расстояния Класс алгоритмов, основанных на l\!инимуме интеграла квадрата расстояния, требует, чтобы пространство .Л бьио ограничено конеч- ным множеством {a'1}t'=, N точек. 268
Эмпирическая функция распределения смеси для выборки {x,i}~ = 1 определяется форму лой 1> (82) и эмпирическая плотность формулой 1п Сп (х) =-;; ~ б (Х-Хп), k=1 (83) где х и 6 являются соответственно обычными индикаторной 2 > и дель­ та-функциями. Выражения (82) и (83) назовем эмпирическими функ­ циями смеси; они являются оценками функций, которые будем назы­ вать функциями смеси. Другим видом оценки функций смеси является гистограмма рас­ пределения или плотность смеси. Если определить N* упорядочен­ ных областей {:Y,k}f~ 1 на ограниченной области пространства на- N* блюдений 6/fL, где uN* ffk = 61?L, μ ("ifk n"ifJ) = о, k * j, (μ пред- k=1 ставляет меру Лебега, а порядок нумерации произволен), то гистограмма, оценивающая плотность смеси, будет равна N* сп(х)= ~ X'!-k(х}щп, (84) k=1 где (85) Гистограмма распределения рэ,вна N* k Сп(х)= ~ X';-h(x) ~ a1n. k=1 1=1 (86} Выражения (84) и (86) будем называть гистограммами смеси. Желательно определить несмещенные оценки параметров смеси ~, принадлежащей 3 > L1 nL 2, и оптимальные в том смысле, что они 1 > В многомерных случаях можно также использовать метод толерантных областей, определенных в гл. 3 и использованный в гл. 4 для определения kNN 3-правила. 2 > Индикаторная функция определяется выражением Х (x)={l,xEA, А О в других с.'Iучаях. з) L 1 означает пространство абсолютно интегрируемых функций, а L2 - пространство функций, интегрируемых с квадратом. 269
минимизируют квадрат нормированной разности между оценкой смеси, полученной при использовании конечного семейства функ­ ций, и либо гистограммы смеси, либо эмпирической функцией сме- си. Примером является несмещенная векторная оценка Pn = (Рп(о.1), Pn (а2), ••• , Pn (aN)), минимизирующая величину N ~1/Сп(х)- ~f(хIа1)Рп(fi)/12dx. (87) i=I В двух простых алгоритмах с.а. для оценки параметров смеси ис­ пользованы функции Роббинса [43]. В рассматриваемых алгоритмах, минимизирующих интеграл квадрата разности, применяются линейные операторы, являющиеся линейными комбинациями из определенного конечного семейства. Как будет показано ниже, вследствие этого необходимо, чтобы это семейство функций содержалось в L1 n L 2 . Для получения не­ скольких различных видов таких систем алгоритмов вводятся из ff (семейства плотностей) и ff' (семейства распределений) три новых семейства функций в L1 П L2 • Хотя ff' не содержится в L1 n L 2 , существует такое конечное число у 0 > О, что 'для любого конечного числа у> у 0 семейство функций ff* = {F* (х j а') }f= 1, определяется соотношением F*(хIа')={F(хjai),11х11<1'· О в остальных случаях, хЕPJ'L,i=1,2, ..., N, (88) содержится в L1 n L 2 и состоит из линейно независимых функций (если функции {F (x/a')}f=i линейно независимы, то они ли­ нейно независимы в некоторой ограниченной области, в частности 11 х 11 < у 0). Эмпирическое распределение (82) смеси подобным же об­ разом по определению равняется нулю вне области {х : 11 х 11 <у}. Два других семейства функций представляют ступенчатые ана­ логи семейств '!f и ff * 0 . Эти семейства функций применяются в слу­ чае систем, требующих запоминания оценки функций смеси, так как применение этих ступенчатых функций вместо функций ~ и ff * может привести к меньшему объему памяти. {'Й, N• Выберем множество областей ff . ' }i= , и определим новое No '!1, семейство функций (допуская, что Uk= 1 ст h содержит точки x:llxll<-v) No d(x/ai) = ~ x:;1 (x)biJ, i=l,2, ... , N, /=1 (89) 1 > Рассматриваются две возможности. В выражении (87) использовано прнбл иженное представление плотности смесн эмпирической плотностью; те­ перь рассмотрим приближение гистограммой. 270
rде bij= 5f(xlai)dx,i=l,2, ... ,N; j=1,2, ... ,N*. (90) Tj Соответствующее семейство кумулятивных плотностей можно оп­ ределить при помощи выражений (89) и (90): N* r D(х[ai)=~ XJt/x)~Ьц,i=1,2, ..., N. (91) !=1 j=1 Функции {D (xl a'}f= 1 не ограничены областями L1 n L2 . Од­ нако их nажные свойства можно сохранить, потребовав, чтобы ifNo={x:jlх11<у,хЕr~L}; b1No=0,i=1,2, ... ,N. (92) Полученное семейство функций, которое обозначим {D* (х I а 1)}f= 1 , лежит в области L1 n L2 . Аналогично оценка распределения смеси по гистограмме (86) определяется на '/fNo. Линейная независимость функций {F (х I а~ }f= 1 на ?J'1 - ifNo является необходимым и достаточным условием существования по крайней мере одного разбиения области ?J'1 - '/fNoнаN* - 1раз­ деленных областей {'lf 1}f,:1, таких, что при N* > N класс всех конечных смесей {D * (х I а i) }f= 1 идентифицируем (вследствие теоремы 1 в [ 16]). Следовательно, класс всех конечных смесей {d (х I а') }f= 1, определенных на этом множестве {'lf 1}Г:: 1 , также идеч1ифицируем11 . Следующее описание построения систем алгоритмов изложено применительно к семейству ~, однако при соответствующей интер­ претации системы можно воспользоваться любым из определенных выше семейств. Системы оценки без обучения, в которых используются функции Роббинса. Функции {f (х I ai) }fl~ 1 из семейства ~ охватывают М' -мерное подпространство И в L1 n L 2 • Обозначим Uf ортого­ нальное дополнение подпространства, охваченного функциями ' м , {f (х Iа1)}t= 1,, -1' 1 в L1 nL2• Определим функцию J. • с()- f (хIat) •- 12 М' (j) Х -- ----, l- , , ..., , 1/ fJ. (х / ai)ll2 (93) где f.1. (х Iа') представляет составляющую f (х Iа1) Е И-f и 11 • /12- квадрат нормы L2 • Функции (93) называются функциями Роббинса; они обладают свойством2 > 1 > Заметим, что N - число точек в пространстве параметров, а N* - число упорядоченных областей в пространстве наблюдений. . 2 > Это семейство и вызывает необходимость перехода от .fF и {D (х J а1)} к семействам функций, содержащимся в L1 П L2• 271
Scpi (х) f (х Iu.t)dx = бл, (94) где о n - символ Кронекера. Допустим, что функция шютности сме­ си h (х) содержит только функции из {f (х I a.i) }, получим М' Jcpi(x)h(x) dx = Jср1 (х) .. ~ f(xjai)P(ai)dx = /=1 =0Р(а1),i=1,2, ..., М'. (95) Пусть a1<i• k> представляет одну из точек параметров а1, а2 , ..• ... , aN. В частности, это j-й член k-го возможного подмножества N точек параметра. Если каждое подмножество имеет размерность М', Jмпириrсскол плотность З:п Dы§орок Рис. 5.4 . Оценки по неклассифицированной выборке то имеется (;,) подмножеств параметров, и k обозначает k-e под­ множество. Выражение (95) указывает на следующий алгоритм для оценки Р (ai U, k>) j-го параметра смеси в k-м подмножестве. Алгоритм 1 Рп(aiU,k))=~cpiU,k)(х)Сп(х)dx,i=1,2, ..., М', (96) где Сп (х) - эмпирическая функция плотности, определенная фор­ мулой (83). Комбинация М' алгоритмов, содержащаяся неявно в вы­ ражении (96), где функции ер построены на подсемействе, образует подсистему, структура которой показана на рис. 5.4. Эту подсисте­ му можно интерпретирова11'ь как оценку функции смеси, которая пропущена через набор согласованных фильтров. Выражение (94) иллюстрирует усредняющее свойство функций q:> относительно функций f (х I ai). Это наводит на мысль об алгоритме 2, предложенном Роббинсом (43]: \п Рп(а1U,k>)=-;;~ср1U,i<)(х.;),i= 1,2, ..., М' (97) S=l ипи в рекуррентной форме 272
Алгоритм 2 Pn(u/<f,k>) = n-l Pn-l (u}<f.k>) +-1-qi<i,k>(xп), i=1,2, ... ,M'. п п (98) Структура подсистемы М' алгоритмов, неявно содержащихся в вы­ ражении (98), показана на рис. 5.5 . Jиilсржки Jиilсржк11 Jиilсржки Рпс. 5.5. Оценка по неклассифицированной выборке Подсистемы, в которых используются либо алгоритм 1, либо алгоритм 2, теперь комбинируются и дают полную систему оценки без обучения. Каждая из (;,) подсистем дает после п-й выборки оценку смеси, м равную ~ f (xl 11,i (i, k>)Рп (ai U• k>). Оценка параметра смеси систем j=I определяется как значения параметров, взятые из оценки парамет­ ров смеси подсистемой, которая «ближе» к эмпирической функции плотности r М' {а/U, *> Рп (и}U, *>)}i~I = arg minj11Сп(х)-~f(хIи}U,k>)Х k f=1 ХРп(и/<i, k> 112 dx], (99) где * представляет индекс подсистемы, минимизирующей выраже­ ние (99). Структуры этих систем, состоящих из (;,) подсистемдля алгоритмов, определенных выражениями (99) и (98), показаны соот­ ветственно на рис. 5.6 и 5.7. 273
nокажем теперь, чtо определенные выражением (99) при приме­ нении алгорл:тмов 1 или 2 системы минимизируют выражение (87). Если взять, как и прежде, k-e подсемейство ff, то оценку функции плотности смеси можно разложить относительно {f (х I a,i (i, k>)} на две компоненты c~h (х) + с~ (х), где c~h (х) - компоненты Сп (х) М' J... в подпространстве, охватываемо!\1 {f (х I а/ U• k>)} / = 1, а Cnh (х)- перпендикулярная компонента. Хп Jмш1r,и­ чсск11я .7.J'OIOll!li!Шb Ontior,or . 1/'.f • ~е'Т, • у) (Х) f{c-, ;:x ;,; f Ь-,r ?,/:djp --· --....,\г---··: ~--------- --- --~~~- 11~· ;,7;,;~1i ~ ! : i мильноiJ __,,, • /.. f'i1!UбK!J/j f(:xla/'; _J /i·,··--~ (ci, t:~ Рп (d,t i ))/!; 1(-}11 f Рис. 5.6. Устройство для оценки по неклассифицированной выборке прц ал­ горитме 1, семейство плотностей $'' Вычислим интеграл квадрата разности f (сп (x)-i ~ 1 f (х Iи/ U, k>) Рn(и./(!, k>)) 2 dx = J[c~h (х) +c}h (х)- м· ]2 - -~ f(хJи/U, k>) dx = J11c}h(х)11 2 dx. J-1 (100) В силу соотношений (99) и (100) интеграл квадрата разности мини­ мизирован относительно подсемейств {f (х I и} (i, k>) }. Структура функций Роббинса. В дальнейшем положим М' = N и для простоты обозначим функции Роббинса {qJk}. В соответствии с их определением выражением (93) функции (j)k представляют ли­ нейные комбинации функций {f (х I a,i) }f.,,, 1 : N (j)k(x) = ~ ah 1 f (х1и.i). (101) i=I 274
::Сп анпuра'lс­ скtlн плотность Dы/iорок Решение С NtJHU- NOЛbHO/i oш~·/iкotl Рис. 5.7 . Устройство для оценки по некласснфицнрованной выборке при алгоритме 2, семейство плотностей /F'
Обозначим Q матрица порядка N х М и определим qiJ = Jf(хIu.i)f(хIu.i)dx. Тогда уравнение (94) удовлетворяется, если в матричном виде (102) AQ=1, (103) А=Q-1 . (104) Вектор-строки матрицы А определяют коэффициенты ahi в (101). Сходимость. Если п п п Рп= [7I (j)1 (х8), -; I (j)2(Х3), ... , -; I cpN (Х8)]1 S=1 S=1 S=1 представляет вектор оценки параметров смеси, основанной на п выборках из системы при М' = N, и Р 0 представляет вектор истин­ ных параметров смеси Ро = [Р (а1), Р (а2), ... , Р (aN)Jt, то среднеквадратическая ошибка будет равна \N E[JIPп-Poll 2 ]=-;;- I E[cpk(x)-P(ak)]2 , (105) k=l где использовано то обстоятельство, что Е [cpk (х)] = Р (ak) и cpk (xs) статистически не зависят от cpk (xi) при j =1=- s . Из усиленного закона больших чисел следует, что Рп сходится к Ро с вероятностью 1. Асимптотические оценки. Для многих задач, относящихся к ко­ нечно-мерному пространству параметров, приближением может яв- ляться {ai};"= 1 . Тем не менее полученные путем последователь­ ного применения алгоритма значения сходятся с вероятностью I со скоростью О (1/п), хотя и не обязательно, к истинному значению па- м раметра. Обозначим~ fi (x)Pi истинную смесь. Тогда предел оценки i=l Рп (ai <i, k)) величины Р (ai <i, k)) равен м limР11(ai<i,k))=5cpi<i,k)(х) ~fs(х)Psdx= n➔oo s=1 м = L ps5ч:1(i, k)(x)fs(х)dx. (106) s=1 Заметим, что если h (х) $. span {f (х I a,i (i, k)) }, то с вероятностью 1 п liП1 !. рп (u;i) < 1. n➔oo i= 1 (107) 276
5.3.9. Состоятельные оценки конечных смесей из бесконечного семейства При построении рассмотренных вь1ше алгоритмов оценки пред­ полагалось, что .Л - конечное множество; от этого прагматического допущения можно отказаться. Здесь будут представлены два ва­ рианта поискового алгоритма, которые дают состоятельные оценки для конечных смесей из бесконечного семейства. Среди принятых до- Рис. 5.8. Перекрытие произведения пространств параметров совокупностью сфер радиусом 1/а пущений содержатся ограниченность.Ли конечность верхней грани­ цы М' числа активных классов, причем оба множества границ из­ вестны. Из-за ограниченности .Л ограничено (А, xf!f!)M' и существует ко- нечное множество векторов bka, таких, что bka Е (.Л xf.P)M'' и N (ьkа, _!_)-=:;(,4, х fP)M'' (ьkа) а где (108) (109) Выражения (109) и (110) означают, что конечное число сфер ра­ диуса 1/а перекрывают пространство параметров (рис. 5.8). Введем 277
множество точек, состоящее из центров сфер, gам~ = {ь"а} . (111) Вектор решений. Ь* Е gам' и miп II Ь0 - bka 11 < 1/а. Посrроение ь"а сети 1/а, удовлетворяющей соотношениям (108)-(110), крайне прос­ то 1'. Например, если .А-прямоугольник, то программа ЭВМ может перечислить всю сеть, запомнив лишь базовую или начальную точку и величину шага для каждой из различных компонент вектора. Минимизация пространства выборок. Определим оценку следую­ щим образом: (Ь)11,а=arg {~tn[s~pIС11(Х)-Н(ХIЬ")1]Ь"Е Е gам~ nffiJM' }. (112) причем С11 определяется по формуле (82), а функция условного рас­ пределения параметра Н (х IЬ") определена в гл. 2. Этот метод по­ лучения оценки позволяет найти «ближайшую» к эмпирической функции распределения приемлемую точку в сети 1/а. Аналогичная задача для скалярного параметра а и а Е (-оо, оо) была решена Роббинсом[43]. Хагя они не вводил сеть 1/а, при его формулировке задачи эта сеть может быть использована. Доказательство Роббинса предполагает полноту пространства функций смеси, а класс всех конечных смесей бесконечного семейства не полон. В работе [ 19] приведено сложное доказательство сходимости оценки, подобной оценке (112) (но с сетью только на .Л), для класса всех конечных сме­ сей2>. Чтобы такая оценка была реализуемой, должны быть известны параметры смеси или сеть должна распространяться на них. При­ веденное ниже доказательство сходимости для класса конечных сме­ сей при наличии верхней границы на число классов, которые счи­ таются возможно активными, крайне просто - на практике при любом методе реализации потребуется такая граница, либо явная (например, априорная), либо неявная (например, обусловленная объемом памяти). Докажем теперь, что (Ь) 11 • а сходится к Ь* с ве­ роятностью 1. Теорема. Определим расстояние между двумя любыми функциями распределения F 1 и F 2 : р (Р1, F~) =sup I Р1 (x)-F2 (Х) 1, (113) х 1 > Однако при большом п вычисления становятся громоздкими. При заданном а требуемый объем памяти относительно невелик для малого размера выборки п; однако скоро выяснится, что требуемый объем памяти возрастает линейно при увеличении п. 2 > См. также [69]. 278
1'огда, еми: 1) при каждом заданно111 значени11 х J,' (х I а) непрерывна (е) по отношению к а; 2) известна верхняя граница М'; 3) пространство gзм' замкнуто и содержит истинный вектор Ь*; 4) {.o/t':H(xlb), ЬЕ gзм'} идентифицируемо, то p[lim(b)п,a=b*]= 1. n➔oo а➔оа Доказательство. Так как F (х I а) непрерывна (р) относительно а и Н (х I Ь) непрерывна (р) относительно Ь, то, обозначая bmiIJп= argе~~пр(Н(ХIbk),сп(х)); bkЕgзм'} , (114) l:n, т =Р(Н(х Ibminп),Н(Х1(Ь)п,а), находим, что Еп, а-+ О при а-+ оо. По теореме Гливенко-Кан­ телли p[lim р(Сп(х), H(xlb*))=OJ=l, (115) n➔oo и так как р(Н(х1(Ь)п,а),Н(х IЬ*))~2р(Н(х IЬ*),Сп)+Еп,а, (116) то из результатов работы [40] следует, что для последовательности х1, х2, .• . с вероятностью 1 limH(xJb)п,a)-H(x!b*). (117) П➔ОО а➔оо Зафиксируем теперь последовательнос'I'Ъ х1 , х2 , ... , удовлетворяю­ щую условию (117), и выберем любую сходящуюся подпоследова­ тельность оценок (Ь)п, а, которая получается из нее. Вследствие допущений 3 и 4 предельная точка этой подпоследовательности есть Ь*. Так как это справедливо для ,Т{юбой сходящейся подпоследова­ тельности, то p[lim Ьп,а=Ь*]=l, n➔oo а➔оо что и завершает доказательство. (118) 3 а меч а ни я. Хотя условие неограниченности пространства gзм • не являлось необходимым в теореме для доказательства схо­ димости, оно необходимо для реализации (Ь)п. а· Не было определе­ но, как а-+ оо. Примерами возможных последовательностей могут быть а = п, а = п112 и т. д. Аналогичные замечания можно сде­ лать относительно пространства ffiЗM' и сети и д-ля следующего ал­ горитма. В практической системе может оказаться необходимым ос­ тановить а при некотором значении а = а'. Тогда асимптотическая оценка дается выражением (Ь)оо. а• = arg {~~п [s~p IН (х)-Н (х IЬ") f] Ь"Е gзм~. ngзм '} , (119) 279
где Н (х) - истинное распределение смеси . .Между прочим, одним из семейств, удовлетворяющих условию 1 теоремы, является L-мер­ ное нормальное семейство. Этот алгоритм требует запоминания эмпирической функции ус­ ловной плотности смеси. Хотя для уменьшения числа запоминаемых выборок можно воспользоваться методом толерантных областей, оп­ ределенных в гл. 3 и использованным в гл. 4 в k NN 3-правиле, не представляет большого труда построить примеры1 >, которые при ра- ПосmрОШТ/1, JM- с (. ,\ Хп ПUPUЧIJCK!JIO п :Ci + Аffсолют­ кос JHOЧl!flUl! f/l!JFIK{{UIO роспрсt!слсния Опрсt!слить цснтры Cf/!CP. poougcot11/а D псрскрыDою­ щсii сети Ot/pOJO- /lomь ...,__ _ Апроорныс смесь i!онныс R(.xlbkd) Рис) 5.9, Устройство для оценки по неклассифицированной выборке с пере­ крытием пространства наблюдений сетью сфер радиусом 1/а при минималь· нам расстоянии зумном выборе п дают плохое качество в смысле 11 (Ь)п, а - Ь* /1, особенно при сравнении с апостериорным методом. Схема этого ме­ тода оценки без обучения по минимуму расстояния показана на рис. 5.9 . Максимизация в пространстве параметров. Второй вариант ал­ горитма поиска основан на максимизации взвешенной функции прав­ доподобия на пространстве fйм~· Определим оценку следующим образом: (Ьka=arg{maxГ 11 h(xj/bk)p0 (bk)1; ЬkЕf!Вм~ Пf!ВМ'}, (120) ь'' li= 1 где Ро (·) представля~т функцию априорной плотности параметров в пространстве ffiJM'. Этот алгоритм выбирает в качестве оценки точку в сети 1/а, для которой апостериорная плотность максималь- 1 > Одним из таких примеров является случай умеренного отношения СИ!'· нала/шум, когда имеет место значительное перекрытие функций плотиости. Опыт показывает, что метод оценки, управляемый решением, может работать хорошо (см. § 5.5), а метод минимизации пространства выборок может не работать. 2ВО
ва. В следующей теореме для любой функции g (х) введем обозначе­ ние л Еь•[g(х)] =~g(х)h(кIЬ*)dx, (121) где h (х I Ь*) представляет истинную функцию смеси. • Теорема. Если 1) пространство 31JM' замкнуто и р0 (Ь) непрерывна на 31JM' при Ро(Ь*)>О; 2) h (х,Ь) совместно измеримы [μ] на х, Ь; 3) частные производные первого и второго порядка lп h (х I Ь) по компонентам 01!. величины Ь существуют и непрерывны; 4) Еь•[sup{д2lпh(хIЬ)/д0iдеj: 11Ь-Ь*11<в,ЬЕ31JM']<оо для некоторого радиуса в> О; условия 3 и 4 подразумевают, что Еь•[дlпh(хIЬ)1]=О, д01!. ь• cu(b*)=-Eь•[дZJпh(xJb)\ ]=Еь•[~~1 ]; д0; д0i ь• д0; д0i ь• 5) С (Ь*) представляет положительно определенную матрицу; 6) Еь•[sup{lnh(хIЬ)-lпh(xtlЬ*)}:11Ь-Ь*11>в,ЬЕ Е 31JM'] <Опри в> О, 7) граница М' числа активных категорий известна; 8) {h (х I Ь"): Ь" Е 33м, идентифицируема, тор [ lim (Б)п, а= Ь*] = 1. п ➔оо Q➔OO Дока.зательство. Обозначим bmax n= arg{ max 11 h(xi IЬ")Ро(bk)} ; (122) ь"Е9rм, /= 1 (123) п Тогда из условий 1 и 3 следует, что П h (xi I Ь) р0 (Ь) равномерно j=I непрерывно относительно Ь. Следовательно, lim Еп, а= 0. (124) U➔OO Так как bmax п является оценкой максимального правдоподобия на непрерывном пространстве параметров, то (см. [7, с.3O8, теорема 61) р [Iimll bmaxп-b*l1 =0] = 1. (125) п➔оо Так как - 11 (Б),,, а-Ь* 11~1/ Ьн,ах п-Ь* 1+11 (Б) 71 , a-bmax п 1\, (126) 281
то из (124), (125) получим р[lim(Б)п,а=Ь*] =1, что доказывает теорему. n➔co а--,со (127) Обсуждение. Определенный в п. 5.3.8 класс алгоритмов, осно­ ванный на минимуме интеграла от квадрата разности, подразуме­ вает приближенное представление пространства параметров конеч­ ным множеством векторных точек {o,k}~= 1. Ортогональные функ­ ции q>i могут быть вычислены априори с любой степенью точности, 1 AIIJ]illl/JIIЬ!C Jr,'11116/C 0/fpt!JO!:l!Ш/J П !(,;;.l!Jka) S07'" i' Олреf/ея:,r,6 {{Cll,7//Jbl Cfili, ' il , ll,DtllIJIC!!H !/а!--.,..----------------' '/ J лерtЛ'/}Ы- !Jka /)aющ!J"il cem.' 1 Рис. 5.1 О. Оценка по иеклассифицироваиной выборке, максимизация сети в пространстве параметров величины qii положительны и меньше единицы; вытекающая отсюда проблема ошибок округления при вычислении обратных матриц большой размерности становится достаточно сложной. Системы, в которых используются вырожденные случаи, когда М' = N, тре­ буют меньшего объема памяти, чем большинство систем с 1 < М' < < N. Однако при возрастании априорной верхней границы М' функции q>i становятся более сложными и выделение функций сме• си становится более трудным (это приводит к более медленной схо- димости). Так как пределом (;,) подсистем (при М' = N) явля­ ется вырожденная система, ее относительная простота может дости­ гаться за счет более медленной сходимости. Алгоритмы, основанные на такой вырожденной форме системы оценки по неклассифициро­ ванной выборке, имеют преимущества в отношении объема памяти по сравнению с методами дискретизации апостериорной плотности. Это объясняется тем, что дискретизируется только пространство па­ раметров .Л, а не произведение пространств параметров (.Л х 2fu)M'. Однако при образовании эмпирической функции смеси не исполь­ зуется структура h (х IЬ) (либо явно в алгоритме 1, либо неявно в алгоритме 2). Это обстоятельство приводит, например, к худшему качеству при малом числе выборок по сравнению с апостериорными методами для задач с небольшим отношением сигнал/шум, когда не· большо_е число выборок и:з каждого класса адекватно определяет isi
:tтатистику. По мнению автора, ортогональные функции, по-видимо­ му, должны найти наибольшее применение в субоптимальных систе- 11ах. Алгоритм оценки (Ь)n, а не является рекуррентным и требует за­ r~оминания выборок. Метод адаптивного подбора может существен­ !tО упростить проблему памяти, давая все же полезные результаты. Сразу же представляется возможность построения еще нескольких алгоритмов на основе сети 1/а. Можно применять сеть с фиксирован­ ным числом точек, но с адаптивным размещением при применении апостериорного метода. На рис. 5.10 изображена схема системы максимизации простран­ ства параметров с использованием ~::ети 1/а. Ограничения при реализации метода сети 1/а. Объем памяти про­ порционален произведению nL, однако он может не быть главным показателем трудности реализапии алгоритмов, основанных на се­ ти 1/а. По мере сближения точек сети число точек, в которых необхо­ димо вычислять оценки по формулам ( 112) или (120), возрастает про­ порционально а в некоторой степени. Таким образом, ограничением при реализации этих алгоритмов в такой же степени, как объем памяти, может быть необходимое время. При некоторых примене­ ниях может оказаться желательной замена объема памяти необхо- димь1м временем вычислений. • При использовании методов, основанных на сети 1/а и рассмот­ ренных в п.5.3.8, систематически отыскивается ограниченное под­ множество произведений пространств параметров; их достоинством является относительно небольшой начальный объем памяти. Однако объем памяти возрастает при увеличении п, а время, необходимое для вычисления (п, а)-й оценки, также возрастает пропорциональ­ но некоторой степени а. По-видимому, можно использовать адап­ ти-вное размещение в пространстве с фиксированным числом точек в апостериорном подходе, но объем памяти и время вычислений должны расти при увеличении числа выборок. Алгоритмы, основанные на кластеризации, могут быть несрав­ ненно проще алгоритмов, рассмотреннь1х в данном подпараграфе. По существу это является следствием того, что большинство алго­ ритмов, основанных на кластеризации, исходит из априорного допу­ щения о том, что функции плотности в смеси разделены, и не ис­ пользуется какой-либо критерий для оценки качества кластериза­ ции. 5.4. Методы кластеризации 5.4.1. Введение Использование методов оценки по неклассифицированной выбор­ ке, основанных на кластеризации, при решении многих задач дает результаты, которые используются на практике. Существуют приемы 283
кластеризации, которые позволяют определять положение мод функ­ ции плотности fi (х) i-го класса при большой размерности L. Имеются и приемы кластеризации, подходящие для решения двумерных и трехмерных задач. Используя вновь байесовский метод, введем понятие кластери­ зации, связанной с функцией информации ri (Ь), которая естествен­ но появляется при критерии минимального условного риска. 5.4.2. Метод кластеризации, получаемый на основе функции ч(Ь) Предположим, что классы нормальны и разделяемы. Необходимо найти такое разделение пространства наблюдений, для которого функция ri (Ь) максимальна. Связанное с этим разделением Ь вклю­ чает среднее значение, ковариацию и число выборок каждого клас­ са в соответствующих областях. Этот метод предусматривает поиск допустимых разделений и, следовательно, допустимого Ь при заданном п выборок. Достоинства рассматриваемого метода следующие: 1) качество кластеризации оценивается по критерию ri (Ь); при­ менение критерия может оказаться необходимым, когда число ка­ тегорий М неизвестно; 2) разделение, основанное на п выборках, обновляется при по­ ступлении (п + 1)-й выборки без запоминания предыдущих п выбо­ рок; 3) можно использовать априорные сведения относительно Pi и других параметров класса; это важно для взаимодействия с чело­ веком, особенно если число классов неизвестно. Однако процедура может быть неоптимальной при нарушении условия разделимости. Асимптотическое решение по критерию минимального риска при условии разделимости. Для получения асимптотического решения по критерию минимального риска необходимо найти векторный пара­ метр Ь Е 3uм· при ограниченном числе параметров М (М < М') смеси, который максимизирует функцию ri(b) =~lпh(xlb)h(x)dx=~ln [k~/(х!Ьн) P1,lh(x)dx. (1) Пространство выборок разделяется на М неперекрывающихся об­ ластей, причем области определяются из соотнС1шения1> Sk л {x:f(хIЬ1,)Рн>f(хIb1)Piпривсехj+k},k =1,2, ..., М,(2) при фиксированном векторе Ь. Предполагается, что в пределах каж­ дого подмножества плотность нормальна с вектором средних m1,, ковариационной матрицей !.h и плотность отсекается на границе разделения2 >. Предполагается, что истинная смесь h(x) ограничена. 1 J См. также работу [86]. 2 > Разделяемость следует из этого предположения об усечении. 284
При этих допущениях функцию11 (Ь) в (1) можно разложить в ряд: ri(Ь)= ~ Jlп[f(хIЬ1,)Р1,]h(х)dx = ~ Jh(х)dx х м м[ ] k=l sk k=l sk _\' (x-m1,)1(~11)- 1 (x-m1,)h(X)dx] 1sk ---------------· 2 \li(х)dx sk Выбираются значения М, Ь, и производится оценка функции 1"J (Ь). Затем изменяются значения Ми Ь, чтобы:выяснить, возрастает или убывает функция ri (Ь). Общий случай максимизации функции '1 (Ь). Отвлекаясь пока от определения областей {Sk}t~ 1 (см. (2)), выберем фиксированное множество областей, характеризуемых независимыми параметрами. Вычислив частные производные по каждому из параметров при усло- м вии ~ Р1, = 1, можно показать, что при таком фиксированном paз­ k=t делении функция· (3) достигнет максимума при Р1,= .\h(х)dx; (4а) sk m1, = ~ xh(х)dx/ ~h(х)dx; (46) sk sk !.11 = ~ (x-m11 )(x-m11 )1h(x)dx/ ~ h(x)dx, k=l,2, ... , М. (4в) sk sk Так как для параметров смеси, определенных таким образом, функ­ ция (3) достигает максимума при любом разделении на М областей, она максимальна и для областей, удовлетворяющих определению (2). Из (4а-4Ь) следует, что определение максимума функции 11 (Ь) эквивалентно нахождению такого разделения и такого М, которые максимизируют функцию (5) В работе [70] исследован один из аспектов рассматриваемой зада­ чи при неизвестном М. 285
Если !.k = (ak) 2 1, то можно, вычислив частные производные, как это было сделано выше, показать, что J11 x-mk 112 h(х)dx (ak) 2= sk , k=1,2, ... ,M. (6) Jh (х) dx sk Алгоритм оценки для максимизации функции '1 (Ь) при нормаль­ ном распределении. Этот алгоритм оценки по неклассифицирован­ ной выборке построен для максимизации функции ri (Ь) согласно (5), если известна верхняя граница числа классов М. Так как алгоритм используется без знания числа классов М, которое максимизирует выражение (5), то может оказаться, что М' выбрано недостаточно большим. Этот алгоритм выдаст указание, когда следует увеличить М', чтобы получить максимум функции ri(b). В алгоритме исполь­ зуется функция ri (Ь), чтобы определить, максимизируется ли функ­ ция приписыванием выборки одному из М' классов или она макси­ мизируется комбинированием двух классов и определением выборки как нового класса. Доказательство сходимости не приводится. При рассмотрении алгоритма сохраняется различие между двумя типами статистических классов: изолированными точками и класте­ рами. Кластер представляет совокупность выборок; изолированная точка представляет одну выборку, которая потенциально может привести к новому кластеру. Число кластеров, которые в соответ­ ствии с алгоритмом определяются как максимизирующие функцию '1 (Ь), равняется М*, М' - М* изолированных точек не влияют на функцию ri (Ь). Если число изолированных точек становится слиш­ ком малым, можно увеличить М', тогда получим большое число изо­ лированных точек при условии, что имеется достаточный запас объе­ ма памяти. Изолированная точка х определяется следующими ста­ тистическими свойствами: 1) нулевой мерой вероятности; 2) векто­ ром средних m = х и 3) корреляционной матрицей С = хх1 . k-й кластер характеризуется величинами: 1) пk д_ полному числу выбо­ рок, отнесенных к этому классу и Pk = nk/n; 2) вектором средних mk и 3) корреляционной матрицей Ck. Предположим, что классы r и s комбинируются в класс j. Правила комбинирования кластеров таковы: пгm +пsm Случай А.Двакластера:1)nl=пr+ns; 2) m1= r s пг +ns 3)Cj=пгСт+пsС.~ . пг +ns С л уч ай Б. Кластер (класс r) и изолированная точка (класс s): 1)ni=пr+1; 3) С1= пгСт+Cs пг +1 286
С л уч а й В. Две изолированные точки: 1) nl = 2; 2) m,+ms . 3) С,= Cr+Cs. m1= 2 ' J 2 Случай Г. Кластер (класс r) и п-я выборка того же класса: + пrс +х xt 1) пr= пr+1·, 2)m= nrm, Xn• 3)С= r п·-п • r пг+1 ' r пг+1 С л у ч ай Д. Изолированная точка (класс r) и п-я выборка это­ го же класса: 1) n' =2; Jопомнить N' пер!Jых flыtfopoк кик осхоf/ные клоссы Вырооотить !Jыtfopкg .Хп Выч!1.~лить нооgю cmumucmuк!f ПJJU (bl71/CCBll!Щ к клоr:сg k, k~!,2, ... ,/1 Выч!lслить !!се нoflt,fe ститистики попарных кoмtfuнoqu!l клur:r:o!J !(о,~оенцин aлzO,(lil/l/f-!!1. (лиt!о KЛOCCUl/lUKU!{UЯ 5::5•7/JKY ,?:,:t':I кoмtfUHO!{l/H клоссо!!) N!JKCtl:•![!J!f,П!JIO:il,OЯ 17(t) i!иррг:щ1.:я ллссссfiff cocп1on,7cmiuu С J!83!Jдbm!lf!70NL! !l!:l'Л!JiJf!§'!f!/iЛ Рнс. 5.11. СтруктурнаЯ) схема алгоритма, максимизирующего 11 (Ь) при пред­ пщ~оа(снни, что μоспрсдслепис пормию,rюе 287
Структура алгоритма изображена на рис. 5.11 . Алгоритм начи­ нается с использования первых М' ВЬJборок как М' изолированных точек. Затем при данной выборке Xn имеется два вида возможнЬJх действий: 1) отнести выборку Xn к одному из М' классов (М' воз­ можных действий); 2) скомбинировать два из М' классов и считать Xn новым классом (изолированная точка), ((~') возможных дейст- вий). ВЬJполняется согласно (5) для каждого из М' + (~') возмож­ нь1х действий. Выполняется действие, которое максимизирует функ­ цию ·ч (Ь). Эту процедуру можно сравнивать со способами кластеризации, использующими карту кластеров (п. 5.4.2) [80), цепную карту (п. 5.4 .3) и изоданные [71). Частный случай: !.k = (cr2)1 и Pk = 1/М, где М известно. В та­ ком случае функция ri (Ь) в формуле (3) принимает вид 'У)(Ь)=lп [ 1 ]-- 1 - ff11х- mk11 2 h (х) dx, (7) M(2л)L/ 2 (a)L 2(а)2 k=lSk и определение максимума функции ri (Ь) эквивалентно отысканию {miп f~11x-mk1l2h(х)dx. mk}k=l 1'=1 sk (8) Этот критерий или небольшое обобщение для неодинаковых Р k отно­ сится к классу алгоритмов, управляемых решениями. Очень -легко построить алгоритм, асимптотически минимизирующий риск при ап­ риорных допущениях, приводящих к (8). Критерий (8) не учитывает стоимость добавления дополнителЬНЬIХ категорий, которое учитывается в критерии (7). Параллельная обра­ ботка, предложенная в [31), для М = 1, 2, ... , М' может указать на большее число категорий, чем их существует в действительности. Предположим, например, что h (х) состоит из одной одномерной нормальной функции плотности с нулевым средним значением и дис­ персией (<r) 2 . Если допустить, что М = 2, то из формулы (8) следует, что разделение происходит через точку х = О. Если обозначить дисперсии по обе стороны от этого разделения (cri)2, i ~ -- 1, 2, то спра­ ведливо строгое неравенство (cr1) 2 + (<r 2) < (cr) 2 . Это показывает, что, хотя тут имелся всего один класс, величина (8) при М = 2 меньше, чем при М = 1. Для приемлемого в некоторых случаях допущения, что М известно, критерий, выражаемый формулой (8), приводит к одному из самЬJх простых алгоритмов оценки по неклассифициро­ ванной выборке, существующих в настоящее время 1 > [З5J. 1JСм. §5.5. 288
Обсуждение. Предлагаемая выше процедура обладает тем недо­ статком, что нужна параллельная обработка; другими словами, на каждой стадии вычислений используются все выборки. Может быть, предпочтительнее сконцентрировать внимание на построении о,!1.ного кластера. Решить проблему, следует ли разбивать кластер на два или более, трудно: во-первых, потому что любая процедура зависит от выбран­ ного критерия (например, функция 'l'J (Ь) для оценки разделения); во-вторых, так как при конечном числе выборок существует много различных способов разделения кластера на большее число клас­ теров. 5.4.3. Кластеризация при помощи «карманной лупы)) (карты кластеров) Предположим, что дана функция t (х I х8 , Ф), представляющая многомерную нормальную плотность вероятности с вектором сред­ них х8 и ковариационной матрицей Ф. Представим «соседнюю ок­ рестность» точки Х8 как множество точек, лежащих внутри области концентрирования значений функции t. Функцию t будем называть испытательной. Предположим, что х характеризуется плотностью h (х), которая представляет смесь М функций из нормального семейства м h(х)= ~РIf(хImi, :Ei). (9) ·f=l При надлежащем выборе ковариационной матрицы для испыта­ тельной функции и величины М в выражении (9) можно считать, что испытательная функция t (х IХ8 , Ф) «выделяет» d-й член в (9), если f (х I md, :Ed) является доминантным кластером вблизи точки х8 (см. рис. 5.12): ii' t(хIХ8, Ф)h (х)= t(хIХ8, ~ ~ Ф)Рd f (х Imd, :Ed)• (10) ~ Qтсскиющил f/J!fHKЦ/JR t(:x:) Так как t(х) иf(х) [ представляют нормальные ~ плотности, то и функция Q"""--"'ЧН___;~-=---+-~-ж-►- t (х) h (х) нормальная с ;ps вектором средних Vs и ко- вариационной матрицей i.i' с ~ s· Процедура оценки па- ~ Qтсскиющил фgнкцил t(.z}h(:c) раметров md и :Ed, ха- ~ рактеризующих d-й кла- ~ стер, ~остоит из следующих ~ операций: 1) выбрав точку u.,__' -- -tt - ___ ;~------~ Х8, оценить Vs и С8; 2) вве- ж сm величину Р d~ и матри- Рис. 5.12. Отсекающая функция t(x) 289
цу Ф; 3) вычислить Щ~ и id в зависимости от Vs, С8 их.; 4) опера­ ции 1и 3 для другой точки х8• Таким образом находят среднее значение и ковариационную мат­ рицу категории, котgрой соответствует х8 • Предполагается, что близ­ кие друг к другу выборки дадут соответственно близкие векторы средних и ковариационных матриц. Эта процедура представляет не­ который вид кластеризации в пространстве параметров. Из теоремы Миллера (75, с. 24] следует, что id = (С-: - ф-1)-1; (11) md=(idф-l+))(Vs- х,)+Х,. (12) Затем находим оценку моментов функции t (х /Х8, Ф) h (х). где п А 1~ h (х) = 2 ~ б (х - Х8); б (х) представляет дельта-функцию. Эти ,-1 оценки равны А 1п а8= - ~ t(xj/Х8,Ф); (13а) n J=I А lп asμ,:::,,--;- I X1μ,i(X1/X 8 , Ф), μ=1,2, ... ,L, (13б) J,.. 1 А lп А А 1 asμv=- I (Xjμ-a1μ)(XJv-asv)f(x1 /x8 ,Ф),μ,v=1,2,.,.,L, (13в) п i=I и тогда А ... a8LL }:sd =(С8 -Ф)-1, л,- "' -1 ..... Ща-(~sаФ +I)(V8 -X8) +Х8• (14) (15) (16) (17) Соотношение (17) связывает множество параметров Cisa, 1t18a) с выборкой Xs, s = 1, 2, ... ,п. Если достаточно хорошо удовлетворя• етея условие разделяемости, приводящее к соотношению (10), то можно ожидать, что множество точек (}:8а, lt18 a), s = 1, 2, ... , п, 290
• Рис. 5.13. Исходные данные • • Рис. 5.14, После пятого преобразования кластеров
образует кластеры в пространстве параметров. Если теперь повто­ рить ЭТУ процедуру, ИСПОЛЬЗУЯ В Качестве ДаННЫХ (I,8 , 111 8 d), S = · = 1, 2, ... , п, вместох1, х2, ... , Хп, то, как показываетопьп, кластеры в пространстве параметров «уплотняются». Теоретически это объяс­ няется «эффектом произведения», следующим из соотношения (10); этот эффект произведения хорошg знаком всякому, имеющему опыт с апостериорной плотностью параметров при байесовском подходе. В некоторых случаях можно предположить, что :1: 1 = :1: для всех категорий i = 1, 2, ... , М, где :1: априори известно. Тогда оста• • •• Рис. 5.15. Помеченные исходные дан- Рис. 5.16. После седьмого преобразо- ные вания кластеров ется оценить средние значения. При этих предположениях выраже­ ние ( 17) переходит в ntsd =(:1:ф-1+J)(\'s - Xs)+Xs, Если I,Ф-1 = а, то (18) (19) Когда размерность пространства параметров больше двух, то возникает задача отображения точек кластеров на дисплее. Первым способом является использование цепного отображения (см. п. 5 .4 .4). Второй состоит в применении максиминного отображения, описан­ ного в п. 5.4.5, третий - в применении отображения, описанного в п. 5.4 .7 . Еще один способ состоит в применении метода выращива­ ния кластеров (п. 5.'1:.8). Читателю рекомендуется сравнить изложенный метод с методом, предложенным в [76]. Экспериментальные результаты. Ниже приведены примеры при­ менения карты кластеров с отображением на дисплее. 292
Пример t. Иллюстрирует случай трех хорошо разделенных кластеров; плотность смеси (9) равна 3 h(х)= ~ 1/3l(хIm1, I:i), (20) i=I где f (х I m, I: 1) - двумерное нормальное распределение с параметрами [ 1,5 о] I:1= О 1,5, i=l, 2, 3; (21} m1 =[0, О], m2 =[5, -5), m3 =[-5, 5]. А ~. 1А,4' 4 А" Рис. 5.17. Исходные данные С помощью генератора случайных векторов, характеризуемых плотно­ стью вероятности (20), было получено независимо друг от друга 250 наблюде­ ний (рис. 5.13). Чтобы отобразить эти наблюдения на параметрическом прост­ ранстве вектора средних и ковариаций, было применено преобразование клас­ теров (16) и (17), после чего наблюдения оказались более плотно сгруппиро­ ванными. Это преобразование повторно применили к точкам пространства парамет­ ров, полученных после преобразования точек пространства наблюдений; за­ тем преобраэоваиие выполнялось последовательно четыре раза над точками пространства параметров. На рис. 5.14 показаны результаты после пятого преобразования кластеров. Для обработки всех наблюдений потребовалось примерно 10 с машинного времени ЭВМ CDC6500. Пример 2. Аналогичен первому, но эдесь три класса не так хорошо раз­ делены. [ 2,25О] I:i= О 2,25 ; m1 =[4, О, О]; m2 =[-4, О, -2, О]; m2=[4, О, -2, О], (22) 293
Случайным выбором было полуttено 150 наблюдений с плотностью, соответ­ ствующей выражению (20) при значениях параметров (22). На рис. 5.15 отоб­ ражены эти наблюдения. На рис. 5.16 показаны результаты, полученные пос­ ле седьмого применения видоизмененного алгоритма кластеризации. Пример 3. Рассматривается задача с двумя классами в двух измерениях, когда класс 1 имеет относительно большую дисперсию во втором измерении, а класс 2 - в первом измерении. Соответствующие ковариационные матри­ цы равны [1⁄4 о] I:1= 04 ' r---------·-·-··----- ---- • Рис. 5.18. После пятого преобразования кластеров а векторы средних m1=(О, -2),,m2=(О, 5), соответствующие априорные вероятности появления классов равны. Из гене­ ратора случайных векторов (формула 20) для каждого класса было получено всего 100 независимых наблюдений. Отображение на выходном дисплее ЭВМ 100 выборок показано на рис. 5.17. Буквы А обозначают наблюдения из клас­ са 1; буквы В - наблюдения нз класса 2. Отображение выборок после выпол­ нения пяти кластеризаций показаны на рис. 5.18. 5.4.4. Цепное отображение Рассмотрим относительно простой способ отображения кластеров в L-мерном пространстве на пространство с меньшим числом изме­ рений, называемое цепным отображением. Пусть х1 , х2, ... , Xn представляют п векторных выборок (рис. 5.19) дляL=3иn=26. 294
"Цепь" Xz /f7Jl!..5 Zб 3~ 21 zJ~ 't&в.g d 'W-/'f-25 13~'[}9 , 1_!~9 .. - -- 20 zz 1б 1 _-,,---.,..._________ 17 lf- -- :С1 18 15 Рис. 5.19. Пример «цепи:. в пространстве с L=З 1. Выберем произвольно один из n векторов, например х1 (рис. 5.19). 2. Определим место выборки, ближайшей к выборке х1 , например х9 (см. рис. 5.19), используя эвклидову метрику. Отложим расстоя­ ние между х1 и х9, обозначенное d12, вдоль оси у2 (рис. 5.20); вто­ рая точка вдоль оси у1 со- ответствует выборке х2 • ~ ~Yz 3. Продолжив этот про- ~ t~:::,- цесс, получим «цепь» (рис. ., . .,, 5.19); начертим расстояния ~~~~ между элементами' цепи, как t'i ё=,_ показано на рис. 5.20. ~~ d1z Цепное отображение, по- "--~ -т+1-н+1-н+н-н-н+н+1-н+н+1-н+н---у•, добное изображенному на ;8g101gzo рис. 5.20, при рассматрива- лep!Jalf тичко цспu нии его на дисплее может быть очень наглядным. Когда Рис. 5.20. Отображение выборок, иэобра, жениых на рис. 5.19 категории хорошо разделены и соответствующие категории «тесно кластеризованы», то кластеры можно распознать как выборки, расположенные между бол1>шими выбросами в отображаемом про­ странстве. В противном случае на отображении могут быть частые «малые» выбросы. Вот почему может оказаться целесообразным до использования цепного отображения воспользоваться «сгущением кластеров», например их отображением. При некоторых применениях оказалось полезным видоизменение, А п состоящее в вычислении общих дисперсий af = (1/n) ~ (X8 t - s=I п -(1/n) ~ X8 t} 2 ~ i =1, 2, ... , L (при этом используется смесь данных s=l из всех М категорий) и в определении расстояния между х и у L А N в виде 1~ (Xt -yi)9/af]2 вместо эвклидового расстояния ( ~ (х1 - i-l t=l _ y,)IJl/20 295
5.4.5. Максимин (максимум минимального расстояния) В работе (78] предложен метод кластеризации, превосходящий цепное отображение в отношении и разрешающей способности, и затрат времени. Предположим, что имеется М категорий (i)t, i = = 1, 2, ... , М. Если даны выборки х1, х2, ... , Хп, то их нужно рассор­ тировать на М категорий, причем М неизвестно. Определим эвкли­ дову меру расстояния d (х, у) = 1х - у j. D:z :Z:z Шz :Х:3 :Z:3 fJJ3 эmrrnt Этипz ::с,,_ х,,, Ж5 :Х5 :Z:5 :Z:5 СоDокgп- СоDокgп- б) 11ость· ность llыtiopoк aJ Kl!117C30puif Жz blz Z3 fJJ3 Рис. 5.21. Задачи для1 клас- :r't теризации Ж5 {J}5 :t.6 {J}6 В} Проиллюстрируем этот метод, используя шесть выборок (п = 6), показанных на рис. 5.21, а. На первом этапе разместим п векторов в таблице, как показано, и произвольно припишем выборке х1 ка­ тегорию ffi1 . Затем найдем выборку, наиболее удаленную от ffi 1 , на­ пример Х4; припишем выборке х4 категорию ffi 2 (рис. 5.21, 6). Теперь найдем класс, ближайший к каждой из остальных выборок, и запомним эти минимальные расстояния. Найдем наибольшее из этих минимальных расстояний и отнесем соответствующую выбор­ ку к категории ffi 3 • Предположим, что этой выборкой является х6 (рис. 5.21, в). Теперь для остальных выборок х2 , х 3 и х5 найдем среди катего­ рий ffi1, ffi 2 или ffiз ближайшую к каждой из выборок и запомним рас­ стояния. Найдем наибольшее из этих наименьших расстояний. На 296
основании этого примера nриходим к замючению: четвертое изме• репное максимальное из минимальных расстояний существенно мень­ ше прежнего «максимального» расстояния. Это показывает, что име­ ется три кластера (М = 3). 5.4.6. Метод кластеризации на основе функции Г(Ь) Пусть h (х) представляет смесь функций из нормального семей­ ства м h(хIЬ*)= ~NN(хIm;,}:.;). (23) l=I Пространство параметров fE представляет множество точек {bt}, где bi = (mt, }:.д. Ограничениями являются условия, м О~Pi~1, ~ Pi= 1. Далее следует, что l=l где мм llh(xlb)ll2 = ~ ~ PiPJcij• i=I j,,,. J (24) (25) Интегрирование в правой части (25) можно выполнить, дополнив ее до полного квадрата: CiJ =(2л)-Lf2 / }:.t 1-112 j }:.J 1-1121 }:.j " 1+}:.Г11-112 х Х ехр{-+ [(mt-miJ)t }:.Г 1 (mi-miJ)+ + (m1-miJ)1) }:.Г 1 (mj-miJ)]}, (26) где (27) Если ковариационные матрицы равны: }:.i = }:.1 = l:, ciJ =2- 1/ 2 (2л)-L/2 /}:. 1 - 112 ехр { -1⁄2 (mi-m1)t }:.- 1 (mi -mj}}. (28) Заметим, что формула (24) упрощается при большом отношении сигнал/шум, т. е. при (mi-mJ)t (1:1 1 + }:.Г 1 ) (mi-m;) >а» 1. (29) Если соотношение (29) удовлетворяется, то условные функции плот­ ности классов «квазиортогональны», т. е. ciJ= ~N(хImi,}:.дхN(хImJ,}:.1)dx~О, i=:/=j. (30) 297
Следовательно, м lih(•lb)i!2 ~ ~ Рlсц, l=I (31) где сн определены согласно (26). Испол~зуя (31) и (30) п. 5.3 .5, находим . м' . q(ЬIХп)~ Пqi(ЬIХп), (32) l=I где ехр{ ,± 2Pi N (xs / mi, !.i)-P' cii} qi(ЬIX 0 n)= ---'---s=_I--------- м ~ [числитель] l=I (33) Таким образом, согласно (32), если классы «сильно разделены», то совместная плотность q (Ь IXn) параметров приближенно фактори­ зуется, т. е. разделяется на множители, представляющие М функ­ ций плотности параметров для каждого класса, причем степень приближения улучшается при возрастании а (29). Обсуждение. Разложение на множители в (32) получено благо­ даря тому, что в методе МНКО. используется выражение для //h (xlb)JJ2 [см. (24) и (25)]. Плотность Чt (Ь IХп) содержит параметры только из класса i. Плотность же q (Ь Ixn) содержит параметры из всех М классов. Оценка q (Ь IXn) при фиксированном числе точек параметров Ь го­ раздо сложнее оценки функции qt (Ь IХп), i = 1, ... , М. Алгоритм кластеризации получают следующим образом. Пусть ~ ln IпМ Г(Ь)=--;-~ h(xsIЬ)=-;;-~ ~ Р1f(xsjЬ1). (34) S=l s=l i=I Если семейство ;f нормально и матрица ~t диагональна, то М1п [ 1L( )2] Г(Ь)=~ -n ~ ехр --2~ Xsr-mir ,., _ ,., _ ~ (O'ir)2 • 1-1 s=l r=I (35) где m17 представляет г-ю компоненту m, а af, - r-ю компоненту на диагонали матрицы ~i. Предположим, что х, представляет неклассифицированную выборку; измерим расстояние [ 1IL(Xsr-m;r)2] • 12 М ехр -- ,i=,,..., , 2 r=l (O'tr)2 (36) 298
и отнесем Х8 к классу i, имеющему наименьшее расстояние. Затем вычислим вектор средних mi и ковариационную матрицу ~ 1 с ис­ пользованием этой выборки. 5.4.7. Отображение непрерывности Меры сходства выборки. Рассмотрим последовательность п L- мерl!ых векторов х1 ,. ... , Хп , где п1 векторов из категории 1,п2 из ка­ м теrории 2, ... , nм из категории М; п = ~ п1 . Если эти М катего- 1=1 рий не классифицированы, то предположим, что для образования М групп был использован какой-либо метод классификации без учи­ теля, например кластерное отображение. Целью отображения не­ прерывности является такое преобразование исходных L-мерных векторов в п 1-мерных векторов у1 , ... , Уп, чтобы были сохранены соотношения или сходства между вЬiборками. Желательно, чтобы мера несходства d11 двух векторов х1 и х1 возрастала при любом увеличении различия двух компонентов x1,k и Xj,k для каждого значения k, а также, чтобы отображение из пространства Р/' L в пространство Pl'i было однозначным и непре­ рывным. Однозначность предполагает, что выборочная точка в Pl'i отображается не более чем одиой выборочной точкой в Р/' 1 • Непре­ рывность предполагает, что выборки, близкие в пространстве Р/'L, близки в пространстве Р/' 1. К сожалению, математическое иссле­ дование показывает, что однозначное и непрерывное отображение из пространства Р/'L в пространство Р!l при l < L вообще не­ возможно (72]. В работе (73] делается попытка сохранить непрерывность сле­ дующим образом. Определим расстояние между выборками х1 и х1: L df.1 = ~ (xilt -x1k)2 k-1 и расстояние между соответствующими отображенными выборками в пространстве Р/'1 l Dl1 = ~ (Y1в-Yjs) 2 • s=I Если рассматривать х как функцию у, то мерой непрерывности вблизи у 1 и yj будет L ~ (X11t-Xj1t) 2 (52. _ k=I 11-- 1 --- -- ~ (Yis-Y}s)2 s=I Если отображение выборок из пространства Р/' L в простр~нство Р/' 1 можно было бы выполнить, сохраняя б 11 = 1 при всех значениях i, j, то свойства категорий или кластеров не были бы утеряны. Пере- 299
бор для всех пар, по-видимому, затруднителен. В работе (73] пред• ложена мера ~ ,., df· б2 = k ..,_--f- Wij, 1iai D;J где вес wiJ монотонно убывает при увеличении Df1, например, l l W;;=-D 2 ИЛИWij=-d 2• ij it Возможно, было бы лучше положить { 1, d:1<T и Dr1 <Т, Wu = О в остальных случаях, где Т - априорный порог. Цель состоит в минимизации б2 подбором положений точек Xt в пространстве 6/J-' L, Очевидное решение получается, если сделать все D11 произвольно большими. Чтобы исключить это решение, в (73] в качестве меры, которая подлежит минимизации, принята величина Х= }:}: d~ [}:}:(Dм- 1] 2 '*i D11 i*f Алгоритм минимизации. Нельзя ожидать, что мера :Jt будет унимодальной или иметь единственный минимум. Поэтому возможен локальный минимум. Для отыскания глобального минимума можно применить обычные методы. Недостатком рассматриваемого отобра­ жения является возможность существования неограниченного числа способов регулировки вектора Yi в пространстве 'lf 1. Так как вид отображения пространства 'V' L на пространство 'V' 1 не задан, то результат может быть нелинейным. Многие исследователи знают, что нелинейное изображение пространства наблюдений в простран­ ство меньшего числа измерений может повысить качество. 5.4.8. Использование знаний о задаче для кластеризации и выработки решений Ниже изложен метод кластеризации и выработки решений, при котором вводятся априорные сведения о задаче. Вводимыми сведе­ ниями о задаче являются векторы средних и ковариационные ма­ трицы субкатегорий и степени доверия, что эти величины точно ха­ рактеризуют категорию. Затем для обновления этих вводимых апри­ ори векторов средних и ковариационных матриц используются из­ меренные векторы из этой категории. Степень улучшения априор­ ных данных при помощи новых измеренных векторов зависит от априорной уверенности исследователя. Возможно, что распознавание образа можно достигнуть на ос­ новании априорных параметров категории без использования каких- зоо
либо векторов для обучения. Это важное обстоятельство, так как оно дает исследователю возможность ввести данные о задаче и про­ верить качество классификации векторов. Кроме того, исследователь может наблюдать, как обучающие векторы модифицируют его апри­ орные знания. Благодаря такому взаимодействию исследователь управляет процессом распознавания образа; более того, он, вероятно, благодаря использованию такого взаимодействия кое-чему научится. Метод, состоящий в введении априорных векторов средних и ко­ вариационных матриц, не является единственным способом введения данных о задаче. Например, эти данные можно ввести при помощи нелинейных соотношений между измерениями. - :,'$ -~· .. :: ...)-::. J.-.~1.-..:14;, .: :-;:• . .. ~••:(t.f '. '·'·~: ·: ,-:,; lf:: .... .,.. , .,.. ~ ::•;~:;·: }!; .;; ~- .... ... ,. .. ,, а; bJ 8) г; aJ eJ Ж} U} Рис. 5.22 Нормальная плотность определяется мерой расстояния от сред­ него значения и убыванием плотности пропорционально e-d'/2, где d - расстояние от среднего значения. Хотя нормальная плотность является основной, рассматриваются и другие функции плотности. Процедура начинается с образования первого кластера последо­ вательным отбором «ближайших» выборок. В этом кластере уточня­ ется мера расстояний, применяемая для их измерения. Можно на­ деяться, что она так хорошо подходит для выращиваемого кластера, что выборки, действительно относящиеся к данному кластеру, яв­ ляются близкими, а выборки из других кластеров расположены «дальше». При использовании априорно выбранного порога расстоя­ ния в первом кластере выборки перестают накапливаться, когда но­ вые выбQрки оказываются на расстоянии, превышающем пороговое. Особый интерес представляет вопрос о том, насколько хорошо данный метод позволяет выделять кластеры в типовых задачах (рис. 5.22). Эти задачи включают несколько случаев, рассмотрен­ ных в [79]: А, В - мостики между кластерами; С - параллельные несферические кластеры; D - линейно несферические кластеры; Е - различная населенность кластеров; F - кластер с дырой (на самом деле два кластера); G-х-образные кластеры; Н - кольцо. Рассматриваемый метод выращивания кластеров можно было бы изложить, не связывая его с байесовским методом. Однако байесов- 301
ский подход часто приводит к более глубокому пониманию, способ­ ствующему обобщениям, поэтому он будет использован. Пустьх=[х1,х2,..., XL] представляет L-мерное наблюде­ ние, соответствующее образу. Сосредоточим внимание на одной ка­ тегории образов, но предположим, что функцией плотности вероят­ ности категории является смесь м h(хIЬ)= ~f(хIЬ;)Р1, (37) i=I где Ь множество всех параметров Ь,, Р,, i = 1, 2, ... , М, характе­ ризующих h (х). Так как рассматривается одна категория, то М представляет число подкатегорий. Пусть f (х Ь1 ), которое будем для простоты обозначать просто f1 (х), принадлежит семейству f.f . Опре­ делим 11 (Ь) обычным образом как функцию информации (которая естественно появляется в байесовском решении): n(Ь) л В[lnh(хIЬ)]=flnh(хjЬ)h(хIЬ*)dx, (38) где Ь* - истинное множество параметров, которые мы пытаемся оценить. Заметим, что !1 (Ь*) =f[Inh(хIЬ"'))h(хIЬ*)dx. Если соответствующие плотности f (х IЬ*), i = 1, 2, ..., М*, разде­ лены (не . имеют общей меры), то м• 11(Ь*)= ~~[lnh(хIЬ*))f(хIbi)Р1dx. (39) i=I Так как 11 (Ь) максимальна при Ь = Ь"', то приведенное выше рас­ суждение (в частности, соотношение (39)) показывает, что 1ni "' ,., . "' - ~ lп(f(xslЬ1)Р1]~11i, (40) nt s=I где х1 , х2 , ... , Xn взяты из f1 (х), представляет меру i-ro кластера (параметры Ъ1 и f>,· оцениваются по этим выборкам). Можно ожи­ дать, что, после того, как все выборки из f, (х) собраны в i-м класте- ре и вычислены величины 61 и Р 1, функция fJi будет возрастать да• лее, указывая, что новые выборки продолжают «соответствовать» и что их следует включить в выращиваемый кластер. Если, например, .Cif представляет семейство нормальных плот­ ностей, то выражение (40) принимает вид (41) где (42) 302
nредположим, что ,nля выращивания i-го кластера и шчисления m1 и :2 1 для этого кластера было использовано п1 выборок. Любая выборка х, еще не включенная в этот кластер, изменит!\~ приблизи­ тельно на величину (x-mi}1:2,- 1 (x-m1) 2 если эту выборку включить в i-й кластер. (43) Следовательно, чем больше величина d, тем больше эта выборка уменьшит значениеn. Это приводит к следующей процедуре выращи­ вания кластера. 1. Пусть х1 , ... , Xn представляет п выборок из h (х), причем число кластеров М неизвестно. Предположим, что для выращивания.i-го кластера были уже использованы п 1 выборок х1 , ... , Xni и получены оценки 111 1 и ii. Пользуясь мерой расстояния (43), найдем выборку х из п - п 1 выборок, еще не включенных в i-й кластер, которая име- ет наименьшее значение d (х, 1111 12,). Если d > Т, где Т представ­ ляет априори выбранный порог, то принимаем, что ни одна из ос­ тавшихся выборок не является «достаточно близкой» к i-му класте­ р у и следует начать выращивание нового кластера, воспользовав• шись для начала априорными данными, как показано далее. При начале выращивания первого кластера либо при начале об­ разования нового кластера в соответствии с шагом 1 необходимо ввести априорные данные. В частности, процедура введения априор­ ных данных задачи для начала выращивания .кластера состоит в следующем. 2. Задать некоторую меру достоверности подлежащих вводу па­ раметров. Затем задать априори начальное среднее ma и априорную ковариационную матрицу 1:а. Мера достоверности может быть про­ порциональна некоторому гипотетическому числу па, которое мож­ но трактовать как число предшествующих выборок (обучающих). Затем задать порог Т для определения того, когда выборка х «слиш­ ком далека» от кластера, чтобы быть включенной в него. Если даны п1 текущих выборок х1 , ... , Xn 1 , задать априори ве- личину па, вектор средних m0 и ковариационную матрицу 1:а, то вектор средних и ковариационная матрица уточняются по фор­ мулам: l nt (111)п 1 = па ma+ ~ (44а) п0 +п1 nа+щ х,; S=I l ni (i)n1 = па 1:а+ I [x,-(m)n.] [xв-(m)n.]'. (446) na+n1 na+ni i i s-1 3. В ЭВМ вводятвя значения па, ma, 1:а и Т. Затем ЭВМ со­ бирает выращивающие кластер выборки, выводя на печать текущее 303
значение (m)п 1 и п, пока не останется ни одной выборки х, такой, что d (х) ~ Т. Когда это произойдет, в ЭВМ вводятся новые априорные данные, чтобы начать выращивание нового кластера. Вспомним, что рассмотрение было ограничено одной категорией с М подкатегориями. Таким образом, после отыскания М кластеров для обрабатываемой: категории процедуру следует повторить для 12 11 10 g в 7 6 5 3 2 1 о {31 Zl \ '-- __ ,. .JZ ~33~ 3'1- ,_д. ~ Z'f- 1 2 3 3.i:. .... .,,,,., __ 36 37- 39- -;:::, 39- . -'1-0 1, ... ' ~ 1'-25J~~ 26 z7_zв-[,29--30 ✓О-'20 _::;..- - ' . - g 19 r -- ., 8~ "18 7:, 17 бl"' 16 51, 15 вь1[!слснныii Bmopoil клистср(Клflстер 1} 'f['\ _ 1'f- 3'" 13 2~ 12 1.. - 11 '- ~ '1- 5 5 7 в g 70 Рис. 5.23. Пример ., j ВыDМrнныif Вы/1 тер тер2) пер KЛflC (KЛflC 71 7Z каждой категории. Конечно, категория представляется в виде сме­ си нормальных кластеров. Далее представлены результаты нескольких экспериментов для типовых задач (см. рис. 5.22). Пример t. Были взяты две категории, состоящие каждая из 20 выборок. Первые 20 выборок, составляющие вторую категорию, расположены в вер­ тикальной части Т-образной фигуры. Вторые 20 выборок, составляющие первую категорию, расположены в горизонтальной части этой фигуры (см. рис. 5.23). Для начала положим: па = l (указывает на очень малую достоверность); Ша=[5,10];:Еа=21;Т=7, 304
Для выращивания кластера применялся алгоритм (см. рис. 5.23) начи­ ная от начальной выборки 10 или 25. Заметим, что выборки не ассоцииру- ются с их эвмидовым расстоянием. Это происходит благодаря тому, что (1:)n, образуется в соответствии с распределением выборок на горизонтальном пле­ че. После того как выборка 40 была ассоциирована с кластером, не оказалось ни одной выборки х, для которой d (х) ~ Т; таким образом, в соответствии с программой следовало начать новый кластер. ВыDслснныii Bmopoii 12 клистср (vисть клистср (vисть - клистсри Z) клистсри Z) Выflслснныii трст11if 11 10 g 8 , 35 .... .... JJ ~32 "/~ /J,'f- D( ~ J1 ~8 L)y V ' l-0 ./ , .~ 10 rn .... 21 22 ZJ 2'1-" ~25 ~i \. 27 28 29 •"'30 ~- ~ 7 6 5 't J 2 1 ~ ~ выflмснныiincpBыii клистср(клистср 1} ~ ~ ~ ~1 - 11 ... - о 12 J 5 б' 7 8 g 11 12 Рис. 5.24 . Пример 2 Для второго кластера положим па= 1, ma = (1, l], :Еа = ll . БЫJI вы­ полнен алгоритм образования второго кластера, состоящего из оставшихся выборок, после этого выборок, подлежащих обработке, не осталось, Пример 2. Если для той же совокупности выборок (п = 40) начать про­ цедуру с задания па= 1; ma = [5, lJ; :Еа = 11; Т = 7, то первый кластер образуется, как показано на рис. 5.24. Благодаря тому , что ковариационная матрица была задана в виде, более благоприятном для вертикального направ• ления, кластер вырос, охватив самые верхние выборки. Затем, если были за­ даны па= l, ma = (1, 11), :Еа = 11, нашли второй кластер наверху слева. А затем, если были заданы па= l, ma = [10, 10), :Еа = 11, нашли третий кластер сверху справа. 305
Конечно, имевшийся в действительности один горизонтальный кластер был разбит иа два кластера. Однако это не имеет большого значения, так как с точки зрения принятия решения такая категория адекватно характе­ ризуется этими тремя кластерами. Вопрос о том, имеется два или три класте­ ра, характеризующих эту категорию, не является существенным для после­ дующей выработки решения при распознавании выборок из этой категории. Пример З. Взяли 40 выборок, образующих форму моста (рис. 5.25). За• тем под мостом помест.или круговой кластер из девяти выборок. Представля­ ет особый интерес вопрос, можио ли при помощи рассматриваемой процедуры найти отдельный круговой кластер. Чтобы испытать процедуру, была выбра­ на особо «плохая» исходная точка (см. рис. 5.25). А именно, для нахождения первого кластера положим па= 1, ma = (10, 6], :Еа = 11, Т = 7. 9 в 7 5 5 ,,. :, 2 1 о 21zz232'1-2525272835 121:r1'r7515171819202935 11б Hl!9l!ЛO JO J7 105 ' f'f J1 J8 g ,,. 'fJ i'~ rif 'fl J2 ;,g 8J ~ ~ ncpDыii Dьli!слсн- ныi1 KЛIZt'НICP :,: , 'fo 7z 'f5 J'f - 1 1Z:,'r5б78g1077727:,7'1-757577781!120 Рис. 5.25. Пример 3 Как только вторая выборка оказалась в круговом кластере, все выборки второго кластера были найдены и собраны вместе (см. рис. 5.25). После об­ работки 45-ой.выборки не оказалось ни одной выборки х, такой, чтобы d(x) < т. поэтому потребовалось начать иовый кластер. Пример 4. В качестве следующего примера выберем первые 20 выборок, расположив. их в виде одной «ноги» буквы х, а другие 20 выборок расположим в виде второй сноrи» буквы х. Начнем с задания: па= 1, ma = [15, 15], :Еа = =151,Т=7. Первый кластер был образован, как показано на рис. 5.26. Конечно, вто­ рая сноrа» была разбита на два кластера, так как центральные точки этой второй сноrи» были удалены при образовании первого кластера. Для последующей выработки решений образование трех кластеров, изображенных выше, безусловно, адекватно. Интересно, что если даже процедура начата с ma = 16, 6], центра буквы х и при :Еа = 101 (большая недостоверность), процедура все же «запирается» иа одной сноrе» буквы х. Пример 5. Пример с буивой х можио легко распространить на L = 3 или L = 5, и, ках показали эксперименты, первым кластером является одна из «иог». При увеличении L следует увеличить величину Т. Например, при L = = & следует выбрать Т = 9. Пример 6. Как будет проходить процедура выращивания при круговых кластерах (рис. 5.27)? При Т = 7 и исходном векторе средних ma, соответ­ ствующем .крайней точке 8, в первый кластер не попадают никакие выборки 306
из правого кругового кластера. Однако при исходной точке (например, 16) процедура собирает все выборки в один кластер, Когда два круговых кластера.имеют перемычку, например, в виде общих выборок 16 и 31, а также общих выборок 17 и 32, почти всегда образуется один кластер. Это означает, что предположение о нормальности семейства не при­ водит к выделению кластеров. Процедуру выделения кластеров можно моди­ фицировать применительно к семейству шаровых и равномерных плотностей, как это показано ниже. 12 Т1 10 g 8 7 6 5 'f- 3 2 1 о lfcxoflffff/1 muvкfl fц 15,f .f 21 zo/ 31 22 7g \:о ·- 32 2:, 78 'g 33 2'1- 17 8 - - Jl'f25157 J35 rJ 26 1 15, ~б ./ Jб 27 ;:, ';'?'j~~ J7 28 13 1/V './ 38 2g 5/у 2 ,,, 39 JO 11 /' ' f-0 1 12;f~5б7Вg10111Z Рис. 5.26. Пример 4 Интересной задачей является разделение клеток в двух измере­ ниях на микрофотографии или в трех измерениях из последователь­ ности микрофотографий. Микрофотографии можно сканировать при помощи устройства с бегающим пятном, причем запоминаются все темные точки. Затем эти темные точки кластеризуют, чтобы образо­ вать темные области, представляющие клетки. Описываемый в дан­ ном параграфе прием введения данных задачи дает хорош~е ре­ зультаты, если клетки достаточно удалены друг от друга. Однако, если они расположены близко друг к другу, то обе такие клетки комбинируются в один кластер (см. пример 6). Этот прием введения данных задачи допускает относительно бы­ стрые изменения ковариационной матрицы, благодаря чему возни­ кает неправильная кластеризация. Может быть захвачено несколько выборок из другого кластера, так как трудно различить выборки из двух почти соприкасающихся кластеров. Такой захват выборок изменит ко:вариацию достаточно сильно, чтобы пропустить еще вы- 307
барки из другого кластера. К сожалению, этот процесс продолжается до тех пор, пока не будут взяты все выборки из обоих кластеров. Чтобы обойти эта затруднение, расстояния измеряются с по­ мощью прежних оценок вектора средних и ковариации, а не на ос­ новании текущих оценок. Вследствие этого переход из одного клас­ тера к другому обнаруживается р~ньше, чем оценки вектора сред­ них и ковариации будут искажены выборками из другого кластера. Описанные выше приемы дают представление об отдельных мето­ дах распознавания кластеров. Вследствие возрастания сложности 7 б 5 9- 3 z о Пвр8ь1i1 8ы8влвш1ь1il Kлtlr:mвp 7 70~ ~"zsZ7 •• 29- 75...... ~~ lб 21 3тg18 19-< \"'i ~~ 25 zz 8Vg zg• • 13 30 1239-5б7 Рис. 5.27. Пример 6 23 33 2! 39- z5• 8g701112 при обработке большого количества кластеров желательно их ком­ бинировать. Это комбинирование можно выполнять с субкластера­ ми одной категории одновременно либо использовать субкластеры из всех категорий сразу. В примере 2 приводится комбинирование субкластеров, отно­ сящихся к одной категории. Два горизонтальных кластера можно скомбинировать, если субкластеры, получающиеся после комби­ нирования, представляют плотность исходных данных так же хо­ рошо или даже лучше, чем отдельные субкластеры. Один из методов проверки целесообразности комбинирования состоит в исследовании критерия '1'] в каждом случае. Критерий '1'] можно применять непо­ средственно ко всем возможным комплектам выборок (как в п. 5.4 .1), но с точки зрения вычислений легче это делать в отношении только субкластеров. Комбинировать субкластеры, принадлежащие одной категории, можно только с учетом величины ошибки, вводимой благодаря при­ ближенному представлению плотности. Если имеется информация о классах, то комбинирование целесообразно даже тогда, когда оно приводит к плохому приближению к оценкам плотности, если только это не влияет на классификацию, основанную на комбинации. 308
Увеличение размерности либо при кластеризации, либо при вы­ работке решения приводит к трем последствиям: 1) возможности цовышения качества, если измерения соответственно согласованы, если они согласованы плохо, качество может ухудшиться; 2) 'при оценке искомых соотношений между L-мерными векторами слож­ ность увеличивается пропорционально L2 или быстрее; таким обра­ зом, число выборок, необходимых для выполнения умеренной ра­ боты по оценке, увеличивается, если неизвестны априорные соот­ ношения между измерениями; 3) объем вычислений, необходимых для обработки соотношений между измерениями в L-мерно:'d про­ странстве, растет быстрее L2. .r, Рис. 5.28. Пример, когда для класте­ ризации необходима информация о корреляции .Тz :С7 Рис. 5.29. Пример, когда для класте• ризации ие требуется информация о корреляции Из-за этих последствий, очевидно, нежелательно иметь дело не­ посредственно с пространством многих измерений. Однако в этом пространстве может содержаться больше информации, чем· в про­ странстве меньшего числа измерений. Основным вопросом является вопрос, как выявить эту информацию. Если имеется априорная ин­ формация, то задача значительно упрощается. При кластеризации и дискриминации информация получается в двух видах. В одном виде информация получается только при на­ личии более чем одного измерения (рис. 5.28). В этом примере кла­ стеризация либо х1 , либо х2 дает неверную информацию. В другом виде информация содержится в каждом измерении (рис. 5.29). Мож­ но выполнить кластеризацию, используя сначала только х1 . Затем можно выполнить кластеризацию х 2 , имея некоторые сведения х1 ; либо значение х1 , либо номер кластера в пространстве х1 . Обобщая, заметим, что информация может содержаться в компо­ нентах вектора (второй пример) или в корреляциях между компонен­ тами (первый пример). В ситуациях, когда важны корреляции, но сложность не допускает использования всех измерений сразу, целе­ сообразно провести частичную кластеризацию в подпространствах, получив некоторые сведения о кластеризации в первом простр~стве в виде каких-то признаков. Эти признаки могут просто указать,в ка­ кой кластер в первом подпространстве попадает вектор, каков вид 309
улушения или дать более конструктивную информацию. Например, они могут представлять характеристики центра кластера в первом подпространстве после отображений с уменьшением размерности. Выбирать порядок обработки различных измерений лучше всего на основании априорных данных. 5.4.9. Выращивание кластеров из центров кластеров Введение. Для некоторых задач предпочтительнее начинать вы• ращивание кластера из цеmра; для этого, конечно, необходимо по• строить оценку центра кластера (среднее значение, условной по классу функции плотности). Процедура состоит в оценке кластеров на основании оценок плотности. Учитывая это, определим кластер ro 1 в пространстве наблюдений Pl1L, как состоящий из тех точек х8 , среди х1, ... , Xn, для которых (45) Таким образом, f1 (х) Р1 - это мера степени родства х и ro 1. Если бы плотности были известны, то кластер ro 1 содержал бы точ• но те же точки х, которые были бы отнесены к классу j по байесов• скому правилу принятия решения. Находим оценку плотности смеси с помощью потенциальной функции 1 К(х,Xs)~ 1+11 X-Xs 11 ' (46) где использовано обозначение нормы вектора 11sIF=s's- (47) Обозначим далее п q(х)= ~ К(х,Х8). (48) S=1 Оценка плотности смеси в выборочных точках имеет вид Ps= q(xs)/ _± q(X1), S= 1, 2, ... , п. (49) J=I п Ясно, что О~Ps и ~ Ps = 1, так что {р8}~=1 на самомделе s=l • представляет дискретное распределение. Средние значения m1 , m2 , ... , mм определяются как моды эм• пирической плотности на векторах наблюдений Х/в k = 1, 2, ... , п. Допуская, что функции плотности являются многомерными нормальными, определим среднее значение m1 для кластера ro 1 как такой вектор х}, для ·которого pl представляет наибольшую величину из Ps, s = 1, 2, ... , п. Среднее значение m2 для кластера ro 2 определяется как вектор xf, которому соответствует большая 310
эмпирическая плотнооть, чем L его ближайших соседей (исключая xt) 11 • Подобным образом определяются и остальные средние значе­ ния, так что xf = mr и pf больше, чем L ближайших соседей х~. Теперь для получения невырожденной начальной оценки кова­ риационной матрицы в канонической системе координат кластеру ro1, j = 1, 2, ... , М, придаются L ближайших к m1 соседей. В дву­ мерном пространстве, например, для получения невырожденной ко­ вариационной матриЦЬI выборок требуется по меньшей мере три точки. На данном этапе после прибавления ближайших соседей каждый кластер ro 1 содержит L + 1 наблюденных значений х{, хЬ, ... , xt+1• Теперь каждое наблюденное значение, обозначенное xL, присоеди­ няется к тому кластеру ro 1, для которого (f1 (xl))k (PJ)k наибольшее и равно (50) (51) (1:J)Xk - диагональ матрицы [(oHk, (o~)kt ... , (ol)1iJ, а ~L представ­ ляет вектор xl, отнесенный к ка.ионическим ортогональным осям, т. е. i-я компонента вектора ~k равна (xk - m1)' (e{)k, где (e{)k - единичный собственный вектор, соответствующий собственному зна­ чению (oj!)k. Сначала все оценки параметров смеси полагаются рав­ ными 1/ м,. Затем, когда кластеры выросли, (PJ)k полагаются рав­ ными относительной частоте элементов в кластере j, j = 1, 2, ... , М. В следующем подпараграфе представлены оценки собственных значений (oMk и собственных векторов (е{)rн t = 1, 2, ... , L. Эти оценки не требуют каких-либо действий а матрицами. Следователь­ но, устраняются проблемы, связанные о малым объемом выборки и ошибками округления, которые обычно доеаждают при численном обращении и диагонализации матриц. Оценки собственного вектора и собственного значения. Обозна • чим через е единичный вектор. Квадратичная форма et1:e максими­ зируется по всем векторам е, когда е является собственным векто· ром, соответствующим наибольшему собственному значению of матрицы 1:. Заметим, что et 1:е =Е{е'l(x - m) (х - m)t)e} =E{(et (х - m))2}, (52) где m - среднее значение х. Таким образом, очевидно, что оценкой собственного вектора (е{),н соответствующего наибольшему собст• 1 ) Хотя класс 1 содержит точку xl с наибольшей рJ• класс 2 не обязатель­ но содержи1' точку с ближай,uей наибольшей рJ• которой нет в клас·rере 1. 311
венному значению ковариационной матрицы, является вектор х{1, - m1 , для которого величина k k-1 !i [(х{1,- mJ}' (х!- m1)]2 s=I (53) максимизируется по k наблюдениям, находящимся в данный момент в кластере ro 1. В свою очередь, наибольшее собственное значение (af1)k получается из формулы (53), если х! заменить на x{l). Определив наибольшее собственное значение и соответствующий собственный вектор, находим следующее наибольшее собственное значение (а}Ы11, и соответствующий собственный вектор (e~)k, мак­ симизируя величИIJ:У, аналогичную величине, определенной форму­ лой (53), в (L - 1)-мерном ортогональном дополнении к линейной оболочке (е})11, (собственные векторы самосопряженной матрицы ортогональны). В частности, (е/) = (x{2)-Шj)-(x/2)-Шj)I (е{)-(е{)11, ; (54) 2k ]\ числитель \J где х{ 2 > максимизирует величину. k k- 1 !i ((xt-mi(x{2,-m1)-(x[2)-mJ)1(e{)11,•(e{)k] 1 S=1 11 x/2)-mJ)--(xf2> - mi (е{ )11,•(e{)k 11 2 по всем х[: xt ::/= х{ 1,. (55) Действуя рекурсивно, получаем оценку (e/)k собственного век• тора, соответствующего i-му наибольшему собственному значению (aMk, максимизируя величину, аналогичную величине, определен­ ной формулой (55), в (L - i + 1)-мерном ортогональном дополне- нии к линейной оболочке (e~)k, (еО11,, ... , (ef-1)11,. В явном виде l-1 (x{ 1,-m1)- !i (x1-mi (e1)11,•(e!)k ( е/)11,= r=I , 11 числитель 11 где x{l) максимизирует величину k i-1 [(х{- ШJ)1 (x~ -mJ)- !i (х{- m1)1 (e!)k (е?)11,] 1 k-1 r=1 11 (x{i)-m1)-i!il (x{i,- Шj)t (e?)11,•(et)11, 112 S=1 r=I (56) (57) по всем x{s> : x{s> ::/= х{1 >, х[2,, ... , x{1-I>• Аналогично (aMk получается из выражения (57), если x[s> заменить x{I), Оконча- 312
'fельный собственный вектор (eL)11. находится в одномерном орта. тональном дополнении к линейной оболочке (еО11., ... , (et-1)k• Таким образом, L-1 x-mj - !i (x-mi/ (е!)11,•(е!)11, (et)11. = __ __ ,__ -_!_______ 11 числитель 11 (58) где х - любой вектор, не содержащийся в (е{)11., (et)h, ... , (eL- 1)h. Наименьшее собственное значение вычисляется по формуле k (a]L)11. =k-1 !i [(xf-- mi)t (elL)11,] 2 • (59) i=1 Заметим, что в соответствии с такой методикой М равно числу мод эмпирической плотности смеси и каждая мода характеризуется ковариационной матрицей в канонической системе координат. Преимущества описанной методики кластеризации следУ,Ющие: 1) кластеры выращиваются из центральных точек; 2) использование оценок собственных векторов и соответствую­ щих собственных значений при оценке f (х I rot) Р1 для вычисления расстояния может оказаться с вычислительной точки зрения менее сложным, чем нахождение оценок и последующего обращения ко­ вариационной матрицы; 3) критерий, состоящий в наблюдении за убыванием f (х8 / ro 1) Р1 и ожидании возрастания q (х8), можно рассматривать как «адап· тивную» меру расстояния. А именно, выборки, «близкие» к f (Х8 1 ro 1)P1, должны быть в точках, где плотность уменьшается по отношению к предыдущим точкам, включенным в кластер. Связь кластеризации и уменьшения размерности. В каком смысле в процедуре кластеризации происходит понижение размер• ности? В том смысле, что определение мод вместе с соответствую­ щими мерами расстояний, условной по классу плотности f (х I ro 1), создает основу нелинейной или линейной меры расстояния для этого класса. На самом деле конструируется нелинейный или ли­ нейный согласованный фильтр для этого класса, что приводит к эф­ фективному !-мерному пространству, l ~ L. Можно уменьшить сложность, связанную с выделением призна­ ковlJ, однако нельзя ожидать, что это улучшит качество, 5.4.1 О. Кластеризация с применением вводимой априори функции сходства Введение. В п. 5.4.3 рассмотрена процедура кластеризации, на­ зываемая «отображение кластеров». Утверждалось, что выборка х имеет плотность вероятности, характеризуемую теми же парамет- 1 > См. например, работу [84] 313
рами, что и плотности, характеризующие выборки, «сходнmе с вы­ борками .ю>. Если применяется «отображение кластеров», выборки, сходные с выборкой х, находятся отсеиванием при помощи испыта­ тельной функции выборок, близких к выборке х, и это подразуме­ вает неэвклидову меру расстояний. При помощи этой введенной априори испытательной функци:rr для выборки х и выборок, «сход­ ных с выборкой х», определяются вектор средних и ковариационная матрица. Понятие сходства открывает путь для кластеризации выборок, обладающих сходными свойствами. Точнее говоря, оно открывает путь для собирания в кластер выборок, признанных относящимися к той же плотности, так как параметры, оценки которых найдены, чтобы охарактеризовать соответствующие плотности вероятности этих выборок, признаются «сходными». Для применения процеду­ ры отображения кластеров необходимо, чтобы условные по классу плотности были нормальными; следовательно, свойства соответст­ вуют вектору средних и ковариационной матрице. Вообще говоря,условные по классу плотности могут и не быть нормальными; тогда выборки из этого класса должны характери­ зоваться иными свойствами, а не вектором средних и ковариаци­ онной матрицей. Это иллюстрируется следующими примерами. 1. Нормальная условная по классу плотность. а) Если выборки х1 и х2 являются соседями, то все выборки, близкие к х1 , должНБI иметь сходные оценки вектора средних и ко­ вариационной матрицы с оценками для всех выборок, близких к Х11; б) Если выборки х1 и х2 являются соседями, то k ближайших к х1 выборок будут иметь вектор средних и ковариационную матри­ цу, наиболее сходные с вектором и матрицей k ближайших к х 2 вы­ борок; в) Если выборки х1 и х2 находятся на эквипотенциальной поверх­ ности (определяемой оценкой ковариационной матрицы) по оценке вектора средних, то они должны иметь сходные оценки местной плотности. 2. Равномерная плотность на круге. Если дано среднее значение плотности, то существует k вь1борок со сходным эвклидовым расстоянием от этого среднего. Это явля­ ется утверЖдением о наличии симметрии относительно среднего значения. 3. Сходство по общим ближайшим соседям. Непараметрическое свойство условной по классу плотности состоит в том, что любые две точки Х8, Xk среди х1, х2, ... , Хп должны иметь несколько общих соседей, когда мера расстояний эвклидова. Нетрудно найти условные по классу плотности, для которых эта мера сходства привела бы к затруднениям; тем не менее она может быть исходной точкой, под­ ходящей для исследования данных. Свойства этой меры сходGтва следующие: 314
а) точки данНЬiх х сходны, если для них являются общими за­ данное число одних и тех же ближайших соседей при применении эвклидовой меры расстояний. В частности, две точки данНЬiх сход­ ны, если их соответствующие списки k ближайших соседей совпада­ ют; б) чтобы избежать возможности объединения нескольких точек из класса «большой плотности» с выборкой из класса «малой плот­ ности», накладывается дополнительное условие, чтобы список k ближайших соседей х8 содержал бы х11., преЖде чем_х8 и Х11. могут быть признаны сходными. Проверка сходства выборки. Два вектора наблюдений х1 и х2 считаются принадлежащими к классу i (или кластеру i), если их свойства сходны. Предположим, что существует соотношение, ко­ торое, будучи примененНЬIМ к выборке х, отображает точки х из оди­ наковой условной по классу плотности в одну и ту же точку нового пространства. Предположим далее, что это преобразование не при­ водит к перекрытию выборками из другого класса выборок этого ...первого класса. Кроме того, эта функция не приводит к отображе­ нию в одной точке выборок, имеющих одинаковую плотность лю­ бого другого класса. Тогда, если эту функцию, построенную для од­ ного клааса, применить к другому классу, она не создаст точек от­ носительно высокой плотности для второго класса, как она сделает это для первого класса. Следовательно, функция g1, построенная для класса i и отображающая L-мерНЬiе измерения в новое про­ странетво, будет: 1) отображать выборки, имеющие сходные свойства, в одной точ• ке, создавая в этой точке относительно высокую плотность; 2) даже выборки, имеющие различные условные по классу плот­ ности, но одинаковые свойства, будут отображены в одной точке; 3) условие 2 может быть смягчено, если изменения плотности имеют важное значение для различения классов; 4) так как функция g1 не охватывает тех свойств класса j, кото­ рые инвариантНЬI для выборок класса j, при применении этой функ­ ции к классу j выборки из класса j образуют значительно менее плот­ ный кластер в другой части пространства. Эти выборки из класса j не будут перекрывать выборки из класса i, так как они не обла­ дают свойствами, встроенНЬIМИ в функцию g1. Построение матрицы сходства. Может оказаться целесообраз­ ным построить таблицу, i-я строка которой содержала бы перечень выборок, наиболее схожих с выборкой х1 . Здесь сходство измеря­ ется сравнением I g 1 (xi) - g1 (xj) 1 для всех j, не равных i. Затем К выборок, наиболее сходных с х1 , запоминаются в i-й строке. Две выборки х1 , х1 считаются относящимися к одному классу, если их строки содержат достаточно большое число одинаковых выборок. Казалось бы, это представляет удовлетворительный способ группирования выборок, если бы можно было предположить, что выборки из класса i в этом новом пространстве образуют круговой 315
кластер. Однако с таким же усnе:хом можно, вероятно, воспользо­ ваться простой процедурой, например цепным отображением. Построение при помощи ЭВМ. Представляется желательным иметь основной набор нелинейных соотношений, которые можно назвать подпрограммами или оооками для построения функций {gi}ff=1• Функции g1 строились бы в основном таким же способом, как теперь пишутся программы на языке Фортран IV. После образования в преобразованном пространстве кластеров желательно выявить свойства этих кластеров, например векторы средних и ковариационные матрицы, чтобы воспользоваться ими для выработки решений. Конечно, эти векторы средних и ковари• ационные матрицы можно вычислять заново при появлении новых выборок, так как с помощью функций gi плотность вероятности в пространстве измерений превращается в плотность вероятности; можно эффективно повторять вычисления функций {gi}f=t, исполь­ зуя первоначальные функции как априори заданные. Новая оцен­ ка может представлять взвешенную сумму априорной оценки плот­ ности и текущей оценки плотности. Пример. Сходство по наличию общих ближайших соседей. Процедуру кластеризации на основе признака сходства 3 можно построить следующим образом. 1. Для каждой точки х1 , х2 , ... , Xn записать их k ближайших соседей, ис­ пользуя эвклидову меру расстояний, по порядковым номерам 1, 2, ... , k в строке матрицы. Если рассматривать каждую точку как ее собственного ну­ левого соседа, то первая запись в каждой строке представляет показатель, указывающий, какой точке соответствует список, содержащийся в этой стро­ ке. Затем необработанные данные можно отбросить и тогда остальные вычис- ления будут полностью целочисленными. • 2. Составить список целочисленных показателей длиной п, причем каж­ дая запись первоначально размещается по первой записи в соответствующей строке матрицы сходства. 3. Заменить оба показателя двух строк матрицы сходства, каждая из которых содержит нулевого соседа и kt или большее число совпадающих со­ седей другой. Число kt представляет вводимое во взаимодействие число. 4. Кластеры, соответствующие частным значениям k и k 1, указывают оди­ наковые показатели точек в соответствии с операциями 1-3. 5. Повторить вычисления при других значениях k и kt можно, вернув­ шись к операции 2. Вследствие того что операции 2 и 3 представляют целочисленные опера­ ции па множестве объема nL Х (k + 1), где обычно k « L, время вычисле­ ний относительно невелико. Изменения, связанные с перемещением показа­ теля в соответствии с операцией 3, можно выполнить гораздо быстрее, чем поиск в таблице (особенно при больших n), если воспользоваться обычным способом увязки списков; этот способ образует и использует изменяющуюся информацию независимо от того, как члены группы рассеяны в матрице бли­ зости. Чтобы выполнить процедуру 1, используются два временных ряда дан­ ных - 1 и XI, каждый длиной k + 1: один из них из целыл чисел, а второй - из действительных - и составляется каждая строка матрицы. Для составле­ ния каждой строки сначала все члены ряда I принимаем равными пулю, а все члены ряда XI равными очень большому числу плюс число, соответствующее порядку в ряде; тогда последнее число будет наибольшим и все числа ряда будут возрастать от первого до (k + 1)-го числа. Когда точка в ряду Xi, 316
х2, ... , х71 ближе (при эвклйдовой мере), чем последнее число ряда XI, то по­ следнее число отбрасьшается из ряда и в него вставляется новое расстояние, такое чтобы сохранилось монотонное нарастание; показатель новой точки заме­ няет соответствующее число в ряду 1. Когда испытаны все точки, числа ряда 1 переносятся в соответствующий главный (невременной) ряд близости. Это повторяется для всех точек х1, х2, ••. , Хп, давая п строк матрицы близости. Взвешенная значимость близких соседей. Вместо применения эвклидовой меры в пространстве измерений желательно, как бы­ ло указано во введении к этому параграфу, воспользоваться неэв­ клидовой мерой, если имеются априорные сведения о таких мерах. Может оказаться возможным во время работы И'спытать различные меры расстояния, а затем определить, какая мера наиболее целесо­ образна в смысле получаемых кластеров. Менее близкий к оптимальному, чем изложенНЬIЙ выше (с теоре­ тической точки зрения), способ состоит в том, что придаются раз­ личные веса при выполнении операции 3 этого примера. Это можно выполнить, придавая вес значимости общих соседей в соответствии с их положением в строках матрицы близости.Так как размеще­ ние в строках при принятом методе их составления происходит ес­ тественным путем, то реализация этой модификации тривиальна. Например, показатели двух строк можно считать одинаковыми, если выполнено некоторое взвешенное сравнение их соответствую­ щих членов. Можно придать больший вес соответствию близких со­ седей и меньших соответствию дальних соседей. Очевидно, этот под­ ход связан с испытательной функцией при отображении кластеров (см. п. 5.4 .3). Байесов анализ метода функции сходства. По существу, функция сходства является согласованным фильтром и выборки классифи­ цируются (собираются в кластеры) при помощи согласованных фильтров. Байесовский подход подсказал бы, что при_меняемые функции сходства обладают некоторыми постоянными параметрами, которые следует определить. Если отнести выборку к одной из функций сходства, получается оценка параметров, характеризующих эту функцию сходства. Бу­ дет существовать распределение этих оценок параметров, и можно ожидать, что оно будет «заостряться» при увеличении числа выбо­ рок. В конечном счете плотность вероятности этих параметров долж­ на становиться очень «острой» при истинных значениях параметров, характеризующих эту функцию свойства. Таким образом, видно, как метод функций сходства увязывается с байесовским. Идея только что рассмотренного способа общих ближайших соседей состоит по существу в том, что f; (х) =k1/[(n 1 + l)Ф;(х, xn)] является адекватной оценкой плотности вероятности х. Две выборки Xj, Xr относятся к одному классу, если Фi (xj, Xn) ,.. _ , Фi (xr, Xn), где ,_,,означает «сходный с» и k; выборок в Фi (xi, Xn) сходны с ki выбор­ ками в Ф 1 (xj, Xn), Заметим, что, говоря не строго, оценивается об­ ласть ifi (xi, Хп), как и Ф 1 (х, Хп) для выборок из класса i. 317
В § 2.18 формуле (5б) показано, как апостериорная i1Jiotнoctь вероятности f (Ь11, /хп) вектора параметра Ь11., характеризующего класс ro11., вычисляется из f (Ь11. /Хп _ 1). В частности, показано, что при этом придается вес по условной вероятности того, что Хп отно­ сится к классу ro11.. Например, в§ 2.20 управляемая решением оцен­ ка имеет вид 1 f (bk IХп-1), ~ (w1)п > (wk)п, Цk f (bk I х)п = / (Хп \ Ь11., k) f. (Ь11. 1Хп-1) в противном случае, f (ХпIk) где (wдп = f (xnr i IХп_ 1, Ь11.)/f (хпIХп_ 1). Это указывает на воз· можность вычислять (Ь11,)п _ 1, используя Хп, как бы относящийся к классу ro11., если (w11.)n > ~ (w 1 )п. Читателю рекомендуется позна- 1#- k комиться с кластеризацией на основе случайных графов, рассмот• репных в [77], и нечетких множеств [83]. 5.5 . Оценка, управляемая решениями 5.5 .1 . Введение Если используемые исходные оценки (Ь11.)о, k = 1, 2, ... , М, не являются «разумно близкими» к истинным значениям параметров, то целесообразно использовать управляемую решением оценку в задаче с М категориями. Проблема состоит в том, что «состояния­ ловушки» могут вызвать группирование категорий. В работах [32, 33] детально рассматривается задача с двумя категориями, когда семейство ;if нормальное. Более общая задача с М категориями рас­ смотрена в [31, 55, 70]. Мы ограничимся рассмотрением случая М =2. 5.5.2. Значимое управление при двух категориях Обозначим 2 h(x)=~ N(х]щ.~)Р1• i=I (1) В гл. 3 показано, что согласно байесовскому правилу выбора ре­ шений классификация вектора Хп производится следующим обра­ зом: (2) где (3) 318
Обозначив у= m1 - m2 , приведенное выше выражение для решения можно написать в виде ~- 1 -]1( ){>О:отнестикroi, (""" у Xn- Хо < О: отнести к (1)2 , (4) где (5) Когда ~ = 021, правило выбо~а решения о классификациихn можно представить в более простом виде (m1- m2)1(xn - mitm 2 ) > 02Jп(::):ffii. (6) Для выбора решения основными операциями являются вычисление произведения [~ - 1y]t Xn полученного образца Xn и значимого на­ правления и сравнения его с порогом (~ - 1 у]1х0. Так как ковариационная матрица известна, алгоритм выбора решений можно упростить,- вводя новую совокупность базисных векторов [fk: k = 1, 2, ... , М], составленную из собственных векто­ ров матрицы ~ - Пусть {ek: k = 1, 2, ... , L} представляют базис­ ные векторы из пространства ШL• Определим новые базисные векторы (f1,f2, •.•, fL)=F(е1,е2,..., ei), нотаккак(е1,е2,•.•, е1)= 1,то (f1, f2, ... ,_fL) = F. (7) (8) (9) Так как F является матрицей, столбцы которой представляют орто­ гональные собственные векторы матрицы Д а матрица ~ симметрич• на, ·то (10) где Л~, л2, ... , лL -соответствующие собственные значения матрицы ~- Обозначив (11) и определив M=FL=[f1л;--112, f2л1112, ..•, fLлi:""1,2J (12) представим выражение (10) в виде м1~м=1; (1За) 319
откуда Положив (13б) Уп=М1хп;Уо=мtхо;μi=мtmi (14) и подставив (13б) в (4), получим из (14) преобразованное правило выбора решений: ( )t( ){>О: отнести кro1, μ1-μ2 Уп- Уо < О: отнести к @2, где Уо= μ1-μ2 ln( t-P1)+μ1+μ2 . (lБ) (μ1- μ2)t (μ1- μ2) Р1 2 Ясно, что μ 1 - μ 2 представляет «значимое направление» и компо­ ненты случайного вектора Yn не коррелироваНЬI. 5.5 .3. Оценки, управляемые решениями Управляемую решениями оценку (mi)п для m; определим как взвешенное выборочное среднее значение, причем используются выборки, которые были отнесены к @;. Алгоритм для классифи­ кации выборки Хп представляет формула (6), в которую вместо не­ известного значения т 1 подставлено значение (тдп _ 1 . Совокуп­ ность весовых коэффициентов {а.11. }, используемых в определениях алгоритмов, приводимых ниже, состоит из любой последовательно­ сти положительных чисел, удовлетворяюшей условиям 00 ~ а.11. = оо, k=I 00 ~ al< оо. (16) k=I Случай «да-нет». Положим m1 = (m)п и m2 = [О, О, ... , О] в формуле (6). Выражение управляемого решением алгоритма вычис­ ления (m)n тогда имеет вид (m)n= (1- Рп)(m)п -1 + РпХп, (17) где (на (п - 1)-м этапе число выборок, отнесенных к roi, равно N) _ { rxN, (m)~ _ 1 (2хп-(m)п-~) > 2cr2 ln(P2/P1) и N = N + 1, Рп - О в остальных случаях (18) и Р i предполагается известным. Двоичный случай. При таком же подходе, как в случае «да - нет», можно управляемые решениями оценки для двух неизвестных векторов средних представить в виде (mдп=(l-рiп)(Щ)п-l+Р;пХп, i= 1,2, (19) 320
rде (на (п - 1)-м этапе число выборок, отнесенных к roi, равно N i, t=1,2) \ . ((m ) - (m ) )1 (х - -'-(m----'1)_п-_1~+-'-(m---'2'--)п_-_1 > аз ln l2_ СХ!',1, 1 n-1 2 п-1 п 2 р 1 Р~п = иN1= N1+1, О в остальных случаях, (20) ((m1)п-1 __; (m2)п-1) 1 Х Х(х _ (m1)п-1+(m2)п-1)> 02ln Р2 п 2 Р1' в остальных случаях, N2 = N2 + 1. Исходные векторы (m) 0 или {(mi)oH=i в формулах (17) и (19) соответственно могут быть выбраны произвольно на основании имею­ щихся априорных сведений или взяты из выборок (например, в фор­ муле (17) можно произвольно положить (m) 0 = xi)• При аппаратурном осуществлении этих алгоритмов применяют­ ся весовые коэффициенты сх11. = 1/k. Улучшение динамических ха­ рактеристик алгоритма при другом выборе последовательностей а.11. было исследовано в [34, 70]. Показано, что при некоторых условиях можно получить незначительное улучшение качества. Как было указано выше, знание Р i, i = 1, 2, не имеет большого значения, если неизвестно взаимное расположение m1 и m2 . При алгоритме «да - нет» имеется неявно взаимное расположение, так как Р 2 соответствует m2 = [О, ... , О], а Р 1 - другому статистичес­ кому классу; однако при двоичном алгоритме такого неявного ука­ зания на взаимное расположение не существует. 5.5.4 . ДЕМО-1 (аппаратурная реализация) ДЕМО-1 представляет аппаратурную реализацию двоичных уп­ равляемых решением алгоритмов, иллюстрирующую некоторые конструктивные соображения [35]. Это устройство может работать либо как согласованный фильтр, либо в режиме оценки с обу­ чением, или без обучения. Число неизвестных «сигналов», которым можно «обучить» приемник, равно двум, и размерность каждого сиг-, нала равна четырем. Внешний вид устройства ДЕМО-1 показан на рис. 5.30, а его схема - на рис. 5.31. Устройство состоит из двух блоков: генератора сигналов-имитатора канала и приемника. В ос­ нову построения устройства положен метод амплитудной модуля­ ции импульсов и разделение каналов во времени. Основными час­ тями является нестабилизированный мультивибратор, мультивиб­ раторы с двумя устойчивыми состояниями и другие генераторы импульсов и переключатели, которые выдают моменты выборок, им­ пульсы выборок и расписания экспериментов. В некоторых узлах 321
устройства применены интегральные микросхемы. Для выполнения операций перемножения и сложения используются аналоговые ме­ тоды на основе умножителей, построенных на эффекте Холла. За­ поминание выборок выполняется в емкостных ячейках. Устройство способно выполнять многократные эксперименты при длине эксперимента, равной т выборкам, причем эксперимент состоит из определени,я исхо.nного вектора (или векторов) или {(mi)o}?= 1 и вычисления т раз в соответствии с выбранным алго­ ритмом и режимом работы. Если х8 представляет s-ю выборку, то соответствующий индекс эксперимента равен п == s mod [т] 0 . о о О оп.DIМ1. 1 С> о g:g • ···1 g; оо:- !! .· , •tь. ~ •·· -1~!f"Q Q (О;~,::Ф· ·е• ' -r~qjQэ: 3;3ф• • 1, ё:»~i_€»_(1)) ;~ ~"' ~ "• ., • • 1:111:11 о о iii) ~~~~~~ii о Рис. 5.30 . ДЕМО-I Генератор сигналов и имитатор канала. Сигналы состоят из че­ тырех биполярных импульсов длительностью 2 мс, амплитуда кото­ рых устанавливается ручками управления на передней панели ге­ нератора сигналов. Сравнение выхода генератора белого шума с ре­ гулируемым порогом обеспечивает случайный выбор передаваемого сигнала s (t Iroi). Вероятности категорий показывает прибор, распо­ ложенный на передней панели. Имитатор канала прибавляет к сиг· налу ограниченный по полосе белый шум. Регулируемое средне­ квадратическое значение шума можно зафиксировать по прибору. Имеется синхронизирующий сигнал вместе с «истинными» импуль­ сами (указывающими истинные категории передаваемых сигналов) для обнаружения ошибок и оценки с обучением. Приемник. Приемник может работать как согласованный фильтр с установкой амплитуд сигналов по шкалам на передней панели или как обучающее устройство в режиме оценки с обучением или без обучения. Подсистемы, образующие оценки, для каждой из двух категорий имеют раздельное управление и могут при желании раба· тать в различных режимах. При обучении оценки можно использовать в решающем уст­ ройстве или как только они получены (итеративный режим), или после формирования оценки, полученной по т последним выбор­ кам, которая может быть использована в решающем устройстве для 1 > По определению а mod [Ь] представляет наименьшее положительное число, получаемое из а - bk при k целом неотрицательном. 322
nыработки следующих т решений, пока образуется новая оценка (режим слежения). Итеративный режим полезен при отображении улучшения качества со временем при обучении, а режим слежения важен, когда статистики нестационарны или при наличии запазды­ вания (как в емкостных ячейках памяти ДЕМО-1), когда желатель­ но обновление оценки. В ДЕМО-1 имеются следующие режимы: 1. С обучением: при этом режиме истинная классификация всех выборок на выходе канала известна и приемник вычисляет вектор средних для каждой категории roi, i = l, 2. Априорные iJ(IНHЫC Е1ок Dыои/Jиrпки сигнилоО /(fJ;, ' :': (8BoiJum Ш!/М} ~----r -'s(tfr,Jz) Сигналы /JUHXpOHUJU!{UU '!nоиВление: BмlftJJ pCЖUMO­ OO!JЧCHUC с !JЧUП!!JЛСМ, f--- ',- /Jc з gчiiтслн, co11poBoжiJc11ue ,,Нстини" CXBN!l П•SMOd{m] Оыои/Jотки Решенон решениii т;(п-1) Шz(п-1) PCШt:HU/1 ._________, Выди/Jотко Ol(CHKu, gnpullл.reмoii решенинми т111 Jипомuнuние С o/J(j1/CHUCM,UЛII 0/(CHKU Вы/Jорочное cpeilнcc 7 Выр.1/Jотки оqенки, тzп Jипомининие !/flfJU5ЛЛCNOff pCШCHUIIMU 0/(J'H/(U Шz(t-1) UЛU /J OO!f1/CHUCM 2 mz/1-IJ Рис. 5.31. Схема устройства ДЕМО-! 0/Jниp!f.ЖCHUC ошиооки ото/Jрижение Ото/Jрижение Ol(CHKU 2. Выборочное среднее: этот режим можно использовать, когда действительные категории неизвестны (оценка по неклассифициро­ ванной выборке), а вероятности категорий Р (roi) считаются извест­ ными и неизвестны только векторы средних категорий. Так как Е[хп]=Р(ro1)m1+[1-Р (@1)]m2, (21) то оценку т1 можно получить, например, заменой Е [хп] выбороч­ ным средним, а Р (ro1) - предполагаемым в приемнике значением Р1 . В результате чего получаем П11п=-1-[-1 f X1i-(l-P1)m2]. Р1nk=1 (22) Вектор m2 дается генератором сигналов, встроенным в приемник и устанавливаемым по шкалам на передней панели. Если априорные данные отсутствуют, то исходные значения вы­ борочных средних значений, используемые в режимах 1 и 2, обыч­ но равны выходу первого канала для категорий ro1 и выходу второ­ го канала для категории ro 2 соответственно. 323
3. Управляемая решением оценkа: такой режи~, пр~дста~шя~r особый интерес, так как при этом реализуется алгоритм, соответ­ ствующий формуле (17) или (19) для случая «да-нет» или для слу­ чая двух неизвестных средних значений соответственно. Известный вектор средних в формуле (16) выдается внутренним генератором сигналов приемника. За исходное значение при каждой оценке мож­ но принять выход канала в качестве первой попытки или же оценки m1 и m2 , образованные на основе т последних наблюдений при режиме слежения. Последний метод позволяет переносить указа­ тель из одного эксперимента в другой. Можно также начать с одной классифицированной выборки из каждой категории, применяя на начальном этапе обучение с учителем. При работе приемника биполярные принятые сигналы норми­ руются в пределах динамического диапазона приемника. Выбороч­ ные значения искаженных шумом импульсов берутся приблизитель­ но в их центре на протяжении 100 мкс, и для каждой составляющей последовательно вычисляется (()())( (т11)п + (m1J)n ) • l2З4 m1j п- m2Jn Xln- 2 , /=''',, (23) где (m 11)n 1> определяется применением специального режима согла­ сованного фильтра («известные» векторы устанавливаются по шка­ лам передней панели, а «неизвестные» - представляют соответствую­ щие оценки), затем результаты запоминаются в емкостных элемен­ тах памяти. В конце сигнала находящиеся в памяти значения счи­ тываются, суммируются и подаются в схему триггера Шмита с по­ рогом, установленным на а2 ln [ (1 - Р1)/Р1 ]. Выход представляет импульс на одной из двух линий, в зависимости от ffit, признанной правильной. Алгоритмы вычисления реализуются подсистемами, образую­ щими оценку. Подсистемы одинаковы для каждой оценки вектора средних (рис. 5.32). Синхронизирующие импульсы такие же, как при выработке решений. Составляющие векторов средних вычисля­ ются последовательно и запоминаются в емкостных ячейках «вре­ менной» памяти. «Управляющие» сигналы (см. рис. 5.32) повышают вес 1/ N1 после каждого вычисления категории ro 1 при различных режимах обучения и переносят вычисленную оценку в «долговре­ менную» емкостную память. Основное ограничение устройства сос­ тоит в том, что для каждого эксперимента чис.1rо выборок, исполь­ зуемое в этом эксперименте, должно быть равн:J т = 8, 16, 32 или 64 и регулировка на передней панели устанавливается на одно из этих четырех значений. После окончания каждого эксперимента оценки, содержащиеся в ячейках «долговременной» памяти, пере­ носятся в «следящие» ячейки памяти, прежние значения при этом стираются . • 1> (m1J)n представляет оценку иа п-111 этапе j-й компоненты вектора mi; ~то удобное обозначение используется только в данном параграфе. 324
!/стон_?!uть Ni npas=m,Zm u т-,4. 8ыри/5rJmко Nt Jmun контролнNi ~"' .... ~i ""~ ~"' ""~ тпt !,:,._ ~"" ~"' .Хп mi mmi Врсмсннил пиилть тпi ,,нстш1и" .----,-......---. 0-____ вь,оор РСЖОМ(I, Р,:шснин упри8л,:нрс Zs uJ 86/!Jо;лш Л=S ftfod[ЛV 8ь1putlomкu mi ( f/JU ксидо!онного) 11ножеvт8о mrп-1}i оценоктi 9npll8Лt:HUC стиринасм mi (Ш} пДОЛёО- Врсмсннил" mrп-1Ji пимлть (l-C) mrп-1Jt f!срснос при n=m Jипоми­ нони,: Считы611нис слвж,:- Выбор Ol(CI/Kll Ксхсмии Dыриоотка f!CШCHlllf '"т {l-A} гl:HC/!{1- mOpOM сигнило8 Синхрони- ... __.. ., .._ __. .JUl(UR соiJ,:ржимого т poJ нuе mтi !1сgольз0Dот1, mnz. '-------------~ /l4снить т puJ ' Сигнил n=1 Рис. 5.32. Устройство для выработки оценки ® .!lиножитсль ЕjЭ Cy-МИllmOfl В приемнике также имеются подсистещ,r обнаружения оши­ бок и отображения. «Истина», поступающая из генератора сигналов, сравнивается с выработанными в приемнике решениями, и каждый раз, как принимается ошибочное решение, генерируется импульс ошибки. Два счетчика показывают текущее число выполнен­ ных экспериментов и обнаруженные ошибки. 325
5.5.5. Сходимость оценок В п. 5.5.3 были рассмотрены управляемые решениями оценки на основе байесовского правила выбора решений и семейства нормаль­ ных распределений; однако в общем случае семейство распределений не является нормальным. В рабще [70] показано, что оценки (20) 1,0 Отношение сигнол/шgн= ~ ,t -/( ) = 1 m,-m21 Ф m1-m2 о.от о,1 1,0 сходятся в среднеквадратическом при следующих условиях: 1)h (ХпIХ1, Х2,..., Xn-1)= =h (хп); 2) выборки Хп и исходные век- --- -5 торы {(mi)o}?= 1 лежат в замкну- том и ограниченном выпуклом _____ 70 множестве с ЕL; 3) функuия S100 Л {х: ((m1)00- ___ ,5 - (m2)0,,)f [х - ((m1)00 + (m2)00) /2]>a 2 ln (Р 2/Р1)} - строго вы­ пуклая функция (m1) 00 и (m 2""); порядковое соотношение между m1 и m2 известно, если Р1 (при­ -----JО нятое значение Р (ro1)) не равно 1/2. Известна верхняя граница В1 10-J,___. _,....._.. _ _.___..._~~- на а2 11п (PiP1) 1°, такая, что о 0,1 o,z o,J О,'1- P(w1J плотность смеси h (х), граница В1 Рис. 5.33. Зависимость минималь- и возможные исходные векторы иой вероятности ошибки от P(wi) {mдo}l=l удовлетворяют неравен­ для нескольких зиачений отноше- ствам иия сигнал/шум S h(x)dx>O, {х: ((m1)0-μi Х Х (x-(((m1)0+ + μ)/2))>:В~} S h(x)dx>O, {х: (1-t -(m2)0)1Х Х ((х-(μ +(m2)0)/2))< <-В1}, где μ~Е(х). На рис. 5.33 приведен график минимальной вероятности ошибки при всех известных параметрах. На рис. 5.34-5.37 приведены за­ висимости ЛР е от Р 1 (принятое значение Р (ro 1)) для методов «да­ нет» и бинарного соответственно; параметром является отношение сигнал/шум. Рис. 5.34 и 5.36 даны для Р 1 = Р (ro 1) и известном по­ рядковом соотношении между m1 и m2, рис. 5.35 и 5.37 - для из­ вестной Р (ro1), но Р1 принята равной 1/2. 11 Если принятое значение Р (w 1) не равно 1/2, то следует модифицировать алгоритмы, определенные формулами (16) и (18), чтобы учесть это условие. Выборкn, приводящие к оценкам вне границы В 1 , отбрасываются. 326
Полученные результаты показывают, что отклонения значений ЛРе на рис. 5.34, 5.35 вызываются относительными перемеще­ ниями границ оптимальных и субоптимальных решений при изме­ нении параметров. При некоторых совокупностях значений пара­ метров границы пересекаются и оптимальные и субоптимальные ве­ роятности ошибок устройства одинаковы. , o~J ~"ч 70- 't ИcmoiJ"ilP-11cm" 70 75 отношение сигнил/шgм О,{!! 7,0 5 Рис. 5.34. Зависимость ЛР, от Р(оо 1 ) при известном относительном располо• женин {mi}i= 1 Рис. 5.34 показывает, что при известных вероятностях катего­ рий и относительном расположении {m;}i=I асимптотическое по­ ведение субоптимальной системы ««да-нет» немногим уступает по­ ведению системы, когда все параметры известны. Оценка, управляе­ мая решениями, при неизвестном векторе средних получается сме­ щенной и становится несмещенной при возрастании отношения сиг­ нал/шум, так как функции плотности становятся разделимыми. Э27
На рис. 5.35 показано влияние предположения, что Р1 = 1/2 (при­ нятое значение Р (ro1)) метода «да-нет». Кривые несимметричны, и качество деградирует чрезвычайно быстро при увеличении разнос­ стей между принятыми и действительными вероятностями категорий. Однако при больших отношениях сигнал/шум эта система является адекватной, если Р (ro 1) не «слишком близко» к крайним значениям: Оили1. 5 то tL OmнOiLi:JHut: / Ci/l!НllЛ/ШJM 30/ О 0,7 0,2 O,,J,O,lf 0,5 0 ,5 0,7 о,8 fl,9 P(CtJ1} Рнс. 5.35. Зависимость ЛР, от фактического значения Р(оо 1 ) Кривые ЛР е для метода двух неизвестных значений (рис. 5.36 и 5.37) симметричны относительно Р (ro 1), равной 1/2. Если Р (ro 1) и относительное расположение {m;}l=t известны, то (см. рис. 5.36) асимптотическое щ>ведение системы, реализирующей алгоритм при двух неизвестных средних значениях, лишь немноrо хуже, чем по- з28
tзедение опtимальной системы. Хотя две оценки, управJiяемъ1е ре• шением, смещены при Р (ro 1) = 1/2, эти смещения устраняются при образовании границы решения, и эта субоптимальная граница ре· шения совпадает с оптимальной границей. 0,5 tJ,J 70-6 .____.. _ _.__.,_ _.__.___.__ _._.,_-1.-_,1._.__,i О 0,1 O,Z O,J 0,'f о,5 Р(ы1] Рис. 5.36. Два неизвестных средних значения. Зависимость ЛРе от P{ro 1) при известных P(w) и относительном расположении {mi}i=t На рис. 5.37 приведены кривые для случая двух неизвестных векторов средних, получающихся в устройстве, если положить Р1 = =- 1/2. Как указано выше, для соответствующей системы «да-нет» при разумном отношении сигнал/шум и при Р (ro1), «близком» 1/2, эта система является адекватной субоптимальnой. При Р (ro 1) = = 1/2 асимптотическая вероятность ошибки в этой системе с двумя 329
1,0 Hcmoil DDgx 11сизDt:е~111ых cpr:ilнux зноqснии OmllOШClfUt' сш:нол/ Ш!/М 0,01 75 Рис. 5.37. Зависимость ЛР, от фактического значения P(w1) (при P(w1) = 1/2) неизвестными средними значениями такая же, как и для системы со всеми известными параметрами. Как видно из рис. 5.35, это свойство оптимальности, вообще говоря, не характерно для соот­ ветствующего метода «да-нет». 5.5.6. Характеристика экспериментальной системы Как указывалось в п. 5.5 .4, в вычислительном алгоритме спе­ циального назначения, реализующем управляемые решениями оценки, имеются четырехмерные выборки (L = 4) и регулируемый порог. Для экспериментального исследования характеристик было принято Р (ro 1) = 1/2, что соответствует нулевому порогу в устрой· стве ДЕМО-1. Не предполагается наличие априорной информации о взаимном расположении средних векторов и за исходные вектор· 330
ные оценки (m) 0 для метода «да­ нет» или {(mi)oH=1 в случае двух неизвестных средних значений при­ няты первый или первый выход­ ной вектор соответственно. Пять наборов из 50 экспериментов были обработаны для итеративного ме­ тода «да-нет», итеративного дво­ ичного алгоритма и двоичного ал­ горитма, используемого в режиме слежения. Была определена сред­ няя вероятность ошибки для каж­ дого набора из 50 эксперимен­ тов, на рис. 5.38-5.40 нанесены медианы для различных алгорит- .._ 0,2. • мcmo/;,iJ/l-R!m'~ Z='t - "" ~д2о~От11ош111u1 >:: ~ сrтнrл/шун 10 ~ ,,,,д75 ~ ~ ~~ ~15 l:}~Д10 Z5 ~ !до5 ~ о1020JOffO5060п Рис. 5.38. Зависимость средней вероятности ошибки от п для не­ скольких значений отношения сиг­ нал/шум и четырехмерного про· странства выборок мов в зависимости от числа выборок, причем за параметр принято отношение сигнал/шум С/Ш~(m1- m2)1(m1- m2)/a2 , Экспериментальная средняя вероятность ошибки для метода «да-нет» показана на рис. 5.38. Стандартное отклонение вероятно­ сти ошибки в одном эксперименте равна примерно 0,2 при указан­ ном значении п, хотя это и не указано на кривых. Такое большое стандартное отклонение возникает из-за того, что исходные векто­ ры (m) 0 попадают на «противоположную» сторону по отношению к известному вектору. При некоторых условиях это приводит к «ло­ вушке», т. е. оценка (m)п никогда не может приблизиться к неизвест­ ному вектору средних. На рис. 5.39 показаны экспериментальные кривые вероятностей ошибок для алгоритма с двумя неизвестными средними значениями. Слgчш1 i!Ogx нcu.Jllccmныx срсi!шм 3NP'llffflif t=q - Рис. 5.39. Два неизвестных средних значения, зависимость средней веро­ ятности ошибки от п для нескольких значений отношения сигнал/шум и четырехмерного пространства выбо- рок .. ~ [/,25 ~""0 ,20 ~'-> ~О,15 t~LЦО .. ~о,05 ~., t='r и отнош1;11uе сивнол/шgм то о---о m=8 v-----,s;;;, m=15 t:r---6. m =Jl l:} О.__.__.......__..__.__......_ _ _.__. 102030'f-050,50п Рис. 5.40. Режим слежения! при двух неизвестных средних значениях. За­ висимость средней вероятности ошиб­ ки от числа выборок п для несколь- ких значений т 331
Приводятся также наименьшая и наибольшая средние вероятности ошибок в пяти наборах по 50 экспериментов в каждом. Кривые по­ казывают, что сходимость относительно быстрая, если обе катего­ рии разумно разделены, даже когда исходные значения, часто не­ удачные, получаются путем использования в качестве {(mi)oH=o первых выходных векторов. На рис. 5.40 показаны экспериментальные кривые средней ве­ роятности ошибки для алгоритма с двумя неизвестными средними значениями в режиме слежения. В экспериментах применялись ста­ ционарные статистики. В режиме слежения за исходные векторы брали первые выходные векторы, до вычисления порога обрабатыва­ лись т выборок. Из рисунка видно, что, чем меньше значение т, тем больше начальная скорость сходимости. 5.5 .7 . Кластеризация при разделении по минимальному расстоянию с использованием процедуры, управляемой решениями Читателя не должно удивлять то обстоятельство, что управляе­ мая решениями оценка bi может не сходиться к ь;,, которое характе­ ризует f (х Ii). Причиной этого является наличие «ловушек», опре­ деляемых как состояния, где невозможны никакие дальнейшие вы­ числения для одного или нескольких значений· bi. Ограничим рассмотрение случаем семейства нормальной плот­ ности, причем f (х Ii) характеризуется одним постоянным, но неиз­ вестным вектором средних m; и априорной вероятностью категории Р 1 = 1/ М. Число категорий М неизвестно, но существует верхняя граница М' > М. Определим S1 (m, р) как область в пространстве наблюдений !!С, где байесовское правило выбора решений привело бы к решению о принадлежности к категории i при данных m и р: Si (m,p)={x: f (xl_m 1)Pi>f (xlmi)P1,i = 1,2, ... , M',j=l=i}, (24) где (25а) (25б) Разделение по минимуму расстояния. При данных выборках х1 , х2, ••. , Хп можно выбрать такие точки (m1)N, (n12)N, ... , (mм)N, при которых среднее расстояние выборок от этих точек минимально. Пусть Ti ((m)N)~{х Е !!С: 11x--mi)N/I~11x-(m1)N11, j =1, 2, ..., М}, - (26) S1 ((m)N) л Т1 ((m)N), S2 ((m)N) Л Т2 ((m)N) n (S1 ((m)N))', Sa ((m)N) д Тз ((m)N) n (S1 ((m)N))c n (S2 ((m)N)Y, 332
Sм ((m)N) д Тм ((m)N) n (S1 ((m)N))cn ..• (Sм-t ((m)N))c. (27) Определим S ((m)N) л {S1 ((m)N), S2 ((m)N), ... , Sм ((m)N)}, (28) что и представляет разделение по минимальному расстоянию по от­ ношению к (m)N, При описанной процедуре находят области S; (m, Р), которые вообще не удовлетворяют условиям (24 ). Так как вектор Р считается известным, можно его исключить. Среднее расстояние по отношению к плотности h (х) равно lV((m)N)~ f S Jlx-(m;)Ni/2 h(x)dx. (29) l= 1 S; ((m)N) Среднее значение х в области Si (m) по отношению h (х) равно μ;= Jх h(x) dx. (30) S; (m) shЩd~ S;(m) В работе [31] определена величина JJ.t как «несмещенная» для m;, ес­ ли μ 1 = m1 . Но эта величина может быть смещенной для mi. Ловушки. Определим (A;)N как область пространства fC, в ко­ торой на N-м этапе можно вычислить i-ю категорию, не создавая ловушки. Очевидно, область (A;)N должна содержаться в простран­ стве (S;)N: (31) где (A 1)N и (S1)N зависят от (m)N и Р. Мы уже знаем, что если семейство ;f нормальное, то можно по­ строить оценки m;, которые сходятся к mi. По существу, это ста­ новится возможным благодаря наличию одного максимума функции ri (Ь) = J ln h (х IЬ) /z (х Ib*)dx. Хотя управляемая решением оценка привлекательна благодаря своей простоте, существует затрудне­ ние, состоящее в том, что она может не содержать решение для аргу­ мента, максимизирующее функцию ri (Ь). Тогда имеются многочис­ ленные пути образования областей решений (St)п, при которых ни­ какие последующие выборки (хп + 1, Хп + 2, ... ) не «упадут» в та­ кую область, чтобы получилась ловушка. Вычисление с задержкой. Разумная процедура, позволяющая избежать создания ловушки единственной выборкой, состоит в со­ бирании k выборок, при этом нужно сохранить постоянные оценки для m; и затем произвести вычисления, используg сразу все k вы­ борок. Ниже описывается одна из возможных процедур. Пусть {х8 }~~tЩ. 1 представляет k выборок, накопленных на N-м этапе, где п=NkнаN-мэтапе,N=О,1,2, ... (32)
Определим(Nk+1<п<(N+l)k) (st)r= (1- ~;(k))(s;)1i- t + ~;(k)xNk+r, r = 1, 2, ..., k, (ЗЗа) где (~;)1i= {1/k;, Xnh+rE(A;)N, k;=k;+l, (35б) О в ос::гальных случаях. После того как все k выборок на N-м этапе классифицированы, вы­ числяются все(s;)7, r = 1, 2, ..., k. Теперь, в конце N-го этапа (после вычисления п = (N + 1) k), вычисляется оценка (m;)N + 1: (m;)N+1 =(1- р;(N+1))(Ш;)N+р;(N+1)(s;)1i, N=О,1,2, ..., (34а) где Достаточные условия сходимости. Можно доказать сходимость (m;)N+ 1, но не обязательно к mi. Здесь приводятся условия, доста­ точные для такой сходимости, и указывается точка, к которой при ЭТИХ УСЛОВИЯХ СХОДИТСЯ (m;)N+l• Теорема. Если 1) при данной h (х) выборки х1 , х2 , ... , Хп независимы, М пред­ полагается известным и принимается Р 1 = 1/М; 2) h (х) абсолютно непрерывна; 3) существует такое замкнутое и ограниченное выпуклое мно- жество fC' с fC, что Sh (x)dx = 1; то fC' 4) для любого открытого множества А Е fC, Sh(x) dx >0; А 5) p[lim P((At)N) = 1]=1, i=l,2, ... ,M, n➔OfJ P((S;)N) а) W ((m)1), W ((mbl, ... , W ((m)N) сходится с вероятностью 1, если (m 1) 0 Е fC', и существует такое m, что где б)limW((m)b)=V(m), V(m) = Hm f SIIx-μ(S;)N 1/2h(x)dx N➔oo i= 1 (S;)N при 1>μs; = Е [хIS;]. 1 > Единственное решение, соответствующее m; = Е [х I S; (m)], может не существовать. 334
Доказательство этой теоремы можно найти в [70], представляю­ щей обобщение результатов, приведенных в [31]. Смысл этой теоре­ мы состоит в том, что можно применить управляемую решениями процедуру для получения разделения пространства измерений по минимальному расстоянию. 5.6. Дополнительная литература По-видимому, одна из первых задач, в которых использовалась оценка по неклассифицированной выборке, была связана с переда­ чей сигнала неизвестной формы по неизвестному стационарному шу­ мящему каналу. Задача состояла в оценке неизвестной формы сиг­ нала и в определении его наличия. Для решения задачи в работе [3] использовался энергетический приемник. Каждый раз, когда обнаружение по энергии приводило к решению о наличии сигнала, сигнал усреднялся, получалась оценка неизвестной формы сигнала и пересчитывался согласованный фильтр для сигнала этой катего­ рии. В работе [31] дано математическое определение управляемой решением оценки, если пространство наблюдений подразделялось на М областей. Доказана сходимость с вероятностью 1 оценок па­ раметров, характеризующих эти области. Показано также, что при управляемой решениями оценке могут получаться «ловушки», пре­ пятствующие сходимости. Чтобы избежать «ловушек», было вве­ дено требование «хороших» исходных значений параметров. Для задачи с двумя категориями и при нормальном семействе в работе [32] рассмотрена управляемая решением оценка, когда имеется один неизвестный вектор средних. В [33] эти результаты обобщены для случая двух неизвестных векторов средних. Для вычисления этих управляемых решениями процедур оценки использовалась равно­ мерная последовательность весовых коэффициентов (т. е. 1, 1/2, 1/3, ... ) . Неравномерная последовательность весовых коЭФIJициен­ тов выведена в работе [34]; ее получили при попытке найти «опти­ мальную» последовательность весовых коэффициентов. В работе [35] описано специальное вычислительное устройство, которое реали­ зует управляемый решениями алгоритм при двух категориях. В нашей книге было показано, что субоптимальный с байесов­ ских позиций метод выбора решения на основе выборок 1> состоит в использовании в байесовском правиле выбора решения оценки плот­ ности f (х Ii) для i-й категории. Большое число исследований было посвящено качеству процедур выбора решений, в которых применя­ ются подходящие алгоритмы оценки по неклассифицированной вы­ борке. Процедуры выбора решений, в которых классификация выбо­ рок х1 , х2 , ... , Xn выполняется только после того, как при помощи 1 > Основанный на выборках выбор решений имеет место, когда приме• няется эмпирический метод оценки плотностей. Для классификации плот• ностей f (х I i) не необходимы иные параметры, кроме выборок. 335
алгоритма оценки по неклассифицированной выборке закончена об­ работка всей конечной совокупности данных {х8 };1= 1, называются со­ ставными процедурами выбора решений. Однако, если совокупность {x8 }~=I используется только для классификации xk, то процедура называется последовательно-составной. Большая часть результа­ тов получена при условии, что выборки, соответствующие каждой категории, происходят из известного параметрического семейства fF функций плотности. Используемая при исследовании составных и последовательно-составных процедур выбора решений мера ка­ чества определяется как разность среднего риска на основе оценок плотностей и минимального среднего риска, вычисленная на основе п классифицированных выборок из этих категорий. В [36) дан хо­ роший краткий обзор составных и последовательно-составных про­ цедур выбора решений (см. также [37-42) ). Резюмируя результаты, относящиеся к составной байесовской и последовательно-составной байесовской процедурам, отметим, что если оценка по неклассифицированной выборке плотностей ка­ тегорий сходится, то байесовское правило выбора решений на осно­ ве этих оценок также сходится. Читателю рекомендуем познакомиться с работой [43). В работе [44) рассмотрены оценки моментов параметров смеси биномиальных плотностей, а в [45) обобщены результаты работы [44) и получены ко­ ды для оценки по неклассифицированной выборке априорных ве­ роятностей сигналов в системе передачи сообщений. Интересно за­ метить, что до появления поеJJедней работы невозможно было оце­ пить неизвестные вероятности сигналов в связном приемнике. В работе [46) исследуется задача оценки параметров синхронизации в принятом сигнале; более общее, но абстрактное рассмотрение содержится в [10). В работе [47) оценка без обучения использована в задаче с неизвестной частотой сигналов. В работе [49) предпри­ нята попытка выяснить некоторые недоразумения, связанные с раз­ личием понятий оценивания и адаптации. Книга [50) содержит ре­ зультаты, связанные со стохастической аппроксимацией, причем особое внимание уделено последовательному распознаванию обра­ зов. В книге [51) содержатся материалы по таким вопросам, как составные правила выбора решений и обработки изображений. Сбор­ ник работ [52) охватывает методы кластеризации и обработки изоб­ ражений; в нем приведены некоторые очень интересные примеры применений к распознаванию образов, например к анализу отпе­ чатков пальцев и распознаванию личности. Другой сборник работ, включающий вопросы, например, о выявлении признаков, пред­ ставляет собой книга [53). Возможно, что наиболее полное .Рассмот­ рение теории обработки изображений содержится в книге [54). Чи­ татель должен также познакомиться с работой [55]. В книгах [88, 89) рассматривается применение распознавания образов к медицинской диагностике при помощи ЭВМ. Использо­ ванная методика не включает такие приемы, как многомерная клас• теризация, правила выбора решения по k ближайшим соседям, уп- 336
равляемые решениями процедуры вычисления правил выбора ре­ шения или правила выбора решений, основанные на обучающих выборках при статистиках, отличающихся от нормальных. Эта об­ ласть медицинского диагностирования и лечения представляется од­ ной из наиболее плодотворных для применения методов, изложенных в нашей книге. Задачи 1. Показать, что (±ия)s = t ~ ... а1У ( s) (а1) ... (аr-2)и~•и~• ... k=1 а,=О а1 =0 а,_1"0 а1 а2 а,-1 а,_ 1 s-a1 -a 1 ... а,_1 Ur-1 Ur 2. Рассматривая доказательство теоремы 1, доказать, что Е[/itl [lnh (х1lьk)-Inh(х11b*)+dk) 1 2 )< ~ns/2 8 - "' s (dk)s- 1 E[/lnh(x/bk)-Inh(x/b*)/1), +2s-11s() "' s/2! ,f: 0 i 3. Эта задача касается доказательства теоремы 2. С помощью приводи• мого рисунка показать, что показывается в теореме для 4б = min {ТJ_ (Ь") - - ТJ (Ь')}, где минимизация производится по всем значениям Ь" 6 'if(e/Z) и ьrе$" - ~(е)" 4. Имеется множество конечного объема параметров 9iv, как в п. 5.3.4 . Проверить, что средняя нормированная среднеквадратическая ошибка байе­ совской оценки равна cr2=.~ ~ (b;-bm/(b1-bm)E[p'(b1lxп)P'(bjlxп)l, / =t=ml =/= т где Ьт, представляющее решение, максимизирующее ТJ {Ь) и р' (Ьi 1°Хп),! явля­ ется дискретной апостериорной плотностью Ь;. 5. Дисперсия байесовской оценки ьт при заданном дискретном простран­ стве параметров ограничена следующим образом: cr2(п)<~ ~(Ь1_. ьт)t (Ьf -Ьт) ехр (-п2бi), i=t =mi =/ =m где б1= 1/ 3 [ТJ(ьт)-ТJ(Ь 1)]. 337
Заметим, что дисперсия может увеличиваться nри увеличении числа то­ чек V в пространстве 91V_ Означает ли это, что достоверность оценки умень­ шается при увеличении числа альтернатив? Проанализировать, почему не­ которые задачи распознавания образов могут оказаться неразрешимыми при заданном числе обучающих выборок п, если априорные данные ограничены. 6, Преобразуйте интеграл (25) в п. 5.4.6 и покажите, что С11=sN(ХIm;, ~!)N(хIШj, ~j)dx=(2:rtГLf2JI1г112J~jг1t2х 1-1 -1,-1⁄2 {1 1-1 t.., -1 } Х~i +~i • ехр - / 2 [{m;-m) ~l {m;-m)+(m1-m) ""i (m1-m)] , где m=(~Гl +~гl)-1 (~Гl m;+~гl ШJ). 7. На основании п. 5.4.6 приближение при большом отношении сигнал/шум приводит к упрощенному выражению функции регрессии: К:ак можно воспользоваться функцией Г (Ь) для построения nроцедуры ти­ па «цепи» для отображения кластеров из гиперпространства на два измере­ ния? 8. Пусть х1 , х2 , ... , Xn - параметры, условно независимые и одинаково расnределенные, взятые из смеси h (х / Ь). Тогда на п-м этаnе можно построить байесовскую оценку Ь*. Сравните оценки байесовскую, квазибайесовскую, по методу стохастической аппроксимации и стохастического градиента в от­ ношении следующих свойств: а) Рекуррентны ли они в том отношении, что не надо запоминать выборки Xi, х2 , ... , Xn для вычисления на (п + 1)-м этапе? б) Сравните качество рекуррентных оценок и однократной оценки; в) Ка­ кая оценка потребует наименьшего объема памяти, кроме запоминания выбо­ рок х1, х2, ... , Xn? r) Какие оценки непрактичны при непрерывном прост­ ранстве параметров? д) От какой оценки можно ожидать наихудшего ка­ чества? СПИСОК ЛИТЕРАТУРЫ 1. Pearsoп 1(. Contributions to the Mathematical Theory of Evolution, Phil. Traпs. Roy. Soc. London, -vol. 185, р.71, 1894. 2. Pearson 1(. Оп the Systematic Fitting of Curves to Observations апd Measu- rements. Biometricka, vol. 1, p.I, 1902. 3. Glaser Е. М. Signal Detection Ьу Adaptive Filters, ЩЕ Trans. Informatioп Theory, vol. IT -7, No 2, р. 87-97, April 1961. 4. Jakowatz С. V., Shuey R. L ., Whlte G. М. Adaptive Waveform Recognition, General Electric Research Laboratory Techn. Rept. 60 -RL-2353 Е, Sche- nectady, N. У., Мау 1960. 5. Hiпich М. J. А Model for а Self-Adapting Filter, Information and Control, vol. 5, No 3, р.185-203, Sept. 1962. 6. Daly R. F . The Adaptive Binary-Detection ProЬ!em on the Real Line, Stanford Electronics Laboratories Techn. Rept. 2003-3, Stanford, Ca- lif., Febr. 1962. 7. Fralick S. С. Learпing to Recognize Patterns Without а Teacher IEEE Trans. Information Theory, vol. lT-13, No !, р.57-64, Jan. 1967, alsoStan- ford Electronic Laboratories Techn. Rept. 6103 - 1О, SEL-65-011, Stan- ford, Calif., March 1965. 8. Patгick Е. А. and Hancock J. С. Nonsupervised Sequential Classification and Recognition of Patterns, IEEE Traпs. Informatlon Theory, vol. IT-12, No 3, р.362-372, July 1966. 338
9. Hancock J. С. and Patrick Е. А. Interactive Computation of Aposteriori Probabllity for M-ary Nonsupervised Adapt'ation, IEEE Trans. lnformation Theory, vol. IТ-12, N 4, р.483-484, Oct. 1966. 10. Patrick Е. А. On А Class of Unsupervised Estimation ProЫems, IEEE Trans. lnformation Theory, vol. IТ-14, No 3, р.407-515, Мау 1968. 11. Hi\Ьorn G. G ., Jr., and Lainiotis D. G. Optimal Unsupervised Laerning Multicategory Depeпdent Hypothesis Pattern Recognition, IEEE Trans. Information. Theory, vol. IT -14, No 3, р.468-470, Мау 1968. 12. Patrick Е. А. and Costello J. Р. On Unsupervised Estimation Algorithms, IEEE Trans. Information Theory, vol. IT -16, .No5, р.556-569, Sept. 1970. 13. Patrick Е. А. Learning Probability Spaces for Classification and Recogni- tion of Patterns With or Without Supervision, Ph. D . Thesis, Purdue Uni- versity, Lafayette, Ind., Nov. 1965. 14. Patrick Е. А. and Hancock J. С. The Unsupervised Learning of Probability Spaces and Recorgnition of Patterns, IEEE lntern. Convention Record, Part II, 1965. 15. Teicher Н. On the Mixture of Distributions, Ann. Math. Statistics, vol. 31, N 1, р.55-73, March 1961. 16. Teicher Н. ldentifiabllity of Finite Mixtures, Ann. Math. Statistics, vоГ. 34, N 4, р.1265-1269, Dec. 1963. 17. Teicher Н. Identifiability of Mixtures, Ann. Math. Statistics, vol. 32, No 1, р.244-248, March 1961. 18. Barndorff. N . 'ldentifiabllity of Mixtures of Exponential Families, J. Math. Anal. Appl ., vol. 12, р .115-121, 1965. 19. Yakowitz S. and John Spragins, А. Characterization Theorem of the lden- tifiabllity of Finite Mixtures, presented at the 1966 lnfernational Commu- nications Conference, June, 1966; later in Ann. Math. Statistics, vol. 39, No 1, р.209-214, Feb. 1968. 20. Teicher Н. Identifiabllity of Mixtures of Product Measures, Ann. Math, Statistics, vol. 38, .No 4, р.1300-1302, Aug. 1967. 21. Cooper D. В. and Cooper Р. W. Nonsupervised Adaptive Signal Detection and Pattern Recognition, Information and Control, vol. 7, .No 3, р .416- 444, 1964. 22. Cooper D. В. On the Existence of Nonsupervised Adaptive Signal Detectors; and Dector Estimation Using Stochastic Approximation Methods, Ph. D. Dissertation, Columbla University, New York, April 1966. 23. Cooper Р. W. Some Topics on Nonsupervised Adaptive Detection for Mul- tivariate Normal Distributions, Computer and Information Sciences, vol. 11, Academie Press, Inc., New. York, 1967. 24. Patrick Е. А. Asymptotic Distribution of Maximum Likelihood Estimators for а Nonsupervised Adaptive Recciver, IEEE Inform. Communication Con- ference Record, Philadelphia, June 1966. 25. Wolfe J. Н. NORMIX: Computational Methods for Estimating the Para- meters of Multivariate Normal Mixtures of Distributions, Activity, Rese- arch Memorandum SRM68-6, U. S . Naval Personnel Research, San Diego, Calif. Aug. 1967. 26. Sakrison D. J . Stochastic Approximation, а Recurslve Method for Sol- ving Regression ProЬ!ems, Advances in Communicatioп Systems, vol. 2, р.51-106, А. V. Balakrishnan, ed., Academic Press., Inc., New. York, 1966. 27. l(iefer J. and Wolfowltz J. Consistency of the Maxlmum Likelihood Estfma- tor in the Presence of lnfinitely Many Unknown Parameters, Ann. Math. Statistics, vol. 27, р .884-906, 1956. • 28. LeCam L. On Some Asymptotic Properties of Maximum Likelihood Estima- tes and Related Bayes Estimates (University of California PuЫications in Statistics; vol. 1), University of California Press, Berkeley, Calif., 1953, р.277-300. 29. Wald А. Note on the Consistency of the Maximum Likelihood Estimate, Ann. Math. Statistics, vol. 20, р.Ь95-601, 1949. 339
30.. LeCam L. On The Asymptotic П1еоrу of Estimation and Testing Hypof- heses, Preceedings of the Third Berkeley Symposium on Mathematical Statistics and Probabllity, University of California Press, Berkeley, Calif., 1955. 31. MacQueen J. Some Methods for Classification and Analysis of Multivaria- te Observations, Proceedings, of Fifth Berkeley Symposium on Mathe- matical Statistics and Probabllity vol. 2, University of California Press, Berkeley, Calif., 1967. 32. Scudder Н. J. Probability of Error of Some Adaptive Pattern - Recog- nition Machines, IEEE Trans. Information Theory, vol. IТ-II, N 3, р 363- 371, July, 1965. 33. Patrick Е. А. and Costello J. Р. Asymptotic Probability of Error Using Two Decision Directed Estimators for Two Unknown Mean Vectors, IEEE Trans. Information Theory, vol, IТ-14, N 1, р. 160-162, Jan. 1968. 34. Gregg W. D . and Hancock J. С. An Optimum Decision Directed Scheme for Gaussian Mixtures, IEEE Trans. Ihformation Theory, vol. IТ-14, N 3, р. 451-461, Мау 1968. 35. Patrick Е. А., Costello J. Р., Monds F. С. Decision Directed Estimation of а Two Class Decision Boundary, IEEE Trans. Computers, vol. С-19, N Э, р. 197-205, March 1970. 36. Abend к. Compound Decision Procedures for Pattern Recognition, Proc. Natl. Electronics Conf., vol, 22, р. 770-780, 1966. 37. VanRyzin J. R- The Compound Decision ProЬ!em ,vith the m Х n Finite Loss Matrix, Ann. Math. Statistics, vol. 37, N 2, р. 412-424, April 1966. 38. Van Ryzin J. R - The Sequential Compound Decision ProЬ!em with m Х n Finite Loss Matrix, Ann. Math. Statistics, vol. 37, N 4, р. 954-975, Aug. 1966. 39. Alens N. Compound Bayes Learning Without а Teacher, Stanford Uni- versity Tech. Rept. 6151-2, Stanford, Calif., Aug. 1967. 40. Samuel Е. Convergence of the Losses of Certain Decision Rules for the Sequential Compound Decision ProЬ!em, Ann. Math. Statistics, vol. 35, N 4, р. 1606-1621, 1964. 41. Samuel Е. Asymptotic Solution of the Sequential Compound Decision ProЬ!em, Ann Math. Statistics, vol. 34, N 3, р. 1079-1094, Sept. 1963. 42. Van Ryzin J. R, Asymptotic Solution to Compound Decision ProЫems, Ph. D. Thesis, Dept. of Statistics, Michigan Stat Univ., 1964. 43. RobЬins Н. The Empirical Bayes Approach to Statistical Dicision Prob- lems, Ann. Math. Statistics, vol. 35, N \, р. 1-20, March 1964. 44. Blischke V/. R - Moment Estimators for the Parameters of Two Binomial Distributions, Ann. Math Statistics, vol. 33, N 1, р. 444 - 454, June 1962. 45. Patrick Е. А. and Carayannopoulos G. Codes for Unsupervised Estima- ton of Source and Вinary Cha1;nel Probabilities, Information and Control, vol. 14, N 4, р. 358-375, Aprtl 1970. 46. Stewart, Т. L. and Patrick Е. А. Design and Performance of Adaptive Re- ceivers with Unknown Synchronization and Unknown Signals, IEEE Intern. Communication Conf. Record, Philadelphia, June 1966. 47. Fra\ick S. С., Slenkorick G. L ., Wilson D. L . Design and Performance of an Adaptive Receiver for Signals of Unknown Frequency, IEEE Intern. Communications Conf. Record, Philadelphia, June 1966. 48. Spragins J. D . Learning Without а Teacher,z. IEEE Trans. Information Theory, vol. 1Т -12, N 2, р. 223-230, April 1::166. 49. Patrick Е. А. Concepts of an Estimation System, Adaptive System and а Network of Adaptive Estimation Systems, IEEE Trans. System Science and Cybernetics, vol. SSC -5, N 1, р. 79-86, Jan. 1969. 50. Fu 1(. S. Sequential Methods in Pattern Recognition and Machine Lear- ning, Academic Press Inc., New York, 1968. 340 Последовательные методы в распознавании образов и обучении машин: Пер. с англ. /Под ред. Л. А. Мееровича и Я. 3. Цыnкина. Наука, М., 1971.
51. l(anal L. ed, Patterп .Recognition, Thompson Book Со., Washington, D. С., 1968 52. Watanabe S. ed, Methodolagjes of Pattern .Recognition, Academic Press, lnc., New York, 1969. 53. Tou J. Т. ed. Computers and lnformation Sciences, vol. 11, Academic Press, Inc., New York, 1967, р. 57-89 . 54. Rosenfeld А. Picture Processing Ьу Computer, Computing Surveys, vol. 1, N 3, р. 146-174, Sept. 1969. 55. Nagy G., and Shelton G. L ., Jr., Self-Corrective Character .Recognition System, IEEE Trans. 1 -nformation Theory, vol. IТ-12, N 2, р. 215-222, April 1966. 56. l(ullback S. Information Theory and Statistics, John Wiley and Sons. lnc., New York, 1959. l(ульбак С. Теория информации и статистика: Пер. с англ. /Под ред. А. Н. Колмогорова. Наука, 1967. 57. Loeve М. Probability Theory, 3rd od., Van Nostrand .Reinhold, New York, 1963. Лоев М. Теория вероятностей: Пер. с англ./Под ред. Ю. В. Прохорова М.: ил, 1962. 58 . .Rudin w. .Real and Complex Analysis, McGraw - Hill Book Company, lnc., New York, 1966. 59. Lehmann Е. L. Testing Statistical Hypotheses, Jehn Wiley and Sons. lnc., New York, 1959, р. 12-23. Леман Э. Проверка статистических гипотез. - Пер. с англ./Под ред. Ю. В. Прохорова. М.: Наука, М., 1964. 60. Patrlck Е. А, and Liporace L. Unsupervised Estimation of Parametric Mixtures, Purdue University School of Electrical Engineering Tech . .Rept, ЕЕ 70-31, Lafayette, Ind., Aug, 1970. 61. RobЫns Н. and Monroe S. А Stochastic Approximation Method, Ann. Math. Statistics, vol. 22, N 3, р. 400-407, Sept. Ic 51. 62. l(iefer J. and Wolfowitz J. Stochastic Estimation of the Maximum of а .Regression Function, Ann. Mat. Statistics, vol. 23, Р: 462-466, Sept. 1952. 73. Blum J. Multidimentional Stochastic Approximation Methods, Ann. Math. Statistics, vol.25, N 4, р. 734-744, Dec. 1954, 64. Dvoretzky А. On Stochastic Approximation, Proceeding of the Third Ber- keley Symposium on Mathematical Statistics and Probability, vol. 1, University of California Press, Berkeley, Calif., 1956, р. 39-55 . 65. Wilde D. Optimum Soeking Methods, Prentice - Hall, Inc., Englewood Cliffs, N. J ., 1964, р. 159-192. 66. l(esten- Н. Accelerated Stochastic Approximation, Ann, Math. Statistics, vol. 29, N 1, р. 41 -58, 1958. 67. Wilde D. Optimum Soeking Methods, Prentice - Hall, Ins., Englewood Cliffs, N. J ., 1964 68. RobЫns Н. Mixtures of Distributions, Ann. Math. Statistics, vol. 19 N 3, р. 360-369, Sept. 1948. 69. Yakowitz S. А Consistent Estimator for the I dentification of Finite Mix- tures, Ann. Math. Statistics, vol. 40, N 5, р. 1728-1736, 1969. 70. Patrlck Е. А., Costello J. Р. Unsupervised Estimation and Processing of Unknown Signals, Purdue University School of Electrical Engineering Tech . .Rept. ЕЕ 69-18 Lafayette., lnd., June 1969. 71. Ball J. Isodata: Data Analysis in the Social Sciences: What About the Details, Proceedings of Fall Joint Computer Conference, р. 533-559, 1965. 72. Patrick Е. А., Anderson D. R -, Bechtel F. 1(. Mapping Multidimen- sional Space to One-Dimension for Computer Output Display, IEEE. Trans. Computers, vol. С-17, N 10, р. 949-953, Oct. 1968. 73. Shepard R- N ., Carroll J. О. Parametric .Representation of Nonliear Data Structures, Multivariate Analysis, Р . .R - Krishnaiah ed, Academic Press, Inc., New York, р. 561-592, June, 1966. 341
74. Jarvis R. А. Adaptive Global Search in а Тime - Variant Environment Using а Probabl\istic Automaton With Pattern Recognition Supervision, IEEE Trans. System Science and Cybernetics vol. SSC-6, N 3, р. 209-217, July 1970. 75. Miller К. S. Multidimentional Gaussian Distributions, John Wi\ey and Sons, Inc., New York, 1964. 76. Butler G. А. А Vector Field Approach to Cluster Analysis, Pattern Recog- nition, vol. I, N 4, р. 291-299, Jul:,o 1969. 77. Abraham С. Evaluation of Clusters on the Basis of Random Graph Theory, IBM Research Memo., IBM Corp., Yorktown Heights N. У., Nov. 1962. 78. Batchelor В. G., Wilkins В. R. Method for Location of Clustors of Patterns to lnitialize а Learning Machine, Electronics Letters, vol. 5, N 20, р. 481- 483, Oct. 2, 1969. 79. Nagy G. State of the Art in Pattern Recognition, Proc. IEEE, vol. 56, N 5, р. 836-860, Мау 1967. 80. Patrick Е.. А., and Fischer F. Р. II, Cluster Mapping with Experimental Computer Graphics, IEEE Trans. Computers, vol. С-18, N 11, р. 987- 991, Nov. 1969. 81. Cooper Р. W. The Hyperplane in Pattern Recognition, Cybernetics (Na- mur), vol. 5, N 4, р. 215-238, 1962. 82 Patrick Е.. А. Carayannopoulos G. L . and Costello J. Р. Five R esults on Unsupervised Learning Systems, Purdue University School of Elecrical Engineering Tech. Rept. ЕЕ 66-21, Lafayette, Ind., Dec. 1966. 83. Zadeh L. А. Fuzzy Sets, lnformation and Control, vol. 8, N 3, р. 338- 353, 196. 84. Kaminuma Т., Takebowa Т. Watanabe S. Reduction of Clustering ProЫems to Pattern Recognition, Pattern Recognition,{vol. I, N 3, р. 195- 205, 1969. 85. Haralick. R - М. and Kolley G. L . Pattern Recognition with Measurement Space and Spatial Clustering for Multiple Images, Proc. IEEE . vol. 57, N 4, р. 654-665, 1969. 86. Ruspini Е.. Н. А New Approach to Clustering, Information and Control, vol. 15, N 1, р. 22-32, 1969. 87. Butler G. А. Clustering Using А Сотр uter Output Display, Abstract of Pittsburgh 1970 Pattern Recognition Workshop, IEEE Trans. Systems, Man and Cybernetics, vol. SMC - I, N 3, Oct. 1971. 88. Caceres С. А., and RiЬII А. Е.. Diagnostic Computers, Cl1arles С. Thomp- son, PuЬlisher, Springfield ILL, 1969. 89. Lusted L. В. Introduction to Medical Decision Making, Charles С. Thom- pson, PuЬ\isher, Springfield 111, 1968. 90. * Невельсон М. Б., Хасминский Р. 3. Стохастическая annp оксимация и ре­ кур рентное оценивание. - М.: Наука, 1972. 91. * Вазан М. Стохастическая аnnроксимация: Пер. с анrл./Под ред. Д. Б. Юдина. - М.: Мир, 1972.
ГЛАВА 6 ПОНИЖЕНИЕ РАЗМЕРНОСТИ: СЕЛЕКЦИЯ И ВЫДЕЛЕНИЕ ПРИЗНАКОВ 6.1. Введение Одной из классических задач теории распознавания обра_зов и теории связи является понижение размерности вектора измерений х с размерности L до размерности l, l < L. В первых работах по дискриминантному анализу и распознаванию образов ставилась за­ дача построения фильтра, отображающего L-мерный вектор в про­ странство меньшей размерности, чтобы выбор решения можно было выполнить в этом пространстве. Одно из достоинств этого отобра­ жения состоит в том, что классификация в пространстве меньшей размерности выполняется быстрее и проще, а фильтр может быть построен единожды (заранее или при выполнении исследования). Простым примером понижения размерности такого рода является отбор l компонент вектора х размерностью L > l. Это называется селекцией признаков, причем признаками являются компоненты вектора измерений. Так как вначале подчеркивался этот принцип селекции признаков, часто забывали о другом очень важном сооб­ ражении: о возможности понижения размерности при учете модели задачи или сведений о задаче. Если известно, что между компонен­ тами двух определенных размерностей имеется некоторое соотно­ шение, то, грубо говоря, можно использовать выборки, входящие в компоненту одной размерности, для облегчения оценки функции плотности вероятности параметров, характеризующих другую раз­ мерность. Вместо того чтобы -Иметь дело с двумя совокупностями параметров, характеризующих соответствующие размерности, мож­ но исключить одну совокупность параметров, т. е. наличие соотно­ шения дает возможность исключить «лишние» параметры. Практически признается, что колебание, изображение или век­ тор, представляющие образы, должны быть предварительно обра­ ботаны. Например, колебание имеет неограниченную размерность, если рассматривать его в векторном пространстве i 00 • Желательно воспользоваться соответственно выбранными применительно к за­ даче базисными функциями, чтобы отобразить колебание в простран• 343
стnе Шоо вектором х в пространстве ii при возможно малом чйсЛЕ! L. Из-за большого разнообразия возможных процедур предвари­ тельной обработки она в настоящее время представляет в большей степени искусство, а не матеl\штическую дисциплину. Конечно, что­ бы применять это искусство на практике, полезно знать свойства базисных функций. Зададимся вопросом: можно ли оценить операцию понижения раз­ мерности при использовании обучающих выборок? Ответ будет та­ кой: можно, но можно рекомендовать также воспользоваться апри­ орными данными. Можно уменьшить число обучающих выборок, необходимых для оценки операции понижения размерности с за­ данной степенью неопределенности, если воспользоваться априорны­ ми нечеткими предположениями при выполнении операции. 6.2. Выделение признаков Выделение признаков - это приведение совокупности измере­ ний, содержащих относительно большое количество данных при меньшем количестве полезной информации, к совокупности, содер­ жащей относительно небольшое количество данных (признаков). Обычно для осуществления такого снижения размерности необхо­ димо знать априори структуру. Для извлечения признаков из ко­ лебаний используется способ (но часто не приводящий к успеху), состоящий в том, что при помощи преобразования из аналоговой формы в числовую из непрерывного процесса f (t) извлекается ко­ нечное число выборок. К числу других элементарных примеров от­ носится использование экспоненциальных и тригонометрических базисных функций. Интуитивно чувствуется, что чем больше известно о процессе априори, тем меньшее число базисных функций необходимо для представления процесса. В примере с преобразованием из аналого­ вой формы в цифровую число необходимых выборок пропорциональ­ но ширине полосы процесса, если рассматривать эту полосу априо­ ри известной. При использовании этих относительно ограниченных априорных сведений число выборок может оказаться недопустимо большим для последующего выбора решения. С другой стороны, ес­ ли известно, что процесс представляет линейную комбинацию трех синусоид, то его можно представить тремя соответствующими ко­ эффициентами Фурье. Оценку априоных сведений, как, например, для гармонических базисных функций, невозможно получить на основе конечного чис­ ла выборок; ее можно получить из данных самой задачи1 ' или при неограниченном числе обучающих выборок. 1, См., например, § 6.3, где показано, как можно обменять априорные данные на число выборок. 344
Оказалось, что невозможно ввести в ЭВМ знания человека о зада­ че. Таким образом, наилучшим источником моделей, которые при­ водят к соотношениям между измерениями, х1 , х2 , ••• ; Xi, позволяю­ щим выявить признаки у1, у2 , ... , у1 , l ~ L, является человек. Использование априорных сведений для выделения признаков. По существу, для получения априорных сведений, необходимых для выделения признаков, имеются два пути. Одним из них является частный метод, применимый к данному случаю, когда признаки вы­ деляются на основе суждения человека. Другой основывается на построении признаков, представляющих, может быть, не,11инейные функции исходных измерений путем изучения акустики, структу­ ры границ, типа антенны, биологической модели, медицинских дан­ ных и других данных, связанных с задачей. В процедурах снижения размерности (§6.2 -6 .11) не предусматривается использование све­ дений о задаче. Они основаны в большей степени на оценке значимых направлений в пространстве измерений. Начиная с § 6.11 для сни­ жения размерности учитываются сведения о задаче прагмати­ ческого характера. Такие нелинейные соотношения рассматрива­ ются в § 6.12 -6 .14 . Этот подход развит в гл. 7. Предположим, что §'i представляет семейство базисных функций, а j = {1't} - множество семейств, рассматриваемых в задаче, содержащее семейства g: 1 , §'2 , ... , g: м. Пусть f - заданная функ­ ция, которую необходимо представить точно или приближенно при помощи подмножества базисных функций из семейства 1f't, Крите­ рием для выбора семейства g: t будет требование, чтобы совокуп­ ность базисных функций имела бы минимальный размер при за­ данной «ошибке приближения». Для определения искомого семейства §' i можно применить либо математические приемы минимизации ошибок приближения, либо провести эксперименты по перебору всех семейств 1't· При любом подходе, математическом или экспериментальном, степень успеха зависит от того, насколько хорошо совокупность семейств f харак­ теризует рассматриваемую задачу. Другими словами, семейства :ft с fГ должны быть построены на основании изучения задачи. Одна из идей о стохастическом понижении размерности состоит в выборе «наилучшего» семейства базисных функций в l-мерном пространстве V' 1 , если известно такое семейство в L-мерном прост­ ранстве V' L, причем V'1 может быть подпространством пространства V' L· Выбранное подпространство должно быть «лучшим» в том смыс­ ле, что оно обеспечивает понижение размерности или уменьшение сложности при сохранении «высокого» показателя качества. Обыч­ но одновременно рассматривают два или более классов. Показате­ лем качества может быть, например, мера свойств, характеризую­ щих отличия между классами, а также внутри каждого класса. Классическое выделение признаков при помощи преобразова­ ния из аналоговой формы в цифровую. Известно преобразование из 345
аналоговой формы в цифровую, при помощи которого последова­ тельность функций fs (t), s = 1, 2, ... , п, преобразуется в числовые последовательности. Предположим, что функция fs (t) преобразу­ ется в L-мерный вектор Xs = [fs U1), fs U2), ···• fв (t1,)] ~ [х1, Х2, •··• XL], (I) где компонентами вектора Х8 явтrются выборки функции fs (t). Та­ ким образом, признаки выделяются при помощи выборок, что со­ ответствует приближенному представлению функции fs (t) при по­ мощи базисных функций { siп (· )/ (·) } (см. теорему выборок 1>) [1]. Для получения «хорошего» приближения интервал дискретизации Utн - t1) должен быть пропорционален полосе частот функции fs (t). Величина L, получающаяся при практическом применении теоремы выборок, может быть очень большой по сравнению с вели­ чиной, получаемой при помощи других методов выделения призна­ ков. Отсюда можно заключить, что сведения о полосе частот не обя­ зательно составляют значительную часть априорных сведений. L-мерные векторы Х8, s = 1, 2, ... , п можно вводить в память ЭВМ либо просто для последующего восстановления, либо для ис­ пользования в качестве обучающей совокупности при обучении с учителем (гл. 4) или при самообучении (гл. 5). Нужно подвергнуть обработке векторы измерений х1, х2 , ... , Xn, которые состоят из х~, xi, ... , х~1, i = 1, 2, ... , М, из соответствую­ щих М классов. В процессе выбора решений могут оказаться полез­ ными следующие процедуры. 1. Рассмотреть смесь векторов измерений х1 , х2 , ... , Хп и преоб­ разование х Е 6/J' L в у Е 6/J' 1, в результате чего получаем векторы у1, у2, ... , Уп; это преобразование минимизирует среднеквадрати­ ческуюошибку междуYi иxi, i = 1, 2, ..., п. 2. Может случиться, что при п « L в последующих измерениях появляются лишь немногие векторы или вовсе не появляются век­ торы, которые значительно отличались бы от начальных п векто­ ров. В этом случае необходимо использовать эти п векторов и, та­ ким образом, размерность станет равной п, а не L. Процедурой для получения базиса из этой совокупности является процедура Грам-Шмидта (§ 6.5). 3. В § 6.6 рассмотрена процедура транспонирования векторов для нахождения компонент векторов, которые стохастически сход­ ны; после того как такие компоненты найдены, нет необходимости сохранять более одной из них. Чтобы уменьшить сложность, может оказаться предпочтительнее воспользоваться априорными сведе­ ниями для исключения этой избыточности, чем опираться полностью на обучающие выборки. 4. В§ 6.7 рассматривается преобразование векторов измерений х1, х2, ... , Хп в !-мерные векторы у1, у2, ... , Уп признаков с целью максимизации рассеяния (рассредоточения) этих векторов. 1> Теоремой Котельникова (20*]. (Прим. ред.) 346
5. В § 6.8 рассматривается преобразование для двух классов такое, что в преобразованном пространстве максимизируется рас­ стояние между этими двумя классами. 6. В § 6.9 рассматривается преобразование, минимизирующее расстояние между векторами одного класса. Оно полезнее для достижения глубокого понимания, а не в качестве рабочей проце­ дуры для понижения размерности. 7. В § 6.10 представлен подход, названный непараметрическим выбором признаков. Ни один из вышеупомянутых подходов не дает адекватного от­ вета на вопрос, почему понижение размерности является частью процесса выбора решений. Существуют задачи, для которых один или несколько подходов могут оказаться полезными. Они сами по себе не являются прагматическими, но заслуживают обсуждения до § 6.11, 6.12, в которых разрабатываются основы прагматического подхода. 6.3 . Шесть принципов понижения размерности Ниже дается определение шести принципов понижения размер• ности. Они приведены для того, чтобы показать, в чем суть пониже­ ния размерности, что может улучшить качество или уменьшить сложность. Первый припцип состоит в том, что для получения оценки век­ тора параметра bt, характеризующего f (xlrot), i = 1, 2, ... , М, ис­ пользуются векторы измерений х~, s = 1, 2, ... , п. Число независи- .:с DtЩfK/1 Ь1 DtЩIK{X 111. • • • Апррррнщ iJ11HH6/C DЦ8HK/l. Ьм f(a-]bz) • • • t{:с/Ьн) Рис. 6.1 . Поиижеиие размериостн 511ilвc0Dt roc про,/Jмо Do1tfop11 pвшвlfail !{/1 0C!fo!lc O11/flfolX ОЦС!fОК nлomRocma 347
мых сkаляров в bi представляет размерность пространства nарамеr­ ров условной функции плотности i-ro кш,сса. Априорные данные определяют ограничение на плотности f (xlroi), i = 1, 2, ... , М. Когда это ограничение наложено, то компоненты вектора bi пере­ стают быть независимыми. Следовательно, их можно заменить мень­ шей независимой совокупностью, которую обозначим вектором Ы. Рассматриваемый принцип иллюстрируется рис. 6.1. Возможны также априорные данные, связывающие f (xJroJ и f (xlroj), i =I= j. Например, может быть известно, что обе плотности вероятности име­ ют одинаковые ковариационные матрицы ~. что позволяет для оцен­ ки матрицы ~ использовать выборки из обоих классов. Тогда име­ ется вдвое больше выборок и неопределенность становится меньше. H!lXOЖOC!f!lC ~ ~ поtlпр оr: mp!l!fr: т!J!1 - - пр!i поМОЩ!l крuтсрuя !J' - OЦC!fK!l rz!l/J!iЛ!l rlfop!l_ peшc!fllll Рис. 6.2 . Понижение размерности смеси при помощи критерия Второй принцип иллюстрируется рис. 6.2. Он основан на идее, что не требуется полного знания функций f (x/roJ, i = 1, 2, ... , М, а достаточно знать функции f (y\roi), где у Е ?!' 1 есть отображение х Е ?J' L в !-мерное пространство (l < L). Так как l < L, то легче найти оценку параметров, характеризующих функции f (у (roi)), чем параметров, характеризующих функции f (x/roi) (рис. 6.3). Выбор подпространства будет зависеть от некоторого критерия, например ошибки аппроксимации или максимизации экспериментальной раз­ деляемости условных плотностей вероятности классов. Исполь­ зуя этот критерий, следует оценить параметры, характеризующие преобразование. Два представленных принципа относятся к уменьшению числа параметров, характеризующих условные функции плотности веро­ ятности классов. В отличие от них третий принцип состоит в том, что границу решения можно определить непосредственно. Если из­ вестно априори, что граница решения имеет некоторую параметри­ ческую форму с небольшим числом параметров, то может оказаться возможным найти оценку этих параметров. Примером может слу­ жить нахождение оценки среднего значения смеси векторов изме­ рений в одномерной задаче выбора решения при двух классах и нормальном распределении. Если форма границы решения неизвестна, то теоретически мож­ но представить ее приближенно сегментами гиперплоскостей. Од­ нако, чтобы выполнить это адекватно, может оказаться необходи­ мым ввести параметры, характеризующие каждый сегмент, что приведет к довольно большому числу параметров. 348
Чепюертый пршщuп типичен д.ля цикла «диаrноз-л~чение» при медицинской диагностике с помощью ЭВМ. Обозначим вектор-стро- ку измерений Xr = [х1 , х2 , ... , Xr], где Х5 - вектор измерений после s-ro испытания. Если Х5 характеризуется функцией f (xs)rois), i = = 1, 2, ... , М, то плотность Xr можно охарактеризовать функцией f (xrln), где последовательность n = [rois, ro2s, ... , rorsl. Каждую последовательность n можно представлять как комплекс болезни, а вектор Xr - как комплекс симптомов.Число различных последа- Оцвнк11 61 l'(uJ1) Оцвнк11 llz Р(rи2) • • • • . • Рис. 6.3 . Понижение размерности с использова­ нием подпространства вательностей равняется М (большое), но его можно уменьшить, вос­ пользовавшись априорными сведениями, чтобы ис_ключить некото­ рые соотношения между комплексом симптомов Xr и комплексом болезней n. При исследовании некоторые последовательности мож­ но исключить. Вероятности последовательносrей можно использо­ вать при выборе решений на любой стадии, чтобы определить пол­ ноту диагноза или необходимость дополнительных исследований с соответствующим диагнозом, и, возможно, с предписанием допол­ нительных исследований. Оценка плотностей f (xr/1tj), j = 1, 2, ... .. . , (М)', - трудная задача; желательно использовать приближе­ ния, чтобы обусловить плотность одного подпространства свойства­ ми другого подпространства. Пятый принцип сосrоит в том, что можно смешивать измере­ ния: дискретные и непрерывные. Дискретные измерения могут очер­ тить области в пространсrве, одновременно в этих областях строят условные по ·классу функции плотности вероятности непрерывных измерений. Дискретное измерение подразумевает также, что плот- 349
Насть вероятности должна существенно изменяться от одной дис­ кретной точки к другой. Без этого дискретное измерение не явля­ ется оправданным. Шестой принцип состоит в том, что признаки можно рассмат­ ривать как нелинейные соотношеция между измерениями. Благо­ даря этим соотношениям в пространстве измерений образуются эк­ вивалентные области. Работы [2-5, 7, 8) содержат ценный дополнительный материал. 6.4. Выбор признаков по критерию минимальной среднеквадратической ошибки Обозначим q,1, qJ2, •.. , q,i L-мерные ортонормальные базисные векторы1 > в пространстве (подлежащие определению) и образуем ли­ нейную комбинацию l ~Св6q,~, l<L;s= 1,2, ..., l, ~=1 (1) которая должна давать приближенные значения векторов измере­ ний {хв}:= 1• Известная задача аппроксимации состоит в том, чтобы использовать выражение (1) для приближенного представления век­ торов Хв в среднем. Для отыскания решения определим расстояние ев между суммой (1) и векторами Хв следующим образом: е= 11Хв-~~I cs~rp~112 в 1/ Xs 112 (2) Среднее расстояние по совокупности векторов равняется - 1п е=-;;-I е3• (3) В=1 Обозначим (4) Тогда задача состоит в минимизации среднего расстояния по всем допустимым Ф: /1 Хв /12 L 1> ЧJ6 = ~ rpsiej, где rp~,i постоянно для всех значений ~ и j, а е1 пред• /=! ставляет L-мерную направляющую. 350
где С86 = (Х8, (1)5), Выражение (5а) эквивалентно выражению l п l[LLп • ] ~ ~ (х8,ip8)2 "' ~ ~ "' Хвi Хв1 'Pt;i 'P;J max _.;. _ .;. -'----'~ = max _.;. _ .;. _ .;. _ .;. ----''--'"'- . Ф !;=ls=l JJxsll 2 Ф !;=1 i=l/=ls=l Jlxsll 2 (5а) (56) (6) Тогда максимизацию в (6) можно осуществить, максимизируя каж­ дый член в скобках по отношению к q, 6 , s= 1,2, .... L,таккаккаж• дый из этих членов ~ О. Таким образом, найдем1' где [ LL~ ] max ~ ~ PiJ (j)6i (J)~i , !р i=li=l п _ ~ XвiXsj PiJ- s=i IIХв112 • Выражение (7) можно представить в более удобном виде: max(Pq,6,q,6), 11Ч,;11=1;q,6J_Ч'1J_q,2J_ ... J_Ч,;-1, 'Р!; где Р - матрица преобразования, определяемая по формуле ~[L L~ L~ ] Pq,i;= ~ P1J(J)t;/, ~ P21(J)t;/, ••• • ~ PLJ(J)U • /=1 f=I /=1 (7) (8) (9) (10) Так как матрица Р самосопряженная, можно показать, что век­ тор q,6 , удовлетворяющий условию (9), представляет собственный вектор, соответствующий наибольшему собственному значению л6, где [ L~ L~ L~ ] л1;Ч's= ~ Рц(f);J, ~ Р21(J);/, ••• , ~ Ри(f)si • /=1 f=I f=I (11) Вектор q,, соответствующий следующему собственному значению, создает второй максимум и т. д. Выберем l собственных векторов, соответствующих l наибольшим собственным значениям (из выра­ жения (11)), и получим базис q,1 , q, 2 , ... , q, 1, соответствующий мини­ муму величины l. 1 > fiiJ представляет оценки коэффициентов корреляции в ковариациониой матрице ~. получаемые усредненJ{ем по n векторам xi, х2 , ••• Xn· 35!
Если ранг матрицы Р равен l' < l, то только l' собственных зна­ чений будут отличны от нуля. Следовательно, использование раз­ мерностей /' + 1, /' + 2, ... , l не приведет к уменьшению величины ё. Подобным же образом, если л1 ,н « л1 ,, то уменьшение вели­ чины ё при использовании l' + 1 измерений будет малым. так что использование больше чем l' измерений окажется неоправданным. Пусть ранг матрицы Р меньше числа выборок n или равен ему. Если n < L, то можно понизить размерность и получить векторы Z"~J~ . . . Рис. 6.4 . Понижение размерности: q,11 ... , q,1 представляют l собственных век­ торов оценки нормированной матрицы корреляции Р, соответствующих l наи­ большим собственным значениям размерностью fd ~ n< L. Если /0 немногим меньше, чем п « L, то польза от этого понижения размерности сомнительна. Ситуация, когда/" ~ n, указывает, что последующие выборки xn+i• Хnн, ... могут привести к существенной среднеквадратической ошибке ё, если не увеличить размерность l". На основе вектора измерений Х8 получаются новые признаки с81 , с,2, .. ·• С81 ; следовательно, Х8 -+ Ys, (12) Структурная схема алгоритма понижения размерности, определяе­ мой выражениями (8) и (12). приведена на рис. 6.4 . 352
6.5 . Использование преобразования Грам - Шмидта над векторами измерений Снова рассмотрим последовательности векторов измерений, х8 , s = 1, 2, ... , п. Ортогональную линейную оболочку этой совокуп­ ности п векторов можно получить при помощи процедуры Грам­ Шмидта: (1) n'-1 х,1,- ~ (Xs, 1\Js) 'Ps s=1 , Ч,п• = ----------, n ~ 11, 11Хп,- ~ t>Xs, 1\Js) 1\Js 11 где п' - число линейно независимых векторов. Тогда вектор дан­ ных Xs ~южно представить в виде rде Хт,:Сz,... ,3:п п• Х3=~Cs~Ч,;,п'~п, ~=! ПpOl{Cil!Jpfl ГpflH-ШмuiJmfl (2) (3) Рис. 6.5 . Понижение размерности:· 'Ф1, 1\J2, ... , 1\Jn получаются их х 1 , х2, •.• , х" при помощи процедуры Грам-Шмидта 353
Следовательно, каждый вектор Х8 эквивалентен вектору [с81 , С8 ~, ... ... , Csn'], где n' ~ n. Одним из возражений против описанной выше процедуры явля­ ется то обстоятельство, что вектор измерений х,,+1 может не лежать внутри пространства, охватываемого величинами ч,1 , ... , 'Фп. Это можно учесть, вычислив п Хп+1 - ~ (хп+1, '\f',) 'Фs · S=1 Если этот вектор не нулевой, то его соответственно нормируют и полагают равным 'Фп+~• а размер совокупности увеличивается на единицу. Конечно, возможно, окажется необходимым прибавлять к совокупности одну основную функцию каждый раз, когда обра­ батывается новый вектор данных. Вероятность такой ситуации велика, когда п' ~ п, и мала, когда п' « п. Применение процедуры Грам - Шмидта для отыскания ортонор­ мального базиса представляется более легким, чем вычисление соб­ ственных векторов; однако в последнем случае обеспечивается упо­ рядочивание собственных векторов (базисных векторов) в соответ­ ствии с собственными значениями, что позволяет снизить размер- ность до l" при заданной ошибке е. Процедура Грама-Шмидта по­ казана на рис. 6.5 . 6.6. Транспонированные векторы Разместим п векторов измерений в виде столбцов матрицы lv~ ~ lX11, Х21, ... , Хп\ 'J V2 _ Х12, Х22, ..• , Хп2 . - . . . . . . . . . . . . t VL X1L,X2L,- --, XnL Тогда, если v; = Vj, i =/= j, то не необходимо сохранять и i-й и j-й векторы измерений в матрице, а лучше соединить оба измерения в одно. Это указывает на возможность применения процедуры класте­ ризации 0 к транспонированным векторам vi, v~, .. . , vt, чтобы обна­ ружить такие сходные компоненты. Если процедура кластеризации определяет, что d (vi, vj) ~ О при соответствующей мере расстоя­ ния d и i =/= j, то измерения i и j считаются эквивалентными. Же.1а­ тельно выявить эквивалентные измерения на основе априорных све­ дений, а не полагаться целиком на обучающие выборки. Указанная процедура применима к смеси п векторных выборок из М классов. В изображенном на рис. 6.6 примере при М = 3 соб­ ственным вектором, соответствующим наибольшему собственному значению л, был бы вектор ср1 = е2 = [О, 1]. Следовательно, вели- lJ См. rл. 5. 354
чина {х, «р1) = х2 явилась бы единственным признаком, позволяю­ щим классифицировать эти три класса выборок с нулевой ошибкой. С другой стороны, для двух классов (рис. 6.7) значимым направле­ нием было бы также ср1 = е1 = [О, 1] и признак (х, (l)i) = х2 привел бы к бо.1ьшой ошибке классификации. Однако изображенные на рис. 6.7 к.1ассы не перекрывают друг друга, так что должна сущест­ вовать возможность построить процедуру классификации с нуле­ вой ошибкой. Iz,t. 1 K.лflr:C 7 :с, Рис. 6.6 . Пример с тремя классами, когда значимым направлением соби­ риння nыборок было бы е2 =[0,1] J;, Рис. 6.7 . Пример с двумя классами, когда значимым направлением для собирания выборок является е2 = [О, 1] Чтобы избежать подобных трудностей, исследовались преобра­ зования пространства ?7 L в пространство ?7 1, максимизирующие «межклассовое расстояние» и одновременно минимизирующие каж­ дое «внутриклассовое расстояние». Этот прием существенно облег­ чает решение задачи, но трудно распространить этот метод на слу­ чаи М > 2. Более перспективны приемы, при которых пытаются найти для каждой категории кластеры и построить вектор признака с компонентами, соответствующими свойствам этих кластеров. Эти приемы :-.югут оказаться более практичными, так как метод класте­ ризации при оценке без обучения может быть практичнее, чем боль­ шинство процедур определения параметров (см. гл. 5). 6.7. Матрицы рассеяния Пусть х1 , х2 , ... , Хп представляют п L-м ерн ых вект оров изм ере ний {: плотностью h (х), которая может быть смешанной плотностью из условных по классам плотностей f (xlffii), i = 1, 2, ... , М. Определим выборочное среднее значение векторов измерений (1) 355
и выборочную ковариационную матрицу где лД/[л] I. =-- а;1 ' п-1 (2) (3) Матрица [u;1] называется матрицей рассеяния опюсительно выбо­ рочного вектора средних измерений. Если m = Е (х), то V = [vii].. где л лдп Vн = Vfi = ~ (Х8; -m;)(X8 j-m1) (4) S=1 представляет рассеяние относительно среднего значения (истинно­ го среднего). Тогда (5} где!.- ковариационная матрица распределения. Теорема. Если х1, х2, ... , Xn, L ~ п, представляет выборку иэ нормального распределения N (xlm, !.), то элементы V;J матрицы. V подчиняются распределению Уишарта: l] tf 2 ...., j ~t 1] 1а ·/п/2 v!n-L- l)/2 ехр[- _! f ~а-1v··] 'lл 1) i=Jf=\ gt Vij = --------=------'--~-- (2)/.п/2 (n)L (L-1)/4 Г (п/2) Г (n-1/2) ... Г (п - L+1/2) в области размерности L (L + 1)/2, в которой матрица V - поло­ жительно определенная. Так как распределение Уишарта характе­ ризуется величинами L, п и !. = [aif], удобно обозначать это рас- пределение W (VI!., L, п). Теорема. Элементы матрицы !. и вектора mпредставляют неза­ висимые совокупности случайных величин, ха~ актеризуемые соот- ветственно распределениями Уишарта W (f!Ii L, п - 1) и нормаль­ ным N (mlm, Iiln). Сформулированные теоремы применяются для получения байе­ совских оценок !. и m и для исследования оценок функций плотно­ сти. Результаты таких исследований не являются очень глубокими. В основном это утверждения, что оценка ковариационной матрицы получается из текущей выборочной ковариационной матрицы с ве­ сами из априорной выборочной ковариационной матрицы, и анало­ гичное утверждение для вектора средних. 356
Преобразование, максимизирующее рассеяние. Для минимиза­ ции ередней ошибки в § 6.4 была разработана процедура преобра• зования векторов измерения х1 , х2 , ... , Xn в векторы признаков у1 , у2,.••, Yn, гдеу ЕPJ'1их Е 2J'L,l~L.Показаннаянарис.6.4про• цедура сходна с приемом, в котором векторы х преобразуются в век­ торы у таким образом, чтобы максимизировать «рассеяние» этих но­ вых векторов (при соответствующем ограничении), Эгот последний Рис.6.8. Преобразование векторов ХЕ "IJ' L к вектору yE"IJ'1 , которое.максими­ зирует «рассеяние» (определитель ковариационной матрицы выборок) вы­ борок у прием резюмируется в следующей теореме. Определим преобразо­ ванные векторы как Ув = [Ув1, Ys 2, ... , Ys 11, где L fJвp=~Ср/Xsi•Р=1,2, ..., /, l=l L ~cii=1,р=1,2, ...,l . ~=1 (6) (7) Пусть ±' = [uf1] представляет выборочную ковариационную мат­ рицу векторов Ув, s = 1, 2, ... , п. Определим рассеяние как lf'1. Теорема. Предположим, что х1 , х2 , ... , Xn - совокупность п > L векторов измерений с L -мерным распределением, ковариационная матрица которого положительно определенная и матрица ±' поло­ жительно определенная с вероятностью 1. Векторы с 17 = [ср 1, Ср2, ... , CpLl, максимизирующие рассеяние l!.'I, являются решениями уравнений (8) 357
где Л~ > л.2 > ... > л1 - наибольшие собственные значения мат­ рицы I.' . Эти векторы с1 , ... , с1 ортогональны и max1!.'1= 11л~. (9) ~=! Процедура, определенная выражениями (5) и (7), изображена на рис. 6.8. 6.8. Максимизация расстояния между классами (М =2) В описанных выше методах предусматривается не непосредст­ венная индивидуальная обработка выборок класса, а обработка сме­ шанных выборок 1 '. Пусть п выборок получены из смеси h (х) = м = ~ f (x/ro 1)P 1. Введем следующие определения. l=l Внутриклассовые признаки: при построении преобразованного пространства ?7 1 рассматриваются векторы измерений из единствен­ ной категории ro; . Характерными признаками являются компонен• ты векторов измерений после преобразования их в пространстве ?J' 1• Межклассовые признаки: одновременно индивидуально рассмат­ риваются совокупности векторов измерений из двух или большего чuсла классов при выработке признаков, которые используются для различения классов. Ограничим рассмотрение двумя классами (М = 2) с соответствую- u l1 •( L) щими совокупностями векторов измерении х 1, х2 , ... , х~, где n1> , i = 1, 2. Обозначим !.i = {cr~.} и m; ковариационную матрицу и вектор средних класса i, !. = {сrм} и m ковариационную матрицу и вектор средних смеси векторов измерений (все n1 + n 2 выборок объединены). Введем в рассмотрение следующие матрицы: матрицу внутрен­ него рассеяния 2 ' (1 а) матрицу относительного рассеяния 1 ' Можно разработать приемы, при которых эти процедуры выполняются индивидуально над каждой обучающей выборкой класса, но тогда для соот­ ветствующих классов получаются «несогласованные» преобразованные про­ странства. 2 > ±W представляет сумму ковариационных матриц и, следовательно, среднее. «рассеяние». 358
Теперь преобразуем векторы измерений соответствующих классов из пространства PJ' L в пространство 6/f 1 при помощи соотношения: (2) Обозначим μ1 и μ2 выборочные средние двух преобразованных со­ вокупностей выборок и μ- выборочное среднее смеси преобразо­ ванных выборок. Заметим, что преобразование (2) превращает век• • 1 тор х~ в скаляр уs· Обозначим (За) (Зб) Назначением рассматриваемого приема является определение та­ кого вектора [сн с2 , ... , cLJ = с, который максимизирует сумму s8 :С1,:Сz, .. -,1&п o----' l ..i Рис. 6.9.Преобразование векторов xs'V 'L в величину ysV-1, которая миними­ зирует отношение q==sw+sв при фиксированном значении суммы sw, что эквивалентно миними­ зации отношения swl (sw + sв)- Теорема. Пусть ~I,W и '!.в представляют внутреннее и относитель­ ное рассеяние, определенные формулами (1) при n1> L и I,W - по­ ложительно определенная с вероятностью 1. Если sw и sв определены выражениями (3), то вектор с, максимизирующий отношение q=sw!(sw+sв) (4) при фиксированном значении sw, является решением уравнения (см. [5] ) или (5) (6) Из (5) следует, что с является собственным вектором матрицы [ (I,W)-1 !.ВJ, соответствующим собственному значению л.. Про- 359
цедура, предписываемая выражениями (2) и (6), изображены на рис. 6.9. Пример. Предположим, что матрица I:1 диагональна с элемент:~ми (cr,) 2 , k = t, 2, ... , L. Тогда из формулы (6) найдем собственный вектор, соответст­ вующий наибольшему собственному значению этой диагональной матрицы, компоненты которого (ak)2 - [(al)2 +(&l)2J л12 л22 'k=l,2, •.• ,L. (ak) +(ak) Эта ситуация тривиальна, потому что наибольшее собственное значение явля• ется наибольшим элементом матрицы. 6.9. Минимизация расстояния внутри классов Рассмотрим процедуру преобразования п классифицированных векторов измерений в пространстве 'lJ' L в векторы признаков в.прост· ранс'Fве 'lJ' 1 таким образом, что соответствующим образом опреде­ ленное расстояние внутри классов минимизируется в пространстве 'l}'1 , l ~ L. Полезность такой процедуры для понижения размерно• сти, вообще говоря, сомнительна, если она не совмещается с дру• гимн процедурами. Однако результаты приводят к глубокому по­ ниманию проблемы понижения размерности. Пусть вектор у Е 'lJ' 1 представляет результат преобразования вектора z при помощи преобразования у= DAz, (1) где z = xll!x!! и А представляет матрицу (размером l х- L) преоб­ разования, отображающего вектор х Е 'lJ' L в вектор в пространст­ ве 'll' 1; D представляет диагональную матрицу размером l Х l, ко­ торая «сжимает» получаемый вектор. Определим среднее расстояние выборок х от точки μ = Е (z) выражением (2) где ~ - ковариационная матрица выборок z. В преобразованном пространстве расстояние как функция А, D равно d' (А, D) = tг [DDA1:A 1], (3) где использованы переходы Е [ (DAz) (DAz)t] = Е [DAzzt (DA) 1] = DA1:At Dt = DDA!.A 1• Последнее равенство вытекает из диагональности матрицы D. Потребуем, чтобы «сжимающая» часть преобразования D была подчинена условию постоянства объема1 ', т. е. IDJ = 1. 1 ' Это ограничение исключает тривиальное решение 0- 1 = О. 360
Предполагая, что вид отображения А известен, вид «сжимающ~ го» преобразования D при условии сохранения постоянного объема определяется следующим образом. Теорема. Расстояние d' (А, D) минимально при известной ма,-. рице А и I D 1 = 1, если матрица, обратная диагональной матрице «сжатия» D, равна (4) Рнс. 6.10. Преобразование нормированных векторов ze't"L в векторы ys'?./'11 такое,, что расстояние d(A, D) для выборок в пространстве 't "1 минимизи- ровано где ak, k = 1, 2, ... , l, представляют l наименьших собсrвенных зна­ чений ковариационной матрицы ~ - Далее, наименьшее расстояние внутри совокупности в пространстве РУ 1 равно ( 1 )1/l d'(А,D)=l Пak , k== 1 (5) если строки матрицы А а1, а,, ... , а 1 являются собственными век• торами матрицы ~ . соответствующими l наименьшим собственным значениям. Формула (5) следует из того, что l 1/l -1 ~а,1 • J DD~ [ .~, (а,.)] "' •••"I' • тогда как ЗSI
так как столбцы матрицы А представляют собственные векторы: мат­ рицы ~. Теорема. Если векторы z распределены нормально с параметра­ ми (m, :t) и у = Az, то матрица размером l Х L преобразования А, которое минимизирует функцию энтропии Н= - f[!пh(y)]h(y)dy, (6) будет такой, что строки а1 , а2 , ... , а 1 матрицы А являются l собст­ венными векторами, соответствующими l наименьшим собственным значениям матрицы :t. Процедура, определяемая формулами (1), (3)-(5), изображена на рис. 6.10. 6.10. Непараметрический метод Патрика- Фишера селекции признаков 6.10.1 . Введен не В параграфе излагается процедура, разработанная Патриком и Фишером [14]. Предполагается, что М = 2 и что две совокупности векторов измерений отображены: из пространства 6/J' L в пространство 6/J' 1; эти две группы: в пространстве 6/J'L (1) имеют плотности f (xlroi), i = 1, 2, соответственно. Особенно важно, что плотности f (xlro,) могут представлять смеси (например, быть многомодальными), что не предполагалось при рассмотрении про­ цедур, описанных в предыдущих параграфах этой r лавы. Много пара­ метрические функции плотности вероятности нельзя адекватно опи­ сать только их ковариационны:ми матрицами и векторами средних1 >. В работе [8] рассмотрен непараметрический метод, в котором отыскиваются направления в пространстве 6/J' r., существенно макси­ миэирующие глобальное расстояние между классами, сохраняя при этом постоянным глобальные расстояния внутри классов. В данном параграфе излагается непараметрическая процедура вы­ бора признаков, основанная на локальной межклассовой структу­ ре. В пространстве измерений /!С = 6/J'L отыскивается наилучшее подпространство .At = 6/J'. 1 , такое, что расстояния между членами групп S1 и S 2 в подпространстве ..А!, максимальны. Этот критерий рас­ стояния применен вместо байесовского потому, что последний сло­ жен в вычислительном отношении. Используются соответствующие оценки функций плотности вероятности f (xlro,), i = 1, 2, совмест­ но с критерием расстоянwя между оценками функций. Это расстоя- 1 1 Нетрудно показать совершенно различные функции плотности вероят­ ности с одной и той же ковариационной матрицей [9]. 362
ние в подпространстве .А(, представляет относительно простую функ­ цию преобразования А. Можно выбрать такое преобразование, что­ бы полученные расстояния были максимальны. 6.10.2. Мера расстояния Отображения. Предположим, что Jt = V, 1 представляет век­ торное подпространство в пространстве /!С= V, L· Тогда .А(, единст­ венным образом определяется так: если х Е /!С, то х = х' + х", х' • х" = О, х' Е .Jt, х" Е Jtl-, следовательно, х' представляет отоб­ ражение вектора х 13 подпространство .А(,. Рис. 6.11 . Сравнение эв­ клидовой меры расстоя­ ний с d(A) постонннин /,=1 l=1 Пусть {е11 е2 , ... , eL} представляет ортонормальные единичные векторы пространства /!С = V, L, а {v1, v 2, ... , v 1} - частную орто­ нормальную систему пространства .At, где v, Е V, L• По отношению к этим двум совокупностям базисных векторов существует единст­ венное линейное ~реобразование А из пространства /!С в пространст­ во .;t,t,, такое, что у = Ах (т. е. у = х' в прежних обозначениях), [ all а12 a1Ll rv~] : лvt А= а,11 а22 . = 1 а~1 • , a:1L J~• (2) Мера расстояния. Пусть вектор данных х~ Е V, L преобразо­ ван в вектор Ах~ Е V,1 • Определим:меру ра сс т оя ни я как где 1.k PJPk(1)l( 1 \А(i C'rs = --- ---= -- ехр - -- Xr- nj nk y2n G 4ol - х~) 1 1 ),Ах!Е .At, • (Зб) 363
"k Члены: с~; можно интерпретировать, как неэвклидово расстояние междухt их:. Например, ct;k возрастает при уменьшении lxt-x:J. Если j = k, то это расстояние внутри класса; если же j =1= k, то это расстояние между классами. Задача состоит в отыскании А, мак­ симизирующего d (А). На рис. 6.11 сравниваются эвк.мидова мера расстояния и d (А) в функции эвклидовоrо расстояния для случая, когда L = 1, l = 1, S1 = xt, S2 = хТ. Пары: выборок, находящихся далеко друг от дру­ га в пространстве ..А!,, оказывают малое влияние. 6.10.3. Макснмнзацня d(д) градиентным методом Матрица А принадлежит (l Х L)-мерному пространству gJ ли­ нейного преобразования, но она принадлежит также специальной совокупности !!Р отображений. Обозначим базисные векторы прост­ ранстваtJ через uii• 1~i~l; 1~j~L. МатрицаАсостоит из коэффициентов, связанных с приведенными выше базисными век­ торами пространства !f. Тогда А Е No, если векторы строк ер, мат­ рицы А представляют ортонормальную линейную оболочку .At. Мера расстояний d (А) (За) и (Зб) определена, если А - проек- ционное отображение, так как Axi Е ..А!,. Предположим, что Ат пред­ ставляет проекционное отображение, полученное после т-rо шага в методе наискорейшего подъема. Градиент Vd (А) найден при А = = Am. Vd (Ат) и также представляет элемент пространства ff, по­ казывающий приращение Am, необходимое для достижения наи­ большего увеличения расстояния d (А). Рассмотрим градиент Vd (А), где [ 2 2п,п. (l)/ d(A)=III~μjk -==- х i=lk=lr=ls=l f2:rto- X PjPk ехр(--·l_ lА (xl-x:) 12 )] 112, n1 nk 4о-1 (4) -{ 1,j=k, μjk - -1, j::j;:. k . Тогда З64
(6) НО lk [11.fk 11./k 11.ik ] 6,5 = u,s1, u,s2, ... , UrsL • (7) Следовательно, r(L )1 /k2 Jkt ik jk 1A6,s 1 = (A6rs] (A6,s] = ~ ~ а,11 б,s11 , ,-, 11= 1 (8) так как дd (А) дd (А) Vd (А)= --uu + ... + а:;г- ип. дАн lL Отсюда следует, что V[1А6~~12 = ±[2 ( ±а,т~ бt:11) М:11] u,11 • (9) ;=1 11=1 Подставив (9) в (6) и затем результат в формулу (5), получим 1 22п,па[(1)/PJpk Vd(A)= &Jld(A) i~IJ!r~ls~l μгt }12ло .njnk. Х хехр(- 4 :1 1АЬ!~1 2 f [2 ( f а,11 б!~11)М:11]u,11 • (10) ,=1 11= 1 Обозначим (11} тогда 1L[22n, n, /k] V (d (А)) =с (А\;1 ,.;, i;l k;I ,;1 s~l μ,k (лгs),11 u,11, (12) где с (А) - постоянная, зависящая от А, но не от элементов матри­ цы. Теорема. Нормированный градиент V (d (А)) в направлении и,11 равен Ct, ktl r~I s~I (М:),11]. Он представляет относительную величину приращения элемента а,11 матрицы А в методе наискорейшего подъема. Величина (л~~k,} представляет вклад в приращение от пары: выборок xt и х~. Заме­ тим, что (1{:), 11 в соответствии с формулой (11) - проекция ~-го. вектора столбца а, матрицы А на ы,: = х! - х:. Удобно представить выражение (12) в виде (13) 365
и определить матрицу приращений Л Л22n, n2 .k Л={Лsч}=~~~~Ms• (14) /=1k=lГ=! s=l Пример. Предположим, что L = 3, l = 2, xt = {[1, О, О]}, xf = = {[О,1,0]},n1=n2=1и lz Рис. 6.12 . Геометрическая иллюстрация гра­ диента А Отсюда v1 = (1, О, О), v 2 = (О, О, 1) и Мт-плоскость ли обозиачить б!: = х! - ~. е1, е3 (рис. 6. 12). Ее- вн=[g]. вн=[g]. [ 1-1о] ЛН=ЛН=О, Лlf= о о о , то получим [ 1-1о] v(d(A))=c(A) о о о в точке А = Am. Рис. 6.13 иллюстрирует эту непараметрическую процедуру селекции признаков, Теперь найдем ограничение на 'yd (А), чтобы А оставалось про­ екционным отображением. Показано, что 'yd (А) должно иметь век­ тор-строки, ортогональные любому вектору строки А на каждом шаге процесса итерации. Пусть Аmн представляет отображение после приращения, так что (15) 366
Чтобы Аmн было проекционным отображением, необходимо и до• статочно: lfm8plll{U/f :ef,zf, ·", :с#2 BЬl'IUCЛUmь V(dA)A=Am: при (7i,f.:)t'l, f,;r,;n1, 1 ~s "nz, 1~j, k,;z, f:=1,Z, ... ,l f=1,2, ... ,l, Ат+1 А, после з11Ввршвнин итер11ции Рис. 6.13. Непараметрическое выделение признака Первое из приведенных ограничений требует, чтобы L L L ~ (a, 1 +egii)2 = ~(at1)2+2в~a11gtj+ /=1 J=I /=1 L +в2~gtj=1,1~i:,;;;l. /=1 Если предположить, что Ат - проекционное отображение, то пер­ вый член должен равняться 1. При произвольно малом в последним членом можно пренебречь, что дает L ~ atJgk1 =0, 1 ~i~l. /=1 Таким образом, если дано Ат, то находится направление Vd(A), которое максимизирует крутизну d (А) 367
Если обозначить w: вектор i-й строки Vd (А), то (w,,v,) =О,1~i~l. Второе ограничение состоит в том, чтобы L ~ (а,1+egiJ)(akJ +eghj~= О, 1~i ::/= k ~l. /=1 Таким образом, L L L ~ aiJ gt1.+ е ~ (aifgh1+ak1 gfJ) + е2 ~ gilgh1=0. i=l /- .1 /=1 (lба) Так как Ат представляет проекционное отображение, то первый член равен О. При достаточно малом е последним членом можно пре­ небречь. Следовательно, или L ~ (ai1gk1= akjgi1) =0 /=1 (v,, wk)+(vk, wi)=О,1~i;:/=k~l. Таким образом, либо (v,, wk) = О, либо (v,, wk) + (vk, Wt) = О, 1 ~ i ;:/= k ~ l. Легко видеть, что при последнем условии допустим поворот в плоскости v, и v k, а при первом он не допустим. Но пово­ рот основных векторов приводит к тому же подпространству ..А!,. Так как мы хотим определить подпространство ..А!, независимо от част­ ного выбора основных векторов в подпространстве .At, то будем рас­ сматривать более сильное ограничение (v,, wk)=О,1~i;:/=k~l. (lбб) Если объединить (lба) и (lбб), то получим (17) Совокупность всех векторов в пространстве lf с векторами-строка­ ми v,, удовлетворяющими условию (17), образует линейное вектор­ ное подпространство $'' в пространстве lf, которое касается ги­ перповерхности !!Р при Am. Следовательно, Vd (A)g- представляет направление, в котором надо. наращивать А, чтобы А оставалось бы проекционным отображением; это приращение является состав­ ляющей вектора Vd (А) в пространстве $'' 1 Wt=Wt- ~ (Wt,VJ)VJ, 1~j~l, (18) /=1 где (w,)t представляет i-ю строку y'd (А). Тогда Аmн получается итерацией (19) 368
6.10.4 . Крнтернн интеграла квадрата рас<-:тояння Определенный выше критерий расстояния естественно применять, когда функции плотности классов аппроксимируются потенциаль­ ными функциями. Другими словами, предположим, что функция f (xlroд в соответствии с методом потенциальных функций, введен­ ным в п. 4.3.1, равна п, f(хIroJ)~-- 1 ~ К (Ах, Ах~), (20) [h(n;)IL llt s=I где К (•) представляет весовую функцию, а h (п,) стремится к нулю при п, ~ оо. Если функции К (·)и h (ni) обладают некоторыми.прак- ~ п.в. тически легко осуществимыми свойствами, то f (xlro,) - + f (xlro;). Образы двух групп S1 и S 2 в пространстве .А(, можно разделить, оп­ ределив расстояние между двумя оценками введенных распределе­ ний в пространстве .Af,; одной из мер расстояния является d(w, z)~[S[w(х)- z(x)]2dx}1/2 (21) для двух функций w ( •) и z ( •). Желательно, чтобы ~та мера рас­ стояния обладала следующими свойствами: 1) являлась метрикой пространства функций, интегрируемых с квадратом, и определяла скалярное произведение; 2)еслиw=z,тоd(w,z)=О; 3) если интеграл f w (x)z (x)dx уменьшается, то расстояние d (w, z) возрастает; интеграл представляет меру разделяемости; 4) нежелательно, чтобы значение d (w, z) возрастало из-за уве­ личения либо llw (x)ll 2, либо llz (x)l/ 2 • Предположим, что К (Axl.Af,) представляет изображение функ- ции К (х) в пространстве .А(, и аналогично ( (Axlro,, .Af,) представля­ ет оценку плотности f (xlro;) в пространстве .А(,, причем обе функции отличны от нудя только для Ах Е .Af,, Тогда n• ~ !l 1 f(АхIФ;, .Af,) = - I-- 1 К (Ах, Ах~ 1.,4(,), Ах Е .лt. (22) n; s=I h(n1) Обозначим d (S1, S 21.Af,) расстояние между двумя группами S 1 и S 2: d (S1, S2 !,4t)=d (А)~ d (Р1 f(Ах I ro1,.Af,), Р2 f (Ах I ro2 , .Af,)), (23) оно является функцией А и весовой функции К (·) для Ах Е .Af,, Из (22) и (23) имеем d(А)=[ s[:1 ~ 1 1 К (Ах, Ах}\ .At)- дxE.At 1 r=1h(п1) 369
-~I- 1 - К (Ах, Ах;/ ..Jtt)] 2 dx] 112 п2 s=I h(n2 ) (24) Представив интеграл в виде ряда, получим d(А)-[s~~~"~ Pjpk [ 1 ]1 - AxEJU. /~1 k~I ,-="1 s~I jk -;:;;:; h (Щ) h (nk) Х х К (Ах, Ах![ .Jt)-K (Ах, Ах\ I--") dxГ', (25) где 1: -{ 1,j=k, ~-k- J -1,j =1=k. (26) Выражение (25) можно представить в следующем виде (применяв­ шемся в предыдущих параграфах): (27) где tfr~ ~ PJ pk[ 1 ] 1 s К (Ах, Axf [ ..Jtt) •K(Ax, Ах: 1 ..Jtt) dx. (28) nrns h(nт)h(ns) AxE..Af •k Коэффициент dr; можно интерпретировать как неэвклидову • k меру близости х~ и Xs. Например, если К (· I . .Jlt) представляет гаус- совскую функцию, то c!;k возрастает при уменьшении lx! - х~/­ Если j = k, то расстояние есть расстояние внутри класса; если j =1= k, то расстояние есть расстояние между классами. Наилучшим пространством Jlt при заданной функции К по определению будет пространство, максимизирующее d (А); соответствующим пре­ образованием отображения А является линейное преобразование из пространства tC = '1У L в пространство Jlt = "(f1, которое максими­ зирует d (А). Если то с~;k = PJ Pk (___!__)'ехр(-- 1 - 11 Ах!-Ах~ 112), (30) nr ns -V2л а 4cr2 и мы обнаружим, что с!/ возрастает при уменьшении //xl - x:J. 370
6.10.5. Критерий среднеквадратической ошибки Критерий (21) может увеличить значениеd(w, z) в областях прост­ ранства наблюдений, где никогда не встречаются выборки. В рабо­ те [ 15] предложен критерий среднеквадратической ошибки п, + Р2 ~ [P2 f (Ах: /w 1 , Jtt)-P2f(Ax: /w2, .At)]2 • (31) n2 S=1 Соотношение (27) остается в силе при п, с~; k= ~ ~ i( (Axk, Ах!) ,К (Axt, Ах:)+ n1 k=I п. +~ I K(Axi, Axt)-K(Axi, Ах:). (32) 11s k=1 6.10.6. Обобщение метода непараметрической селекции признаков на случай многих классов Определим критерий q2 (А) как сумму всех попарных средне­ квадратических ошибок: мм пи q2 (A) = I ~ :и ~ [Puf(Ax~Jcou, .лt)- и=l v=I и ru=I - Pvf(Ax~u I Ф0, .лt)] 2 • (33) Затем найдем такое А, чтобы q2 (А) было максимальным. Читателю предоставлено самостоятельно исследовать способьr реализации и модификации этого критерия при нескольких классах. 6.11 . Байесовский подход к задаче снижения размерности Оценка функции плотности вероятности h (х/Ь) при большой раз­ мерности L является весьма важной задачей. Хорошо известно, что большая размерность L может создавать препятствия. Важно умень­ шить трудности, связанные с большим значением L, вводя априор­ ньrе данные о связях между компонентами векторов х. В данном параграфе показано, как байесовский подход исполь­ зуется для решения задачи, когда несколько компонент вектора х зависят от других компонент того же вектора, при этом использу­ ются условньrе функции плотности. Предлагается процедура, при 371
которой находится оценка в одном подпространстве и затем услов­ ная оценка в другом подпространстве [19). Предположим, что L-мерный вектор измерений х, образа s раз­ делен на k подмножеств, т. е. (1) где каждый вектор Х81 , ... , Xsk имеет Llk компонент. Каждый из век­ торов Xs 6 принадлежит пространству V'цк размерностью L /К. Предположим,. что О представляет пространство решений, от­ носящееся к категориям, из которых получены векторы образа Xs, s = 1, 2, ... , п. Обозначим OG пространство решений, если XsG яв­ ляется веКТQром измерений, G= 1, 2, ... , k. Обозначим <il;G следующее событие: вектор, содержащийся в ~-й подгруппе, относится к категории i. Тогда 01;= {<il1s}f'1=I• (2) rде предполагается, что в пространстве решений имеется М точек 1>. В общем случае, конечно, существует зависимость между локаль­ ными областями, и учет этой зависимости повышает сложность сие• темы. Желательны упрощающие допущения в отношении этой за­ висимости. Например, если допустить, что имеется скалярный «вы­ ход» из решения для одного подмножества, то этот выход можно использовать в качестве «входа» для рассмотрения другого подмно­ жества. Обозначим h (xslb) L-мерную функцию плотности вектора х, при заданном векторном параметре Ь. Тогда по определению условной плотности вероятности следует .'1.(Х8 1 Ь) =h (Х811 Ь) h (Xs2 IХ81, Ь) ... h (Xsk I Х81, ... , Xs (k-1), Ь). (3) События (х1;, Фц;}, i = 1, 2, ... , М, взаимно исключают друг дру­ га и составляют по,тшую группу для любого значения G= 1, 2, ... , k. Следовательно, каждую из функций плотности в правой части фор­ мулы (3) можно представить как смесь функций плотности и пере­ писать выражение (3) в виде м h(xslh)= ~ h(Xs1:b,<il11}P(o}a)X i=I м Х ~ h(X82IХ,1,Ь, ffi;2) Р (Ю;2), .• i=\ м ~ h(X8 1,IX 8 1, ... , Xs(k-1), Ьп" COu,)P(@;k). (4) ·j=1 1 > Возможно, что какое-либо пространство Q 6 может иметь меньше М точек; например, предположим, что две категории содержат векторы xs~• являющи~ся нулевыми векторами для этого ~-го подмножества. 372
Один из способов упрощения выражения (4) (приближенио) состоит в том, что функция плотности для одного подмножества обус­ ловливается измерениями для другого подмножества, причем ре­ шеиие выбирается на основе векторов измерений из последнего подмножества, т. е. надо переписать выражение (4) в виде м м h(Х81Ь)= ~ h(xs1jb;1,ю11)Р(Фа) ~h(x.2Id(x,J,Ь;2,Ф;JР(ш;2)••• 1=1 i=1 м ... ~ h (X81i Id (xsl• ... , Xs, (k-'; ), b;1i, @;i) Р (@;1i), (5) i=1 Заметим, что имеется М функций плотности h (Xs1lh;1, @11), М 2 функций плотности h (Xs2ld (Xs1), Ь12, Ф12), .. . , М2 функций плот­ иости h (Xs1ild (х.1, ... , Х8 (k-l)), b;1i, Ф;1~), Таким образом, имеется М + (k - 1)М 2 функций плотности, подлежащих вычислению. Ни­ же приведены примеры для различных значений k и М: L 50 50 50 k 10 10 10 м 5 10 2 Число функций плотности 255 910 38 Один из способов вычисления выражения (5) в предположении, что для каждой категории имеется n; выборок, получеиных с обу­ чением, состоит в следующем: 1) найдем оценку функции h (Хs1!Ьн, Ф11), i = 1, 2, ... , М, на основании соответствующих выборок, полученных с обучением. Если предполагается, что семейство 1' нормальное, то оценки па­ раметров можно обозначить {m; 1, 1:11}:1= 1; 2) найдем оценки М 2 функций плотности h (Xs2ld (Xs2), ь,2, Ф12), Ф;2= 1,2, ..., М;d(Х82)= 1,2, ..., М. Для второго этапа необхо­ дима повторная обработка всех п выборок. 6.12. Прагматический способ поиижеиия размерности Рассмотренные в предыдущих параграфах процедуры пониже­ ния размерности в основном по своему характеру были статисти­ ческими. Главным содержанием этих процедур являлось отыскание преобразования из пространства Р/' L в пространство 61!'1 с использо­ ванием векторов измерений Xn;, i = 1, 2, ... , М, для оценки пара­ метров этого преобразования. Идея состояла в том, что если такое преобразование найдено, то вектор измерений х Е 6/!' L может быть преобразован в вектор у Е ?.? 1 и тогда классификация производит­ ся менее сложно благодаря понижению размерности. Можно подвергнуть сомнению относительное достоинство рас­ смотренного понимания понижения размерности, зная, что важней- 373
шей целью снижения размерности может быть повышение качества. Кроме того, уменьшение сложности в пространстве ?}1 1 может и не получиться из-за сложности, встречаемой при выполнении преоб­ разования векторов х в векторы у. Представляется, что понижение размерности при переходе от пространства ?УL к пространству V''; в случае М классов можно по­ лучить следующими способами: .rf :1)1 ,r Со8местное лонижr:Рuс рымсрности и олрсilслснпс меры pzct:mмнuii ,...----------------------------, 1 1 1 АпрilО,ОНЫ§ 1 \ Априорньш t!tшныс 1 1 iJUHHЫC - ----~ 1 •.-- -~ 1 1 .i ;,;;--- "lr,, Согл11со/1шшыii "fi,---+"lr,z ,рильтр t'oгл11co/ldнflыii rpu,r.ьmp "IZ---+ "lr,11 Сог.JТ11со§инныii 1 .._ ____. rрильтр 1 1 '-----~ 1 1 1 , 05лость :Ь1 1 L-------------------------~ . . . ~-------------------------, 1 1 1 1 1 1 1 1 05листь ;J;k 1 L--------------------------~ Из t!ругих otfлucmcii Рис. 6.14 . Совместное понижение размерности и 0;1рсделение меры расстояний в К областях пространства измерений 1. В общем, понижение размерности следует рассматривать как локальное, т. е. оно выполняется в областях пространства наблю­ дений (пространства измерений), а не глобально. Для таких соот­ ветствующих областей можно применять различные меры расстоя­ ния. Для этого область определяют как совокупность точек х в про­ странстве ?УL, в которой точки х подвергаются одной и той же про­ цедуре при понижении размерности (см. ниже п. 6). 2. Измерения х следует спроецировать из пространства ?У L в иространство ?У 1 так, чтобы добиться наибольших «разделений по расстоянию» между М к.1ассами. Если при преобразовании исполь­ зуются априорные данные, устанавливающие связь между компо- 374
ментами векторов х, то становится возможным увеличение «разде­ лений по расстоянию». 3. В некоторых задачах понижение размерности в какой-либо области можно реализовать при помощи единственного линейного преобразования (в общем случае это не удается). z: r-------------------, 1 1 1 Nepu puccmoлнuii 1 ilля класса ш1 1-1---1J. Мера рисстолниif ilля класса щм 1 1 1 ~1 При§ило Jыбори решении 1 kNN3 ilля оолисrпи :Ь1 1 L------------------~ • . г------------------, 1 1 1 1 1 1 1 1 1 1 1 : 1 1 ...____ 1 1 1 1 1 1 1 1 1 1 1 1 При§uло Jыбори решениil , : kNN3 tlля оолисти .1Jк 1 ~------------------~ Из tlpj/illl~ облисте11 Рис. 6.15. Система, аналогичная изображенной на рис. 6.14, но с использова-, иием в локальных областях правил выбора решения по ближайшим соседям kNNa 4. Так как соотношения между измерениями: 11 (наблюдениями} могут изменяться от одного класса к другому, желательно вводить индивидуальные соотношения для каждого класса. Это является одной из причин, почему нахождение «нелинейного соrласованноге фильтра:. для каждого класса может оказаться приемлемым при ре­ шении задачи распознавания образа. 1 > Комповеитами вектора измерений х. 37i
5. Местная внутренняя размерность векторов х класса i прибли­ женно равна рангу ковариационной матрицы ~; класса i в даиной местной области. Эта локальная размерность является наименьшей из тех, какие можно применить к классу i без потери информации. 6. Наличие нелинейных соотношений между компонентами век­ торов х может привести к возможнQсти исключения некоторых ло­ кальных областей, так как такие соотношения приводят к соотно­ шениям между областями (см. п. 1). :r:f :!) 1 Клисс 1 • КлиссМ . . . . . . . ФflJfl 1 ФизиН Соглисо§инныif l{lUЛblПJJ Соглисо§инныil l{JUЛhПl,O . . . .--------, Соглисо§инныii tpUЛhПIJJ Ct!o/Jcml!o, !ТllЛ!J­ ченное § rpuзr: 1 Nr:ди дисстояниii !Jля с§оiiст§,полg­ ченных § rpuзr: R 1 Рис. 6.16. Система, изображенная на рнс. 6.14, но обобщенная с целью попу• чения возможности обрабатывать подмножества z 1, •.. , zн вектора х с поСJiе­ дующим их объединением 7. Когда размерность L велика, иногда желательно обрабаты­ вать подмножества. Так как между свойствами этих подмножеств :может быть корреляция, ее необходимо учитывать. 8. Может случиться, что на конечном этапе будут применены правила выбора решений на основе мер расстояний d; (х), i = 1, 2, ... . .. , М, и компаратор. На рис. 6.14 показана система, в которой используются локаль­ ные области (см. п. 1), соотношения между х1 , х2 , ... , XL в каждом классе (см. п. 4,6) и оконечный этап (см. п. 8). Отображение V'L-. - + G/!' 1, указанное в п. 4 и 6, выполняется на основе априорных дан­ ных и вычисляется на основе обучающих выборок. В результате и введены локальные меры расстояний для каждого класса в каждой 376
точке х области. Можно считать, что решения выбираются в соот­ ветствии с правилом ближайшего соседа kNN 3 (см. гл. 4), где пере­ численные выше процедуры (1-8) использовались для построения локальных мер расстояний для каждого класса. На рис. 6.15 изображена система, очень похожая на систему, изображенную на рис. 6.14. В ней показано применение kNN 3-пра­ вил вместо описанной выше обработки локальных областей. z, Zz • • . • •. . ·мf//JU puccmoяяuii iJля клиссищ1 flftJpu puccmoяяuii i!ля клисси Шz . • • /lftJpu puccmoянuii i!ля клисси Шм Шz . • • Шz . • • ~ ~ 1-~-~ ~ :::, -.......-~ ДруиtJ iJtf.лucmu Рпс. 6.17 . Видоизменение системы, изображенной на рис. 6.16 В системе на рис. 6.16 концепция многофазности проявляется в обработке подмножеств z1, z2, ... , ZR векторов х, выделении из этих подмножеств свойств и последующем введении корреляции для по­ лучения общей меры расстояний. Возможна другая система, которую легко интерпретировать на основе байесовского подхода и которая состоит в выборе решений для каждого подмножества z1, z2, ... , ZR, Затем при помощи комби­ нирующего устройства, используя, например, мажоритарное пра­ вило, вырабатывается окончательное решение (рис. 6. 17). 377
6.13. Нелинейные соотношения для снижения размерности 6.13.1. Сравнение априорных данных с оценкой В предыдущем параграфе были намечены направления для пони­ жения размерности, при которых предусматривалась возможность введения априорных данных (для -каждого класса) в областях про­ странства измерений. Эти сведения устанавливают соотношения между измерениями в пространстве измерений и приводят к повы­ шению качества при данном числе обучающих векторов. Например, если функция плотности f (x)i) представляет собой смесь многомер­ ных нормальных функций плотности и известны все средние зна­ чения m;1 и коваJ"Иационные матрицы 1:; 1, to можно применить байесовские правила; в другом случае можно оценить эти парамет­ ры. Имеется альтернатива: эти параметры может ввести во время работы специалист, использующий свой опыт для того, чтобы по­ строить модель с помощью ЭВМ. 6.13.2. Вводимые априори нелинейные функции Если специалисту нужно ввести априорные сведения, он может сделать это, пользуясь удобными для него понятиями. Например, врач-терапевт может не обладать способностью интерпретировать медицинские знания в виде ковариационной матрицы измерений, ·' tz Xzo :r,o Смсщенuс к зтомfj нuЧQл!J кooptlllнum Рис. 6.18. Пример отображения при Рис. 6.19. Пример нелинейного ото- помощи нелинейного «отношения» бражения «смещенное отношение» относящихся к симптомам, лабораторным исследованиям и т. п. Но он может знать, что одно измерение кровяного давления бывает за­ вышенным, а другое заниженным. Если результаты соответствую­ щих измерений равны х1 и х2 , то отношение у1 = х2/х1 отразит по­ нятие «выше-ниже». Отношение х2/х1 представляет нелинейное отображение измерений х1 и х2 . Врач может мыслить о разделении категорий с ппмощью nopor:1 х/х1 = а; rсли он rюступ,1Рт Ti1⁄4Kf'll\l об-
разом, то проблема обмена информацией между разными науками может затруднить преобразование этих априорных данных к виду, пригодному для введения в ковариационную матрицу, которая до сих пор представляла часть естественного языка теории решений 11 • Пример с двумя категориями, в котором применено такое нелиней­ ное соотношение, называемое отношением, показан на рис. 6. 18 . Рис. 6.20. Пример нелинейного отображения «расстояние от на­ чала координат:. .с, Рис. 6.21 . Кусочно-нелинейная граница решений при использовании нелинейных соотношений «отношение» н «расстоя- ние:. Пользуясь признаком у1 = x,ix1 , можно правильно классифициро­ вать эти две категории следующим образом (предполагая, что а из­ вестно): У1 = x?.fx1 > а: категория I; У1 = x?.fx1 < а: категория 2. Конечно, необходимо иметь значение а, например, выданное спе­ циалистом. Альтернативой является использование выборок для 1 > Другим примером, иллюстрирующим сказанное, является дифферен­ циация при диагнозе острого эпидемического гепатита и механической желту­ хи. Диагноз основывается на двух измерениях, состоящих в определении ко­ личества билирубина в крови и времени появления желтизны. При остром эпидемическом гепатите в крови имеется большое количеств0- билирубина и желтизна появляется через несколько дней после возникновения острых симптомов (умеренное повышение температуры и боли в нижней части жи­ вота). При механической желтухе в крови имеется умеренное количество билирубина и желтизна появляется рано. Этот род априорных сведений че­ ловек получает на основе клинической практики, вскрытий и, конечно, меди­ цинской литературы. ЭВМ не содержит таких знаний; поэтому человек должен вводить эти сведения в ЭВМ. 379
Рнс. 6.22 . Нелинейное отображение «гипербола» того, чтобы найти оценку зна­ чения а, используя какое-либо априорное значение а. Несколько видоизмененным нелинейным отображением явля­ ется смещенное отношение (рис. 6.19). Еще одним нелинейным отоб­ ражением для выделения приз­ нака является расстояние от на- чала координат V хт + х~ = У2 (рис. 6.20). Правильная классификация получается следующим образом: У1 = V х1 -+-х~ >а: категория 1; У2 = Vх1 +Х§ <а: категория 2. Комбинацией нелинейных соотношений «отношение» и «рассто­ яние» можно воспользоваться для определения по отрезкам грани­ цы между .решениями (рис. 6.21). В примере, изображенном на этом рисунке, имеется шесть кате­ горий. Если даны пять параметров а1, а2, а3, Ь1, Ь2 и два признака у1 , у 2 , то эти шесть категорий разделяются следующим образом: 380 решать, что каNгория 1: Ь1 < у2 < оо, ,Тlzt » » 2: а2<У1<оо, » » 3: а1<У1<а2, » » 4: О<у1< а1, » » 5: аз<У1<а1, >> » 6: О<у1< аз, 1 -------+--- ! 1 1 1 1 1 1 1 т11 Шzz :r, rJ} О<У2< Ь1, 0<У2< Ь1, О<У2< Ь2, Ь2<У2<00, Ь2<У2<оо. б) Xz Рнс. q.23. Подпространство, перекрываемое n х,, х2 (а) и в Х2, Хз (6)
Нелинейным соотношением, которое называется «гиперболой», является у1 = х1х2 (рис. 6.22). Геометрическое место точек х, таких, что (х --- 111) 1 ~< Х~- 1 (х - m) ~ равно постоянной, описывает гиперэJIJIИпсоид. Таким образом, гиперэллипсоид определяет соотношение между компонентами вектора х и приводит к методу выделения признака. Рассмотрим У1=(х- m)I~- 1(х- m)илиу1=ехр[-(х-m)t~- 1 (x-m)]. Тогда совокупности точек определяются условием у1 равно по­ стоянной, или у1 больше постоянной, или а< у1 < Ь и т. д. На рис. 6.23~ показан трехмерный случай (L = 3) при помощи двух подпространств. Примеры нелинейных функций, встречающихся в биомедицине, читатель найдет в [16, 17]. 6.14. Использование априорных данных для отображения пространства с эвклидовой метрикой Одной из основных задач при прагматическом подходе к распозна­ ванию образов является решение вопроса, как использовать апри­ орные сведения при выборе решений. Для нас основой служит бай­ есовский подход, при котором необходимо только, чтобы были из­ вестны условные по классу плотности f (xli) и вероятности классов Pi, i = 1, 2, ..., М. Задача состоит в том, как использовать апри­ орные сведения совместно с обучающими выборками из соответствую­ щих классов для получения оценки соответствующей плотности f (xli) с минимальной неопределенностью. В § 6.13 были рассмотрены некоторые возможные соотношения между компонентами вектора измерений х. Желательно применить эти соотношения к частным областям пространства измерений. По­ лучаемую кусочную нелинейную меру расстояний можно рассмат­ ривать как приближенное представление некоторой более общей не­ линейной меры расстояний. Предпосылкой для применения нелинейных соотношений явля- б u ; ; ; • ется ото ражение векторов измерении Х1, х 2 , ... , Xni для класса i в пространство, в котором выборки образуют сферическую услов­ ную по классу равномерную плотность. Параметры, характеризую­ щие нелинейные соотношения, вычисляются при помощи обучаю­ щих выборок. Можно изменять нелинейные соотношения, приме· няемые в соответствующих областях, чтобы ввести нелинейную ме­ ру расстояний. Заметим, что необходимо оценить условные по классу плотности вероятности. Предположим, например, что вы­ борки находятся в изображенном ниже кольце и известно, что плот­ ность вероятности внутри кольца равномерна (см. рис.). Все выбор­ ки в области х : t1 3⁄4 \х - х0 1 3⁄4 t2 можно отобразить на интервал З81
[t1 , t2 ]. Плотность вероятности в любой точке клина вычисляют оцен­ кой плотности на действительной линии, которая будет обладать меньшей дисперсией. Операции. Компоненты х1 , х2 , ... , XL вектора измерений х ис­ пользуются в операциях получения признаков у1 , у2 , ••• , у 1 • Опе­ рация может определять область в пространстве измерений или пред­ ставлять нелинейное соотношение между х1 , х2, ... , X L для выработки признака. О б л а с т ь. Операция служит для выбора области в простран­ стве измерений 61!" L, в которой следует извлекать свойства из любо­ го вектора измерений в данной области. При нахождении областей без обучения может ·оказаться полезной кластеризация. Примером операции с обучением является случай, когда области выбирает опе­ ратор. Введение корреляции. Строитсянелинейнаяили линейная функция измерений, которая отражает априорные сведе­ ния. Возможными соотношениями являются: отношение, сумма, суммирование с весами, бланкирование (знание, что измерение не имеет значения для данного частного класса), эллипсоид, кольцо, произведение, ф (t )-{о,t<to, ункция скачка : Ио - fu 1, t>,t0 , t функция: и1(t- t0) = .1 и0(t- t0)dt, о параболическая функция: t ~ (t-t0 ) = Jи1 (t-t0) dt, о перехват: точка на одной из измерительных осей, где линейное при­ ближение к кластеру пересекает эту ось. Признаки последовательностей: 1) отсутствие в последовательности согласованности; 2) х1 Е А, и Х2 Е f/d, х9 Е <fi, х4 Е :JJ, например, нахождение нескольких объектов на одной дальности или на одном азимуте в данных звуковых эхо-сигналах; н 3)еслиХ1ЕЛ,Х2Еf/a,ХзЕ<fi,Х4Е:JJ,положимУ1 =21xi; i=II например, х11 может быть отражением, связанным с объектом 1, х11 - отражением, связанным с объектом 2 п т. д.; 382
4) оценка отношения сигнал/шум. В гл. 7 приведена таблица нелинейных соотношений, в которой представлены процедуры для использования операций, определяю­ щих области, вместе с нелинейными соотношениями. Может оказаться целесообразным выбрать подгруппы из х1 , х2, ... , xk и затем выполнить операции определения области и введения корреляции над отдельными подмножествами. Ниже определены операции, при помощи которых просто отбирают­ ся измерения внутри подмножества или образуются два под­ множества. Внутри подмножества.Операция отбираетизме­ рения из определенного подмножества измерений. Затем выполня­ ются операции определения области и введения корреляции. Между подмножествами.Операцияслужитдляот­ бора измерений из двух или нескольких определенных подмножеств: Введение ограничения может бытьпростопро- цедурой, показывающей, что точки, находящиеся в некоторой об­ ласти пространства измерений, имеют одинаковую плотность веро­ ятности; примером является описанное выше кольцо. Имеется не­ сколько частных соображений. 1. Относительная частота в области, построенной при помощи введения ограничения, представляет оценку условий по классу плот­ ности вероятности и используется непосредственно при применении байесовского правила выбора решений. 2. Имеет значение признак, полученный при учете корреляции; например, признак можно рассматривать как компоненту вектора наблюдений х. Новые признаки, полученные при"' помощи указан­ ных выше операций, обладали бы статистикой, более близкой к круговой при относительно малой корреляции между этими призна­ ками. Оставшуюся корреляцию межно устранить, если вновь вы­ полнить операции выделения области: введения корреляции и огра­ ничения над последним вектором признака. Тогда можно ожидать, что успешные результаты даст kNN з•Правило. ' Вектор х можно преобразовывать в совокупность признаков у вновь и вновь до тех пор, пока (как можно ожидать) не получатся некоррелированные признаки, так что можно будет пользова1:ься эвклидовой метрикой. На любом этапе, когда вектор признака для некоторого класса можно считать эвклидовым, заканчивается про­ цедура выделения признака и можно переходить к этапу классифи­ кации. Классификация осуществляется измерением условной по классу плотности в окончательном пространстве признаков. Установление эквивалентности совокупностей среди областей. Процедура состоит из нескольких операций: 1) установление эквивалентности ковариационой матрицы одной области и ковариационной матрицей другой области; 2) поС'троение пдной нелинейной функции. охватывающей ку­ rQчнn-пелшrейные функции; 383
3) отыскание нелинейных соотношений для нескольких больших областей (можно потерять меньше информации, чем при ином спо­ собе). 4) повторение этого процесса с выделением свойства из соответ­ ствующих подмножеств размерностей, которые дают корреляцию между этими подмножествами. Xz Класс! Xz Класс J Класс 3 Клисс 't Класс 't х, х, U) б} Xz Xz Класс 't Класс 3 0нормилы1ыи0 'Jlf/ ' / ' / ' / Класс! 0--- • -- -0 Xzo Класс! / ', КлассZ ./ t· '\, Kлuct· Z 0/. '0 Класс 5 Клисс 5 Х10 х, :с, 8) Z} Рпс. 6.24 . Иллюстрация четырех анормаJiьных классов 11 лишь одного нор­ мального (а); иллюстрация до исключения при нечетких классах (б); вари­ ант приведенного выше случая с двумя, классами (в); иллюстрация случая, когда измерение не нзмепяется для класса 1, класса 2 и нормального класса Примеры. На рис. (i,:24 lllJKil33Jll) HC'CKOJIL,KO нримсрои ТИIIИ'ШL!Х задач, которые моr у·г встр~п~тьс:я прн МС'днцинскнх диагнозах с 1юмощью ЭВМ. В задачах со м1югиы11 класс:амн и двумя нзыерС'ннямн (см. рис. 6.24) адекват­ ными признакаhш нвJ1яются те, которые отражают априорные сведения. Ec- JIH обозначить измерения [х1 , х2] =- х, нри 11ем при Е [х I нормальный] ~ ~ [х10 , х20], то признаками будут У1= V(x2'- Х20)2 +(х1-Х10) 2 , -У2=(Х2-Х20)/(х1-Х10)· Предположиh1 теперь, что нор"1альный класс характеризуется условнем !Jt "1. Э<г11 ~пр11ор11ыС' сведсIIия могут Gыть, возможно, введены либо по­ строс1шсы 1нJ1шх 11ршнаков в uиде функций 11ризнаков у 1 н Yi, либо в cJJyчae,
когда придается у1 и у2 признак веса. Если выбрать первый способ, то реша­ ем, что класс нормальный, еслн u1 •• t; решаем, что класс анормальный, если у1 :,;, t; анормальный подкласс зависит от у 2 . Заметнм, 1 1то между у1 и у2 име­ ется корреляции, которая зависит от класса. Эта корреляция состоит в том, что для нормального класса у1 мал, а для анормальных классов у1 большой и тогда значимым признаком является у2 . Если окончательное пространство признаков сохраняет большую размерность, но статистики индивидуальных классов в этом прост­ ранстве имеют сферическую форму, то, используя результаты гл. 4, можно указать относительно простые процедуры классификации. Выравнивание эквива.1Jентных плотностей_ Операции введения ограничения и корреляции помогают определить структуру функ­ ции! плотности вероятности для соответствующих классов и дают информацию о нелинейной корреляции, которую, по-видимому, очень трудно ввести при параметрической структуре функций плот­ ности. Существует, однако, иной аспект этой корреляционной структуры, состоящий в том, что измерения х1 и х2 могут изме­ няться нечетко детерминированным образом при изменении х 3 • Тогда можно построить область эквивалентности, соответствующую геометрическому месту точек х1 , х2 и х 3 , и о всех точках этой облас­ ти эквивалентности можно сказать, что они имеют одну и ту же ус­ ловную по классу функцию плотности, представляющую объеди­ нение функций плотности в соответствующих точках. Отсюда по­ лучаем новую операцию: объединение функций плотности в экви­ валентных областях. В качестве примера рассмотрим функцию f(х) = ----ехр --(х - -mp:-1(х-ш) , р [1 ·1 (2л)l/21~11/2 2 которая описывает геометричес:Кое место точек х, таких что f (х) = = const, и показывает, что всем точкам геометрического места то­ чек соответствует одна и та же функция плотности f (х). Если необ­ ходимо найти оценку функции f (х) по выборкам х1 , х2 , ... , Xn, то более контрастная оценка получается усреднением оценок·плотно­ сти в каждой точке. Например, если геометрическое место дискре­ тизировано и включает выборки х1, х2, ... , xR и (f (xi))n = = kJI (пФ (xl, Xn)), где kj - число выборок, связанных с областью объемом Ф (xi, xn) вокруг точки xi, то оценкой будет Л R (f(х))п=-1 ~ (f(xi))п, х-любые xi,j=1,2, ... ,R. R i=I • Обобщение приведенного выше понятия состоит в том, что в про­ странстве измерений могут существовать очень сложные кластеры. Кластеры для двух различных классов могут быть переплетены, на­ пример, так, как переплетены витки гиперспирали (рис. 6.25). Точки, расположенные на каждой спирали, являются частью об- 385
J1асти эквивалентности, и условную по KJiaccy плотность в любой точке на спирали можно получить, образовав среднее значение оце­ нок плотности в точках спирали. Может возникнуть необходимость определить такие геометри­ ческие места, как гиперспирали, гиперколебания, гиперпилы, ги­ пербоевые топоры, гиперскладки и ~ д. Не зная, что в соответству­ ющих классах возможны точки данных, лежащие на сложных гео­ метрических местах, можно прийти к выводу, что точки данных из различных классов «выглядят» достаточно близкими, и тогда разде­ ление точек из различных классов окажется невозможным. Xz Рис. 6.25 . Два сппральных кластера, похожих на пружины Оправдание применения нелинейных соотношений. Иногда при исследовании желательно оправдать применение какого-то спо­ соба. Применение нелинейных функций для выделения признаков вместо работы в пространстве измерений оправдывается при рас­ смотрении ковариационной матрицы ~ . не об хо ди мо й, чтобы охарак­ теризовать нормальную плотность. В ковариационной матрице раз­ мером L Х L содержится L2 параметров. Если нелинейные соотно­ шения приводят к диагонализации признаков, то приходится оценивать меньшее количество параметров (L дисперсий и L сред­ них). Например, в новом пространстве было бы легче найти оцен­ ку Ь*, используя критерий вида п (I/n) ~ ln h (х8/Ь), если предположить, что пространство парамет- s=1 ров идентифицируемо. Математические методы выделения признаков. Определим про­ странство ;§ с точками х Е fC над полем F операциями L х+уЕ.'У,ахЕо/,х1!х1Е1,хiхjЕ :J, ~ xlЕ1. l=1 Таким образом, Xi - Xi 0 ЕIP, (xi- X1i(х1-Х;0)Е(J), 1 + х1 + х} + xf + ... Е (J) пространство многочленов). Представляет интерес линейное или нелинейное преобразовани.е векторах Е (J) в вектор у Е .At. Когда неопределенность, связанная с оценкой параметров, характеризующих метрику d (у1 , у2 ), бу­ дет меньше неопределенности, связанной с оценкой метрики d (х1 , х2)? При анализе результатов, полученных в§ 6.10, в качестве 886
критерия рассматривалось расстояние внутри класса (или расстоя­ ние между классами, когда векторы относились к разным классам), а не более приемлемый критерий оценок параметров, характеризую­ щих метрику, которая основ'ана на априорных данных. Существен- :rz .Xz Iz 8) .х, il) .х, .Xz Xzo Рис. 6.26. Пример применения нелинейного выделения признака ное значение имели бы выводы, показывающие, что определенные нелинейные соотношения приводят к уменьшению недостоверности оценки: это привело бы к лучшей оценке расстояния между класса­ ми (при возрастании доверия). Целью выделения признаков является получение возможности вычислить р (yli). Вектор у находится в подпространстве, в кото­ ром выборки из образа имеют меньшую дисперсию. Реальную цен­ ~ость нелинейное выделение признаков, по-видимому, представ• 387
ляет для таких задач, в которых последовательное применение не­ линейных соотношений приводит к относительно простому способу получения оценок соответствующих условных по классу функций плотности. Априорные сведения, таким образом, можно было бы ввести относительно просто. .r, Xz х, Xz .r, а) .I:;т XJO fi) Xz х, Рис. 6.27 . Трс:-.чср1шй ll[J!Iil!cp с двумя классами (а, б); структурная схема 1, рпс. 6 .27 (в) В качестве еще одного примера рассмотрим :~адачу с двумя клас­ сами (рис. 6.26, а); возможными признаками .iIВЛяются 1~__1х,-~111~ 1 11 -= 1х2-т1⁄2) ~1 ,, ' !)! 1' Х1 -ll!i Х1 --!lll где у1 - первый новый признак для класса 1, а yf - первый но­ вый признак для класса 2. Эти признаки имеют большую дисперсию (yi1 не предст,нзляет очень стабильного свойства класса 1), и это об­ стоятельство нu,1?.стся большиl\1 недостатком. С другой стороны, один единетвенный признак у1 = х/х1 можно (рис. 6.26, 6) исполь- 388
зовать и для одного, и для другого класса, и значимые разности значений этого признака указывают на различные классы. Этот са­ мый признак может оказаться приемлемым для задачи, изображен­ ной на рис. 6.26, в. Признак в виде смещенного отношения у1 = = (х2 - х20)/х1 , требующий нахождения оценки параметра х20 , можно использовать в другой задаче (рис. 6.26, г), хотя можно так­ же воспользоваться признаком в виде расстояния (рис. 6.26, д). Можно ли преобразовать признаки у, чтобы получить такие но­ вые признаки z, которые имеют меньшую размерность, меньшее пе­ рекрытие условных по классу функций плотности вероятности, что • может привести к единственному нелинейному преобразованию век­ тора х в вектор -м Возможно, нельзя или нежелательно выпол­ нить такое преобразование во всех задачах, но в некоторых можно. Примеры такой процедуры показаны на рис. 6.27. Два отношения. Предположим, что L = 3, х = [х1, х2, хз], М = = 2, и проекция функции плотности в подпространстве такая, как показано на рис. 6.27,а. На основании рассмотрения двумерного подпространства намечается в качестве признака отношение х2/х1 . Предположим, что проекция функции плотности на подпростран­ ство х2 , xJx1 такое, как показано на рисунке. Тогда признак у1 = = xJ (xJx1) включает априорные данные: класс 1: указывают большие значения у1 ; класс 2: указывают малые значения у1 • Отношение и смещенное отношение. Из рис. 6.27, 6 видно, что отношение xJx1 возникло из двумерного отображения на подпрост­ ранство х1 и Х2 . Теперь, если мы спроецируем плотности двух клас­ сов на пространство х 3 , xix1, то придем к признаку у1 = = (х 3 - х 30)/~, который отображает априорные данные: Х1 класс 1: указывают большие значения у1; класс 2: указывают малые значения у 2 • Структурная схема. Поучительна структурная схема для преды­ дущего примера (рис. 6.27, в). Обозначив словом «отношение:. операцию деления, увидим, как у1 получается путем выполнения двух последовательных операций отыскания отношения. Признаки для временных последовательностей. Предположим, что х1, х2, ..., Xn - измерения, проведенные в п моментов времени. Свойством или признаком такой последовательности (рис. 6.28, а) для случая двух классов является линия регрессии. Точки пересе­ чения с осью координат х~ 0 и х~ 0 представляют значения признака у, при помощи которого можно различить классы при увеличении длительности наблюдений. Это может быть иллюстрацией цикла лечение-диагноз или последовательности эхо-сигналов акустичес­ кого локатора.Указанный признак оказывается непригодным, если, например, последовательность образов из одного класса такая, как 389
показано на рис. 6.28, 6. Для этого класса характерным признаком может быть «отсутствие согласованности» или «соrласованиость двух из трех последовательных образов». Предположим, что образовано отношение п-\ I ll(xs--;; - ~ Xs)(xs--;; -}: Xs)!II s=I s=I s=I , n-l f 11(xs- -;;- ~ х,)(х, -7}:Xs) 1 11' s=t>+ 1 s=1 s=1 которое представляет отношение норм вектора дисперсий первых и вторых v выборок. Если первые v выборок соответствуют отра- Xz хfи Возристиние Времени о Клдсс t х Клиссz II) 7 3 5 5 ,,_ lf) Рис. 6.28. Пример двух классов с двумерными выборками из образа: а - из временной последовательности; б - не из временной последовательности жению от подводной лодки, а вторые v выборок - реверберации, то этот признак соответствует оценке отношения сигнал/шум. Введение корреляции с использованием условной плотности ве­ роятности. Предположим, что результирующий векторный признак, например, для задачи с двумя классами содержит признаки у 1 , по­ строенные специально для класса i, и признаки у1, специально по­ строенные для класса j, на основе априорных сведений: у= [yi, уj]. Можно предположить, что признаки у1 являются помехой для оцен­ ки условной плотности класса i, но все же ими следует воспользо­ ваться в процессе выбора решений. Условные плотности вероятно­ стей у равны f (yli) = f (у,, Y1li) = f (y,\i, Y1)f (yJii), f (yli) = f(yi, Yjlj) = f (Yili, Yi){(y1/j). Пусть d (у 1 ) = i означает, что на основе векторного признака Yi выбрано решение: класс i. Тогда изложенный в § 6.11 байесовский подход к снижению размерности указывает, что можно восттользQ­ ваться следующим приближением: :390
Таким образом, векторный признак у1 помогает относительно просто выделить класс i после применения этого приближения. Нслинсiiнос пpcolfp_uJoBu- нис !Jлн !11 KЛUCfZ{l 1 нслинсiiнос npcolfpuJOBu- !/z нис !Jлн KЛUCC{l Z . . Нслинсffнос !lн пpcolfpuJoBu- нис Влн клuссu м !/1 !lz,···,!/н Вспоногu- тсльныс npUJHUKU Влн KЛUCC{l 1 . ВЫ9UСЛUmь Р7 t(111I 1, d;z,diJ,···,diн) Pz Пllrl Z,dtz,dtJ•··Aн) Pнf(J11/f,t,dtz,dis,···• dtн) . : diz,dtJ,· • ·, diн . . . Р7 f(!/111, diz,diJ , .. . ,dtн} при dtz,diJ,···,diм di1 Рис. 6.29. Выделение признаков при помощи нелинейных соотношений, за ко­ торыми следует вычисление условных плотностей Векторный признак YJ, построенный для класса j, можно рас• сматривать как вспомогательный для класса i. В процессе класси­ фикации векторные признаки у 1 и у1 строятся или выделяются из подлежащего классификации образа (так как класс образа неизвес­ тен). Если, например, векторный признак у 1 показывает, что этот образ НЕ относится к классу j, то информацию следует использо­ вать вместе с векторным признаком у 1 при определении вероятно­ сти, что этот образ относится к классу i. Рис. 6.29 иллюстрирует представленные выше теоретические соображения. При построении векторного признака для данного класса к измерениям применяется совокупность нелинейных соот­ ношений. Тогда для класса i вычисляется i-я условная плотность вероятности у 1 , обусловленная всеми возможными решениями, при­ нятыми при вычислении другой условной плотности. Тогда образ относится к классу а, если Рaf (Уа!а, d11 , d1 1 , d10 , ... , d1a-i , d1 , d1 м) представляет наибольшую из этих вероятностей. ан 391
СПИСОК ЛИТЕРАТУРЫ 1. Schwartz М. Information Transmission, Modulation and Noise, McGraw - ,. Hill Book Company, lnc. New York, 1959. 2. Iпdritz J . Methods in Analysis, The Macmillan Company, New York, 1963. 3. Lawreпce С. L. Characteristic Proportics of the Segmented R.ational Minmax Approximation ProЫem, Numer. Math., vol. 6, р. 293-301, Nov. 1964. 4. Meiпardus G. Approximation of Functions: Thcory and Numerical Met- hods (Springer Trarts in Natural Philosophy, vol. 13), Springer-Verlag, New York, 1967. 5. Wilks S. S . Mathematical Statistics, John Wiley and Sons, Inc., New York, 1963, Chap. 18. Уилкс С. С. Математическая статистика: Пер. с англ./Под ред. Ю. В. Лин­ ника. - М.: Наука, 1967. 6. Spragiпs L. О. R.eproducing Distributions for Machine Learning, Stanford Electronics Laboratories Tech. R .ept. 6103-7, Stanford, Calif, Nov. 1963. 7. Tou J. Т. and Неdуоп Р. R. Some Approaches to Optimum Feature Ext- raction, Computer and Information Sciences vol. II, J. Т. Тои ed., Aca- demic Press, Inc., New York, 1967, р. 57-89 . 8. Sebestyeп G. S . Decision - Making Processes in Pattern R.ecognition. The Macmillan Compagy, New York, 1962. 9. Ball G. N . Data Analysis in the Social Sciences: What about the Do- tails? Proceedings of the Fal 1 J oint Computer Conference (AFIPS) Proc. vol. 27, Pt. II), Spartan Books, New York, 1965, р. 533-559. 10. Parzeп Е. Оп Estimation of а Probabllity Density Function and Mode, Ann. Math. Statistics, vol. 33, р. 1065-1076, Sept. 1962. 11. Murthy V. К. Nonparametric Estimation of Multivariate Densities with Applications, presented at the International Symposium оп Multivariate Analysis, Wright - Patterson Air Force Base, Ohio, J une 1965. 12. Miller К, S. Multidimentional Gaussian Distribution, J ohn Wiley and Sons, Inc., New York, 1964, р. 24. 13. Zadeh L. А. Fuzzy Sets, Information and Control, vol. 8, 338-353, J une 1965. 14. Patrick Е. А. and Fischer F. Р. Non-Parametric Feature Selection, IEEE Trans. Information Theory, vol. IT -15, N 5, р. 577-584, Sept. 1969. 15. Meisel W. S. Оп Nonparametric Feature Selection, IEEE Trans. Informa- tion Theory, р. 105-106, Jan. 1971. 16. Belsoп М., Dudley W. W . Jr., Ledley R. S . Automatic Computer Mea- surements of Nourons, Pattern R.ecognition, vol. 2, Pergamon Pross, Oxford, 1968, 119-128. 17. Ledley R. S. Practical ProЫems in the Use of Computer in Medical Diag- nosis, Special Iassue оп Technology and Health Services, Proc. IEEE, vol. 57, N 11, р. 1900-1918, Nov. 1969. 18. Noiseeva N. 1. and Usov V. V . Some Medical and Mathematical Aspects of Computer Diagnosis, Ргос. IEEE, vol. 57, N 11, р. 1919-1925, Nov. 1969. 19. Patrick Е. А. Concepts of an Estimation System, Adaptive Systems, and а Network of Adaptive Estimation Systems, IEEE Trans. Systems Science and Cybernetics, vol. SSC-5, N 1, р. 79-85, Jan. 1969. 20. Левин Б. Р. Теоретические основы статистической радиотехники. - М.: Сов. радио. 1974, книга первая. 2-е издание.
ГЛАВА 7 РАСПОЗНАВАНИЕ О&РАЗОВ СТАТИСТИЧЕСКОЙ ПРОВЕРКОА АПРИОРНЫХ СВЕДЕНИА 7.1 . Введение В данной главе накопленный опыт и разработанные методы используются совместно, чтобы показать, как можно совместить априорные сведения и обучающие выборки для определения пра­ вила выбора решения d (х). Задачу начинает решать исследователь, имеющий некоторые сведения о каждом из М классов. Эти сведения имеют вид соотношений между измерениями х1 , х2 , • .. , X L для каж­ дого ожидаемого класса. Из гл. 5 известно, что М классов можно идентифицировать, если идентифицируемо семейство g; и п -+ оо. При конечных значениях п М можно определить одновременно с со­ ответствующими классами только до тех пор, пока результаты име­ ют смысл. Шансы на то, что группировки выборок при конечном значении п будут иметь смысл, будут увеличиваться с ростом сведе­ ний, которые имеет исследователь и о М классах. Если данные х1 , х 2 , ... , Xn не согласуются с априорными сведениями, то исследователь на основании своих знаний должен модифицировать априорные данные, вводимые в ЭВМ. Инструментом, при помощи которого ис­ следователь может ввести свои познания в ЭВМ, являются соотно­ шения между измерениями х1, х2, ••• , х1, для каждого из ожидае­ мых классов. Таким образом, если дана модель класса, то результаты, полу­ ченные в гл. 4 (об оценке по классифицированной выборке), ука­ зывают, как надо вычислить параметры, характеризующие плот­ но.сть вероятности этой модели, если имеются такие обучающие вы­ борки. Если выборки не классифицированы, то можно, но с осто­ рожностью, применяя оценки, описанные в гл. 5, вычислить пара­ метры, характеризующие модели классов. Корректность описания классов после обработки п выборок за­ висит от того, насколько осмыс,ленными являются эти описания для специалиста с его относительно широкими знаниями задачи. Если бы исследователь мог определить, что модели, которые он ввел 393
13 ЭВМ, не совместимы с данными, to он изменил бы свои модели. Далее указано, как можно использовать имеющиеся у исследователя знания для того, чтобы получить соотношения между х1 , х2 , . • ,. Хп для каждого класса, и как это непосредственно помогает определить условные функции плотности вероятности. Показано также, как эти априорные сведения можно оценип, на основе выборок х1 , х2 , ... , Xn и как эти сведения может адаптировать человек. 7.2. Замечания Введем пространства измерений и соотношений. Трудно найти примеры исследований, выполненных специалистами по статистике или теории информации, посвященных распознаванию образов, в которых была бы предусмотрена возможность использования при распознавании образов априорных сведений. Это объясняется тем, что статистический метод выбора решений основан на использовании выборок в пространстве измерений для оценки условных плотностей вероятности и априорных вероятностей классов. Использование та­ ких обучающих выборок в пространстве измерений представляет лишь один из двух важных способов облегчения процесса выбора решений. Второй способ состоит в использовании вводимых чело­ веком соотношений, причем он пользуется своими знаниями о за­ даче. Обозначим х пространство измерений, представляющее L-мер­ ное векторное пространство, содержащее векторы• х = (х1 , х2 , ... . . . , XL], представляющие L-мерные векторы измерений. Имеется М классов i = 1, 2, ... , М, соответствующих условным плотностям f (x/i), и априорные вероятности классов Р 1 , i = 1, 2, ... , М. При заданных функциях f (xli) и вероятностях Р 1 , i = 1, 2, ... ... , М, а также функциях потерь LJi правило выбора решений d (х) по критерию минимального риска представляется в виде Оно представляет собой отображение пространства измерений х на пространство решенией. При неизвестных М, f (x/i) и Р 1 их истинные значения, как и в предыдущих главах, будем обозначать М*, f* (xli), Р;. Методы оценки этих параметров на основе обучающих выборок были хоро­ шо исследованы в работах [ 1-5]. Пространство решений обычно бывает шире, чем пространство классов, состоящее из М* элемен­ тов. После тщательного исследования в предыдущих главах (осо­ бенно в гл. 5) задача определения числа классов М* на основе вы­ борок х1, х2 , ... , Xn при конечном (малом) значении п представляется дилеммой. Если начать решение задачи с вопроса, сколько классов представлено в выборках х1 , х1 , ... , х.,,, то ответ будет та к о й : их мо- 394
жет быть 1, 2, ... , или п, или больше, так как. определение числа классов при конечном объеме исходных данных зависит от имею­ щихся априорных сведений о классах. Более того, определение пра­ вила выбора решений зависит от имеющихся априорных сведений. Априорные сведения о задаче дают информацию о некоторь\~ функциях f (x\i) и, возможно, о некоторых вероятностях Р 1 , прежде чем получены какие-либо обучающие выборки. Эти априорные све­ дения имеют вид соотношений между компонентами х1, х2 , ... , XL вектора измерений х для данного класса. Таким образом, целесо­ образно определить пространство соотношений .'li. Соотношения могут задавать диапазоны значений х1 , указывать на корреляцию между х1 и х1 , i =I= j, и в более общем виде устанавливать эквива­ лентнос'l'ь между «областями» в пространстве измерений. Соотно­ шения вводит человек, хорошо знающий задачу. Можно привести примеры, когда по меньшей мере почти неограниченное количество п обучающих выборок понадобилось бы для получения соотношения, обеспечивающего приемлемую оценку функции f (xji). По-видимому, можно с уверенностью сказать, что наиболее ус­ пешные применения методов распознавания образов основаны на использовании соотношений для построения функций f (x\i) и ве­ роятностей Р i, используемых при выборе решений. С другой сто­ роны, научный метод исследования уже давно указал на проверку точности априори введенных моделей испытанием этих моделей на выборках. Отсюда вытекает метод, основанный на определении, на­ сколько хорошо совокупность заданных априори соотношений сог­ ласуется с выборками. Это согласуется с байесовским подходом вычисления апостериорной оценки. Например, оценка с минималь­ ной дисперсией истинной структуры представляет условное (апо­ стериорное) среднее значение по всем структурам. Итак, предла­ гается разработать метод извлечения априорных сведений относи­ тельно функций f (xli) при помощи соотношений, подобных тем, которые были введены в гл. 6. Затем, используя обучающие выборки х1, х2, ... , Xn, получить апостериорные вероятности этих соотношений. Определение апостериорных вероятностей для соответствующих соотношений представляет процедуру нахождения оцеяки, а под­ бор новых совокупностей соотношений - адаптивную процедуру [6]. Человек подбирает новые совокупности соотношений лучше, чем ЭВМ, и, видимо, так будет еще на протяжении многих лет. Иные теоретические исследования априорных сведений в виде априорной плотности вероятности содержатся в работах [8-10]. Совокупность соотношений .'li дает информ~цию о том, как свя­ заны между собой Х1, х2, ... , х1, для каждого класса. Можно исполь­ зовзть дополщ1тельную информацию относительно плотности. веро­ ятцости_ в точках. пространства измерений х, ограниченных соот­ ноше!-Iиями в пространстве .7!. Взятые совместно соотно.шения в про­ странстве .Jl и задание штотности вероятности представляет струк- туру в пространстве '!}. • 395
Предположим, что .1li и ;§i - совокупности соотношений и структур соответственно для класса i, причем частная структура_ в пространстве ;§ 1 характеризуется точкой Ь; в пространстве пара­ метров ,бli?1 . Точки Ь1 , Ь2 , ... , Ьмвместеспараметрами смесиР1 , Р2 , ... ... , Р м составляют точку в пространстве параметров ff;l. Пусть f (xli, Si, Ь1 (S 1)) означает оценку функции f (x\i) на ос­ нове структуры S 1 и параметра bi (S 1), характеризующего струк- туру Si. Функция f (xli) обладает несколькими свойствами, которые полезны при создании метода, направленного на минимизацию рис­ ка. Пусть р12 -вероятность выбора решения, что имеет место класс 1, тогда как истинным классом является класс 2 (ошибки перво­ го рода), а-р 21 - вероятность выбора· решения, что класс 2, когда истинным классом является класс 1 (ошибка второго рода). Тогда оправданием метода минимума риска являются следующие сообра­ жения. 1. Нельзя вычислить вероятность р12 , не зная функции f (х12), и вероятность р 21 , не зная функции f (xll). Так как обычно представ­ ляют интерес обе вероятности р12 и р 21 , эти вероятности должны быть «предметом обмена», как в методе минимального риска; 2. Из п. 1 следует, что даже когда представляет интерес только распознавание класса 1, необходимо интересоваться свойствами класса 2, чтобы по ошибке не выбрать решение в пользу класса 1. Рассмотрение приводит к более глубокому пониманию отбора измерений х1 , х2 , ... , XL- Грубо говоря, измерение добавляется, если использование его может повысить качество. Точнее, измерение сле­ дует отбирать на основе моделей всех рассматриваемых классов, чтобы улучшить разделение классов. 7.3. Полезные свойства функций J (x\i) Самым общим ограничением функции f (x\i) являются условия: I)f(хl'i)~·о,vxЕfC, 2) ,lf(x\i)dx= 1·; х 3) при больших значениях п нетрудно найти оценку { (xji), ко­ торая была бы сколь угодно близка к функции f (x\i) [7] (см. гл.4); 4) число степеней свободы, допустимых при определении оцен- ки f (x!i), зависит от того, что известно относительно связи плотно­ сти вероятности в одной точке с плотностью вероятности в другой. Чем больше известно априори о структуре S;, тем меньше име­ ется степеней свободы, которые должны быть «увязаны» при помо­ щи обучающих выборок. Число степеней свободы определяется как число компонент вектора Ь1 . Будет показано, что качество услов­ ного выбора решения при малом· объеме выборок в большей степени 396
связано со степенями свободы (числом компонент Ь;), чем с размер­ ностью L или х (числом компонент х). Зададим: вопрос: следует ли определять s; и находить оценку bi (Si) на основании обучающих выборок f (xli, Si, Ы') = f (xll), vx? Ответ будет следующий: не всегда необходимо искать такую единственную структуру s; и параметр Ы (Si), чтобы м:аксим:изи­ ровать качество при малом: объеме выборки. Примеры структур. В качестве примера ситуации, в которой структуры имеют большое значение, рассмотрим случай, когда известно, что f (х / i) = = О, если х=1=х1 и·х =1=х2, т. е. f(хIi)=р(х11i)б(х- х1)+(1- -р(х11i))б(х- х2)., Оценка функции f (х / i) имеет вид где п{ - число выборок в обучающей совокупности класса i, которые отно­ сятся к х1 , а п~ - число выборок в обучающей совокупности класса i, кото­ рые относятся к х 2 . В качестве второго примера предположим, что все компоненты х1 , х2 , ••• ... , xL векторах с функцией плотности f (х I i) статистически независимы и имеют одинаковое нормальное· распределение N (μ, 1). Очень хороший путь для получения оценки функции состоит в образовании статистики и подстановке ее в выражение [(х 11)--- ехр [--21 ~.п (х1-μ)2]. (2л)Lf 2 ,,. _ J=I В этом примере при возрастании размерности L среднее значение μ быстро сходится. Это показывает, что при наличии соотношений, позволяющих умень­ шить число степеней свободы, увеличение размерности L может улучшить, а не ухудшить качество. Третьим примером является случай, когда о функции f (х J i) известно очень мало, только, что функция f (х I i) симметрична. <:ледовательно, f (х1/i) = f (х2/i), если !/х1'1/= 11 х2~- Оценка функции f (х Ii) имеет вид Масса в ;, (х) Объе~t У: (х), ' где '; (х) -- окрестность вектора х. Эт11 примеры иллюстрируют важное свойство: соотношения по­ могаюг получить оценку при малом объеме выборки [6]. 397
7.4. Основы цля введения структуры Основой для введения структуры является так называемая мо­ дель с фиксированными «бункерами», в которой пространство из­ мереqий х подразделяется на RL бункеров. Вероятности бункеров {р} }f,: 1, характеризующие приближенное выражение функции f (xli) при помощи полиномиальных функций плотности вероят­ ности, можно оценить следующим образом: (ррпi = ntJ/ni, где ntJ - число обучающих выборок класса i в j-м бункере. Среднеквадра­ тическая ошибка оценки вероятности для j-ro бункера равна RL RL е2 = ~ eJ=~ ~ [(pJ)п;-pJ] 2 • i=I R f=I Можно вычислить число выборок из класса i, соответствующее ошибке eJ < б, б > О, с достоверностью с< 1: р ([(p1)ni - р}] 2 < <б)>с. Во многих случаях это число ni «слишком велико». Тогда необ­ ходимо воспользоваться выборками в k-м бункере для нахождения оценки вероятности р} вместе с выборками в j-м бункере. Предпо- 1 l ·=1=k ложим, известно, что р 1 = Pk, J , тогда, полагая (1)_1nil+1Щk Р1 п-- -- ---, ' 2ni 2ni можно уменьшить дисперсию оценок (p~)ni до значения, получае­ мого при 2ni выборках, несмотря на наличие только п 1 выборок. Эга модель с фиксированными «бункерами», состоящая из RL вероятностей «бункеров», будет использована в качестве основы для построения структуры S i. По определению, структура представ­ ляет совокупность соотношений между величинами {р}}, j = 1, 2, ... , RL, для каждого класса i = l, 2, ... , М. Очевидно, при боль­ ших значениях R L неJЮзможно рассмотреть все возможные соотно­ шения. Прагматическое решение этой задачи состоит из рассмотре­ ния соотношений, которые являются функциями х, и установления эквивалентности между некоторыми Р} и, следовательно, между со• ответствующими х. Семейство структур. Э т а п 1. Определим семейство структур S Е ~. Сначала оп­ ределим при помощи индикаторных функций / (х) область У, про­ странства измерений I: /(х) =Jl,xE'tI, \О,х$У,. Области у,;, У,2, ... , у,;_1 вводятся при помощи соответствующих индикаторных фунщий /i, /2, ... , 1;_1 . Изложим кратко метод 398
оnиса1tю1 этйх областей. Из этих v - 1 областей Y-i, .'!ff, ... , у,;_, строятся ортогональные области ·У, 1, '!f-2 , ... ,'!f-v, имеющие индика­ торные функции I1(х)=/1(х),/2(х)=/2(х)П/~(х). /3(х) =lз(х)П/~(х)П/~(х), / 0_1(х) =I;_1(х)П/~(х)П/~(х)П/~-2(x)J, /о(х)= 11 (х) n /~ (х) n /~_, (х). Приведенное обозначение необходимо для каждоrо из М клас­ сов. Поэтому определим V,, {It.1}f!.,• {/iJ}~~I' {'!ff1 }fl,, {гl-ii}f.!., для i-го класса. Области '!fI описываются при помощи функций, включая логи­ ч2ские функции, из приведенной ниже таблицы функций. Может оказаться желательным, чтобы индикаторную функцию / i (х) характеризовали параметры, определяемые по выборке. Эти параметры определяются так; чтобы они «подгоняли» функцию / 1 (х) к наблюдаемым данным. Например, можно положить /J(Х)={1:Х1>μ' О в ином случае , где μ- выборочное среднее значение. Эта п 2. Имеем функцию плотности вероятности f (x/i), х Е гJ- 11 и х представляет L-мерный вектор. Хотя этот метод и не будет при­ меняться, воз.можно, что знания индикаторной функции / 11 (х) и определенной в этой области функции плотности вероятности доста­ точны для выбора решений некоторых задач. Обычно потреби­ телю может оказаться неудобным выразить все его априорные све- дения о функции f (x\i) с помощью {'!ft1}~~, . Чаще он может обла­ дать дополнительными сведениями, которые побуждают построить вектор признаков g1 (х) = [g'1 (х), '2 (х), ... , g~ (х) ], х Е гJ-11. Функции gi (х) могут отображать такие априорные сведения, как корреляция между измерениями. Эти функции выбираются из рас­ сматриваемой ниже таблицы функций. Функцию g (х) можно охарактеризовать параметрами, опреде­ ляемыми по выборке. Например, g (х) = (х - 111)1~- 1(х- m), где mи :Е - выборочное среднее и ковариационная матрица выбо­ рок соответственно. По существу, как и прежде, функция g (х) применяется для подгонки структуры определенной априори формы к данным. Э т а п 3. Находятся оценки функции плотности вероятности f (g1 (x)li), х Е iffJ· Функции g1 (х) эффективно приводят к экви­ валентности некоторого числа бункеров в модели с фиксированным 399
«бункером» для класса i. Эта эквивалентность приводит к усилению оценок функций плотности вероятности. В правиле выбора решений используютL.н функции плотности вероятности f (x!i), i = 1, 2, ... , М. Поэтому функция f (x/i) опре­ деляется из функции f (gi (x)li) следующим образом: f (xli) = f (g, (x)li)/IJ (х)/. В целом структура S из семейства ;g состоит из областей 'lf 1, j = = 1, 2, ... , V, определяемых функциями с (х), вектором признака g (х), х Е ifj, и якобианом преобразования. Структура S создает эквивалентность некоторых областей в модели с фиксированным бун­ кером. Имеется также семейство ;f' функций плотности f (g (х)), происходящих от элементов структуры S из пространства структур ;g и функций f (х) элементов семейства ;f. Сначала семейство ;f функций плотности для некоторой задачи может быть неизвестным и даже иногда невозможно определить се­ мейство ;f для частной задачи. Скорее, может оказаться более це­ лесообразным ожидать, что семейство ;f' представляет относитель­ но простое семейство, например многомерное нормальное, смесь нормальных и равномерное. С другой точки зрения, можно рассматривать структуру S как модель задачи, построенную на основе байесовского метода. Струк­ тура или модель задачи S особенно удобна для взаимодействия с ЭВМ, так как она дает возможность-человеку вносить свои знания в байесовскую методику. Таблица типовых функций. Имеются типовые функции g (х) или с (х). Об этих функциях, по большей части нелинейных, можно мыслить как о первичных для введения априорных сведений. Типовыми функциями явля­ ются 400 ао+а1 Xj +а1 xJ +... +щ, x'j, j= 1, 2, ... , L-многочлен ехр (XJ), j=I, 2, ... , L-экспонента lп(х1), j=l,2, ... , L-логарифмическая XJ/X1,, при любом j =f= k-отношение Xj +х1,, при любом j =f= k-среднее арифметическое х1 х1,, при любом j =f= k-произведение siп (Xj), cos (Xj), tg (Хj)-тригонометрическне arg siп (XJ), arc СО5 (х1), обратные тригонометрические arctg(Xj) -V~. j =f= k-rеоыетричсское срrднее V (xj +xt) /2 -среднеквадратическое abs (х1)-абсолютное значение (x-m)t :Е-1 (х-m)-квадратнчная форма max (х1, XJ), miп (xi, х1)-максн~1ум, минимум
Области / (х) создаются при помощи функций c1i, (х) совместно с логичес­ кими операциями из следующей таблицы. Таблица логических операций, применяемых вместе с функциями с (х) с (х) ~ а-неравенство, / 1 (x)Ui/(x), i=f=j,-ИЛИ, ![ (х) n lf (х), i=f=J,-И, -НЕ. 7.5. Составление программы Для вычисления функции f (g 1 (x)Ji) с помощью ЭВМ желатель­ но ввести етруктуру S1 для каждого из М классов. Затем обучаю- щие выборки х~, х12 , ... , х~ преобразуются в gi (xi1), g1 (xt), ... , gi(x~J В этом преобразованном пространстве возможна локальная оценка плотности. Ниже приводится последовательность этапов, полезная при со- ставлении программы для частной задачи: Этап 1. Ввести L, М, {n1}t1=i· Эта п 2. Запомнить данные {х~}=~ Р i = 1, 2, ... , М. Эта п 3. Одинаковы ли области 'lf 1 для всех классов? Если нет, тоV1=I=V,vi. Этап 4. Ввести V1, 11. Этап5.ВнестиI1i,j=1,2, ..., Vi,i=1, ..., М. Этап6.Построитьgf,g~, ..., g;., i=1,2, ..., М. ' Во время этого построения необходимо отображать f (gJ). Воз­ никает желание написать подпрограмму, состоящую из нелинейных функций, для данной частной задачи и ввести эту подпрограмму в список соотношений. Эта п 7. Определить функции f (gi (x)Ji), i = 1, 2, ... , М, и якобиан для каждого класса; затем классифицировать х. Когда число измерений L очень велико (например, в медицине), то вводятся такие области {S!1 }, при которых сначала эффективно ис­ пользуется одна совокупность измерений, а затем - другая. Та­ ким образом, если после использования одной совокупности изме­ рений решение указывает, что желательно перейти к другой сово­ купности для выбора решения, то это в рамках нашего построения ВОЗl\ЮЖIЮ (6). 7.6. Вариант обучения без учителя В этом варианте получение оценки функции f (g 1 (x)Ji) по сущест­ ву завершает решение задачи. Вариант возникает в том случае, ког­ да желательно использовать неклассифицированные выборки. Их 401
можно использовать для вычисления каЖдой структуры Si при по• мощи решений, управляемых байесовским правилом (см. гл. 2). Ес­ ли функция f (gi (x)li) лежит ниже некоторого априори заданного порога для выборки х, Vi, то, возможно, она принадлежит новому классу. Другой возможностью является модификация имеющихся М структур, чтобы приспособип,ся к этой выборке. Потребитель может определить, имеют ли смысл существующие классы или нет. Например, они не будут иметь смысла, если при обработке выборок из класса i как одного класса возникает проти­ воречие с другими сведениями, которыми обладает потребитель. 7.7. Заключение Глава 7 включена в книгу, чтобы подчеркнуть, что для задачи рас­ познавания образов могут иметь значение и априорные сведения, и обучающие данные. До тех пор, пока не появятся ЭВМ, которые в состоянии хранить сумму знаний и способностей человека, модели должен создавать человек. С другой стороны, научный метод давно уже применялся человеком для проверки создаваемых им моделей. В задачах распознавания образов этот последний процесс эквива­ лентен использованию обучающих выборок для пересчета. ЭВМ будут программировать для автоматического выбора решений, за­ поминания данных и проверки модели. Распознавание образов - процесс решения задач, неотделимый от человека. СПИСОК ЛИТЕРАТУРЫ 1. Patrick Е. А. Оп а Class of Uпsupevised Estimatioп ProЫems, IEEE Traпs. Iпformatioп Theory, vol. IТ-14, р. 407-418, Мау 1968. 2. Patrick Е. А., Costello J. Р. Оп Uпsupervised Estimatioп ProЬ!ems, IEEE Traпs. Iпformatioп Theory, 556-569, Sept. 1970. 3. Yu-Chi Но апd Ashok К. Agrawala. Оп Patterп Classificatioп Algo- rithms - Iпtroductioп апd Survey, Proc. IEEE, vol. 56, N 12, р. 2101- 2113, Dec. 1968. 4. Nagy G. State of the Art iп Patterп Recogпitioп, Proc. IEEE, vol. 56, р. 836-862, Мау 1968. 5. Loftsgaardeп D. О., Qucseпberry С. Р. А Noпparametric Estimate of а Multivariate Deпsity Fuпctioп, Апп, Math. Statistics, vol. 36, р. 1049- 1051, 1965. 6. Patrick Е. А. Coпcepts of ап Estimation System, Adaptive System, апd а Network of Adaptive Estimatioп Systems, IEEE Trans. System Scieпce апd Cyberпetics, vo1 SSC-5, N 1, р. 79-85, Jап. 1969. 7. Patrick Е Л. and Fischer_: F. Р. Geпeratized k-NE'arest Neighbor Dcci- sion Ru\E', .1. Information m1d Controt, vol. 16, N 2, р. 128-152. April 1970. 8. Jay_пes Е. Prior ProbaЬitities, IEEE Traпs. System Scieпce апd Cyber- пetics, vol. 4, N 3, р. 227-241, Sept. 1968. 9. Hartigaп L. Invariaпt Prior Distributioпs, Апп. Math. Statistic, vot. 35, р. 836-845, Juпe 1964. 10. Tzanes N. S. апd Nоопап J. Р. А Tt1eory of Prior ProbaЬility, Procee- dings of thc Ketlv Communi<'ations Confl'rPЛC'C', р. ?0- ~t, !!nivl'r~itv of Mi,~QШi :it Ro11n, Rnll1,· Mi<;,n11ri, 197()
Предметный указатель Адаптивная гистограмма 176 Адаптивное построение выборочного множества 230 Адаптивные пороговые элементы 225 Апостериорный риск 142 Аппроксимация стохастическая 7, 86, 336 - -, применение к смеси нормаль­ ных плотностей 93 Байеса формула 245 Байесов анализ метода функции сходства 317 Байесовская апостериорная функция плотности 251 - оценка 52 - - вектора средних 55 - -, качество 265 - - при конечном множестве пара- метров 255 - теория 244 Байесовский подход 126, 267 - - к задаче снижения размерности 371 Байесовское решение 246 Бета-распределение 112 Биномиальное распределение 70 Больших чисел законы 39 Векторные пространства 19 Векторы конечной размерности 7, 10 Вероятности ложной тревоги, обнару- жения и пропуска 140 Вероятность последовательности 27 Взвешенная значимость близких со­ седей 317 Воспроизводящие плотности вероят­ ности 64 Вспомогательный вектор параметров 108 Выборки зависимые 26 Выбор признаков по критерию мини- мальной среднеквадратической ошибки 350 - решений, использование априор- ных сведений 381 Выделение признаков 15, 344 - -, методы 345, 391 Выращивание кластеров 62 Генератор сигналов и имитатор кана- ла 322 Гистограммы смеси 269 Грам-Шмидта процедура 353 Границы Коверха-Харта 183 Диагональные ковариационные мат- рицы 59 Достоточность 43 Достаточные статистики 43 Зависимость средней вероятности ошибки от числа выборок 331 -Задача распознавания образов как статистическая задача 5 - распределения выборок по катего­ риям 17 Значимое управление при дnух кате­ гориях 318 Задачи выделения признаков 16 - классификация с треугольными плотностями вероятности 202 Идентификация 242 Идептифицируемости условия 29 Идентифицируемые семейства 32 Идентифицируемость 258 Интегральная квадратичная ошибка (ИКО) 119 Информация 49 Карты кластеров 289, 292 Квазибайесовская оценка 260 Кnазнбайесовский метод 242, 260 Квадратичная функция потерь 55 Класс алгоритмов, основанный на минимуме интеграла квадрата рас­ стояния 268 Кластерный анализ (обозначения) 13, 171 403
Кластеризация при помощи «карман­ ной лупы» 289 - прп разделении по мин11мальному расстоянию 332 - с применением вводимой априорн функцией сходства 13 Кластеры 17, 182 kNN-правила 174, 182, 186, 188, 189 - - , асимптот11чсскне моменты рис­ ка 207 - - , моменты риска 194 - - , оценка апостериорного риска 202 - - , применение 223 - - , скорость сходимости риска 210 - - , состоятельность при увеличе­ нии k 193 - - , число ошибок классификации 191 Комбинирование субкластеров 308 Конечномерное векторное простран­ ство и базщ; 19 Котельникова теорема 346 Критерий интеграла квадрата рас­ стояния 369 - среднеквадратической ошибки 371 Кусочно·ЛИJ-!ейные дискриминант­ ные функции 231 Ле-Кама леммы о сходимости ОМП 51 Линейная дискриминантная функция - независимость 19 - оболочка множества 19 Линейный пороговый элемент 226 Максимизацня в пространстве пара- метров 280 - расстояния между классами 358 Маргинальные апостериорные плотно• сти вероятностей 106 Маркова неравенство 249 Матрицы рассеяния 356 - - внутреннего 358 - - относительного 358 - сходства 315 Медицинская диагностика с помощью эвм 349, 384 Мера расстояния 190, 363 - сходства выборки 299 Метод непараметрической селекции признаков 371 - оценки, управляемый решением 243 Методы выделения признаков 386 - кластеризации 5, 283, 297 - - , при которой вводятся априор- ные сведения о задаче 300 и обработки изображений 336 404 Мешающие параметры 102 Миллера теорема 290 Минимизация rасстошшя n11y11н1 к,1ассов 360 Мода,JJьная стру1пура 241 Модифнцировапнос правило класси­ фикации 188 Модели смеси 242 Модель с фикснроnаш1ым11 «бункера­ мн» 3У8 Нсли11ейная дпс1<rнмш1а1п11ая функ­ ция 227 Нелинейное вьщслснис прпзнака 387 Нелинейные функции, вводимые ап­ риори 378 Непараметрический метод селекцнн признаков Патрика-Фншера 362 Непараметрическое выделение приз­ нака 367 - оценивание плотности 173 Неравномерная последовательность весовых коэффициентов 335 Нормальная условная по классу плот­ ность 314 Нормальное рдспределение 73, 77 Обобщенные толерантные области Кемпермана 115 Образы 7 Обучение без учителя 901 Ортогональное преобразование 169 Ортогональность и ортонормальность 19 Отказ от выбора решения 186 Отображение 363 - кластеров 289, 313 - нелинейное 378 - - «смещенное отношение» 378 - - «расстояние от начала коорди- нат» 379 - - «гипербола» 380 - непрерывности 299 - при помощи J-!елннейного отноше- ния 378 - пространства с эвклндовой метри­ кой 381 Оценки байссовскис 8 - - , сравнение с оценками макси­ мальной апостернорной плотности 54 - по неклассифицированной выбор­ ке 240, 272 - без обучения, в которых исполь­ зуются функции Роббинса 271 - при обучении с учителем и без него 7 - Парзена 176, 182
- при самообучении 9 - , свойства 37 Оценивание байесовское 52 - по классификационным наблюде- ниям 170 - при самообучении 21, 27 - - , определение 28 Оценка квазибайесовская I О - конечных смесей из бесконечного семейства 277 - максимального правдоподобия 49 - - - для задач с двумя нормаль- ными категориями 243 - по минимальной нормированной среднеквадратической ошибке (МНКО) 258 - моментов параметров смеси бино­ мпальных плотностей 336 - скорости сходимости вероятностей ошибочных решений 186 ·_ сверхэффективная 256, 260 - с использованием функции Роб- бинса 10 -' - функции плотности категории 9 - , управляемая решениям» 318, 320 - ,- - , основанными на байесов- ском подходе 11 О Оценки эффективные 42 Оцеиок сходимость 326 Плотность вероятности реrулярная 44 - - , представление с помощью ор­ тонормальных базисных функций 118 Полпномиальное распределение 71 Понижеиие размерности - - вектора измерений 343 - - , нелинейные соотношения 378 - - при помощи процедуры Грам - Шмидта 353 - - , прагматический способ 373 - - , принципы 347 - - , структурная схема 352 - - совместное 374 Понятие идентифицируемост,1 7 Порядковые статистики 114 Последовательная коррекция 62 Правила ближайшего соседа 5, 9, 174, 177-180 - - -, «предварительная обработ- ка» 217 .- Ковера - Харта 9 - Фикса и Ходжеса 9 Правила выбора решений 8 - - -, когда каждая категория со- ответствует смеси нормального распределения 164 -, мииимизирующие средний и апос­ териорный риск 137 - - - для нормального распределе• ния 155, 157, 160 - - -, обозначения 12 - - - основанные па выборке 152, 154 - - -, основанные на локальной оценке плотности 174 - - -, реализованные с помощью фильтров 157 Предварительиая обработ1,а (выделе­ ние признаков) IG Преобразование, максимизирующее расстояние 357 Признаки для временных последова­ тельностей 389 Простая функция потерь 55 Пространство наблюдений (измере­ ний) 14, 20 - параметров 20 Процесс ортонормализации Грам - Шмидта 19 Пространство классов 14 - признаков 14 - решений 14 Процедура Кифера Вольфовица 88, 98 - -, обобщение 92 - Дворецкого 90 - Робенса - Монро 91, 100 - Фрезера 116 Процедуры выбора решений 336 - оценивания параметров 126 - понижения размерности 7 Псевдодетермииированный поиск экстремума 267 Равномерная плотиость на круге 314 Различие классификации nри обуче­ нии с учителем и самообучении 1.6 - понятий оценивания и адаптации 336 Разрешение смесей 28 Распознавание образов - - в медицинской диагностике 336 - -, прагматический подход 381 - -, правила выбора решения 135 - - статистической проверкой ап· риорных сведений 393 Распределение Дирихле 113, 208, 213 - при конечном дискретном парамет- рическом пространстве 85 - Пуассона 82 -- Релея 83 - Уишарта 59, 77 - экспоненциальное 84 Редукция размерности 14 Рао - Крамера нижняя граиица 45 Риск, выраженный через вероятности решения 147 - при малом объеме выборки 153 405
Селекция в выделение првзнаков 34'3 С~1ейства параметрические 20 - функций распределения 20 Скорость сходимости риска 210 -- функций q 211 Смеси идентифицируемые 29 Смесь 21 Смещенность 42 Состоятельность 42 Сравненне эвклидовой меры расстоя­ ниfr 363 Среднеквадратическая ошибка (СКО) 119 Средний риск 154 - - при использовании правила вы­ бора решения, основанный на вы­ борI<е 148 - - при малых размерах выборок 202 Средняя относительная квадратиче­ сr<ая ошибка 258 Стохастическая аппроксимация (С. А.) 7, 17, 86, 243, 260 - -, байесовский подход 110 - -, использующая функцию инфор- мации 101 - -, связь с баiiесовским оценива­ нием 87 - -, связь с оцениванием по крите­ рию максимального правдоподобия 88 Субоптимальный метод выбора реше- ния на основе выборок 335 Сходимость 37 - моментов 209 Сходство по наличию общих ближай­ ших соседей 314 Таблица логических операций 401 - Т!IПОВЫХ функций 400 Т(:орема выборок (КотеJrьникова) 102, 346 - Фубини 150 Теория аппроксимации 7 - обработки изображений 336 - распознавания образов 15 Толерантные области 8, 112, 117, 196 - -, не зависящие от распределения 498 - - круговые 118 Точечный риск 153 Транспонированные векторы 354 Треугольные плотности вероятности в задачах классификацни 200 Упорядочивающие функции для мно­ гомерных наблюдений 114 Устройство для выработки оценки 325 -, реализующее управляемый реше- ниями алгоритм 335 Функция информации 121, 242 - испытательная 289 - квазиортогональная 297 - плотности вероятности 162 - расстояния 194 - Роббинса 270, 27 4 - регрессии 86, 255, 264 Центр кластера 21 О Цепное отображение 294 Шварца неравенство для векторных пространств 46 Эмпирические байесовские процедуры 172 Эффективность 42
Оглавление От редактора перевода Предисловие ... Список обозначений Глава I. Введение . . . . . . . . . 1.1. Применение в медицине, соцнологии и военной технике (15). 1.2. Обозначения векторов и матриц (18). 1.3. Обозначения для оцени­ вания при самообучении (20). 1.4. Зависимые выборки, нестационар­ ные распределения вероятностей (26). 1 .5 . Оценивание при самообуче­ нr1и для случая, коrда категории выборки классифицированы (27). 1.6 . Разрешение смесей (28). 1.7. Определение оценивания при самообу­ ченни (28). 1 .8 . Идентифицируемые смеси (29). Список литературы (35). _ Г л а в а 2. Элементарные свойства оценок 2.1 . Введение (37). 2 .2 . Сходимость (37). 2 .3 . Состоятельность, смещен­ ность и эффективность (42). 2 .4 . Достаточные статистики (43). 2 .5 . Ус­ ловия регулярности плотности вероятности (44). 2 .6 . Нижняя граница Рао-Крамера (45). 2 .7 . Оценка максимального пр&вдоподобия (49). 2.8 . Байесовсrше оценивание (52). 2 .9 . Байесовская оценка вектора средних (1ювариационная матрица известна) (55). 2 .10. Байесовские оценки вектора средних и ковариационной матрицы ,(59). 2 .11 . Вос­ производящие плотности вероятностн и байесовские оценки (64). 2.12 . Стохастическая аппроксимация (86). 2 .13. Применение стохасти­ ческой аппроксимации х смеси нормальных плотностей (93). 2 .14 . При­ мер. Функция регрессии, связанная с методом макс·имальиоrо правдо­ подобия (96). 2 . 15. Стохастическая аппроксимация, использующая функцию v (Ь) (97). 2.16. Gтохастическая аппроксимация, использую­ щая функцию информации (101). 2 .17 . Исключение мешающих пара­ метров ( 102). 2 .18. Маргинальные апостериорные плотности вероятно­ сти компG>Нент Ь (106). 2 .19. Байесовский подход к стохастической аппроксимации ( 110). 2 .20. Оценка, управляемая решением, основанная на байесовском подходе (110). 2 .21 . Толерантные области и их по­ строение ( 112). 2 .22 . Представление плотностей вероятности с по­ мощью ортонормальных базиснь1х функций (118). 2.23. Сравнение весо­ вых функций и функций концентрации ( 120). 2.24. Функция информа­ ции ( 121). 2 .25. Свойства функции 1') (Ь, Ь*) и v(Ь, Ь*) ( 124). 2 .26. До­ казательство того, что апостериорная плотность вероятности максими­ зирует энтропию (126). Задачи (130) Список литературы (132). Гл а в а 3. Правила выбора решения, используемые в распознавании образоп 3.1. I3в!:','\C'Hl!C' (135). 3 .2. Прашrла выбора решения, м11ннм11зирующнс cpcдшri"r риск н ~постсриорныrr риск (137). 3.3. Средниrr рпск прн нс- 11о.rн,зовани11 правила выбора решения, основ~нного на выборке ( 148). 3.4. Правило выбора решения для нормального распределения (155). Задачи (165). Список литературы (168). Гл а в а 4. Оцеииваиие по классифицированным наблюдениям . . 4.1 . Введение (170). 4 .2 . Введение в непараметJ)ическое оценивание плотностн (173). 4 .3 . Правила выбора решення, основанные на ло- 1:,1льm,,х L>l!CIIкax плотности ( 174). 4 .4 . Границы Ковер а -- Хпрта л.1я 1NN2-II]1:1в1r 1111 при двух категорнях (183). 4 .5 . kNN 2 -правнло с оп{азом 5 7 10 15 37 135 170 407
от решения (186). 4 .6. Верхняя граница для значений риска kNNз-пра­ вила (189). 4 .7 . Примеры мер расстояния при оценивании для kNNз­ правила ( 190). 4 .8. Состоятельность kNNз-правила при увеличении k; (193). 4 .9. Моменты риска для kNN 3-правила (194). 4 .10 . Асимптотиче­ ская оценка апостериорного риска для kNN 3-правила (202). 4 .11 . Асим­ птотические моменты риска для kNN 3-правила при фиксированных зна­ чениях k (207). 4 .12 . Скорость сходимости риска (210). 4 .13 . Предвари­ тельная обработка для правил ближайших соседей (217). 4 .14 . Адаптив­ ные пороговые элементы (225). 4 .15 . Адаптивное построение выбороч­ ного множества (230). 4 .16 . Кусочно-линейные дискриминантные функ­ ции (231). Задачи (233). Список литературы (237)- Г лав а 5. Оцениваиие по неклассифицированным наблюдениям . 240 5.1. Введение (240). 5.2. Введение в байесовскую теорию (244). 5.3. Байесовское решение (246)- 5.4. Методы кластеризации (283). 5.5. Оценка, управляемая решениями (318). 5.6. Дополнительная лите­ ратура (335). Задачи (337). Спнсок литературы (338). Гл а в а 6. Понижение размерности: селекция и выделение признаков 343 6.1. Введение (343). 6.2. Выделение признаков (344). 6.3. Шесть прин­ ципов понижения размерности (347). 6 .4 . Выбор признаков по крите- рию минимальной среднеквадратической ошибки (350). 6.5. Использо­ вание преобразования Грам-Шмидта над векторами измерений (353). 6.6. Транспонированные векторы (354). 6.7. Матрицы рассеяния (355). 6.8. Максимизация расстояния между классами (М=2) (358). 6.9. Ми­ нимизация расстояния внутри классов (360). 6 .10 . Непараметрический метод Патрика-Фишера селекции признаков (362). 6 .11 . Байесовский подход к задаче снижения размерности (371). 6 .12 . ПрагматнческиiI способ поиижеиия размерности (373). 6 .13 . Нелинейные соотношения для снижения размерности (378). 6.14. Использование априорных дан- ных для отображения пространства с эвклидовой метрикой (381). Спи- сок литературы (392). Гл а в а 7_ Распознавание образов статистической проверкой априор- ных сведений 39:' 7.1. Введение (393). 7.2. Замечания (394). 7.3. Полезные свойства функ- ций f (xll) (396). 7 .4 . Основы для введения структуры (398). 7.5. Со­ ставление программы (401). 7.6. Вариант обучения без учителя (401). 7.7 . Заключение (402). Список литературы (402). Предметный указатель 403 ИБNo126 ЭДВАРД А. ПАТРИК: Основы теории распознавания образов Перевод с английского В. М. БАРОНК:ИНА, Б. А. СМИРЕНИНА, Ю. С. ШИНАК:ОВА Сдано в набор !5.03.79. Бумага типограф. No 2. 25.28 уч.-изд. л. Под редакцией Б. Р. Лев п на Реда,пuр Jl. Н. Гутч1111а Переп.,ет xyдoЖI!lfha Ю. А. Давыиова Ху.10жествеп11ыfi ре!],актор Н. А. Игнатьев Технический редактор И. В. Орлова Корректор Н. М. Давыдова Подписано в печать 13.02 .80 . Гарнитура литерат. Печать высокая. Тираж 7000 экз. Зак. 92! • Формат бОХ90 1/1 в. Объем 25,5 усл. п. л. Цена2р.50к. Издательство «Советское радио», Москва, Главпочта,1т, а/я 693 Московская типография No 4 Союsп,мнгr~фпрома Госуд~рстnенного комитета СССР по ДC'Jia\l 11 \ДЭTt'~'ILCTB, J!О.'l{!ГОафtш II KJIHЖJloi1 1opron.1и ;\\осква, I29IJ4I, Б. Переяс11а~ская, 4ti