Текст
                    А.И. Галушкин

А. И. Галушкин СИНТЕЗ МНОГОСЛОЙНЫХ СИСТЕМ РАСПОЗНАВАНИЯ ОБРАЗОВ «ЭНЕРГИЯ»- МОСКВА • 1974
6П2.1.082 Г 16 УДК 62-50 :007 Foe, n- f научив 0иблис.г ЭКЗЕ;;ГЪ.<о читального Зала Галушкин А. И. Г 16 Синтез многослойных систем распознавания об разоа. М., «Энергия», 1974. 368 с. с ил. 30501*582 ------------204-74 051(01|-74 6П2.1.082 (6) Издательство «Энергия», 1974 г.
ВВЕДЕНИЕ Настоящая работа ставит перед собой две задачи. Пер- вая заключается в попытке построения теории многослой- ных систем распознавания образов, вторая — в построе- нии адекватных моделей некоторых простейших нейрон- ных ансамблей. Всю логику предлагаемых методов синтеза многослойных систем распознавания образов определяла первая задача, вторая лишь в самых общих чертах направ- ляла исследования. Автор придерживается мнения академика В. М. Глуш- кова относительно важности задачи распознавания обра- зов в проблеме искусственного мышления. В проблеме искусственного мышления можно выделить следующие аспекты. 1. Философский, методологический аспект, связанный как с работами В. И. Ленина по теории отражения, так и с современными работами по системной методологии и не- классической логике. Значительное место здесь должны занимать результаты работ академика П. К. лАвохина, ка- сающиеся интегративной деятельности мозга. 2. Нейрофизиологический аспект, в котором,- по мнению автора, необходимо выступать с позиций бионики, черпая для формальных построений информацию о строении и работе отдельных клеток и совокупностей клеток мозга человека и животных. Данная информация должна быть в первую очередь представлена работами биофизиков и нейрофизиологов. К данному аспекту отнесем психологи- ческий аспект, результат которого, так же как и в нейро- физиологическом аспекте, заключается в информации для некоторых формальных построений, полученной эмпири- ческим путем в процессе работы с естественным мозгом. Сюда же, естественно, следует отнести эвристическое про- граммирование. 3. Формальный аспект, в котором в настоящее время в постановочном плане нет полной ясности. Акцент здесь делается, пожалуй, лишь на четырех в настоящее время *• 3
мало связанных между собой вопросах: синтез семиоти- ческих систем, синтез систем распознавания образов, син- тез надежных систем из ненадежных элементов, синтез систем, доказывающих теоремы. 4. Аспект, связанный с разработкой специализирован- ных систем, реализующих алгоритмы, полученные в ре- зультате рассмотрения формальных методов. При доста- точно высоком теоретическом уровне построения алгорит- мов, реализуемых специализированными системами, ос- новной вопрос здесь заключается в привлечении новой технологии, связанной с использованием интегральных схем, схем на молекулярном уровне, голографических методов, а также методов, связанных с кристаллической и коллоидной химией. Проблему построения указанных специализированных систем, по нашему мнению, необхо- димо связывать с проблемой построения ЦВМ четвертого поколения. Предлагаемая работа касается в основном одного из вопросов формального аспекта, а именно синтеза систем распознавания образов, и в некоторой степени аспекта, связанного с разработкой специализированных систем рас- познавания образов. Если придерживаться классификации подходов к синтезу систем распознавания образов, изло- женной в [Л. 15], то в данной работе мы не касаемся ме- тодов, связанных с эвристическим поиском узко специали- зированных способов распознавания. Основное внимание уделяется построению более или менее универсальной си- стемы . В книге содержится систематическое изложение методов синтеза многослойных (в определении Ф. Розенблатта) систем распознавания образов. Книга построена по плану, представленному в табл. В-1, где показаны основные этапы синтеза (исключая введение и заключение), а также взаимосвязь между ними. Основой для рассмотрения яв- ляется системный подход к синтезу алгоритмов распозна- вания образов. Ниже дается краткая характеристика этапов синтеза многослойных систем распознавания образов. Многослой- ность понимается как особое свойство структуры преобра- зования, осуществляемого разомкнутой системой распозна- вания (СР) при топологическом, а не символическом его представлении. Ф. Розенблаттом были рассмотрены многослойные си- стемы, где элементы в каждом слое находятся в равноправ- 4
Таблица В-1
пом топологическом отношении к элементам других слоев. Стой образуют сенсорные элементы, являющиеся источни- ком сигналов для ассоциативных элементов трехслойпого персептрона. Ассоциативные элементы также образуют слой элементов, входом которых являются выходные сиг- налы сенсорных элемеитов, а выходные сигналы поступают на вход элементов следующего слоя. Многослойной систе- мой называется система элементов с объединением их в от- дельные слои с топологически равными свойствами и раз- личным характером связей между слоями элемеитов. В гл. 1 при исследовании характеристик входного сиг- нала системы распознавания вводится характеристика ква- лификации учителя, позволяющая получить выражение для функций распределения входного сигнала, включаю- щих в себя как частный случай известные режимы обуче- ния и самообучения. В общем случае квалификация учи- теля вводится различной для образов, принадлежащих объективно различным классам. Показывается возмож- ность введения более тоиких характеристик входного сиг- нала, например «собственного мнения учителя о своих способностях». Эта характеристика входного сигнала СР, вероятно, будет полезна при разработке алгоритмов на- стройки серийных СР с помощью человека или реальных технических устройств с ограниченными возможностями. Постановка задач обучения и самообучения СР в данной книге практически совпадает по содержанию с постановкой, рассматриваемой в работах [Л. 1, 3, 4, 8, 9, 14, 15, 31, 40, 41 ]. Формальная постановка задачи обучения СР заклю- чается в аппроксимации заданной выборочно функции ука- заний учителя некоторым автоматом, свойства которого заданы. Формальная постановка задачи самообучения си- стемы распознавания в данной книге рассматривается как выделение в пространстве входного сигнала областей мод функции распределения совокупности образов на входе. Формальная постановка обучения СР учителем, имеющим конечную квалификацию, изложена в гл. 2. Существующие разработки в области распознавания образов в основном относятся к стационарным образам, когда распределение входного сигнала СР не зависит от времени. В данной книге рассматриваются нестационарные образы, когда распределение входного сигнала СР зависит от времени. В качестве критериев первичной оптимизации многослойных систем распознавания образов в режиме обучения рассматривается в основном класс критериев 6
теории статистических решений, таких как критерий мак* симума апостериорной вероятности, критерий минимума средней функции риска, критерий минимума средней функ- ции риска при условии равенства между составляющими средней функции риска для образов различных классов, критерий минимума средней функции риска при условии задания значения составляющей средней функции риска для одного из классов. В режиме самообучения предпосылкой формирования критерия и функционала первичной оптимизации СР слу- жит представление плотности распределения входного сиг- нала в виде многомодальной функции, где каждой моде с некоторой вероятностью соответствует класс. В качестве критериев первичной оптимизации СР в режиме самообу- чения на первом этапе исследований используются крите- рии, предложенные М. И. Шлезингером и развитые в ра- боте [Л. 40]. Данные критерии потребовали естественного обобщения при переходе к континууму классов и решений СР. Отдельным вопросом, рассматриваемым в книге, яв- ляется вопрос формирования функционала первичной оп- тимизации СР в случае произвольной квалификации учи- теля. После построения оптимальной модели СР (гл. 2) про- цедура синтеза идет по трем направлениям в зависимости от имеющейся априорной информации (табл. В-1). Кон- структор СР должен на данном этапе определить, по какому из направлений необходимо реализовать оптимальную мо- дель, рассматривая имеющуюся у него в наличии априор- ную информацию. Условно процедура выбора направле- ния реализации оптимальной модели СР представлена граф-схемой на рис. В-1. Здесь: ребро —результаты по- строения оптимальной модели СР; вершина 1 — факт на- личия или отсутствия информации о представлении услов- ной плотности распределения образов внутри классов в не- которой функциональной форме с точностью до конечного числа параметров; ребро g2— реализация оптимальной модели СР с настройкой по разомкнутому циклу, если есть информация о представлении указанной условной плот- ности в некоторой функциональной форме с точностью до конечного числа параметров; ребро g3 — реализация оп- тимальной модели СР с настройкой по замкнутому циклу, если данная информация отсутствует; вершина 2 — факт наличия или отсутствия фиксации структуры разомкнутой СР; ребро g4 — реализация СР с фиксированной структу- 7
Рис. В-1. Граф вы- бора направления ре- ализации системы распознавания. стей имеется, то ее реализации СР. рой, настраивающихся по замкнутому циклу; ребро gb — реализация СР с переменной структурой. Отметим, что в простейшем случае системы распознава- ния двух классов с двумя решениями структура разомкну- той СР определяет общий вид разделяющей поверхности в многомерном пространстве признаков. Разделы гл. 3, посвященные построению, особенностям реализации и оценке точности СР, настраивающихся по разомкнутому циклу, носят в данной книге вспомогатель- ный характер, дополняя общую мето- дику синтеза СР, основным предме- том рассмотрения которой в книге являются моменты, связанные с реб- рами g4 и g6 графа на рис. В-1. В случае СР, настраивающихся по разомкнутому циклу, априори с точ- ностью до конечного числа парамет- ров задаются выражения для услов- ных плотностей распределений сово- купностей образов внутри классов. Подобное априорное задание указан- ных условных плотностей, естест- венно, резко ограничивает возмож- ности СР при распознавании образов с характеристиками, изменяющимися в широких пределах. Однако если информация о виде условных плотно- использовалие приводит к упрощению Необходимо сказать несколько слов о связи математи- ческой статистики и теории статистических решений с син- тезом СР, настраивающихся по разомкнутому циклу. Пред- мет математической статистики и теории статистических решений представляет собой изучение распределений ре- альных и искусственных случайных процессов и изучение дискриминантных свойств данных распределений. Предме- том теории распознавания образов является изучение ди- скриминантных свойств распределений (в этом случае син- тез СР, настраивающихся по разомкнутому циклу, сильно пересекается с теорией статистических решений), а также изучение распределений па более высоком уровне, чем в ма- тематической статистике, при переходе к континуальным моделям с помощью многослойных СР. Именно поэтому при построении СР, настраивающихся 8
по разомкнутому циклу, условная плотность может иметь вид любого типового распределения, рассматриваемого математической статистикой. Классификация таких рас- пределений приведена в книге в соответствующей главе. Приведены также результаты построения СР, настраиваю- щихся по разомкнутому циклу и оптимальных для неко- торых типовых распределений, а также для совокупности распределений. Построение СР, настраивающихся по ра- зомкнутому циклу, методологически проводится в режи- мах обучения, самообучения и при произвольной квалифи- кации учителя. Реализация СР, настраивающихся по ра- зомкнутому циклу, является самостоятельной задачей. Значительное сокращение объема памяти и времени вычис- лений при этом достигается за счет использования рекур- рентных методов реализации оптимальных фильтров оценки моментов нестационарных дискретных многомерных случайных процессов [Л. 48]. Проблема аналитической оценки точности СР, настраи- вающихся по разомкнутому циклу, является мало иссле- дованной. Общая методика оценки точности таких СР со- стоит из следующих этапов: 1) для априорных характеристик входного сигнала ис- следуется точность оценки параметров распределений; 2) с учетом общего вида условных распределений, и в частности общего вида разделяющей поверхности, оце- нивается точность вычисления настраиваемых параметров СР; 3) по результатам предыдущего этапа и характеристи- кам входного сигнала СР определяется распределение ве- роятности правильного распознавания. В книге данная методика определяется н иллюстри- руется на случае нестационарных образов с частными ти- повыми распределениями. В случае конечной памяти СР (блока настройки СР) имеем дело с системой со случайными в текущий момент времени параметрами, настраивающимися по характери- стикам входного сигнала. Вычисленное в текущий момент времени значение вероятности правильного распознавания даже по генеральной совокупности образов является слу- чайной величиной, распределение которой получается ус- реднением по множеству всех состояний системы со слу- чайными параметрами. При этом основной целью исследо- вания являются параметры распределения (математическое ожидание, дисперсия и т. д.) вероятности правильного рас- 9
познавания в зависимости от характеристик нестационар- ных образов, памяти СР, времени упреждения решения СР. Необходимо отметить, что аналитическая оценка точ- ности СР, настраивающихся по разомкнутому циклу, яв- ляется трудной математической задачей. Рассмотрим основные этапы синтеза системы распозна- вания с фиксированной структурой, настраивающейся по замкнутому циклу (гл. 4). Под структурой разомкнутых СР понимается структура преобразования, осуществляе- мого СР на этане распознавания. Описание и выбор струк- туры разомкнутых СР, как следует из табл. В-1, являются первыми при рассмотрении направления, связанного с син- тезом СР с фиксированной структурой, настраивающихся по замкнутому циклу. При настройке по замкнутому циклу в данном случае мы отказываемся от необходимости апри- орного задания вида условных плотностей для совокупно- стей образов внутри классов и считаем их произвольными. Вместо априорной информации о виде условных плотно- стей при рассматриваемом подходе задается априорная информация об общем виде и структуре преобразования, осуществляемого системой на этапе распознавания. Нейрон в настоящее время признается основным эле- ментом нервной системы человека и животных. Изучение организации нейронов показало, что их расположение в нервной ткани и взаимосвязь подчиняются некоторым, пока еще мало изученным законам. Одним из таких зако- нов является расположение нейронов по слоям с элемен- тами связи между различными слоями нейронов. Подобное топологическое свойство достаточно хорошо изучено на примерах головного мозга, а также зрительного анализа- тора. Данное свойство нейронной сети является мало изу- ченным с формальной точки зрения. Основная цель на- стоящей книги заключается в получении ответа на во- просы: почему система распознавания образов должна строиться как нейронная сеть? Как выбрать топологию этой сети (число слоев, число элементов в слое, характер свя- зей, характер структуры)? Как, наконец, синтезировать алгоритм адаптации нейронной сети? Объективная необходимость построения многослойных СР различной структуры в книге обосновывается только с формальной точки зрения. Однако эго позволяет не только приблизиться к конкретным нейронным структурам [Л. 11, 21, 24], введенным с точки зрения нейрофизиоло- гического, а не формального аспекта, по и рассматривать Ю
намного более сложные структуры, работающие в более общих режимах, чем режим распознавания. С этих пози- ций автором на одном из этапов исследований была выдви- нута рабочая гипотеза: однородная многослойная нейрон- ная сеть может выполнить любую операцию. Конечно, дан- ная гипотеза выражена несколько упрощенно. Однако она позволила показать возможность применения излагаемой методики синтеза для решения с помощью многослойных систем следующих задач: обращение матриц, скалярное перемножение векторов, реализация преобразователей чи- сел из двоичной системы в десятичную и обратно. Очевидно, задача пороговой логики является частной по отношению к задаче, рассматриваемой в книге, так как представляет собой случай двоичных пространств призна- ков, указаний учителя и решений. Уже сейчас очевидны ограничения формальных подходов к синтезу сетей из ли- нейных пороговых элементов (ЛПЭ), реализующих логи- ческие функции, в плане ограниченности размерности ло- гических функций и структуры сетей из ЛПЭ [Л. 12, 66]. Те частные применения неформальных методов синтеза систем, реализующих пороговые функции ГЛ. 5, 12], по- казывают, по нашему мнению, единственность неформаль- ного подхода к решению задачи с помощью многослойных систем из пороговых элементов для логических функций большого числа переменных. Это открывает широкие воз- можности применения разработанных ниже методов син- теза многослойных СР для синтеза узлов и блоков совре- менных ЦВМ на пороговых элементах с настраиваемыми па этапе синтеза коэффициентами, узлов и блоков мини- мальной сложности и максимальной надежности. В заключение вопроса, связанного с выбором и описа- нием структуры разомкнутых СР, отметим три основных перспективных направления применения теории много- слойных систем распознавания образов: 1) построение многослойных специализированных си- стем распознавания образов; 2) построение блоков и узлов современных ЦВМ в виде многослойных структур на пороговых элементах с настраи- ваемыми коэффициентами; 3) построение формальных моделей функций мозга, основываясь на том, что формальный и нейрофизиологичес- кий аспекты независимо друг от друга привели к необ- ходимости построения некоторых частных моделей (а именно СР) в виде многослойных систем с однородной структурой. 11
Формальным аппаратом, используемым при анализе разомкнутых СР, является аппарат, основанный на точных методах вероятностного анализа многомерных нелиней- ных систем. Переход в основном к анализу распределений и моментов распределений ошибок СР обусловливается тем, что результаты данного анализа, как показано ниже, формально не зависят от сложности и вида разомкнутой СР, за исключением характеристик пространства призна- ков и пространства решений. Этот существенный момент в дальнейшем широко используется на этапах выбора или формирования функционала вторичной оптимизации, а также построения замкнутой СР (гл. 5, 6, 7). Под функционалом вторичной оптимизации понимается функционал, выражаемый через параметры распределений текущих сигналов в СР и непосредственно минимизируе- мый в многослойных СР при настройке по замкнутому циклу. Па данном этапе синтеза рассматриваются в основ- ном два вопроса. Первый вопрос связан с исследованием соответствия используемых в известных работах функцио- налов вторичной оптимизации некоторым критериям пер- вичной оптимизации. Предметом рассмотрения здесь яв- ляются известные адаптивные СР, такие как АДАЛИН, матрица Штайпбуха, трехслойной персептрон Розенблатта (вернее, его настраиваемый выходной блок), а также не- которые СР с функционалами вторичной оптимизации, рассмотренными Я. 3. Цыпкиным. В качестве основного недостатка таких подходов отмечается, что в большинстве случаев не рассматривается соответствие выбираемых функ- ционалов вторичной оптимизации конкретным критериям первичной оптимизации. Это приводит к практическому отсутствию работоспособности некоторых СР при много- модальных распределениях входного сигнала. Вторым, основным па данном этапе синтеза вопросом является формирование в СР функционала вторичной оп- тимизации, соответствующее заданному критерию первич- ной оптимизации. Соответствие здесь понимается в смысле совпадения параметров СР при обеспечении минимума функ- ционалов первичной и вторичной оптимизации. В книге изложена общая методика формирования функционала вторичной оптимизации, соответствующего заданному кри- терию первичной оптимизации. Приведены результаты применения данной методики для многослойных СР различной структуры и критериев первичной оптими- зации. 12
Вопросу организации процедуры поиска экстремума функционала вторичной оптимизации СР в литературе уде- ляется значительное внимание. Нас в основном будут ин- тересовать вопросы правомочности и целесообразности применения той или иной градиентной процедуры (Нью- тона, релаксационной, паискорейшего спуска, стохастиче- ской аппроксимации и т. д.) поиска локального экстре- мума. Применение итерационных методов при составлении стандартных программ поиска экстремума функций многих переменных имеет свои особенности при построении адап- тивных систем. Они связаны в основном с тем, что при не- известных характеристиках входного сигнала в условиях так называемой априорной недостаточности даже при фик- сированной структуре разомкнутой СР ничего нельзя ска- зать о виде функционала вторичной оптимизации кроме того, что он имеет несколько локальных экстремумов, все или по крайней мере некоторые из которых должны быть найдены в процессе настройки по замкнутому циклу. Именно этот факт делает необходимым введение элементов случайности в процедуру поиска, связанных с выбором множества случайных начальных условий для некоторой градиентной процедуры. Основным вопросом исследования при этом является вероятность нахождения некоторого числа локальных экстремумов функционала вторичной оптимизации в зависимости от числа выбросов случайных начальных условий градиентной процедуры поиска локаль- ного экстремума. Одна из задач, которую нужно решать на этапе построения замкнутых систем, заключается в том, чтобы оценить вектор градиентов функционала вторичной оптимизации в СР. Это можно сделать двумя путями: 1) введением поисковых колебаний и детектированием; 2) нахождением оценки вектора градиентов в виде вы- ражения через сигналы в СР (выходные и промежу- точные). В первом случае имеем дело с поисковой СР, во втором— с аналитической. Естественно, предпочтительнее построе- ние СР в виде аналитических систем, настраивающихся по замкнутому циклу, так как введение поисковых колебаний вводит дополнительные шумы в систему. Однако построе- ние СР аналитическими средствами ие всегда возможно. Ограничения аналитического подхода показаны ниже при подробном рассмотрении этапа построения. Основное вни- мание на этапе построения замкнутых СР уделяется реали- 13
зации заданных критериев первичной оптимизации в мно- гослойных СР различного вида. Важным является вопрос построения многослойных СР в режимах самообучения и произвольной квалификации учителя. Методология построения замкнутых СР здесь та же, что и в режиме обучения. В этом проявляется принцип единого подхода к обучению и самообучению, проходящий красной нитью через всю методику синтеза многослойных СР, излагаемую в данной книге. Исследование замкнутых СР (гл. 8) является заключи- тельным для многослойных СР с фиксированной структу- рой, настраивающихся но замкнутому циклу. На данном этане синтеза решается ряд вопросов, связанных с оценкой качества работы разомкнутых многослойных СР. Первым таким вопросом является выбор начальных условий для настройки коэффициентов многослойной СР. Выше было отмечено свойство многоэкстремальности функционала вторичной оптимизации СР. Ввиду этого ниже рассматри- ваются два способа выбора начальных условий: случай- ный, когда нужно найти все локальные и глобальный экс- тремумы, и детерминированный, когда многослойная СР вводится в область глобального экстремума функционала вторичной оптимизации. Вторым вопросом является вы- бор класса типовых входных сигналов многослойных СР, достаточно полного для того, чтобы при данных сигналах можно было в дальнейшем исследовать и сравнивать ка- чество работы многослойных СР. Для систем автоматиче- ского управления подобная задача решена, в частности, выбором в качестве типовых сигналов класса полиномиаль- ных сигналов, где сложность входного, сигнала опреде- ляется порядком полинома. В случае многослойных СР ввиду специфики данных систем сложность входного сиг- нала определяется модальностью условных распределе- ний. Третьим вопросом является выбор оптимальных па- раметров контура настройки многослойных СР, в частно- сти параметрической матрицы системы поиска экстремума функционала вторичной оптимизации. Решение данной задачи возможно аналитическим путем и с использованием методов статистического моделирования. Общая методика аналитического исследования замкнутых СР, настраива- ющихся по замкнутому циклу, состоит из этапов: 1) определение плотности распределения вероятностей для оценки вектора градиентов функционала вторичной оптимизации; 14
2) вывод стохастического дифференциального уравне- ния для изменения в процессе настройки плотности рас- пределения настраиваемых коэффициентов СР; 3) решение данного уравнения; 4) нахождение параметров распределения функционала первичной оптимизации интегрированием по пространству признаков и пространству состояний (пространству на- страиваемых коэффициентов) СР как системы со случай- ным входным сигналом и случайными параметрами. Результаты данного анализа в принципе- позволяют решить и задачу синтеза контура настройки СР по крите- риям, связанным с характеристиками изменения в процессе настройки параметров распределения функционала пер- вичной оптимизации. Однако необходимо отметить, что выбор оптимальных параметров контура настройки аналитическим путем яв- ляется трудной математической задачей. В книге методика аналитического исследования замкнутых СР иллюстри- руется лишь частными примерами. Основным методом ре- шения остается метод, связанный со статистическими ис- пытаниями. Особое внимание здесь уделяется вопросу вы- бора оптимальных параметров контура настройки СР по оценке текущего значения функционала первичной оптими- зации. В книге приводятся результаты исследования боль- шого числа многослойных СР, полученные моделированием на ЦВМ. В целом по данному этапу синтеза многослойных СР необходимо отметить следующее. Рассмотрение класса не- формальных задач, в частности задач распознавания об- разов при неизвестных достаточно сложных функциях ус- ловных плотностей распределения, создает определенные трудности не только при построении самих систем, способ- ных решать подобные задачи, но и при попытке теоретиче- ски оценить качество решения данных задач. Поэтому за- частую приходится прибегать к методам, связанным со ста- тистическим моделированием. Выше было отмечено, что СР с фиксированной структу- рой, настраивающиеся по замкнутому циклу, обеспечивают оптимум при условных плотностях произвольного, не за- данного заранее вида. Однако потенциальное качество та- ких СР ограничено априорной информацией о структуре разомкнутой СР. В гл. 9 рассматриваются методы синтеза СР, структура разомкнутой части которых априори не фик- сируется и является результатом настройки наряду со 15
значениями настраиваемых коэффициентов. При этом в про- цессе настройки выбираются число слоев и число элементов ЛПЭ в слое многослойной СР. В данной книге рассматри- ваются некоторые варианты построения СР с переменной структурой, особенности исследования динамики процесса настройки на уровне исследования зависимости значения функционала первичной оптимизации от числа ЛПЭ в слоях и числа слоев. В конечном итоге СР с переменной структу- рой реализуется в виде однородной многослойной сети из ЛПЭ. В книге, как это видно из табл. В-1, этап выбора инфор- мативных признаков охватывает три направления: СР, настраивающиеся по разомкнутому циклу; СР с фиксиро- ванной структурой, настраивающиеся по замкнутому циклу и СР с переменной структурой. В гл. 10 делается попытка с единой точки зрения взгля- нуть на разрозненные и достаточно многочисленные работы по вопросу выбора информативных признаков и дать на- чало так называемым структурным методам, имеющим объективной предпосылкой своего рассмотрения методы синтеза многослойных СР. Необходимо отметить, что зачастую бытующее в настоя- щее время представление о возможности так называемого предварительного выбора признаков, по мнению автора, является неверным, так как при любой процедуре выбора признаков косвенно или прямо должна быть использована конкретная СР. Именно поэтому с этой точки зрения вся- кая процедура выбора признаков является субъективной, где субъектом является СР конкретного типа. Второй тезис, выдвигаемый автором для утверждения предлагаемого подхода, заключается в «абсолютности» функционала первичной оптимизации как показателя ин- формативности признаков. Именно поэтому оценки, свя- занные с дивергенцией, средней условной энтропией, яв- ляются приближенными и частными. Вышесказанное делает необходимым рассмотрение во- проса выбора информативных признаков после окончания процедур синтеза и исследования динамики СР. По мнению автора, многослойные СР с фиксированной и переменной структурой обладают наименьшей степенью субъективизма по отношению к входному сигналу (предмету исследования с помощью СР), так как синтезируются, исходя из условия отсутствия информации об условных плотностях распреде- ления. образов внутри классов. Именно поэтому в книге Hi
в основном рассматривается применение данных СР для выбора наиболее информативных признаков исходного пространства признаков. Применение и исследование многослойных СР позволяет поставить задачу выбора наиболее информативных призна- ков ие исходного, а промежуточных пространств, форми- руемых выходными сигналами ЛПЭ первого, второго и т. д., выходного слоев СР. Данная задача может трактоваться как задача минимизации структуры (числа ЛПЭ в каждом слое) многослойной СР после окончания настройки ее коэффициентов по замкнутому циклу. Приведенная в книге методика синтеза многослойных СР открывает новые пути для построения качественных специализированных СР. В книге кратко описаны разра- ботанные в настоящее время специализированные СР, от- носящиеся к классу многослойных. Основное внимание при этом уделяется структуре разомкнутой СР, определяю- щей потенциальное качество распознавания. Приводится изложение предложенного автором принципа реализации многослойных СР, когда разомкнутая СР реализуется в аналоговом виде, а блок настройки — на ЦВМ. Показаны результаты макетирования и моделирования многослойных специализированных СР. Ограниченность объема книги не позволила остано- виться на многих важных вопросах теории и практики мно- гослойных СР, решенных автором совместно с теми, кто непосредственно участвовал и помогал ему в работе. Ав- тор выражает свою искреннюю благодарность за помощь, оказанную в работе в области многослойных СР, коллек- тиву сотрудников, принимавших участие в разработке и отладке экспериментальных программ, реализующих многослойные СР. Замечания по книге автор с благодар- ностью примет по адресу: 113114, Москва, Шлюзовая на- бережная, д. 10, издательство «Энергия».
Глава первая ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК ВХОДНЫХ СИГНАЛОВ СИСТЕМЫ РАСПОЗНАВАНИЯ 1-1. Постановка задачи Система распознавания образов (СР) может быть пред- ставлена в виде эквивалентной системы, приспосабливаю- щейся в определенном режиме к внешним условиям. Об- щая структурная схема такой СР изображена на рис. 1-1, где х (л) есть многомерный случайный процесс, представ- ляющий собой последовательность образов иа входе СР, п — дискретный аргумент. Сигнал е (л) определяется как указание учителя о принадлежности текущего образа иа входе СР к тому или иному классу. Каждый класс охваты- вает определенное множество образов, объединенных не- торым общим свойством1. Многомерный выходной сигнал системы распознавания xfe (л) формируется в виде данных СР о принадлежности текущего образа к той или иной об- ласти пространства решений. В связи с этим рассматри- ваются X, Е, Xk — соответственно пространства образов, указаний учителя и выходных сигналов СР. Блок настройки параметров СР, кроме вектора а( п) настраиваемых ко- эффициентов, в общем случае выдает информацию о струк- туре преобразования xk (х), представляющего собой за- висимость выходного сигнала СР от входного; g (п) — век- тор промежуточных сигналов СР. Входным сигналом СР является сигнал [х (я), г (n) 1, одной из характеристик которого является число градаций сигнала в (л) по уровню, определяемое числом классов об- разов. При этом независимо от этого сигнал х (п), имею- щий размерность N, в общем случае может быть как 1 В некоторых работах данное определение образа и класса заменяется соответственно определениями объекта и образа, что по мнению автора, является терминологической тонкостью и не- существенно. 18
дискретным, так и непрерывным по амплитуде. Если г (п) есть одномерный сигнал, квантованный по уровню на две или К градации, имеют дело соответственно с двумя или К классами образов. Если вектор 8 (п) имеет размерность N* и число градаций каждой компоненты его по ампли- туде равно Kq, то число клас- С0В К Для сигнала s (и), имею- щего не дискретное, а непре- рывное распределение, рас- сматривается случай конти- нуума классов, когда задачу настройки СР при общей по- становке можно трактовать как задачу оценки системой некоторого непрерывного па- раметра е распределения/' (х,е) случайного процесса. Рис. 1-1. Структурная схема системы распознавания обра- зов. Конкретную задачу настройки (обучения ) СР можно проил'пе- стрировать следующим примером. Рассмотрим формирование входного сигнала СР в случае кон- тинуума признаков в задаче прогнозирования надежности некото- Рис. 1-2. К формированию пространства признаков и указа- ний учителя в задаче прогнозирования надежности приборов. рого устройства. На рис. 1-2 Xj (to)— кривые изменения во времени некоторого параметра устройства, по которому проверяется надеж- ность при испытании, / — номер испытываемого устройства, х0 — допустимое значение параметра, ниже которого устройство считается негодным. Точка пересечения кривой Xj (1а) с уровнем х0 определяет время работы устройства. Каждой кривой соответствует вектор х/(п), 19
получеешый квантованием кривой по времени на интервале |0, Тй ], где т0 — время испытания устройства, выпускаемого из произ- водства; компоненты вектора х, (п) соответствуют ординатам х; (/0) в точках квантования. Таким образом формируется пространство признаков СР в данной задаче, Указание учителя может быть сформировано следующим об- разом. Априори задается ресурс времени работы устройства То. При этом векторы х{- (л), фиксируемые точкой пересечения кривой Ху (£0) с уровнем х0, лежащим слева от TQ, относятся к первому классу (негодных устройств), а лежащим справа от Tq — ко вто- рому классу (годных устройств). Соответственно этому вводятся две градации (произвольные) сигнала s (п) по амплитуде, в частно- сти равные ±zl. Ось t0 априори может быть разбита на К интерва- лов с указанием сорта устройства, и сигнал е (л) будет иметь К гра- даций по амплитуде (например, е= 1, . , . , К)-, каждому вектору Xj (л) будет приписано свое значение е. В предельном случае при отсутствии процесса априорного раз- биения оси t0 на отрезки системе распознавания образов для каж- дой кривой X; (t0), как вектора х у(л), сообщается указание учителя о времени работы устройства до выхода из строя (пересечения х, (t0) уровня х0) в виде величины, имеющей непрерывное распределение. Задачей исследования характеристик входного сигнала является вывод и анализ выражений для функций распре- деления вероятностей входных сигналов при различной априорной информации о входном сигнале и различных режимах работы системы распознавания. Предметом исследования в каждом конкретном случае могут быть: совместное распределение / (х, е), условное распределение f (х/е) совокупности образов х при задан- ном указании е о принадлежности образов &-му классу, условное распределение f" (е/х), собственные распределе- ния сигналов fx (х) и Д. (е), а также смешанные моменты этих распределений. Введением понятия квалификации учителя создается единый подход к решению задач обучения и самообучения систем распознавания образов. Совместный закон распре- деления распознаваемых входных образов и сигнала ука- зания принадлежности образов к классам представлен на основе указанного единого подхода. 1-2. Совместный закон распределения вероятностей входного сигнала для двух классов образов В задаче обучения СР принадлежность представителей обучающей выборки к тому или иному классу известна с ве- роятностью, равной единице, т. е. учитель дает указание, 20
е)=п /(X. 8) = к какому классу относится сигнал из обучающей выборки. При самообучении сигналы в обучающей выборке не со- провождаются указанием об их принадлежности к тому или иному классу и вероятность принадлежности предста- вителей обучающей выборки, в простейшем случае с дву- модальным распределением, к классам, соответствующим каждой моде, равна не единице, как в случае обучения, а 0,5. Вероятность указания учителя об объективной принад- лежности образов к тому или иному классу обозначим через а. Выражение для совместного закона распределения f (х, е) сигнала х (п), соответствующего последовательно- сти образов, и сигнала 8 (п) указания принадлежности об- разов к классам имеет следующий вид: Pi(l—а)Л(х) + Р2а/2(х) прил=1, Piofi(x) + p2(l—а)/,(х) при е=—1, где Pi и р2 — априорные вероятности появления первого и второго класса, (х) и (х) — законы распределения сигналов Xi (п.) и х2 (п), представляющих в данном случае образы первого и второго класса. Распределение (1-1) является дискретно-непрерывным из-за дискретной записи функции е (п), хотя в принципе его можно записать в непрерывной форме, используя 6-функцию Кронекера. Особенность дискретного представ- ления учитывается далее заменой операции интегрирова- ния по 8 операцией суммирования. Степень квалификации учителя b вводится следующим образом [Л. 26, 50, 51]: b = 2a— 1. (1-2) Отсюда b = 1 при а = 1 —- учитель имеет полную квалификацию, b --- 0 при а - 0,5 — учитель не имеет квалификации. При подстановке (1-2) в (1-1) получаем: ^^^Л(х) + ^^/2(х) при е=1, (1-3) Р1 <(х) 4-—— /2 (х) при 8 — — 1 • Выражения (1-3) и (1-2) относятся к случаю, когда сте- пень квалификации учителя при отнесении им образа из выборок первого или второго класса одинакова и равна Ь. Соответственно одинаковой для этих классов и равной а 21
будет вероятность принадлежности текущего образа клас- сам. Из (1-3) при b = 1 следует совместный закон распре- деления входного сигнала в режиме обучения СР №. pJi w Pifi w При 8=1, при 8— —1. (1-4) Совместный закон распределения жиме самообучения СР при b — О входного сигнала в ре- имеет вид: /(X, в) = yfiW + y№) ^-А(х) + ^-А(х) При 8=1, при 8 = — 1. (1-5) Здесь сигнал 8 (л), являющийся указанием учителя, не несет никакой информации о принадлежности образов к тому или иному классу, так как условные вероятности Г (х/е = 1) и f (х/е = —1) равны между собой. Из (1-3) при b = — 1 имеем: Р>Л(Х) прПЕ=1, №. <0 = 1 , , , , I Р2(2(х) при е = —1. (1-6) В этом случае учитель специально осуществляет непра- вильную классификацию (учитель является «вредителем»). Составим выражения для условных законов распреде- ления вероятностей входного сигнала. По определению условной вероятности }' (Х/Е)=№^, /е W (1-7) где /Е(е) = J /(х, e)dx. После интегрирования выражения (1-3) получим функ- цию распределения указаний учителя в следующем виде: ~~ + -^~(.Рг~~Р1) при 8=1, (Pi—Рг) прпе= — 1. (1-8) 22
Подставив (1-8) и (1-3) в формулу (1-7), получим: Pl (1 — 6>/1W + Ра (1 + Ь) W _ , ПРИ 8 1а , I — 6 (Р1 — р2) (х/е) = Рх (I 4-+ ра(1 — й)/г(х) . ------------------------------ ПРИ с — — 1. 1 _l_ h in._п \ Г Условный закон распределения f" (е/х) определяется аналогично г (е/х) / (X) 00 2 1(х)-= f Ж e)de- pk,ft. (х), —00 k'-=\ (1-10) где интегрирование по дискретному аргументу е заменяется операцией суммирования. После подстановки и интегри- рования имеем: /" (е/х) = P1±^LfM + p^± Plfl (х) 4- Р2/2 (х) при 8 = 1, (1-11) Ра-^ЛМ+Ра-^ Pifi (х> + Рг/2 (х) При Ь — 0 из (1-9) и (1-11) /'(x/ej-fjx), /’(s/xl^faW, при 8 = — 1. что указывает на статистическую независимость сигналов х (п) и 8 (п) на входе СР в режиме самообучения. Обозначим через смешанный момент /-го порядка многомерного случайного процесса х (и) “/= f ... j \ ......-М х X dx2, .... dxK, it, , /, -= 1, .... N. Тогда выражение для моментов распределения (1-3) имеет вид: “П” 1—6 , 1 - Ь , , ,,г 1 + Ь ех =Рт- “4 + а‘2 + (““ !> Pi “/1 + + (— 1) р-2 -^-“/2, 23
где а;1 и а/2 — смешанные моменты /-го порядка совокуп- ностей образов первого и второго класса. При четном и нечетном i соответственно е1х' I Piajb № ^b(p2ai2—p1al-l). Отсюда следует, что квалификация учителя влияет на моменты распределения f (х, е) при нечетном i. Неравная квалификация учителя относительно образов первого и второго класса В практических задачах^может встретиться случай, когда квалификация учителя системы распознавания обра- зов или вероятность принадлежности текущего образа на входе СР будет различной для первого и второго класса. Введем в рассмотрение стохастическую матрицу ап ai2 1 Г 1— а3 а31 а22 J [ 1 а2 где а,/ — вероятность отнесения учителем образов /-го класса к /-му классу. В данном случае ( Pi(l — П1)Мх) + ргоЛ(х) при в=1, х’ е)“Ч раЛМ + РзО— aOAsW при 8=—1 О — 61) I / , , (t + М £ , , , Р1 —' /1 W + Рз 2 К (х) при 8=1, + ПРИ8=-1. (1-13) Рассмотрение различных вариантов для соотношений между величинами bi и Ь2 может привести к появлению интересных н значительных для практики режимов работы СР. Например, прн = 1 и Ь2 = 0 квалификация учи- теля относительно первого класса равна единице, а по от- ношению к представителям второго класса учитель не имеет информации. При этом /(X, е) = ~ PJi (х) при 6 = 1, РгМх) npitf,= —1. (1-14) 24
Данный случай в каком-то смысле является промежу- точным между режимами обучения и самообучения. Моменты распределения, определяемые из (1-13), имеют вид: —;—-.п ех = р2а/з + Pia/i при * четном; -;—.п exJ ~ £>2Р2а/2 — ^iPia/i при * нечетном. Совместный закон распределения при наличии «собственного мнения учителя о своих способностях» Объективно учитель делает некоторое количество ошибок при обучении системы распознавания образов. Выше рассмотрены слу- чаи, когда учитель сам до конца самонадеян, т. е. думает, что обла- дает полной квалификацией. Введем понятие «собственного мне- ния учителя о своей квалификации», характеризуемого коэффици- ентом с. Тогда при с^> b имеем «самомнение учителя», равное с—Ь. а при с<^Ь «скромность учителя», равную Ь—с. Встает вопрос ис- следования влияния на работу СР указанных характеристик и оп- ределения оптимального с некоторой точки зрения соотношения истинной квалификации учителя и его «собственного мнения учителя о своих способностях». Аналогичные задачи можно ставить и в плане «вредительства» при — 1 <5 b<z0. Обозначим через е/ сигнал указания учителя, который до конца самонадеян. Выше было принято, что е — Неуверенность учи- теля в своих способностях, определяемая через степень его квали- фикации, состоит в том, что появление образа первого или второго класса констатируется учителем, т. е. е. = — 1 или 8 = 1, с веро- ятностью (1 с)/2. Соответственно принадлежность этих же обра- зов ко второму или первому классу определяется с вероятностью (1—с)/2. Совместное распределение случайных величин 8 и я' можно записать в виде 1 -1-с при в = 1 при &' — 1, 1 — с при 8 - — I Г (е. е' - при 8 = — 1 при е' = — 1 р при 8 = 1 (1-15) Отсюда следует: 1 — с р‘~ in '+С при Е = 1 , («) = 1 -1- с , 1 — с р —— + р-2 При 8 = — 2 2 25
Из совместного распределения (1-3), при замене в нем е па и (1-15) получим распределение /(х, е) = 1 — Ьс . . . . 1 -Ь Ьс . . . . Pt—А(х) + ра 7а (х) при е=1, 1 + . 1 — be . . . Р1 —-— /1 (х) + Ра —-— /а (х) при е = — 1. (1-16) В [Л. 51] приведен вывод выражения П-16] и анализ как ча- стных, так и общих случаев. Там же показано, что в случае нерав- ного для образов первого и второго класса «собственного мнения учителя о своих способностях» /{х, е) = p2/3W^^z£i)±M£l+^ пр„ е=1, (1-17) р,Л(х) 2 + (C2-e,) + t>1(c1+cg) + 4 + ргМ*)2+(Сг~^~Ьг(С1 + С1> при е= -1. 4 Отсюда можно получить выражения для условных и собствен- ных распределений входного сигнала СР и для моментов распреде- лений. 1-3. Совместный закон распределения вероятностей входного сигнала для К классов образов При числе классов, больше двух, априори вводится в рассмотрение матрица вероятностей akk. отнесения учи- телем образов, объективно принадлежащих А'-му классу, к А-му классу: А = « • _ a/<i ак/<' акк- Очевидно, что У = н k, k’ = i, ..., к. k=\ 26
Совместный закон распределения вероятностей сигна- лов х (и) и е (л) имеет вид: к /(х, е)= V Рг°ы-^'(х) ПРП e = k’ О’18) fc'=l где k = 1 , . . . , К. В режиме обучения матрица Л является единичной В режиме самообучения вероятность отнесения обра- зов, принадлежащих объективно &'-му классу, к любому /г-му классу одинакова для всех классов и равна 1//<: В режиме «вредительства» образы, объективно принад- лежащие &'-му классу, относятся с какой-то вероятностью к любому из классов, кроме самого &'-го класса: О а12 . . , 0 . . . а2К аК1 аК2 • • О Введем понятие квалификации bk учителя системы рас- познавания образов для К классов. Зависимость между вероятностями akk, и величиной bk является нелинейной. так как 1, если akk— 1, О, если ~= — , — 1, если akk — 0. (1-19) При аппроксимации этой зависимости функцией вто- рого порядка akk = xbf + уЬъ + 27
после подстановки в нее значений (1-19) и решения системы уравнений относительно неизвестных х, у, z получим: а“г=(т“т)&‘ + тб4 + у • (1'20) Аналогично получается зависимость b (а), имеющая вид: В конкретных расчетах можно пользоваться любой из формул (1-20) или (1-21). Из (1-18) можно вывести выраже- ние для момента распределения, окончательное выражение которого имеет вид: —^—,п к к = 2 2 Pt'akk-aii,'k А=1 Л'=1 Совместное распределение вероятностей входного сигнала для Д' классов образов при произвольных квалификации учителя и «собственного мнения учителя о своих способностях» относительно каждого класса имеет вид: К К / (X, 8) = 2C/t 5 “U’Pk'fk'W ПРИЕ = /, / =1.........К, *=1 А'=1 где матрица вероятностей С = [с^ ] характеризует «собственное мнение учителя о своих способностях» при отнесении образов /-го класса к /?-му классу. Обозначив К clkabk' Л=1 получим: К f (х, в) = 2 Pk'fk' Wdik' при е= /, Z 1, . . . , /С k'=i Случай континуума классов образов Собственное распределение указаний учителя СР в режиме обучения распознаванию К классов образов имеет вид: (е (е) = Pk ПРИ Е = k, k= 1, . . . , К- (1-22) Это функция дискретного аргумента в. Случай непрерывной функции распределения имеет широкое практическое применение тогда, когда учитель СР не может четко определить принадлеж- ность образов к тому или иному классу, а выдает лишь некоторую количественную оценку этой принадлежности. При этом, конечно, возможно (но нежелательно ввиду потери информации при кванто- вании) разбить шкалу Т на К участков и свести задачу с континуу- мом классов к задаче с К классами образов. Для континуума клас- 23
сов образов и единичной матрицы А при непрерывной функции /Б (е) в режиме обучения аналогично (1-18) имеем: f(x, б) =(е)(х/е), а в режиме самообучения /(X, S) =/г (s)/x(x). При произвольной квалификации учителя СР вводится в рас- смотрение функция а (е', е) вероятности отнесения учителем обра- зов, объективно соответствующих/распределению / (х, &'), к рас- пределению / (х, е). В данном случае J а (е' , е) de' = 1. Совместное распределение вероятностей / (х, е) сигналов х (л) и s (л) иа входе СР будет иметь следующий вид: со /(х, е) = J a (s', в)/ (х, е') da'. Для режима обучения а (в', е) — б (е'—&) и f (х, 8) — / (х, в')- О нестационарных входных сигналах СР При нестационарных входных сигналах рассматриваются со- вокупности образов, распределенных внутри каждого класса в со- ответствии с законом fh (х, п), переменным по времени. Изменение распределения f (х, 8) в зависимости от времени п может возникать из-за изменения во времени условных плотностей f' (x/s) или рас- пределения fg (е) указаний учителя СР. Общее выражение для со- вместного закона распределения входного сигнала СР имеет' в дан" ном случае следующий вид: / (х, е, п) =ь V dlk.pk-fk' (х’ при е==/, /=1, Принципиально можно рассматривать еще более общий случай переменных во времени значений квалификации учителя и «собст- венного мнения о своих способностях». Выражение для моментов данного распределения в текущий момент времени имеет вид: = У V dk.k(n)ajk. (n)k‘. й'=1 *=1 В данной главе представлен анализ функций распределения входного сигнала СР в случае произвольной квалификации учи- теля. В связи с этим как частные случаи рассмотрены режимы обу- чения, самообучения и «вредительства», а также промежуточные режимы работы СР. В общем случае учитель СР может указывать на принадлежность текущего образа на входе СР к тому или иному классу в виде многомерного (размерности Л'*) вектора е (гг); фор- мальная запись выражений для функций распределения входного сигнала в большинстве рассмотренных случаев при этом сохраня- ется. Выражения для законов распределения входного сигнала записываются в общем виде относительно априорных вероятностей появления классов и условных распределений (х/в). 29
Глава вторая ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МОДЕЛЕЙ СР 2-1. Общая структура оптимальной модели Под оптимальной (эталонной) моделью СР, как и в лю- бой другой оптимальной системе (рис. 2-1), понимается оптимальное преобразование, осуществляемое системой над входным сигналом [х (л), £ (и) 1 для получения выходного сигнала xk (п), с точки зрения выбранного критерия пер- вичной оптимизации. На рис. 2-1 верхний блок — управ- ляемая система, нижний блок — оптимальная модель, по Рис. 2-1. К определению оптимальной модели. решений имеет также две, рактеристики указаний ; которой настраивается упра- вляемая система. Общий под- ход к построению оптимальных .моделей систем распознавания образов в режиме обучения со- стоит в том, что система строит- ся при произвольных характе- ристиках входного сигнала, со- ставляющих два, К и континуум классов образов, для произволь- ного числа решений, осуще- ствляемых СР. Пространство Кр и континуум градаций. Ха- •чителя (классов) и решений вы- бираются априори независимо. Построение оптимальной модели производится по вы- бранному критерию первичной оптимизации, а описание ее осуществляется, в частности, в виде выражения для разделяющей поверхности. Разделяющая поверхность де- лит многомерое пространство признаков на непересекаю- щиеся области с указанием принадлежности соответствую- щей области к тому или иному классу. В табл. 2-1 представлена классификация СР по харак- теристикам входного сигнала и пространства решений для частного вида одномерных сигналов е (п) и xf{ (п). Остано- вимся коротко на отдельных типах систем. Система распознавания /, рассчитанная на два класса образов с двоичным выходом, наиболее широко представ- лена в литературе. Система распознавания 2 рассчитана на К классов образов с числом решений ^p, равным К- Исследование оптимальных моделей подобных СР нрове дено в [Л. 46 и 49] для различных критериев первичной 30
Таблица 2-1 Пространство (число) решений Входной сигнал два класса К классов Континуум классов Два 1 7 8 Кр А'р = 3 За к <КР 9 10 к 2 /<Р const 36 К > Л'р 4 Континуум 5 6 11 оптимизации СР и различной априорной информации о характеристиках входного сигнала. Необходимо отметить, что представление о том, что задача обучения при распозна- вании К классов образов может быть сведена к последова- тельному применению на каждом шаге алгоритма обучения для двух классов, является неверным. Это самостоятель- ная задача, для оптимального решения которой уже на пер- вом шаге строится эквивалентная разделяющая поверх- ность, делящая пространство признаков иа К непересекаю- щнхся областей. Пространство решений СР характеризуется числом уров- ней квантования по амплитуде выходного сигнала xk (и) по каждому из каналов. Системы распознавания с конти- нуумом решений, например типа 5 или 6, имеют непрерыв- ный выходной сигнал. Системы распознавания 8, К), II характеризуются непрерывным распределением /е (в) ука- заний учителя СР, когда текущему образу иа входе при- писывается не индекс класса из дискретного множества индексов, а некоторая количественная (континуальная) оценка принадлежности. 2-2. Аналитическое представление разделяющих поверхностей в типовых СР Методика построения оптимальных моделей СР К клас- сов образов достаточно подробно описана в работах автора [Л. 49, 53] и в данной книге ввиду се ограниченного объема 31
не приводится. В принципе оптимальные модели некоторых СР К классов образов можно получить из выражений для оптимальных моделей СР более общего типа, рассматри- ваемых ниже. В случае К классов образов, так же как и в любом другом случае, получение выражений для опти- мальных разделяющих поверхностей производится следую- щим путем: записывается выражение для минимизируе- мого функционала первичной оптимизации, решается за- дача минимизации функционала первичной оптимизации с учетом существующих ограничений. Оптимальная модель СР К классов образов опреде- ляется системой неравенств, определяющих деление ис- ходного пространства признаков иа К областей с отнесе- нием каждой области к тому или иному классу. Рассмотрим построение оптимальных моделей СР, при- веденных в табл. 2-1. Система распознавания 3. Система распознавания образов, оптимальная по критерию максимума апостериорной вероятности (в случае двух решений), преобразует входной сигнал х (л) в выход- ной X# (н) в соответствии со следующим соотношением: j 1 при / (е ~ 1/х) >/ (к = — 1/х), Хк^ । _] ПрИ (Е — ]/х) — ]/Х). Разделяющая поверхность проводится по тем точкам х, для ко- торых апостериорные вероятности принадлежности к первому и второму классу равны. Тобласть многомерного пространства при- знаков, где апостериорная вероят- ность принадлежности х к пер- вому классу больше, чем апосте- риорная вероятность принадлеж- ности ко второму классу, прини- мается за область первого класса. Однако во многих практических задачах принадлежность точек многомерного пространства при- знаков к тому илн иному классу должна указываться с определен- ной уверенностью. В случае одной разделяющей поверхности, харак- Рис. 2-2. К делению простран- ства признаков двумя разде- ляющими поверхностями. терной для системы 1.эта уверен- ность уменьшается по мере приближения к разделяющей поверх- ности и равна нулю на ней, Система распознавания двух классов образов типа За имеет две разделяющие поверхности. Эти поверхности делят пространство признаков на три части (/, II, III, рис. 2-2) с зоной нечувствитель- ности, в которых СР указывает принадлежность текущего образа па входе; I область — к первому классу, II область — ко второму классу, III область — ни к первому, ни ко второму (либо и к пер- вому и ко второму) классу. 32
Уверенность ответа системы распознавания образов о принад- лежности текущего образа х на входе, например, к первому классу должна определяться разницей апостериорных вероятностей при- надлежности к первому и ко второму классу. В этом плане много- мерное пространство признаков должно делиться на три части: область I соответствует решению СР о принадлежности ее к первому классу f'r (е = — 1/х) (в = 1/х); область // соответствует решению СР о принадлежности ее ко второму классу Г (г = — 1/х) I- d2<f" (е = 1/х); область III, в которой СР либо вообще не может ответить на вопрос о принадлежности текущего образа к первому или второму классу, либо отвечает на этот вопрос с некоторой вероятностью /" (е= — 1/х) (е = 1/х); /" (е = — I/x) d2>f’' (е = !/*)• Здесь величины dt и d2 (0 < < 1, 0< d2 < 1) определяют степень уверенности СР в отнесении образов на входе к первому или второму классу. В частном случае возможно, что dt = d2 = d или dj = d2 — d — 0; в последнем случае вариант с двумя разде- ляющими поверхностями вырождается в вариант с одной разделяю- щей поверхностью. В случае двух разделяющих поверхностей си- стема распознавания образов с оптимальными параметрами разде- ляющих поверхностей преобразует входной сигнал х (и) в выходной хд(п) (указание системы о принадлежности текущего образа к тому или иному классу) следующим образом: х (и) в области I — х^ (и) = = — 1 (!-й класс); х (и) в области II —- х* (и) = 1 (2-й класс); х (и) в области III — Xk (п) — 0 (1-й и 2-й класс). Общее выражение для разделяющих поверхностей, оптималь- ных по величине апостериорной вероятности, имеет вид: Р1Л (X)d — (х> . Р1А <х) р2/2 (х) Р1Л (х) + pj, (х) ’ Plfl (х) _|_d Р J2 (х) Pifi (х) + pj2 (х) р,Л (х) + pj/j (x) ' Преобразовывая, получаем: 8Чх)-Л(Х) <]—rft>Pi ' /1(х) (1 |-<*i)p2 (2-1) S" (х) = __.4 + ^2) Р1 Л(х) <1—rfa)p= ' Это окончательное выражение для разделяющих поверхностей, когда в качестве критерия первичной оптимизации используется величина апостериорной вероятности. В работе автора [Л. 52] представлена более подробная интерпретация величин dr и d2 через условные плотности [' (х/е) и f" (е/х). Система распознавания, оптимальная по критерию ми- нимума средней функции риска, делит многомерное про- 2 Заказ № 975 33
странство признаков на три части: область, относимую СР к первому классу; область, относимую СР ко второму классу; область, в которой СР отказывается от принятия решения о принадлежности образов к тому или иному классу: S'(x)<0; ] S"(x)>0; (2-2) S"(x)<0<S'(x). J Условная функция риска есть сумма потерь при отне- сении образа i-го класса к /-й области. Потери вычисляются как соответствующие вероятности, умноженные на вели- чины коэффициентов 1ц (t — 1, 2; / — 1, 0, 2) матрицы потерь L | ^11 4о 4'2 1 Коэффициенты /10, /20 — коэффициенты потерь при от- казе системы от распознавания. Очевидно, что Zn</J0< 112» 41 > 4о > ^22 • Выражения для условной функции риска имеют сле- дующий вид: N N = | . . . j/iifi(x)dx+ j . . . j /1»Л(х)(/х + S’ (х)<0 S" (х)<0<5’ (х) N + !'•• (' lufi (х) dx; (2-3) *S" (x)>(J N N гг = f j Wa(x) dx+ W2 (x)dx + ''S' (x)<0 S" (x)<0<S^(x) N + f • J 4г4 (x)dx. (2-4) Усредняя условные функции риска, получаем выраже- ние для средней функции риска N R ~ \ • • • j UnPifi (х) ^iPzfz (х)1 rfx-|- VS' (х)<0 34
“h f * ' j1 1ZioPj/i (x)-]- ^20^2^2 (X) 1 S’‘ (x)<0<Sr (x) + J • J UliPifi (x) + Z22pJ2 (x)] dx. S" (x)>0 Учитывая, что N S"(x)<O<s'' (x) S'' (x)<0 S' (x)<0 s" <x)>d S" (x)<0 а также то, что J • J [Mi/:i(x) + Z22p2f2(x)]Jx-/12p1+/a3p3, выражение для средней функции риска можно записать в следующем виде: Я = (Z12P1 + /22^2) + j • • • j* [Zupifi (х)/21Р2/2 (х) — S' (х)<0 N — lioPifiW — lwPji(*)}d*+ J • J UloPifi (x) + JS" (x)<0 H* (*)~ ^12Р1/1(х) Z22P2/2 (X)] ^X‘ Отсюда следует окончательное выражение для средней функции риска: R — (Z12P1 + Z22P2) + J - • J I(Zn Z10) Pifi(,x)4- JS' (х)<() N + (Z2i“Z20) Р3/з(х)1 Jx-ф f • J 1(^1О — /12)Р1Л(Х) + + (Z2o~ ^22) P2/2 (x)l ^x- (2-5) 2' 35
Необходимо найти выражения для S' (х) и S" (х), обес- печивающие минимум R. Достаточно просто показать, что минимум R обеспечивается в том случае, когда подынтег- ральные выражения отрицательны внутри соответствую- щей области интегрирования и положительны вне ее, т. е. минимум R обеспечивается при условии S'(x) — (Zu /ю) Pifi (х) + (/2i—Go) Р2/2 (х)^ 1 S (х) — (/J0 /]2) pifi (х) 4- (/20—Z22) ра/г (х)- J Выражения (2-2) и (2-6) определяют оптимальную мо- дель СР двух классов образов с двумя разделяющими по- верхностями. Рассмотрим несколько подробнее частный случай, который более физически отражает сущность СР Рис. 2-3. Исследование струк- туры СР в зависимости от коэф- фициента потерь при отказе си- стемы от распознавания. двух классов образов с дву- мя разделяющими поверх- ностями. Примем hl = G2 = 0, G 2 ~ G1 = 1> Go Go ” G> Pl ~= Pz^ при ЭТОМ S'(x) = = (l-/o)Za(x)-Wl(x), S’(x) = = Шх) —(l-Wi(x). На рис. 2-3 представлена иллюстрация (в одномерном случае) зависимостей изменения порогов hx и /т2 от h- Анализ выражений для разделяющих поверхностей позволяет сделать следующие выводы: а) При Zo = 0 зоЕга, в которой СР отказывается от распознава- ния, занимает все пространство признаков. Это естественно, так как в данном случае потери при отказе от распознавания равны нулю. б) При 1п — 1/2 СР с двумя разделяющими поверхностями вырождается в СР с одной разделяющей поверхностью. Это случай, когда потери при отказе от распознавания в 2 раза меньше потерь при неправильном распознавании, а потери от правильного рас- познавания равны нулю. в) При конечном значении /0 в пределах 1/2}>/о}>0 сущест- вует зона нечувствительности, где СР не относит текущий образ на входе пи к первому, ни ко второму классу. г) При значении /0 в пределах I СР имеет две разде- ляющие поверхности, причем в зоне между ними СР относит теку- щие образы на входе и к первому и ко второму классу. На рис. 2-3 кривые изменения порогов симметричны как относительно липин f.i (х) = 1-2 (х)> так и относительно уровня /0 = 1/2. 36
На рис. 2-3 — порог, которым определяется (в одномерном случае) поверхность S' (х), Л2 — порог, которым определяется по- верхность S" (х). д) При /0 = 1 все многомерное пространство признаков счи- тается принадлежащим и первому и второму классу. Если сравнить оптимальные модели СР, построенные по крите- рию апостериорной вероятности (2-1) и критерию минимума сред- ней функции риска (2-5), то видно, что при условии J _ (^Ц + ^21)- (6о ~1~ ^2р), , J _ (^2 ^22) — G10 + ^20) 1 2 ' 2 2 оптимальные решения по указанным критериям совпадают. Кроме того, данные равенства являются дополнительной интерпретацией коэффициентов и d2. Использование того или другого критерия возможно при наличии априорной информации о коэффициенте di или 1ц. Анализ выражения для средней функции риска показы- вает возможность рассмотрения критериев первичной оп- тимизации при следующих ограничениях: 1) равенство отдельных составляющих средней функции риска РЛ = р2г2; (2-7) 2) постоянная величина составляющей средней функ- ции риска для одного из классов p2rs = a = const. (2-8) Для решения задачи минимизации с учетом первого ограничения запишем функционал Лагранжа в виде / = й;-/.(р1г1 —р2г2). Подставив в уравнение (2-7) значения функций и г2 из (2-3) и (2-4), получим: N PlGg + j ’ ’ ’ j (41— 4о) Р1/1 (х) ^х “Ь *S’ (х)<0 N + j • • JUio—/12)PJlWdx = S" (x)<0 N = £2^22 +J • • J (4i—4o) P2/2 (x)dx-|- S‘ (x)<0 N + j ' ' ' J ^20 4s)Pafa(x)^x- (2_9) S" (x)<0 37
Уравнения оптимальных разделяющих поверхностей, имеющие вид: (х) — (41—4о) (1 +^) 4" + (^21 4о) P'J 2 (Х) U S"(X)=(/10~Z12)Pl/l(X)(l+^) + 4“ (4о— 4г) Р2/2 (х) 0 —^)» (2-10) есть результат минимизации функционала /. Значение X, обеспечивающее минимум /, получается из условия ра- венства нулю производной dl!d\, т. е. при подстановке (2-10) в уравнение (2-9) для соответствующего ограниче- ния. Для критерия минимума составляющей средней функ- ции риска для одного из классов при заданном значении составляющей средней функции риска для другого класса, т. е. с учетом ограничения (2-8), выражения для оптималь- ных разделяющих поверхностей имеют следующий вид: S (x) = (Zu 4о) Pifi (х) 4“ (4i~ 4о) Р2/2 (х)= 0; | S (х) = (/10 /]2) Pifi (х) + (4о— 4г) Р2/2 (х) — 0- ] Выражение для X получается подстановкой (2-11) в уравнение для соответствующего ограничения, имеющее вид: N Р2^2~ Р2^22~У~ [ ’ ' ' f (41 4о) Pz4 (Х) ^Х 4“ <х)<о' 4~ j (4» 4г) Р2/2 (х) *^х — а- ’ S" (х)<0 Рассмотрим систему распознавания 36 (табл. 2-1) на два класса образов, имеющую —1) разделяющую по- верхность. Для данной системы /<р = const означает, что число (целое) решений равно или больше четырех. Определим оптимальную модель СР по критерию сравнения апостериорных вероятностей. По аналогии со случаем двух клас- сов образов и двух разделяющих поверхностей определим деление многомерного пространства признаков на области следующим об- разом, Область kp (£р = 1.....Кр) определяется следующей систе- мой неравенств: / (е = —1/х) - </ (в = 1/х) </ (е = —1/х) - dk^ , L, 38
при dQ1= 1, dk <k +| =— l и следующем условии: dk^ t>0 при / (e = — l/x) > / (e = 1/x); d4p.6p- 1<° nP“ H6 = — l/x)</(e= 1/x). Иллюстрация такого деления пространства признаков в одно- мерном случае приведена на рис. 2-4. Выходной сигнал СР должен иметь k-p градаций по уровню, т. е. СР принимает при наличии двух классов образов Лр решений. Из рис. 2-4 следует, что отнесение той или иной области многомерного пространства признаков к первому Рис. 2-4. К рассмотрению критерия первичной опти- мизации СР по величине апостериорной вероятно- сти в случае двух классов образов и (Кр — 1)-й разделяющей поверхности. или второму классу производится с определенным запасом по апо- стериорной вероятности, например в области kp с запасом, равным minil Учитывая известные выражения для апостериорных вероятно- стей /; (е — 1/х) и f, (е = — 1/х), можно получить выражение для области £р решения СР в исходном многомерном пространстве при- знаков в следующем виде: 'А-н <Рамх) < ‘"Чл'1 HV‘p '₽1Л(Х) 1 + 4’V ' Определим оптимальную модель СР по критерию ми- нимума средней функции риска. В данном случае СР по- сле обучения делит многомерное пространство признаков на /Ср частей, в каждой из которых существуют априори 39
потери при отнесении образов к тому или иному классу. Матрица коэффициентов потерь имеет следующий вид: (2-12) L= L , [ *21» *22’ • где likp (i 1, 2; kv = 1, . . . ” ^2Кр] /Ср) — коэффициенты по- терь при отнесении образов f-го класса к &р-й области. Оче- видно необходимо, чтобы *11<чЧ2<ч- • «<JlKp‘» *21^*22 > • ->12КР- Выражения для условных функций риска в данном слу- чае имеют следующий вид: ri= 2 ~ WHx)d: Ь i , ' р ^т>. . (2-13) Здесь S р (х)>0 — область многомерного простран- ства признаков, соответствующая &р-му решению. От- сюда следует выражение для средней функции риска: # = 2 "Ь (х)] dx. (2-14) Р кп S Р(х)>0 £ Найдем выражение для S р (х), минимизирующее сред- нюю функцию риска. Введем дополнительное обозначение следующим образом: (к) - | /14рР1/1 (х) + /24рРЛ (х)] , тогда 2 f • • • f ^P(x)dx- *p=1 k S p(x)>0 С использованием приведенного выше материала до- статочно легко показать, что минимальное значение R до- стигается при S(‘p)(х)=^(х)-^р(х)>0, а; = 1, .... К. 40
или s<‘p) w = w+W - -4ps^«<°; *; = i...........KP. Выражения для оптимальных моделей СР в случае дру- гих рассмотренных выше критериев первичной оптимиза- ции могут быть получены достаточно просто на основании изложенного выше метода. Системы распознавания 4 и 9. Это — системы распозна- вания К классов образов, имеющие (АГ.,—1) разделяющую поверхность. При использовании критерия минимума средней функ- ции риска система неравенств, ограничивающая в много- мерном пространстве признаков область kp-ro решения, имеет следующий вид: *‘р (х) = 2 -1^) рАако. 1..................к,. Система распознавания 5. При наличии на входе двух классов образов система распознавания имеет на выходе непрерывный (по уровню) сигнал. Естественно, что данный сигнал, как и входной сигнал СР, является дискретным по времени. В случае использования критерия первичной оптимизации СР по величине апостериорной вероятности необходимо иметь априори функцию d (xk) превышения апостериорной вероятности принад- лежности текущих образов на входе к первому классу над апосте- риорной вероятностью принадлежности этих образов ко второму классу при конкретном значении выходного сигнала х& ,т. е. для каждого значения в СР априори должна быть определена «уве- ренность» СР в отнесении образов к тому или иному классу по апо- стериорной вероятности. В этом случае уравнение для оптималь- ной модели СР двух классов образов и континуумом решений имеет следующий вид: f (е = —1/х)—d(xft)=f (е=1/х). Отсюда ----------------d(xt) =-----a&W--------, 1 Pi/i (х) + (X) Р1Л (х) + Plfl (х) l(2-14a) Plfl (x) [ I — d (x*)] — [ 1 + d (x*)J pJi (x) = 0. J Это окончательное выражение для оптимальной модели СР в рассматриваемом случае. Это уравнение определяет связь между входным и выходным сигналом СР, которую в принципе необходимо реализовать, исходя из выбранного критерия первичной оптимиза- ции и структуры СР. 41
Рассмотрим критерий минимума средней функции риска. Иллюстрация видоизменения функции ошибок при пере- ходе от двух к ^p и континууму решений системы распоз- навания двух классов образов представлена на рис. 2-5. Следовательно, в данном случае вводится в рассмотрение вместо матрицы (2-12) коэффициентов ошибок для случая Ряс. 2-5. Иллюстрация видоизменения функции ошибок при переходе от двух к и континууму решений СР двух классов образов. а — два решения; б — три решения; е — К решений; s — конти- нуум решений. двух классов образов и /Ср решений вектор функции оши- бок L Hite)!: 1Л (^)J ’ возникающих при приписывании различным образам пер- вого и второго класса решения xk. В случае решений СР двух классов образов выраже- ние для условной функции риска для образов первого класса имеет следующий вид: кр Д г1= 1’ V f - f Mx)dx. k =1 P J A J 42
Здесь U S р(х) = Х, где X — полное многомерное про- странство признаков. Введем дополнительные обозначе- ния: 1 при х£ 3*р(х)>0, О при X^S*p(x)>0. G (х, /?р) = Тогда выражение для условной функции риска при- мет следующий вид: кр * % hkp Г - ‘f G(x, k^frtxjdx. X В этом случае, как и в предыдущих, рассмотренных ра- нее, функция G (х, kp) является предметом синтеза. Она определяет оптимальную модель СР, т. е. оптимальную связь (с точки зрения принятого критерия первичной оп- тимизации) выходного и входного сигналов СР. При переходе к континууму решений выражения для функций риска принимают следующий вид: N Г1= f -JG(x, x^fxjdxdx,,; Xk x N ^ = РЛ + Ра''2= .( J- • -JG(x, xt)X Xk X X [P1/1 (xt) л (x) + p2Z2 (xt) /2 (x)l dx dxk. Обозначая g (x, Xk) = [Pil! (xft) Л (x) + p2Z2 (xt) fi (x)], получаем окончательное выражение для средней функции риска: N R = J Р • -р(х, x4)g(x, xk)dxdx„. (2-15) Здесь функция g (х, xk) задана в общем виде. Функция G (х, хЛ), являющаяся предметом синтеза, должна быть выражена через функцию g (х, xk) таким образом, чтобы достигался минимум R, На рис. 2-6 представлена иллюстра- ция данной функции для случая одномерного пространства признаков и конечного числа Кр решений СР. При переходе 43
к континууму решений СР данная функция вырождается в функцию G (х, х*), общий вид которой представлен на рнс. 2-7. Это полоса с высотой, равной единице. Предметом синтеза является форма данной полосы. Рис. 2-7. Вид функции G (х, хд.) для континуума решений и двух классов образов. Рис. 2-6. Вид функции 6 (х, х>) для дискретного множества ре- шений и двух классов образов. Рис. 2-8. Вид функции G (х, х^) для континуума решений и двух классов образов. На рис. 2-8 представлена геометрическая иллюстрация функции g (х, xk) в простейшем случае. Таким образом, задача минимизации средней функции риска сводится к за- даче минимизации площади полосы G (х, хЛ) g (х, х/г), по- лученной модуляцией (профилированием) полосы G (х, хА), показанной на рис. 2-7, функцией g (х, xk). 44
В выражении для средней функции риска (2-15) G(x, x,)U 1 = I 0 при xk + p(x), где функция р (х) есть предмет синтеза — преобразование, осуществляемое СР над входным сигналом в режиме рас- познавания. Отсюда выражение для R (х, х/) можно за- писать в следующем виде: Я = р . fglx, p(x)]dx, (2-16) где функция g [х, р (х) ] в данном случае имеет вид: g lx, р (х)] = рЛ (х) /j [р (х) J + р2/2 (х) 1г [р (х)]. Минимизация R является задачей вариационного ис- числения. При этом минимум достигается при условии dg[x. Р (х)] др (х) или с учетом конкретного вида функции g [х, р (х) I: р1/1(х)^^^+рЛ(х)^^ = 0. dp (х) dp (х) Иначе можно записать: Р1Л(х)^У^-| +рЛ(х)^^-| =0. (2-17) dXk UA=p(x) dxk |xft—Р(*) Это уравнение определяет оптимальную модель СР двух классов образов с континуумом решений. Рассмотрим частные случаи. 1. Функции ошибок для образов первого и второго класса имеют вид, изображенный на рис. 2-9. Этот случай соответствует одинаковому значению функции ошибок на некотором интервале изменения х^. При этом = у AWfa-xai)|,w = |xft=p(x) Л*’ А = 2 M»i6[P(x)—xak]; dl2 (xft) I _ л dxk Lt-P(x) A'«2s - xat) |p(x) = Л = — AW Ip (x) — Xak\- 45
Уравнение для оптимальной модели СР будет иметь следующий вид: А Pifi(x) У A/ai6[p(x)— Xak] — <х=1 А —P2/2W У Д/а2б [Р (X) — Хай] = °- а=1 Здесь б (хь) — б — функция с известными свойствами. 2. Функции ошибок для образов первого и второго класса — функции второго порядка (хд) = (1 + х^)2/, Z2 (xk) = (1—х^)2/. Рис. 2-9. Зависимости функции ошибок для СР с континуумом решений. При этом ^^=2((I+xt), аш. =2i(xb-i). dxk dxk Подставляя данные выражения в (2-17), получаем уравнение для оптимальной модели р (х) СР с континуумом решений в следую- щем виде: Р1/1 (х) 21 [1 -|-р (x)J + p2f2(x) 2/[р (х) — 1] = 0. Отсюда следует выражение для оптимальной модели СР с кон- тинуумом решений в случае квадратичных функций потерь: р (х) = (х) Plfl (х) P2I1 (х) + Pih (х) Иллюстрация функции хк = р (х), реализуемой СР, представ- лена на рис. 2-10. 3. Функции ошибок для образов первого и второго класса есть функции первого порядка (xk) = I (1 + xk), l2 (xfe) == /(1— xA). 46
В данном случае dlx (x^/dx^ — I; dts (x^/dx^ = — l. Отсюда сле- дует, что при линейных функциях ошибок возникают определен- ные трудности в формировании оптимальной модели СР. Для ис- следования данного вопроса рассмотрим функцию ошибки в сле- дующем виде: 11 (Ч) = I (1 + xt)c+1, /2 (Л) = I (1 -xt)e+1, из которого при с = 1 следует случай 2, а при с = 0 — линейный случай. Тогда /1 (*л) = 1/(1 + Хй)с+Ч = —1— I (1 + XkY-, ах^ “Xk с -|- 1 ~ h (л) = [/ (1 - ^)с+11 =--------Ц- / (I -Ч)с- dx^ dxk с + 1 Общее выражение для опти- мальной модели СР имеет следую- щий вид: Plfl (х) (1 + хк)с — pJz (х) ( 1 — - *s)c = о или, иначе, Рис. 2-10. Иллюстрация к оп- тимальной модели СР в случае континуума решений и квад- ратичных функций потерь. _ [PoAW)№- [pJ1(x)]l/c . IPlfl (х) 1I/C + IpJi (x)]1/r При с — 1 получаем уже из- вестное выражение оптимальной модели для функций потерь второго порядка. Исследуем случай с - 0. Тогда Xk -- — 1 при любом значении х, удовлетворяющем неравенству pjj (х)>р2/2 (х)> xk= 1 при любом значении х, удов- летворяющем неравенству р2/г (х) >p]/i (х). Таким образом, в случае линейных функций ошибок и конти- нуума решений пространство решений вырождается в пространство двух решений. При сравнении критериев первичной оптимизации СР по ве- личине апостериорной вероятности (2-14а) и минимума средней функции риска (2-17) видно, что оптимальные модели СР совпадают, если 1 ., х d/i (хь) 1 - d (xk) = ; Эги выражения позволяют ввести дополнительную физическую интерпретацию функции d (хч) 47
Рассмотрим критерий минимума средней функции риска при ограничениях (2-7) и (2-8). Минимизация средней функ- ции риска (2-15) при условии N f f- fG(x, x4)gi(x, xk)dxdxk = ** x N = I -. I'gi [xplx)]dx-0, (2-18) где 81 (x, -4) = pj± (x) h (xj—p^ (x) l2 (xk), приводит к уравнению для оптимальной модели СР следую- щего вида: (1+^)рЛ(х)^М| + dxk НА=Р(х) + (1-^)РЛ(х)^^-| =0. (2-19) \xk=P(*) Множитель Лагранжа X определяется подстановкой (2-19) в (2-18). Ограничение в виде заданного значения составляющей средней функции риска имеет вид: N ,f Г \jG(x, хд) [pj1(x)l1{xk')]dxdxk = a. (2-20) x Обозначая g2(x, хк, ty=g(x, xt) + Xp1/i(x)/1(xt) = = (1 4 X) рЛ (x) /j (xk) + p2/a (x) Z2 (x4), получаем выражение для оптимальной модели СР в сле- дующем виде: 3g2(x, хк, У|^=Р(Х) Рр(х) или, иначе, (1 + Х)Р1/1(х)А£Ш + axk kft=.P(x) + РМХ)^~\ =0. (2-21) Множитель /, определяется подстановкой (2-15) в (2-20). 48
Система распознавания 6. Система распознавания /С классов образов с континуумом решений имеет оптималь- ную модель следующего вида в случае критерия минимума средней функции риска: £ рЛ(х)^^1 =0, k-=\ dxk \xk=PM где Р (х) --- хк — оптимальная модель СР в данном случае. Система распознавания 7. Это система распознавания /С классов образов с двумя решениями. В случае критерия минимума средней функции риска вместо матрицы коэффи- циентов потерь, возникающих при отнесении образа /-го класса к /-му, которая для системы 1 имеет вид: I __ к11 ^1 и ’ I ’21 l22j необходимо ввести в рассмотрение матрицу ^11 ^12 /21 ^22 L= I /’ * 41 чл _Jk1 ^К2_ Матрица L есть матрица коэффициентов потерь, воз- никающих при отнесении образов, относящихся к £-му классу (k • 1, ... , К), к областям многомерного про- странства признаков, соответствующим первому и второму решению. Выражение для условной функции риска имеет следующий вид: н N rt = lki\- J (х)dx-hZA3 j’- \fk(x')dx. S(x)<0 S(x)>0 Средняя функция риска получается усреднением ус- ловной функции риска по всем классам: N R= 2 w* = 2 Г ' /t(x)rfx + k=l 4-1 S(x)<0 к т——> н- 2 Pklk2 J J fk^dx. ft=1 S(x)>0 49
Учитывая, что f ' $fk(x)d*= f ' ' ’f f*(x)dx + f'''f МХЖ —co S(x)>0 S(x)<0 получаем окончательное выражение для средней функции риска N R — у pkik2 4- f • J Г 2 (х)^х- fe=l S(x)<0 |fe=l ] Легко показать, что минимум R в данном случае обес- печивается при условии S(x) = 2 Pt(ZSi—/и)^(х). 6=1 Это есть уравнение для оптимальной разделяющей по- верхности, определяющее оптимальную модель СР. Система распознавания 8. При оптимизации СР с кон- тинуумом классов образов и двумя решениями по крите- рию минимума средней функции риска необходимо ввести в рассмотрение матрицу (вектор-строку) L = [/х (е), 1.2 (е) ] функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону к областям многомерного пространства признаков, соответствующих 1-му и 2-му решениям. Условная функция риска есть функ- ция риска принятия решения о принадлежности образов на входе СР к совокупности образов с распределением f (х/е). Типичные зависимости для функций потерь (е) и /2 (е) представлены на рис. 2-11. В этом случае выраже- ние для условной функции риска имеет следующий вид: N N Г (е) = 11 (е) J /'(x/s)dx +/2(е) [ • f /' (х/е) dx. S(x)<0 ' S(x)>CT Здесь S (х) = 0 — уравнение разделяющей поверхно- сти в многомерном пространстве признаков. Средняя функция риска получается усреднением услов- ной функции риска по всем значениям е следующим обра- зом: ос со R= f '(e)/e(s)dE = J /е(е)х —co —co [N N “I Me) f‘ ‘ * f f (х/е)^хф- Z3(e) Г- • ( f (x/e) dx de. ‘S(xkOJ JS(x)_Oe J 50
ОО I Преобразовывая, получаем окончательное выражение для средней функции риска: I /,(г)/е(е)+/в(в) [Zi(s)—Z2(e)] J - J /'(x/s)dx ds. _ S(x)<0 ) Для решения задачи минимизации запишем R в не- сколько ином виде ^=7 Z2 (е)/е (е) de Д- J • '~7 х —ОО - S(x)<0 f 00 1 X J [/1(e)— /2 (е)]/е (е)/'(х/е) de dx. I—ОО J Рис. 2-11. Функции потерь для случая континуума классов и двух решений. а — два класса; б — континуум классов. Отсюда следует, что минимум R обеспечивается при ус- ловии, когда подынтегральное выражение отрицательно внутри области и положительно вне данной области. Сле- довательно, минимум R обеспечивается при условии S(x) = f [/Де) —/a(e)]/e(e)/'(x/e)de. •—СО 51
Система распознавания 10. В случае континуума клас- сов образов и /Ср решений СР строит в многомерном про- странстве признаков /<р—1 разделяющую поверхность. При оптимизации по критерию минимума средней функ- ции риска вводится матрица (вектор-строка) (е), . . /Кр(е)] функций потерь, возникающих при отнесении образов, объективно подчиняющихся закону f (x/е), к областям многомерного пространства признаков, соответствующим 1, 2, /<р-му решению СР. В данном случае выражение для условной функции риска имеет следующий вид: /С N г(и)= 2 (4р(е) f 'f f(x/e)dx. "г”1 s(%)<x»o Средняя функция риска получается усреднением г (е) по всем значениям е: J '•(е)/е(е)* = к n = 7 Л(е) 2 Ме) Г ' J f'Wtydxde. kp~ ’ S<*p)(x)>0 Отсюда определяется оптимальная модель при помощи системы неравенств: S(fep*(x)= j /е(е) Г/ -(e)—lk (е)Ъ'(х/е) Je<0, —оо L р р J &р = 1 > ..Кр. Система распознавания 11. Эти система распознавания континуума классов образов, имеющая континуум реше- ний. При оптимизации по критерию минимума средней функции риска вместо матрицы функций .....М®)]’ введенной в случае континуума классов и Кг, решений, необходимо ввести функцию потерь I (хк, в), возникающих прн принятии СР решения при наличии на входе образа, принадлежащего совокупности с распределением f (х/е). 52 7
Выражение для условной функции риска имеет следующий вид: Л' r(e) = f / (хк, е) [. . .fG(x4, х) f (х/е) dx dxk. xs ’ х Средняя функция риска со оо ,--У---, /?= J r(e)/8(e)de = J Д_(е) f / (хк, е) J • J G(xk, х) X —» —зо хк X X f (х/е) dxdxkde = j f. . . f G (xk, x) X xk x X[ j /B(e)/(xt, e)f'(x/e)depxdxt. Введем обозначение g3(x, xk) — J /8(e)/(x4, e)f'(x/e)de. Тогда выражение для средней функции риска примет следующий вид: у R = И’ • х)&(х. Xi)dxdxk. xk х Учитывая свойства функции G (xk, х), указанные и ис- пользуемые ранее, получаем: /? = j^~j"g3[x, P(x)]dx, где xk — Р (х) — оптимальная модель СР. Решение задачи минимизации R дает выражение для оптимальной модели СР в следующем виде: дёэ (х, ч) I dxk |хА=Р(х) или с учетом конкретного вида функций (х, хА) Т fe (е) f (х/е) I (хк, е) | Р(х)] de = 0. J Ldx* k -I 53
Это наиболее общее выражение для оптимальной модели СР, из которого легко получить любой рассмотренный выше случай. Для решения практических задач функция распределения /е (е) может в простейшем случае быть представлена или аппрокси- мирована суммой одномерных нормальных законов с различными дисперсиями и математическими ожиданиями, а также любым из известных типовых законов распределения вероятностей. 2-3. Оптимальная модель СР для многомерных сигналов е (п) н xft(n) Выражение для условной функции риска в случае кон- тинуума решений СР имеет следующий вид: г (е) = J J / (хЛ, г) J . - J G (xk, х) (х/е) rfx dxk. xk х Отсюда имеем среднюю функцию риска N* N* N Я = . .Jr(e)/8(e)ds=J. . .JJ. •-JG(xt, х)Х Е хк х X [ Г • f fe (s) I (xt, e)f (x/e) <fe] dx dxj, LJ E " J или, иначе, при введении дополнительных обозначений Я = Р - ff- • fG (xs, x)g(x„ x)dxdx4. X Как указывалось выше, E представляет собой прост- ранство указаний учителя СР; N* — размерность Е и вы- ходного сигнала системы. Остановимся на свойствах функ- ции G (xfe, х). Если N* — 1 и СР имеет /Qy-решеиий, функ- ция имеет вид: ri г' [ 1, если xGS(Kp,(x)>0, 6(х, ^) = [ 0, если р (х)>0, а для континуума решений: О(х, х,) = П’ если = I 0, если xk=fc Р (х). 54
Для многомерных пространств Е и Xk преобразование, описываемое системой, может быть записано в следующем виде: xk (п) = Р [х (п)] или Если X* = const и СР имеет ных градаций, т. е. /<р решений, Хц, (п) Р1(х) ' Р». (X) дискретное число выход- функция имеет вид: G(x. й1р, 1, если xfs'"lp (х)>0, О, если x(|S^lp’ Алг*р) (х)>0, и соответственно для континуума решений СР: (1, если xt(n) = P[x(n)], “...... "**' (О, если x4(n)7fcP[x(n)]. С учетом замечаний о функции G можно записать выра- жение для средней функции риска следующим образом: R = P^fg[P(x),x|dx = = .СПЪ W1 [P e| f <x/s)ds rfx' X E Оптимальная модель СР определяется выражением f-r-(7E(e)'r(x/6)[A/(Xt,e)]^[>wde=o, д f, где производная — I [хк, s’)—функция двух переменных: xft и е. Пусть каждый из Лг* выходных каналов имеет Ко града- ций по амплитуде. Тогда выражение для условной функ- ции риска имеет следующий вид: .....М= S • • S Ф1Р...................*!•••• *jp=1 kM*p=i N ...,kN.) f-~f f' (х/е = ^, . . kN,)dx. sftp....кХ'Р)ш>0 55
Отсюда получаем среднюю функцию риска *=2 2 m.........................М = Я,=1 ЯДГ*=1 N ЧШ............kN.) j...j х s(ftxp.ft^*p)(x)>0 Xf'(x/e = fej, ...» kN^dx. При введении дополнительных обозначений имеем: к к N V 2 J- - J g(klp,...,kN.ptx)dx, *ip=1 ^*P=1s(Aip.....fe^*p)(x)>0 где к» ка ёК........kv-v х)= 2 • 2 ф1р............kN.f, К = I ЙДГ»= 1 k«‘}fAkv МПХМ....kN.). Результат минимизации средней функции риска в дан- ном случае: ...... kN.p, х) — х)>0, (^р....fe'^«p) = (° °)' ••’ ,А'>' ’ Ко).’ т-е- всего 7z* N* комбинаций. Отметим, что, в частности, можно рассматривать случай Ко = 2 как наиболее просто реализуемый. 2-4. Априорная информация о входном сигнале СР в режиме самообучения Задача самообучения отличается от задачи обучения тем, что в режиме самообучения в СР не указывается рринадлежность об- разов к тому или иному классу. В случае обучения СР получаем информацию об организации внутри классов в виде указаний учи- теля. В случае самообучения эта информация должна быть зало- 56
жена в СР априори. Наверное, разумно при определении класса в режиме самообучения наложить следующее ограничение. Каж- дому классу образов должна соответствовать одна мода функции плотности распределения вероятностей входного сигнала х (п) СР. От априорной информации о входном сигнале систем распозна- вания образов существенно зависят методы решения задачи само- обучения. Указанную априорную информацию о входном сигнале можно с методологической точки зрения разделить на три основ- ные части. 1. Априорная информация о числе классов или, что то же са- мое, информация о числе мод функций плотности распределения входного сигнала. На основании данной априорной информации и предположения о том, что каждый класс имеет свое собственное одномодальиое распределение, распределение входного сигнала системы распознавания образов может быть представлено в виде К /(x) = S^W’ <2’22) *=1 где х (н) — входной сигнал системы распознавания образов; f (х) — плотность распределения входного сигнала; fk (х) — плот- ность распределения образов в &-м классе; р^ — вероятность по- явления образа из &-го класса; К — число классов. 2. Априорная информация о виде плотностей распределения образа в каждом из классов. 3. Априорная информация о величинах вероятностей появле- ния образов из различных классов р^. Априорная информация о числе классов К. (мод функции плот- ности распределения входного сигнала) может быть трех типов (по мере уменьшения априорной информации): точно известно К — число классов (т. е. мод); число К классов (мод) не более заданного Кмакс; число К классов (мод) неизвестно. В первом случае необходимо создание алгоритма решения за- дачи самообучения для конкретного числа классов. Во втором случае необходимо создавать алгоритм самообучения, который, будучи оптимальным для максимального числа классов Кмакс, будет оптимальным и для меньшего, каким и может оказаться дей- ствительное число классов. В третьем случае, пожалуй, единст- венным путем качественного решения задачи самообучения яв- ляется построение алгоритма самообучения для постепенно уве- личивающегося числа 7<Макс- В таком алгоритме нужно вводить критерии остановки алгоритма при увеличении максимального числа классов Кмакс. Критерием остановки может являться либо отсутствие увеличения качества самообучения при увеличении Кмакс. либо невозможность реализации алгоритма ввиду его слож- ности. Априорная информация о виде распределения для каждого из классов может быть трех типов (по мере уменьшения); точно (с точ- ностью до конечного числа неизвестных параметров) известен вид распределения; вид распределения неизвестен, ею может быть при- нятанекоторая аппроксимация распределения, которая, естественно, в общем случае приводит к тем большим ошибкам, чем больше не- соответствие реальных и аппроксимирующих распределений; вид распределений неизвестен. 57
В зависимости от количества априорной информации о виде распределения для каждого из классов выбирается способ реали- зации оптимальной модели СР. Априорная информация о вероятностях появления образов из различных классов. При представлении суммарного распределения вероятностей входного сигнала системы распознавания образов в виде (2-22) для создания системы представляется априорная ин- формация следующих типов о вероятностях появления образов из различных классов р^: коэффициенты рь равны между собой для любого k, коэффициенты рь априори не равны для любого k, но неизвестны. Первый случай не накладывает практически никаких допол- нительных ограничений на методы решения задач самообучения. Во втором случае введение более широких диапазонов изменения параметров входного сигнала вследствие неравенства р^ приводит к усложнению процесса самообучения ввиду необходимости при настройке определять кроме параметров распределений для каждого подкласса еще и коэффициенты pf,. 2-5. О критериях первичной оптимизации СР в режиме самообучения Критерий первичной оптимизации также является дополни- тельной информацией, закладываемой в систему распознавания образов априорно, наряду с априорной информацией о входном сигнале. Необходимость задания этого критерия заключается в том, что он определяет качество системы распознавания, которого она должна достигнуть в режиме самообучения. Во всех случаях, описанных выше, когда распределения об- разов в классах известны, аппроксимируемы или вообще неизвестны, в принципе возможно применение критерия первичной оптимиза- ции самообучающихся систем распознавания образов, по которому разделяющая поверхность (в частном одномерном случае — порог) вычисляется в соответствии со следующим выражением: = 0 при условии > 0. (2-23) дх dx2 Решение этого уравнения соответствует порогу (рис. 2-12). В случаях, когда распределения образов в классах могут быть определены или аппроксимированы, можно применить следующий критерий Plfl W = Plfl W> (2-23а) которому (на рис. 2-12) отвечает порог h2. Применение вводимого критерия (2-23) первичной оптимиза- ции в режиме самообучения оправдывается нашим представлением о работе человека в режиме самообучения, когда он в случае двух признаков н двух классов (рис. 2-13) делит множество образов на подмножества, проводя разделяющую поверхность по местам наи- меньшего сгущения образов. Легко показать, что решения, оптимальные по данным крите- риям первичной оптимизации СР в режиме самообучения, отли- чаются друг от друга. Частный случай, изображенный на рис. 2-14, 58
или Оц или а2 много меньше по- Рис. 2-12. К введению критериев первичной оптимизации самообу- чающихся СР. иллюстрирует дополнительные свойства указанных критериев. Здесь .можно выделить три возможных случая: 1) классы хорошо разделяются, т. е. пересечение невелико (условием этого является то, что ловины расстояния между центрами классов); оптималь- ные пороги hx и Л2, соответ- ствующие первому и второму критерию первичной оптими- зации, отличаются друг от друга незначительно (пороги hi и h2 при аг — 0,1 на рис. 2-14, а); 2) классы столь сильно пересекаются, что по первому критерию не получается опти- мального порога hi. При этом один из параметров больше половины расстояния между центрами классов, а второй сравним в этом случае не ясен качественный смысл разделения одного «горба» па два класса, тогда как в случаях пп. 1 и 3 пороги разделяют «горбы» двумодального распределения входного сигнала. Последнее, по нашему мнению, является весомой причиной для введения в определение класса для задачи самообучения огра- ничения, связанного с модальностью функции плотности распреде- 59
ления входного сигнала системы распознавания образов. Именно представление f (х) многомодальной функцией позволяет использо- вать в режиме самообучения в качестве критерия первичной опти- мизации специальную среднюю функцию риска, предложенную М. И. Шлезингером, развитую в [Л. 48] и используемую ниже. 2-6. Оптимальные модели СР в режиме самообучения и при произвольной квалификации учителя Предположим, что образы сгруппированы вокруг не- которых неизвестных центров bftp классов. При введении в рассмотрение функции расстояния образов от множеств £-го класса р(х, Ь* ) == || х—ЬЛр ||2 условная функция риска, возникающего при отнесении образа х к области йр-го решения, может быть представлена в следующем виде: 5 II M^(x)dx, $t P'(x)>0 где |j — (I означает норму вектора. Средняя функция риска равна: хр R- 2 J ||x-btp|[7(x)dx. (2-24) АР 1 s(Ap) (х)>0 В данном случае область йр-го решения (kp = 1, . . . ♦ удовлетворяющая условию минимума R, определя- ется следующей системой неравенств: (^р = 1, ... /<р). (2-25) Уравнение, определяющее координаты центров классов, удовлетворяющих условию минимума R, имеет следующий вид: J Xif (х) dx b„ i=*gp>W>0-----------, ( = 1...... N. Р’ (J) st p/(x)>0 *p-l.......Kp. (2-26) Системы (2-25), (2-26) определяют оптимальную модель СР в режиме самообучения. Отметим, что функция потерь 60
р (х, Ц3) = || х—ЬЛр ||2 определяет довольно грубую ап- проксимацию распределения в классе. Более точная аппрок- симация может быть достигнута усложнением оптимальной модели, достигаемым за счет усложнения функции потерь, например, следующим образом: или взятием р (х, bfe ) в еще более сложной форме. Подобно тому как в режиме обучения вектор-функция pi (е), . . . , /fep (е)] заменяется функцией I (xk, е) двух переменных при переходе к случаю континуума решений, в режиме самообучения вводится в рассмотрение функция потерь в виде р [х, b (хА) ], где функция b (хЛ) является либо конечным [Л. 48], либо промежуточным результатом синтеза СР. В случае дискретного множества решений СР средняя функция риска имеет следующий вид: кр г /?=: 2 f Р (X, bt )G(x, A )/(x)dx, где { (М 1, если х £ S (х)у>0, G(x, /гр) = ( 0, если xgS (х)>0. Для континуума решений СР имеем аналогично R j f Р [х, b (xt)] G (х, xt) f (х) dxdxt, где I 1, если .1’г,-Р(х), G(x, xs) I g, если ,ел. / P(x), или, иначе, Я = [р[х, b[P(x)]]/(x)dx. (2-27) Выражение для оптимальной модели СР получается отсюда дифференцированием R по xk — Р (х) и b анало- гично тому, как это было сделано в режиме обучения f(x)-^-p[x, b(xs)]| =0, dxk \*k=p <x) /(x)-^-p[x, b(xA)]=0, t = .. N, 61
при использовании дополнительных условий Сильвестра для матрицы смешанных производных второго порядка Я по компонентам вектора b (xft). Рассмотрим оптимальную модель СР с = К реше- ниями при произвольной квалификации учителя Ь. Необходимо так определить функцию потерь I (х, Ьй , b, , чтобы в режиме обучения при b = 1 / = /**, в режиме самообучения при b = О I — р (х, ), а прн b — — 1 определялся функционал первичной оптимиза- ции с обратной экстремальностью по отношению к режиму обучения. Такая функция потерь может быть записана в следующем виде: / (х, btp, Ь, /м) = Им + (1-&г)р(х, bip). Выражение для средней функции риска имеет вид: £ f { [ 2рЛ(хПм] ь + ‘о-1 (‘о) Ч ‘-1 J р S' р' <х»0 + (l-b!)||x-b,pp(x)|dx. (2-28) Оптимальная область Ар-го решения может быть пред- ставлена следующим образом: s W = g . (х)—gk (х)>0, fep7tfep = l...... р ₽ Выражение для оптимальных значений bk t имеет вид, аналогичный (2-26). Выше предполагалось, что квалификация учителя из- вестна точно при построении оптимальной модели СР. Не- точное знание квалификации учителя имеет место, напри- мер, при решении задач медицинской диагностики, когда известно, что квалификация обучающей выборки сделана врачом, имеющим конечную, неточно известную конструк- тору СР квалификацию. При этом объективная квалифи- кация b учителя определяет вид распределения входного сигнала, а субъективная квалификация учителя Ьс, сооб- щаемая системе, определяет вид функционала оптимиза- ции. В случае К = Кр классов и решений СР R 2 . .. / | 2 [ 1>сРАр/1 + (1 - (Х’ 41 I X X f'(x/8 — k)] dx. 62
С учетом выражения для закона распределения вход- ного сигнала оптимальная модель СР, в данном случае оп- ределяемая системой К неравенств, запишется в следую- щем виде: v l6c^t/Mp-PU4ip) + (l-69 [р(х, Ь,Р)~Р|Х> Ь^Щх fe=l к Mi' X ---------------> о, (2-29) ^^kk' где &р — 1, , . . , /(. В этом случае предполагается, что субъективная квали- фикация учителя, сообщаемая СР, не зависит от номера класса. Из (2-29) следует, что в случае bc = 1 и [afcfe,] = /llt где — единичная матрица (см. § 1-3), имеют дело с ре- жимом обучения. В случае Ьс — 0 при произвольных зна- чениях ak.k система работает в режиме самообучения. В об- щем случае, когда объективная b и субъективная Ьс квали- фикации учителя совпадают, система способна к настройке. В том случае, когда учитель имеет нулевую квалификацию, а систему принуждают работать в режиме обучения, она оказывается неспособной к настройке. Вышеизложенный материал позволяет следующим образом классифицировать априорную информацию, необходимую для по- строения оптимальной модели СР: а) число классов образов (два, К, континуум); б) характер нестациопарпости входного сигнала; в) функция квалификации учителя СР от двух аргументов, являю- щихся индексами соответствующих классов; г) функция «собствен- ного мнения учителя СР о своих способностях»; это также функция двух аргументов, являющихся индексами соответствующих клас- сов; д) априорные вероятности появления классов; е) структура пространства решений СР (два, континуум решений); ж) класс критериев первичной оптимизации СР; з) функция потерь при от- несении СР образов одного класса к другому. Это указывает па значительность объема априорной информа- ции, необходимой для построения оптимальной модели СР. Необ- ходимо отметить, что иногда отпадает необходимость в некотором виде априорной информации, например в априорных вероятностях появления классов при использовании минимаксного критерия или эмпирического байесовского подхода. Как было указано во введении, количество априорной инфор- мации о виде f' (х/е) определяет пути реализации оптимальных мо- делей СР, указанные в табл. В-1. 63
Глава третья ПОСТРОЕНИЕ СР, настраивающихся по разомкнутому ЦИКЛУ 3*1. Классификация типовых распределений Построение СР, настраивающихся по разомкнутому циклу, предполагает априорное знание в той или иной форме общего вида условных плотностей распределений f (х/е) с точностью до неизвестных параметров, которые определяются в процессе настройки по реализациям входного сигнала. Подобное априорное задание f' (х/е), естественно, ограничивает возмож- ности СР при распознавании обра- зов с характеристиками, изменя- ющимися в широких пределах. Одиако если информация о виде условной плотности имеется, то ее использование приводит к упроще- нию реализации СР. При наличии данной информации и выражения, описывающего оптимальную мо- дель СР конкретного вида, задача синтеза СР, настраивающихся по Рис. 3-1. Общая струк- турная схема СР, на- страивающихся по ра- зомкнутому циклу. разомкнутому циклу, заключается в подстановке выраже- ния для f' (х/е) в формулу, описывающую оптимальную модель. Общая структурная схема СР, настраивающихся по разомкнутому циклу, представлена на рис. 3-1, где / — блок оценки параметров условных плотностей f (х/е), // — блок расчета параметров разделяющей поверхности, /// — априорная информация о виде условных плотностей. Решение задачи синтеза СР, настраивающихся по ра- зомкнутому циклу, возможно для любой оптимальной ма- тематической модели СР и любой функции распределения. Использование информации о типовых распределениях при синтезе СР, по сути дела, есть использование опыта, накопленного математической статистикой при описании существующих в природе процессов детерминированными характеристиками. Типовые распределения могут быть классифицированы, следующим образом: дискретные (одномерные и много- мерные), непрерывные первообразные; непрерывные выбо- рочные. 64
Перечень наиболее часто встречающихся распределе- ний каждого из классов представлен в табл. 3-1. Конкрет- ные выражения для данных распределений можно найти в известной литературе [Л. 16, 18, 25, 27, 32, 34, 37, 38, 39, 43, 451 по математической статистике. Таблица 3-1 Дискретные распределения Непрерывные распределения первообразные выборочные Гипергеометри- ческое Биномиальное Пуассона Геометрическое Паскаля Пойа Полиномиальное Пуассона Многомерное Равномерное (прямо- угольное) Симпсона (треугольное) Нормальное (Гаусса)* Релеевское * Обобщенное релеевское Коши * Экспоненциальное Лапласа Гиперэкспоненциальное Показательно-степенное Логарифмическое Логнормальное Вейбулла * Арксинус * Логистическое Пойа —Эттли Sech 2 X2 — распределение * t — Стьюдента * у — распределение * р — распределение * F (или V2) Уишарта г — Ришера * Т2 — Хэттелинга W — распределение нецентральное Т —распределение S2 — распределение Вилкоксона U — распределение X— » R- » г — » Гху 2 * • распределения, охваченные системой Пирсона. 3*2. Построение СР, оптимальных для совокупностей образов, распределенных по некоторым типовым законам Нормальное распределение В случае нормальных распределений л (х) =-------------— exp [- -L (X - m()T U~l (х - m,)j (2л;) 2 I Ut | 2 выражение для оптимальной разделяющей поверхности (СР двух классов образов на два решения) имеет следующий вид: S (х) = х7' (IV1 - С/f1) х + 2хг (l/f’m, — CV’mJ — Т„ = 0. 3 Заказ № 975 65
Здесь индекс Т означает операцию транспонирования вектора х. Пороги То для критериев: минимума средней функции риска Я (Г,), минимума Я при условии р^ = р2г2 (Т2), минимума R при ус- ловии pifi = а (Т3) — имеют следующий вид: Т. = 1п । • _|_ mfy. ’m, — mJ(/2 + 1 | t/2| 1 1 1 2 2 2 -Г + 2in-^ + ain —— fal Л 61- /,2 T« — In । ' - — tnf U. bn, — ml ]m? + 2 In —- 2 |t/2| 11 1 1 2 2 2T P1 -1-21П--g-^'31 4~ In ; T = In -L^3-L + m S 1^1 '2 4 + 2In 77 + + 2 In _i_ In Л. M — ^12 Множители Лагранжа в 7\ и Ts определяются подстановкой f{ (х) и S (х) в уравнения для соответствующих ограничений. Релеееское распределение. В данном случае при N = 1 (один признак) имеем: Г 20; bw=4« Для системы распознавания 2 (табл. 2-1) при оптимизации по критерию минимума средней функции риска имеем: 66
В случае критерия минимума R при условии = р2га по- рог равен: ______________________________ т=1/' 2g'°2 ln(,u~;»)',i(,»<1+x) , У (,2г-'21)Ргс’?(|-Ч’ Система для определения множителя Лагранжа А имеет сле- дующий вид: , п И I 1 Г ^32 1 4 = Р1 (/12 — /11) --------------------- L (Ju ~ hi) <°ia2 J В — (/21 — /22) (/22 *21) ^2°! 1 C — Pihi — Pihi- Распределение Пуассона. В данном случае при = 1 fl (х) = О <4 X <3 со. Первый начальный, второй начальный и второй центральный моменты данного распределения равны А, А2 4- А, А. Оптимальный порог имеет вид: 7 = In Al — In А2 Треугольное распределение. В данном случае (рис. 3-2) при = 1 Qi / aLa2 ~ °2^l alC ч- J a^d[b — а^а^Ь + + a2a£b2 — а2а^Ь + — а^ + R -------------------------------------------------------------- при определенных ограничениях на pi и 1ц . 3*
равномерное распределение. В данном случае при W — 1 ft (*) = при а < х < Ь, О при х<а’ х^> b. 1 а1 Рис. 3-2. К построению СР, оптимальной для сово» купности образов, подчиняющихся треугольным рас» пределениям. В случае, изображенном на рис. 3-3, имеем Qi<* при этом 7\=a2, 7’2 = д3; = я^ __ ц ПРИ Pi = Ра- 41 4г — 0; 4а = 41 — !• Рис. 3-3. К построению СР, оптимальной для совокуп- ности образов, подчиняю- щихся равномерному рас- пределению. Рис. 3-4. К построению СР, оптимальной для совокуп- ности образов, подчиняю- щихся равномерному рас- пределению. В случае, изображенном на рис. 3-4, <^а2<3сз <za4> при этом формулы для порога и средней функции риска равны: при аналогичных ограничениях на pi и 1ц . 68
3-3. Построение СР, оптимапьных дпя совокупности разпичных законов распредепений вероятностей Здесь ставится задача отыскать функциональную форму, удачно описывающую совокупность распределений и обладающую достаточно широким охватом встречающихся на практике распре- делений. В {Л. 37] рассмотрены следующие системы распределений вероятностей: система, основанная на преобразовании Кэптайна— Джонсона, система, основанная на разложении в ряд Грамма- Шарлье (I), система Пирсона (III). Сравнение показало, что система Пирсона обладает преиму- ществами по сравнению с остальными, так как позволяет при наи- большей простоте описания охватить широкий круг известных распределений. Классификация распределений Пирсона исходит из стремления описать совокупность плотностей вероятностей еди- ным уравнением, в частности в одномерном случае: dx G(x) где а — мода распределения, G (х) = &0 + &хх 4- &2х2 Обозначая через tx-i и р^ соответственно i-e начальные и центральные моменты распределений и принимая в G (х) равными нулю &3, bit . . . , можно выразить Ьо, Ь2 через р/ следующим образом: ь = Н2 (4№ ~. а = ь Из(на4-3р1) Юр2р4 — 18р2 — 12р| 18р2 12р2 2р2р4 Зр| 6р| Ь2 — -----------:------- 10р2р4 — 8рЗ— 12р| (3-1) (3-2) При введении обозначений pj = р|/р2, ?2 = Р4/Р3 уравнение для f (х'), где х' — х —а1( принимает вид: 1 di (*') /(х') dx' Г----1' lb К Р (Ра + 3) 1 2 (50 (,р _ 9) =____________L 2(503—60! —9) J . ц2 (402 - 30,) + Ун, /р, (Ра -|- 3) х' + (20а - 30! - 6) х'= (3-3) Критерий классификации распределений Пирсона вытекает из анализа корней уравиеиия: Ьо 4- &хх 4* Ь2х2 = 0. Вводится в рассмотрение следующий коэффициент: К Ь' Р1(Р» + 3)» ° 46„6, 4 (20.. - 30, - 6) (4₽,—301) Три диапазона изменения Ко дают (по Пирсону) три основных типа распределений: (I) К0<0, (IV) 0<JK0< 1, (VI) Kq> 1- Осталь- 69
ные типы (всего система содержит 12 типов распределений) обра- зуются на стыке диапазонов при Ко — О, Ко — 1, К,, = оо с при- влечением дополнительных критериев классификации. Решение уравнений (3-1) и (3-2) может быть получено в следующем виде: (х а1_Лх)^------— f (х) = const ------ , ~ Л ' A-i — a (3-4) где А! и А 2 — корни полинома G (х). Сравнение встречающихся на практике частных видов распре- делений с типовыми распределениями Пирсона говорит о широте охвата системы. Выражение для плотности (3-4) может быть использовано в про- цессе реализации оптимальных моделей СР при настройке по ра- зомкнутому циклу. Обучение в рассматриваемом случае происхо- дит следующим образом: а) по выборке из генеральной совокупности для распределе- ния, охват которого системой Пирсона подразумевается, оцени- ваются четыре первых момента; б) в соответствии с (3-2) по четырем моментам определяются коэффициенты распределения; в) в соответствии с материалами гл. 2 определяется уравнение для разделяющей поверхности и, если необходимо, выражение для средней функции риска. 3-4. Метод допустимых преобразований Метод допустимых преобразований [Л. 8, 34, 541 впервые был предложен в работе [Л. 341. Ниже излагается некоторая его моди- фикация. При этом показывается, что метод допустимых преобразо- ваний приводит к СР, настраивающейся по разомкнутому циклу, причем априорная информация о виде допустимых преобразований эквивалентна априорной информации о виде типового распреде- ления. При данном методе подобие Z (х, Хт) образа х и совокуп- ности образов Хт (m — 1, . . . , Л4), представляющих класс, оп- ределяется следующим выражением: I М Z (X, 2 d (X, х„), М m=k где d (х, Хт} — метод измерения расстояния. При рассмотрении классов независимо достигается Г ] м м 1 ___________ rain d{X” М = min х^' ° В работе [Л. 181 рассматривается случай К ~ 2. Ниже рас- смотрим частный класс метрик, а именно 70
Отсюда следует, что необходимо обеспечить минимум следую- щего выражения: I М М N min Dr= min——-------— 2 S %Vru(x ,~x,\r = M (M — 1) p±i iti il [ mi p" = 2 [ 2 (- 1)'-V c>7^], м — 1 f=i Lv=o J _ м где х\ = V x^ni, причем Dr = 0 для г = 2ft—1, ft = 1, 2 . . . m=l Для четного г 2A м — iiii v‘ * (3-5) Достаточно просто показать, что минимум при условии N Wii = 1 обеспечивается в случае i=i Wtl =-----------!------------, i = 1, . . . , N. •^2 /-=1 / N При условии П 1F«=1 минимум обеспечивается, если Отсюда следует, что с учетом (3-5) 1 N Г N 1 N N min D2/i = min —--------- V П j = min П = min (3, Дополнительная оптимизация здесь осуществляется поворотом системы координат, т. е. линейным преобразованием вида " (3-6) xmj — xmicji‘ 71
Исходная ортогональная система координат преобразуется матрицей, ла которую накладывается дополнительное требование ортогональности В случае подобного преобразования объем области сохраняется. В выбранной системе координат f(2/o= 22(__1)2^vcvft^y=v; V=0 С учетом (3-6) 2ft ~i N 1 v 12ft-v Отсюда Flh}= 2 .2,сл, •• ....(3-8) fl=1 42Л=1 2ft ч...... Итак, минимизируемая величина имеет следующий вид: N N N ₽=п 2 ... X % .....(3-9) Эту величину необходимо минимизировать при наложении со- ответствующих ограничений (3-6) на коэффициенты линейного пре- образования. Из (3-9) получаем: У сн • • • сн и1 'll }l2h С1 *&г~1 f2ft т ™ х^-2 dciq 4=1 Обозначая ‘о 12Й Z2ft‘ Л,- = п ‘л и производя дальнейшие а₽ , £ ---= Ai 2j • dcll l =1 (2ft^1 преобразования, получаем: N 2ft 2ft г2Л ‘гЛ’ г'гЛ 72
Можно показать, что симметричная перестановка индексов в группе индексов не меняет матрицу Ui...iah, а несимметрич- ная изменяет ее. Следовательно, выражение для полного дифферен- циала имеет следующий вид: N N N N = 2 2 2 2 ' • • 2 'ил_. X '=!«=!‘,-1 <й_1=1 X(£Z*‘*.....'Л-1+ %*.......‘*-1+ • • +УЧ............... Минимум при ограничениях типа (3-7) обеспечивается при удовлетворении коэффициентами с следующего соотношения: N N ‘ С//1 ' ’ ' Cll2h—1 ( ....i2k— 1 Ч~1 *2ft—I”1 • - -'А...‘/.-л......»*-»)+xi%- °’ I, q = 1, . . . , Af. Отсюда следует, что параметры оптимального нелинейного пре- образования исходного пространства признаков в данном случае непосредственно определяются через моменты распределения со- вокупностей образов. Рассмотрим связь метода допустимых преобразований с тео- рией статистических решений. В случае г = 2 введенная мера по- добия образа классу может быть представлена в преобразованном пространстве признаков в следующем виде: 2(*. хт) = ^)сг/г7'с’'(х- у Л Здесь / — единичная матрица, а 1Г — диагональная матрица с диагональными элементами, которые в соответствии с (3-5) равны: 1 . / N \N где К, А. — собственное значение ковариационной матрицы для совокупности образов, соответствующее r-му собственному век- тору, хт — вектор из множества Хт. Преобразуем выражение для меры подобия Z следующим образом: N М -----------------т Z(x, *т) = 2 ^lCWIWTCT]rs(Xr-xmr)(xs-X'ms) = = У, У [CIV7 U'rCr]rs ;A-,A-s— xrxs— x~xs + xrxs± xrxs — = 73
= S 2[CW^TC7']„(xf-x,)(x,-rs) + --I S=1 + 2 2[cif7iPrcrui/,., (3-10) где Urs — элемент матрицы ковариаций. Далее рассмотрим мат- рицу [С W'fW'TCTl U = C(W’!W'T')(CTU') = C (|ОТГ) (СГС/) (СС-‘) = с (uwr)(сгс/с) сч =с (г/гг)м?-1 2 2 / N \ N / N \ N = С П а/ Па/ , 1 /=1 / \/=1 / где X — диагональная матрица с собственными значениями мат- рицы по диагонали. Отсюда следует, что 2 N \ N lcnwrcr] = п О/ и~'. (3-11) Подставляя (3-11) в (3-10), получаем следующее: 2 / N \ N г n N Х,„)= II а,. 2 15-*,) + \/=1 / [ r=l S=1 NN 1 -i 2 • N N t А Найдем Известно, что U~=~~, где — алгебраическое дополнение элемента Urs в матрице ковариа- ций U, а А — определитель матрицы U. Отсюда N N . N / N \ 2 2 = 4 S (2 ) • По теореме о разложении определителя по строке или столбцу получим: N N 1 N = 2Л = Л-. r=l s=l Г=1 Отсюда 2 / N \ N Г N N _ _ ] 2 (*• = (П «’у) (*r-*r) (*s~*s) + Л1 | (3-12) 74
С другой стороны, многомерное нормальное распределение может быть представлено в следующем виде: (2л) 2 | U | 2 Хехр [-А • (3-13) Отсюда легко получить преобразование Е ]/ (х) ], которое де- лает равными меру подобия Z, рассмотренную выше для г = 2 и введенную в [Л. 34], и плотность распределения (3-13): 2 ; N \ N S[/(x)]= П с,- [/V — In ((2n)w | (/| ) — 2 1п/(х)] 3-5. Построение СР нестационарных образов Большинство существующих разработок в области теории и практики распознавания образов относится к стационарным об- разам, т. е. к таким, когда сигнал х (л) представляет собой стацио- нарный случайный процесс. Иными словами, картина образа, т. е. множество в У-мерном пространстве является неизменным во вре- мени, а любой образ является представителем совокупности с рас- пределением, не зависящим от времени. В действительности пред- ставление человека об окружающем мире постоянно изменяется. Человек забывает старые факты и больший вес зачастую придает последним. Одним словом, некоторый обобщенный образ у человека как бы перемещается во времени в некотором пространстве призна- ков, которые вырабатываются у человека в мозгу. Можно было бы назвать несколько практических задач распознавания образом, где образы в пространстве признаков подчиняются законам распре- деления, переменным во времени. На рис. 3-5 показаны линии равных значений условных плот- ностей для первого и второго класса, а также девиация разделяю- щей поверхности в нестационарном случае. В этом смысле задачу распознавания нестационарных на некотором интервале времени образов иногда можно трактовать как стационарную с более слож- ной оптимальной разделяющей поверхностью. Рассмотрим простей- ший случай распознавания двух совокупностей образов, распреде- 75
ленных в текущий момент времени по нормальным законам с рав- ными ковариационными матрицами. В этом случае при одинаковых дисперсиях для различных признаков уравнение для оптимальной разделяющей поверхности будет иметь следующий вид: хт [тх (л) — т2 (л)] = [mf (л) пь (л) — mJ (л) т2 (л) ], (3-14) где пц (л), т2 (л) — векторы математических ожиданий совокуп- ностей образов первого и второго класса в текущий момент вре- мени л. Таким образом, в данном случае задача синтеза систем распо- знавания нестационарных образов заключается в оптимальном с не- которой точки зрения определении оценок векторов математиче- 0 ' О Рис. 3-5. К рассмотрению нестационарных образов (п — момент времени). а — стационарный случай; б — нестационарный случай. ских ожиданий совокупностей образов первого и второго класса (блок I, рис. 3-1) и вычислении параметров разделяющей поверх- ности (параметров системы распознавания нестационарных обра- зов) в текущий момент времени (блок II, рис. 3-1) в соответствии с формулой (3-14). Необходимо отметить, что в блоке / на рис. 3-1 при получении оптимальных оценок векторов математических ожиданий возможно применение ограниченного числа желаемых операторов воспроиз- ведения полезного сигнала (упреждение иа постоянный, убываю- щий н нулевой интервалы времени) в зависимости от конкретной постановки задач распознавания. В отличие от систем распознава- ния стационарных образов при нестационарных образах возможны следующие постановки задачи обучения распознаванию: 1. Определение оптимальных параметров системы распознава- ния в текущий момент времени с целью принятия решения (распо- знавания) с наименьшими ошибками в текущий момент времени. 2. Определение оптимальных в текущий момент времени па- раметров системы распознавания нестационарных образов для упрежденного на постоянный интервал а = const момента времени с целью нахождения того, какое наиболее правильное решение нужно будет принимать через время а. 3. Определение в текущий момент времени оптимальных пара- метров систем распознавания нестационарных образов для упреж- 76
денного на интервал а = b—n (b = const) момента времени с целью нахождения того, какое наиболее правильное решение нужно будет принимать в некоторый конкретный момент времени п = В по текущей информации. При этом задача оценки векторов математических ожиданий (ГЦ (я), та (п) является классической задачей оптимальной много- мерной фильтрации случайных процессов, приводимых к стацио- нарным. Синтез оптимального многомерного фильтра для оценки векторов математических ожиданий приведен в [Л. 43]. 3-6. Построение настраивающихся по разомкнутому циклу СР в режиме самообучения Рассмотрим алгоритм самообучения СР по разомкнутому циклу в том случае, когда распределение / (х) входного сигнала СР яв- ляется суммой произвольного числа многомерных нормальных за- конов с соответствующими априорными вероятностями [Л. 55]. Двумодальное распределение В качестве уравнения для разделяющей поверхности можно использовать любое из приведенных в § 3-2, Как видно из этих урав- нений, искомыми при решении задачи самообучения в данном слу- чае являются plt р2, mlt m2, Ult U2, т. e. (N + 1) (jV+ 2) пара- метров. Основной задачей в моментном (параметрическом) подходе к самообучению является нахождение зависимости между этими параметрами и моментами распределения входного сигнала. Введем некоторые обозначения mQ = Jx/(x)dx; k = (klt k2, .... Адг) — вектор-строка Л' чисел; N kj — O, 1,2.....(/ = 1....Л^); I к | = 2 — порядок Аг-строч- =1 N ки k; хк = П rfi = .....xhl; (x) = f (x); цк. = J (x - — т/)кД- (x) dx, (j = 0, 1,2) для | к | .. 2. Очевидны следующие соотношения: Pi + Ps=l; Pimi + P8m2 = mo- (3-15) Получим общее выражение для центрального момента п0‘ рядка | к] >2 распределения входного сигнала СР через параметры распределений первого и второго класса: Ht = J (х — m0)k f (х) dx = р, J (х — m„)k ft (x) dx + + рг px — m,)k/,(x) dx. (3-16) 77
В первом слагаемом У (х — m0)k h (х) dx = | [(х — mt) + (mt — m0)Jk /, (х) dx = = .Г fl ixl хя) | П [(*; - m;i) + (тд - От/О)]‘/ dxj = — fi (*1........xn) х х | Д | С4; (Х1 ~ тц)‘‘ (тц - тЦ>)кГ‘’ j = со Г jV ! ь —I I = / fl (*г М К* - т1)' П Ci -mi0) I i dx = —oo ><k L/=l 1 J | N . . , 1 °o = S П C?: -o) ' ' J (х~га1)'Л« d« = l<k | /=1 > J —oo \1 k! , xk_, l<k где к — 1 — — /j, .... kfj — к!=(^!)(Ш ... (^1). Здесь 1 < к обозначает, что одновременно выполняются /х <klt .... /дг < k^, а суммирование проводится во всем I < к. Воспользоваться этой зависимостью трудно, так как внутри суммы могут присутствовать моменты ,u.j (г — 1, 2), порядок ко- торых | 1 |>2. Известно, что центральные моменты многомерного нормального распределения однозначно выражаются через цен- тральные моменты второго порядка. Вывод такой зависимости пред- ставлен в {Л. 49]. Здесь приведен окончательный результат где К1 — множество всех наборов {к/} вектор-строк к/ порядка |к/ | = 2 таких, что существуют натуральные числа S/, удовлетво- ряющие следующему условию: 1- 78
Подставив полученные результаты в (3-16), получаем соотно- шение между центральными моментами распределения входного сигнала и распределениями первого и второго класса: Ни. = S ₽( S 'П (k-DI (ГП1 “ ГП"Л' Х 1=1 1<к (3-17) Уравнение (3-16) н необходимое число уравнений (3-17) состав- ляют систему (М +1) (У + 2) уравнений относительно (М + 1) (М + 2) искомых параметров некоторых составляющих функции распределения ри р2, mx, m2, Slt S2. В [Л. 55] приведены неко- торые соображения по выбору необходимого числа уравнений. Таким образом, структура рассматриваемой СР в режиме самообу- чения будет состоять нз следующих последовательно соединенных блоков: блока вычисления (N + 1) (М + 2) моментов распределе- ния входного сигнала, блока вычисления параметров распределе- ния первого и второго класса, блока построения разделяющих по- верхностен. Многомодальное распределение. Уравнения для разделяющих поверхностей в данном случае легко могут быть получены по мате- риалам, посвященным К классам образов с использованием выра- жения для многомерного нормального закона. Для построения данной разделяющей поверхности необходимо знать параметры р*. „ / (Д^-L 1) (ДГ 2) гпй, S* составляющих распределении I всего д -!—---- па- раметров). Система уравнений для определения этих параметров через центральные моменты распределения входного сигнала имеет следующий вид: К к Pk = 1 । Pkmk ~ ^0? £=1 й=1 Т7^гг^-т»)к“'х k = l 1<к {“) Данная система уравнений служит основой для построения второго из трех указанных блоков вычисления параметров распре- деления образов первого н второго класса СР, самообучающейся по разомкнутому циклу. Отметим, что реализация на ЦВМ систем распознавания, на- страивающихся по разомкнутому циклу, представляет собой само- стоятельную задачу. Так как реализация связана в основном с во- 79
просами оптимальной фильтрации и корреляционного (моментного) анализа многомерных случайных процессов, то здесь желательно применение рекуррентных методов, изложенных в [Л. 57, 58]. Сложные случаи переменных во времени моментов высокого порядка распределения fx (х) требуют построения оптимальных фильтров оценки упрежденного значения моментов высокого порядка, что само по себе является трудной задачей. Несколько замечаний относительно области применения рег- рессионного и факторного анализа в задаче синтеза СР. Регрессионный анализ предполагает изучение статистических свойств признаков при известных условных плотностях, поэтому его можно применять только в рамках настройки по разомкнутому циклу. То же самое можно сказать и относительно факторного ана- лиза — только в сфере решения задачи выделения информативных признаков (см. гл, 10). 3-7. Исследование точности СР, настраивающихся по разомкнутому циклу Результатом исследования точности систем обработки инфор- мации, синтезированных в соответствии с некоторой априорной информацией о характеристиках входного сигнала, структуре си- стемы, и критерием качества являются вывод и анализ выражений для оценок качества достижения конечной цели обработки. В слу- чае задач оптимальной фильтрации априорной информацией о вход- ном сигнале является, в частности, задание характера изменения регулярной составляющей сигнала и характера распределений слу- чайных составляющих входного сигнала на интервале памяти. Ап- риорной информацией о структуре системы является формирование выходного сигнала системы оптимальной фильтрации в виде свертки входного сигнала и импульсной переходной функции, а также ин- тервал интегрирования в свертке — память системы. Критерием качества является обычно минимизация случайных ошибок филь- трации при определенных ограничениях на систематические. Анализ точности синтезированной системы (вывод выражения для минимальных ошибок) обычно производится иа уровне априор- ной информации о характеристиках входного сигнала системы, хотя возможно исследование точности оптимальной системы прн харак- теристиках входных сигналов, отличающихся от априорных. При исследовании точности систем распознавания образов будем рассматривать их как частный случай систем обработки ин- формации, Здесь априорной информацией о входном сигнале яв- ляется его размерность и характер изменения моментов на интер- вале памяти. В данной главе рассматривается СР, описанная в Желательно было бы синтезировать параметры разделяющей поверхности таким образом, чтобы обеспечить оптимальность по критерию первичной оптимизации. Однако это приведет к проце- дуре синтеза нелинейных фильтров, так как связь между парамет- рами входного сигнала и системы в данном случае должна быть су- щественно нелинейной. Мы же останавливаемся на дополнительном задании априорной структуры блока обучения, связывающего па- раметры входного сигнала системы и параметры системы в виде 80
выражений: а (л) = тх (п) — т2(л), а0(л) =~ [тГ (*) mL — т2Г («) m2^)| (3-19) Кроме того, априори задаем структуру блоков получения па- раметров входного сигнала.-Это приводит к некоторому отклонению от критерия первичной оптимизации системы распознавания даже па уровне задания априориых характеристик входного сигнала. Если принимать за критерий качества получения настраиваемых ко- эффициентов системы минимум случайной и нуль динамической ошибки, то оптимизация по данному критерию блока получения параметров входного сигнала по каждому классу приводит к полу- чению оптимальных по данному критерию настраиваемых парамет- ров а (л). Это верно только для случая, когда входные сигналы пер- вого и второго класса системы независимы. Синтез блока получе- ния коэффициентов а (л) при зависимых классах в виде многомер- ного линейного фильтра не представляет принципиальных затруд- нений. Минимизация случайной и обиуление динамической ошибок получения параметров входных сигналов не приводит к удовлетво- рению этого указанного выше критерия для а0 (л), так как а0 (л) и параметры входного сигнала связаны нелинейной зависимостью. Именно это н приводит к отклонению от критерия первичной опти- мизации даже на уровне задания априорных характеристик вход- ного сигнала. Исследование точности само по себе должно показать слабые стороны синтезированной системы, которые появляются при задании в процессе синтеза некоторой априорной информации о входных сигналах, структуре системы и критериях качества. Итак, останавливаясь на априорной структуре систем распозна- вания и блоков обучения, описанных выше, будем исследовать точ- ность обучающихся по разомкнутому циклу систем распознавания нестационарных образов в следующем порядке [Л. 56, 57]: 1. Для априорных характеристик входного сигнала и синте- зированных блоков оценки параметров функций распределения входного сигнала исследуется точность оценки данных параметров. 2. По полученным оценкам точности вычисления параметров функций распределения входного сигнала в соответствии с'выра- жением (3-19) рассчитаем оценки точности получения настраивае- мых параметров систем распознавания. Эти оценки будут оценками точности работы контура настройки по разомкнутому циклу СР не- стационарных образов в режиме обучения. 3. Имея характеристики точиости получения настраиваемых параметров системы распознавания в текущий момент времени, априорную структуру системы распознавания и характеристики (априорные или отличные от априорных) входного сигнала, можно получить оценки для точности работы замкнутой системы распо- знавания образов в терминах вероятностей правильного распозна- вания или ошибок как конечной цели исследоваиия точности работы данного нласса систем. Данная методика справедлива для любых законов распределе- ния совокупностей образов в пространстве признаков, а не только нормального. 81
Исследование точности оценки параметров функций распределения входного сигнала В качестве параметров функции распределения входного сиг- нала при построении линейной разделяющей поверхности служат первые моменты распределений. Точность оценки определяется точностью многомерных фильтров для выделения векторов первых моментов многомерных случайных процессов* соответствующих первому и второму классу на входе систем распознавания. Целью данного исследования, по сути дела, является вычисление ковариа- ционных матриц для вектора случайных ошибок многомерных фильтров. Данные ковариационные матрицы вообще могут быть различными для первого и второго класса по следующим причинам: 1. Возможно несоответствие действительных ковариационных матриц сигналов N (п) для первого и второго класса априорной ин- формации о их равенстве. Здесь N (л)—случайная составляющая дискретного входного сигнала СР. 2. Возможна разница в значениях памяти многомерных фильт- ров оценки векторов математических ожиданий сигналов для пер- вого и второго класса. 3. Возможна разница в гипотезах изменения регулярных со- ставляющих входных сигналов. Выведем выражение для ковариационной матрицы ошибок многомерного фильтра оценки вектора математических ожиданий в блоке обучения СР нестационарных образов. Выражение для ошибки по /-му выходу указанного многомерного фильтра имеет следующий вид: N м i'=l f=0 Ковариационная матрица случайных ошибок определения век- тора математических ожиданий в момент времени п имеет следую- щий вид: е; (n) tr (п) = | Ue («) | = N N М М = 2 2 22 ‘v i'=l i"=l i|=0 is=0 где (n, zr х2) — Nt> (n—4) Ny (n—i'3)—ковариационная матрица многомерного сигнала N (и); IT// (ZJ — импульсная пе- реходная функция канала многомерного фильтра, соединяющего /-й выход и Г-й вход; М — память многомерного фильтра. Это выражение можно записать в матричной форме [Л. 49] с учетом специфики задач распознавания образов г м м 1 <«)1 = 2 2 w/(h) и («> ‘г ('2) - / г =1 • I. f,=0 f5=0 J 82
Un (n, <!, ;a) UlN^n, ii, i2) [I/ [«, it, i3)J = Uni(n, Л, i2) Until, 1'1, 11) _ ('1, '2=0.........Л1). С учетом того, что ковариационная матрица принимает вид: [yEW]=lw/^w/]. / /' = 1. •••> N. В данном выражении импульсная переходная функция много- мерного фильтра является оптимальной W, = и~'В (Вги-,'В)-' !Л/. Здесь В — числовая субматрица; М/ — вектор ограничений на оптимальную импульсную переходную функцию. Отсюда следует, что [У8 (га)] = фг'а Л1;.]г х X у[у=1в(вгу-1в)“1 М;.,] ] , /, /'= 1....N; [Уе(')]= [м?(вги~'в)^' вти-'ии'-'в(вти~'в)-' . Преобразовывая, получаем: [Уе (л)] = [мТ (.BTU-'Blr' My,J, j, / = 1.N. (3-20) Отметим, что формула (3-20) верна для случаев как стационар- ного, так и нестационарного вида ковариационной матрицы сиг- нала N (л); из формулы следует также симметричность матрицы {7е (ft). Особенно важным для практики является случай независи- мых признаков, так как он просто реализуется. В случае независи- мых признаков, как видно из формулы, матрица становится диа- гональной и уравнение для передаточного коэффициента (коэффи- циента сглаживания) каждого канала многомерного фильтра по 83
случайной составляющей входного сигнала будет иметь следующий вид: . ,, - о? = МТ(.ВТВ)-' М = 8,(Л> , j=k. (3-21) Д'! (и) Общий анализ данных выражений позволяет сделать следую- щие выводы для СР нестационарных образов. При обучении по разомкнутому циклу, чем больше память си- стемы распознавания, тем с большей точностью оцениваются пара- метры функций распределения совокупностей первого и второго класса. Чем больше время упреждения в процессе распознавания не- стационарных образов, тем больше ошибка оценки параметров функций распределения совокупностей первого и второго класса. Для блоков обучения по разомкнутому циклу систем распознава- ния нестационарных образов с возрастающей памятью выражения для характеристик точности имеют тот же вид, что и для случая с постоянной памятью (3-20), (3-21) с заменой в соответствующих субматрицах и матрицах М на л. Исследование точности получения настраиваемых коэффициентов Необходимо определить точность работы контура настройки по разомкнутому циклу систем распознавания. Задача оценки точ- ности СР ниже решается лишь в принципе с иллюстрацией на кон- кретном примере. В связи с этим рассмотрим случай, когда 1) гипотезы измене- ния во времени первых моментов распределений совокупностей входных выборок одинаковы; 2) память блоков оценки моментов распределений этих выборок одинакова; 3) ковариационные мат- рицы совокупностей входных выборок равны. Для данного случая используем выражение (3-19) для опти- мальных настраиваемых параметров системы распознавания обра- зов, где а (п) и л0(п) — коэффициенты разделяющей поверхности, реализуемой в момент времени п системой распознавания образов в пространстве признаков ат (п) х + а0 (п) = 0. Нужно определить динамические и случайные ошибки коэффи- циентов а (п) и а0 (п) по имеющимся динамическим и случайным ошибкам векторов математических ожиданий (оценок вектора пер- вых моментов) mi (п) и (п). Динамические ошибки определения векторов mi (п) и ш2 (л) равны нулю при характеристиках входного сигнала системы рас- познавания, соответствующих априорным. Случайные ошибки оп- ределения векторов пц (л) и ш2 (п) характеризуются ковариацион- ной матрицей ошибок (3-20). Так как совокупности входных обра- зов, соответствующих различным классам, считаются независимыми, то ковариационная матрица случайных ошибок определения ко- эффициентов равна: К] = [2t/e] = 2 [м; (вТи-'В)-' м,]; I, /' = 1....Д'. Из (3-19) следует, что динамическая ошибка определения ко- эффициентов равна нулю. 84
Теперь в соответствии с приведенными выше ошибками опре- деления оценок nij (п) и тп2 (п) необходимо определить характери- стики случайных и систематических (динамических) ошибок коэф- фициента а0 (п) системы распознавания образов. Выходные сигналы У1 (л) и Уа (п) многомерных фильтров для оценки векторов математи- ческих ожиданий совокупностей входных образов первого и вто- рого класса имеют следующие характеристики: Л/ [У1 (д)] = mi [д]; м [у2 (п)] = т2 [п]. Ковариационные матрицы, соответствующие уг (п) и у2 (п), [у19] = [y2S] = [ув] = W М;] , /, i = 1.... N. Таким образом, многомерные случайные величины уг (п) и у2 (п) можно в данном случае считать многомерными нормальными с указанными выше векторами математических ожиданий и матри- цами ковариаций. Задача заключается в определении с использо- ванием этих данных распределения одномерной случайной вели- чины, вычисляемой по yt (п) и у2 (п) в соответствии со следующим выражением: «о (л) = -у [yf (л) У1 (л) — уГ (л) у2 (п)] . Отметим, что эта задача для произвольных тг (п), тп2 (п) и [7е является трудной, ее решение заканчивает в данном случае точное исследование ошибок настройки коэффициентов системы распозна- вания образов по разомкнутому циклу. Задача получения совмест- ного распределения всех настраиваемых коэффициентов данной СР является довольно трудной задачей математической статистики и вряд ли представляет интерес для теории распознавания образов в виду частного характера рассматриваемой СР, тем более что, чем сложнее данное совместное распределение, тем труднее решение третьего этапа анализа замкнутых СР, настраивающихся по разом- кнутому циклу. 3'8. Исследование точности замкнутой СР по величине вероятности правильного распознвввния В каждом конкретном случае вывод выражения для характе- ристик необходимо производить в зависимости от характеристик априорной структуры разомкнутой СР, характеристик точности получения настраиваемых коэффициентов и характеристик входного сигнала, Ниже исследование точности замкнутой СР нестацио- нарных образов проводится для случая совокупностей образов первого и второго класса, подчиняющихся нормальным распределе- ниям с единичными ковариационными матрицами, умноженными на постоянный коэффициент, и различным характером изменения во времени компонент векторов математических ожиданий. Этот слу- чай является простейшим, но характерным для малой памяти СР. Ниже для данных характеристик входного сигнала СР представлены результаты исследования характеристик вероятности правильного распознавания следующих факторов: предварительности обучаю- щей выборки (памяти СР), задаваемой априорно гипотезы изменения во времени на интервале памяти СР компонент векторов математи- 85
ческих ожиданий совокупностей образов первого и второго класса, степени пересечений классов, задаваемой в виде одинакового для первого и второго класса коэффициента-множителя перед ковариа- ционной матрицей при постоянной разнице между компонентами векторов математических ожиданий, времени упреждения в про- цессе распознавания, размерности пространства признаков. Предметом исследования здесь являются математическое ожи- дание и дисперсия Рправ» полученные усреднением по множеству опытов с СР с конечной памятью, причем одна реализация Рправ вычисляется при распознавании генеральной совокупности систе- мой, обученной по реализации конечного объема. В одномерном случае распределение порога имеет следующий вид [Л.56. 57 1: ^(а»' ,!)=^ехр где 2 2 4 Ci, с2 — среднеквадратичные отклонения для выходных сигналов фильтров оценки координат центров классов (ниже — с2 = с) [Л.48]. Выражения для коэффициентов сглаживания с%/2(? дискрет- ных фильтров оценки компонент векторов математических ожиданий совокупностей образов взяты из работы (Л.48] и здесь не приво- дятся. Данные выражения определяют для различных гипотез из- менения во времени указанных компонент зависимость е2 от памяти СР М и времени упреждения решения а. Выражения для математического ожидания и дисперсии веро- ятности правильного распознавания Г1(рав имеют в данном, в част- ности одномерном, случае следующий вид: °? / ] flo 1 00 ' X da0 — J fao (a0, n) — J (x, n) dx + — f {k, n) dx I da0 —30 \ * —m 2 . I 86
для случая совокупностей образов, распределенных по нормальным законам. На рис. 3-6—3-8 представлены результаты расчетов по вышеприведенным выражениям при mi (л) = т2 (п) = const. Анализ дан- ных результатов позволяет сделать следующие выводы: 1. Влияние степени пересечения классов на характеристики распре- деления РПрав относительно асимпто- тической величины в рассматривае- мых пределах незначительно при фиксированной величине памяти СР М. 2. Влияние порядка гипотезы изменения во времени компонент векторов математических ожиданий на характеристики распределения ^прав незначительно (рис. 3-6). Не- обходимо отметить, что относитель- ное влияние указанного порядка гипотезы на ошибки оценки коорди- нат центра класса (ошибки фильтра- ции) велико [Л. 48]. С увеличением памяти СР влияние указанной гипо- тезы на характеристики распределе- ния Рдрав уменьшается. 3. В рассматриваемом случае совокупностей образов, распределен- ных по нормальным законам, уже при М > 10Л1РПрЯВ незначительно Рис. 3-6. Зависимости мате- матического ожидания и ди- сперсии РПрав Для стацио- нарных образов. '^^лрав’ ---------ОРправ Рис. 3-7. Зависимости Л4Рправ и ^Рправ для нестационарных об- разов (линейная гипотеза). Рис.3-8. Зависимости Л4РПрави РРПравДЛя нестационарных об- разов (квадратичная гипотеза). 87
отличается от асимптотической (при М = со), а величина £>Рправ монотонно уменьшается при увеличении М. 4. Влияние времени упреждения а на МРправ в сторону умень- шения относительно асимптотического значения при конечном М весьма существенно. С увеличением М уменьшается влияние а на Л4Рпраэ (рис. 3-7 и 3-8). 5. Отмечается значительное влияние иа МРправ в сторону уменьшения (при фиксированном значении а) порядка гипотезы изменения во времени компонент век- тора математических ожиданий коор- динат центров классов. С одной стороны, увеличение /У-размерности пространства призна- ков должно увеличивать A4PnpaB» с другой стороны, при конечном зна- чении памяти СР М—увеличивать ОРправ (эти две тенденции влияния на качество СР являются противо- положными). Выражение для опти- мальной разделяющей поверхности в рассматриваемом случае имеет сле- дующий вид: Г 1 1Г S (х) = х — — (т£ — т2) X X (mi — т2) = 0> где векторы координат центров клас- сов и т2 оцениваются по конеч- ной выборке. Известно [Л. 29, 30], что в указанном случае функция S (х) распределена как случайная величина где — независимые случай- Рис. 3-9. Зависимости Л1Рпраа для многомерного случая. ------М - 3;-------М - 20. ные величины, имеющие центральное х2-распределение с ¥ степе- нями свободы и параметрами: . / 1 \2 Aid2 Ai — 11---- - I • ------; \ /1 + М / 4 i /i _i_ 1 \2M62 A2 . . Г? t A2= 1 + -/== —— ; 62=(m! — mJA-oii-m2), \ У I M J 4 где S — ковариационная матрица. Применяя для вычисления ве- роятности Р (/2 <0) инверсионную формулу Имхофа [Л. 29, 30], можно получить следующее выражение для А!Рправ: MJ’npa» = ® { [9 (Г, + Г2) + 2 (*2Г| + )] X ___1_ X 18[(^ГГ1 + 62Г2-‘)]) 2 , где — (¥-]-1/) 3 ; b( — 2 — ¥ (.¥ — 88
Тогда для случая равных для каждого признака величин с2 и (тц — т2(, i = 1, . . . , /V) величина Л4Рправ монотонно воз- растает, приближаясь к асимптотическому значению (рис. 3-9). На этом заканчивается рассмотрение вопроса оценки точности настраивающихся по разомкнутому циклу СР стационарных обра- зов в режиме обучения. Рассмотрение других режимов работы СР и более сложных, нежели нормальные, распределений приводит к усложнению соответствующих выкладок при сохранении общей методологии. Глава четвертая ОПИСАНИЕ И ВЫБОР СТРУКТУРЫ РАЗОМКНУТОЙ СР 4-1. Постановке задачи Настоящая глава начинает этапы синтеза (см. табл. В-1) СР с фиксированной структурой, настраивающихся по замкнутому циклу, и СР с переменной структурой. СР с фиксированной структурой предполагает неизменное в ре- жиме настройки число слоев нз линейных пороговых эле- ментов (ЛПЭ) и число ЛПЭ в каждом слое. Структура разомкнутой системы здесь выбирается исходя из необхо- димости реализации разделя- ющей поверхности заданной сложности. Для СР с пере- менной структурой число слоев ЛПЭ и число ЛПЭ в слое выбираются в зависи- мости от характеристик вход- ного сигнала. Любая СР (рис. 4-1) со- стоит из двух частей: разом- £(п) Рис. 4-1. Общая структурная схема СР, настраивающихся по замкнутому циклу. I — блок вычисления оценки век- тора градиентов функционала опти- мизации; // — блок итерационного поиска экстремума функционала оптимизации. кнутая СР и блок, производящий настройку коэффициентов разомкнутой части. Под разомкнутой СР подразумевается СР с настраиваемыми параметрами без блоков обучения или самообучения. Входом разомкнутой СР и ее выходом являются вход и выход замкнутой СР. В общем плане под структурой разомкнутых СР при- нимается структура преобразования хА (х), осуществляе- мого системой на этапе распознавания. Для описания дан- 89
ного преобразования кроме символических применяются также структурные, топологические методы. В результате подобного структурного подхода рассматриваются такие СР, как: ЛПЭ, реализующий гиперплоскость в многомер- ном пространстве признаков; ЛПЭ с и континуумом решений; СР, реализующие нелинейную разделяющую по- верхность; многослойные СР с последовательными, пере- крестными и обратными связями; многослойные СР со слу- чайными связями; многослойные СР с континуумом при- знаков, когда входом СР являются не TV-мериые векторы, а непрерывные функции (одномерные, двумерные и т. д.). Главная задача при выборе структуры разомкнутой СР заключается в обосновании того или другого варианта структуры. Однородная структура многослойных СР реа- лизует в простейшем случае кусочно-линейную разделяю- щую поверхность в исходном пространстве признаков. Вве- дение систем распознавания образов с перекрестными связями по сравнению с СР с последовательными связями позволяет реализовать более сложную разделяющую по- верхность при незначительном усложнении СР. Таким образом, с учетом сложности разделяющей по- верхности и сложности разомкнутой СР ставится и решается задача синтеза структуры разомкнутой СР, состоящая в выборе оптимальных числа слоев и числа элементов в слое. 4*2. Линейная и нелинейные разделяющие поверхности Линейная разделяющая поверхность задается следую- щим уравнением: N У a{xi -j- = О N или У 0^ = 0, если принять х0 = 1. (4-1) i=0 Линейная разделяющая поверхность является опти- мальной по критерию минимума средней функции риска для случая распознавания двух совокупностей векторов, распределенных по нормальным законам с равными кова- риационными матрицами, при определенных ограничениях на коэффициенты р{- и 1ц. Структурная схема СР, реали- зующей линейную разделяющую поверхность (линейный пороговый элемент — ЛПЭ), изображена на рис. 4-2. Та- кая схема СР применима при произвольных характеристи- ках входного сигнала СР (два, /С и континуум классов об- 90
разов; произвольных квалификаций учителя и «собствен- ного мнения учителя о своих способностях»). В соответст- вии с модификациями пространства решений СР, пред- ставленными в гл. 2, возможны некоторые вариации струк- туры ЛПЭ в зависимости от характеристик пространства решений (здесь название ЛПЭ условное в смысле линей- ности): ЛПЭ с конечным, равным числом решений — уровней квантования выходного сигнала (рис. 4-3), ЛПЭ с континуумом решений (рис. 4-4). Преобразование, осу- ществляемое схемой рис. 4-3, имеет вид: х*(п) = Fp lg(n)] = [signg(n) — akfi kl (4-2) N g(n)=yi a^n), i=0 где двойные индексы у коэффициентов а разделяют две об- ласти изменения сигнала g (л). Преобразование, осуществляемое схемой рис. 4-4: г у л xk (") = F Ig (n)J = F 2 ал (л) . (4-3) I i=0 J 91
Функция F является непрерывной, монотонно возрас- тающей ввиду специфики работы СР, формирующей непре- рывный выходной сигнал. Здесь понятие разделяющей по- верхности вырождается. На рис. 4-3 и 4-4 коэффициенты Cj 2, . . . , ак _j к и параметры функции xk = F (g) мо- гут быть как фиксированными, так и настраиваемыми. Для повышения вероятности правильного распознава- ния при более сложных, чем нормальные, законах распре- деления строятся СР, реализующие нелинейные разделяю- щие поверхности, определяемые, в частности, следующим выражением: N N 2 . . - 2 . ir • Xlr -ь... + NN N 4- 2 2 2 ai\xix 4-(Lq = 0. ft—1 i,= l /,-=1 Зачастую для удобства записи и частичного сокраще- ния числа настраиваемых коэффициентов применяют за- пись выражения для нелинейной разделяющей поверхно- стн через систему ортогональ- ных полиномов. Всякое ре- шение задачи распознавания с нелинейной разделяющей поверхностью можно реализо- вать двояко: 1. В исходном многомер- ном пространстве признаков строится нелинейная разделя- Рис. 4-5. Структурная схема СР, реализующей нелинейную разделяющую поверхность. ющая поверхность по параметрам последовательности образов. 2. По параметрам последовательности образов нахо- дится нелинейное преобразование исходного пространства признаков в пространство вторичных признаков. Данное нелинейное преобразование позволяет в пространстве вто- ричных признаков строить линейную разделяющую поверх- ность. Эти два способа эквивалентны, хотя второй является более удобным, так как позволяет представить рассматри- ваемую СР в виде некоторой двухслойной СР, показанной на рис. 4-5. На рисунке N — нелинейное преобразование исходного пространства признаков в пространство вторич- ных признаков, х0 (ц) — сигнал в пространстве вторичных 92
Рис. 4-6. Построение кусочно-линей- ной разделяющей поверхности. признаков. Подобной двухслойной СР на этапе распозна- вания может быть представлено большинство рассмотрен- ных в [Л. 1, 8, 15, 34, 40, 41 ]. Естественно, чем шире воз- можности нелинейного преобразования, которое осущест- вляется слоем N, тем шире класс функций распределения вероятностей в исходном пространстве признаков, для ко- торых данная двухслойная СР будет оптимальной. В [Л. 22, 46) показано несколько вариантов построения слоя N в не- линейной СР. Реализация СР с нелинейной разделяющей поверхностью является трудной технической задачей. Это следует из того, что число настраиваемых коэффициентов данной системы равно числу по- рядка (2V 4~ И! /М X где # — размерность пространства признаков, а г— порядок разделяю- щей поверхности. В ре- альных задачах при Af, равном нескольким де- сяткам и сотням и г по- рядка 6—8, число на- страиваемых коэффици- ентов достигает многих миллиардов. Поэтому при решении конкрет- ных задач стараются со- кратить число настраиваемых коэффициентов, причем наи- более естественным и перспективным путем здесь является аппроксимация разделяющей поверхности кусками гипер- плоскостей (рис. 4-6) [Л. 13, 44, 59, 60]. Прн этом можно считать, что, если разделяющая поверхность r-го порядка может быть достаточно точно (с точки зрения вероятности правильного распознавания) аппроксимирована гиперпло- скостями, то приближенное число настраиваемых коэффи- циентов равно числу порядка Nr. Например, при N = 100 и г = 6 сравниваются числа настраиваемых коэффициен- тов порядка 100е и 600. Более строгое сравнение сложности реализации нелинейных и кусочно-линейных СР на этапе распознавания, как правило, не проводится ввиду явного преимущества кусочно-линейных СР. 93
4-3. Реализация СР с кусочно-линейной разделяющей поверхностью в виде многослойной СР на ЛПЭ В принципе после предварительного построения кусочно- линейной разделяющей поверхности в многомерном про- странстве признаков необходимо решить задачу отнесения Рис. 4-7. Структурная схема СР, реализующей кусочио- линейную разделяющую поверхность. Рис. 4-8. Граф многослойной СР с последовательными связями. различных областей к тому или иному классу (рис. 4-7). Указанные области образуются при взаимном пересечении гиперплоскостей, реализуемых ЛПЭ первого слоя кусочно- линейиой системы распознавания образов. Каждая из об- ластей определена в виде набора Нг двоичных сигналов (# 1 — число ЛПЭ первого слоя), принимающих значения 94
± 1 на выходе ЛПЭ первого слоя, и соответствующего зна- чения выходного сигнала всей СР. Блок отнесения областей к тому нли иному классу должен реализовать в данном кон- кретном случае некоторую функцию в (xfe) от Н1 двоичных логической функции че- тырех переменных. Рис. 4-10. Реализация логической функции че- тырех переменных на сети из элементов И и ИЛИ. переменных. Указанная логическая функция должна реа- лизоваться в виде сети из ЛПЭ по следующим причинам. 1. Техническая реализация логических функций мно- гих переменных упрощается ЛПЭ по сравнению с логиче- скими схемами иа стандарт- ных элементах И, ИЛИ, НЕ и т. д. 2. Точность реализации ло- гических функций (относи- тельная нечувствительность работы блока реализации ло- гической функции к ошибкам установки параметров) значи- тельно повышается прн пере- ходе к сети ЛПЭ [Л. 23, 12]. 3. Основной задачей иссле- дований является создание при использовании сети из Рис. 4-11. Реализация логиче- ской функции четырех пере- менных на сети из ЛПЭ с двумя решениями. структуры разомкнутой СР. Если такая структура будет однородной, то это в значительной степени упростит ее ста- тистический анализ, а также синтез алгоритмов настройки коэффициентов. На рис. 4-8 представлена граф-схема мно- 95
гослойной СР с полными последовательными связями ме- жду слоями, реализующей, в частности, и кусочно-лнней- ную разделяющую поверхность. Заметим, что в случае ЛПЭ с двумя решениями при отсутствии ограничений на величину И2 легко показать, что В общем случае каждый слой многослойной СР осуществляет некоторое преобразование своего исходного пространства признаков в пространство своих выходных переменных. Вид преобра- зования зависит от структуры слоя и от величины настраи- ваемых коэффициентов. Пример. Пусть логическая функция задана в виде карты Кар* нэпа (рис. 4-9). С помощью элементов И — ИЛИ при использова' нии минимального числа таких элементов данная логическая функ- ция реализуется так, как показано иа рис. 4-10 [Л. 12]. Реализация этой же логической функции на ЛПЭ с двумя решениями имеет вид, изображенный иа рис. 4-11. Из сравнения видно, что элементов И — ИЛИ нужно шесть, а ЛПЭ — два. 4-4. Классификация типов структур разомкнутых многослойных СР с последовательными связями В книге в частности рассматриваются многослойные СР с последовательными связями, у которых коэффициенты первых U7! слоев из W являются настраивающимися, а W2 слоев ~ являются слоями с фиксирован- ными коэффициентами. Качество работы многослойной СР будет улучшаться при увеличении общего числа слоев W и числа слоев с настраиваемыми коэффициентами. В данном случае в качестве обучаемых слоев выбираются именно первые слои СР, так как по мере удаления от пер- вого слоя (исходного пространства признаков) происходит все большее и большее сжатие информации о наблюдаемых образах. При этом обучение целесообразнее производить в слоях с наибольшим потоком информации. В принципе может быть рассмотрена классификация типов структур разомкнутых многослойных СР по следующим признакам: числу слоев с настраиваемыми коэффициентами, числу слоев с фиксированными коэффициентами и методу фикса- ции коэффициентов. Ниже, в частности, рассмотрены следующие типы мно- гослойных СР: двухслойная СР с настраиваемыми коэффи- циентами первого слоя и фиксированными и настраивае- мыми коэффициентами ЛПЭ второго слоя; трехслойная СР с различными вариантами и многослойная СР (коэффициенты всех слоев настраиваемые). В [Л. 6, 19] 96
отмечается место наиболее важных из существующих СР в данной классификации. Случай W 0 не имеет смысла, так как такая СР осуществляет отображение исходного пространства признаков в то же самое пространство. При ~ 0 и — 1 описанная выше многослойная СР вырож- дается в ЛПЭ. При W2 -= 1 и — О СР вырождается в ЛПЭ с фиксированными коэффициентами. СР с W = 2, первым слоем ЛПЭ с фиксированными коэффициентами, а вторым слоем с настраиваемыми коэффициентами вырож- дается в трехслойный персептрон Розенблатта, если труд- ность, связанная с реализацией полных связей ЛПЭ пер- вого слоя с исходным пространством признаков, устра- няется путем резкого уменьшения числа входов ЛПЭ пер- вого слоя, резкого увеличения числа ЛПЭ первого слоя и организации случайных связей входов ЛПЭ первого слоя и исходного пространства признаков. В том случае, если вместо ЛПЭ первого слоя с фиксиро- ванными коэффициентами в двухслойной СР поставить слой N нелинейных преобразований, указанная СР будет реализовывать нелинейную разделяющую поверхность в ис- ходном пространстве признаков. Необходимо отметить особую роль нелинейных преобразователей F на выходе ЛПЭ каждого из слоев. Можно легко показать, что при устранении данных преобразователей в многослойной СР с W слоями в одном из слоев, кроме последнего, данная СР превращается в СР с (U7—1) слоем, что уменьшает по- тенциальное качество ее работы на этапе распознавания. Рассмотрим многослойные системы распознавания на два решения и два класса образов. Двухслойные СР. В двухслойной СР из ЛПЭ с двумя решениями реализацию ло- гической функции е (xft) осуществляет ЛПЭ второго слоя. Для реализации логической функции необходимо найти зна- чения настраиваемых коэффициентов ЛПЭ второго слоя с тем, чтобы выполнялись соотношения: я, У адд + а0 > 0 при Eft = 1; »=1 н, У aiXik 4- а0 < 0 при Eft = — 1. й=1 Пример. Пусть разделяющая поверхность в исходном про- странстве признаков образована кусками трех гиперплоскостей, т. е. первый слой системы содержит три ЛПЭ. Второй слой имеет 4 Заказ № 975 97
один ЛПЭ. Последний реализует логическую функцию, которая соответствует конфигурации разделяющей поверхности, показан- ной на рис. 4-12. На рисунке незаштрихованные области относятся к первому классу (8^ = —I), заштрихованные — ко второму (е* = —1). Стрелками указаны положительные направления ги- перплоскостей. Каждой области, образованной гиперплоскостями, соответствует своя комбинация двоичных выходов ЛПЭ первого слоя и на ЛПЭ второго слоя поступают три двоичных сигнала. Если взять веса ЛПЭ второго слоя равными ~ 1, а2 ~ 1. Оз = 2. а порог аа — —1, то разделение на классы, показанное па рис. 4-12, будет реализовано. чаем многослойной сети ЛПЭ циентами. Если число Нх Рис. 4-12. Иллюстрация разделя- ющей поверхности, реализуемой двухслойной СР. Ассоциативная система [Л. 12] является частным слу- с фиксированными коэффи- ЛПЭ первого слоя нечет- ное, то ЛПЭ второго слоя может реализовать мажо- ритарный элемент, т. е. элемент, работающий ио принципу голосования. По- тенциальные возможности двухслойной ассоциатив- ной СР ниже, чем двух- слойной СР с настраивае- мыми коэффициентами во втором слое. Можно пока- зать, что для двухслойной ассоциативной СР с мажори- тарным элементом на выходе при заданном числе гипер- плоскостей (ЛПЭ первого слоя) реализуется только одна конфигурация разделяющей поверхности, так как каждой области соответствует определенный знак суммы «голосов» и к первому и второму классу относятся соответственно области с отрицательным и положительным преоблада- нием. Этот вывод верен для данной системы и в том случае, если порог мажоритарного элемента отличен от нуля. При этом при изменении порога меняется вид конфигурации разделяющей поверхности, но она остается единственной. Число конфигураций разделяющих гиперповерхностей (т. е. число возможных разбиений объектов на два класса), которое можно реализовать изменением величины порога мажоритарного элемента, равно числу Нг разделяющих гиперплоскостей. Можно также показать, что с помощью ЛПЭ во втором слое на элементах И или ИЛИ можно реализовать только одну конфигурацию разделяющей гиперповерхности. Ре- зультаты исследования реализуемости различных конфи- 98
Таблица 4-1 Число ЛПЭ всербом слое Метод фиксации коэффициентов ЛПЭ дтороео слоя Мажоритарный, элемент Элемент „или" Элемент „И“ 2 — 1 е ?Х7е а.0-1; аг=?;а2=1 а0=-7; af=f;a2‘=l 3 э ©-^ о'^Р'е е/^ © \® О/ ® \0 © © aQ=0; ap=f; а.2^1; a3°f a Q=t; а,=О,33; а.2=0.33, а.ро,33 ao=f; а,=0,33) 02-0,33; аз-0,33 4 — ® Лзм&хЗ? e<?v \®/ ©\/ @ e^s?<® 67 Q \ од-1; at=0,f4-, а2=0,1Ч, аз^ЧщрОлч а0= -7; арО,1Ч;а?=0,Ш. a,3=0,W;a.pO,rf 5 ^ф р' \ © X г?\ 4) ® \® / © \/ ® © ® е \® / ^е\^7 е^Й^\ © & ® N& ао=О; apl; a2=f; а3-1; air!; а5=1 аО=Г, ар 0,07; а2=0,07; а3=0,07; (Ц) =0,07; арО,О7 а0--1; 0.1=0,07;арО.О? a3=0,07;ap0,07;as=0,07 6 — У® §<5к>к ® © >* ^7е ф \ © X® \е^ ^э/ ® \ а.0-1; a.f-a.6 = °<03 а0=-1; af-as=0,03 99 4*
гураций разделяющих гиперповерхностей с помощью двух- слойной ассоциативной системы распознавания образов приведены в табл. 4-1. В табл. 4-1 сведены разделяющие гиперповерхности, которые реализуются двухслойной ассо- циативной машиной при различных методах фиксации ко- эффициентов ЛПЭ второго слоя системы. В табл. 4-1 приняты следующие обозначения: ф — области, относящиеся ко второму классу, © — области, относящиеся к первому классу. В таблице приведены также веса ЛПЭ второго слоя, необходимые для реализации указанной конфигурации разделяющей поверхности. Анализ табл. 4-1 позволяет сделать следующие замечания. Мажоритарный элемент, как метод фиксации коэффи- циентов ЛПЭ второго слоя ассоциативной СР, обладает преимуществами по сравнению с элементами И и ИЛИ в в том плане, что реализует более гибкую разделяющую поверхность при заданном числе гиперплоскостей. Недо- статок его в том, что он неприменим при четном числе ги- перплоскостей. Необходимо отметить, что иллюстрации конфигурации разделяющей поверхности в пространстве двух признаков, конечно, являются несколько условными. Однако подоб- ное рассмотрение позволяет сделать некоторые сравни- тельные (по сложности разделяющей поверхности) выводы для многомерного случая, так как сложность реализации слоев многослойной СР, кроме первого, не зависит от раз- мерности исходного пространства признаков, а зависит только от Нг. Возможно рассмотрение методов визуали- зации разделяющих поверхностей, реализуемых СР во всевозможных плоскостях (xb xf), I, j , N, N- мерного пространства признаков. Эта операция, осущест- вление которой возможно с помощью аналоговой техники, позволит визуально приближенно оценить сложность раз- деляющей поверхности, реализуемой обученной СР. При рассмотрении двухслойной СР с настраиваемыми коэффициентами ЛПЭ первого и второго слоя основным вопросом исследования является определение логических возможностей одного ЛПЭ. Здесь необходимо определить, какие логические функции, соответствующие различным конфигурациям гиперповерхности, можно на нем реали- зовать. Этот вопрос является важным, так как далеко не всякая логическая функция реализуется на одном ЛПЭ. Пусть задана исходная конфигурация разделяющей по- 100
верхности, т. с. имеется обученный первый слой ЛПЭ СР. Необходимо выяснить возможность реализации логиче- ской функции, отвечающей дайной конфигурации гиперпо- верхности на ЛПЭ второго слоя. Воспользуемся для этой цели методом, основанным на применении карт Карнапа, и методом синтеза по таблицам [Л. 12]. Существенно то, что на выходе ЛПЭ первого слоя СР встречаются не все комбинации переменных, имеющиеся в полном их наборе, равном 2W1. Поэтому в дальнейшем будем производить доопределение логической функции на некоторых наборах удобным для нас образом. Основные используемые виды пересечений (для двумерного случая) приведены в табл. 4-2, где показано разбиение пространства признаков на обла- сти гиперплоскостями в количестве от двух до шести. На картах Карнапа крестиком обозначена запрещенная ком- бинация переменных, на которой логическую функцию не- обходимо дополнить. Результаты исследования логических возможностей одного ЛПЭ второго слоя СР сведены в таб- лицу в приложении 1. В табл. 4-1 представлены различные виды конфигураций разделяющих гиперповерхностей, об- разованных взаимным пересечением от двух до шести ги- перплоскостей и реализуемых на одном ЛПЭ. Конфигу- рация разделяющих гиперплоскостей выделена в таблице жирными ливиями. Знаком минус указаны области, отно- сящиеся к первому классу, знаком плюс — ко второму. На картах Карнапа единицей в кружке обозначены те до- определенные значения логической функции, которые по- надобились для проверки оптимальной реализации ее на одном ЛПЭ. Процедура проверки реализуемости СР в виде двухслойной сети и подсчета числа ЛПЭ во втором слое трехслойной сети показана на некоторых примерах кусочно- линейной разделяющей поверхности, составленной из ше- сти гиперплоскостей. Анализ таблицы в приложении 1 позволяет сделать сле- дующие выводы. 1. Двухслойная СР с настраиваемым ЛПЭ во втором слое обладает преимуществами по сравнению с двухслой- ной ассоциативной системой в том плане, что реализует более гибкую разделяющую поверхность в исходном про- странстве признаков. 2. Двухслойная СР с настраиваемым ЛПЭ во втором слое обладает все же ограниченными возможностями в плане реализации различных конфигураций разделяю- щих поверхностей. Поэтому при необходимости реализа- 101
Таблица 4-2
ции более гибких разделяющих поверхностей необходимо строить трехслойные СР, например СР с порогово-дизъюн- ктивной сетью [Л. 12, 461 в качестве второго и третьего слоя. Трехслойные СР В том случае, если логическая функция, которую необ- ходимо реализовать на слоях ЛПЭ СР, кроме первого, не реализуется на одном ЛПЭ, необходимо строить трехслой- ную СР с минимальным количеством ЛПЭ во втором слое. В работе [Л. 46] рассматриваются методы синтеза слоев ЛПЭ трехслойной СР, кроме первого, для случая, когда выходной ЛПЭ СР является вырожденным, а именно эле- ментом ИЛИ. Для разбиения, рассмотренного в табл. 4-2 при числе ЛПЭ первого слоя, меняющемся от двух до ше- сти, в таблице приложения 2 представлены результаты исследования реализуемости различных конфигураций ку- сочно-линейных гиперповерхностей с помощью рассматри- ваемой трехслойной СР. Прн этом определялось и исполь- зовалось при исследовании минимальное число ЛПЭвторого слоя СР. В первой колонке таблицы находится изобра- жение конфигурации разделяющей поверхности. Заштри- хованные области относятся к первому классу, незаштри- хованные — ко второму. Во второй колонке изображена карта Карнапа полученной логической функции. В третьей колонке указано минимальное число ЛПЭ второго слоя СР, необходимое для реализации данной конфигурации разделяющей поверхности. В таблице представлены только те конфигурации разделяющих кусочно-линейных поверх- ностей, которые не реализуются двухслойной СР. Анализ результатов исследования позволяет сделать следующие выводы. 1. С ростом числа ЛПЭ первого слоя СР число ЛПЭ вто- рого слоя увеличивается, хотя и не монотонно. 2. Число ЛПЭ второго слоя СР зависит от конфигура- ции разделяющей поверхности в исходном пространстве признаков. 3. Проведенные исследования показывают, что в прак- тических задачах для реализации любой конфигурации разделяющей поверхности, образованной не более, чем шестью гиперплоскостями (за исключением единичных случаев, не имеющих большого практического значения), во втором слое трехслойной СР достаточно иметь три ЛПЭ. 103
Многослойная СР, предназначенная для распознавания К классов образов, равных числу решений /<р, может быть построена в нескольких вариантах. В принципе одним из возможных вариантов является также многослойная СР, в последнем слое которой стоит ЛПЭ с Кр — К решениями. Возможен и другой вариант, изображенный на рис. 4-13, где представлена структурная схема последнего слоя си- стемы распознавания К классов образов. Каждому из К классов образов в схеме соответствует определенная ком- бинация двоичных переменных на выходе данного слоя. В данном случае слой ЛПЭ Рис. 4-13. Слой ЛПЭ с двумя решениями. с двумя решениями осуще- ствляет следующее преобра- зование: *;•»(«) = sign#. («) = Г N I = sign Д (n) > i*=l, . ... Д'*, (4-4) где L* обозначает номер вы- ходного канала СР. Структура разомкнутой СР в случае континуума призна- ков Введение континуальных свойств СР является естест- венной тенденцией к обобщению. Выше было введено по- нятие и формализация континуума классов и решений. Достаточно просто вводится понятие и формализация кон- тинуального по времени входного сигнала СР [Л. 40]. Представляет интерес, но не рассматривается в данной ра- боте континуум слоев ЛПЭ и континуум числа ЛПЭ в каж- дом слое. Континуум признаков для некоторых практиче- ских задач исключает проблему квантования изображений или кривых для целей подготовки пространства признаков. В связи с этим практически исключается из рассмотрения проблема выбора информативности признаков на уровне каналов входного сигнала СР. По аналогии с известным преобразованием, выполняе- мым ЛПЭ с дискретным множеством признаков, можно за- писать преобразование, выполняемое им над непрерывным множеством признаков: xft(n) = sign^a(i)x(i, n)di-P aoj. (4-5) 104
Здесь J — область интегрирования (в частном случае площадь изображения); i — вектор координат контину- ального образа. Структура первого слоя многослойной СР с континуу- мом признаков представлена на рис. 4-14. Анализ схемы показывает возможность достаточно простой реализации данной СР в оптическом варианте для распознавания пло- ских изображений и на АВМ для распознавания кривых и сигналов. На конкретные пути реализации будет указано Рис. 4-14. Структурная схема первого слоя Л11Э многослой- ной СР с континуумом признаков. ниже при рассмотрении методов обучения данной СР, ко- торые в первую очередь связаны с методами получения и физической реализации функций a (i). «Дерево» как не полностью определенная логическая функция Древообразные структуры построения алгоритмов най- дут, по мнению автора, широкое применение в теории рас- познавания образов. Основная их идея заключается в по- следовательном делении многомерного пространства при- знаков. Можно легко показать, что «дерево», как один из результатов настройки, подобным образом ЛПЭ первого слоя является частным видом ие полностью заданной ло- гической функции. Пример. На рис. 4-15 представлена конфигурация разделяющей поверхности, реализуемой древообразной структурой с. указанием принадлежности областей к тому или иному классу. При этом СР имеет два слоя ЛПЭ и четыре ЛПЭ в первом слое. На выходе первого слоя СР имеются некоторые наборы четырех переменных логической функции. Число этих наборов равно числу областей многомерного пространства признаков, образованных четырьмя гиперплоскостями: “ ! 3 1 ~ । _ I I Области — ] _ ! _ ] Z J I Области __1 _ 1 { 1 ___। ? первого , । । J _£ __ ] f второго I 1 । 1 I I класса 111 1 1 11 класса 105
На рис. 4-16 представлена соответствующая карта Карнапа. Данная логическая функция является не полностью определенной. Можно показать, что с ростом числа гиперплоскостей растет относи- тельное число наборов, на которых соответствующая логическая функция не определена. Это в свою очередь должно расширить гра- ницы реализуемости данных логических функций на одном ЛПЭ и сети из ЛПЭ по сравнению с логическими функциями, заданными на 2Wl наборах переменных. Необходимо отметить, что второй и третий слои ЛПЭ трехслойной СР являются в свою очередь двухслойной СР образов, которые являются двоичными выходами ЛПЭ Рис. 4-15. Последо- вательное построение кусочно • линейной разделяющей поверх- ности. Рис. 4-16. Иллюстрация частично определенной логической функции при последовательном по- строении кусочпо-линей- ной разделяющей по- верхности. первого слоя трехслойной СР- Поэтому для второго и третьего слоя трехслойной СР полностью применимы все меры анализа разомкнутой части и методы построения блоков обучения, что и для двухслойной СР. Это свойство может быть обобщено па СР с произвольным числом слоев, выбранным в процессе синтеза СР, когда каждые из (IF—/) последующих слоев синтезируются, т. е. выбираются число и значения коэффициентов ЛПЭ слоев, исходя из обеспе- чения определенного качества распознавания образов на выходе /-го слоя. 106
4-5. Структурное и символическое описание разомкнутых многослойных СР В последнее время можно отметить резкое возрастание роли структурных методов в исследовании различного рода систем по сравнению с символическими методами. Основ- ными причинами данного подхода являются такие свой- ства исследуемых систем, как многослойность, многокон- турность и многомерность. Именно этими свойствами об- ладают и современные СР. Настоящая работа ставит своей целью развитие структурного подхода к проблеме распоз- навания образов, когда относительный вес разработок блока обучения СР уменьшается, а увеличивается соот- ветственно вес разработок при выборе структуры разомк- нутой СР. Именно по этим причинам кроме символических описаний разомкнутых СР возникает необходимость в струк- турном представлении преобразований разомкнутых СР на этапе распознавания. Ниже представлено формальное описание основных типов многослойных СР. а) Двухслойная СР Xk (n) -- F |g (и)] = F | 2 (п) J = F Д и/ [g,- (и) ] j = = /jb/ [Д«,-*(«) ]]. (4-6) в частности функция F (g) может иметь следующий вид: F(g) = signg или F (g) = — arctg Bg, Л где В — постоянный коэффициент. б) Трехслойный персептрон Розенблатта Трехслойный персептрон Розенблатта — двухслойная СР, в которой за счет резкого уменьшения числа входов ЛПЭ первого слоя и за счет введения случайных связей этих ЛПЭ с входным пространством СР возникает необхо- димость в увеличении числа ЛПЭ первого слоя. В данном случае г н, Г 71 II Ч = F S а/ 2 (") • (4-7) [_/-0 [(у-о 11 I ] Случайные связи являются неизменными на этапе на- стройки. 107
g в) Многослойная СР из ЛПЭ с континуумом решений [Hw— 1 Г И№—2 Г HW— 3 2 a^w Zj ЯЛи7-1- F 22 abW-2~ Лц7_3 Л^__1==1 {_ L hw—3=l lek K’->> к w Г Hw-j X aAuZ—j+2> h1F-/+l M 2 ЙЛЦ7— / H> hW—j * L^W—J,==1 I («)
Здесь У/,, — размерность исходного пространства при- знаков. Стрелкой и символом указаны обозначения сиг- нала, описываемого в формуле выражением справа от стрелки; (л) и (п) — соответственно вы- ходной и аналоговый выходной сигналы /i^_/rl-ro ЛПЭ (1F—/ 4- 1)-го слоя рассматриваемой многослойной СР. Многослойная СР с решениями получается заменой в (4-8) в выходном слое СР нелинейного преобразования /' па Fp, определяемого формулой (4-2). Рис. 4-17. Графы. а — двухслойной СР с перекрестными связями; б — ЛПЭ с обратной связью; в — двухслойной СР с обратными связями. г) Многослойная СР с N* выходными каналами. Симво- лическое описание подобной СР достаточно просто полу- чить из (4-8) и граф-схемы СР, представленной на рис. 4-8. В частности, можно рассматривать случай сигналов г (п) и хл (п) одинаковой размерности. д) Двухслойная СР с перекрестными связями г я, г Я I N I xk(n) = F V a/F («) +2 (4-9) | /=0 | Я—О J t=0 J Граф-схема СР представлена на рис. 4-17, а. В принципе возможно рассмотрение многослойных СР произвольной структуры с перекрестными связями. е) ЛПЭ с обратной связью (рис. 4-17, б): хе(п)^^Гу ед(ц)4-й/А7(л—1)] (4-10) [ I- 0 J 109
ж) Двухслойная СР с обратными связями (рис. 4-17, в): xk(n)=.F[g(n)]-, + I); /=0 N ('") = F Ig/ (») J; gi W - a^x, (n) + i-O I akixk{n — 1) (^(n-l). (4-11) В принципе возможно рассмотрение многослойных СР произвольной заданной структуры с обратными и пере- крестными связями. Объективная необходимость введения перекрестных связей в многослойных СР отмечается и обо- сновывается в следующем параграфе, а обратных связей— в гл. 8 при исследовании замкнутых СР нестационарных образов. 4-6. Оптимизация структуры многослойных СР с перекрестными связями Вопрос выбора структуры разомкнутой многослойной СР является сложным. Структура разомкнутой СР может задаваться либо априори, либо исходя из соображений, высказанных выше при рассмотрении двухслойной и трех- слойной СР, либо исходя из ограничений технического характера. Ниже рассматривается возможность выбора структуры (числа слоев и числа ЛПЭ в слое) многослойных СР с перекрестными связями, состоящих из ЛПЭ с двумя решениями. Необходимо остановиться на критерии сложности задачи распознавания решаемой многослойной СР. При использо- вании детерминированной модели СР таким критерием мо- жет служить количество эталонных образов, заключаемых в замкнутые области гиперплоскостями, реализуемыми ЛПЭ первого слоя в исходном пространстве признаков. При рассмотрении вероятностной модели СР каждому эта- лонному образу соответствует мода функции распределе- ния вероятностей совокупности образов на входе СР. При этом в каждой области исходного пространства признаков многослойная СР выделяет уже не эталонный образ, а не- которое компактное множество образов. При многомодаль- ных распределениях совокупностей образов па входе СР эти компактные множества могут характеризоваться об- ластями в многомерном пространстве признаков, образо- 110
ванными линиями равных значений плотности распреде- лений (на определенном уровне). Число и сложность дан- ных областей совместно характеризуют сложность решае- мой задачи. При этом детерминированная модель СР может рассматриваться как частный случай вероятностной и реа- лизует, по сути дела, систему памяти для конечного числа многомерных векторов. Принимая в данном параграфе за критерий качества многослойной СР число областей, реализуемых подобной СР в исходном пространстве при- знаков, необходим отметить, что качество многослойной Рис. 4-18. Двухслойная СР с. перекрестной связью, одномерный вариант. СР с последовательными связями, рассмотренной выше, монотонно возрастает при увеличении числа слоев и числа элементов в каждом слое. Поэтому в подобной СР задача оптимизации структуры (минимизация числа ЛПЭ и числа слоев) может быть поставлена только либо в плане ликви- дации избыточности числа ЛПЭ, либо при наличии ограни- чений на число ЛПЭ. Основное внимание ниже уделяется многослойным СР с полными перекрестными связями, когда множество при- знаков каждого слоя состоит из признаков исходного про- странства и выходных сигналов первого, второго и (/—1)-го слоя. Для подобной СР задача оптимизации структуры, в частности выбора числа слоев и числа ЛПЭ в каждом слое при ограничении на общее число ЛПЭ в сети, является актуальной. Рассмотрим па простейшем примере одномерного варианта, когда W — 1 (один признак х), принцип действия перекрестной связи. Структурная схема рассматриваемой двумерной СР представ- лена на рис. 4-18. Разделяющая поверхность, реализуемая подоб- 111
ной СР при он'угствии перекрестной связи, представлена на рис. 4-19. В областях /, II, III аналоговый выходной сигнал СР g при включенной перекрестной связи представляется следующим образом: ®l = “o I V-ai~“2; «ll = “t> + V । Siii = ao + “,.IH<Ii-1-a2- Каждую из областей 1, II, III СР делит на две подобласти, где g > 0 н g < 0. Из условия равенства пулю gr следуют вы- ражения для дополнительных порогов при включении обратной связи в пространстве X: __ Д1 Н~ Д2 — ао , х _ а2 — а1 — Д0 . х __ — а1 — а2 — ао Л1 — ап ' 2ап ’ э - П °-02 Ш Рис. 4-19. К принципу дей- ствия перекрестной связи в многослойных СР. Таким образом, рассматриваемая СР (рис. 4-18) реализует максимально пять порогов, делящих ось х на шесть областей. В этом случае СР, изображенная на рис. 4-18, эквивалентна (по критерию максимума количества областей, реализуемых кусочно-линейной разделяющей поверхностью в исходном пространстве признаков) многослойной СР с последовательными связями с пятью ЛПЭ в пер- вом слое, т. е. СР с перекрестными связями реализуекя значительно проще, чем СР с последовательными связями. В процессе анализа многослойной СР необходимо знать максимальное число областей, па которое пространство признаков размерности N может быть разбито гипер- плоскостями. Согласно результату, полученному в [Л. 191, максимальное количество областей определяется по следующей рекуррентной формуле: или в перекуррентном виде Здесь имеется в виду, что С/ = 0 при I<^s, Отметим, что из (4-12) следует: "PH 1Г«Н1<2"' при II,>N. (4-13) (4-14) (4-15)
Вывод верхней и нижней оценки количества областей Рассмотрим многомерный вариант (i 1, . . . , N) СР, структура которой представлена на рис. 4-20. Обозначим количество областей, на которое разбивает исходное про- странство признаков (/—1)-слойная СР через где через [/—1 ] обозначено условно эквивалентное количество гиперплоскостей, реализуемых многослойной сетью с пол- ными перекрестными связями и с (/—1)-м слоем. Данная сеть содержит L ЛПЭ, где через обозначено количество ЛПЭ в i-м слое СР. Как следует из структурной схемы, входные каналы каж- дого fy-ro ЛПЭ /-го слоя (hj ~ — 1, . . . , И/) могут быть раз- делены на два множества. Первое множество составляют входные сигналы СР, вто- рое — выходные сигналы СР с 1-го, 2-го, .... (/—1)-го слоев. Тогда уравнение раз- деляющей поверхности, реа- лизуемой одним /1/-м ЛПЭ в вид: Рис. 4-20. К решению задачи оптимизации структуры разом- кнутой СР с полными после- довательными связями. /-м слое, имеет следующий aftylX ahf ahj2Xk, /-1 — О' Здесь ала — вектор настраиваемых весов входных сиг- налов СР на элементе (ЛПЭ) h.’, ah 2 — вектор настраи- ваемых весов входных и промежуточных сигналов (/—!)- слойной сети элемента he, — порог ^-элемента; xt вектор выходных сигналов ЛПЭ (/—1)-го слоя. Отсюда следует, что по отношению к исходному прост- ранству признаков каждый из ЛПЭ в /-м слое реализует столько параллельных гиперплоскостей, сколько вариантов вектора порождает (/—1)-слойиая СР. Предполагая, что существует метод настройки СР, при котором все ги- перплоскости, порождаемые вектором в /-м слое, попадают в область исходного пространства признаков, соответствующую ему, запишем рекуррентную формулу для вычисления верхней оценки в виде <4-16) 113
Эти следует из того, что каждая из областей выделяемая (/—1)-слойиой подсетью, разбивается па 4rNtij областей. Здесь определяется рекуррентным выра- жением (4-12). Запишем теперь нерекуррентную формулу. Из (4-16), а также из того, что первый слой СР разбивает пространство признаков на Рл-н1 областей, следует: Для вывода нижней оценки количества областей потре- буем от каждой из гиперплоскостей, порождае- мых hj-м ЛПЭ, выполнения условия более сильного, чем попадание в область, соответствующую вектору Именно потребуем, чтобы некоторое количество гиперпло- скостей из Тд, могли быть проведены через любую точку исходного пространства изменением только свободного члена в уравнении гиперплоскости. Отметим, что в этом случае эти гиперплоскости, несомненно, могут попасть в любую область. Для оценки их количества составим си- стему линейных уравнений относительно настраиваемых весов и порога элемента ~ 0 . . . О О 1 хг О 0 1 1 хт 1 . . . 1 1 1 хг 114
Здесь qt |7 — 1, . . . , Чгл,) — произвольно зада- ваемые числа. Отметим, что количество чисел qlf которые можно задать произвольно, не нарушая равенства (4-17а), есть искомое число гиперплоскостей из числа 1,FJV которые могут быть проведены через любую точку исход- ного пространства. Из (4-17) следует, что это число есть (Ls_{ -j- 1], т. е. равно размерности вектора ah2 плюс еди- ница. Отсюда следует рекуррентная формула для вычисления нижней оценки количества областей: Ч' ,.=Ч' . n — (L. , + + , + ГрГ.н. N И] N[j—1] j—1 1 ) ' j—1 1 1 NHj Здесь Ч-ГЛ, 4' 1!—число областей, в которых не проводятся новые гиперплоскости; i L.__t 1) ^Nf{.— число новых областей, которое появляется после разбиения. Окончательно [/] H^j-1 + | ~~ - I (418) | (41) Выражение (4-18) есть окончательный результат вывода. В одномерном случае (4-18) имеет следующий вид: Ч'.-.-.Ч'. n+(L. , + 1) Н- ] 1 [/] 1 [/— и 1 \ 1—i ) 1 I (4-19) L.=-L | Частная задача оптимизации Можно сформулировать несколько задач оптимизации структуры многослойных СР с перекрестными связями. 1. Задано число слоев и число ЛПЭ многослойной СР. Найти распределение ЛПЭ по слоям, максимизирующее число областей Ф, образованных кусочно-линейной разде- ляющей поверхностью, реализуемой данной многослойной СР в исходном пространстве признаков. 2. Задано общее число ЛПЭ сети. Найти число слоев и распределение ЛПЭ по слоям, максимизирующее Ф. 3. Задано количество областей Чг, которое должно быть реализовано сетью, и число слоев в ней. Найти структуру, минимизирующую количество элемеитов в сети. 4. Найти структуру (количество слоев и распределение ЛПЭ по слоям) при заданном Ч7, минимизирующую коли- 115
чество ЛПЭ в сети. Отметим, что оптимизация структуры по числу областей представляет частный критерий опти- мальности СР. Рассмотрим синтез структуры одномерного варианта сети для указанных задач оптимизации. 1. Для заданного числа слоев СР W и числа ЛПЭ во г всей сети Н., равного У Hj, найдем распределение элемеи- тов по слоям, максимизирующее Формально задача ставится в виде соотношений, записанных с учетом (4-17) и (4-12): max 1Т (Я.+1). 7/., .... Нщ I I (4-20) Метод множителей Лагранжа дает решение в виде си- стемы уравнений w 11 (//.• 1 1)4-U0, i , W; /=1 /¥* uz 2 //._//= 0. Решением системы (4-21) являются: (4-21) (4-22) Из (4-22) и (4-17) следует, что при этом . 7 77 • \ij-opt _ |_ I. 1 1 1 m Д U7 J ’ (4-23) т. е. при заданном числе слоев имеющееся число ЛПЭ надо распределять по слоям равномерно. В связи с (4-22) воз- никает вопрос о целочисленности (j = 1, . . . , W). Если Н не делится на W нацело, то, как следует из (4-17) и (4-22), остаток элементов также следует распределить по слоям равномерно, причем не имеет значения как именно. 116
В этом смысле (4-23) есть верхняя оценка 'P?pt (ИП, которая становится точной верхней оценкой при И -- KW, где К — целое. 2. Для заранее незаданного числа слоев W н при огра- ничениях на количество ЛПЭ Н в сети найдем оптималь- ную по верхней оценке структуру. Это можно записать сле- дующим образом: Ч7‘ = тах 'i'Xf. 2 н,=н. 1=1 (4-24) Из очевидного неравенства с учетом (4-23) /и \ W / и \IT-I 1 f—+0 й (г } + 1 ) следует, что число областей с ростом числа слоев монотонно возрастает. Отсюда получается, что оптимальной в данном случае является Я-слойная сеть с одним элементом в каж- дом слое, для которой из (4»23) следует, что __ (2L 1 \Н -2Н есть точная верхняя оценка. 3. Для заранее заданного числа слоев W и суммарного количества ЛПЭ в сети найдем структуру, оптимальную по нижней оценке. С этой целью представим (4-19) в виде нерекуррентной формулы: w = 1 + 2 н> + т ) “Tg (4’24а) W Условный экстремум (4-24а) при условии — H со- гласно методу множителей Лагранжа достигается в случае, если (i — 1, . . . , IF) являются решениями системы: Я,.(Х—1) + /Ц-1-0; w 2 н,^н = о, где i~-1....IF. (4-25) 117
IV max II Чг Отсюда H1 = H2= . . . — и при заранее заданном UZ V“’‘ =1 VH+ — — — . (4-26) 1[1Г] 2 2W7 4 ' Из (4-26) следует, что монотонно возрастает при U7 -»• со и является точной при И — KU7, где К— целое. Отсюда = 1 I —для //-слойной сети с одним ЛПЭ в слое. Таким образом, в одномерном случае (N = I) структуры, оптимальные по верхней и нижней оценкам, совпадают. Для многомерного варианта сети, оптимальной по верх- ней оценке, на основании (4-17), так же как в одномерном случае, можем записать: цг°р* ~ max (4.27) V Hj — H. Из (4-27), а также из (4-14) и (4-15) следует, что усло- виям оптимальности (4-27) отвечает целый класс структур, именно все структуры, для которых И; <^N {j = 1, .. . . .. , Г): w = (4-28) MI Для этих структур ’ uz Topt = 2,-1 2«_ (4-29) Для структур, у которых для любого (/=1.......^^,<2". 4-7. Оптимизация структуры по некоторым основным топологическим характеристикам При технической реализации СР возникает естествен- ное желание ограничить суммарное число входов в сети, вызванное тем, что число входов есть число технически трудно реализуемых блоков умножения. На этапе настройки 118
выбранной структуры число входов равно размерности пространства настраиваемых коэффициентов, в котором производится поиск экстремума функционала качества СР. Поэтому уменьшение числа входов многослойной СР облегчает как реализацию, так и настройку. Для СР с полными перекрестными связями суммарное количество входов ЛПЭ в t-м слое равно: + .....U7. Отсюда следует выражение для суммарного количества пходов ЛПЭ в UZ-слойиой сети: W W / i \ W /=1 /=1 \/=i / /=1 1 1 + — (4-30) На основании (4-30) задача синтеза многослойной СР с полными перекрестными связями, оптимальной по верх- ней или нижней оценке количества областей при ограниче- нии на суммарное число входов у в сети, формулируется следующим образом: max W н. ... Н iw (4-31) Г I Индекс* означает экстремальное значение. С учетом (4-30) обратная задача, т. е. задача синтеза многослойной СР с полными перекрестными связями, минимальной по суммарному числу входов, при ограничении на количество областей Т, реализуемых СР, имеет следующий вид: В формулах (4-31) и (4-32) t в зависимости от вида оценки определяется выражением (4-17) или (4-18). 119
Обратная постановка задачи синтеза является практи- чески меиее пригодной, нежели прямая, так как задание ограничения на количество входных каналов в СР физи- чески более оправдано, нежели несколько расплывчатое ограничение на число областей. Пример 1. Покажем, что структура многослойной СР, оптималь- ная по верхней оценке количества областей с ограничением на число элементов, будет в одномерном случае оптимальна по верхней оценке с ограничением по суммарному числу входов. Согласно ме- тоду множителей Лагранжа и (4-31) при М = I оптимальные Пг и //у? являются решениями следующей системы уравнений: Здесь X — множитель Лагранжа. Решением (4-33) являются: Я.-= 1, / = I.......ИМ ,№-1 <4-34) х=------------. w J Здесь U7 — число слоев — есть целая часть положительного у корня уравнения IT2 -|- №-----— — 0. Из (4-34) и следует исходное утверждение. Пример 2. Рассмотрим синтез СР с учетом (4-32), где определяется выражением (4-17). Отметим, что при перенесении ЛПЭ из j-го слоя в / — /2-слой уменьшение числа входов элемента для СР с полными перекрестными связями будет равно: Лу- = 'у н1,- (4-35) а суммарное увеличение числа входов остальных элементов сети будет равно: (4-36) /Н Из (4-35), (4-36) следует, что при перенесении ЛПЭ из /-го в /—/2-й слой число входных каналов в многослойной СР будет уменьшаться, если i—ь j—it-i i V И; > V Н: или tf, , > Я,. (4-37) h h )~)2 I ' 120
Из (4-28) и (4-29) следует, что условиям оптимальности (4-32) отвечают две структуры с суммарным числом ЛПЭ в сети Н = — |log2 Т], где квадратные скобки означают округление до ближай- шего целого в сторону увеличения: Д; Hj= N, j = <2.....Г; 7^.= jV; Hw=- Л, 1, . . . , Г — 1. Здесь Д — остаток от деления И на /V; Н — \ . 10 при Д = 0 Ц7 --------1_ где 6 — ) У [ 1 при Д =£ 0 . Обеим этим структурам отвечает одинаковое число входов, определяемое (4-30). Рассмотрим оптимизацию структуры СР, оптимальной по длине связей. Припишем каждой связи, идущей из /гго в /-й слой, не- который вес U. .. Физическим смыслом такого веса наряду с длиной в обычном понимании может быть, например, ве- личина, обратная помехозащищенности. Через UQj обозна- чим длину связей входного вектора с /-м слоем. Тогда суммарная длина .связей ЛПЭ в /-м слое будет: ^=//,((7^+2^,^). (4-38) \ /1=1 / Суммарная длина связей в W-слойпой сети будет, оче- видно, равна: <4-39> Аналогично (4-32) запишем: В (4-40) и (4-41) Ч', как и ранее, определяются выраже- нием (4-17) или (4-18) в зависимости от вида оценки. От- 121
метим, что при U.— 1 (Д = 0, 1, . . . , W—1; / = 1, . . . . . . , №) выражение (4-39) совпадает с (4-30), а (4-40) и (4-41) соответственно с (4-31) и (4-32). Естественно теперь рассмотреть наиболее общие огра- ничения на структуру СР, включающие в себя как частные случаи все остальные вышеперечисленные ограничения. С этой целью назначим цену одного ЛПЭ цену одного входа ра и цену единицы длины связи ри. Тогда на основа- нии (4-30) и (4-39) суммарная стоимость запишется следую- щим образом: w Г 07 1 / г \2 2 А +М 'V v н. + А у я. - Л=1 I л=/ z \/—1 ' 1 W . -1 Г 07 /-1 I 4^)^ | ДЛАЛ+^Я,. Я,-,-] . (4-42) Аналогично (4-31) и (4-32) сформулируем задачи синтеза многослойной СР с ограничением по стоимости в сле- дующем виде: 44 . = max max 1 J W' Hi~HW N [W-T (4-43) 4' 4' N [U7J J • (4-44) В выражениях (4-43) и (4-44) определяется выра- жением (4-42), а —выражениями (4-17) и (4-18) в зависимости от вида оценки. Отметим, что вариацией коэффициентов стоимости и в выражениях (4-43) и (4-44) могут быть получены все рассмотренные выше формулировки задач синтеза струк- туры СР. 4-8. Оптимизация структуры многослойных СР с решениями В данном случае многослойная СР с полными перекрестными связями составлена из элементов, описываемых соотношением (4-2). Каждый такой элемент реализует в своем пространстве признаков совокупность параллельных разделяющих гиперплоскостей. Оче- видно, что максимальное число областей, выделяемых в исходном 122
пространстве признаков эквивалентной разделяющей поверхностью, в данном случае ле превышает , где Н — число ЛПЭ в сети. Эта оценка достигается только для многослойных СР с полными перекрестными связями. Оценим количество областей, па которое пространство призна- ков размерности .V может быть разбито //j группами гиперплоско- стей по (Лр — 1)-й гиперплоскости в каждой группе. Обозначим максимальное количество областей, выделяемых [//j— 1 ]-й груп- пой через 1£rjVI£rt_1 Тогда аналогично (§ 4-6) можно показать, что W*P _Ш^Р N [Я.] “ *N [W.-l]^' Оцепим величину г. При проведении каждой из (Кр — 1)-й гиперплоскостей количество выделяемых областей увеличивается на число областей, образуемых на гиперплоскости линиями ее пере- сечения с остальными гиперплоскостями пространства, т. е. на Л [Ht-]]• Отсюда г=1'<р-1]ч'«С1 и окончательно = ’MVi] “г 1^р— Ч ^.V-i [H^i] (4-45) с начальными условиями 1)4- I. (4-46) Исходя из (4-45) и (4-46) доказывается следующее: 'ir*p(Hj=Kp’ при 'Ч**; <4-47) Кр1 ”₽« «!>" Рассмотрим Л?-й ЛПЭ с /Ср решениями, расположенный в /-м слое многослойной СР с полными перекрестными связями. Входные сигналы йу-го ЛПЭ могут быть разбиты на две группы: х = [xj, . . . . . . , хдг] — вектор входных сигналов и у — (ух, .... £//_) — вектор-строка выходных и промежуточных сигналов (/ — 1) -слой- ной СР. Пусть (/ — 1)-слойная СР выделяет в исходном простран- стве признаков областей. Тогда по каналу у на входы /iy-го ЛПЭ может поступить различных вариантов вектора у, У равнение для выходного сигнала /iy-го ЛПЭ с Кр решениями может быть записано в следующем виде: = л, = '-----"г <4-48) Дд. и Д& — векторы весовых коэффициентов соответственно для х И у. 1 123
Геометрически, как следует из (4-48), каждый из Н/ ЛПЭ с Кр решениями реализует в пространстве входных сигналов СР — — 1) Ч^Р^цпараллельных гиперплоскостей. Допуская, что сущест- вует метод настройки коэффициентов СР, при котором для каждого й/-го ЛПЭ каждые (Кр — 1) гиперплоскостей, порожденных вариан- том вектора у, проходят через область исходного пространства признаков, соответствующую ему, запишем выражение для верхней оценки числа областей, на которое пространство X разбивается рассматриваемой /-слойнон СР: Здесь определяется выражениями (4-45) и (4-46). Если считать (4-49) рекуррентным выражением и вспомнить, что первый слой ЛПЭ с Кр решениями разбивает пространство X на об- ластей, то (4-49) перепишется в следующем виде: 'I'X = i51'F«p«i' (4’50) Выражение (4-50) позволяет поставить и решить задачу син- теза структуры СР, оптимальной по верхней оценке количества областей при ограничении на суммарное число Н ЛПЭ в СР. Из (4-50) и (4-47) следует, что в 1Г-слойиой СР при Н. < К; Г к % ч«Р[1₽]<-Кр при //,.>«(/= 1, (4-51) • , W). Следовательно, оптимальной по верхней оценке числа областей будет СР с полными перекрестными связями такая, что число ЛПЭ с Кр решениями в любом ее слое не превышает размерности исход- ного пространства признаков. Глава пятая АНАЛИЗ РАЗОМКНУТЫХ СР 5-1. Законы распределения аналоговой и дискретной ошибок СР Исходным материалом для анализа разомкнутых СР являются заданная в общем виде плотность распределения входного сигнала и структура разомкнутой СР. Рассмат- риваются такие структуры разомкнутых СР. как ЛПЭ 124
с двумя, К,-, н континуум решений, нелинейные и много- слойные СР из ЛПЭ. Варианты характеристик входного сигнала представлены случаями двух, # и континуума клас- сов образов при произвольной квалификации учителя. Целью анализа разомкнутых СР является вывод и ис- следование выражений для распределений и моментов рас- пределений промежуточных и выходных сигналов СР. В данной главе в основном производится анализ распреде- лений и моментов распределений ошибок СР. На основании результатов анализа разомкнутых СР выбираются функ- ционалы вторичной оптимизации. Под функционалом вторичной оптимизации понимается функционал, выражаемый через параметры распределений текущих сигналов и ошибок СР и непосредственно миними- зируемый в многослойных СР при настройке по замкнутому циклу. При этом основной является задача формирования функционала вторичной оптимизации, соответствующего заданному критерию первичной оптимизации; соответствие понимается в смысле совпадения параметров СР при обес- печении минимума функционалов первичной и вторичной оптимизации. Преобразование, осуществляемое разомкнутым ЛПЭ с двумя решениями, может быть представлено в следующем виде: N **(«) = sign2 atXi(n) = signg(n). (5-1) i—О Выражения для аналоговой и дискретной ошибок ЛПЭ имеют вид: ха(п) = е(п) — g(n)-, хе(п) = г(п)—хк(п). (5-2) Функция распределения входного сигнала при К = 2 равна (см. гл. 1): f(x, е) = 4" Л1/1(х) + 4 ЛЛ(х) при 8=1, 4 4 (х) + ~гйл(х) при Здесь А! = [2 + (<?2—сх) — (<?! + с2)] Pi, А 2 — [2 + (С2 ~С1) + &2 (С2 Ф с1)1 Р‘2> Bi = [2 (с2— Ci) + bi (ci 4- с3)] Pi, В2 == [2 4- (t-2 — Ci) — b2 (Ci + c2)l Pa- 125
Распределение аналоговой ошибки рассматриваемой СР имеет вид: JV-1 I • • • ( [ЛЛ 1*1, • • . _ 4“"' ’ N 1 а(| — xt N +вХ(х,, . а dx.,., . . ., dx. (5-3) а дискретной ошибки Здесь 1|В1(1-Ф,) i Ba(l-Ф.)] 4 при xs~ —2, у [AU-'IM + B!®!-! Л(1-Ф2) + + В3Ф2] при Xg — О, М1Ф1-Т-Л2Ф3] при х& = 2. (5-4) Ф, , Xf/'ldxt . . . dxN, k= 1, 2. 126
Выражения для моментов r-го порядка распределения аналоговой и дискретной ошибок рассматриваемой СР можно представить в виде m=° ‘i..‘».-1 4- |Л2 (ай+ 1 Г™ + В, (a0-1 p’J .... J : (5-5) К oo J • ••(*,••• v»w*- arg = 2r~2 [(Л1Ф1 + Д2Ф2) + (-1)' (В, 4- B2- -B^-B,®,)]. (5-6) В частном случае при cL — с2 = 1 и b2 — b рас- пределение аналоговой ошибки рассматриваемой СР имеет вид (5-3) с заменой Л1^2(1~&)р1; Л2 = 2(1+6)р2; Bi- 2(1 В2~2(1 — b) р2. Распределение дискретной ошибки: -Г]р, (1 +6)(1-Ф1) I р2(1-й)(1-Ф2)1, хг=—2; _ -1- [ 1 4- Ь (р2—р2) 4- гр^Ф! — 2р26Ф2], хе = 0; -Г 1(1 - Ь) Р1Ф2 4- (1 4- Ь) р2Ф2], х, = 2. Выражение для моментов распределения дискретиой ошибки СР в данном случае имеет следующий вид: а/.ё = 2[р1[1+д(1-2Ф1)] + р2[1-Ь(1-2Ф2)]}, и отдельно для совокупностей образов первого и второго класса: <М8 = 2 [pi (1 + b) (1 -Ф2) + р2 (1 - b) (1 - Ф2)]; “«й = 21Р1(1 -&)Ф!-| р2(1 -|-Ь)Ф2]. 127
Преобразование, осуществляемое разомкнутым ЛПЭ с континуумом решений в режиме обучения, может быть представлено в следующем виде: (n) = f [g(n)]. В случае континуума классов образов на входе СР /(х, е) = /'(Х1..............х^/е)/^»). Совместное распределение сигнала е (п) и аналогового выходного сигнала g (п) имеет следующий вид: N—1 • • dxi- j=] Nj / Распределение аналоговой ошибки СР N—1 '•i'-i-il •’•>(«............... N-i a- I \ — xt~T 8 fe^dxv-i • • • dx№- i=l N / / Отсюда можно получить выражение для момента г-го порядка аналоговой ошибки в следующем виде- ла xf (y/e)/e(s)dyds. (5-7) Распределение дискретной ошибки СР N f4{xs)=~^\ Pl*1’ ’ - 128
1 Отсюда ^Js '(е-Л aN I 7| dft-Xg) X dxN_{ . . . dxjde. (5-7a) Lrg x/(y/e)/e(E)dyde. (5-8) В частном случае при обучении распознаванию двух классов образов dF 1 ( — 1 — xg) d ( — I — xs) — Xg) + вр ______ X ^xN-l • • • ^] + — °N f I dF 10 — xg) ' J I d(l-xg) f~' (1 — Xg) +a0 _ x. — dx. . . dxp (5-8a) %,-Pl — a0 x/i(y)dy + P2 j • j [— f [2 a,*—/2(y)dy (5-9) 5 3;nca.< Ns 975 129
и отдельно для совокупностей образов первого и второго класса fi (у) rfy; (5-10) “г28 — (г (У) dy. Из данных выражений достаточно просто получить со- ответствующие выражения для частных случаев, а именно: при F(g) = signg; F(g) = при g>&a; —Да<£<Да; g<—Да; F(g) = g Да -1 при г>Да; —Aa<g< Да; 0 g<—\a. Анализ разомкнутого ЛПЭ с К решениями Совместный закон распределения вероятностей вход- ного сигнала системы распознавания К классов образов в режиме обучения имеет вид: [ Pifi(x) при е=1, fix, е)= ................. I Рк(к(х) при е = К. В данном случае при %-l.ftp <£<«)< %. fepTl (ак, К-1 “а01 = —=°)- Для совокупности образов /С-го класса N—1 .... a+^l_ N aN N-l а- \ — 2 *i — dxK-i ' dxt. i=l акт ’ 130
Распределение аналоговой ошибки СР в данном случае будет: N—1 2рЛ«М= 2;гТ ”-Rx А=1 Л=1 N —со ( k 4- а0— Ха а; \ , , X (*! ' XN-1’ 2 х1 ) dxN-l dxv Распределение дискретного выходного сигнала СР рас- сматриваемого типа для совокупности образов &-го класса может быть получено в следующем виде: Отсюда распределение дискретной ошибки S L \ аН aN aN / _ф /Ч-Г-L Л.....^=14 при х k". \ aN °N aN / J Выражения для моментов r-го порядка распределений аналоговой и дискретной ошибок СР могут быть представ- лены в виде: N ага= 2 рк 2 с- (a0+fe)"> (—l)r-m J jx k=l m=0 —oo / N \ r—m XfSa^J fk(y)dy; 5* 131
K. 2 к. -ф, Выражение для r-го момента распределения ошибки рассматриваемой СР имеет следующий вид: аналоговой га рЛ( k о() —хй После замены переменных хх — ух\ ... xN_{ — yN_v 1=1 л получаем: 'га Л’ 2ж+(*+«о) XdyN ... diji, k—l —oo m—0 \ г—т Анализ СР с нелинейной разделяющей поверхностью В гл. 4 было указано, что СР с нелинейной разделяющей по- верхностью может быть представлена эквивалентной СР, состоящей из безынерционного слоя нелинейных преобразований и ЛПЭ. Если слой нелинейных преобразований формирует из компонент вектора (хг . . , , компоненты вектора (Xj...........xN, ^z^ , . . . • • •’ {2ir .... z/)- r^e 4...г7 = 1...... Л? и = = xi • . . .• xi , то можно показать, что плотность распределения выходного сигнала данного слоя может быть представлена через 132
плотность распределения Ц (х) входного сигнала следующим обра- зом: ru') = r(^. .... .....ir]) = f (x) для всех i, k, {k = 1.r), при которых z, ; = x, , . . x, ; __ ‘г lk li l,k О для всех i, k, при которых \................................ Выражение для второго момента распределения дискретной ошибки рассматриваемой нелинейной СР имеет следующий вид: “ге = 4 [Ф2₽2 Г Р1 — Ф1₽1] ’ где У* N* ф1- = f • \f'i (*') dx и s' (х ) =— a0+ 2 %• S’(x')<0 i=l N Необходимо учесть, что выражение S (х) = —а0 -J- 2 aixi = О i=l определяет линейную разделяющую поверхность в исходном про- странстве признаков. Определим, как изменяется вид разделяющей поверхности в исходном пространстве признаков при увеличении порядка г нелинейного преобразования. В случае преобразования второго порядка: ‘ Js'(r><0 1 0 ПРИ z..i, = f f Л(х) П « (г,.,., s’(x')<0 G=i №* -°04 “(Лг<1ь<0 1=1 4=1 У X dXj dxN П (fe. . = -Vi,} <!*} ^Л-’. /(*) П X ^=! г2=1 N f • • • f W dx. N N аСхГ ai^xhxh<Q =1 t,= l 133
Отсюда следует, что в случае г = 2 эквивалентная разделяю- щая поверхность в исходном пространстве признаков будет поверх- ностью второго порядка с коэффициентами, однозначно определяе- мыми по коэффициентам выходного ЛПЭ СР со слоем нелинейных преобразований. В случае преобразования r-го порядка: — % (лЛ(х)— Ptfi WJtfx Этим доказывается эквивалентность (по критерию минимума средней функции риска) представления СР с нелинейной разделяю- щей поверхностью в виде блока нелинейных преобразований и ЛПЭ. 5-2. Выбор функционала вторичной оптимизации Рассмотрим функционалы вторичной оптимизации, связанные с моментами распределения аналоговой н дискретной ошибок СР с двумя решениями (два класса образов). Общие требования к функ- ционалу вторичной оптимизации СР были отмечены в введении. Параметры функционала, необходимые для организации итерацион- ной процедуры поиска, должны достаточно легко измеряться и оцениваться в системе; функционал должен иметь сравнительно простой вид относительно настраиваемых коэффициентов СР и минимальное значение при тех же значениях настраиваемых пара- метров СР, при которых соблюдается (прн заданной структуре разомкнутой СР и некоторой априорной информации) экстремум некоторого функционала первичной оптимизации. Анализ выражений (5-5) и (5-6) для моментов распреде- ления аналоговой и дискретной ошибок СР позволяет сде- лать следующие выводы [Л. 62, 63]: 1. Моменты нечетного порядка распределений аналого- вой н дискретной ошибок СР в режиме обучения не могут быть использованы в качестве функционалов вторичной оптимизации. Возможно использование в качестве таких функционалов модулей указанных моментов. 2. Моменты четного порядка указанных распределений могут быть использованы в качестве функционалов вто- ричной оптимизации, причем в случае моментов распреде- ления дискретной ошибки нет смысла в рассмотрении мо- ментов выше второго порядка ввиду их пропорционально- сти a2g. 3. Основной целью исследования в данном параграфе является выяснение того, какому критерию первичной оп- тимизации и какой априорной информации о характери- стиках входного сигнала и матрице потерь соответствует 134
минимизация выбранного функционала вторичной оптими- зации. 4. Исследование выражений для |а1в| и а2а (ЛПЭ) по- казывает, что минимизация данных функционалов вторич- ной оптимизации эквивалентна минимизации средней функ- ции риска при учете только моментов первого порядка распределений совокупностей образов того или иного класса. При этом считаем, что априорные вероятности по- явления образов из различных классов равны и имеет ме- сто следующее условие (Z22—/21) = Gn—/»)• м Основой методов настройки ставленных в работах Уидроу является минимизация второго момента распределения анало- говой ошибки. Здесь обсуж- дается утверждение Уидроу, высказанное им в одной из первых работ этого цикла: «Используя некоторые гео- метрические аргументы, можно показать, что средний квадрат дискретной ошибки есть моно- тонная функция среднего квад- рата аналоговой ошибки и ми- нимизация их обоих есть ми- нимизация средней функции ЛПЭ по замкнутому циклу, пред- (системы под названием «Адалин»), Рис. 5-1. Сравнение критериев минимума а2а и a2g. риска». Это является неверным, хотя бы потому, что минимизация средней функции риска для нормальных распределений с различ- ными ковариационными матрицами достигается с помощью СР с раз- деляющей поверхностью второго порядка. Рассмотрим случай, когда [Л. 62] СР есть ЛПЭ. В этом случае совпадение оптимальных решений по критериям минимума a2g (средней функции риска при определенных ограничениях на р/ и 1ц) и а2Д достигается лишь при равных ковариационных матрицах, соответствующих образам первого и второго класса. Проведем исследование экстремальных свойств моментов вто- рого порядка аналоговой и дискретной ошибки одномерного ЛПЭ с целью выяснения разницы в оптимальных решениях по критериям минимума а2Д и aag- Исследование проводим но следующему плану: а) Вычисляем значения коэффициентов а0 и минимизирую- щих а2а при заданных величинах an, a12, р21, р22- б) Вычисляем значения коэффициентов а0 и а\, минимизирую- щих a2g. в) Вычисляем величину Aa2g = a2e (a0, aj —a2g(fl0, ai)’ которая служит оценкой отклонения оптимальных решений по критериям минимума a2fl и a2g; на рис. 5-1 построена зависимость А/? = Aa2g — (р.21) для одного частного случая («ц =0, а12 = 2, 135
Р-22 = 2). Ограниченность критерия минимума а2а особенно хорошо иллюстрируется на примере' многомодальных распределений (рис. 5-2), где показаны в одномерном случае «пороги» СР а0 и а'ц, оптимальные по критериям минимума <x2fl и a2g (заштрихованная площадь — приращение при переходе от критерия минимума a2g к критерию минимума сс2а). 5. Исследование выражения для модуля первого мо- мента распределения дискретной ошибки СР в данном слу- чае |“1в| = 2|р2Ф0—Р1 + Р1Ф11 показывает, что минимизация |alg| приводит к удовлетво- рению критерия минимума средней функции риска при ус- Рис. 5-2. Сравнение критериев минимума a2a и a2g для многомодальных распределений. ловии равенства составляющих средней функции риска для обоих классов и следующих ограничениях на коэффи- циенты матрицы L ^22 — ^21 = 111 — Лз • 6. Исследование выражения для второго момента рас- пределения дискретной ошибки a2g — 4 [Р2Ф2 Н' + Pi—Р1Ф11 показывает, что минимизация а2^ приводит к удовлетворению критерия минимума средней функции риска при аналогичных указанным выше ограничениям на коэффициенты матрицы. 7. Дополнительные ограничения, связанные с конечным числом учитываемых моментов при рассмотрении |ale | и а2д, а также связанные с равенством рггг = р2г2 при рас- смотрении | а1г | делают указанные функционалы одно- экстремальными при ограниченной структуре разомкнутых СР (ЛПЭ) и многомодальных распределениях входного сигнала. Функционал сс2£ при ограниченной структуре СР может быть многоэкстремальным, т. е. его минимиза- ция приводит к обеспечению в общем случае только локаль- 136
ного минимума средней функции риска при /22—/21 = = /ц—Z13. 8. При произвольной структуре разомкнутой СР, т. е. при произвольном виде разделяющей поверхности, в со- ответствии с результатами § 5-1 для случая = b2 — 1, сг с2 — 1 выражение для a2g будет иметь следующий вид: a2g ~ 4 [Pa®2 Ч- Pi — где N Ф4 = Ф»[3(х)] = f • J fk(x)dx, k = l, 2. S(x)<0 Здесь функционал a2g пропорционален средней функ- ции риска при произвольной структуре разомкнутой СР (два класса образов, два решения) и при известных ограни- чениях на коэффициенты матрицы L. Необходимость в ана- лизе СР с конкретной структурой возникает, так же как и выше, в случае СР с нелинейной разделяющей поверхностью для определения вида разделяющей поверхности, реализуе- мой СР с данной структурой в исходном пространстве при- знаков. 9. Рассмотрение указанных выше функционалов вто- ричной оптимизации СР представляет интерес, несмотря на указанные ограничения, так как приводит к достаточно простой реализации соответствующих СР, настраивающихся по замкнутому циклу, а также может быть полезно при по- строении СР с переменной структурой. 5-3. Формирование функционалов вторичной оптимизации, соответствующих заданному критерию первичной оптимизации В связи с изложенным ранее (п. 8 § 5-2) формирование функционалов вторичной оптимизации производится для разомкнутых СР с произвольной структурой (Кр = К — 2), т. е. с разделяющей поверхностью произвольного вида. а) Критерий минимума средней функции риска Основной вопрос здесь заключается в выборе преобра- зования дискретной ошибки СР (п) = в (п) — xk (л) для получения дискретной ошибки х'& (и), второй момент распределения которой был бы равен средней функции риска. Будем осуществлять указанное преобразование 137
следующим образом: умножаем xg (п) на А, если е (п) = = — 1, на В — если е (м) == + 1; затем к результату при- бавляем С. Найдем параметры данного преобразования (АВС), так чтобы второй момент распределения f '(х' ) был равен R: рД1— при х& =—2ЛЧ-С, Pi®i +(! —ф2) Р2 при *е = С, (5-11) р2Ф2 при хй=2В-|-С; а2^ — Pi (2А — С)2 Р2С2 Р1Ф1 (4А С—4А2) 4- 4-р2Ф2(4ВС-р4В2); (5-12) = Р1712 4- Ра^22 4- Р1 (А1-Аз) “Г Р2Ф2 (А1- Аг)- Отсюда следуют выражения для искомых параметров преобразования: £2^224~2/?]У12—Р1А1 д — ^’р2 (Ат 4 Аг) 4~ Аз (Pi — Рэ) 4 УР2А2 4 SpiAa ~~PiAi . (5 [3) 2 q „ У Al Р1Аа4 2р412 Р1А1 Р РаАв 4~ ^PiAa Piln 2 Если искать параметры А, В, С, обеспечивающие совпа- дение a2g и R с точностью до постоянного слагаемого (pi^ia 4- р2Аг)> то в данном случае с = 0; А = -1- / /13-/13; В = -у-/ Z21~/32. (5-14) Возможно применение следующего преобразования (Z) дискретной ошибки «е(л) = г13 при xt = —2, е=—1, ги при хг = 0, г33 при хг = 0, г3, при хе = 2, е= —1, е=4-1, 8= 1. В этом случае fx’ (4)= Pj (1—Ф,) при р,Ф, при 4 = Z12’ x‘Zz7l" <5-Иа> g Pal1 — ф2) ПРИ р2Ф2 при Хц — Z№ Xfi = Z2. 138
и условия совпадения а2е и записываются в следующем виде: = (5-15) б) Критерий минимума R при условии равенства PJi = Р^г2. Минимизация при условии равенства р^г = р2г2, т. е. при условии PiGi®i + PiWl-^iJ — Pa^a— -Р2/22(1-Ф2)=0> (5-16) эквивалентна минимизации функционала Лагранжа: R* == [pJiiQi. + Р1^1я (1 — Ф1)1 (1 4“ X) 4- 4~ [Ра^змФа 4" Pa^sa (1 “Фа)] (1 — X). (5-17) Совпадение /?* и a2g обеспечивается при следующих параметрах описанного выше преобразования (Л, В, С): С = |/ р2/2а (1 —X) ~Ь2/?iZ12 (1 -1-Х)—Pi/ц (1 4- X); А ~ ~ "К (1 +Х)[ра/11 + (/?!—/?2) /12] + /?2/32 (1 —X) -j- 4- р Р2^22 (1 — X) 4- 2р1/13 (1 4“ X) — Pi/ц (1 -г X); В = — [j/"(1 X) (Z21 Pil23) 4~ (1 4~ X) (2/?iZi2 — Pi/ц)— — У Р^22 (1 — Х)4- 2/?]/12 (14-Х) — PiZn (1 4-Х)], (5-18) Левая часть (5-16) есть градиент /?* по X. В СР эту ве- личину можно оценивать как первый момент преобразо- ванной (Ль Вь Сг) дискретной ошибки, причем параметры преобразования A lt В1} С± получаются следующим обра- зом. Из (5-12) следует, что aig — Pi (Ci—2Лг) 4-С1Р2 4-Р1Ф12?114-р2Ф2 2Вр (5-19) Сравнение cclg и левой части (5-16) показывает, что ^1= 'n~'12 ; C^pJn-pJn. (5-20) 139
В случае применения описанного в предыдущем пункте преобразования Z сравнение полученного по (5-14а), и R* (5-17) дает условие для их совпадения в следующем виде: 212= V (1 4~ » 232— ]/ 4а(1—^)» 2ц= |/ Z2i = y Z31(l—Л). (5-21) Преобразование, необходимое для получения дискрет- ной ошибки, первый момент распределения которой был бы равен левой части (5-16), имеет следующие параметры: z;2 = /|2; z22 = —/22; z21 = -/21; 2;, = ;,,. (5-22) в) Критерий минимума R при условии ру\ а — const Минимум R при условии равенства ру^ — а, т. е. при условии PiZПФХ + [ 1 — Ф1] — а = 0, (5-23) обеспечивается при минимизации функционала Лагранжа: — Р1/12 (1 + М + £2^22 4- Pi (Ju—4а) U + М Ф1 + 4_/?2(41 4а) ^2 (5-24) Сравнение (5-24) и (5-12а) дает выражения для коэффи- циентов А, В, С данного преобразования, обеспечивающие равенство R* и a2g: С— | р^чч 4- 2piZi2 (1 4" ^*) PiGi (1 4" 4) — ал; А = | V (1 4- W11 + (Р1—р3) /12] + Р2/22 “ ИЛ + + V РчЬч + W12 (1 4- X) — Рх/ц (1 + X) — аХ |; (5-25) В = — j.]/ /21—Pi4a 4~ (1 "4 ^) (2pi/32—Pi4i)—схХ— — 1^Р2^22 4~ 2pi/i2 (1 4- — Pi/ц (1 + А.) — аЛ j. Параметры Дх, Blf Q преобразования дискретной ошибки, делающие равными первый момент распределения (5-12) и левую часть (5-23), имеют следующий вид: Д1= ; В1 = 0; (5-26) 140
В случае применения к дискретной ошибке СР преобра- зования Z равенство (5-24) и второго момента распределе- ния (5-14а) обеспечивается при условии: 2Й1= ]/ ^21 ’ ^22 =- J/ ^22 » 21а= л/ llz (1 + , г Р1 1/'и(1 + Х)- — <5~27* F Р1 Определение градиента R* по Л в данном случае произ- водится в СР формированием дискретной ошибки х' (п), первый момент распределения которой равен левой части (5-33). Параметры преобразования Z в этом случае полу- чаются следующими: Z21=ZK = 0; z;2 = /12-f; (5-28) Континуальные модели СР Для континуальных моделей СР рассмотрим процедуру формирования функционалов вторичной оптимизации, со- ответствующих критерию минимума средней функции риска, так как обобщение на другие критерии первичной оптимизации не представляет принципиальных затрудне- ний. Так же как и в предыдущем параграфе, вопрос форми- рования функционала оптимизации решается для СР с про- извольной структурой и иллюстрируется на конкретных структурах. а) СР с континуумом решений; два класса образов Преобразование дискретной ошибки в данном случае имеет следующий вид: „ = J гЛхе(п)], е(п) = 1, 2 I ^(я)], e(n) =—1. Отсюда распределение преобразованной ошибки имеет следующий вид: +рЛ*е 7 [’ 141
а выражение для второго момента данного распределения (после соответствующей замены переменных и при условии монотонности функций Zx и Z2) a2g= J (xe)dxs+ “ [Z2 (xs)]2 (xE) dxg. —co —CO При произвольной структуре разомкнутой СР имеют место соотношения xk = Р (х), xs — в — Р (х). Отсюда xx = p'i(xe’ р~ xi...xx-i} при е =—!; хц-р'г(хц’ р> х1- • *«-i) п₽и е=1- В данном случае распределение дискретной ошибки для образов £-го класса имеет следующий вид: лг—1 со = $ If^X'.........Р’ Х'..............X »|"Х ................ I axg I Отсюда после соответствующих преобразований и за- мены переменных можно получить следующее выражение для второго момента распределения дискретной ошибки: х со “22= f „ . J(Z1^-l-/>(x)])2p1f1(x)dx + у + f — J (Z2[l-P(x)]}2p2/2(x)dx. (5-29) В частности, для ЛПЭ с континуумом решений с исполь- зованием (5-8а) можно получить следующее: N “22= f f {z^—i—f а0^| pJi(x)dx + + f J p2/2(x)dx. 142
В общем случае N г a2fi= f — J (Z1[xjx)])ap1/1(x)dx + N ------ + J" J (Z2[xe(x)])sp,/2(x)dx. Сравнение данного выражения с выражением для сред- ней функции риска N - ч R = У •_“ J Pifi (X) G 1*л =- р (х)] + рЛ (X) /2 = Р (х)]) dx дает соотношения для преобразования дискретной ошибки необходимые для равенства a2g и R: Z, (х8) = / М-1-Х,,); Z2 (хв) = \/ /2(1-хг). (5-30) б) СР с континуумом решений-, континуум классов образов В данном случае Отсюда при условии монотонности функции Z (xg) сле- дует, что «2е= J [2(хг)]2Лг(х6)Л8. (5-31) —со Здесь xt = P(x); xg = e—Р(х); xx = P'(xlt Р, г, х,.... N fXg = f f f[Xl........XN-V P' (Xt’ P’ <!’*!••••. ^-1)| E] X XfB (e) | P| E’J1’ ’' " | dxN_t dxt de.. 143
Отсюда и из (5-31) следует после соответствующей за- мены переменных; N 00 оо Г У l-Z[e—Р (х)])а/(х | e)/e(e)dedx. (5-32) В частности, с учетом (5-7а) для ЛПЭ с континуумом решений N о° оо (Г ' N \ 1) 2 “2«=JM г Iе—Н?!0’'*'-Ml) х X/(XI е) (в) de Jx. Из сравнения (5-32) с выражением для средней функции риска N R = ,Г J ’ ' ' J ft (е) f (х I е) I [х4 = Р (х), е] dx de следует соотношение для преобразования дискретной ошибки, необходимого для равенства a2g и 7?: 'Ч-У = I И(е—xg), е]. в) СР с К решениями', К классов образов Из выражения (5-8а) следует выражение для распре- деления преобразованной соответствующим образом ди- скретной ошибки СР (ЛПЭ с К решениями) для образов й-го класса при **==(&—fep) Ak k Отсюда 144
В случае СР с произвольной структурой %= £ 2 f ^(x)<ix. «=1 «D=i I P J (Rn) P S' p/(x)>0 Из сравнения а2я н к к R = X X f /fc(x)dx k=ik рй ik\ k p S1 ₽'(x)>0 следует условие для их совпадения в следующем виде: Ак „ = —— VT~k. V k~kpr V г) CP c N*-выходными каналами-, Kn градаций сигнала по каждому классу В этом случае функция распределения дискретной ошибки для совокупности образов класса ...» kN,}: z(‘l- lg’ ...‘Ч». ,)(x)dx при (х1й, .... хл,.г)=(^1....М~(Ч •••’ йл*р) ' Применяем к вектору (х, , . . . , х^ ) следующее пре- образование, необходимое для получения преобразованной дискретной ошибки х' (я). Умножаем вектор xg на скаляр А( ... , kN„, klp, } и вычисляем сумму квад- ратов компонент данного результирующего вектора. Ре- зультат будет преобразованной дискретной ошибкой х' (я). В этом случае для совокупности образов всех классов I п , , Кп К» Ко м хД+...+^.й = 2 ••• 2 2 4,=1 kfl,^lklp=l 2 |IA-V+--- + (V-W]>< —i A *p (kt, kN„ klp................................ X . f'ff fa..................t„.>(x)^x. 145
Сравнение данного выражения с R (гл. 2) дает соотно- шение для параметров преобразования А в следующем виде: ....fe1P’ ’ Vp) = = / 2_(^,..А1р,... У +•• + (*«--‘«-р)2 Это преобразование дискретной ошибки делает равными М [<г4-.. - + <.g] И R. д) СР с N*-выходными каналами; континуум решений СР В данном случае xg = е — Р (х) — вектор размерно- сти Лг*. Распределение суммы квадратов компонент век- тора xg имеет вид: h К)=ЛЛ ГЛ f [*..........."«-г р' (*) 16] х 8 F х' X Л (г)) dp I dxN_{ ... dxl ds. I ‘Ч I = Л, .... PN„ е,........sN., xv ..., Распределение квадрата преобразованной дискретной ошибки Отсюда первый момент данного распределения “«Г R4)] х —со 8 —со xf-"ff---j / к • • •• ^«-1- р' (*) I е] /е (3) X Ex' J X I dP.l^ I ^v-i dxidxl- 146
После соответствующей замены переменных X f (х | в) (в) de dx. Из сравнения alg с выражением для R в СР с N* выход- ными каналами и континуумом решений следует уравиеиие для функций преобразования дискретной ошибки в сле- дующем виде: -Р,-.(х)Г| = /[Р(х), в]. (5-34) 5-4. СР в режимах самообучения и при произвольной квалификации учителя В случае Л'р решений выражение для средней функции риска в режиме самообучения имеет вид: Я = 5 . J р[х—Ь ]f(x)dx. ‘₽-‘ A>W>0 В случае СР с ЛГР решениями можно показать, что пре- образование выходного сигнала СР xft, формирующее сиг- нал x'k, первый момент распределения которого равен R, определяется: х4 = р [х—b (х4)], (5-35) а в случае с произвольной квалификацией учителя xt = Z(xv e)b-)-(l — Ь2)р[х — 1Цх4)]. (5-36) Выражения (5-35) и (5-36) справедливы также и для случая СР с континуумом решений. Глава шестая РАЗРАБОТКА АЛГОРИТМОВ ПОИСКА ЭКСТРЕМУМА ФУНКЦИИ МНОГИХ ПЕРЕМЕННЫХ 6-1. Организация процедуры поиска экстремума функционала вторичной оптимизации в СР В соответствии с принятой в работе методикой синтеза СР экстремум функционала вторичной оптимизации на- ходится с помощью итерационных методов, с использова- нием градиентной процедуры поиска в основном локального 147
экстремума. Рассматриваются вопросы анализа устойчи- вости и сходимости градиентных процедур при отсутствии и наличии ограничений на переменные, а также возмож- ность ускорения процессов поиска экстремума. В качестве ограничений на переменные настраиваемые коэффициенты рассматриваются ограничения типа равенств и неравенств, реально присутствующие как в случае реализации много- слойных СР на аналоговых и цифровых вычислительных машинах, так и в случае рассмотрения нейронных ансамб- лей. Итерационные методы поиска экстремума функций мно- гих переменных развиваются в основном в двух направ- лениях. Первое направление включает поиск экстремума функций многих переменных на ЦВМ с построением стан- дартных программ поиска. При этом вид функции и ее свойства задаются достаточно полно. В процессе исследо- вания изучается в основном сходимость методов, иногда их точность в установившемся состоянии; динамике пере- ходных процессов уделяется незначительное внимание. Второе направление включает в себя построение алго- ритмов настройки адаптивных систем. Здесь функция за- дана в самом общем виде вследствие специфики задачи, заключающейся в необходимости работы системы в усло- виях малой априорной информации о входном сигнале [Л. 40, 41 I. Система распознавания есть частный случай адаптив- ной системы. Особенности построения адаптивных систем связаны с тем, что при неизвестных характеристиках вход- ного сигнала [в случае СР — условной плотности f' (x/s) J даже при фиксированной структуре разомкнутой СР ни- чего нельзя сказать о виде функционала вторичной оптими- зации, кроме того что он имеет несколько локальных экс- тремумов, все или по крайней мере некоторые из которых должны быть найдены в процессе настройки по замкнутому циклу. Решить задачу оптимизации контура настройки многослойной СР в общем на этапе организации поиска экстремума функционала вторичной оптимизации нельзя. В процедуре поиска всегда остается степень субъективизма, это выражается, в частности, в выборе коэффициентов па- раметрической матрицы системы поиска. В связи с этим в гл. 8 основной упор делается на опти- мизацию контура настройки многослойной СР при иссле- довании замкнутой СР с оценкой качества по текущему зна- чению функционала первичной оптимизации. 148
6*2. Анализ итерационного метода поиска экстремума функций многих переменных Общее выражение для вычисления вектора состояния системы при поиске экстремума функции Y (а) в момент времени п + 1 по вектору состояния в n-й момент имеет следующий вид (для памяти системы поиска, равной еди- нице); а(н 1):-а(н) -а-| . (6-1) Здесь Y (а)—функционал вторичной оптимизации; а (п) —• вектор состояния системы (текущее значение ар- гумента экстремальной функции); К* — [№ X №] — мат- рица коэффициентов; Л/*' — размерность вектора а. Выбор коэффициентов матрицы /<* определяет скорость и качество сходимости итерационного метода. В процедуру (6-1) вписываются известные методы по- иска: сканирования, иаискорейшего спуска, градиента, Гаусса—Зейделя, Розенброка, Пауэлла, Саусвелла и др. Основной задачей является выбор ограничений иа па- раметры матрицы /С* для обеспечения определенного ка- чества системы поиска экстремума функции. Рассмотрим частный вид функции качества СР y(a) = a^.a+Bra + C. (6-1а) Здесь А — матрица коэффициентов функционала У (а); В — вектор коэффициентов; С — коэффициент. Отсюда ^fal,-2/la — B; [®223А11 — 2,1 , (6-2) da [ datdaj J i, /-1, №. Из (6-1) и (6-2) следует рекуррентное выражение для вычисления вектора состояния системы поиска в (л + 1)-й момент времени через вектор состояния системы в л-й мо- мент времени в следующем виде: а (л + 1) = а (л) + К* [2Лх (л) 4- В], или а(л+ 1) = Х*-В-{-[У + 2К*Л]а(п). (6-3) Здесь У — единичная матрица. Определим, при каких значениях коэффициентов мат- рицы К* итерационный процесс сойдется за один шаг из 149
любого начального состояния. Значение вектора а (1), обеспечивающего в данном случае экстремальное значение, определяется следующим образом: а(1) ——-Ь Д-1В. Подставляя данное выражение в (6-3), получаем выра- жение для-искомой оптимальной матрицы К*'. к* _______L д-1 опт 2 Система, обеспечивающая на n-м шаге переход в (п + 1)-ю точку, называется устойчивой, если значение функции в (п + 1)-й точке меньше, чем в п-й точке. Соот- ветственно автоколебательной или неустойчивой называется система, у которой последующие значения функции равны или больше предыдущих: 1) a(rt+l) = K*B-H^ + 2K*4]a(n); 2) а7 (/г) Ла(/г)4-Вга(п) ат(п 4-1)- A -а («4- 1) 4- + B’'a(« + 1). (6-4) Решение данной системы требует применения ЦВМ. При рассмотрении конкретных методов поиска экстремума, а следовательно, и конкретных видов матрицы К* необхо- димо проверять условия удовлетворения данной матрицей соотношения (6-4) для обеспечения устойчивости системы поиска. Определим нерекуррентное выражение для а (л). Из (6-3) следует: а (1) - К*В 4- (У 4- 2ДК*) а (0); а (2) = К*В 4- (У 4- 2ДК*) К*В + (У + 2ДК*)2 а (0); а (3) - 4- (У 4- 2ДК*) + (У + 2ДК*)2 4- + (У + 2К*Д)3а(0). По индукции а (п) = [У + (Y + 2К*Д) +... + (У + 2К*А)а~'] К*В -|- + (У |-2АГ*Л)"а(0). 150
Учитывая, что У + (У + 2К*Л) +... + (У + 2К*Л)"-' = У —(У 4- 2К*Л)" У —(У+2№М) [У—(У + 2КМ)П](2К*Л)-1, можно записать выражение для а (п) в следующем виде: а (л) = (У + 2К*Л)“ а (0) + -j- [(У + 2К*А)” — У] X X (К*Л)-1 К*В. Отсюда получаем окончательное нерекуррентное выра- жение для вектора состояния системы поиска а (П) = (У + 2К*Л)" а (0) + [(У + 2К*А)п—У] А~'В. (6-5) Подставляя в (6-5) условие оптимальности по быстро- действию рассматриваемой системы поиска, равное К* =-----Л—\ получаем, как и следовало ожидать: а(п) = —у-Л-1В, «=1, 2, что соответствует экстремальному значению функции. Путем анализа нерекуррентной формулы получим огра- ничения на параметры матрицы /С*, обеспечивающие схо- димость итерационного процесса поиска. Из (6-5) следует, что lira а (п) = — А~ 1В, п—оо 2 т. е. не зависит от а (0) и равен экстремальному значению вектора состояния при Пт;(У + 2/<*Л)я = О, п >оо где О — пулевая матрица (У, Л). Это выражение можно использовать для доказательства сходимости системы по- иска. В [Л. 64] приводится также вывод выражения для матрицы К*, удовлетворяющей условию автоколебатель- ности процесса поиска. О методе стохастической аппроксимации Метод стохастической аппроксимации реализуется системой поиска, аналогичной градиентной, во имеющей переменные пара- метры (матрицу К*) [Л. 40, 41]. Метод стохастической аппрокси- 151
мации как частный градиентный метод поиска применяется при на- личии случайных ошибок измерения вектора градиента мини- мизируемой функции. Именно наличие указанных случайных ошибок делает необходимым введение переменности параметров системы поиска с целью обеспечения нулевой случайной ошибки определения точки экстремума. Недостатки этого метода поиска совершенно справедливо отмечаются в работе А. Г. Ивахненко [Л. 14] в плане увеличения систематических ошибок в переход- ном процессе поиска точки экстремума. В излагаемой в данной работе методике синтеза СР применение метода стохастической аппроксимации возможно наряду с другими методами поиска, в частности с постоянными параметрами. При этом построение замкнутых СР (гл. 7) производится в любом случае при некоторой неопределенности в задании матрицы К*, которая ликвидируется лишь на этапе исследования замкнутых СР (гл. 8). Вопрос об оптимальном (по критериям первичной оптимизации) выборе параметров матрицы К* здесь будет являться некорректно поставленным, так как вид минимизируемой функции нам заранее не известен. 6-3. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа равенств нв переменные В общем виде ограничения типа равенств на настраи- ваемые коэффициенты СР записываются в следующем виде: <7ц(а) = 0, ц— 1, .... М1Г Л4х<№4-1. N В реальных СР J1 a/ = a = const, (6-6) t—о т. е. ограничения на сумму коэффициентов. а) Алгоритм поиска В данном случае задача минимизации функции качества Y (а) СР решается путем составления функции Лагранжа Y (а, X) = Y (а) 4- Xrqr (а), где = [Хр ..J — вектор множителей Лагранжа, qr (а) — (а), ...» <7^ (а)]—век‘ тор-функция ограничений. Решение задачи минимизации сводится к решению: -(а’ к) =^L + Q(a)X = O; --(а: k>. = q (а) = 0. (6-7) da da d\ (a) Здесь Q(a) = r3Ma.L1^ . L дщ J dqv (а) ддм> (a) 152
ИЗ (6-7) следует рекуррентное соотношение, являющееся основой для алгоритма поиска а(»+ 1) = а(П) + ^(й)^^> | da k® M fck> В этом случае система поиска может быть представлена эквивалентной дискретной системой с параметрическими матрицами Каа, Ка\, К1а, Учитывая (6-7), можно записать окончательное выражение для алгоритма поиска в следующем виде: a (n + 1) = а (п) К'аа(п) + Q (а)• л] + L rfa + Kai»q(a)|a..a(„); X(n+\)^7.(n) + K>.An.) [^-(a’- + Q (a)XI + + Ku (n) q (a) |a a(n). В случае ограничений типа (6-6) а («+ 1) - а (п) -I- Каа («) I ~ ni (п)] + L “а 1а„а(а) J + Кл (п) аД/г) —a j ; X1(«+l) = X1(n) + KL(a)f^M| 1А1(п)1 + I da । a—a(n) J + Kii(n) аЛп)—“J • где 1 — вектор-столбец размерности -f- 1, состоящий из единиц. 153
б) Анализ матрицы вторых производных функции Лагранжа Если У (а) представлено выражением (6-1а) и введено обозначение YT — |й0, ..aN0, .....J , то газу(ади = г_1_|2» 1 1^1 = 0, .№; 1 = 0........№, I ayidYj J LiiiivJ II -+! = №+1, .... Na + Mr, i = o..№; 111.1 = 0.....№•, j = Na + l, № + Мг\ i, j = 0, ..№, W+ 1......W + Mi, IV = i = №+l......N„ + Mr, f = IV«+l, № + МТ. Очевидно, что [I] = 24, [III] = [П]г = Q (а), [IV] = 0. Таким образом, матрица вторых производных функции Лагранжа имеет следующий вид: га3/ (a, X)j = Г 24_'_Q_'| L syi ayJ [ « । о ] ’ i, / = о, ..№, №+1.......^ + мх. в) Оптимальность по быстродействию итерационной про- цедуры поиска экстремума при ограничениях типа равенств При использовании метода Ньютона для минимизации функции Лагранжа оптимальность по быстродействию обе- спечивается при условии к* (п) = Г *^"21 = - И7 [CwWxW J Jy=y(„)’ i, j = 0....№, №+1.....№ + М]_. Можно показать, что условием существования матрицы, обратной матрице вторых производных функции Лагранжа, является условие равенства Мг рангу матрицы Q. Отсюда Г2А Q I-1 _ Г [qt о J [ —[ н~' J ’ где Н — —QTAYXQ, Л1 = 2Д. Отсюда следуют выражения для матриц Каа(п), КаМ> Kja(«), обеспечиваю- щих оптимальность процедуры поиска по быстродействию. 154
г) Оптимальность по быстродействию при ограничениях (6-6) В данном случае 7(j0(n) = —Л]’[/ + £], где /—еди- ничная матрица размером [(№+1) X (№+1)]; L = = QH-'QTAT' = Q (-Q’X’Q)-' QTA?1. В рассматриваемом частном случае при QT = [1, 11 Н =—где <гл = 2 %; А, =[<7]; 4 J = 1 F=t № а/ = 2 a‘i’ ' N°- 4=0 Следует отметить, что при любой априорной информа- ции о матрице Л матрица К*а отлична от (—А^1) и Даже при диагональной матрице А является неднагоналыюй. Матрица Лм, имеет следующий вид: ° А т. е. при наличии одного ограничения оптимальная вели- чина определяется лишь суммой элементов матрицы А?1 по строкам и столбцам, В данном случае = Ar‘Q/7-1 = Ar’Q(-QWC)-’= Af'Q (= _____LI 1 В данном случае при любой априорной информации о матрице А матрица Как не равна нулевой матрице, т. е. перекрестные связи в алгоритме поиска присутствуют. В этом плане необходимо отметить неточность, допущенную в работе [Л. 401, где Как (п) == 0. д) Случай ограничений типа равенств, решаемых относи- тельно переменных При рассмотрении ограничений на переменные вида Q'a-a, где Qr = Г/°1' - ' • 1 (6-8) L Чом, .1 155
линейность ограничений позволяет решить равенства от- носительно Ali переменных, т. е. выразить коэффициенты а0, . . . , ам_х через остальные 1—перемен- ные. Для этого матрица Q разбивается на два блока: Qr |Qf, QJ] = . L QoM, • • • [ %wt rD M, • • • J Тогда ограничения (6-8) принимают следующий вид; Q^<l> + Q2V> = a, где а< * = [ао’ - > Дм,-1]’ ~ [алг,» • ’ ал'^| • Отсюда а{1’ = (<2ГГ 1«-(6-9) Данное выражение подставляется в У (а) и экстремум результирующей функции (№ + 1 —Afj) переменных ищется изложенным выше методом. При этом определяются оптимальные значения (№ 1 —Л/J переменных. Опти- мальные значения Мг переменных определяются по (6-9). При соблюдении условия (6-6) выражение (6-9) принимает вид: Nn а0 — а— 2^. t=i е) Устойчивость итерационного процесса при ограниче- ниях типа равенств Процесс поиска будем считать устойчивым, если на каж- дом шаге значение функции Лагранжа уменьшается, т. е. Ш(«)КПу (п- 1)1- (6-10) Раскладывая Y (у) в ряд Тейлора в окрестности точки у (ц—1) и пренебрегая членами порядка выше второго, получаем: Y [у (п- 1) + А] = У [У(п-1)] + АГ I + dy |у=у {n—1) +дг^гт д. 2dya |у=у<Л—1) Здесь через А обозначен вектор-приращение переменных. Учитывая (6-10), получаем условие устойчивости дг Л4у)| +ArdZ<y)l д<о. (6-11) dy |у=у(л — 1) 2dy2 |у=у(п—1) 156
Итерационная процедура па каждом шаге поиска дает следующее приращение: Д = . (6-12) |у—У (rt-t) Подставляя (6-12) в (6-11) после соответствующих пре- образований получаем: W I у х L "У 1у—У (П-1) J I 2rfy |у-у(п-1> J 4^-1 ]<°- L dy |у--у {п-1) J Отсюда следует, что достаточным условием устойчивости является отрицательная определенность матрицы L 2ау“ [у^у (л-i) J Эта матрица связывает параметры функции Лагранжа и параметры матрицы К* системы поиска. ж) Сходимость итерационного метода поиска при ограни- чениях типа равенств Сходимость процесса поиска будет рассмотрена для слу- чая квадратичной функции. В этом случае Y (аХ) — агДа4- + Bra + C + VQa; dY (а, л) Г 2XI а Аз7 : р'л I (6 13) d<z,l.)[ Qa J ' Это выражение можно записать: QT |Га1 + ГвЧ=ЛГа] в. (а, 1) I Q О J L > J I О ] | X Р В данном случае у(п) = у(п-1) + /<* (п-1) [Ду (л —1) + BL Как и ранее, можно записать нерекуррентное соотноше- ние для обобщенной переменной состояния Y(n) = lHOfy(0)+[(H/<М)Л —У] Д-,В. Подстановка \(п) — А~1В в (6-13) показывает, что вектор-градиент функции Лагранжа обращается в нуль, 157
т. е. что точка У(п) —Л !В есть точка экстремума. Для сходимости итерационной процедуры к точке У (п) = -- Л”1#1 достаточно доказать, что lim [У + КМГ-0. П“СО В случае неособенности матрицы [У + 7<*Л] это экви- валентно доказательству того, что | Det [У -1-КМ] |<1. 6-4. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа неравенств на переменные Указанные ограничения в СР возникают из-за ограни- ченности пределов изменения настраиваемых коэффици- ентов и записываются в следующем виде (а) 0 (ц -- = 1------AJ3). В основном в СР имеют место ограничения частного вида ^макс t), | ймин а1 0. / (6-13а) В частном случае при построении СР па реальных фи- зических элементах возможны следующие случаи: ^макс^О’ ^мин = 0» ^макс ^мин t). а) Условия оптимальности Условия оптимальности в данном случае даются теоре- мой Куна—Такера, которая представляет собой обобщение метода Лагранжа на случай ограничений типа неравенств. В соответствии с теоремой Куна—Такера оптимальный век- тор а, доставляющий минимум выпуклому функционалу, является решением следующей системы уравнений и не- равенств: апа,2) = dy(a)+Q( А = 0; da da q(a) + S = O, Х>0, Xr5 = 0, 5>0. (6-14) Выражение для матрицы Q здесь сохраняется прежним с заменой Mt на М2. В выражении (6-14) Wi- х3, 3 = [бр б2, б^]. 158
Неравенства 3 ^>0 и Х>- 0 означают, что все компо- ненты этих векторов неотрицательны. Кроме того, предпо- лагается, что ограничения таковы, что существует вектор а, для которого соблюдается соотношение (а) <^0. Условия (6-14) имеют следующий физический смысл. Если для оп- тимального вектора аопт несущественно какое-то ограни- чение, т. е. (аопт) 0 для какого-то р, то соответствую- щее Ад равно нулю. Если 0, то в этом случае, как еле- дует из (6-14), 6ц = 7ц (аопт) = 0. Таким образом, множители Лагранжа можно интер- претировать как некоторые оценки влияния ограничений на оптимальное значение вектора настраиваемых коэффи- циентов. Отметим, что если функции Y (а) и (а) (р -- - 1, . . . , Л12) выпуклы, то теорема Куна—Такера дает необходимые и достаточные условия оптимальности. б) Алгоритм поиска экстремума при наличии ограничений типа неравенств Из условий оптимальности (6-14) получаем систему со- отношений для итерационной процедуры поиска экстре- мума при ограничениях типа неравенств Я (Ц + 1) = а (rt) + [Каа (Ц) ' --- + L da аА Ja—а (п) Х=А (л) dY(a, X) da X (п 1) = max а/. + Отсюда окончательно следует: а (л н-1) = а(п) + К'аа (га) + Q (а) х1 I da (л) (л) + Как (n) q (а) I а-=а (n)i X (п + 1) = max (о, X (п) + К’ка(п) + Q (а) х] j L da Ja=a(rt) I Х=Х(л) + Ккк (n) q (а) (п)). 159
В частном случае ограничений типа неравенств, зада- ваемых соотношениями (6-13а), qi(a) -- а — амакс <1 0; , . ^ <\ / \ I а амакс [ q2(a) -аШ|Н — а<0; q (а) = _ , Q(a) = О О . . .01 — 1 1 0 ... 0] о О 0 ... 1 I о о о... о — 1 о ... о О О . . . 1 1 0 О 6-5. Алгоритм случайного поиска локальных и глобального экстремумов функций многих переменных Пожалуй, единственной причиной введения случайно- сти в процедуру поиска экстремума функционала вторич- ной оптимизации СР является многомодальность распреде- лений входного сигнала, которая при заданной структуре разомкнутой СР приводит к многоэкстремальности функ- ции качества СР. Наиболее полное освещение методы слу- чайного поиска нашли в работах Л. А. Растригнна, в ча- стности в его монографии [Л. 281. Нашей задачей является поиск всех локальных мини- мумов многоэкстремального функционала ошибки СР, и, если это необходимо, выбор из них глобального минимума. Именно поэтому применительно к СР был разработан ме- тод случайного поиска локальных и глобального экстрему- мов функций многих переменных. Опишем один цикл ра- боты данного алгоритма: а) случайным образом выбирается значение вектора переменных функции, экстремум которой ищется. Само собой разумеется, что данный вектор располагается в об- ласти одного из локальных экстремумов; б) одним из изложенных выше методов неслучайного поиска находится локальный экстремум, в области которого расположен вектор переменных, выбранный на первом этапе; в) величина экстремума и соответствующее ему значе- ние вектора переменных, найденных на втором этапе, срав- ниваются с содержимым памяти. При отсутствии в памяти указанных характеристик локального экстремума послед- ние запоминаются; г) производится переход к первому этапу (п. «а»). Результаты экспериментального исследования данного алгоритма при многомодальных распределениях входного 160
сигнала и СР типа одномерного н многомерного ЛПЭ при- водятся в гл. 8. Ниже рассматривается задача анализа схо- димости данного алгоритма случайного поиска по числу экстремумов функции. В принципе можно рассмотреть ал- горитм случайного поиска, исключающий из области слу- чайного задания вектора начальных условий те подобласти, которые соответствуют уже найденным локальным экстре- мумам. Это, несомненно, ускорит сходимость алгоритма случайного поиска по числу экстремумов. Произведем анализ сходимости алгоритма случайного поиска локальных и глобального экстремумов функций. Пусть найдено i мод (0 <^.U — 1). Вероятность того, что на следующем шаге мы попадаем в область этих i мод, равна HU при равномерном распределении мод в простран- стве поиска. Распределение случайной величины равной числу шагов случайной процедуры поиска от нахождения i-й моды до нахождения (i 1)-й моды включительно, имеет вид 1; = k с вероятностью Процедура случайного поиска производится независимо па каждом шаге. Введем в рассмотрение новую случайную величину т)у = 21/ О характеризующую число /—о шагов случайной процедуры до нахождения / мод из U. Независимые события . . . , , где 1 k S 4" 1, . . . , 1 k j j S -|- 1 И 4“ -j- . . . -j— 4- kj-i — s-\~j — 1 в объединении дают событие такое, что т]/ = £0 — . . • + £/-i = s + j, причем £0 = 1 с ве- роятностью, равной единице. Вероятность такого события в силу независимости равна: Р&^Ъ) . . . По формуле полной вероятности P(n/=s+/)= 2 = s+j—1 . . . Р (?,-_! = Й/-1) = Ul~^S (U ~ 1)- X ' ' ((/ — у)! 6 Заказ № 975 161
В частности, при j = U k[-, . . . +'<„_!=s ‘ 1 r—1, .... U-1) где P (т]у — s - | U) — вероятность того, что U мод будут найдены за ($ + U) шагов случайной процедуры поиска. Можно показать, что среднее значение и дисперсия числа шагов случайной процедуры поиска, необходимых для нахождения t/^мод, могут быть представлены следующими выражениями: и— 1 Milu ---1 + U « 1 + <7 Цп(У —1) + 0,577]; Г---] U—1 О1117 = V u<u~r) х 2иг^и [ 1п ((7-1) + г2 Г-1 + 0,577 . . .]. Анализ данных выражений показывает достаточную скорость сходимости рассматриваемой процедуры поиска для задач распознавания образов. В принципе, как пока- зано выше, процедура может быть обобщена на случай, когда область найденной моды исключается из области случайного поиска, что еще более ускорит сходимость случайной процедуры поиска. Приведенные’ выше соотно- шения верны и для многомерного случая. 6*6. Построение алгоритмов адаптации в многослойных СР с использованием оценок производных второго порядка функционала вторичной оптимизации В этой главе рассматривается построение алгоритмов адапта- ции в многослойных СР с использованием оценок производных одновременно и первого и второго порядка функционала вторичной оптимизации. Основное внимание уделяется алгоритмам поиска экстремума функционала с учетом вторых производных и выводу выражений для оценок вторых производных функционала через теку- щие сигналы в системе.
а) Построение алгоритмов поиска Рассмотрим задачу поиска экстремума r виде эквивалентной задачи нахождения корня следующей системы уравнений: (л.....1 .................................... (6-17) DN (*1......*Лг) = °' J При рассмотрении системы, заданной неявно ...............................xn) = °' 1 ............................... (6-18) »n-dn(xv ’ xn)=° J и удовлетворяющей второй теореме Юнга, существуют такие М*г М’ ] ........................................... (6-19) XN ’ &n) ~ О'!’ J что при их подстановке в (6-18) получаются тождества. Разложим функции Г1 (у!.......yN), . . Fn (j/j......yN) в ряд Тэй- лора, ограничившись двумя членами Л (0) = /'1(y)-2%W4'i + 1 V v a2fi " ^ + R»’ ^(0) = ^ (6-20) 1 V дгГк T -JT Л a RW- 2! Дифференцированием (6-18) с учетом (6-19) получаем следую- щую систему уравнений: V dD' dXi - 0; V dDk dXi = 1 dxt dylt ' dxi дУк i=i VI dPN dx£ dxi дУк ((>21) 5” 163
~ dFx dtji ~ ЗР, дРх ~ -1 dxx ’ dxN dFN_ dyx dD n ЗРд» X ’ dxN После дифференцирования (6-21) получаем: N NN d2*, ££i_ i V1 X1 d2P, $xi dxi _ q. dykdyi dxi ‘ dxidxj dyi дуь i=i i=i j-} X1 d'xi dDM X1 X1 d2°N dX‘ — — 0 дУк$У1 dxi ' dxjdxi dyi dyk t=i t=i /=1 Умножая обе части уравнений на уь yi и суммируя но k и I, получаем: N N N V d-L V V d2xi дЧ jZj dykdyt yiyt ~ ^=1 k=\ /=1 УкУ1 = dxidXj Иначе эту систему уравнений можно переписать: дРх дРх 3X1 dxN dDN д°К dxt дх^ 164
С учетом того, что вектор Из (6-20) следует: а = х-Ц7-1О + -^-117“'С. Отсюда следует общее выражение для алгоритма поиска экс- тремума функции многих переменных при наличии матрицы произ- водных второго порядка X (п 4- 1) =х(п) — Г”1 [х (n)] D [х (n)] + ~ W-1 [х (л)1 С [x(n)J. (6-22) б) Одномерный случай В этом случае D(x) = 0; F (у) — D~1 (х); x=F(D(x)], (х£ [а, 6]); у = D [F (у)]. Если а — корень уравнения, то а = F (б). Разложим F (у) в ряд F(0)-F(!/)= V (-1)й / + «г. ЛЯЯв Я! 165
или, иначе, k\ k=\ Из исходных’уравнений дифференцированием получаем: F' [D (x)JD' (х)=1; F” [D (х)] D'3 (х) + F' (D (х)] D" (х) = 0; Р[О (х)] О" (х) + ZF" [D (х)] D' (х) D” (х) Д- F' [D (х)] D'" (х) = 0. В случае г ~ 2 получаем окончательно х (n + 1) = * 0) - (Jf") о- (х„), (6-23) РУ (Х«) 2D" (х„) • где D"’ (хп) К* (п). Глава седьмая ПОСТРОЕНИЕ ЗАМКНУТЫХ СР 7-1. Постановка задачи Как указывалось в гл. 5, выбор функционала вторичной оптимизации производится на основании заданных в общем виде характеристик входного сигнала, критерия первичной оптимизации н структуры разомкнутой СР. В процессе выбора функционала в системе распознавания были сфор- мированы сигналы, моменты распределения которых со- ответствуют или равны некоторым функционалам первичной оптимизации. Замкнутая СР представляет собой разомкнутую СР с включенным блоком настройки. Построение замкнутых СР производится на основании выбранного критерия вто- ричной оптимизации и метода поиска экстремума данного функционала. В качестве функционалов вторичной опти- мизации были рассмотрены функционалы, связанные с мо- ментами аналоговой и дискретной ошибок СР. В процессе построения замкнутых систем производится синтез блока вычисления параметров функционала качества СР, необ- ходимых для организации процесса итерационного поиска. При этом основная задача заключается в том, чтобы оце- нить вектор градиентов функционала вторичной оптимиза- ции. Решить эту задачу можно двумя путями: поисковым, когда для организации итерационного процесса движения 166
к экстремуму функционала качества значения или знаки производных определяются в результате воздействия на систему и обработки результатов воздействия поисковых колебаний; нахождением оценки вектора градиентов в виде аналитического выражения через промежуточные и выход- ные сигналы СР. В первом случае имеют дело с поисковой СР, во втором— с аналитической. Естественно, предпочтительнее построе- ние СР в виде аналитических систем, настраивающихся по замкнутому циклу, так как введение поисковых коле- баний вносит дополнительные шумы в систему. Однако построение СР в виде аналитической системы не всегда воз- можно. Если в системе нельзя выделить сигнал, характе- ризующий градиент функционала оптимизации, то необхо- димо использование поисковых колебаний. Ниже рассматриваются системы распознавания раз- личных типов: ЛПЭ с двумя решениями на два класса обра- зов, ЛПЭ с Кр решениями на /С классов образов, ЛПЭ с кон- тинуумом решений и континуумом классов образов, много- слойные СР из ЛПЭ с континуумом решений при наличии и отсутствии ограничения иа настраиваемые коэффициенты, многослойные СР с А/*-мерными сигналами е (к) и xk (п), многослойные СР с перекрестными и обратными связями. Методика построения методологически просто обоб- щается на случай нестационарных образов, когда функ- ционал вторичной оптимизации зависит от времени, а реа- лизация вектора градиентов есть реализация нестационар- ного многомерного случайного процесса. Это свойство гра- диента определяет методику построения многомерного фильтра в блоке настройки СР. Отдельного внимания требует вопрос построения много- слойных СР в режимах самообучения и произвольной ква- лификации учителя. Методология построения замкнутых СР здесь та же, что и в режиме обучения. Построение алгоритма настройки СР по замкнутому циклу производится подстановкой выражения для оценки вектора градиента функционала в соответствующую фор- мулу для поисковой процедуры. 7-2. ЛПЭ с двумя и континуумом решений Для ЛПЭ с двумя решениями ниже рассматриваются четыре функционала вторичной оптимизации | а1а | , сс2а, I ’ a2g- Выражение для модуля оценки первого момента 167
аналоговой ошибки имеет следующий вид: I N I -------------т„ Ж-1 ----тп |ха(л) 1= е(л) —г(х0=—1). Отсюда д ।Хд —I = —sign lxa (n) Xi (л) n, I = 0, . . . , N. да{ Рекуррентное выражение, являющееся основой по- строения ЛПЭ, настраивающегося по замкнутому циклу, имеет следующий вид: I ---ти] --тп a(n-f-1) = а(п)—К*sign (п) |х(л) . (7-1) Выбор параметров матрицы К* является в конечном итоге задачей анализа и синтеза замкнутых СР. Однако уже на данном этапе можно наложить на ее вид определен- ные ограничения. Эти ограничения могут определяться, исходя из задания конкретного вида градиентной итера- ционной процедуры (Ньютона, Гаусса—Зейделя, Саус- велла и пр.). В [Л. 40, 41] эти ограничения определяются для метода стохастической аппроксимации. Можно потре- бовать сходимости итерационной процедуры к экстремуму |а1в | на каждом шаге, т. е. соблюдения следующего усло- вия (в одномерном случае): ----тп ----тп е(п) —х(п) ^(п-ИНаоСл + О^О. В данном случае одними из возможных значений элемен- тов матрицы К* будут: Kii = — |хй(л) л|, K*2i=‘К\2 = = К22 = 0. Выбор величины тп в выражении ха(п) п = ^~ 2 также является задачей анализа и синтеза замкнутых СР. Здесь необходимо отметить следующее. Уменьшение тп, с одной стороны, приводит к повышению уровня шумов измерения градиента функционала вторичной оптимизации с другой стороны, уменьшает запаздывание в контуре на- 168
стройки по замкнутому циклу, В случае минимизации второго момента аналоговой ошибки Х2а (л) " - 1 + I 2 а1х1 («) I — 26 аЛ (") [ i=0 J i-0 Отсюда (П) ---------,ПП _2ха(п)-х1(п) , г = О, . . . , N', да( а(л+1) —а(л)— 2К* ха (л)х(л) п. При минимизации модуля первого момента дискретной ошибки СР ---------->пп 1мл) ”1= e(n) " — sign ад-(Л) j ; I-----тп I ----------- д \xR (п) . ;—\тп д . , ” 1 *1 sign [хел] ---sign g (я) . dai s dai Для поиска экстремума можно использовать информа- цию о знаке первой производной, о величине первой произ- водной, о величине первой производной и знаке второй, о величинах первой и второй производной и т. д. В данном случае величину первой производной опреде- лить нельзя и необходимо использовать информацию о ее знаке; так как л N о д У — sign V ед(л) — lim---------arctg В у aLxt (л) = да^ /То в-»оо л dai „ lim A^l<5L, В-со Я 1 + В‘1(?П \ д , v | . Г 2 , , В I sign — signg(n) = sign --*, « llm , . = da£- д 1 B*g- (n) — sign Xi (rc). Отсюда = sign [x„ («)] sign х£ (/г), i --0, Л'. (7-2) dai = 169
Здесь и в дальнейшем при рассмотрении функционалов, связанных со вторым моментом распределения дискретной ошибки, эта величина также условно называется оценкой вектора градиента, хотя в принципе представляет собой псевдоградиент, полученный заменой производной дх^дщ на знак производной. В данном случае нет возможности построения алгоритма настройки по замкнутому циклу с удовлетворением крите- рия минимума |alg| при произвольном значении памяти тп фильтра оценки градиента. Чтобы показать это, пред- ставим измеренные значения градиента функционала вто- ричной оптимизации в виде некоторого случайного про- цесса. В общем случае (включающем и критерий минимума a2g) измеренное в текущий момент времени значение гра- диента может быть условно представлено в виде произве- дения двух сомножителей, а именно (/г) х2 (л). Величину одного из сомножителей, например д [sign g (н) }!даь нельзя вычислить непосредственно через сигналы в СР. Можно определить таким образом только знак этого сомножителя. Замена в выражении для градиента при произвольном зна- чении тп при этом приводит к невозможности определения знака оценки градиента, так как в общем случае ----—-----тп Г----------------ml sign Х1_ (n) х2 (n) =£ sign I х1(п) sign x2(n) j. Отсюда следует, что построение аналитических алго- ритмов настройки СР с двумя решениями по замкнутому циклу при рассмотрении функционалов вторичной оптими- зации, связанных с дискретной ошибкой, возможно только при тп — 1. При тп^>] и прочих равных условиях необ- ходимо построение поисковой процедуры настройки. Не- обходимо отметить, что в любом случае поисковая проце- дура настройки должна быть введена для оценки одного из множителей в выражении для реализации градиента вторичной оптимизации, а именно dxk!da. Выражение (7-2) служит основой для построения соот- ветствующей замкиутой СР. Для СР с минимизацией a2g д *2 (я) --------------тп --я-----= — 2*8 (") sign xt (n) . дас Достаточно очевидной является идентичность алгорит- мов настройки по критериям минимума |alr| и a2g в слу- чае тп — 1. 170
В случае ЛПЭ с континуумом решений (гл. 4) Ч (п) = F [g (л)] F a-iXi (п) Г к хе (п) - е (n) F 2 ал (П) В случае минимизации' |alg | и a2g соответственно d|xg(n) п| . Г dF (е) , . п V-----1 = S1£n (rt) —— (n) ; A dg дщ s dg Рекуррентные алгоритмы, являющиеся основой для по- строения замкнутой СР, в рассматриваемых случаях будут иметь вид: a(n+l) = a(n) + K*signC,(a)'"“] d-^-x (п) ; а(л + 1) = а(п) + 2К:х„(п) df te> x (л) . ig В частном случае при F (g) = ~ arctg Bg a(n+ 1) — а (л)K* sign |/г('г) " j j '• а(н+ l) = a(n) + /C( Г———mn X (fl) Xg (n) L 1 + (n) 7-3. Двухслойные CP Рассмотрим построение СР, настраивающихся по замк- нутому циклу и представляющих собой двухслойную сеть из ЛПЭ с полными связями. В данном случае (гл. 4) («) = F |g (л)] = F J 2 а1хИ <«) j = = F aflgi ('i)l j = F | 2 2 «/Л (») j | • 171
Функционал вторичной оптимизации д () dOj 1 |, ] ха (П> ] mn mn — sign [x0 («)] xfe/(n) а2а- х2а (п) — 2xa (n) xkl- (n) тп 1 »lg 1. 1 xs (n) 1 m" 1Л m" — sign[xg(n)] —-!—xs/(n) <ig rnn . | a2g | , 4 (n) mn —2 xs (n) dF xkj (n) dg
Таблица 7-1 ^aij ------------------ -------тп dF (g.) — sign [ха (n)J а,- ---s— xi (л) dgj ------------------------тп dF (g,) — 2ajXa (n)------i- X{ (л) dgj -------------------mn mn dF (Я) dF (g.) — sign [X£ (n)J a;- —------—(n> dg dg. --------------------------------- n , . dF (g) dF (g.) — 2djXe (n)------—------------— Xi (n) dg dgj
Функционал вторичной оптимизации д(-) да тп 1 СС1а |, ka(n)| тп тп —sign [х„ (n)] xkj (п) “ш. Х^(П) —2ха(п) xkj(n) |aIg|, | хе(п) | —sign lXg(n)]xti(n) a-2g. x2t (п) —2xg (n) xki (n)
Таблица 7-2 ALL Sali ---------------m„ —aj sign [ха (п)] sign xl (n) ------------mn —2а/ xa (n) sign xi (n) —sign pig (n)] sign aj sign xt (n) —2 sign (n) sign xi(n)
Функционал вторичной оптимизации ) daf тп 1 alfl |, | ха(л) 1 — тп тп —sign [х„ (л)] xki (п) т« ^2а' тп —2ха (л) xki (л) тп 1 aig 1’ ! xg (я-) 1 т тп f , ,, л 2 Вхь,- (л) —sign (хг («)] П [1-BW)] 4^ -2Mn)A[ П [ 1 + B2g2(„) ]
Таблица 7-3 d() _____т ---тп . , ' * 2 Г Bxi(n) 1 —sign хс (гг) а,- — ----------- ' * 1 1 - J sign lxg (n)] -^/X ________B2Xj (n)___ [i bY w] [i-B2g>)l mn 8_a Г_________B2Xj (n) xg (n)_______ 1 [ [1 H- B2^ (n)] [1 + B2g? (n)]
Здесь хо (n) = s (л) — g (л); хе(л) = е (л)—хк (п). Основной задачей в данном случае является вывод вы- ражений для оценок градиента функционала вторичной оптимизации через выходные и промежуточные сигналы СР. В табл. 7-1 приведены указанные выражения соответст- венно для настраиваемых коэффициентов ЛПЭ первого и второго слоя. В табл. 7-2 н 7-3 приведены выражения для градиен- тов функционалов вторичной оптимизации для случаев f(g) = sign(g) и F (g) -arctg Bg. Несколько слов о методах обучения двухслойной СР со слоем нелинейно-случайных связей. Структура подоб- ной СР, которая Розенблаттом была названа трехслойным персептроном (первый слой — элементы ретины), описана в гл. 4. Это своеобразная структура, в которой за счет резкого уменьшения числа входов ЛПЭ первого слоя и за счет введения случайности связей этих ЛПЭ с входным пространством СР возникает необходимость в увеличении числа ЛПЭ первого слоя. В данном случае [Hi г w, 2 a.F 2 а, х,- (п) 1—0 ру=о ' ' Случайные связи являются неизменными на этапе на- стройки. Настраиваться должны лишь коэффициенты свя- зей. Алгоритм настройки коэффициентов ЛПЭ первого слоя получается в следующем виде (например, для критерия минимума a2g): ----тп да. dg dg, i 7-4. Многослойные СР из ЛПЭ с континуумом решений В данном случае рассматриваемая многослойная СР имеет по //,- ЛПЭ в каждом /-м (/ — 1, . . . , 1F) слое. Выражение для выходного сигнала подобной СР имеет вид 175

Таблица 7-5 IM т тп и№—\ Г/-1 HW-i\ “I -sign [хо (/>)] У Л sign II V n„ а хМ (n) hW—1=1 i)—2 n-W—ТМ1 1 1 w~l а2а mn Hw— 1 ( /—I HW—T) “1 At. '^Xa <n) sien [Аaft— мЛ-Л i М1 Г i-1 Hw-n 1 —sign [x (n)] sign n i ah h (n) s L’i=1 Mn”1 nv-l J ®2« 1 to >: № S' V> ra' 3 1 1 1 ПТ i 1 Mf i & 3- 1 rs 1 ^3 f' s
4-8). Предварительно найдем значения частных производ- ных xk («) и g(n) по коэффициентам (7-4) В табл. 7-4 и 7-5 приведены выражения для оценок гра- диентов функционалов вторичной оптимизации соответст- венно для произвольной F и F = sign (g). В этом случае F (g) = sign (g), sign хУ-^l (n) = x^-f (n) W—j W—j для всех /-/= W, что значительно упрощает запись выра- жений для градиентов. 7-5. Построение СР, настраивающихся по замкнутому циклу при ограничениях на переменные В книге рассматриваются ограничения на настраивае- мые коэффициенты многослойных СР типа равенств и не- равенств, представленные в гл. 6. Для многослойных СР характерны в свою очередь ограничения на совокупность коэффициентов всех СР, ограничения на совокупности ко- эффициентов каждого слоя в отдельности, ограничения на совокупности каждого ЛПЭ СР в отдельности. 178
Соответственно данным типам ограничений для двух- слойной СР имеем: У ( а, V а^- = а; (7-5а) >0 \ 1=0 / И; N II, у У аи = а/, 2 ai = а2‘> (7-56) /=01=0 /=О N И, 2 а<7—а, = 0; У а;—а —0, / = 0, . .Нх. (7-5в) z=o /То Ограничения типа неравенств на настраиваемые коэффи- циенты многослойных СР в основном имеют вид, представ- ленный в § 6-4,6. СР в виде ЛПЭ. В случае критерия минимума | «щ | при наличии ограничения типа равенств (7-5а) система соотно- шений (7-1) преобразуется следующим образом: I a(n I-1)1 = Г“(п) j "п п —sign [x„(n)] x(n)4-U(n) N V cii (п)— а 1=0 Для критерия минимума | alg | рекуррентное соотноше- ние, являющееся основой для построения замкнутой СР, в случае ограничений типа неравенств (см. гл. 6) на настраи- ваемые коэффициенты будет иметь следующий вид: а (и 4 1) — а (н) 4- КаМ —sign (гс)] sign х (и) 4- \ Чг+1 Z“2(.V + 1) м«) Iа(п) атс La„„—а(п) ?. (п + 1) max 0, X (я) + —sign \хе (я)] sign х(«) + ^макс —а (и) 179
Двухслойная СР. Рассмотрим случай ограничений на коэффициенты ЛПЭ многослойной СР. Ниже представлены рекуррентные соотношения, являющиеся основой для по- строения замкнутых СР в данном случае. Ограничения типа равенств («а» — второй слой, «б» — первый слой): -------------тп ^1 М«) + I IV (я) |+ /CVr(«) М") —“ а) а'(я+1) = а'(я) + №'„' (я) ха(я) V (п + 1) = V (я) + а’ (я) I xs(n) I xt (n) + I 8 le=s<n> -|-12.'(n)j | KI'V (n) б) а,-(я + 1) = а,(n) + /С.0.(я) X --------------------------------------------------тп X Г -2а, (я) xs (я) I 1 X (я) + ig k=8<«> dgi >11=^) N 2 «//(я)—« +\(я)1 +^.1.(я) +1\- (я); \ (Я + 1) = \ (я) x Kia, (n) I —2a,' (я) X (я) X (я) + " [ dg 1г-№> I N -I- KbJrt) 2 ац(п)—а L i=o Ограничения типа неравенств («а» — второй слой, «б»— первый слой): + (n) 1 a) a' (n + 1) = а' (я) -J- К’а-а- (я) Гхе (п) d-^~ I 'xt (п) + | dg ls-еш + (я) | X Как(п) q la' (я)]; 180
X (n + 1) = max (о, X (n) - Км (n) Гх (n) 4^ I xt(n) + + QX (n)j + «i(n)q|a' (л)]|. Здесь Q и q определяются так же, как в гл. 6: б) а,, (п 4- 1) = а;- (/г) 4- 7Ца. (гг) X Х|-2аЛ,г)хг(ЭД| ЭД х(п) + Ig--g(n) d^7 + Q\-(n) I [a/(«)B хЭДт^ЭД ЭД- XW+ I lg=fi(n) dgf Ig—gjin) + QX; (;i) ] + Ki(n) g [a;- (n)]|. Представленные алгоритмы достаточно просто могут быть обобщены на произвольное число слоев и для случаев ограничений произвольного частного вида. 7-6. Реализация критериев первичной оптимизации в ЛПЭ с двумя решениями Рассмотрим критерий минимума средней функции риска. Выражение для преобразованной дискретной ошибки мо- жет быть представлено <, = (8 - Х4) [-2Я + С) (в - 1) + (2В 4- С) (« + 1 )1 4 -1 1-4(8/е- 181
Необходимая для построения замкнутой СР величина градиента в данном случае .2 > дх„ , дха дй( * dai или, иначе, 4" = f(e-xt) [(—2Д + С) (8-1) + (2В + С) (е + 1)| 4 + dai I. 4 -1- y (е + xt) 2 sign X; । -у ,е-^-((—2Л-|-/)(8—1)Ч- | (2В K)(e+l)]J. (7-6) Величины А, В, С здесь определяются выражениями (5-13) и (5-14). В случае (5-Н) 4- = —2x,,signxJ4Kii2--iii)(6—') 1(^1—^2)М 1)][ dai I 8 J (7-6а) При использовании выражения (5-14а) для формиро- вания преобразованной дискретной ошибки имеем: Xfi= (E + A'J [Zn (S“ 0 + Z22 (s + 1)] “ + + (е — [213 (е— 1) -|-Z2i (е-г 1)]. (7-7) После соответствующих преобразований получаем: .2 dx । -4 = 4 sign Х‘ ((1 ~е) хг + х>. (А -22„] + + (1 + е) [ (Zg, - zy хе + MZ22- Z21) 2Z22] 1 ’ И'8) что совпадает с полученным выше результатом при исполь- зовании ЛВС-преобразования при Zn -= Z22 0. Оценку градиента второго момента распределения преобразованной дискретной ошибки можно получить, используя иное, не- жели (7-7), выражение для xg: 4xg = (1 [(1 -|-е) Z22-| (1 е) Z2j] -[ + (1~xJ[(1+e)Z|24-(1-e)Z11|. 182
В приведенных выше выражениях Zk k — У lk k для —i" обеспечения равенства R = x . Критерий минимума R при условии р^ — pzrz опре- деляется следующим образом. Оценка градиента R* (5-17) но настраиваемым коэффициентам выражается в виде (7-6), где коэффициенты А, В, С определяются выражением (5-18). Оценка градиента R* по 1 определяется в виде оценки пер- вого момента распределения преобразованной дискретной ошибки, записываемой в соответствии с (5-19) и (5-20) = (е-Ч) [(-2 А, + С,) (е - 1) + (2В1 + QXs + 1)] ~ + оЛ 4 -j-— (ев. (7-8а) Выражения (7-6), (5-18), (5-20) и (7-8а) служат в дан- ном случае основой для построения соответствующей замк- нутой СР. При использовании для формирования преобразован- ной дискретной ошибки СР преобразования Z, описанного выше, выражение для оценки градиента R* по опреде- ляется (7-8) и (5-21), а выражение для оценки градиента R* по К: |^ = (е+^)Рн(е-1)+Л(Ё+1).!-7-Ь + [Z22 (s-1) + 221 (е н-1)] • (7-9) где Zk k определяется (5-22). Определим критерий минимума R при условии — == const. В данном случае оценка градиента /?* (5-24) по настраиваемым коэффициентам выражается в виде (7-6), где коэффициенты А, В, С определяются выражением (5-25). Оценка градиента R* по X определяется в виде оценки пер- вого момента распределения преобразованной дискретной ошибки, записываемой в виде (7-8а) с коэффициентами Bt, Clf определяемыми (5-26). При использовании преобра- зования Z± выражения для оценок градиентов /?* по и X определяются соответственно (7-8), (5-27) и (7-9), (5-28). 183
7-7. Реализация критерия минимума средней функции риска в ЛПЭ с континуумом и А' решениями Для ЛПЭ с континуумом решений (два класса образов) в соответствии с (5-30) имеем: Ч = 4“ (1 + Е) Z12 (А) + У (1 -е) z> W = = ^ (1 + е) РЧ te) + Y (1 - f-) VA (**) I (7-9a) Здесь ' N xk=-e—xe = F(g)-~F I 2 ал \i—0 / После некоторых преобразований получаем необходи- мое выражение для оценки градиента средней функции риска через текущие сигналы в СР в следующем виде: ,2 —...—..-.... ............... . т = -'~d^-xi [(1 +е) +(1—е) .’(7-10) dai 2 dg | dxk dxk j В частном случае hM^(\—xk)2-, xe=4" *1+e) Xe+т(1 - s) x‘=x“ Отсюда • 2 -------m 2 dF№ dg 1 g что соответствует ЛПЭ с минимизацией a2g, рассмотрен- ному в § 7-2. Из (7-10) следует известное выражение для оценки градиента R в случае двух классов образов и ЛПЭ с двумя решениями в виде (7-6а). В случае континуума классов образов (гл. 5) vzi W = /z [(б-^)Е|; ~т" дхё = SI (хк, 8) dF(g) х ао; дхк dg ‘ (7-П) 184
Отсюда как частный случай следует соответствующее выражение (7-10) для двух классов образов. В (7-11) функ- 01(xk, е) , ция ——-----должна быть задана априори. OXfc Для ЛПЭ с К решениями (/< классов образов) выходной сигнал (гл. 4) описывается следующим выражением: ** = Fnte) = 1 +-7^ [sign ,,) + 1 j; N g^^'a^. i=0 Здесь, как и ранее, ,2 0xg О,, . dxk —— l(xk, — , 0й( дхь ' dai (7-12) где I (xkt e) — (К X /Q-матрица, элементы которой пред- ставляют собой первую разность соответствующей дискрет- ной функции I (xk, в). В частности, эта матрица может иметь следующий вид: "011 ...1 “ (7-13) —1 —1 —1 ... 0 В формуле (7-12) — = —У — sign t 1 = аа( 2 dat I® ‘p-1 K-l = —У lim -2 ----------------------- 2 Л , + в’Г%‘рп) Отсюда следует, что Ох,. sign _* = sign xt Oai и окончательно дХд 01 (Хк, R) . _g = sign xL. Oai dxk 185
7-8. Реализация критерия минимума средней функции риска в СР с М* выходными каналами (слой ЛПЭ) Ниже рассмотрено построение замкнутых СР с N* вы- ходными каналами. Построение оптимальных моделей та- ких СР и выбор для них функционалов вторичной оптими- зации рассмотрены в гл. 2 и 5. Здесь рассматривается слу- чай одинаковой размерности сигналов в и хй, хотя в прин- ципе эти сигналы могут иметь различную размерность. При вычислении преобразований дискретной ошибки, когда выходной сигнал имеет по каждому каналу Ко гра- даций, измеренный вектор дискретной ошибки, имеющий вид: (е,, .... ....= .... kN.)- — (й|р......4р) = (^Ij’ • • •' умножается на скаляр (5-33) и далее гычнеляется норма результирующего вектора. Отсюда х = V х'3 4-. . . 4- х'*-= I/ I {k., . . k..t, k. , . . , g » 1g 1 1 r v 1 N Ip A Pj если (81...M = (A1..........И (*м......*«.&) = (V W' Рассмотрение общего случая /\’о градаций выходного сигнала СР по каждому каналу, имеющего вид: =1+ф 2 lsign te-0 +1 ] g[t = 2а,-£Л-’ 1, • • • , N*> i=l нс является принципиальным. Поэтому остановимся на случае Ко = 2: x^k ^signgz*. Можно показать, что дх? д = 1 ’ 8л,‘’ х'^ • ' ’ х (7-14) 186
Здесь I (е,, . . . , e.N„ xlK. . . , xN.t) — (2W* x 2Л”) мат- рица. Градиент вычисляется как соответствующая пер- вая разность по x^k дискретной функции. В частности, эта матрица может иметь вид, аналогичный (7-13). Вели- чина dx^lda^ определяется только своим знаком следую- щим образом: dxi*k sign-----= sign х^ да^ Пусть система распознавания имеет континуум решений по каждому из N* каналов. Предполагается, что функции F идентичны для каждого выходного канала. Преобразо- ванная дискретная ошибка, первый начальный момент рас- пределения которой равен средней функции риска R, по- лучается как сумма квадратов компонент вектора измерен- ной дискретной ошибки, преобразованной в соответствии с (5-34): < = Л [8(.-Р(. (x)]2j = Z [Р (х), 8]. В данном случае и окончательно dF ^1*) / X Это выражение служит основой для построения соот- ветствующей СР, настраивающейся по замкнутому циклу. 7-9. Реализация критерия минимума средней функции риска в многослойных СР Ниже для трех типов многослойных СР представлены алгоритмы настройки по замкнутому циклу, реализующие критерий минимума средней функции риска. Обобщение результатов на другие критерии, рассмотренные выше для ЛПЭ, не представляет принципиальных трудностей. 187
Для СР двух классов образов, имеющей один выходной канал (N* = 1), при произвольной структуре разомкнутой системы справедливо соотношение (7-9а). Оценка градиента средней функции риска имеет в общем случае следующий вид: dxl 0“,.........k — 2х'— & да Здесь dx't (n) да. _ _L (1 _i_ е) Г 1 1 MML 2 I. 2 КZ2(x4) dxk dF (g) dg —ММ 2 YktXk) <Ut dF (g)______________dg (n) dxk dg da где ММ д . . . но определяется соотношением (7-4). Окончатель- --Tm/ К x Г(1 + s) d‘!{Xk) +(1—e) MIMI L dxk dxk J В частности, в случае многослойной СР с полными свя- зями между слоями имеем: = — ]7l + е)^ЬА>+(1_е)ММ)] 2 I dxk dxk J 18&
у V x dg hw—i=l hw—/+3=1 ......'J? XJL nQa“v-„' ^-„-r MZ-v g—g (n) Для многослойных СР из ЛПЭ с двумя решениями: —Хтп д*1 да. h nw—j- i’ w-j = ^Г(1+е)^'^ + (1_е) x 2 L dxk dxk J w—i X 'n signa,. ft. (7-15) ri=-o 1 ‘ Рассмотрение многослойных СР с континуумом классов образов и решений не представляет принципиальной труд- ности. Поэтому рассмотрим СР с К. градациями по уровню сигналов в (п) и xk (п), т. е. число классов образов и число решений СР равны /(. Разомкнутая СР при N* = 1 описы- вается следующим выражением: *4=1 + T 2 ПП('С“а< z Ь _| I ' w где определяется выражением (4-7) в случае сети из ЛПЭ с континуумом решений. Выражение для градиента функционала оптимизации ------дЛ------= _2_ I (е, Хк)------а-Ъ------. . ,,h...... dxt da......к..... Матрица —Z(e, xk) здесь определяется так же, как dxk в § 7-7. Далее, так как -------------------------= signx«?-' h... . 189
то выражение для оценки градиента средней функции риска для сети из ЛПЭ с двумя решениями будет иметь следующий вид: ---------------= —— I (е, xk) sign х да. h---------dxk hw-i+\' w-i #Г—tj П V (7-16) Это выражение служит основой для построения соот- ветствующей замкнутой СР. Рассмотрим СР с N* выходными каналами и двумя гра- дациями выходного сигнала по амплитуде в каждом из ка- налов. Здесь = sign sign = .... tf*. Отсюда следует, что при наличии (2Л* X 2ЛГ*) -матрицы алгоритм настройки подобной многослойной сети аналоги- чен изложенному в § 7-7 для ЛПЭ последнего слоя и в § 7-8 для ЛПЭ слоев кроме последнего. 7-10. Построение замкнутых СР нестационарных образов Ниже отмечаются основные принципиальные моменты, возникающие при построении настраивающихся по замк- нутому циклу СР нестационарных образов. Основная осо- бенность по сравнению со случаем стационарных образов здесь возникает при построении алгоритма настройки ко- эффициентов СР. Рассмотрим одномерный вариант СР с минимизацией а2с по замкнутому циклу. В данном случае (пАТ’)”” = е2 (пАТ-)'”" + х^ДгГ" а^пАТ')'”'1 - - 2е (пДГ) х (пАТ’)'”” + 2а„(пД7’)е(пД7’)”"— — 2а0(пД7')х(пД7’)"'". 190
Усреднение здесь должно производиться по множеству реализаций нестационарного случайного процесса в момент- времени п&Т. Однако на практике при настройке СР имеется лишь одна реализация нестационарного случай- ного процесса. При этом значение х* (п&Т) вместо усред- нения по множеству получается усреднением по времени на интервале памяти тп с дополнительным заданием свой- ства приводимости процесса к стационарному и априорной информации о характере изменения параметров распреде- ления нестационарного случайного сигнала, т. е. на интер- вале памяти. При этом наиболее удобным для реализации и достаточным для практических целей является представ- ление нестационарного случайного процесса в СР на ин- тервале памяти в виде аддитивной суммы стационарного сигнала и детерминированного сигнала с известным в об- щем функциональном виде характером изменения. Для того чтобы оценка градиента функционала вторичной оп- тимизации выражалась в алгебраической форме, необходимо предположить, что за интервал усреднения тп параметры СР (настраиваемый коэффициент а0) не изменяют своего значения. В данном случае (ЛДГ) --------тп = 2ха(пДТ) . Алгоритм обучения в нестационарном случае опреде- ляется следующим соотношением: +т)Лг]=лг]+к*х‘(пАТ)”’"' Для построения замкнутой СР необходима информация о характере изменения (на интервале памити блока на- стройки СР) параметров распределения сигнала ха (п&Т). Эта информация в рассматриваемом случае может быть однозначно получена по информации о характере измене- ния иа интервале памяти блока настройки СР параметров распределения входного сигнала и структуре СР. Если предположить, что совокупности образов распределены по нормальному закону с переменными во времени математи- ческими ожиданиями, то при статистической независимо- сти детерминированной и случайной составляющих на ин- тервале памяти СР для случайного сигнала ха (п&Т) спра- ведлива та же гипотеза изменения математического ожида- ния, что и для сигнала х (лДГ). Следовательно, в СР не- 191
стационарных образов данного типа фильтр в блоке на- стройки, предназначенный для оценки градиента функцио- нала вторичной оптимизации, должен быть предназначен для оптимальной фильтрации нестационарного сигнала с гипотезой изменения первого момента распределения, эквивалентной соответствующей гипотезе для совокупно- стей нестационарных образов. Синтез подобных фильтров рассмотрен в [Л. 49]. При необходимости упреждения ре- шения данный фильтр должен быть синтезирован как уп- реждающий. Исходя из физических соображений, необхо- димо отметить, что гипотезы о характере изменения на ин- тервале памяти СР первых моментов распределений яв- ляются одинаковыми для совокупностей образов первого и второго классов. В случае различных гипотез для синтеза ------------------------тп фильтра оценки ха(п&Т) необходимо выбирать гипо- тезу высшего порядка. В случае нестационарных образов, как показывает ана- лиз соответствующих выражений, оценка градиента функ- ционала вторичной оптимизации есть задача фильтрации нестационарных случайных сигналов. Выше, задаваясь некоторой априорной информацией о характере нестацио- нарное™ образов па входе, определялись характеристики цестацнопарпости реализаций градиента функционала вто- ричной оптимизации. Для многомерных и многослойных СР и функционалов вторичной оптимизации, связанных с дискретной ошибкой, этот путь построения замкнутых СР является сложным. В этом случае мы отступаем от ос- новного принципа построения СР, настраивающихся по замкнутому циклу, а именно вносим в процедуру синтеза априорную информацию о входном сигнале СР. Поэтому методологически будет правильнее задаваться некоторой априорной информацией о нестационарном характере из- менения градиента на интервале памяти СР, а именно та- кой информацией, которая значительно облегчила бы син- тез фильтра оценки вектора градиента. По этой априорной информации о структуре разомкнутой СР можно на нестро- гом, даже семантическом, уровне показать класс нестацио- нарных характеристик совокупностей образов, для кото- рого априорная информация о характере изменения во вре- мени параметров распределения градиента является до- статочной. Этот подход, с одной стороны, облегчит проце- дуру синтеза фильтра в блоке настройки, с другой стороны, создаст возможность построения алгоритмов настройки по 192
замкнутому циклу с поправкой коэффициентов не через тп тактов поступления входных образов, как было выше принято, а в каждый момент времени п. Результаты синтеза многомерных фильтров, представ- ленные в [Л. 48], применимы как при построении СР, на- страивающихся по разомкнутому циклу (при оценке век- торов математических ожиданий нестационарных совокуп- ностей образов), так и при построении СР, настраивающихся по замкнутому циклу (при оценке векторов градиентов функционалов вторичной оптимизации СР нестационарных образов). 7-11. Построение СР с перекрестными и обратными связями, настраивающихся по замкнутому циклу Ниже рассматривается в качестве функционала вторич- ной оптимизации только второй момент распределения ди- скретной ошибки. В случае системы распознавания с перекрестными свя- зями разомкнутая СР, в частности двухслойная, описы- вается следующим выражением (см. гл. 4): Г Я, Г N 1 N хк = р 2 af 2 Щi*i I + 2 a, Xi Здесь, как и ранее, В данном случае дхк dF(g) .. . дхк dF(g) „ dF (g,). дхк — , — Ut да/ dg daij dg dgj дц (7-17) dF (g) x . dg Эти выражения являются основой для построения со- ответствующей замкнутой СР. Разомкнутая СР в виде ЛПЭ с обратной связью описы- вается следующим выражением (гл. 4): xM = F [(2«Л(п) + “Л («—!)] • (7-18) Рассмотрим вариант с тп = 1. При тп = const важно лишь удовлетворить условие независимости xk (п—1) от af. Из (7-18) следует: да[ dg dak dg 7 Заказ № 975 193
Отсюда с учетом (7-17) следует рекуррентное соотноше- ние, являющееся основой для построения соответствующей замкнутой СР: ---------------------------тп Га(«+1)-|_ Га(«)1 Г х(«) 1 Рассмотрим двухслойную СР с обратными связями. Опи- сание разомкнутой СР (гл. 4) следующее: и, (n) = F [g-(rt)]; g(n) = 0; /=1 N xki(n) = F [&(«)]; §,(«)= 2<11,л-(л) + ол1((л-1)-к i=0 + <А/ («—') Используя преобразование (7-17), получаем: dxk(ri) _df (g) dxk(n) (g) , pdxk(n) da, dg k‘ ’ dak dg k дац =sdL!sLaid-^Xl(n)- dg ' dg,- dX/!(n) dF (g) a dF (gf) ^ , p. dxt (a) дац dg ' dg; ‘ ’ ga'tj = dffe) df(g± dg ' dg; kl Эти выражения являются основой для построения со- ответствующей замкнутой СР. Не представляет принци- пиальных затруднений обобщение данных результатов на СР с наличием одновременно перекрестных и обратных свя- зей, СР с произвольным числом слоев ЛПЭ, СР с перекрест- ными и обратными связями различной «логической глубины». 7-12. Построение замкнутых СР в режимах самообучения и произвольной квалификации учителя В [Л. 40] рассмотрены алгоритмы самообучения, ана- логичные по своему качеству алгоритмам восстановления плотностей распределения вероятностей, так как в ре- жиме настройки по замкнутому циклу определяют коор- динаты мод функции f (х). Ниже рассмотрены алго- 191
ритмы настройки по замкнутому циклу СР с произвольной фиксированной структурой в режиме самообучения. Дан- ные алгоритмы могут быть получены из приведенного расчета на каждом шаге настройки параметров многослой- ной СР с фиксированной структурой по координатам век- торов, соответствующих модам / (х). Возможен и другой подход, аналогичный тому, который использовался выше на этапе рассмотрения режима обучения. Средний рнск есть в данном случае первый момент распределения сиг- нала x'k> определяемого выражением (5-35). Отсюда 2i = jLp[x_bte)i =-----------(7.19) да да ‘ v а (х — b (хЛ)] dxk да v ’ В частности, при р(х,Ь) = ]|х—Ь||2 дхь dxk Уравнение для неизвестных функций b (xk) записы- вается в виде некоторого рекуррентного соотношения О п) = Ъ(хк, я—1)+К*-^-р[х—Ь(х*. я—1)]. (7-20) <эь Уравнения (7-19) и (7-20) служат основой для построе- ния СР, настраивающихся по замкнутому циклу, в режиме самообучения. В выражении (7-19) dxk!da определяется, как и ранее, в режиме обучения для СР с любой структурой. В случае решений —есть (/G X ^-матрица, по- д*1г лучаемая по результатам решения уравнения (7-20) в теку- щий момент времени. Более подробно построение замкнутых многослойных СР с Кр решениями и N* выходными каналами в режиме самообучения рассмотрено в гл. 8. Итак, алгоритм настройки многослойной СР в данном случае заключается в следующем: 1. При наличии некоторых начальных значений настраи- ваемых коэффициентов СР по текущему входному сигналу х (0) рассчитывается xk (0). 2. Выбирается соответствующий xk (0) столбец матрицы b (л>, 0), полученной как указывалось выше. 3. Производится настройка коэффициентов СР в соот- ветствии с (7-19) и т. д., начиная с п. 1. 7* 195
Необходимо отметить, что значения b (хА) на каждом шаге настройки можно определить расчетом по параметрам и структуре многослойной СР. При произвольной квалифи- кации учителя: = е)& + (1-&2)р[х-b (х4)]. Отсюда . п ----------------------------------------------------, dxg = дхк |dl(xk, е) __ ц _ dp дЬ (хА)) да да \ дх^ 7 д [х — b (х*)] дхь ) дхе ---------------------- ----------------------р [х—b (хА)] db(xfe) 5b (xk) Г Данные два выражения служат основой для построения замкнутой СР с произвольной структурой при произволь- ной квалификации учителя. Необходимо отметить, что ал- горитм настройки делится на две самостоятельные части, одна из которых, определяемая членом dxk!da, зависит от структуры разомкнутой СР и определяет потенциальное качество решения задачи распознавания. Разработанные методы настройки многослойных СР пригодны и для случая, когда СР имеет несколько слоев ЛПЭ с фиксированными коэффициентами. Отметим, что процедура настройки многослойных СР, связанная с выражением (6-1), обеспечивает лишь локаль- ный экстремум функционала оптимизации, причем началь- ные значения настраиваемых параметров должны зада- ваться случайно в диапазоне их изменения, определяемом из физических соображений. Поэтому полностью алгоритм настройки многослойной сети должен содержать множество (объемом т]°) этапов выброса случайных начальных усло- вий для настройки, следующие за каждым выбросом этапы настройки в соответствии с (6-1) и этап усреднения резуль- татов настройки по т|° (см. гл. 6 и 8). 7-13. Вывод выражений для оценок производных второго порядка функционала вторичной оптимизации Ниже для многослойных СР различных типов найдены выражения для оценок производных второго порядка вто- рого момента распределения дискретной ошибки, являю- 196
щегося функционалом вторичной оптимизации. В случае ЛПЭ с континуумом решений: В случае многослойной СР с последовательными свя- зями: х& (ц) X дх& (л) 1 х^-1 (м) + геН7_м 197
/,2 +п Г)—О Использование данных выражений для построения со- ответствующих алгоритмов адаптации в многослойных СР достаточно сложной структуры затруднительно. Однако методология многослойных СР определяет уменьшение необходимости учета производных второго порядка функ- ционала вторичной оптимизации при усложнении структуры разомкнутой СР. Для двухслойной системы с перекрест- ными связями Г н> xk — F V af ,V 1 N у a/fXi +у aiXi i—О | Го 198
= —2х дХк = 2 ~х-- !>Хк_________2х а'‘х‘! " '•kI к(!' ^а(1)^а(3) ^°(1) ^я(2) е ^°{t) ^а{2) дЧк _d2F(g)„ .. . 02*k _d2F(g).......... ди.дч; dg2 111 /г/’ da’jda'i dg2 1 ’’ d2xk _d2F(g) , dFIgfl rf^(g) “ ~~ -A — Xi — X aa,-aa(- dg2 da,7dami dg/ dg2 X at dF (gi) dgi dF(g) dg d2F(gj) dgj . dg, dgi d2Zk . d2F(g) dF (g,) dF (g) dF(gt} dg; daidcimi k' dg2 ‘ dgi m dg dgj dgt ' дг*х .. d2F(g} dF(gi ! A i U / A m • Oai daml dg2 {^l В случае ЛПЭ с обратной связью 0хк(п) дй( daj d-F(g) dg2 I Xi (n) xj (п\, lg—g(n) d^AnL^d2^ М„_1)Л dal dg* Полученные выражения служат основой для построе- ния алгоритмов настройки многослойных СР с использова- нием производной второго порядка функционала вторичной оптимизации. Глава восьмая ИССЛЕДОВАНИЕ ЗАМКНУТЫХ МНОГОСЛОЙНЫХ СР 8-1. Постановка задачи синтеза контура настройки СР по замкнутому циклу Настоящая глава является заключительным этапом синтеза многослойных СР с фиксированной структурой, настраивающихся по замкнутому циклу. При этом задан- ными являются структура разомкнутой СР, характеристики сигнала в общем виде, алгоритм настройки коэффициентов многослойной СР, удовлетворяющий некоторому крите- рию первичной оптимизации. Для оценки качества работы замкнутых многослойных СР нужно решить ряд задач. 199
Первой является задача выбора начальных условий для настройки коэффициентов многослойной СР. Ввиду многоэкстремальности функционала вторичной оптимиза- ции СР рассматриваются два способа выбора начальных условий: случайный выбор с усреднением результатов по числу случайных выбросов, когда нужно найти все локаль- ные и глобальный экстремумы, и детерминированный выбор, когда многослойная СР вводится в область глобального экстремума функционала вторичной оптимизации путем определенного задания кусочно-линейной разделяющей по- верхности в начальный момент времени. Второй является задача выбора класса типовых вход- ных сигналов многослойных СР для оценки качества их работы в переходном и установившемся режимах аналогично тому, как это делается в системах автоматического управ- ления. Сложность входного сигнала будет определяться, в частности, модальностью условного распределения /' (х/е). Третьей является задача выбора параметрической мат- рицы К* в алгоритме поиска экстремума функционала вто- ричной оптимизации. Решение данной задачи возможно аналитическим методом и путем использования методов статистического моделирования. Общая методика аналити- ческого исследования замкнутых СР состоит из следующих этапов: 1) определение плотности распределения вероятно- стей для оценки вектора градиентов функционала вторич- ной оптимизации, 2) вывод стохастического дифференциаль- ного уравнения для изменения в процессе настройки плот- ности распределения настраиваемых коэффициентов СР, 3) решение данного уравнения, 4) нахождение параметров распределения функционала первичной оптимизации ин- тегрированием по пространству признаков и пространству состояний СР как системы со случайным входным сигна- лом и случайными параметрами. В результате данного анализа можно решить задачу синтеза контура настройки СР, исходя из условия обеспе- чения заданного качества по значению функционала первич- ной оптимизации. Необходимо отметить, что решение третьей задачи аналитическим методом является трудным с математической точки зрения. Поэтому методика анали- тического исследования замкнутых СР иллюстрируется в книге частными примерами. Основным остается метод статистических испытаний, при этом выбор оптимальных параметров контура настройки СР производится по оценке текущего значения функционала первичной оптимизации. 200
8-2. О выборе начальных условий настройки в многослойных СР Можно рассматривать два метода выбора указанных начальных условий: выбор случайных начальных условий и выбор детерминированных начальных условий. Случай- ный выбор начальных условий производится ввиду много- экстремалыюсти функционала вторичной оптимизации, связанной с многомодальностью распределений Д. (х) вход- ного сигнала и ограниченностью структуры разомкнутой СР. Случайные элементы в процедуру поиска экстремума функционала вторичной оптимизации вводятся в связи с необходимостью поиска локальных и глобального экстре- мумов указанного функционала. Необходимость поиска локальных экстремумов обусловлена необходимостью ре- шения задачи -минимизации структуры многослойной СР при анализе результатов настройки. На первом этапе ис- пользования случайных начальных условий (и следующего за ним этапа усреднения результатов настройки по мно- жеству этапов выброса случайных начальных условий) создается впечатление о большом числе локальных экстре- мумов функционала вторичной оптимизации в пространстве настраиваемых коэффициентов. Однако в связи с этим не- обходимо отметить, что при усложнении структуры разомк- нутой СР увеличивается множественность состояний мно- гослойной СР, оцениваемая по величине функционала вторичной оптимизации. Иначе говоря, большинство локаль- ных экстремумов функционала в пространстве настраивае- мых коэффициентов обеспечивают одно и то же качество распознавания. Это замечание необходимо связывать с опи- сываемыми ниже методами оценки качества многослойных СР по оценке значения функционала вторичной оптимиза- ции по текущим сигналам в СР. С учетом вышесказанного н результатов данной главы, полученных экспериментально, можно отметить правомерность подхода к настройке с ис- пользованием случайных начальных условий, хотя этот подход, очевидно, вводит избыточность во времени на- стройки СР с целью полного изучения входного сигнала (в частности, нахождения глобального экстремума функ- ционала). Целью введения детерминированных начальных усло- вий является априорное введение СР в область одного из локальных экстремумов функционала вторичной оптими- зации в пространстве настраиваемых коэффициентов. На 201
уровне геометрии первого, второго слоя и т. д. многослой- ная СР должна быть максимально аморфна, рассредото- чена, т. е. подготовлена к решению наиболее сложной (с точки зрения модальности fx (х) ] задачи распознавания. Мыслимая конфигурация разделяющей поверхности в этом случае при обучении распознаванию двух классов образов представлена на рис. 8-1, хотя это предварительный вариант. Окончательный вариант может быть определен только при введении критерия аморфности, рассредоточен- ности. Очевидно, что минимально аморфной и рассредото- ченной является многослой- пая СР, в которой все коэф- фициенты ЛПЭ первого слоя одинаковы и соответствующие разделяющие поверхности смещены к «краю» простран- ства признаков. На рис. 8-1 пунктиром обозначена физи- чески реализуемая в СР об- ласть пространства призна- ков. Это распространяется и на режим самообучения, если Рнс. 8-1. Разделяющая по- верхность при выборе началь- ных условий. 1 — первый класс; 2 — второй «•ласе. но указывалась заранее при- надлежность клеток рис. 8-1 к тому или иному классу. Начальные условия на на- страиваемые коэффициенты второго слоя и т. д. рассчиты- ваются по геометрии разделяющей поверхности, реализуе- мой ЛПЭ первого слоя с указанием принадлежности обла- стей исходного пространства признаков к тому или иному классу. 6-3. Типовые входные сигналы СР Выбор определенного класса типовых входных сигналов должен производиться с точки зрения решения задачи бо- лее или менее объективного сравнения качества СР в ре- жиме настройки и в установившемся состоянии. Основу для рассмотрения здесь дает системный подход к синтезу СР. Методологически данная задача достаточно полно ре- шена для линейных систем автоматического управления при детерминированных и случайных входных сигналах. Так, достаточно полным классом детерминированных вход- ных сигналов, для которых производится как оценка, так и сравнение качества систем управления, является класс 202
полиномиальных входных сигналов. В этом случае основ- ной характеристикой сложности сигнала является соот- ветствующая степень полинома. Для многослойных СР основной характеристикой сложности входного сигнала является модальность распределения fx (х) совместно с неко- торыми характеристиками пространства указаний учителя. Рассмотрим некоторые частные случаи выбора типовых О X О о о о ООО ООО ООО X о о о о о о о о о о о о О О О Ох г- 1 г— 4 г-д г-16 ис. 8-2. Условное представление класса типовых входных сигналов СР в режиме самообучения по степени сложности. о 0 X ® О о о ООО о о о ^о о с О @ О 0 @ О <0 ч О 0 □ «э ® о ® о г=*2 г=4 г-9 f-16 Рис. 8-3. Уловное представление двух классов входных сигналов СР в режиме обучения по степени сложности. сигналов в СР. В случае самообучения, по нашему мне- нию, логично распределение типового стационарного вход- ного сигнала СР считать многомодальным с более или ме- нее равномерным расположением мод распределения fx (х) в физически реализуемом пространстве признаков. На рис. 8-2 представлен полный класс типовых входных сигналов СР в режиме самообучения, иллюстрируемый ли- ниями равных значений fx (х) иа физически реализуемом пространстве признаков (изображение в двумерном про- странстве X является условным). Здесь г — сложность типового входного сигнала СР. При исследовании дина- мики СР величина г типового входного сигнала должна до- стигать максимальной сложности, на которую в принципе 203
проектировалась многослойная СР. Дисперсия для каждой моды fx (х) должна выбираться так, чтобы моды были до- статочно ярко выраженными. В случае обучения СР рас- познаванию двух классов образов на рис. 8-3 представлены линии равных значений (х) и /2 (х) для типовых вход- ных сигналов (/\— светлые, /3 — заштрихованные кружки). 8-4. Аналитические методы исследования СР, настраивающихся по замкнутому циклу Ниже излагается общая методика анализа СР, настраи- вающихся по замкнутому циклу. Данная методика иллю- стрируется частными примерами. Отмечаются трудности использования данной методики и возможные пути реше- ния задачи в мснсс частных постановках. Общая методика анализа замкнутых СР, настраиваю- щихся по замкнутому циклу, но структуре аналогична ме- тодике анализа замкнутых СР, настраивающихся по ра- зомкнутому циклу, и состоит из следующих этапов: 1) определение плотности распределения вероятностей для вектора оценки градиента функционала вторичной оп- тимизации; 2) вывод стохастического дифференциального уравне- ния для изменения в процессе настройки плотности рас- пределения настраиваемых коэффициентов СР;' 3) решение данного уравнения; 4) нахождение распределения вероятности правиль- ного распознавания интегрированием по пространству при- знаков и пространству состояний СР (пространству настраи- ваемых коэффициентов). В принципе задачу выбора параметрической мат- рицы /<*, обеспечивающей заданное качество настройки, нужно производить, исходя из результатов п. 3 методики. Однако, как будет показано ниже, это довольно трудная задача. Ее приходится решать, зачастую исходя из кос- венных критериев, непосредственно не связанных с функ- ционалом вторичной оптимизации. Ниже данные этапы ис- следования замкнутых СР иллюстрируются на некоторых частных примерах, не претендующих на законченность ре- шения для конкретных систем. В данном параграфе рас- сматривается линейный пороговый элемент, оптимизация которого осуществляется по критерию минимума модуля первого момента дискретной ошибки. Для ЛПЭ с минимизацией |а151 в случае N = тп = 1 204
в гл. 7 было получено рекуррентное соотношение, являю- щееся основой для построения блока настройки, в следую- щем виде: а0(пЧ- 1) = а0 («)—К%(п). Первый этап анализа. В данном случае имеем дело с за- дачей случайного блуждания по одномерной решетке. Это блуждание описывается марковской цепью с бесконечным числом состояний. Вероятности переходов СР из состояния тК* в состояния (т + 1) К*, (т—1) /С* и тК* соответст- венно равны: Р [тК* | (т + 1) К*] - -Т [ J _ф2 (тК*)], Р [тК* | (m—1)К*] = y ф2 (тК*\, Р [тК* | тК*] = Т- [1 + Ф, (тК*) — Фа (тК*)] Здесь Ф — интегральный закон распределения. Второй этап. Стохастическое разностное уравнение, описывающее изменение во времени плотности распределе- ния вероятностей порога а0, имеет следующий вид: ^„+1 (гпК*) = №„ l(m— 1) К*] Л- (1 -Ф, [(m— 1) К*]} + + №„ (mK‘) Т- [Ф, (mK*) + 1 - Ф2 (тК.*)\ + + ^л!(/« '-1) К*] у ф5 [(гс+ 1)К*]. Третий этап. Решение данного стохастического разност- ного уравнения является достаточно сложной задачей. Поэтому остановимся на решении данного уравнения для установившегося состояния (п — со). Полагая aQ (0) = 0 и переходя к пределу при п -+ со, что соответствует СР в установившемся состоянии, полу- чаем: W[(m—1) /<*] -L (1 -Ф, [(т-1) к*]) + 4- W [(т + 1) К*] [(т+1)К*]_ —W (тК*) у [1 —ф! (тК*) + Ф2 = 0. 205
Отсюда 1П(ш-1)/<*]у П-Фи^-ЦК*]!- — W (тК*) Ф2 (тК*) = № (тК*) [ 1 — Фх (тК*)]— - W [(m+ 1) К*] у Ф2 |(m + 1) К*] = С. Из условия нормировки плотности распределения на- страиваемого коэффициента а0 по т следует, что U7 (тК*) — — 0. Поэтому С 0 и —!)/<*] у |1 -Ф,[(т-1)/<*|] = -«ФкЧуФ.н;)- Полагая W (0) : А, получаем; -пул) ; W (-К*) = А—^(0) , 1 —Ф1(К*) w (—чк*) w (—’к*) —. 1 — Ф1 (—2/Г) В общем случае 11 'MW1 k 1 —/>1 W (-тК*) - А П + . (8-1) 11 1 - Фх [£/<*J v ' /г-1 Величина А = Ц7 (0) определяется из условия норми- ровки плотности U7 по т. Функция W (•) представляет собой плотность распределения для настраиваемого коэф- фициента а0 СР в установившемся состоянии. Функция [1 _ ц?! (тК*)] монотонно убывает от — до нуля в ин- 2 2 тервале—со<тД<со. Функция Л-Ф2(т/<*) монотонно возрастает от нуля до у в интервале—со<тД<со. 206
Функция -у [1—фг (rn№1=)+Ф2 (/«/<*)] имеет макси- мум в точке корня уравнения 1 - Фг (тК*) = Ф2 (тК*). (8-2) Пусть корень уравнения (8-2) равен тК* — 0. Тогда при тД О 1 —Oi (/пК*)<Ф2 (/пК*)<Ф21(/п-|-1)К*], т. е. _____Ф2(тК*) । 1 — Фх [(m — 1) Я*] Соответственно при т/(* 0 имеем: Фа(т/<*)< 1-Ф! (тК*)<1—Ф1 [(т— 1)К*]; < 1 1 _ фх [(т_ 1) k*j Поэтому, если б/Л’* — целое число, то W (9 - Д) = W (0) < W (ё); W (9 + Д) = W (9) <1Т (0)- Отсюда видно, что 0 есть мода распределения значения порога как случайной величины и обеспечивает в свою оче- редь равенство условных функций риска для совокупно- стей образов первого и второго класса. Из (8-1) вытекает, что математическое ожидание и дис- персия распределения значения порога конечны. Для ЛПЭ с произвольной памятью тп в блоке настройки (тп —.const, N = 1): а» (л + О = а0 (п) при я-Н т imn, i I, 2, .3 . . К* imn а0 (п) -| У {е(/)~ sign X (8-3) 11 X [х (Z)—при/1=1'т„. Здесь, несмотря на соответствующее замечание, сделанное в гл. 7 о невозможности в общем случае для критерия минимума 1 aig I 11 СР с двумя решениями построения аналитических алгорит- мов настройки с произвольными значениями тп, выражение (8-3) справедливо, так как рассматривается частный, одномерный (N — 207
= 1) вариант, в котором х9 = —1 = const. В (8-3) поправка коэф- фициентов происходит через каждые тп тактов поступления образов на вход СР. Получим выражение для вероятностей перехода в данной мар- ковской цепи. Как и в случае тп — I, здесь Р[хг(п) = -2] = -^-[1-Ф1(тК,)1; Р[ж4(л) = 2] = ^-Ф!(тК‘); Р [ха (п) = 0] = у [1 - Ф3 (тК*) + Ф1 (тК<)], где тК* — текущее значение настраиваемого коэффициента а0. Величина К * К * 1тп ^x"s = xs(n = imn) 2 (8(0- sign [х(0- «„(]) п /=К-1)%+1 * < ♦ < принимает значения — К„, —К„ Ч--, . . 0, . . К„----, п п тп птп Кп. В данном случае имеем дело с задачей о полиномиальном рас- пределении Р [4 (n = (т„) = 2 (/ - 0] = Р„п [Л t, (m„ - I - ()] = = т"', Х1». [(1~X /!/!(тл— I — f)! |_ 2 J I 2 } x |^-[1-Ф1(тК’) + Ф1(тК’)]р' ' Здесь /, t, mn — I — t — соответственно число раз, которое в Xg выпадают +1, —1, 0. При замене переменных | = I — t можно получить ограничения на пределы изменения переменных в следую- щем виде: Е>0при-^2---L „ t > 0; 5<0 при --L 2 2 Выражение для переходных вероятностей при £>0 имеет следующий вид: Р[и„к*| («„ + !)№]= у ---------------------- (<+5)l/l(m„-2/-E)l Х2 "’п(1-Ф1(тК«)]'Ф2(т„К*)'+Е х X [1 + Ф, (т„к») - Фа (тпК*)}т"~2‘' Е. 208
При 0 выражение для переходной вероятности сохраняется с заменой нижнего предела на (—£). Выражение для переходной вероятности будет единым, если нижний предел сделать равным {max [0, — £]}. Соответствующее второму этапу стохастическое разностное уравнение для плотности распределения вероятностей настраивае- мого коэффициента а0 СР имеет вид: тп 2 №-W]P[('n-k)K4mK'). где Р [ ] определяется приведенным выше выражением для пере- ходной вероятности. В многомерном случае рекуррентное соотношение, являющееся основой для построения замкнутой СР, при тп = I может быть за- писано: &(п + 1) = а (п) + K*xg (n)sign х (я). В данном случае имеем дело с задачей блуждания по (X + 1)- мерной решетке. Это блуждание описывается многомерной марков- ской цепью. Здесь, как и выше, задача анализа замкнутой СР со- стоит из следующих этапов: запись выражений для переходных вероятностей; получение стохастического уравнения, описываю- щего динамику поведения марковской цепи; исследование решения данного уравнения. Решение данных вопросов является чрезвычайно сложным даже для рассматриваемой относительно простой СР, не говоря уже о таких СР, как многослойные сети из ЛПЭ. ЛПЭ с континуумом решений и континуумом классов образов. Рассматривается случай X = mrt = 1. При использовании критерия минимума второго момента дискретной ошибки a2g имеем: “о (" + 1) = Оо(п) — 2К* {е (л) — F [х (n) — а„ (n)] iF . (8-4) dF fa) Здесь (л) = &(n) — F [х(п)—а0 (л)]; —— = <p fa). Введем в dg рассмотрение случайные величины Ло (л), Z [л], L (л],Х [л], Е [л], G [л], Y [л]. Их возможные значения соответственно равны а0 1> 2 [л], J 1л], * ML 6 [»]. g («1» У l»L Величина G [л ] является функцией случайных величин Л0[л] и X (л]: G [л] = X [л] — Ло [л], а У [л] является функцией случайной величины G [л]: Y [л]^ф(О[л]). Величина Z [л] определяется: Z [л] - {Е [л] - F (G [л])} ср (G [л]); L [л] = {Е [л] - F (G [л])); I (л) - xg [л]. 209
Плотность распределения величины Л0(п-[- 1) будем искать в виде f[a„ (л+1)] = J f [а„ (л + 1), х (гг)] dx (п) = —СО — = J f [а„ (п + 1)/х (л)] f [х (гг)] dx (л). (8-5) Для определения / [а0(п+ 1)/х (л) ] нам понадобится Ф [z (л) /а0 (п), х(л)]: Ф [z (л)/а0 (л), х (гг)] = J J f [хе (гг), у (п)/а0 (л), х (л)]Х х£(«) У(л)<2(л) X dxt (л) dy (л); fl txg (л), у (,п)/х(п), а„(п)] = = (г 1хг (п)/у (п), х (л), а„ (л)] /э [г/ (л)/х (л), а„ (л)]; (з [!/ (л)/х (л), п0 (л)] = 8 {г/ (л) — <р [х (л) — а„ (л)]}; /г [хе (л)/г/ (л), х (л), а„ (л)] = /2 [х6 (л)/х (л), а0 (л)], так как случайная величина <р является определенной функцией случайной величины X и Яо: /г [хе (л)/х (л), а„(л)] - f4 (xg (л) F [х (л) — а„ (л)]/х (л)); h [е (л)/х (л), а0 (л)] = f, [е (л)/х (л)]. Отсюда fl [хе(л)/х(л), а0 (л)] =/J (хг(л) + F [х (л) — а0 (л)]/х (л)|, где f*4 — новая функция, в которой а0 (п) —фиксированная вели- чина. В результате получаем: /1[хе(л), »(л)/х(л), <70(«)] =X|xg('!) + f |х(л) — а0(л)]/х(л)] X Хб[у(л)— <р(£(л))]. Определим: Ф [z (п}/а0 (п), х (п)] = У j /X xs(n} yW<z(n) X [xg (a), у (n)/a0 (n), x (n)] da^ dx. Можно показать, что Ф[г(л)/а0(л), х (л)] = J J /4 (х2 (л) + F [х (л) — —00 2(п) — ао(п)]/х(п)} 6 [у (п) — ср[х (п)—а0 (п)]) dy (п) dxg (п) + со у(п) • + f f X W + f [*(”)— ao<")]/x(")[ х X б {г/ (л) — (р |х(л) — а„(л)]} dy (л) dxs (л). 210
Отсюда плотность вероятности величины L (л) относительно величин X (п) и До (л) f [? (л)/а0 (п), х (л)] = ~ Ф [г (n)/aQ (п), х (л)] = dz =- ? — Ло V <") ( V (r>) j ” I X « [у (п) — гр (g (га))] dy (л) + | —— X 'о Я») X f't + -f (х (л) — «»(л)]/х (га)1 X I У (п) J °? I . ХЛ |)/(л) —гр|х(л)—л„(л)]) Л/(л) = | /4 X X J Z (li> -! F (х (л) — л0(п)]/х(л)1 6 {у (л) — гр [х (га) — о» (л)]) X (Ял) | X dy (п) —------------------------------- | ср [х (л) — а, (га)( | ( х (га) (х (га) — а0(п)] + F [х (га) — л„ (л)]/х (га) Интегральный закон распределения случайной величины Ло (л 4- 1) относительно X () имеет вид: Ф [л0 (га + 1)/х (л)] = и ф [г (га)/аа (га), х (га)] f [а0 (л)/х (n) da, dz (n)I. Так как f (л, (л)/х (га)] =/[га0 (л)], то Ф Ьр (л + 1)/х (л)] = ОО СО I = f f Ш«М,—— ---------------ЯГт/гХ Л ».(»+!)-«(га) |гр[х(л)-Мл)]| 2Х- X [-£(?)- _|. Р [X (л) — па (га)]/х (га)] da„ (га) dz(ra). I У (п) J Отсюда UW’ + W'W] =л / , ф1°а(п+ Wx(n)] = ОЛд (Л “Г И 1 °? 1 =----- I /л [я» (л)]-----------X 2/<*Х I Ф [х (л) - а0 (и)] | х , ] «о (Л + 1) — Ир (га) 1 (— ZX’tp [х (ra)a0(ra)j + F (х (га) — а„ (п)\1х (га) I da, (п). 211
Окончательно имеем: " + 11° 1 2К*40Л,|<р[*('«)-‘1о('1)11 X/ ( а,(п+l)-a„(n) +f[x(n)_ao(n)l, х („)| х I— 2К*ф[х(п) — Ио(п)] ) X da, (n) dx (п). (8-6) В предельном случае при п -* со М° 2гХЪ('~Э1 [-2Гф(х-Е) ' 4- F (х — £), xj dxd%. Это однородное интегральное уравнение Фредгольма второго рода. Оно решается в общем случае численными методами. В выражении для fn + { [а0 (п + 1)] интегрируется неотрица- тельная функция. Следовательно, /л _j [а0 (n + 1)] > 0- При п — О очевидно, что f f, [“о (0)] da, (0) = J б [ао(О) — а0] da, [0] = I, где а0 — заданное начальное значение порога. Предположим, что для /л [а0 (n) 1 J )„[a0(n)da„(n)] = l. СО Покажем, что тогда J fn +1 [aQ (л + I)] daQ (п 4- 1) y‘ = ^fn^[“<,(.n + i)]daa(n + l) = <х> я = f (Г--------------!------------fn (O«(n)l X JJJ 2К* | ф [х (л) - а, (п)] | Х f + F “ °" ‘ H (— 2/C*<p [x (n) — aQ (n)J J X dx (n) da0 (n) da0 (n 4~ 1)« Сделаем замену переменных 8 (л) = —+ f [х (П) - a» (n)l; —2K»q> [x (n)—а„(л|| de (n) =--------Mn+ '>-------------. 2К* IФ [x (n) - a, („)] | 212
Отсюда Y"= jff I" I"» Wl f I6 («) x W1ds- (n> da« (")dx (n> = = j tn [“о (я)! ff / [8 («), x («)] de (n) dx (л) j da„ (л). По свойству плотности вероятности J*j / [е (п), х (л)] l/e (л) dx (л) = 1, по предположению a f tn IM»)1*«W = 1. Следовательно, Y° = X/n411°" <л + 1)]‘Ч('Ч-1) = 1' что и требовалось доказать. Аналогичные выражения можно получить для случаев тп = = const и N 1, а.также для более сложных структур СР. Однако при этом резко возрастает сложность полученных выражений. Анализ данных выражений в явном виде, т. е. анализ качества на- стройки СР в пространстве настраиваемых коэффициентов, вряд ли имеет смысл, особенно для случая многослойных СР. В данном случае необходимо переходить аналогично тому, как это было сделано в данной главе выше при настройке по разомкнутому циклу, к распределению вероятности правильного распознавания интегрированием по пространству настраиваемых коэффициентов. На наш взгляд, эта задача, достаточно сложная с математической точки зрения, может служить предметом самостоятельного рассмот- рения. В данном случае можно записать, пожалуй, только общие выражения для математического ожидания и дисперсии средней функции риска аналогично тому, как это было сделано для РПТ)ав в § 3-8: МЯ = JГ П /е (е)/ (х/е)/ [ха = Р (х), е] de Jxl rfa; A [EX J DR = f /*♦ (а) [Я — M/?]2 da. A Указанная вьуле сложность аналитического исследования замкнутых СР с фиксированной структурой, настраивающихся по замкнутому циклу, приводит к необходимости применения для исследования указанных СР, в основном многослойных, методов статистического моделирования. Данному вопросу и посвящен представленный ниже материал. 213
Рис. 8-4. Функциональная схема поисковой СР, настраивающейся по замкнутому циклу с минимизацией второго момента дискретной ошибки. 1 — квадратор; 2 — блок задержки на такт Т.
8-5. Исследование ЛПЭ при многомодальном распределении входного сигнала процедурой адаптации ввиду Г(т) Рис. 8-5. Характеристики вход- ного сигнала и функционала оптимизации. I — первый класс; II — второй класс. а) Одномерный случай-, поисковый алгоритм настройки Моделировался ЛПЭ с двумя решениями и минимиза- цией a2g. Структурная схема моделируемой СР представ- лена на рис. 8-4. Исследовалась возможность построения замкнутых СР с поисковой невозможности аналитиче- ской оценки величины гра- диента a2g в данной СР. Совокупности образов пер- вого и второго класса под- чинены многомодальным распределениям. В этом случае имеем дело со структурной недостаточно- стью, на которую указы- валось в гл. 4, когда слож- ность структуры СР мень- ше, чем сложность решае- мой задачи, и потенциаль- ное качество распознавания в принципе ие достигается. Исследование подобной си- стемы позволяет выяснить возможность обучения ЛПЭ первого слоя многослой- ной СР при введении эле- ментов случайности в по- исковую процедуру (гл. 6 и глобального экстремумов рис. 8-5 представлены плотности распределения совокуп- ностей образов первого и второго класса, а также зави- симости для данного случая средней функции риска, точ- нее, се 2g от порога а0, если ЛПЭ слева указывает область первого класса, а справа второго. Градиент a2g ПРИ по- исковой процедуре адаптации вычислялся в соответствии с выражением da2g a2g (ао 4~ Аор) — a2g (°о Дйо) 2Ддо гдеДа0—амплитуда поисковых колебаний. Оценка daig/da(i производилась усреднением по т реализаций входного и 11) нахождения локальных функционала оптимизации. На 215
сигнала СР. Основной целью при моделировании являлась оценка влияния Да, К*, тп, ап (0) на динамику контура настройки коэффициента а0 СР. Результаты моделирования на ЭВМ позволили сделать следующие выводы: стройки СР при к — 0,5; т = 20; а0 (0) = 0. 1 — \ац = 0,25; 2 — Да# = 0,5; 3 — Да0 = !• Рис. 8-7. Исследование влияния К* на динамику настройки СР при Да0 = 0,25; т = 20; а0 (0) — 4. / — К* = 0,25; 2 — к* = 0,5; 3 — X* = 1; 4 — Л* = 2. 1) поисковые колебания вполне применимы для по- строения блока настройки СР по замкнутому циклу. Чем больше Да0 (в рассматриваемых пределах), тем больше точ- 216
ность работы контура настройки в установившемся состоя- нии (рис. 8-6); 2) чем больше /С*, тем меньше систематическая ошибка итерационной процедуры поиска оптимального решения, Рис. 8-8. Исследование влияния памяти тп блока на- стройки СР при Аа0 = 0,25; К = 0,5; а0 (0) = 7,32. / — m = б; 2 — m = !0; 3 — т = 20. Рис, 8-9. Исследование влияния начальных усло- вий на динамику настройки СР при Да0 = 0,25; К = 10; щ = 10. / - (0) = 0; 2- fl0 (0) = 3; 3 — а0 (0) = 4; 4 - аа (0) == = 7; 5 - а0 (0) =9. но тем больше случайная ошибка указанной процедуры (рис. 8-7); 3) чем больше тп, тем меньше случайные и больше ди- намические ошибки контура настройки СР из-за введения 217
дополнительного запаздывания в контур обратной связи СР как экстремальной системы (рис. 8-8); 4) при любых начальных условиях й0 (0) (рис. 8-9) ите- рационная процедура поиска оптимального решения схо- дится к одному из локальных экстремумов. Результат ра- боты алгоритма поиска всех локальных экстремумов с вве- дением элементов случайности в процедуру поиска пред- ставлен на рис. 8-10. На рисунке окружности сплошной линией обозначены линии равных значений плотности рас- Рис. 8-10. Настройка при множестве случайных начальных условий. / — Лд0 = 0,25, 7< — 0,5, пг =10; 2 — Ла» = 0,25, К ~ 0,25, т = 20; 3 — Лаа = 2, К = 2. т = 10. пределения для образов первого класса, пунктиром — вто- рого. Общее число Z мод распределений для первого и вто- рого класса равнялось 10; среднеквадратичное значение о, определенное для одной моды, равно 2. б) Многомерный случай. Аналитический алгоритм на- стройки Аналитическая процедура настройки при многомодаль- ных распределениях входного сигнала исследовалась на примере минимизации а2й в ЛПЭ с континуумом решений (гл. 3) и арктангенсной характеристикой (В = 10). В ходе эксперимента были изучены следующие вопросы: 1. Влияние начальных условий на сходимость итера- ционной процедуры при отыскании одного локального экс- тремума. 218
2. Зависимость скорости сходимости итеративной про- цедуры от величины шага и размерности пространства при- знаков Af. Вопрос устойчивости градиентной процедуры. Влияние величины дисперсии на качество сходимости ите- рационного процесса. 3. Влияние способа вычисления градиента оптимизи- руемого функционала на скорость сходимости и качество процесса поиска. 4. Влияние памяти (тп) системы на качество итера- ционного процесса. Заметим, что исследования проводились с помощью дат- чика случайных векторов х и указаний учителя е. Много- модальное распределение случайных векторов х в доста- точно общем случае проиллюстрировано на рис. 8-11, где окружности обозначают уровни равных значений плотно- стей вероятности для каждой моды. Модальность распреде- ления случайных векторов может быть задана любой, со- ответствующей плану экспериментов. Установить факт наличия устойчивости вектора коэффи- циентов ЛПЭ в оптимальном состоянии — цель первого эксперимента. Для этого вектор коэффициентов ЛПЭ по- лучал оптимальные начальные условия, соответствующие одному из локальных экстремумов (рис. 8-12 — положения 1 и 1а), и начинался процесс обучения. Начальные 1 и 1а и конечные Г и 1а' положения гиперплоскостей говорят об устойчивости ее экстремального положения, соответствую- щего одному из минимумов средней функции риска. Коле- бания относительно устойчивого положения обусловлены стохастичностыо минимизируемого функционала качества СР. Плавность этих колебаний тем больше, чем больше па- мять системы и чем меньше модальность (число мод) рас- пределений входного сигнала, используемого при обучении. При отклонении от оптимальности положения с поворотом 3 и без поворота 2 гиперплоскость приходит в ближайший локальный минимум 2’ и 3', поворачиваясь, и уменьшая при перемещении ошибку. На рис. 8-12 показаны началь- ные 1, 2, 3, 4 и конечные Г, 2', 3', 4' положения разделяю- щих плоскостей для различных начальных условий. Ди- намика настройки коэффициентов этих прямых проиллю- стрирована на рис. 8-13. Здесь оказалось удобным восполь- зоваться уравнением прямой (гиперплоскости в общем слу- чае) в отрезках и следить (рис. 8-13) за изменением этих отрезков в процессе настройки. На рис. 8-13 видно, что при оптимальных начальных условиях (/, 2) система испы- < 1219
Рис. 8-11. Иллюстрация работоспособности ЛПЭ при многомодальном распределении входного сигнала. -------— начальное положение гиперплоскости;-----------про- межуточное (после 500 итераций) положение гиперплоскости; 1-т-7 —номера экспериментов. 220
Рис. 8-12. Дина- мика настройки коэффициентов ЛПЭ при многомо- дальном распреде- лении входного сигнала при тп = = 30 (арабскими цифрами обозна- чен номер опыта). ----------начальное положение гиперпло- скостей; - — ко- нечное положение гиперплоскостей. Рис. 8-13. Дина- мика настройки коэффициентов ЛПЭ при многомо- дальном распреде- лении входного сигнала. 1—4 — номера экспе- риментов. 221
тывает незначительные колебания около положения опти- мума. Градиент начинает часто менять знак, и система ос- танавливается. Большие колебания кривой 3 обусловлены Рис. 8-14. Динамика на- стройки коэффициентов ЛПЭ при числе мод распре- деления входного сигнала, равном 4, 1 — первый минимум; 2 — вто- рой минимум. значительными величинами гра- диента функционала, что харак- терно для изображающей точки вблизи от локального экстре- мума. При больших отклоне- ниях от экстремумов изобража- ющая точка попадает в область с малыми значениями градиента, что приводит к движению с очень малой скоростью. Отсюда сле- дует определенное требование к априорной информации о функ- ционале качества (ограничен- ность пространства поиска ло- кальных экстремумов, предпо- лагаемый характер их располо- жения и т. и.), позволяющее сделать вывод о зоне поиска и выбрать начальные величины шагов градиентной процедуры. Интересные результаты полу- чены при исследовании влияния величины дисперсии (степени пе- ресечения классов) иа процесс настройки. Если брать диспер- сии малыми по сравнению с рас- стояниями между модами, то оптимальное положение разде- ляющей гиперплоскости может быть довольно безразличным, так как это соответствует случаю непересекающихся классов и ло- кальные экстремумы в зоне опти- мума не являются острыми. Был произведен также эксперимент, когда при условии пересечения классов дисперсия первого класса в несколько раз превосходила дисперсию при мо- дах второго класса. Как и следовало ожидать, для системы распознавания, настраивающейся по средней функции риска, оптимальное состояние разделяющей гиперплоскости сместилось в сторону моды с меньшей дисперсией. 222
Обеспечение устойчивости градиентной процедуры до- стигнуто экспериментальным выбором величины шага и применением ограничения на величину приращения компо- нент вектора. Ограничение выбирается по априорной ин- формации о характере функционала так, что приращения, получаемые коэффициентами ЛПЭ, не могут быть больше четверти минимального расстояния между локальными экстремумами. Такая мера обеспечивает плавность проце- дуры обучения. Две пары кривых, характеризующих динамику поиска двух минимумов при четырехмодальном распределении входного сигнала (рис. 8-14), оптимальном начальном зна- чении шага градиентной процедуры, равном четырем, и ограничении на \ait равном 0,03, интересны тем, что в про- цессе настройки коэффициенты ЛПЭ меняют знак. При этом следует помнить, что скачки в этих графиках соответст- вуют малым и плавным изменениям коэффициентов ЛПЭ. Изображающая точка при поиске первого минимума пере- ходит из второго в первый квадрант пространства настраи- ваемых коэффициентов, а при поиске второго минимума — из третьего в первый. На рис. 8-11 представлены различные начальные н со- ответствующие промежуточные (по окончании 200 итера- ций) положения гиперплоскостей. Данные промежуточные положения гиперплоскостей можно считать установив- шимися, так как экстремальная характеристика в этом диа- пазоне настраиваемых параметров ЛПЭ является практи- чески «плоской». 8-6. Исследование динамики частного вида СР нестационарных образов В данном параграфе исследуется одномерная СР с мини- мизацией a2g (гл. 7). Основной целью исследования яв- ляется оценка влияния различных характеристик СР и характеристик нестационарных образов на динамику ра- боты контура настройки СР по замкнутому циклу. Выражение для аналоговой ошибки СР в данном случае имеет следующий вид: ха (п&Т) = е (лАТ) — х (n&T) -F + («АТ). - Тогда х]7пЛТУ- е2 (лАТ) + F(nAT) (лАТ)- — 2е (лгАТ) х (пАТ) -|-2«0 (лАТ) е (нАТ) —2«0 (нАТ) х (пАТ). 223
Черта сверху означает усреднение по множеству реали- заций нестационарного случайного процесса, проведенное в момент времени цДТ. Так как на практике мы имеем одну реализацию нестационарного случайного процесса ха (пАТ), то заменяем операцию усреднения по множеству операцией усреднения по времени на интервале памяти величиной тп с дополнительным заданием априорной информации о ха- рактере изменения параметров распределения нестационар- ного случайного процесса на интервале памяти. Как из- вестно [Л. 58], наиболее удобным в данном случае является представление нестационарного случайного процесса на интервале памяти в виде аддитивной суммы стационарного случайного процесса и детерминированного с известным в общем функциональном виде характером изменения. Ввиду того что производная dx2 (n&T);da6 (пЛТ) не выра- жается в алгебраической форме, предполагаем, что за ин- тервал усреднения тп величина ап (пЛТ) не меняет своего значения. При этом изменение а0 (пЛТ) происходит в ре- жиме адаптации с тактом, равным памяти тп блока на- стройки СР. Отсюда d\(nAT) д2х„(пДГ). da0 (п&Т) Алгоритм настройки СР по замкнутому циклу в данном случае имеет вид: «. [(^+Ч Л71 ” А71+** В случае нестационарных образов процесс ха (пЛТ) является нестационарным с характеристиками, определяе- мыми характеристиками нестационарности входных сигна- лов СР (см. гл. 7). Задача получения ха (п&Т) является классической задачей фильтрации нестационарных дискрет- ных случайных процессов, в частндсти процессов, приво- димых к стационарным, и достаточно подробно рассмотрена в [Л. 48, 49]. При моделировании данной СР на ЦВМ при этом были использованы методы рекуррентной реализации оптимальных дискретных фильтров, разработанные в [Л. 48]. В данном случае при mn = т = const для любого п и \Т = 1 а"Ч+шЧаШ+/(* 2 («О. х / \ / t=0 224
где W (i, п) — оптимальная импульсная переходная функ- ция фильтра оценки ха (п&Т). Для всех рассмотренных ниже вариантов использовались выражения для W (i, ri), приведенные в 1Л. 48, 49]. Конкретная цель исследований в данном случае заклю- чалась в оценке влияния на динамику СР, настраиваю- щейся по замкнутому циклу, следующих ниже характери- стик входного сигнала и СР: 1) гипотезы о характере изменения во времени на ин- тервале памяти математического ожидания совокупности образов (одинаковой для образов первого и второго класса); 2) степени пересечения классов, задаваемой диспер- сией, одинаковой для совокупностей образов первого и второго класса (разница между математическими ожида- ниями совокупностей образов первого и второго класса остается постоянной); 3) степени нестационарности, определяемой, например, скоростью изменения во времени координат центров классов; 4) памяти mn m в блоке настройки СР по замкнутому циклу; 5) времени упреждения сс в блоке настройки СР по замк- нутому циклу при оценке градиента функционала вторич- ной оптимизации; 6) коэффициента усиления К* в блоке настройки СР по замкнутому циклу. Ниже представлены результаты моделирования на ЦВМ описанной выше СР. Исходные данные для моделирования указаны отдельно на каждом рисунке. На рис. 8-15 — 8-22 представлены кривые изменения порога СР во времени при линейных законах изменения координат центров классов. Использованы два вида зако- нов: первый (2 t + 3), второй [(1/2) t |- 3]. Группы кривых / и II представляют собой случаи с раз- личной скоростью изменения указанных координат. Рас- стояние между центрами классов в данном эксперименте и других остается во времени неизменным. Анализ данных кривых позволяет сделать следующие выводы: 1. Чем больше память системы распознавания тп, тем менее влияет на случайную ошибку настройки степень пересечения классов, определяемая величиной дисперсии распределения совокупностей образов ст внутри каждого класса. 2. Чем больше тп, тем больше систематическая ошибка настройки коэффициентов СР (рис. 8-17, 8-18). 8 Заказ № 975 225
3. При малых значениях тп (тп — 5) и К* — — 2 процесс настройки коэффициентов СР является неустой- чивым, а при увеличении тп до 20 делается устойчивым. Отсюда следует естественная необходимость при рассмот- Рис. 8-15. Исследование динамики настройки по замкнутому циклу СР нестационарных образов при ст = 3; а = 0; К* = — 0,1. ---- -----т = 20; ----------т = 3;------идеальное значение порога. Рис. 8-16. Исследование динамики настройки по замкнутому циклу СР нестационарных образов при о = 10, а = 0, К* — 0,1, ---------т — 20;----------т -= 3;--------иде- альное значение порога. рении СР нестационарных образов иметь дело с алгорит- мами с наличием памяти в блоке настройки. В большин- стве случаев распознавания нестационарных образов ал- горитмы с тп = 1, в частности алгоритмы, изложенные в [Л. 40, 41 ], неприменимы. Увеличение тп в какой-то степени компенсирует априорную недостаточность в зна- нии К*. 226
4. Скорость изменения во времени координат центров классов практически не влияет на ошибки работы контура настройки. Рис. 8-17. Исследование динамики настройки по замкнутому циклу СР нестационарных образов при X* = —0,5; т = 3. ---2 — а = 2, а — 1 (идеальное значение порога); —---а = 10, а = 5; -----------------а = 20, <з = 5; —----------а = 40, а = 5. Рис. 8-18. Исследование динамики настройки ио замкнутому циклу СР нестационарных образов при К* = — 0,5; т = 20. ------а = 1, а = 2;-----------а = 5, а = 10; ------а = 5. а = 20;----------о = 5, а = 40. 5. Область изменения №*<< — 1 является областью необходимых условий устойчивости коитура настройки СР. 6. Обращает на себя внимание характерная модуляция огибающей изменения порога СР при неустойчивом режиме работы. 8* 227
7. Проведенные расчеты с квадратичной зависимостью изменения во времени координат центров классов показали, что выводы пп. 1—6 подтверждаются, однако в этом случае Рис. 8-19. Исследование динамики настройки по замкнутому циклу СР нестационарных образов при а = 5; а — 0; т := 20. -----------К* = _ 0,5;---------------------к* = ----------К* = — 1 (идеальное значение --------------------------------К* =- - 2. — 0.75: порога); Рис. 8-20. Исследование динамики настройки по замкнутому циклу СР нестационарных образов при о = 5; а = 0; т = 5. ---------К* =-0.5:----------л* = — 0,75;----------К* = — 1 (идеальное значение порога); ООО — К* = — 2. имеет место более характерное, чем в случае линейной за- висимости, увеличение систематической ошибки работы контура настройки СР во времени. Прн достаточно больших значениях тп выявляется закономерность изменения знака 228
— •— — nt = 20; О ' • — тп = 5;-----------идеальное значение порога. Рис. 8-22. Исследование динамики настройки по замкнутому циклу СР нестационарных образов при о = 10; а. = 0; К* — = — 2. —.------тп = 20; оооо—тп = 5; -----• — идеальное значение порога. систематической ошибки контура настройки СР (отрица- тельный при /<*> — 1, положительный при К*<— 1). Эксперимент по оценке влияния степени пересечения классов на динамику контура настройки СР (рис. 8-20 — 229
8-22) показал, что при К* = — 2, когда процесс настройки является автоколебательным, степень пересечения классов играет значительную роль в формировании процесса на- стройки. При значительных а процесс настройки расхо- дится. При незначительных о. колебательный процесс на- стройки периодически изменяет свою амплитуду относи- тельно идеального значения порога, в некоторые моменты времени принимая достаточно точные значения. Необходимо отметить, что процессы (рнс. 8-21) имеют место в основном в существенно нелинейных системах, ка- ковыми и являются СР, настраивающиеся по замкнутому циклу. Эксперимент с СР с упреждением решения на время а позволил сделать следующие выводы (рнс. 8-17, 8-18): 1. Чем больше а, тем больше случайные ошибки кон- тура настройки СР по замкнутому циклу. 2. Чем больше а и меньше т, тем при постоянном а больше случайные ошибки контура настройки СР по замк- нутому циклу. 3. Расчеты с линейной и квадратичной гипотезой из- менения во времени координат центров классов показали, что при прочих равных условиях увеличение порядка ги- потезы приводит к увеличению случайных ошибок контура настройки СР по замкнутому циклу. 8-7. Исследоввние динамики трехслойной СР в режиме обучения Предметом исследования в данном случае являлась трехслойная СР из ЛПЭ с континуумом решений. Первый, второй и третий слои СР содержали соответственно три, два и один ЛПЭ. Пространство признаков было в общем слу- чае многомерным; в частном случае — двумерным. ^Ра- зомкнутая СР описывалась следующим выражением: 4 = 4агс‘§В 2 й‘.». — arctgB 5 ahh х Л,=1 л Л,=1 пг иг РГ 2 X — arctgB V ; Ле=0 I 4 I 230
Выражения для оценок градиентов a2g: т, 16 В3 V? /-Ч — 11 X (<) X Л3 тп i=\ 6 Рис. 8-23. Начальные и конечные положения разделя- ющих поверхностей, реализуемых ЛПЭ в экспери- менте 1-3. а = первый слой; б — третий слой. d*g _ 8 Д- V1 ,.. ___°|, И_______. _-2 т"24х‘ |1+н«]2]['+ш2] ’ ---т тп « а\\ m 11 ‘ ни ' Для распределений, линии равных значений которых представлены на рис. 8-23, оптимальное состояние рассмат- риваемой многослойной СР определяется следующим об- разом. Для первого слоя ЛПЭ1Х, ЛПЭ12, ЛПЭ1Э. имеют со- ответственно коэффициенты: а10 — — 12, аг1 — 1, а12 1; а2о = 24, а21 = —1, а2г = — b а30 = — 36, а31 1, °3 2 ~ 1 * 231
Для второго слоя ЛПЭ2ь ЛПЭ22 имеют коэффициенты: я!0 —0’ яп~1> а|2 — 1» ai3“ й2о = О’ а21 = 1, а22 = 1, а23 == 1, для третьего слоя коэффициенты ЛПЭ31: а;0=°, а;!=1, а;2-1. Эксперименты проводились со следующими парамет- рами датчика образов на входе СР: размерность входного пространства признаков N = 2, число мод / (х) равно 4. Эксперименты с первым слоем ЛПЭ СР (второй и тре- тий слои оптимальны). Каждый из перечисленных ниже экспериментов определялся своими условиями. 1-1. Приведенные выше коэффициенты гиперплоскостей, реализуемых ЛПЭ СР, оптимальны. 1-2. Параллельный сдвиг гиперплоскостей, реализуе- мых ЛПЭ первого слоя СР (начальные коэффициенты: + 1, 1, —8, — 1, — 1,20; 1,1, —32). 1-3. Параллельный сдвиг двух гиперплоскостей, реа- лизуемых ЛПЭ первого слоя СР, в разные стороны (началь- ные коэффициенты: 1,1; —8; — 1; —1,24; 1,1; —40). 1-4. Поворот двух гиперплоскостей, реализуемых ЛПЭ первого слоя СР, на угол а -- л (начальные коэффициенты: — 1; — 1,12; 1,1; —24; 1,1; —36). Эксперименты со вторым слоем ЛПЭ СР (первый и тре- тий слои оптимальны). 2-1. Поворот одной гиперплоскости, реализуемой ЛПЭ второго слоя СР, на угол а — л (начальные коэффициенты - 1; - 1; - 1; 1,1; 1). 2-2. Поворот двух гиперплоскостей, реализуемых ЛПЭ второго слоя СР, на угол а — л. Эксперименты с третьим слоем ЛПЭ СР (первый и второй слои оптимальны). 3-1, Поворот гиперплоскости, реализуемой ЛПЭ третьего слоя СР, на угол а == л. Ниже приведены результаты экспериментов. На рис. 8-24 —8-26 приведена иллюстрация процессов настройки коэффициентов ЛПЭ СР. По вертикальной оси отложены отношения коэффициентов, а по горизонталь- ной — количество итераций. Уровень осей координат соответствует оптимальному значению коэффициентов. Экс- перимент 1-1 подтверждает предположение об устойчиво- сти значений коэффициентов ЛПЭ СР в оптимальном со- 232
стоянии, так как при достаточно большом ко- личестве итераций от- клонения этих значений от оптимальных были незначительны. Экспе- рименты 1-2 и 1-3 пока- зали, что градиентная процедура обеспечивает настройку таким обра- зом, что разделяющие плоскости приходят за 25—30 итераций в опти- мальное положение. Довольно интересен результат эксперимента 1-4. Начальные условия эксперимента таковы, что поверхности, реали- зуемые первым и вто- рым ЛПЭ второго слоя СР, занимая оптималь- ные положения, отно- сили векторы первого класса ко второму, а вто- рого к первому (т. е. осуществляли классифи- кацию «наоборот»). В ре- зультате настройки раз- деляющие плоскости пришли в оптимальные положения, перемещаясь параллельно самим себе, хотя принципиально воз- можен поворот плоско- стей па 180°. Разделя- ющие плоскости, реали- зуемые ЛПЭ второго и третьего слоя, проходят через начало координат, т. е. при настройке воз- можен только поворот этих плоскостей вокруг начала координат. По- Рис. 8-24. Динамика настройки ко- эффициентов в эксперименте 1-2 (ко- личество итераций равно 50) при тп - 50; К* 0,1; К, — 0,01; К2 = 0,1; К3 - 0,1; К2, Кя- весовые коэффициенты к К* для ЛПЭ первого, второго, третьего слоев. I — первый ЛПЭ; 2 ~ второ» ЛПЭ; 3 — третий ЛПЭ. Рис. 8-25. Динамика настройки ко- эффициентов ЛПЭ в эксперименте 1-4 (количество итераций 32) при тп = 50; К, = 0,05; к\ = 1; К2 — 0,05; /(а = 0,05. 1 — первый ЛПЭ; 2 — второй ЛПЭ; 3 — третий ЛПЭ. 233
этому эксперименты с ЛПЭ второго и третьего слоя пре- дусматривали настройку коэффициентов плоскостей, по- вернутых на 180°. В результате настройки в эксперименте 2-1 плоскость, реализуемая ЛПЭ третьего слоя, разверну- лась в оптимальное положение. На рис. 8-26, 8-27 представ- лена динамика настройки коэффициентов ЛПЭ СР для экс- перимента 2-2 и 3-1. В результате обучения СР гиперпло- Рис. 8-26. Динамика настройки коэффициентов ЛПЭ в эксперименте. а — эксперимент .2-2; б — эксперимент 3-1; 7 — первый ЛПЭ; 2 — второй ЛПЭ; 3 — третий ЛПЭ. скость, реализуемая ЛПЭ третьего слоя, развернувшись на 180°, пришла в оптимальное состояние. Вполне законо- мерно поведение коэффициентов ЛПЭ первого слоя, так как до момента, когда коэффициенты ЛПЭ третьего слоя не оптимальные, коэффициенты ЛПЭ первого слоя значи- тельно отклоняются от оптимальных. Но после настройки ЛПЭ третьего слоя они приходят в оптимальное состояние. Данная работа является начальным исследованием мно- гослойных СР, настраивающихся по замкнутому циклу в режиме обучения. Результаты проведенных экспериментов подтвердили теоретическое обоснование исследуемого ал- горитма настройки, а также показали высокую его эффек- 234
гивпость. Остается довольно широкий круг вопросов, ко- торые необходимо исследовать. К ним в первую очередь относятся: 1) выбор оптимальных коэффициентов К в градиентной процедуре и их соотношения между слоями многослойной СР (этого вопроса частично коснемся ниже); 2) изучение влияния избыточности структуры много- слойной СР на эффективность и качество настройки и т. д. 8-8. Исследование СР частного айда с обратными связями Объектом исследования в данном пункте является од- номерный ЛПЭ с обратной связью, описываемый следую- щими соотношениями: xk (пДТ) = sign [g (n AT)]; g (п&Т) = x (nAT) — — a0(nAT)-b aA (nAT) xk [(n— 1) AT], (8-7) где AT — интервал времени между моментами поступле- ния образов на вход СР. В качестве критерия вторичной оптимизации выбирается критерий минимума а2а. Предпо- лагается, что при настройке но замкнутому циклу коэффи- циенты а0 и ak не меняют своего значения на интервале усреднения тп. Выражения для оценок градиента сс2а имеют в данном случае вид; ----------тп (П&Т)-----------------тп -=2xa(n&T) аХ“ ("А-- = - 2ад[П- 1) АГ] (8-8) dak Выражения (8-7), (8-8) служат основой для построения соответствующей замкнутой СР. Усреднение измеренных значений градиента производилось оптимальным дискрет- ным фильтром с памятью тп, синтезированным исходя из априори заданной гипотезы об изменении на интервале тп математического ожидания входного сигнала (стационар- ный, линейный, квадратичный сигнал и т. д.). Анализ ре- зультатов экспериментального (па ЦВМ) исследования ЛПЭ с обратной связью, частично представленных на рис. 8-27 — 8-32, позволили сделать следующие выводы; 1. Введение положительной или отрицательной обрат- ной связи в разомкнутой СР (№*>0 или К* <0 в кон- 235
Рис. 8-27. Ис- следование ди- намики на- стройки ЛПЭ с обратной связью (т = 20; К* = — 0,5). ------ — идеаль- ный случай (а0 = 2t 4- 3): — — — — без обратной связи; ------ — с поло- жительной обрат- ной связью при К* = 0,5 и отри- цательной обрат- ной связью при = - 0,5; —у--------с положительной обратной связью при Л] — — 0,5;--------иде- альный случай (а0 = 0,5/ 4- 3); —----------------------------------------------------------------без обратной связи и с положитель- ной обратной связью при К| = 0,5; --------------------------------с отрицательной обратной связью при К* = — 0,5; —XX-----с положительной обратной связью при К]= —0,5- Рис. 8-28. Исследование динамики настройки ЛПЭ с обратной связью. -------идеальный случай (д0 = 2/4- 3);-----------без обратной связи: -------с положительной обратной связью при /С = 0,5 и отрицательной обратной связью при К, = — 0,5; —X— — с положительной обратной связью при /<[ = —0,5;------идеальный случай (ц0 = 0,5/ 4- 3)';----- без обратной связи;-----— с положительной обратной связью при К. = 0,5 и отрицательной обратной связью при К. = — 0,5; —уу— — с поло- жительной обратной связью при К* = — 0,5. 236
Рис. 8-29. Ис- следование ди- намики на- стройки ЛПЭ с обратной связью при т = 5; К* = = — 0,5. ----- — идеаль- ный случай (а, = 2/ -F 3); ---— без обратной связи; —------ с поло- жительной обрат- ной связью при Kj = 0,5 и с от- рицательной об- ратной связью при К] = — 0,5; —X— — с положительной обратной связью при Кj = — 0,5; —• ----------без обратной связи;--------- — с положительной обратной связью при = 0,5 и с отрицательной обратной связью при = — 0,5; —X X— — с поло- жительной обратной связью при Х]\= — 0,5;---------- — идеальный случай (а0 = 0,5/ + 3). Рис. 8-30. Исследование динамики настройки ЛПЭ с обратной связью, ------идеальный случай (ао = 2/ 3);---------без обратной связи; ------— с положительной обратной связью при = 0,5 и с отрицательной обратной связью при К* = — 0,5; — идеальный случай (а0 = 0,5/ + + 3);—••— — без обратной связи; —• — • -г- с положительной обратной связью при Kj — 0,5 и с отрицательной обратной связью при 7G = — 0,5; ---XXX-------с положительной обратной связью при = — 0,5. 237
туре настройки коэффициента ak) приводит к одинаковым результатам настройки СР по величине а0 и суммарному порогу = а0 (я) -4- ak (п) xk (п—1), но различным по знаку и одинаковым по модулю коэффициентам ak. Рис. 8-31. Исследование ди- намики настройки ЛПЭ с обратной связью при т — = 20; К* = —0,5 (К* — коэффициент настройки по. рога а0; — коэффициент настройки а*). Для идеального случая (о0 = = It + 3): •— X------с поло- жительной обратной связью при /<] = — 0,5;—-------с от- рицательной обратной связью при А?! = 0,5;----------с по- ложительной обратной связью при К. = 0,5. Для идеального случая а0 = 0,5/ + 3: —XX— — с положительной об- ратной связью при = - 0,5; — -----с отрицательной обрат- ной связью при /с = — 0,5; с положительной обратной связью при = 0,5. Рис. 8-32. Исследование дина- мики настройки ЛПЭ с обрат- ной связью при т — 5, К*---------------0,5. Для идеального случая а0 = 2/-|-3: — X— — с положительной обрат- ной связью при = — 0,5; — •— — с отрицательной обрат- ной связью при = — 0,5; -----------с положительной об- ратной связью при Kj — 0,5. Для идеального случая а0 = 0,5/ + 3: —XX--------с положительной обрат- а> ной связью при Kj = — 0,5; —-------с отрицательной обрат- ной связью при = - 0,5; --------— с положительной об- ратной связью при К, =0,5. 2. При достаточно большой памяти СР в блоке на- стройки (порядка тп = 20) характер изменения а0 и ak является колебательным. При уменьшении памяти (до 238
тп = 5) колебательность процесса настройки коэффици- ента ak резко возрастает, а коэффициента aQ — падает. 3. Систематическая ошибка настройки коэффициента а0 увеличивается при увеличении памяти системы, а также при введении обратной связи в структуру разомкнутой СР. Систематическая ошибка настройки суммарного порога СР практически равна нулю. Это — положительное свой- ство СР с обратной связью по сравнению с СР без обратной связи. 4. Уменьшение К* — коэффициента в итерационной процедуре настройки коэффициента обратной связи — при- водит, естественно, к тому, что СР с обратной связью по своим характеристикам приближается к СР без обратной связи. 8-9. Исследование динамики однослойных СР в режиме самообучения Ниже представлены результаты моделирования на ЦВМ четырех типов СР в режиме самообучения: СР с поиском центров мод распределения / (х); СР в виде слоя ЛПЭ с двумя решениями; СР в виде ЛПЭ с /<р решениями. Основной задачей исследования является оценка ка- чества разработанных алгоритмов при наличии на входе сигнала х (ft) с распределением произвольной модально- сти. Качество определяется числом найденных и выделенных алгоритмом мод распределения f (х) при заданной точности получения величин настраиваемых коэффициентов СР. а) СР с поиском центров мод распределения f (х) В соответствии с результатами гл. 7 рассматривается алгоритм самообучения, реализующий' следующее рекур- рентное соотношение: b(xft, ft-|- l) = b(x*, ft) -}-K* ]x(ft)~b(xfe, ^)] (8-9) и включающий в себя следующие этапы. 1. В заданном интервале изменения х случайным обра- зом выбираются координаты -мерного вектора b (xk, 0). 2. На вход поступает очередной образ х. Вычисляется ближайший к данному х центр Ь. 3. В соответствии с выражением (8-9) данная координата вектора b (xk) изменяется. 4. Замыкается внутренний цикл на п. 2, затем внешний цикл на п. 1. Распределение случайного входного сигнала 239
b(xh,m Рис. 8-33. Изменение координат центров классов в процессе на- стройки при К* = 0,02; а - 0,5. x (п) представляет собой сумму нормальных законов с за- данной дисперсией и математическими ожиданиями, рав- ными 2, 4, ... , 16. Число мод распределения f (х) в про- цессе эксперимента устанавливалось фиксированным от двух до восьми. На рис. 8-33 представлена типовая зави- симость b (хъ п) в режиме настройки, полученная на ЦВМ для одного из вариантов случайных начальных условий. Результаты работы алгоритма представлены в табл. 8-1 н 8-2. В таблицах i — номера мод распределения f (х), уча- ствующие в эксперименте (считая слева по оси х моды с координатами 2, 4 . . .), Z — модальность распределе- ния f(x), j — номер цикла выбрасывания случайных начальных условий b (хЛ, 0) поиска экстремума R. Таблица 8-1 просчитана на ЦВМ для случая /Ср=-5, М = 300 (число итераций по п), К* = 0,02. В ней для каждого о в правой ко- лонке представлено число мод распределения / (х), найденных алгоритмом на данном /-м шаге выброса случайных начальных условий. В левой колонке пред- ставлено соответственно число мод, найденных за все предыдущие циклы, включая /-й. Такого же рода данные представлены в табл. 8-2 для случая Z = /<р, К* = 0,01, М — 100, а = 0,5. Анализ результатов работы рассматри- ваемого алгоритма самообучения, представленных в табл. 8-1, 8-2, позволяет сделать выводы: 1) рассматриваемый алгоритм достаточно работоспосо- бен при значительной сложности (Z) задачи самообучения; 2) экспериментальные результаты подтверждают теоре- тические выводы, сделанные в гл. 7 относительно предла- гаемого алгоритма поиска локальных и глобального экс- тремумов функций; 3) чем больше а (степень пересечения классов), тем ниже качество работы алгоритма при фиксированных Z, КР, К*, h / Данный алгоритм был несколько видоизменен, так как очевидно, что задание начальных условий для поиска экс- тремума функционала вторичной оптимизации (начальных значений координат центров классов) лучше производить 240
Т а б лица 8-1 i z j 0=0,1 o=d,3 o=0,5 0=0,7 o=0,9 1 1 2 2 2 2 2 2 2 2 0 0 2 2 2 2 2 2 2 1 2 1 0 0 2 3 2 2 2 0 2 I 2 0 0 0 4 2 1 2 2 2 2 2 0 0 0 5 2 0 2 0 2 0 2 0 1 I 1 1 3 3 1 I 1 1 1 1 1 1 2 2 3 2 3 3 1 0 1 0 1 0 3 3 3 3 3 3 2 2 2 2 2 2 ! 4 3 3 3‘ 3 3 3 2 1 2 2 5 3 2 3 2 3 1 2 2 2 1 1 I 2 2 2 2 1 1 1 1 2 2 2 2 4 4 3 3 2 1 2 I 2 1 3 4 3 4 2 3 1 2 1 2 1 2 2 4 4 4 2 4 3 3 1 3 1 2 0 5 4 4 4 4 4 3 3 2 2 1 1 1 3 3 2 2 0 0 0 0 0 0 2 2 4 2 3 1 1 1 1 I 2 2 3 5 3 5 3 5 3 2 2 3 2 4 3 4 4 5 2 5 I 4 1 4 2 5 2 5 5 I 5 1 5 1 4 1 5 1 241
Таблица 8-2 / i=l,2,3,4,5.6 i=l .2,3,4,5,6,7 i==l,2,3,4,5,6,7,8 Z=Kp-6 Z-Kp-7 Z-Kp-8 I 0 0 3 3 2 2 2 2 2 4 1 4 3 3 2 1 6 2 4 1 4 4 2 6 2 5 1 5 4 0 7 3 6 2 6 4 1 7 0 6 1 7 4 0 7 0 6 2 8 4 2 7 2 7 4 9 5 1 7 1 8 3 10 5 3 7 3 8 2 11 5 1 7 0 8 2 12 5 1 7 0 8 2 13 5 2 7 0 8 0 14 5 0 7 1 8 3 15 6 2 7 2 8 2 .6 6 2 7 5 8 1 17 6 0 7 1 8 1 18 6 1 7 2 8 3 .9 6 2 7 0 8 0 20 6 - 7 2 8 2 242
Таблица 8-3 Моды i Число мод Z Номер экспери- мента / Выбор начальных условий Равновероятно ПО (х,) . . . x(z) 1—4 4 1 0 | 0 3 3 2 1 1 1 3 3 3 2 | 2 3 4 4 0 | 2 3 4 5 ' 2 2 4 1—5 5 1 2 | 2 1 1 2 1 5 5 3 1 2 1 5 4 ' I 3 1 5 5 1 3 3 5 1—6 5 I 1 1 1 4 4 2 3 | 4 0 4 3 0 | 4 2 5 4 2 | 5 3 6 5 0 | 5 1 6 1—7 7 1 1 1 1 4 4 2 3 | 3 1 4 3 2 | 4 1 5 4 1 1 4 1 6 5" 4 | S 3 6 1 4 | 4 2 2 1—8 8 2 1 1 4 4 6 3 3 1 4 2 7 4 3 | 4 2 8 5 3 | 5 2 8 243
в виде координат первых Z образов, поступивших на вход СР в режиме самообучения. Повышение качества работы алгоритма самообучения в данном случае по сравнению с равновероятностным заданием начальных условий на некотором интервале иллюстрируется табл. 8-3, в которой для данных двух способов задания начальных условий и описанного выше алгоритма самообучения представлено число мод распределения, найденных на Л-м шаге выброса начальных условий и за Л шагов. В данном эксперименте К* —- 0,02, о = 0,5, коэффициенты / (х) Ь1у Ь2, Ья, Ьь Ьь, Ье, Ь?, Ьц соответственно равны — 9,1; — 7, — 3, — 5, —1; 3,13. Пространство X ограничено интервалом [—И, 51. б) СР с N* выходными каналами В данном случае рассматривалась СР в виде слоя ЛПЭ с характеристиками Л7 — 1, — 3. Структурная схема данной СР представлена на рис. 8-34. В данном случае Рис. 8-34. Структурная схема слоя ЛПЭ (N = 1), Ш)’ («оз)] I2’ <8-Ю) Ь1 Ь2 Ь3 х -О—1’1 I о | О I О > °-Of aQ2 &Q3 Рис. 8-35. К расчету коорди- нат центров классов. причем величина b (хА) однозначно определяется по извест- ным в текущий момент времени величинам awl, а02, ^оз в соответствии с рис. 8-35, табл. 8-4 и следующими выра- жениями: = , < = 2,3; А „ t аЧЗ~~ °02 о* = а03 ----------. Из (8-10) следует, что — =— 2[x(ri) — b(x, daai n)] дх/а да„1 (8-11) 244
.Таблица 8-4 xk 6 (\) b, &3 Xkl —1 -1 1 +1 +1 Xk2 — 1 +1 + 1 xk3 — 1 —1 —1 4- 1 Здесь согласно рис. 8-34 dxki/da(ti = — 1. Вектор db!dxkl вычисляется следующим образом. Таблица 8-4 мо- жет быть представлена иначе, а именно в виде табл. 8-5. Отсюда следует, что Г^, ь3-ь„ ь,-ь3]. dxki dxk2 dxk3 j Окончательный алгоритм настройки коэффициентов СР в данном случае выглядит: a0<(«T l) = a»,-(n) + Ko.' [X(п) —&(лгА1-м)] ^^-1 . (8-12) дх>“ («> Вектор b (xk, ii) вычисляется либо так, как указано выше, либо (для СР с более сложной структурой) по рекур- рентной формуле, аналогичной рассмотренной в предыду- щем пункте. Экспериментально исследованный алгоритм содержит следующие этапы работы: 1. На вход СР поступает образ х (л). 2. Случайным образом на интервале изменения х за- даются начальные значения настраиваемых параметров (i = 1, 2, 3). 3. По значениям aOi вычисляются значения blf . . . , b4. 4. Выбирается компонента вектора b (xft), ближайшая К X (п). 5. Для данной компоненты выбирается соответствующая в векторе db!dxki. 6. Пользуясь данными пп. 1, 2, 4, 5 и выражением (8-12), производят настройку коэффициентов СР. 7. На вход СР поступает образ х (п 1) и далее про- должается процесс настройки, начиная с п. 3. 245
Таблица 8-5 хы xk2> xk3 -l.-l —1, I 1. -1 l. 1 —1 bl - - — 1 bz - ba 64 xk2 xkV xks — i, —I -1, 1 1. -1 1, 1 — 1 bi - bs - 1 - - ba '>4 xk3 xkl< xk2 —1, —I -1.1 1. -I 1.1 — i bl - Ьц 6s 1 - - — 64 Исследовалось качество работы алгоритма как при оп- ределенным образом задаваемых начальных условиях, так и при случайно задаваемых с усреднением результатов по множеству случайных выбросов начальных условий на- стройки. На рис. 8-36 представлена иллюстрация динамики на- стройки СР при определенных начальных условиях (ко- ординаты мод равны 3, 5, 7; сплошная линия — один ва- риант, пунктирная—другой). На рис. 8-37, 8-38 представлены некоторые результаты работы алгоритма при случайных начальных условиях и конечной последовательности образов, а также заданных 246
начальных условиях и различной длине последовательно- сти образов. Жирные линии соединяют коэффициенты цент- ров классов начальные (м — 0) и конечные (п — М) моменты настройки. Рис. 8-36. Динамика стройки коэффициентов представленной на рис. Рис. 8-37. Результаты иссле- дования слоя ЛПЭ в режиме самообучения при различных начальных условиях и оди- наковой длине выборки М на входе. Рис. 8-38. Результаты ис- следования слоя ЛПЭ в ре- жиме самообучения при одинаковых начальных условиях и различной длине выборки М на входе: = 150; М2 = 300; М3 = 450; М4 = 600. в) ЛПЭ с Кр решениями В данном случае 4 = ’+у 2 Rn /4 1) +Ф g (п) = «1 (п) х (п)—а0 (п). Как и ранее, 247
Используя полученные в гл. 7 значения dxk!da, для дан- ного случая можно записать рекуррентные выражения, являющиеся основой для построения соответствующего алгоритма настройки СР в режиме самообучения: а0(п+1) = а0(п) — Ко [х(n) — 6 (х4)1 , Ко>О; «л «1 (п + 1) = аг (га) + Ki [X (га) - ь (Х4)1 sign х. dxk Алгоритм настройки СР содержит в данном случае сле- дующие этапы: 1. На некотором заданном интервале случайным обра- зом выбираются значения коэффициентов а0 и av 2. В соответствии со структурой разомкнутой СР и значениями коэффициентов а0 и вычисляются текущие значения порогов 3. Вычисляются значения b (xk) в соответствии с выра- жениями + /=2’3.............*₽-1; 4. На вход СР в момент времени п поступает образ х (п) и вычисляется величина xk. 5. По величине xk выбираются соответствующие значе- < , ч дЬ (хь) пня b(xk) и —— . dxk 6. Производится коррекция настраиваемых коэффици- ентов я0 и Я] в соответствии с приведенными выше выраже- ниями. 7. Процедура повторяется начиная с п. 2. 8. Процедура повторяется начиная с п. 1, и результаты усредняются по множеству выбросов начальных условий. Экспериментально в данном случае исследовалась лишь работоспособность алгоритма. Результаты не приводятся ввиду ограниченности объема книги. 248
8-10. Двухслойная СР в режиме самообучения Вначале предметом исследования являлась двухслойная СР, в которой в первом слое было четыре ЛПЭ с двумя ре- шениями, во втором — ЛПЭ с /Ср — 5 решениям. Здесь I кр Г l'"^4 *fc = -F(g)=l+— 2 si§n 2 O/Signx 2 ‘р-i L 11-' /N==2 \ 1 I x 2 — k9 +1 . \ i=o / I J С использованием материалов гл. 7 были получены вы- ражения, являющиеся основой для построения замкнутой двухслойной СР в режиме самообучения, в следующем виде: ау(л-|-1) = =а,-(п)+К* |х(‘Нfa,n)]rab<Xt' п) /=1.....5; а,7 («+!) = а,7(п) + [х (л)—b (хк, л)]г ЙЬ {х“' п} sign [а, (п) х, (л)], dxk i=\t . . . , N\ 1.......5; Ь(хй, n) = b(xA, n) ]-K*** [x(n) —b(xA, n)]. Экспериментальное исследование данного алгоритма по- казало, что скорость сходимости при нахождении некоторой локальной моды мала и причиной этого является примене- ние в многослойной СР ЛПЭ с двумя решениями, которые в значительной степени «загрубляют» информацию о гра- диенте функционала вторичной оптимизации при кванто- вании выходного сигнала. В связи с этим основным пред- метом исследования являлась двухслойная СР, по струк- туре подобная описанной выше, но состоящая из ЛПЭ с кон- тинуумом решений. Для данной СР Хр=5Г + — 2 —arctgB 2 а,—arctgB х 2 ь л >1 л 249
a;(n+l) = a,.(n) + K*[x-&(xs, п)Г ай(**' n) х (8-13) я„(п+ l) = a„(n) + K**[x — b(xt, n)]r db {Xk' ni x Kp x _2 _________________В’а/ (л) x( (л) Л > H, t) Г N ‘12 1 + У Oj (n) — arctg В V aiS (n) x( — kp Я n M (8-14) b(xk, n-\-l) = b(xk, n) + K*** [x—b(xk, n)]. (8-15) Алгоритм был реализован на ЦВМ и представляет собой последовательность следующих этапов: 1) в память ЦВМ вводятся случайные или определен- ные начальные значения координат центров классов и на- страиваемых коэффициентов данной двухслойной СР; 2) производится подсчет векторов db (xk)/dxk't 3) на вход СР поступает образ х; 4) по данному х и состоянию многослойной СР в данный момент времени вычисляется значение xk\ 5) выбираются векторы b (xft) и db (xft)/dxfc, соответст- вующие данному xk; 6) с использованием результатов пп. 3, 5 вычисляются новые значения настраиваемых коэффициентов СР и цент- ров классов; 250
7) при подаче на вход следующего образа повторяется алгоритм по пп. 4—6; 8) после нахождения локального экстремума алгоритм повторяется по пп. 1—7. На рис. 8-39 представлены линии равного значения плот- ности распределения f (х), используемой при исследовании данного алгоритма. Оптимальные значения настраиваемых коэффициентов ЛПЭ первого слоя данной СР: ап = 9; — 15, tZja — 21: ^14 — = 27; fl2i ~ 1; й-22 ~ 1> о23 = 1; я24 = 1; я31 = 1; й32= 1; #33 = 1; аз4 ~ !• Рис. 8-39. Линии равных зна- чений плотности распределе- ния f (х). 1 — оптимальное положение разде- ляющих гиперплоскостей; 2 — ли- нии равного значения плотности распределения входного сигнала для различных дисперсий распре- делений, представляющих моды / (х). ЛПЭ второго слоя с /Ср = 5 решениям должен реализо- вать логическую функцию, представленную в табл. 8-6. Условием формирования правильного решения xk является формирование соответствующего промежуточного значе- ния аналогового выходного сигнала g (л) = xk — 0,5. На основании этого может быть составлена система алгебраи- Таблица 8-6 xk 1 2 3 4 5 —1 1 1 1 I ^2 —1 — 1 1 1 1 Xk3 —I — 1 —1 1 1 —1 — 1 —1 —1 1 251
ческих уравнений для определения оптимальных коэффи- циентов ЛПЭ второго слоя: — аг—а2—а3—4- 2,5 — 0,5; —а2—аз—ai + 2,5 = 1,5; — аз — #4 + 2,5 = 2,5; + ^2 + аз — ai + 2,5 = 3,5; Й1 4" йз Н- йз “Ь h 2,5 — 4,5. Отсюда » ai ~ а2 — аз = ал = 0,5. Эксперименты на ЦВМ с рассматриваемой двухслойной СР проводились в соответствии со следующим планом: 1. Эксперимент с различными дисперсиями распределе- ний, составляющих моды f (х) (рис. 8-39). 2. Коэффициенты ЛПЭ второго слоя оптимальны, зна- чения центров классов оптимальны. Для коэффициентов ЛПЭ первого слоя задавались следующие различные ус- ловия: а) коэффициенты ЛПЭ первого слоя оптимальны; б) начальные значения коэффициентов ЛПЭ первого слоя задавались с равным отклонением от оптимальных; в) начальные значения коэффициентов ЛПЭ первого слоя задавались с различными по величине и по знаку от- клонениями от оптимальных. 3. Коэффициенты ЛПЭ второго слоя оптимальны; при неоптимальных начальных значениях центров классов про- водились эксперименты, аналогичные пп. 2а и 26. 4. Коэффициенты ЛПЭ первого слоя и значения центров классов оптимальны. Начальные значения коэффициентов ЛПЭ второго слоя не оптимальны. 5. Эксперименты, аналогичные п. 3, но с неоптималь- ными начальными значениями центров классов. 6. Коэффициенты ЛПЭ первого и второго слоя и значе- ния центров классов не оптимальны. 7. Все перечисленные выше эксперименты проводились при различных, по детерминированных начальных условиях. Завершающим явился эксперимент со случайными началь- ными условиями на коэффициенты ЛПЭ и центры классов. Эксперимент н. 1а показал устойчивость двухслойной СР в глобальном экстремуме специальной средней функции риска. Для случая, когда начальные значения коэффициентов 252
ЛПЭ обоих слоев оптимальны, а центры классов не опти- мальны, результаты эксперимента приведены на рис. 8-40. Для случая, когда начальные значения коэффициентов ЛПЭ первого слоя были не оптимальны, а начальные значения коэффициентов ЛПЭ второго слоя и значе- ния центров классов опти- мальны, результаты экспе- римента ' приведены на рис. 8-41. Как видно из ре- зультатов данного экспери- мента, выбранное располо- жение мод плотности рас- Рис. 8-40. Динамика настройки по координатам центров клас- сов. — .......................... l_ О 400 600 12001600 2000 2400 2000 О 1 2 3 4 5 6 7 8 9 10 11 12 15 14 15 16 17 18 Рис. 8-41. Результаты исследования двухслойной СР в режиме самообучения. ------------- — начальное положение гиперплоскостей; —-------— оптимальное положение гиперплоскостей; — - -----положение гиперплоскостей через 3 000 итераций. 253
пределения входного сигнала делает гиперплоскости (/, II, III, IV) мало чувствительными к повороту. Здесь при срав- нительно большом диапазоне угла поворота плоскостей величина функционала качества не изменяется (при усло- вии неизменного порога а1;). Этот факт, очевидный из фи- зических соображений, подтверждается экспериментом. Приведенные рассуждения позволяют считать целесообраз- 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 Рис. 8-42. Результаты исследования двухслой- ной СР в режиме самообучения. I — начальное положение гиперплоскостей; II — опти- мальное положение гиперплоскостей; III — положение гиперплоскостей через 3 000 итераций. ным в дальнейшем при данном расположении мод f (х) ис- следование лишь динамики настройки порогов ais- (j — 1, 2, 3, 4) и только в отдельных исключительных случаях исследовать также и динамику настройки коэффициентов наклона гиперплоскостей. Для случая, когда начальные значения коэффициентов ЛПЭ второго слоя оптимальны, а начальные значения ко- эффициентов Л11Э первого слоя и значения центров классов брались с одинаковыми по величине отклонениями в одну сторону (отклонения отрицательны), результаты экспери- 254
Рис. 8-43. Результаты исследования двухслойной СР в ре- жиме самообучения. 1—4 конечные положения гиперплоскостей, реализуемых ЛПЭ1 — ЛПЭ4 первого слоя соответственно. 255
мента приведены на рис. 8-42. Динамика настройки поро- гов приведена на рис. 8-43 (сплошная линия). В случае по- ложительных отклонений динамика настройки также про- иллюстрирована на рис. 8-43 (штрих-пунктирная линия). Для случая, когда начальные значения коэффициентов ЛПЭ второго слоя оптимальны, а начальные значения ко- эффициентов ЛПЭ первого слоя и центров классов брались с различными по величине и знаку отклонениями от опти- Рис. 8-44. Результаты исследования двухслойной СР в режиме самообучения. 1 — начальное положение гиперплоскостей; II — оптимальное положение гиперплоскостей; III — положение гиперплоскостей после 3 000 итераций. мальных, результаты эксперимента приведены иа рис. 8-43 (пунктир) и 8-44. Цель эксперимента п. 6 состояла в выяснении влияния дисперсии распределений, представляющих моды fx (х), на качество распознавания. Эксперименты этой группы проводились при одних и тех же начальных условиях (типа начальных условий эксперимента, представленного на рис. 8-42) и различных дисперсиях о2 (рис. 8-45). Сравнивая результаты экспериментов этой группы, можно сделать вывод о том, что для данного расстояния 256
между модами плотности распределения входного сигнала задача самообучения может быть решена для о„акс = 1,5. Этот экспериментальный факт имеет ясное физическое обо- Рис. 8-45. Результаты исследования двухслойной СР в ре- жиме самообучения. --------оа = 1;----------------о2 = 1.5; — -------о2 = 2; -------------------------------о» = 2,5. снование, так как при большом о2 (сильно пересекающиеся классы) невозможно выделить группы локально сосредото- ченных объектов и, следовательно, методы самообучения (на данном этапе своего развития), основанные на выделе- нии таких групп, оказываются неработоспособными. 9 Заказ -V? 975 257
Рис. 8-46. Результаты исследования двухслойной СР в режиме самообучения. О 1 2 3 Ч 5 6 7 8 9 Ю 11 12 13 18 15 16 1718 Рис. 8-47. Результаты исследования двухслойной СР в режиме самообучения. /, II, HI, IV— номера соответствующих ЛПЭ первого слоя; ---------------оптимальное положение гиперплоскостей; ---------- — начальное положение; — - — ------положе- ние после 5 000 итераций. 258
Для случая, когда начальные значения коэффициентов ЛПЭ первого слоя и начальные значения центров классов оптимальны, а начальные значения коэффициентов ЛПЭ второго слоя не оптимальны, динамика процесса настройки коэффициентов ЛПЭ второго слоя и результаты экспери- мента представлены на рис. 8-46. Все экспери- менты были проведены при памяти системы тп~ 1. В этом смысле следует учесть тот факт, что уве- личение памяти, вообще говоря, уменьшает случай- ную ошибку измерения. К технической стороне реа- лизации алгоритмов сле- дует добавить, что крите- рием остановки процесса Рис. 8-48. Результаты исследова- ния двухслойной СР в режиме самообучения. 1—4 — номера соответствующих ЛПЭ первого слоя. являлось вхождение кри- вых в «трубку» диаметром 0,2 (рис. 8-46) и длиной 500 итераций. Эксперимент иллюстри- руется рис. 8-47. На рис. 8-48 представлены результаты работы двухслой- ной СР в режиме самообучения с несколько другим видом типовой плотности fx (х). 8-11. О некоторых инженерных методах выбора параметров матриц в алгоритмах настройки многослойных СР по замкнутому циклу При построении алгоритмов настройки СР по замкну- тому циклу с оценкой только первой производной функ- ционала оптимизации вряд ли мы будем иметь информацию для того, чтобы сделать матрицу К* недиагональной. В простейшем случае это единичная матрица, умноженная на постоянный или переменный во времени, как в методе стохастической аппроксимации, коэффициент. Правда уже сейчас, как показано выше в экспериментах, есть основа- ния этот коэффициент делать различным для настройки коэффициентов различных слоев многослойной СР. Как указывалось в гл. 7, основная цель применения методов стохастической аппроксимации заключается в обеспечении 9* 259
нулевой случайной и динамической ошибки определения вектора настраиваемых коэффициентов в установившемся состоянии. Однако применение данных методов приводит к увеличению соответствующих динамических ошибок в пе- реходном процессе, т. е. в режиме настройки. В реальных инженерных задачах вряд ли есть необходимость в обеспе- чении нулевой случайной ошибки настройки СР в устано- вившемся состоянии. Некоторая конечная, достаточно ма- лая дисперсия распределения настраиваемых коэффици- ентов допустима ввиду относительной гладкости функцио- нала вторичной оптимизации в экстремальной точке. Эта конечная дисперсия распределения fa (а) не приводит к зна- чительному увеличению функционала вторичной оптими- зации и может быть обеспечена не переменной (как в ме- тоде стохастической аппроксимации), а постоянной во вре- мени матрицей К*. В случае постоянной во времени мат- рицы К* возможно два инженерных подхода к выбору зна- чений ее коэффициентов, по крайней мере для настройки ЛПЭ первого слоя. Первый подход основан на анализе априори задаваемой для СР сложности задачи, определяе- мой модальностью fx (х), при фиксированных размерах пространства признаков. Второй подход, также основанный на анализе экспери- ментов на ЦВМ, показывает, что в реальном случае возни- кает объективная необходимость в процессе настройки СР производить оценку функционала вторичной оптимизации и по его скалярной величине судить о качестве работы кон- тура настройки многослойной СР. Эта идея была реализо- вана в конкретных многослойных СР. Если кривая зависи- мости функционала вторичной оптимизации от п сильно колеблется, нужно уменьшить №*, если она достаточно гладкая, то нужно увеличить /С*, чтобы уменьшить систе- матическую ошибку настройки (увеличить быстродействие) до появления колебательности (достаточно малой) в данной зависимости. При этом первый подход к выбору /<* можно использовать для выбора начального значения К* при втором подходе, 8-12. Построение многослойной СР для решения задачи обращения матрицы В качестве примера ниже рассматривается построение много- слойной СР и алгоритма ее настройки по замкнутому циклу для решения задачи обращения 2Х 2-матрицы. Результатом обращения должна быть также 2х 2-матрица, поэтому на выходе многослойной 260
СР должны быть четыре ЛПЭ с континуумом решений. Минималь- ный вариант структуры разомкнутой трехслойной СР определяем в виде, изображенном граф-схемой на рис. 8-49. При недостаточной точности обращения матрицы в оптимальном режиме структура разомкнутой СР должна рассматриваться в сторону увеличения числа ЛПЭ сначала первого, а затем второго слоя. Начальные условия на настраиваемые коэффициенты ЛПЭ первого слоя здесь необходимо выбрать так, чтобы при условии В — оа четыре геперплоскости делили исходное четырехмерное пространство признаков на области равного гнперобъема. Выбор начальных условий на настраиваемые коэффициенты ЛПЭ второго Первый второй. Гретин Рис. 8-49. Графы многослойной СР для обращения матрицы и третьего слоя данной системы должен производиться аналогично тому, как это делалось для ЛПЭ первого слоя, так как в данном случае система строится из ЛПЭ с континуумом решений. Отдельным вопросом является формирование обучающей вы- борки для рассматриваемой многослойной системы. В данном слу- чае Xj D D D — зд — х2х3- В то время как на амплитуду изменения входного сигнала СР практически не накладывается ограничений, амплитуда выходного сигнала СР ограничена по каждому каналу диапазоном [—1, 4-1] ввиду специфики выходных ЛПЭ СР. Эта особенность требует опре* деленной нормировки входного сигнала таким образом, чтобы ни одна из компонент выходного сигнала не превышала пределов [ — 1, —1]. Данная нормировка входного сигнала должна произ- 261
водиться следующим образом. Пусть X — исходная матрица и х = = max Разделив X на х, получим матрицу Х_р элементы i—1,2, 3,4 которой лежат в пределах [—1, -J-1}. Обозначим: Таким образом, умножая элементы матрицы X на входе на величину 1/xDi и подавая ее на систему обращения, на выходе получим матрицу Г х4 хз"| 1 L — *з *11 х элементы которой лежат в диапазоне [—1, 1 ] и которую достаточно умножить на величину l/xDlt чтобы получить окончательный ре- зультат, т. е. матрицу X-1. Структура разомкнутой СР описывается следующими соотноше- ниями: 4 = ( У ЧЛ+ч'| • Л1= ' 2, 3, 4; \hn~l ' 2 / 4 \ <=T="tgJ 2 + Л2= 2. 3. 4; чЛ,= 1 ’ ' =~~arctgfi ( 2 I, 2, 3, 4. \ / Указание учителя многослойной системы должно выраба- тываться алгоритмическим путем с использованием одного из из- вестных алгоритмов обращения матрицы и контролем точности об- 262
ращения. Выражения для оценок градиентов среднеквадратичной ошибки обращения элементов матрицы _,пп -----------тп ----- %=4=4' 2 (4“E».y “т - (W ’ Л.,=1 ’ V-I имеют следующий вид: ----------------------------------------------------т„ = 46» -Ч хци,. а1‘Ль, . дакл. л’ 1 + (gJJ2 । («У2 1 + («У2 ’ /11 ' /1.-1 ~тп *----------тп 'У = 2 В- *||,, % 1 xgh,ah^. . i + (^22j '-ю2 ’ ft..---) dxg _ В x2h,xnh, dah:fi. л J (gj j2 Здесь , 4 = У ah,hxhv + “oft/ & 9 4 = v Qhh,xhlt i- “о/15 /1^1 4 §h, ~ У ah.,h.xh^ "Т~ a0ht‘ /:..=-1 Эти выражения служат основой для построения алгоритма адаптации многослойной системы, предназначенной для выполне- ния операции обращения 2Х 2-матрицы. 8-13. Построение многослойной системы для решения задачи перевода чисел из двоичной системы исчисления в десятичную В качестве примера подобной системы рассмотрена система перевода в десятичную систему четырехразрядного двоичного числа. После окончания режима настройки по замкнутому циклу в режиме обучения система должна в качестве желаемого соотношения «вход- выход» реализовать функцию е (х) многозначной логики, приведен- ную в табл. 8-7. Таблица 8-7 позволяет сформировать обучающую выборку на входе системы вместе с указанием учителя в, выбирая представите- лей обучающей выборки (столбцы) из таблицы случайным образом. 263
Таблица 8-7 Разомкнутая СР в данном случае описывалась следующим соотношением: 1 *р 1 Г / 3 2 4 *з = 1 + — 2 sign “i*. arctg в 2 х 2 ftp=l [ '-Л-1 Л,_| X A arctg В ahh хк —ак k , 'j + 1 I ; ak k - 1 — ftn— = IO- *p’ яр 1 p p Отсюда sign aT- *3"sign I 2 “**, Z W*, I • °alh, L'ft.-l ft0—0 J d . Г -Д SIgn -------x3 = sign I ' /i,,=o d ' t s,gn *3 = sisn • Данные выражения служат основой для построения алгоритма настропки многослойной системы, предназначенной для решения задачи перевода чисел из двоичной системы исчисления в десятич- ную. 264
8-14. Исследование многослойной СР при произвольной квалификации учителя Построение оптимальной модели СР в случае произволь- ных объективной и субъективной квалификации учителя было проведено в гл. 2. В описанном ниже эксперименте рассматривался случай К ~ 2 и произвольной объективной квалификации учителя &0. Рис. 8-50. Структурная схема СР с субъективной квали- фикацией учителя. 1 — сумматор; 2 — нелинейный преобразователь; 3 — блок вычисле- ния градиента; 4 — блок перемножения.; Система распознавания образов представляла собой двухслойную СР на ЛПЭ с арктангеисной характеристикой и В — 5. Моделировался алгоритм настройки такой СР в режимах обучения (bc = 1) и самообучения (Ьс = 0). Структурная схема алгоритма представлена на рнс. 8-50. Основной задачей экспериментального исследования была проверка работоспособности системы. В соответствии с этим план экспериментов предусматривал два основных пункта: 1. Исследование поведения системы при оптимальных значениях коэффициентов и различных соотношениях ве- личин Ьо и Ьс. 265
2. Исследование динамики системы для различных Ьо и Ьс и неоптимальиых коэффициентах ЛПЭ. В качестве генератора входных сигналов системы ис- пользовался датчик псевдослучайных чисел с распределе- нием, близким к нормальному 1 матрицами для обоих классов Рис. 8-51. Динамика изменения коэффициента системы при Ьс = = 1, для различных Ьо. зали, что при Ьс = Ьо система ходит к оптимальному состоя равными ковариационными Экспериментальные иссле- дования позволили сделать по п. 1 следующие выводы: 1) в случае Ьо — Ьс наблю- дается колебание коэффи- циентов системы около оптимального положения; 2) при bc — 1 происходит постепенная расстройка си- стемы тем сильнее, чем бо- лее Ьо отличается от 1 и чем менее отО; 3) при Ьс -О вне зависимости от вели- чины bQ система остается в оптимальном положении. Исследования при на- чальных значениях СР, не равных оптимальным, пока- результате настройки при- 1ю. При Ьс 1 и Ьс=О0 система ие настраивается, несмотря на длительное время настройки (рис. 8-51). Глава девятая СИНТЕЗ МНОГОСЛОЙНЫХ СР С ПЕРЕМЕННОЙ СТРУКТУРОЙ Несмотря на то что при построении СР с фиксированной структурой, настраивающихся по замкнутому циклу, не- обходимость в некоторой априорной информации о характе- ристиках входного сигнала отпа- дает по сравнению с разомкнутым циклом, все же потенциально до- стижимая величина вероятности правильного распознавания здесь Рис. 9-1. Структурная схема СР с пере- менной структурой, настраивающихся по замкнутому циклу. 266
ограничена за счет фиксации структуры СР (см. гл. 4). В дайной главе рассмотрен синтез СР с переменной струк- турой (рис. 9-1), выбираемой в процессе настройки исходя из обеспечения заданной вероятности правильного распо- знавания. На рис. 9-1 xk (х)—структура преобразования разомкнутой части СР. Структура СР выбирается в классе многослойных сетей из ЛПЭ, хотя в принципе могут быть рассмотрены структуры другого вида. Методы настройки многослойных СР с переменной структурой, выбираемой исходя из обеспечения заданной вероятности правильного распознавания, основаны на последовательном обучении слоев ЛПЭ СР, причем методы обучения каждого слоя мо- гут быть идентичными. 9-1. Последовательный алгоритм обучения ЛПЭ первого слоя многослойной СР Последовательные алгоритмы обучения первого слоя ЛПЭ многослойной СР основаны па постепенном увеличе- нии гиперплоскостей, составляющих результирующую ку- сочно-линейную гиперповерхность, до тех пор пока не будет достигнуто нужное качество распознавания или выполнено какое-либо другое условие окончания процесса обучения. Процесс обучения сводится к формированию логического дерева. В геометрической интерпретации это выглядит сле- дующим образом. Пространство признаков оптимально делится некоторой СР с фиксированной структурой (на- пример, ЛПЭ) иа две части, затем полученные подпростран- ства делятся еще раз и т. д. На рис. 9-2 — 9-4 представлены соответственно общая структурная схема алгоритма, иллю- страция к построению кусочно-линейной разделяющей по- верхности, реализуемой СР с переменной структурой, и логическое дерево, описывающее процесс построения раз- деляющей поверхности на рис. 9-3. На рис. 9-2: I — блок определения параметров СР с фиксированной структурой; // — блок разделения входной обучающей последователь- ности; VI—блок управления; III (пунктир) — алгоритм СР с переменной структурой на первом шаге, аналогично которому строятся блоки III. На рис. 9-3 двойной линией изображена результирующая граница между классами. Первая гиперплоскость <р0 (х) разбивает пространство при- знаков Фо на две подобласти Ф2 и Ф2, причем Ф} считается собственной областью образов первого класса, Ф2 — вто- рого. Обучающую выборку Lo делим на две: и L2, со- 267
Рис. 9-2. Структурная схема алгоритма последова- тельного построения кусочно-линейной разделяю- щей поверхности. ННН. ж Рис. 9-3. Построение кусочно-линейной разделяющей поверхности. 268
стоящие из векторов, попавших в Ф3 и Ф2 соответственно. Подсчитывается число неправильно классифицированных образов 0г и 02 в каждой из подобластей. Выбирается мак- симальный элемент из множества (01, 02) и дальнейшему делению подвергается соответствующая подобласть. Пусть Ох>0а. После деления Ф3 гиперплоскостью получаем об- ласти Фп и Ф12. Вычисляем 0п и 012 и сравниваем ошибки распознавания. Если 03>0ц4- 0i3, то введение новой гиперплоскости улучшает качество распознавания. В этом случае выборку разбиваем на подвыборки и L12. Снова выбираем подпространство с наибольшим числом Рис. 9-4. Логическое дерево. а — схема построения кусочно-линейной разделяющей поверхности рис. 9-2; б — последовательная нумерация вершин дерева. неправильно классифицированных образов, строим новую гиперплоскость и т. д. В результате получается набор об- ластей Фр Фф . . . , Ф/,/, й.t, где индексы i, j, k, . . . , t принимают значение 1 или 2. Если проведение гиперпло- скости в подпространстве Ф/,не приводит к уменьшению ошибки распознавания, то следует продол- жить деление вновь полученных областей. При обучающей выборке конечной длины алгоритм всегда сходится к 0 - • О, однако сходимость может быть и немонотонной. При по- строении подобных алгоритмов [Л. 46] необходимо огра- ничивать число шагов, при которых ошибка увеличивается. Если при заданном числе шагов ошибка не уменьшится, данная исходная область Ф/,/,*,..., t исключается из числа подпространств, которые подвергаются делению, т. е. величина 0г-,/, *,..t исключается из набора 0t-. 0t/-, . .. ...’ .’ t> среди которых ищется наибольшая вели- чина ошибки. В [Л. 46] рассматриваются следующие пра- вила остановки алгоритма: 1) остановка при достижении заданного значения вероятности ошибки; 2) остановка при 269
достижении заданного числа гиперплоскостей (числа ЛПЭ первого слоя многослойной СР). Структурная схема программы ЦВМ, реализующей ал- горитм построения кусочно-линейной разделяющей поверх- ности, приведена на рис. 9-5. Назначение большинства опе- раторов понятно из вы- Рис. 9-5. Структурная схема про- граммы ЦВМ, реализующей про- цесс последовательного построе- ния кусочно-линейной разделяю- щей поверхности. шеизложенного, поясним лишь три из них. Оператор «Логическое дерево». Для пояснения его работы удобно воспользо- ваться рис. 9-4, на кото- ром приведено логическое дерево для построения раз- деляющей поверхности, изображенной на рис. 9-3. Как видно из рис. 9-4, вер- шины дерева могут быть двух типов: промежуточ- ные вершины, вершины, являющиеся концами де- рева. Началом дерева («кор- нем») является вершина с индексом нуль, а концы дерева соответствуют опре- деленным классам образов. Любой образ х после при- менения к нему оператора «Логическое дерево» попа- дает в один из концов де- рева и относится к соот- ветствующему классу обра- зов. Для принятия решения о направлении дальнейшего движения из вершины i, I, k,. . ., t используется функция k.........t (x). Если sign (pf7jfe.. ,/(x) >0, то дальнейшее движение проис- ходит по правой ветви, в противном случае — по левой ветви. При использовании ЦВМ вершины логического де- рева удобно пронумеровать последовательно, так как ин- дексация переменной длины очень наглядна при объясне- нии работы алгоритма, но не удобна при программирова- 270
нии. Логическое дерево рис. 9-4, а при последовательной нумерации вершин принимает вид, изображенный на рис. 9-4, б. Логическое дерево удобно описывать матрицей, имеющей три столбца: "О О О 1 о 1 о 1 2 1 2 2 3"1 4 5 6 7 О О 8 9 О О 10 11 О О о о о о о о Каждой вершине логического дерева с номером s соот- ветствует s-я строка матрицы С. Поясним смысл строк мат- рицы, которые, как и вершины, могут быть двух видов. Строка вида (0 s s г 1) описывает промежуточную вершину дерева. Берется разделяющая поверхность cps — 0, соот- ветствующая этой вершине, и в зависимости от sign (х) происходит переход к вершине s, если sign <р$ = — 1, или к вершине s + 1, если sign <ps = 1. Если же строка имеет вид (k 0 0), где k = 1, 2, то она описывает один из концов логического дерева. Если после последовательного исполь- зования нескольких разделяющих поверхностей точка х}- попала в вершину, описываемую подобным образом, то ее следует отнести к классу Ak. Проведение новой гипер- плоскости (х) вызывает построение двух новых ветвей дерева, отходящих от вершины i. При этом матрица, имею- щая U строк, получает две новые строки с номерами (U г 1) и (U + 2) следующего вида: U + 1 : 1 О О и Л- 2': 2 О О, а в г-ю строку заносится запись о и + 1 и 2, т. е. теперь х-я вершина является промежуточной вершиной логического дерева. Оператор «.Проведение дополнительной разделяющей по- верхности» может использовать практически любой алго- ритм настройки ЛПЭ, описанный в гл. 7. Более того, дан- 271
ный оператор может реализовать любую СР с фиксирован- ной структурой, описанную в гл. 7. Оператор «.Проверка улучшения качества» предназначен для проверки улучшения качества распознавания. Резуль- таты работы этого оператора используются для процесса построения логического дерева: если качество улучшилось, то дальнейшему делению подвергается область, например, с наибольшим значением средней функции риска; в против- ном случае делению подвергаются области, полученные при последнем делении. 9*2. Алгоритм обучения ЛПЭ первого слоя многослойной СР с применением метода случайного поиска локальных и глобального экстремумов функций На основе метода случайного поиска локальных и гло- бального экстремумов функций многих переменных, изло- женного в гл. 6, был разработан алгоритм обучения ЛПЭ Рис. 9-6. Иллюстрация к методу обучения ЛПЭ первого слоя многослой- ной СР с применением алгоритмов случайного поиска. Рис. 9-7. Свойство многоэкстре- малыюсти средней функции рис- ка при многомодальных распре- деленных f (х)/е. первого слоя многослойной СР. В данном случае можно отказаться от построения древообразной структуры и в пер- вый слой включаются все ЛПЭ, обеспечивающие локальные экстремумы средней функции риска (рис. 9-6, 9-7). На рис. 9-6 четыре гиперплоскости в двумерном пространстве признаков определяют четыре локальных экстремума сред- ней функции риска. Цифрами в кружке обозначены номера аргумента логической функции, соответствующие каждой области многомерного пространства признаков. В табл. 9-1 даны значения логической функции (для примера рнс. 9-6), 272
реализуемой в многослойной СР слоями ЛПЭ, кроме пер- вого. Звездочкой в таблице обозначены те значения логи- ческой функции, которые не являются определенными при данном значении аргументов (при данной на рис. 9-6 кон- фигурации разделяющей поверхности). Индексом нуль обозначены области пространства признаков, в которых нет образов ни первого, ни второго класса. Таблица 9-1 г 0 1 2 3 4 5 6 7 8 9 10 li 12 13 14 15 -1 1 —1 1 —I I — I 1 -1 1 -1 1 -1 1 —! —1 I I -1 —I I 1 -1 -1 1 I -1 -1 1 1 X3k — 1 -1 —I -I 1 1 I 1 -1 -1 —I —1 1 1 1 1 X4k -] -I —I -1 — I —1 -1 -1 1 1 1 1 1 ( 1 1 е * * * * —1 0 0 * —I 0 0 * 0 I 1 * Совершенно очевидно, что детерминированные методы поиска не позволяют выйти за пределы локального экстре- мума и, пожалуй, единственным выходом из этого положе- ния является введение элемента случайности в процедуру поиска. Основные этапы работы алгоритма в каждом цикле со- стоят в следующем: а) случайным образом выбираются компоненты вектора настраиваемых коэффициентов очередного ЛПЭ; б) применяя один из методов обучения ЛПЭ, находим очередной локальный экстремум средней функции риска; в) величина экстремального значения средней функции риска и соответствующие компоненты вектора весовых ко- эффициентов ЛПЭ сравниваются с содержимым памяти и запоминаются, если ранее этот локальный минимум найден не был. На первом цикле по числу ЛПЭ первого слоя произво- дится сравнение с нулем и запись в память. Если ставится цель — определение только глобального, а пе всех локаль- ных экстремумов, то необходимо сравнение величины оче- редного экстремального значения минимизируемого функ- 273
ционала с ранее полученным, выбор и запись только мини- мального значения функционала. По окончании третьего этапа происходит переход к пер- вому этапу и определяется вектор настраиваемых коэффи- циентов следующего ЛПЭ первого слоя, обеспечивающий очередной локальный экстремум средней функции риска. Экспериментальное исследование одного цикла работы данного алгоритма обучения ЛПЭ первого слоя многослой- ной СР было приведено ранее в гл. 8. На рнс. 9-8 представ- 274
лена структурная схема программы ЦВМ, реализующей описанный выше алгоритм. План экспериментов с програм- мой ставил своей задачей выявление свойств процессов обу- чения слоя ЛПЭ СР. Характеристики входного сигнала и алгоритм настройки ЛПЭ аналогичны рассмотренным в § 8-5. При анализе работы программы по схеме, представ- ленной на рис. 9-8, необходимо исследовать следующее; 1. Получение экспериментальной оценки сходимости случайной процедуры, т. е. зависимости количества слу- чайных выбросов начальных условий от N и Z. 2. Зависимость общего времени счета от размерности пространства признаков Л\ количества искомых экстрему- мов U, величины шага А. Эксперимент был поставлен та- ким образом, что обучение новых ЛПЭ формируемого слоя СР производилось до тех пор, пока последовательный вы- брос случайных начальных условий (именно здесь прояв- ляются основные качества случайного поиска [Л. 21), не обеспечивал нахождения всех локальных экстремумов функ- ционала качества при заданной модальности функций рас- пределения входного сигнала. Количество шагов случай- ного поиска, потребовавшееся для нахождения всех локаль- ных минимумов, приведено в табл. 9-2, где U — количество искомых минимумов, т|у — количество шагов случайной процедуры для нахождения всех U экстремумов. Прибли- женные оценки математического ожидания и дисперсии числа шагов, необходимого для нахождения U минимумов, имеют вид (6-16а). Таблица 9-2 и •Пу "пи °т1Ц 1 1 1 . ... 2 4 3 2 3 8 6 3 • 5 8 10 6 7 23 14 8 10 33 22 12 Данные табл. 9-2 и § 8-5 дают возможность достаточно, просто определить общее время обучения слоя ЛПЭ СР, затраченное при определенной модальности входного сиг- нала. Отметим, что увеличение размерности пространства признаков ведет, естественно, к увеличению времени обу- чения, причем это время увеличивается пропорционально росту размерности. 275
9-3. Анализ сходимости алгоритмов при увеличении числа гиперплоскостей Сходимость алгоритмов по вероятности ошибки при ус- ложнении структуры СР зависит от правила выбора очеред- ной подобласти для деления и от алгоритма обучения ЛПЭ на каждом шаге деления. Метод выбора очередной под- области для деления, описанный выше и состоящий в том, что на каждом шаге проведения гиперплоскости выби- ’ ППЯ ПР.ГТА14ИЯ ТА пб.ПАГТк ралась для деления та область, в которой оценка вероятности ошибки является максимальной, является оптимальным с точки Рис. 9-9. Иллюстрация процесса увеличения ве- роятности ошибки на некотором шаге работы последовательного алго- ритма. / — первый класс; II — второй класс. ЛР1Н,^(Рп-Р0) о Рис. 9-10. К анализу сходимости алгоритма при увеличении числа гиперплоскостей на этапах обу- чения и распознавания. зрения скорости сходимости алгоритма. В большинстве используемых на практике алгоритмов с последователь- ным делением пространства признаков авторами применя- лись простейшие методы проведения гиперплоскости на каждом шаге, состоящие в настройке ЛПЭ по разомкну- тому циклу с использованием первых моментов обучающих выборок. Это зачастую приводит к увеличению вероятно- сти ошибки иа иекотором шаге работы алгоритма (рис. 9-9). На рис. 9-9 в очередной области (незаштрихованная часть) разделяющая поверхность проведена перпендикулярно ли- нии, соединяющей центры двух классов. На данном шаге деления ошибка увеличилась, так как часть образов первого класса попала к образам второго класса. Для обеспечения монотонности изменения вероятности ошибки при увели- чении числа гиперплоскостей необходимо применять на каж- дом шаге алгоритм обучения ЛПЭ, который приводил бы 276
к минимуму вероятности ошибки на каждом шаге (на- стройка по замкнутому циклу с минимизацией второго мо- мента дискретной ошибки a2g). Обеспечение монотонности изменения вероятности ошибки позволяет сделать мини- мальным число ЛПЭ первого слоя многослойной СР. Од- нако в некоторых случаях необходимо идти сознательно на увеличение числа ЛПЭ первого слоя при немонотонном изменении вероятности за счет резкого упрощения алго- ритма обучения ЛПЭ. Отметим, что при увеличении числа гиперплоскостей в самом неблагоприятном случае оценка вероятности ошибки стремится к нулю из-за конечности длины выборки, данной для обучения. В связи с этим необходимо указать на два этапа в создании СР: этап обучения алгоритма и этап оценки его точности. Совершенно естественно, что при наличии в качестве исходного материала выборки дли- ной М только часть ее Мг (причем, несомненно, меньшую) нужно использовать для обучения алгоритма. На вы- борке длиной алгоритм при увеличении числа гипер- плоскостей обеспечит нулевую ошибку. Проводя рас- познавание обученным алгоритмом по элементам выборки М2, равной М — М!, оцениваем действительную точность алгоритма по вероятности ошибки распознавания Рр (Я^. Функция АР (//J = Рр (Hj) — Ро (Нг), график которой приведен на рис. 9-10, должна быть в принципе монотонно возрастающей при увеличении числа гиперплоскостей из-за уменьшения способности алгоритма к обобщению. Здесь PQ (^i) —функция изменения вероятности ошибки на этапе обучения СР. Необходимо отметить, что зачастую кривая Рр (Я-J имеет локальный минимум при конечном опреде- ленном значении Hlt равном, например, /Л. В этом случае может быть выдана рекомендация на выбор именно этого числа гиперплоскостей РЦ, если Рр (Я/) удовлетворяет исходным условиям. В некотором смысле описанный выше алгоритм обучения с применением случайного поиска яв- ляется оптимальным с точки зрения минимизации числа ЛПЭ первого слоя многослойной СР, так как определяет все локальные моды средней функции риска в пространстве настраиваемых параметров. Результатом обучения ЛПЭ первого слоя многослойной СР с двумя решениями, в частности, является логическая функция, определяющая последовательность деления мно- гомерного пространства признаков. Данная логическая функция иногда не определена не только на некоторых 277
полных наборах аргументов, но и на некоторых отдельных аргументах. Простейшая иллюстрация недоопределенно- сти логической функции подобного рода представлена на рис. 9-11 ив табл. 9-3. Здесь арабскими цифрами отмечены области исходного пространства признаков, являющихся исходными для формирования некоторого набора аргумен- тов логической функции е (хй). Клетки, помеченные звез- дочками, означают набор переменных, который никогда не появляется на выходе ЛПЭ первого слоя. Клетки, поме- ченные знаком ф, означают значения переменных из пол- О Ш W Г ЕГ Рис. 9-11. Формирова- ние обучающей выборки иа выходелЛПЭ первого слоя. О I F I Ш1Г ш о о лг о о ЛТП V о О YL0 О Рис. 9-12. Логическое дерево и матрица переходов для при- мера рис. 9-11. ного набора, равного 2Я‘, которые также отсутствуют на выходе ЛПЭ первого слоя. Процедура последовательного деления, показанная на рис. 9-11, может быть проиллюстри- рована деревом и матрицей вида, изображенного на рис. 9-12 (см. § 9-1). Здесь /—VI — области, полученные в резуль- тате последовательного деления. Проблема доопределения логической функции е (x&), полученной иа этапе последовательной настройки ЛПЭ первого слоя, возникает в связи с необходимостью форми- рования массивов обучающих векторов на выходе ЛПЭ первого слоя для настройки последующих слоев Л11Э. Ос- новная задача здесь заключается в доопределении логиче- ской функции на частично заданных наборах своих аргумен- тов. Доопределение же логической функции на наборе 8 (рис. 9-11, табл. 9-3) может вообще не производиться, так как этот набор никогда не появляется ввиду специфики 278
Таблица 9-3 Номер области 1 2 3 4 5 6 7 8 8 — 1 1 —1 1 1 1 — 1 Первый ЛПЭ — 1 1 1 — 1 — 1 1 1 * Второй ЛПЭ ® —1 ф ф 1 — I * Третий ЛПЭ —1 ® 1 1 ф л задачи построения кусочно-линейиой разделяющей поверх- ности. Доопределение при неполных наборах производится следующим образом. В обучающий массив для ЛПЭ второго слоя многослойной СР, представленный в табл. 9-4, запи- сываются векторы с присутствующими координатами, ис- ходным указанием учителя и полным перебором по отсутст- вующим значениям переменных. Таблица 9-4 Номер области 1' 2' 2" 3' 3" 4' 4" 5' 5" 6’ 6" 7’ 7'7 е —1 -I 1 1 -1 -1 1 1 —1 -1 i 1 -I -1 xk Пер- вый ЛПЭ -1 -1 1 1 1 1 -1 -1 -i -1 1 1 1 1 Второй л пэ 1 1 1 —1 -1 —1 1 1 1 1 1 -1 -1 Третий ЛПЭ -1 -1 -1 1 - 1 1 1 1 1 —1 1 -1 1 В таблице сформирована логическая функция, по ко- торой производится настройка ЛПЭ слоев, кроме пер- вого. 279
9-4. Алгоритмы обучения ЛПЭ второго слоя двухслойной СР Условие реализуемости логической функции г (хА) на ЛПЭ Целью данного параграфа является проверка реализуе- мости логической функции иа одном ЛПЭ второго слоя си- стемы распознавания образов. Если результат проверки будет положительным, то многослойная СР будет двухслой- ной с одним ЛПЭ во втором слое. Если же результат про- верки будет отрицательным, необходимо перейти к синтезу трехслойной СР, в которой логическая функция реали- зуется на двух выходных слоях ЛПЭ с некоторым (выби- (1) (2) Знаке Знак Рис. 9-13. К определению физической ре- ализуемости логических функций иа ЛПЭ. (I)—|сТхл(2)|. (2) —(с^Ь),. 2=1 д(х) раемым в процессе синтеза сети) числом ЛПЭ первого слоя и одним ЛПЭ второго слоя. На рис. 9-13 представлена иллюстрация реализуемости логической функции на одном ЛПЭ, когда величина выход- ного аналогового сигнала g (п) ЛПЭ меньше нуля на всех наборах входных двоичных переменных х/к (г) (г — номер набора) первого класса и больше нуля на всех входных двоичных переменных второго класса. Величина Ag = " йн—§м1кс называется промежутком 1Л. 12]. Необ- ходимое и достаточное условие реализуемости логической функции на одном ЛПЭ можно записать в следующем виде: & (г) = sign £ (г) j или, иначе, !' (9-1) g(z)e(z)-|g(z)|. J Суммирование правых и левых частей (9-1) дает усло- вия реализуемости логической функции на одном ЛПЭ в следующей форме: 2£(г)£(г)-Д|£(г)| (9-2) 280
или, иначе, Н, Z Z а, V xit (г) е (г) + а„ V s (г) = = V | а;хЛ(г)-|-а0|. (9-3) Величины z z Vxik(z)n(z), £ e(z) г—1 z=l однозначно определяются данной логической функцией и могут быть вычислены до решения задачи синтеза ЛПЭ, реализующего данную логическую функцию. Так же как в [Л. 12], введем в рассмотрение величину ^ = ^^(2)е(г), / = 0........Нг. (9-4) 2=1 Отметим, что z b0= V е (г), так как xQk (г) = 1; z— 1, .. Z. 2=1 Из (9-3) и (9-4) следует; Hl Z I И, [ аГЬ == 2^ аД = 2^ | aixik (г) + а0 или z aJ b == |g(z) |. (9-5) Выражение (9-5) дает необходимое и достаточное усло- вие реализуемости логической функции 8 (xj, В случае, если логическая функция 8 (г), существую- щая в Z точках /7гмерного двоичного аргумента xfe (2), не реализуема на одном ЛПЭ с вектором а весовых коэффи- циентов, скалярное произведение вектора а и характери- стического вектора логической функции меньше, чем сумма модулей значений аналогового сигнала ЛПЭ по всем г = = 1, . . . , Z. Отсюда следует, что вектор весовых коэффи- циентов ЛПЭ, реализующего данную логическую функцию с характеристическим вектором Ь, должен минимизировать (до нуля) значение следующего функционала: Ца) = 2 |g(z)|—агЬ. (9-6) 2=1 281
В заключение необходимо отметить, что вектор b в не- котором смысле близок к вектору весовых коэффициентов а ЛПЭ, реализующего соответствующую b логическую функ- цию. Если понимать под ошибкой реализации логической функции разность e(z)-^-crx*(z), то [Л. 121 среднеквадратичная ошибка будет минимальна при с — Ь. Следовательно, в качестве вектора весовых ко- эффициентов а иногда (например, в качестве начальных условий итерационной процедуры поиска вектора а, реа- лизующего данную логическую функцию) можно прини- мать соответствующий вектор Ь. Однако, естественно, век- тор b не будет всегда вектором весовых коэффициентов, реа- лизующих данную логическую функцию. Таким образом, соотношение (9-5) является необходимым и достаточным условием реализуемости логической функ- ции на одном ЛПЭ. Соотношение (9-5) полностью анало- гично (9-2). Соотношение (9-2) можно представить как си- стему линейных неравенств, а (9-5) — нелинейное уравне- ние. В этом основное отличие данных двух методов пред- ставления условия физической реализуемости логических функций на одном ЛПЭ. Использование соотношения (9-5) несколько упрощается вследствие того, что исходная ло- гическая функция е (хл), существующая максимально в 2Н' точках //i-мерного пространства двоичных (— 1, 1) переменных, в (9-5) представляется /^-мерным аналого- вым вектором, а в (9-2) 2й' двоичными числами. Синтез ЛПЭ методом минимизации функционала Указанное соответствие между соотношением (9-2) и (9-5) показывает на преимущество (9-5). Однако здесь возникает труд- z ность выражения в явном виде нелипейого члена V | g (г) |, которую можно обойти путем соответствующей аппроксимации. Естественно, чем точнее аппроксимация, тем ближе найденное значение вектора весовых коэффициентов (при аппроксимации) к искомому. Согласно (9-6) минимизируемый функционал представляется в следующем виде: z / (с, Ь) = у, | crx4 (z) I — сгЬ. (9-7) Здесь с — произвольный вектор весовых коэффициентов, для которого значение аналоговой ошибки ЛПЭ не равно нулю, Ь — 282
Рис. 9-14. Общий вид функционалов качества физически реализуемой и нереализуемой на ЛПЭ логической функции. характеристический вектор данной логической функции. При опре- делении вектора, обеспечивающего минимум (9-7), устанавливается, что: либо а, равное с, являетси вектором весовых коэффициентов, реализующих данную логическую функцию, либо данная логическая функция не реализуема на одном ЛПЭ. На рис. 9-14 представлены условно зависимости слагаемых фор- мулы (9-7) от ci для логических функций, реализуемых и нереали- зуемых на одном ЛПЭ. На рисунке цифра ! соответствует физи- чески реализуемой, цифра 2 — нереали- зуемой логической функции. Излагаемый метод синтеза ЛПЭ второго слоя многослойной СР осно ван на представлении: Ч I g (г) I ~ 5г [«’2ga (Z)] + + S, (Л1 (г)1 + • •. где q — нормирующий множитель, огра- ничивающий область аппроксимации следующим образом: 1 с q | g (z) | < 0. Аппроксимация q j g (z) I fe-членами на- зывается аппроксимацией fe-ro порядка. В случае k = 1 18(01^ Ж Отсюда z z i g (?) I = Isj? 5 s2 2=1 Z=l или z н, V I g (г) I = V, У V, CtCjXik (2) xtk (2)-, г-=1 г=1 i=0 i=0 Z Hi Hi z У I g (?) I = _ C‘Ci У Xlk (2) X№ (?)• z=j i=0j=0 z=l Сумма Z \ Xik (z) xilt (г) = dll целиком определяется данной логической функцией (одними значе- ниями своих аргументов) и может быть вычислена до решения за- дачи синтеза ЛПЭ, так же как и характеристический вектор. Для полного набора аргументов логической функции, существующей на 2W1 точках Ягмерного пространства двоичных (1, —1) перемен- ных, справедливо следующее: z Xik (?) *jk (г) = (9-8) 283
где Ьц — символ Кронекера. В общем случае это свойство не соблю- дается при синтезе многослойных СР. Однако если это соблюдается, то I g (z) I = 2Н1 2 с?. (9-9) 2=1 1=0 В общем случае z У I g (z) | = & (Л/Jc); D = (9-10) 2=1 При соблюдении условия (9-9) I (с, b) = 2Hl У cj — У Cjbj- 1=0 Выражение для оптимального, обеспечивающего минимум I (0) вектора с имеет следующий вид: ci ~ Pib{, где ₽< = (^2Н- Необходимо отметить, что свойство реализуемости логической функции на одном ЛПЭ инвариантно относительно умножения ai иа постоянный коэффициент. Поэтому выражение для искомого вектора весовых коэффициентов ЛПЭ, реализующего логическую функцию с характеристическим вектором Ь, при соблюдении усло- вия (9-8) имеет следующий вид: 1 = 0.....................(9-11) Таким образом, при аппроксимации первого порядка и соблю- дении (9-8) вектор весовых коэффициентов равен характеристи- ческому вектору логической функции. В этом случае, если аппрок- симация первого порядка оказывается непригодной, принимают: at- = Ь( лишь для i = I, ..Нг. а величину а0 варьируют для обеспечения возможной реализуемости логической функции на ЛПЭ (см. пример ниже). В общем случае, когда соотношение (9-8) не соблюдается н, / (с, Ь) = |2<7 (сгОс) — У Cjbj, 1=0 искомый вектор весовых коэффициентов ЛПЭ вычисляется по фор- муле a = D”'b. Это выражение является основным для синтеза ЛПЭ методом минимизации функционала при аппроксимации первого порядка. Матрица О-1 и вектор b вычисляются по исходным значениям реализуемой логической функции. Операция с вариацией порога а0 284
здесь полностью аналогична соответствующей операции в случае соблюдения условия (9-8). Пример. Пусть дана следующая конфигурация разделяющей поверхности, полученная (рнс. 9-15) пересечением четырех гипер- плоскостей. В табл. 9-5 представлены значения логической функции четырех двоичных переменных. Звездочкой отмечены те значения аргумента, которые не присутствуют при формировании исходной кусочно-линейной разделяющей поверхности. Множество всех возможных наборов значений входных двоичных переменных ЛПЭ упорядочиваются таким образом, чтобы десятичные числа г, соответствующие двоичным кодам, составленным из значений пе- Рнс. 9-15. Иллюстрация к синтезу ЛПЭ второго слоя двухслойной СР методом ми- нимизации функционала. ременных, образовывали возрастающую последовательность. Пол- ный набор значений логической функции реализует следующее преобразование: е = XjX3 4* х3х4 -f- XjXaX*. Определяем характеристический вектор логической функции 2^"' bi= e(2)^(z), i' — 0, . . ., Ни х0=1. 2=г2 Для рассматриваемого примера Ьо = —2, Ьх = 6, Ь2 = —2, — 10, bi = 6. Легко проверить, что данные коэффициенты ЛПЭ позволяют реализовать на нем исходную логическую функцию. Однако, если аппроксимации первого порядка не хватает для обес- печения реализуемости логической функции, необходима вариация коэффициента Ьо. Для вычисленных коэффициентов и условия (9-11) для i = 1, . . . , HL вычисляем величину (табл. 9-6) п 8'Jz) = V aix{k (z). 285
Таблица 9-5 2 0 1 2 3 4*. 5* 6 7 8 9* 10 11* 12 13* 14 15 Xlk —1 I —1 1 -1 I —1 1 -1 I -1 1 —1 1 X2k —1 —I 1 1 —1 1 1 —1 —1 1 1 -1 —1 1 1 X3k -1 —1 -1 —1 1 1 1 1 -1 —1 —1 —1 1 I 1 Xlk -1 —1 —1 —1 —1 -I —I -1 1 1 1 1 1 1 I 1 e —1 —1 —1 —1 —I 1 -1 J —I 1 —1 1 1 1 1 1 Таблица 9-6 21 21 3 Ы 5 1 6 1 d 8 1 9 1 '° 1 -1 12 | 13 | 14 | 15 B(2> | —20 | —8 | -24 j -,2| o| 12 8 -8 4| -,2| ° 12 | 24 | 8 | 20 Перебор значений Ьп = а0 (порога ЛПЭ) производится в преде- лах [В (г)макс — 0,5] [В (?)МИн + 0,5] через единицу. Аналогично можно проиллюстрировать метод синтеза ЛПЭ методом минимизации функционала с применением аппроксимации первого порядка на неполном наборе переменных, определяемых видом разделяющей поверхности, показанной на рис. 9-16 (табл. 9-7). Таблица 9-7 Z 0 1 2 3 4 5 6 7 xlk 1 1 1 1 1 — 1 — 1 1 x%k —1 1 1 1 --1 1 —I 1 X9k —1 —1 — 1 — 1 1 1 1 ] 8 1 1 1 — —1 „] 1 — I 286
Таким образом, общая схема синтеза ЛПЭ методом ми- нимизации функционала заключается в следующем (пере- ход к каждому следующему пункту обусловлен нереалп- зуемостью логической функции): 1) определение характе- ристического вектора Ь; 2) определение порога Ьо; 3) при- менение аппроксимации второго порядка и т. д. Вполне очевидно, что изложенный метод синтеза ЛПЭ эквивалентен обычным методам синтеза СР, настраиваю- щихся по разомкнутому циклу, ментов входного сигнала СР. Особенность его заключается в том, что здесь гиперпло- скость, реализуемая ЛПЭ, проводится с учетом высших моментов (по разомкнутому циклу), а раньше, при учете высших моментов, проводи- лась соответствующая нели- нейная гиперповерхность. В данном случае видно, .что при аппроксимации первого порядка характеристический при учете высших мо- Рис. 9-16. Иллюстрация к син- тезу ЛПЭ второго слоя двух- слойной СР при неполностью определенной логической функции е (хд). вектор есть вектор разделяю- щей поверхности, проведенной посреди центров двух клас- сов (этот вектор есть полусумма векторов математических ожиданий первого и второго класса). Синтез ЛПЭ по таблицам пороговых функций Достаточно большое внимание, которое выше было уде- лено синтезу ЛПЭ второго слоя многослойной СР из ЛПЭ с двумя решениями, объясняется характерными особен- ностями, возникающими при оперировании в двоичном пространстве выходными сигналами ЛПЭ первого слоя. В принципе для синтеза ЛПЭ второго слоя может быть применен любой из итерационных методов настройки по замкнутому циклу, разработанный в гл. 7. Синтез ЛПЭ по таблицам пороговых функций [Л. 12 j основан на использовании таблиц характеристических век- торов логических функций. Как указано в [Л. 12], в тех случаях, когда реализация логической функции на одном ЛПЭ возможна, использование таблиц позволяет получить оптимальные (в смысле минимума суммы весов и порога) параметры ЛПЭ. Метод синтеза ЛПЭ по таблицам порого- вых функций применим в том случае, когда число ЛПЭ 287
в первом слое СР не превышает семи. Необходимо отметить, что для большинства инженерных задач это вполне прием- лемо, так как гиперповерхность, составленная из кусков семи гиперплоскостей, является достаточно гибкой даже в двухслойной СР. Процесс получения таблиц характери- стических векторов и соответствующих векторов весовых коэффициентов ЛПЭ второго слоя СР подробно описан в [Л. 12]. Процедура синтеза ЛПЭ, имеющего до семи вхо- дов, состоит в следующем: 1. Определяем характеристический вектор Ь. 2. Образуем убывающую последовательность абсолют- ных величин ]^| (i = 0......Hi) коэффициентов харак- теристического вектора логической функции (слева направо) и проверяем ее наличие в соответствующей таблице. Если такой последовательности в таблице нет, то данная логиче- ская функция не реализуется на одном ЛПЭ и процедура синтеза заканчивается. 3. Если последовательность найдена в таблице, то дан- ная логическая функция реализуема на одном ЛПЭ. Вектор весовых коэффициентов а ЛПЭ второго слоя СР находим следующим образом. Выписываем последовательность |aj, смежную с последовательностью | | в таблице. Затем де- лаем перестановки и изменения знаков в этих последо- вательностях в точном соответствии с теми перестановками и изменениями знаков, которые делались в векторе b для нахождения его канонического представления в таблице (см. § 9-2). В результате получаем + 1 элементов at = = (г -- 0, . . . , которые представляют собой весовые коэффициенты ЛПЭ второго слоя СР. 9-5. Алгоритмы обучения второго и третьего слоев ЛПЭ трехслойной СР Задача обучения второго и третьего слоя трехслойной СР, если первый слой является обучаемым, является само- стоятельной задачей обучения двухслойной СР при двоич- ных входных сигналах. В данном параграфе рассматрива- ются два метода построения двух выходных слоев трехслой- ной СР: построение в виде порогово-дизъюнктивиой сети (Л. 12] и построение в виде двух слоев ЛПЭ с настраивае- мыми коэффициентами. Исходными данными для синтеза порогово-дизъюиктив- ной сети является полностью определенная логическая 288
функция е (xfe). Синтез порогово-дизъюнктивной сети про- водится в следующем порядке: 1. Выполнение процедуры Квайна-Мак-Класки над функцией е (хА), пока не получим всех ее простых импли- кантов. 2. Находим все общие пересечения (центры тяжести) двух или более простых импликантов и объединяем в звезды те простые импликанты, которые имеют общий центр тя- жести. Таким образом, звездой является объединение нс-' скольких простых импликантов, имеющих общий центр тяжести. 3. Находим характеристические векторы каждой звезды, полученной на предыдущем этапе, и проверяем эти звезды на реализуемость на одном ЛПЭ (любым из методов, изло- женных в предыдущей главе). 4. Для каждой звезды, нереализуемой на одном ЛПЭ, находим всевозможные подзвезды. При этом подзвезда оп- ределяется как реализуемое на одном ЛПЭ подмножество звезды, которое не является подмножеством любой другой звезды. 5. Дополняем перечень простых импликантов реализуе- мыми на одном ЛПЭ звездами и подзвездами, найденными в пп. 3, 4, и отмечаем наборы, покрываемые каждой за- писью этого списка. 6. Выбираем наименьшее число записей, покрывающих все единицы функции е (х*). Линейные пороговые элементы, реализующие эти записи, составляют либо первый слой порогово-дизъюнктивной сети, либо каскадную сеть [Л. 12], эквивалентную данной порогово-дизъюнктивной сети. Метод нахождения подзвезд заключается в следующем: 1. Определяем все импликанты, которые имеют пересе- чением центр тяжести рассматриваемой звезды. 2. Эти импликанты вместе с простыми импликантами звезды рассматриваются затем во всех возможных комби- нациях, вычисляются их характеристические векторы и за- тем осуществляется их проверка на реализуемость на од- ном ЛПЭ. Такая процедура должна осуществляться при начальном рассмотрении групп, покрывающих наибольшее число единиц, а затем необходимо переходить к группам, покрывающим меньшее число единиц. Этот метод является достаточно громоздким в том слу- чае, когда число простых импликантов звезды велико. По- этому можно использовать другой метод нахождения иод- звезд. Ю Заказ № 975 289
1. Если звезда, нереализуемая на одном ЛПЭ, состоит из простых импликантов, то необходимо рассмотреть все группы этих простых импликантов, взятых по (G—1) в группе, и проверить каждую такую группу не реализуе- мость на одном ЛПЭ. 2. Если по крайней мере одна из таких групп реализуема на одном ЛПЭ, то пет необходимости рассматривать другие разбиения данной звезды, так как она может быть реализо- вана на двух ЛПЭ. 3. Если пи одна из этих групп ие реализуема на одном ЛПЭ, то повторяем проверку реализуемости на одном ЛПЭ групп простых импликантов, взятых по (G—2). 4. Эта процедура выполняется до тех пор, пока не бу- дут исчерпаны все простые импликанты. Группы, получен- ные на этом этапе и реализуемые на одном ЛПЭ, будут под- звездами. Отметим, что этот метод определения подзвезд не обязательно приводит к минимальной порогово-дизъюнк- тивной сети ЛПЭ. В случае не полностью определенной логической функ- ции е (xft) неопределенность задания значений логической функции на некоторых наборах переменных можно исполь- зовать для минимизации -общего числа ЛПЭ порогово- дизъюнктивной сети. Процедура синтеза в данном случае заключается в следующем: 1. Доопределяем функцию е (хй) па всех наборах пере- менных, где она принимает произвольные значения. 2. Выполняем процесс синтеза порогово-дизъюнктив- ной сети, изложенный для случая полностью определенной логической функции до тех пор, пока не будет установлено, что все звезды и подзвезды реализуемы на одном ЛПЭ. 3. Составляем импликатпую таблицу, число строк ко- торой равно числу звезд, подзвезд и простых импликантов, полученных на втором шаге процедуры синтеза, а число столбцов — числу наборов функции s (xft). При составле- нии такой таблицы все произвольные значения функции е (xfe) принимаются равными (— 1). 4. Выбирается наименьшее подмножество записей в таб- лице, которое покрывает все единицы функции е (хл). При этом автоматически доопределяются все ее произвольные значения. На этом процесс синтеза заканчивается. Построение двух выходных слоев СР в виде сети из ЛПЭ с настраиваемыми коэффициентами может быть осущест- влено на основании следующих соображений. Выше было показано, что два выходных слоя ЛПЭ трех- 290
слойной СР являются сами по себе самостоятельной систе- мой распознавания принадлежности областей исходного пространства признаков, образованных пересечением ги- перплоскостей, к первому или второму классу. В данном случае признаки являются двоичными, а мерность простран- ства признаков равна числу ЛПЭ первого слоя многослой- ной СР. Именно поэтому для обучения ЛПЭ второго слоя трехслойной СР можно применить любой из методов, из- ложенных выше в § 9-1 и 9-2. При этом выбирается число ЛПЭ второго слоя для обеспечения заданной вероятности распознавания принадлежности областей исходного про- странства признаков тому или иному классу. Эта вероят- ность довольно просто связывается общей вероятностью правильного распознавания при наличии результатов обу- чения ЛПЭ первого слоя трехслойной СР. После обучения ЛПЭ второго слоя в данном случае древообразная логиче- ская структура третьего слоя может быть проверена на реа- лизуемость на одном ЛПЭ третьего слоя. 9-6. Общая методика последовательного синтеза многослойных СР Изложенная выше методика последовательной настройки трехслойной СР приводит к обобщению иа многослойные СР следующим образом: 1. По исходным выборкам настраивается первый слой ЛПЭ многослойной СР. При этом выбираются число ЛПЭ и настраиваемые коэффициенты. 2. Получающаяся в результате настройки первого слоя ЛПЭ логическая функция проверяется на реализуемость на одном ЛПЭ. Если данная функция реализуема на ЛПЭ, то на этом процесс синтеза сети заканчивается. 3. В случае отсутствия реализуемости логической функ- ции на одном ЛПЭ аналогично п. 1 производится обучение ЛПЭ второго слоя. При этом выбирается число ЛПЭ и на- страиваются коэффициенты. 4. Получающаяся в результате настройки второго слоя ЛПЭ . . . (продолжение аналогично п. 2). Данная методика легко обобщается на случай много- слойной сети из ЛПЭ с континуумом решений. При этом необходимо отметить следующее. В случае сети из ЛПЭ с континуумом решений число образов первого и второго класса сохраняется при переходе от слоя к слою. При этом в'обученной СР в каждом слое происходит как бы деформа- 10’ 291
ция распределений классов в смысле их разнесения. При этом критерием качества многослойной СР является уже не только вероятность правильного распознавания на выходе СР, а функция изменения данной вероятности от слоя к слою. Таким образом, результатом применения предлагаемой методики синтеза многослойных СР является число слоев СР, число ЛПЭ в каждом слое и величины настраиваемых коэффициентов. Данная методика позволяет, следовательно, выбрать на этапе настройки оптимальную или близкую к оптимальной структуру разомкнутой СР в виде много- слойной сети из ЛПЭ. Отметим, что в рассмотренной мето- дике обучения многослойной СР на каждом шаге обучения вместо ЛПЭ может быть любая из структур, рассмотренных в гл. 7. Последовательная процедура настройки достаточно про- сто обобщается на режим самообучения. В этом случае критерий оптимальности при проведении очередной гипер- плоскости есть критерий минимума специальной средней функции риска. 9-7. Метод обучения ЛПЭ первого слоя многослойной СР с континуумом признаков В данном параграфе кратко рассмотрен алгоритм обу- чения первого слоя многослойной СР с континуумом при- знаков, а также пути его физической реализации. Методы обучения подобных СР строятся по аналогии с рассмотрен- ными выше методами обучения многослойных СР с дискрет- ным множеством признаков. Особенность обучения много- слойных СР с континуумом признаков проявляется при обучении ЛПЭ первого слоя. В простейшем случае выраже- ния для функций a (i) и коэффициентов а0 имеют следую- щий вид: a(i) = /n1(i)—m2(i); “о = Y |7 mj(i) di—J (i) di j. При наличии набора изображений хг (i, п) и х2 (i, «) первого и второго класса функции tnY (i) и т2 (i) получаются 1 Af ^(i)=4 «), k=\, 2. 292
Реализация функциональных преобразований, указан- ных выше, может быть осуществлена фотографическими методами в случае двумерного i. Результатом обучения в данном случае должны явиться фотомаски, реализующие функции ап (i), моделирующие световой поток х (i, п) перед интегрированием по i (см. гл. 4), и коэффициенты а0. В случае одномерного i при распознавании кривых или электрических сигналов на фиксированном интервале на- блюдаемые функции ап (i) и коэффициенты я0 достаточно просто технически получаются на АВМ. Методика последовательного обучения слоя ЛПЭ с кон- тинуумом признаков остается той же, что и для дискретного множества признаков. Глава десятая ВЫБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ В МНОГОСЛОЙНЫХ СР 10-1. Постановка задачи выбора информативных признаков в режиме обучения Проблема выбора информативных признаков является самостоятельной в теории распознавания образов и в на- стоящее время не решена до конца. В данной книге кратко изложены существующие подходы к проблеме выбора ин- формативных признаков, а также вводятся так называемые структурные методы, основанные иа методах синтеза мно- гослойных систем распознавания образов. Основой предлагаемого подхода к проблеме выбора ин- формативных признаков являются изложенные ниже три тезиса: 1. Бытующее представление о возможности предвари- тельного выбора информативных признаков до этапа на- стройки СР является неверным, так как в любой из извест- ных процедур выбора прямо или косвенно присутствует настроенная СР. С этой точки зрения всякая процедура выбора информативных признаков является субъективной, где субъект — это СР в том или ином формальном или не- формальном представлении. 2. Критерием информативности признаков может слу- жить только критерий первичной оптимизации, принятый для данной системы. Применение вместо критериев пер- вичной оптимизации аппроксимирующих критериев, таких 293
как экстремум дивергенции или средней условной энтро- пии, вносит дополнительные ошибки, сужает границы их применимости и должно быть обосновано количественно. 3. Необходимо выбирать такие типы СР, которые в про- цедуре выбора информативных признаков являются наиме- нее субъективными, т. е. те, которые обеспечивают опти- мальные решения в достаточно широких пределах изменения характеристик входного сигнала СР (число классов, слож- ность распределений внутри классов). Первоначально задача выбора информативных призна- ков в режиме обучения ставилась и ставится во многих ра- ботах как задача выбора из N исходных признаков — — const признаков, обеспечивающих максимальную ве- роятность правильного распознавания. Эта постановка может быть интерпретирована в другой форме. Из N ис- ходных признаков выбрать то минимальное число при- знаков, которые обеспечивают заданную вероятность пра- вильного распознавания. Определим в данном случае кри^ терий информативности признаков. Предположим, что СРп, СРЪ СР2 соответственно с N — + /У2, и М2 при- знаками (рис. 10-1) по некоторой выборке обеспечивают вероятности правильного распознавания соответственно Р, Pz и Р2. Если то группа из признаков будет более информативной по сравнению с группой из при- знаков. В этом случае использование группы из N2 призна- ков будет целесообразным, если приращение вероятности правильного распознавания ДР = Р — Рг оправдано для конструктора тем усложнением СР, которое имеет место при прибавлении группы из признаков. Таким образом, в данном случае определяется основной критерий выбора информативных признаков. Данная постановка задачи вы- бора информативных признаков оправдана большим кру- гом практических задач, в которых отдельные группы при- знаков формируются различными (зачастую, независимыми) измерителями, и перед разработчиком СР встает задача минимизации числа измерителей — сжатие исходного опи- сания с целью упрощения как измерительного устройства, так и самой СР. В частности, при решении задачи сравни- тельной оценки информативности признаков принимаются путем анализа вероятности правильного распознавания Лтрав’ полученные для четырех групп признаков: (х1? . . . , xN), ((хь . . . , xN) П */), ((Xi, - - . , х„) П *i), ((xlf . . . , xN) П (хг-, Ху)). Такая постановка задачи, как выбор N\ признаков из N, обеспечивающих, в частности, 294
приводят к не- информативных максимальную вероятность правильного распознавания, по нашему мнению, не может быть решена без решения задач в указанных выше постановках. Рассмотрение многослойных СР и общее представление о работе человека иа этапе распознавания сколько иной постановке задачи выбора признаков, которая заключается не в ми- нимизации исходного описания, а в ми- нимизации промежуточных описаний, Рис. 10-1. Выбор информативных признаков в исходном пространстве признаков. CPf СРО СР2 т. е. «сжатий» самой СР, в то время как исходное описание фиксировано. В частном случае в многослойных СР с пол- ными связями задача заключается в минимизации числа линейных пороговых элементов в каждом слое, причем опи- санный выше критерий минимизации остается в силе. Обе Рис. 10-2. Классификация методов выбора информативных признаков. указанные выше постановки задачи выбора информативных признаков объединяются в общем структурном подходе к проблеме выбора информативных признаков, когда пер- вый слой связей считается априори организованным так, как показано на рис. 10-1. В связи с рассмотренными выше постановками задачи и критериями выбора информативных признаков на рис. 10-2 представлена схема, отражающая пути решения 295
задачи выбора информативных признаков. Данная схема отражает лишь основные пути, не претендует на полноту и ставит своей целью введение структурных методов выбора информативных признаков. На уровне решения задачи выбора информативных признаков исходного пространства основное развитие получили подходы, связанные с дивер- генцией и условной энтропией, а также с некоторыми уп- рощенными их оценками. К ним относятся также раз- виваемые в последнее время подходы с применением фак- торного и дисперсионного анализа. Основной задачей данной главы является рассмотрение структурных методов- выбора информативных признаков, сущность которых заключается в оценке информативности признаков по результатам настройки СР (структуре, ко- эффициентам и значению функционала качества). При ре- шении задачи минимизации структуры настроенной много- слойной СР метод минимизации соответственно будет за- висеть от способа настройки СР. 10-2. О выборе информативных признаков в системах с настройкой по разомкнутому циклу То, что критерием выбора информативных признаков может служить только критерий первичной оптимизации, подтверждается многими авторами. Но многие авторы ищут возможность упростить процедуру оценки информативно- сти признаков в некоторых частных задачах, особенно в за- дачах с настройкой СР по разомкнутому циклу. При этом отмечаются некоторые общие свойства аппроксимирующей оценки Gj информативности признаков группы /. 1. Если Gf>Gqt где (7;- и Gq— соответственно оценки информативности признаков для признаков группы / и признаков группы q, то величина Рправ при использова- нии группы признаков / должна быть больше величины Рправ при использовании группы признаков q. 2. Если Gg>>Gq, то для любого множества признаков / величина Рправ ПРИ использовании групп признаков j и g совместно должна быть больше величины Рправ при использовании групп признаков q и / совместно. Использование любых статистик для оценки информа- тивности признаков, включая и рассматриваемые ниже в данном параграфе, приводит к необходимости введения условных распределений f (х/е) определенного функцио- нального вида, т. е. рассмотрение лишь настройки по ра- 296
зомкнутому циклу. Это в значительной степени сужает границы применения данных оценок информативности, включая дивергенцию, среднюю условную энтропию, уп- рощенные оценки и т. д. Вероятность правильного распознавания является част- ным случаем средней функции риска при антидиагональной функции потерь. В случае СР, настраивающихся по замк- нутому циклу при фиксированной структуре разомкнутой СР и в случае СР с переменной структурой, оценка вели- чины РПрав в процессе настройки не представляет особых затруднений, и во введении других оценок информатив- ности здесь нет необходимости. В случае СР, настраиваю- щихся по разомкнутому циклу, выражение Рправ и его статистических характеристик зачастую представляет труд- ную задачу. Именно это в основном определяет потребность введе- ния в данном случае аппроксимирующих оценок информа- тивности. По этой причине в большинстве работ по оценке информативности признаков рассматриваются совокупно- сти образов, распределенных по нормальным законам. Даже для нормальных законов вычисление оценок Рправ пред- ставляет собой достаточно трудную задачу. Это обусловли- вает необходимость введения рассматриваемых ниже оце- нок информативности признаков, таких как дивергенции, средней условной энтропии, упрощенных оценок. При рассмотрении дивергенции вводится в рассмотрение выпуклая функция и (а), определенная на интервале, (О, + со) и удовлетворяющая следующим условиям: 1) и (0) = lim и (а); а-» + 0 2) = 3) О и. (—lim eul—= (0<6< 4-oo). [b / 6-» + 0 k b / a-*<x> CL Тогда дивергенцией двух распределений называется величина On = [ (z) и Ц-^-1 dx. х М2 J Дивергенция может служить мерой различия двух рас- пределений. Частным случаем дивергенции является ди- 297
вергенция по Кульбаку D;2= f fsWlogf^ldx. it LMx)J При дивергенции D =~ D12 D31 она становится сим- метричной функцией относительно и /2. Для диверген- ции по Кульбаку • D'= Jlfi(x)—/2(х)] log^ldx. х 1/2 W J Анализ выражений для дивергенции показывает, что исследование ее связи с вероятностью правильного рас- познавания возможно только при рассмотрении СР, настраивающихся по разомкнутому циклу (для случая ти- повых распределений). В этих случаях оценку информа- тивности со сложной процедурой интегрирования в конеч- ных пределах можно заменить операцией алгебраического преобразования параметров функций распределения. Отметим основные свойства дивергенции 1) D/rjfe>0 при k k\ 2) Dk'k — 0 при k = k\ 3) Dk'k — Dkk'\ 4) D'k-k (xi..Хд,) = ^\Dk'k (х,); для независимых признаков 5) Dt kixt . . . , Хд,) <D^t(x,..Хд,, хдч1). К недостаткам дивергенции многие авторы относят от- сутствие явного выражения, связывающего дивергенцию и Рправ. В [Л. 3] приведено сравнение дивергенции и Рправ для многомерных нормальных законов. В. А. Ковалевский, изучая дивергенцию, как оценку информативности признаков, отмечал громоздкость ее вычисления для многомерных нормальных законов и не- пригодность в том случае, когда одна из плотностей равна нулю. Именно поэтому возникает необходимость в введе- нии средней условной энтропии, выражаемой в форме к j = V1 Pk fk W log К fk (х)----dx. fe=l А'=1 298
Средняя условная энтропия, так же как и дивергенция, применима в качестве оценки информативности только при настройке по разомкнутому циклу. Вместо данных оценок зачастую вводят другие, упрощенные оценки информатив- ности признаков. Рассматриваемые ниже оценки информативности признаков в основном отличаются сложностью вычислительной процедуры. Возможна несколько иная, чем средняя условная энтропия, оценка информативности признаков: для г-го признака tjг'— rr,a\['^f1- Wj-J w'i, + N\ где — число объектов первого класса, попавших в i-е состояние j-ro признака. В отличие от средней условной энтропии с увеличением ср признаки считаются более информативными. Перейти к интегральной оценке для функции-ф-в случае непрерыв- ного признака / нельзя, так как соответствующий интеграл расхо- дится. В связи с этим рассматривается модифицированная функ- ция q/ н. i 1 J' Э!а функция по своему характеру аналогична энтропии, т. е. ее увеличение приводит к увеличению ошибки распознавания. Достоинством данных оценок информативности является простота вычислений на ЦВМ при квантованном по амплитуде входном си- гнале СР. Недостатком данных оценок является, в частности, то, что рассмотрение признаков здесь производится ^зависимо друг зт друга. В случае ограниченной обучающей последовательности для оценки информативности признаков используется функция г, ; max i 1 JhJ _|_ 2 Mi + ^2 Таким образом, достаточно очевидно, что способы оценки информативности признаков, связанные с дивер- генцией, средней условной энтропией имеют основной не- достаток тот, что применимы только в случае настройки СР по разомкнутому циклу. По сравнению с функционалом первичной оптимизации они обладают тем преимуществом, что позволяют упростить вычислительную процедуру оценки информативности. Изложенные задачи выбора информативных признаков справедливы и для режима самообучения. Если в режиме 299
обучения критерием информативности признаков может быть средняя функция риска, то в режиме самообучения таким критерием может быть специальная средняя функция риска р (х, xk) (гл. 2). Роль подобной оценки велика хотя бы потому, что никаких упрощенных оценок (вроде дивер- генции и средней условной энтропии для режима обучения) для режима самообучения неизвестно. 10*3. Определение оптимального маршрута выбора признаков, обеспечивающих максимальную вероятность правильного распознавания Задача выбора Afj<W признаков эквивалентна задаче выбора минимального числа признаков из N, обеспечиваю- щих заданную величину Рправ. Решение задачи попутно должно обеспечивать и ранжи- ровку признаков ио информативности. В случае независи- мых признаков, вычисляя ошибку распознавания для ан- самбля из Af признаков, включающего данный признак, а затем для ансамбля, не содержащего данный признак, можно определить, сравнивая полученные вероятности ошибки, следует ли использовать данный признак. После подобного определения информативности каждого признака следует выбрать те AfT<W признаков, информативность которых больше. Эта процедура решения поставленной за- дачи обеспечивает оптимальное решение только на уровне гипотезы о независимости признаков. В случае зависимых признаков подобная процедура состоит из следующих этапов: 1) все N признаков исключаются поочередно так, как в описанной выше процедуре; 2) в пространстве оставшихся (Af—1) признаков опреде- ляется качество распознавания; 3) исключению подлежит тот признак, отсутствие ко- торого наименее сильно изменило качество распознавания; 4) затем поочередно исключаются остальные (Af—1) признаки и из группы в (N—1) исключается второй при- знак; 5) процедура повторяется {N—Л^) раз. Подобная процедура не является полностью оптималь- ной при зависимых признаках, а лишь близка к ней. Не- которые авторы считают единственно оптимальной проце- дуру полного перебора по той причине, что малоинформа- тивные сами по себе, но сильно коррелированные признаки 300
могут составлять малоинформативную систему. Кроме того, известны аппроксимирующие оптимальное решение под- ходы к выбору оптимального маршрута: метод случайного поиска с адаптацией, разработанный Г. С. Лбовым, метод, использующий разложение Карунена—Лоэва; метод, ос- нованный на процедуре динамического программирования. 10-4. О структурных методах выбора информативных признаков в СР с фиксированной структурой Структурные методы выбора информативных призна- ков предполагают оценку информативности признаков ис- ходного пространства по параметрам и структуре опти- мально настроенной СР. В дан- ном пункте структурные методы оценки информативности иллю- стрируются на примере ЛПЭ. Показывается возможность оцен- ки информативности признаков по соответствующим оптималь- ным коэффициентам ЛПЭ. Есте- ственно, что ЛПЭ является прак- тически простейшей СР; поэтому в соответствии с тезисом 1, изло- женным в § 10-1, данная про- цедура выбора информативных признаков имеет и свои огра- ничения в плане субъективизма оценки информативности приз- наков. Ниже будут указаны и другие ограничения, присущие Рис. 10-3. К доказатель- ству возможности исполь- зования коэффициентов ЛПЭ в качестве оценок информативности призна- ков. ЛПЭ в рассматриваемой процедуре. Остановимся на СР типа ЛПЭ и ЛПЭ со слоем нелиней- ных или нелинейно-случайных преобразований (гл. 4). СР в виде ЛПЭ является оптимальной для совокупностей образов, распределенных по многомерным нормальным за- конам с равными ковариационными матрицами. Для слу- чая единичных (с точностью до постоянного множителя) ковариационных матриц степень пересечения классов по каждому из признаков определяется соответствующим уг- лом наклона оптимальной линейной разделяющей поверх- ности (рис. 10-3). На рис. 10-3 круги — линии равных зна- чений плотностей ft (х) и /2 (х)- Если считать, как и выше, вероятность правильного распознавания основным крите- 301
рием информативности признаков, то в данном случае легко показать, что i-й коэффициент оптимальной линейной раз- деляющей поверхности может служить относительной оценкой информативности i-ro признака. Доказательство проводится двумя этапами. Сначала до- казывается монотонность на некотором интервале измене- ния вероятности правильного распознавания в зависимо- сти от угла наклона гиперплоскости к оси, соответствующей выбранному признаку, затем монотонность изменения дан- ного угла в зависимости от величины соответствующего коэффициента линейной разделяющей поверхности. Покажем монотонность зависимости величины вероятности ошибки по каждому из признаков X/ и х/ от соответствующего ко- эффициента оптимальной линейной разделяющей поверхности (рис. 10-3). Обозначим х = (хг-, х,). Пусть (х) и /2 (х) — нормаль- ные двумерные плотности с координатами центров классов aj и а2, расположенными на некотором расстоянии друг от друга на прямой под углом fl -- 90° —а (рис. 10-3) к оси признака X/. Исследуем зависимость ЛРош/= f fiifxi) dx,+ J (x,) dXj = x, < Д cos В x, > — cos В 1 2 f 2 = 2 J /7 (xy) dxj, x{> — cos ₽ ' 2 гДе fi — fji — fji- Аналогично ЛРош> = 2 f A (*i)dxt, где fl = ftl = fi2. g x,- > — sin В 1 2 Для оптимальной линейной разделяющей поверхности 3 й , 1 • t/г = — cos р Д------------------sin а; ' 2 2 а{, = — sin 6-------------cos а; 2 2 Я|2 — — sin р -]--------cos а. Так как в случае нормальных законов подынтегральная функ- ция в ЛР0Ш является экспонентой, то Дрош есть монотонная функ- ция от а. В случае второй постановки задачи также будем рассматри- вать два многомерных нормальных распределения (хх, . . ., Xn) 302
и bi (*i- • • • i *n)- Ошибка при отбрасывании /-го признака опре- деляется: Л—1 ДР0Ш,- =]-...[ /;1 (Хг . • . . хЛ) dzv . . . ,dzN + S(x) <0 N—l + f ' ' ' f ?&(ХГ ' ' ’ XN)dxl’ ' ' ' XN' S (x) > 0 где x/. = <p(xl, . . . , Xj_v xfll, . . . , xJV) = <p(a). Вид функции в данном частном случае можно легко опреде- лить. Функции /д. //2 определены на гиперплоскости размерности (N — 1). Величина ДРОш/ в этом случае также монотонно зависит от а/, так как подынтегральная функция является экспонентой. В случае ненормальных распределений коэффициенты оптимального ЛПЭ также могут служить оценкой информа- тивности признаков, но лишь на уровне такой структуры разомкнутой СР, как ЛПЭ. В случае ненормальных рас- пределений и нелинейной СР, представляемой в виде по- следовательного соединения слоя нелинейных преобразо- ваний с фиксированными коэффициентами и ЛПЭ, коэффи- циенты ЛПЭ в оптимальной нелинейной СР являются оценками информативности сложных признаков, определяе- мых слоем нелинейных преобразований. Аналогичный вы- вод можно сделать также относительно трехслойного пер- септрона Розенблатта. Минимизация структуры при рассмотрении алгоритмов настройки многослойных СР с фиксированной структурой и множество этапов настройки с заданием случайных на- чальных условий является самостоятельной задачей. При этом возникает необходимость усреднения результатов на- стройки по множеству этапов выброса случайных началь- ных условий для поиска локально оптимальных значений настраиваемых коэффициентов. При этом, несмотря на то что настройка СР производится при фиксированной струк- туре, на каждом этапе выброса случайных начальных ус- ловий возможно проведение минимизации числа ЛПЭ в слоях путем выбрасывания ЛПЭ с одинаковыми (прибли- женно с точки зрения реакции на входные образы) вели- чинами коэффициентов, получающихся из-за избыточности фиксированной структуры СР при обеспечении ею локаль- ного экстремума средней функции риска. Сравнение ука- занных минимизированных структур и локально оптималь- ных значений средней функции риска дает неносредствен- 303
ное правило минимизации числа ЛПЭ в многослойной СР, настраивающихся по замкнутому циклу при фиксирован- ной структуре. Отдельно необходимо остановиться на вопросе миними- зации числа ЛПЭ в слое при независимом обучении ЛПЭ с выбором для каждого ЛПЭ случайных начальных усло- вий (см. гл. 8 и 9). После получения результатов независи- мого обучения ЛПЭ первого слоя, обеспечивающих ло- Рис. 10-4. Пример минимизации числа ЛПЭ первого слоя много- слойной СР. 1 — первый класс; 2 — второй класс. кальный экстремум функ- ционала оптимизации, за- дача выбора по результатам настройки одного из ЛПЭ, обеспечивающего Рис. 10-5. Иллюстрация к свойству локальной опти- мальности процедуры вы- бора информативных при- знаков. 1 — первый класс; 2 — второй класс. экстремальное значение функционала оптимизации, явля- ется тривиальной. Задача выбора из //х ЛПЭ, обеспечивающих экстремальное значение функционала оптимизации, является трудной задачей, возможно не- разрешимой в такой постановке (за исключением пути, связанного с очевидной процедурой полного перебора). Это достаточно легко иллюстрируется на примере рис. 10-4, в котором для каждого варианта выбора порогов (парамет- ров и структуры первого слоя ЛПЭ) указана в процентах величина вероятности ошибки. На рисунке цифры около' стрелок указывают номер класса. Сравним на качественном уровне два подхода к решению задачи выбора информативных признаков: подход, описан- ный выше и связанный с оценкой информативности при- 304
знаков только по параметрам и структуре настроенной СР, и подход, описанный Е. С. Енюковым, связанный с оцен- кой информативности признаков по параметрам настроен- ной СР и некоторым характеристикам входного сигнала. Второй подход является отступлением от аксиоматики структурного подхода и менее перспективен, так как не позволяет обобщить результаты на случай сложных и не известных в общем виде распределений f (х/е). При обоб- щении па указанный случай первый подход также демон- стрирует в некоторой степени свою ограниченность, однако эта ограниченность полностью объясняется с позиций те- зиса о невозможности выбора информативных признаков до окончания этапа настройки (Ю-I). Поясним это на кон- кретном примере. На рис. 10-5 представлены линии равных значений f (х/е) в многомодальном случае и показаны че- тыре положения линейной разделяющей поверхности, обес- печивающие локальный экстремум Рправ. Отсюда следует, что при фиксированной структуре разомкнутой СР любая Оценка информативности будет не только субъективной, но и локальной, так как настроенная СР с фиксированной структурой обеспечивает лишь локальный экстремум функ- ционала оптимизации. Эти рассуждения справедливы и для режима самообучения. 10-5. Выбор информативных признаков исходного пространства с помощью многослойных СР с последовательными алгоритмами настройки ЛПЭ первого слоя Основной вопрос состоит в том, как можно оценить от- носительную величину вероятности правильного распозна- вания по структуре обученной СР и результатам обучения. Сравниваются в плане информативности две группы при- знаков. В данном случае можно привести несколько мето- дов оценки информативности признаков. 1. При использовании СР с последовательными алго- ритмами обучения ЛПЭ первого слоя на некоторой конеч- ной обучающей выборке обеспечивается заданная величина Рправ — const, в частности Рправ — 1. Тогда, если первая СР с характеристиками N Р1прав имеет больше ЛПЭ в первом слое, чем вторая СР с характеристиками N2, Р2 прав ^1прав’ группа из А\ признаков менее информа- тивна, чем группа из признаков. Это следует из объек- тивной необходимости большего числа ЛПЭ в первом слое 305
многослойной СР при большем пересечении классов. По- добный способ оценки информативности признаков исход- ного пространства вереи только при определенных огра- ничениях, рассмотренных ниже. 2. Предположим, что на каждом шаге обучения первого слоя обеспечивается минимальное значение ошибки распоз- навания. В результате настройки СР имеем кривые изме- нения Рлрав от Ну (числа ЛПЭ первого слоя) на совокуп- ностях признаков Nу (СР:) и N2 (СР2) (рис. 10-6, а). Рас- Рис. 10-6. Выбор информативных признаков с помощью СР с переменной структурой. смотрение кривых показывает, что в данном случае группа признаков Л\ менее информативна, чем группа признаков П2. Здесь рассматривается случай, когда превышение ин- формативности для N2 по сравнению с Ny наблюдается при любой структуре (//]) СР. Данная методика выбора информативных признаков включает в себя изложенную в п. 1 как частную. 3. При наличии достаточно большой обучающей выборки зависимость Рправ (Ну) имеет характер, изображенный на рис. 10-6, б. Достаточное приближение кривой Рлрав (^i) к асимптоте (точки 1 и 2) на рис. 10-6, б озна- чает переход от статистического режима обучения к детер- минированному, когда СР заключает в отдельные подобла- сти совокупности образов с малым числом членов. В данном случае оценка информативности групп признаков должна 306
производиться путем сравнения установившихся значений зависимостей Рправ (Я:). 4. В случае нсоптимального алгоритма настройки на каждом шаге первого слоя многослойной СР в общем слу- чае имеет место картина, изображенная на рис. 10-6, 6. В данном случае (более общем, чем предыдущие) оценка информативности производится либо, как ранее в и. 3, либо при любом Нг с оговоркой, что оценка информатив- ности производится при данном алгоритме настройки и данном числе ЛПЭ в первом слое. 5. Выше принималось, что вся исходная выборка ис- пользуется на этапе обучения и оценки информативности, и не учитывалась возможная пепредставительность обу- чающей выборки. Для учета представительности обучаю- щей выборки необходимо произвести обучение па части AMг всей исходной выборки. Зачастую для проверки пред- ставительности необходимо выбирать несколько интерва- лов AMZ и помещать их в различных участках исходной выборки. Распознавание обученной СР производится на полном объеме обучающей выборки. Анализ результатов обучения Робуч (Яь АМг-) и распознавания Ppacn(^i) (рис. 10-6, г) позволяет оценить стационарность и предста- вительность обучающей выборки, а также информативность отдельных групп признаков. Минимизация числа ЛПЭ Процесс последовательности настройки (гл. 9) ЛПЭ первого слоя многослойной СР характеризуется графом, являющимся прадеревом, каждой вершине которого со- ответствует ЛПЭ с некоторой величиной приращения Рправ- имеющей место при введении данного ЛПЭ. Данный граф является исходной информацией для указанной выше процедуры минимизации. Граф может быть минимизирован в одной из следующих постановок: при заданной величине PnpaD минимизировать число вершин графа, при заданном числе вершин с ветвлениями выбором структуры прадерева обеспечить максимальную величину Рправ. На рис. 10-7 представлена иллюстрация исходной ин- формации для минимизации прадерева. Слева в кружке указывается номер вершины ЛПЭ в исходном графе. Справа в кружке указан номер ЛПЭ в результирующем оптимизи- рованном графе. Номер каждого ребра графа совпадает с номером делимой области, причем нумерация областей производится следующим образом (гл. 9). Область с номе- 307
ром у делится на две подобласти с номерами 2у и 2у + 1, где подобласть с номером 2у относится к первому классу, а подобласть с номером 2у + 1 — ко второму. В качестве правила выбора очередной подобласти для деления зача- стую наиболее целесообразно взять правило выбора той подобласти, которая содержит наибольшее число векторов первого и второго класса. Пунктиром в графе показаны те подобласти, в которых имеется сравнительно незначи- тельное число векторов. Около каждой вершины графа Рис. 10-7. Минимизация числа ЛПЭ первого слоя СР с переменной структурой. в квадратных скобках указывается приращение /’прав, сбес печиваемое введением соответствующего ЛПЭ. Это прира- щение может быть и отрицательным из-за неоптимальности (по /’прав) метода настройки отдельного ЛПЭ. Оптимизация прадерева происходит следующим обра- зом: 1) в случае первого ветвления (ЛПЭ 3 и ЛПЭ 8 в исход- ном графе) сравниваются приращения /’прав- К оптимизи- рованному графу относится ЛПЭ с максимальным прира- щением /’прав (на графе ЛПЭ 5); 2) далее сравниваются по величине А/’прав ЛПЭ дан- ного и последующих ветвлений (ЛПЭ 8 и ЛПЭ 4) и также выбирается ЛПЭ с максимальным значением А/’прав и включается в оптимизированный граф; 308
3) данный процесс продолжается до тех пор, пока сумма приращений вероятностей правильного распознавания ие достигнет заданной величины Рправ нли пока число вершин графа не достигнет заданной величины. На рис. 10-7, а данная процедура приводит к оптималь- ному обходу вершин графа так, как обозначено в кружках (вершинах) справа. На рис. 10-7, б представлен результат оптимизации графа рис. 10-7, а для двух критериев: Рправ^О,? и РПрав>0>73. В оптимальном графе порядок обхода вершин не совпадает с обходом вершин на этапе обучения. Исходными данными для обучения ЛПЭ второго слоя многослойной СР, как указывалось в гл. 9, являются ло- гическая функция, дополненная определенным образом и составляющая обучающую выборку и значение вероятно- сти ошибки, соответствующее каждой подобласти (т. е. каждой реализации логической функции). Идея применения последовательных алгоритмов для обучения ЛПЭ второго слоя заключается в использовании последовательных алгоритмов с учетом для каждого обу- чающего вектора веса, определяемого Рош в подобласти, соответствующей данному вектору. При обучении ошибка в подобласти подсчитывается как сумма ошибок для всех векторов, неправильно отнесенных к тому или иному классу. Идея минимизации числа ЛПЭ второго и последую- щих слоев многослойной СР в данном случае остается той же, что и для ЛПЭ первого слоя. Необходимо лишь отме- тить, что чем больше номер слоя, тем менее актуальной становится задача минимизации числа ЛПЭ в слое ввиду специфики структуры разомкнутой многослойной СР, свя- занной с уменьшением числа ЛПЭ от первого слоя к выходу вследствие сжатия информации. 10-6. О выборе информативных признаков в многослойных СР в режиме самообучения В режиме самообучения справедливы все постановки задачи выбора информативных признаков, описанные в в § 10-1. Меняются лишь критерий выбора информативных признаков. Если в режиме обучения таким критерием яв- ляется значение средней функции риска (в частном случае, вероятности правильного распознавания), то в режиме самообучения критерием информативности признаков яв~ ляется значение специальной средней функции риска. С дан- 309
ной точки зрения в режиме самообучения роль структур- ных подходов к выбору информативных признаков возрас- тает по сравнению с режимом обучения, так как, с одной стороны, эта задача, как нам известно, еще не была ранее поставлена, с другой стороны, хотя в принципе и возможна, является трудной задачей обобщения на случай самообу- чения подходов к выбору информативных признаков, свя- занных с дивергенцией, средней условной энтропией, а также упрощенными оценками. Достаточно просто мето- дологически обобщаются на режим самообучения методы выбора информативных признаков, описанные в § 10-4 для режима обучения и систем распознавания с переменной структурой, а также соответствующие методы минимиза- ции структуры многослойных систем. Минимизация струк- туры систем распознавания, имеющих при настройке фик- сированную структуру, должна производиться путем ана- лиза структуры настроенной СР и полученного в результате настройки значения специальной средней функции риска. Глава одиннадцатая О ПРИНЦИПАХ ПОСТРОЕНИЯ СПЕЦИАЛИЗИРОВАННЫХ МНОГОСЛОЙНЫХ СР В АНАЛОГОВОМ ИСПОЛНЕНИИ 11-1. Специализированные системы распознавания Данная глава посвящена вопросам реализации много- слойных СР. Не останавливаясь на известных недостатках применения универсальных вычислительных машии для реализации СР (большой объем оборудования, не исполь- зуемый полностью, малые надежность и быстродействие, наличие громоздких устройств ввода информации), рас- смотрим реализацию СР в виде специализированных си- стем, ориентированных только на решение задач распозна- вания образов. В США разработано около 30 типов специализированных СР: Mark-I, Mark-11, Papa, Kybertron, Artron, Konflex, Albert-1, Adalin, Madalin, Minos-2, llliak-2, Illiak-3, To- bermory, GHILD, Astropower, Adapt-1, Adapt-2, DSK, Ziklop-1, Simisor, Auditran, Shubocs, Gaky и др. Необходимо обратить внимание на аналоговую реали- зацию специализированных СР. Целиком аналоговые адап- тивные системы распознавания образов являлись предме- том внимания многих исследователей. В этих системах как 310
разомкнутая часть, так и блок настройки выполнялись в аналоговом виде. Это в свою очередь требует реализации так называемого адаптивного элемента с аналоговой па- мятью, выполняющего в разомкнутой системе функции блока с переменным коэффициентом усиления, который управляется блоком настройки и запоминается при отклю- чении его. Основным функциональным элементом специа- лизированных СР является' адаптивный элемент с аналого- вой памятью [Л. 66]. Термин «аналоговая память», строго говоря, неверен, хотя и используется для элементов, имею- щих несколько дискретных уровней памяти. Наличие ана- логовой памяти наряду со значительным расширением функциональных возможностей подобных систем, связан- ным с наличием большого числа уровней градаций коэффи- циента усиления каждого элемента, позволяет значительно уменьшить сложность специализированной СР. Например, в обучающейся СР GHILD используется запоминающее устройство на 1 080 тетродах «солион» с общим объемом памяти в 1 млрд. бит. Аналоговые СР, построенные на подобных адаптивных элементах с аналоговой памятью, обладают рядом пре- имуществ по сравнению с цифровыми. Этн преимущества состоят в следующем. Аналоговые СР являются устройствами параллельной обработки информации (цифровые — последовательной). Быстродействие специализированных аналоговых СР на два-три порядка как минимум превышает быстродействие цифровых, причем выигрыш во времени пропорционален числу адаптивных элементов, достигающему в сложных СР нескольких десятков тысяч. Конструкция аналоговых СР значительно проще, так как они, как правило, представляют собой большое число одинаковых по конструкции каналов обработки информа- ции. При использовании адаптивных элементов с аналого- вой памятью не требуется выполнения отдельных микроопе- раций выборки величины веса, умножения и т. д., так как эти элементы совмещают функции хранения и обработки информации. Аналоговые СР являются гораздо более надежными, чем цифровые. Например, аналоговая СР Madalin (Стэн- фордский университет), содержащая 102 электрохимиче- ских адаптивных элемента с аналоговой памятью типа «мимистор», после годичной эксплуатации н выхода из строя 25% элементов лишь незначительно уменьшила ка- зн
чество своей работы. Ниже сформулированы основные тре- бования к адаптивным элементам с аналоговой памятью: 1) запоминание аналоговой величины на длительное время; 2) плавное изменение величины, зафиксированной в па- мяти; 3) неразрушающее считывание записанной информации; 4) возможность построения матричных схем, в которых зафиксированная в памяти величйна изменяется только при одновременном появлении сигнала адаптации и разре- шающего сигнала; 5) выходной сигнал должен быть пропорционален про- изведению величины сигнала считывания на хранимую в элементе величину; 6) возможность суммирования сигналов с большого числа элементов; 7) сохранение записанной информации- при отключении источника питания; 8) отсутствие потребления энергии для хранения ин- формации при работе устройства; 9) малая потребляемая мощность; 10) малые габариты и масса; 11) низкая стоимость, технологичность, простота со- путствующих схем. Ниже в табл. 11-1 представлены основные известные типы адаптивных элементов с аналоговой памятью и не- которые их характеристики: магнитные (1, 2, 3, За, 4, 5, 6); электрохимические (7, 8, 9, 10, 11, 19); оптические (12, 13); элемент, использующий явление сверхпроводности (14); конденсаторы (15, 16); прочие (17, 18, 20, 21, 22, 23, 24, 25). Электрохимические элементы делятся на три основные группы: концентрационные (7, 8, 20); твердофазные (9, 10, 11, 21); элементы с выращиванием токопроводящих путей (22, 23). Анализ таблицы позволяет сделать следующие выводы: 1. Магнитные элементы значительно превосходят все остальные типы по длительности хранения, быстродейст- вию, дешевизне и простоте изготовления. Однако они тре- буют сложных схем управления и обладают существенной температурной нестабильностью. 2. Электрохимические элементы имеют времена считы- вания того же порядка, что и остальные типы элемен- тов, но значительно худшее быстродействие по цепи записи. 312
% 1 2 3 За 4 5 6 7 8 9 10 ЧИСЛО ДИС- Тип элемента кретных уровней Элемент на тороидальных фер- ритовых Элемент на четных гармониках Трансфлюксор (ферритовый) 20 100—500 50—100 Трансфлюксор (пермаллоевый) Элемент на тонких магнитных пленках 100—500 100 Биакс Элемент, использующий явление магнитострикции Концентрационный интегрирую- щий диод Концентрационный интегрирую- щий тетрод (солион) Жидкий мемистор Ртутный элемент 10—20 20—80 Непрерыв- ная Непрерыв- ная ЮО—2Q0
Таблица 1 l-l Длитель- ность хра- нения информации Реверсявность Линейность Быстродействие Г абариты, мм СО — Хорошая 3—10 мсек 3X1X2 со » 100 мксек 20X10X10 со Удовлетво- рительная 20—100 мксек 16x3x2 со т То же 100 мксек 100X40X40 m — » » 100—200 нее к (запись) - 20—30 нсек (считывание) — со » » 1 мксек — со -т- » » 5 мсек — 30—50 — Плохая 10 мин 32X6X4 дней 10 дней — Хорошая 1 — 10 сек — 2 мес. ч- » 1 сек 2 мес. » 5 сек Объем 15 см3
Продолжение с с £ Тип элемента Число дис- кретных уровней Длитель- ность хра- нения информации Реверсивность JlHHeitHocf ь Быстродействие Г абариты, мм и Твердофазный элемент с опти- ческим считыванием (оптими- стор) 20—30 2 мес. + Хорошая 0,5 сек 10X10X10 12 Оптический спектротрон 100—1000 со + Плохая 10"12 сск 13 Элемент на фотохроматических пленках — Несколько часов + » — — 14 Криотрон 100 + Хорошая 1,0 мсек 15 Конденсатор со 6—12 ч + Удовле- творитель- ная Зависит от параметров схемы 20x20x30 16 Трансполяризатор 100—200 8 дней + Хорошая 1 мксек 8X4X2 17 Электромеханический 200—300 + > 0,1 сек 25x50x50 18 Термистор со 3—5 мин + Плохая Несколько се- кунд 5x20x10 19 Адаптичный сэндвич Несколько дней + » 5 сек — П римечавие. Кроме того, известны следующие элементы: концентрационная ячейка; твердый мемистор; коллоид Паска, элемент с выращиванием серебряных нитей в капиллярах; опдинатрон; ячейка КеРРа
Элементы данного типа потребляют значительно мень- шую мощность, чем другие элементы. 3. Для построения специализированных СР в аналого- вом исполнении в настоящее время могут быть рекомендо- ваны тороидальный ферритовый сердечник, мемистор, эле- мент на четных гармониках, солиои и в меньшей степени трансфлюксор. 4. Перспективным является исследование элементов на тонких магнитных пленках, сегнетоэлектриках, металло- окисных транзисторах (микроминиатюрные элементы). Из полупроводниковых элементов перспективны полупровод- никовый диод с накоплением заряда и MOS-траизистор. Электромеханические элементы практически бесперспек- тивны. Перспективными являются оптические элементы, а также электрохимические элементы типа адаптивного «сэндвича» и использующего фотоэлектрическое считыва- ние (типа Novastord). Конденсаторные элементы практи- чески непригодны для построения специализированных СР в аналоговом исполнении (за исключением трансполя- ризатора). 11-2. О построении комбинированных специализированных СР Построение комбинированных специализированных СР является основным предметом рассмотрения в данной главе. Основное внимание здесь уделяется построению многослой- ных СР. О необходимости построения специализированных СР в виде комбинированных систем (ЦВМ—АВМ) говори- лось еще в работах Уидроу по стыковке СР типа Madalin с одной из ЦВМ серии IBM. Однако в этом варианте блок настройки коэффициентов СР был реализован в аналоговом виде. Сохранив преимущества аналоговых СР, указанные выше, необходимо ликвидировать следующие их недостатки: трудность изготовления более или меиее пригодного для построения крупной многослойной СР серийного адаптив- ного элемента с аналоговой памятью; трудность, громозд- кость и зачастую отсутствие необходимости реализации в аналоговом виде блока настройки коэффициентов СР. В связи с этим в данной главе рассматривается и иллю- стрируется следующий принцип построения специализи- рованных СР в комбинированном исполнении: 1. Разомкнутая СР, представляющая собой многослой- ную сеть из ЛПЭ, реализуется в аналоговом виде. 315
2. Блок настройки коэффициентов и разомкнутая СР моделируются на ЦВМ и служат для расчета параметров аналоговой разомкнутой СР по реальной статистике. 3. Настраиваемые коэффициенты разомкнутой СР уста- навливаются вручную или полуавтоматически после про- ведения соответствующих расчетов на ЦВМ (по п. 2). Этот принцип реализации специализированных СР оп- равдан, так как, во-первых, при нем сохраняются указан- ные преимущества аналоговых СР перед цифровыми; во- вторых, широкий круг практических задач требует обуче- ния СР в лабораторных условиях и не требует настройки коэффициентов на некотором интервале практической ра- боты; в-третьих, в достаточно широком круге практиче- ских задач возможно после некоторого этапа эксплуатации СР провести дообучение и подстройку коэффициентов в ла- бораторных условиях. Ниже в соответствии с указанным принципом построе- ния специализированных СР в комбинированном исполне- нии приводятся результаты моделирования многослойных СР на универсальных АВМ со специальными приставками, а также описание макета многослойной СР, предназначен- ного для решения достаточно широкого круга практических задач распознавания. 11-3. Экспериментальная модель многослойной СР, реализованная на универсальных АВМ и специальной приставке Была поставлена задача построить экспериментальную модель аналоговой многослойной СР с двумя решениями. Система распознавания имела три слоя с пятью, тремя и одним ЛПЭ в каждом слое н размерностью исходного про- странства признаков, равной пяти. Число связных областей в пятимерном пространстве признаков, принадлежащих первому и второму классу и разделимых с помощью такой СР, равно 20. Для построения экспериментальной модели с указан- ными характеристиками были выбраны две АВМ МН-7, в основном необходимые для реализации сумматоров, ин- верторов и релейных элементов. Переменные сопротивле- ния, реализующие весовые коэффициенты СР, а также схема коммутации ЛПЭ были выполнены на специальной приставке. Общий вид экспериментальной модели пред- ставлен на рис. 11-1. 316
Па лицевую панель приставки (рис. 11-2) выведены ручки потенциометров с соответствующими надписями, означающими номера ЛПЭ (от одного до пяти) и настраи- ваемого коэффициента в ЛПЭ (от одного до пяти). Для под- ключения приставки к МН-7 имеются пять четырнадцати- коитактных разъемов, причем разъемы Ш1, Ш2 (ШЗ, Ш4) подключаются к разъемам «Внешние цепи» первой (второй) ЛВМ. Разъем Ш5 подключается па наборное ноле ЛВМ. Рис. 11-1. Общий вид экспериментальной модели, С одной стороны приставки имеется плата (рис. 11-2). на которой расположены гнезда для набора сети произ- вольной структуры весовых коэффициентов. При настройке коэффициентов все гнезда отключаются от суммирующих точек. Напряжение признаков на входе СР и порогов из- меряется на гнездах, находящихся на другой боковой панели приставки (рис. 11-3). На рис. 11-4'— 11-7 изображены соответственно функ- циональная и принципиальная схемы экспериментальной модели и принципиальная схема и характеристика порого- вого элемента. Для исследования подобных СР в аналоговом исполне- нии была предложена схема (рис. 11-8), позволяющая по- 317
: ОДР шр Рис. 11 -2. Ком- мутационная приставка. а — обший вид приставки: б — панель контроля весовых коэффи- циентов. Рис. 11-3. Панель контроля значений признаков и порогов ЛПЭ. 318
лучить «изображение» разделяющей поверхности. В N-мер- ном пространстве признаков с помощью подобной схемы получается C# плоских изображений. Исследование Сл/ проекций разделяющей поверхности или областей классов позволяет сделать полезные выводы о сложности данной задачи распознавания, а также о минимальной сложности специализированного устройства, предназначенного для ее решения. Данный способ визуализации разделяющей поверхности был обобщен на случай К классов образов. Рис. 11-4, Функциональная схема экспериментальной модели. Некоторую информацию можно получить, сравнивая раз- деляющие поверхности в исходном и промежуточном про- странствах признаков многослойной СР. Кроме того, дан- ная схема в дальнейшем может быть использована для контроля серийных специализированных СР в аналоговом исполнении. Исследовалась возможность решения с по- мощью экспериментальной модели задачи распознавания, представленной на рис. 11-9. Данная задача не решается с помощью СР, реализуемой на одном ЛПЭ, а решается с помощью двухслойной СР, в которой для первого ЛПЭ первого слоя atl — 1, я12 = О, а1з = — К «ю = 0,5; для второго ЛПЭ первого слоя «21 = К «22 = 0, «за = — I. «20 ~ — ОД для ЛПЭ вто- рого слоя ах = 1, а2 — — 1, а0 = + 1,5. В следующем эксперименте с помощью двухслойной СР была реализована разделяющая поверхность, представ- ленная на рис. 11-10. 319
Характеристика СР при переходе через разделяющую поверхность в любой точке практически аналогична харак- теристике, изображенной на рнс. 11-7. Ъб-50В 50В Рис. 11-5. Принципиальная схема В отличие от рис. 11-10, разделяющая поверхность, изображенная на рис. 11-11 и состоящая из кусков трех гиперплоскостей, реализуется только трехслойной СР 320
(табл. 11-2). В табл. 11-2 представлены результаты иссле- дования реакций ЛПЭ первого слоя такой трехслойной СР на соответствующие входные векторы. Векторы первого -508 экспериментальной модели. и второго класса в пространстве выходных сигналов ЛПЭ первого слоя располагаются в вершинах соответствующего куба и делятся двумя гиперплоскостями (ЛПЭ второго 11 Заказ Ws 975 321
Рис. 11-6. Принципиальная схема порогового элемента. 0,3 02 Рис. 11-7. Характеристика порогового элемента. Рис. 11-8. Схема визуализации разделяющей поверхности. Рис. 11-9. Распознавание на модели вершин трех- мерной фигуры (куба). Q — первый класс; X — вто- рой класс. Рис. 11-10. Разделяю- щая поверхность, реали- зуемая двухслойной СР. /—/(7 — точки, взятые для эксперимента. 322
слоя) с векторами коэффициентов а[ = 4- 1, а'2 = — 1, °з=1’ “о °' <=' °2 = — 1. аз=1> «о = — 2. Результирующая трехслойная СР имеет два ЛПЭ во втором слое. На рис. 11-12 и в табл. 11-3 представлены реакции ЛПЭ второго слоя и третьего слоя на соответствующие входные векторы, причем уравнение, реализуемое ЛПЭ третьего слоя, имеет вид: — yt + у2 — 1 =0. Экспериментальные исследования данной трехслойной СР показывают возможность разделения с ее помощью Рис. 11-11. К эксперименту с трехслойной СР на модели. / — первый класс; II — второй класс. Рис. 11-12. Реакции ЛПЭ второго слоя модели трехслойной СР. Таблица 11-2 Точки на входе ЛПЭ 1-1 ЛПЭ 1-2 ЛПО 1-3 8 1 — 1 — 1 —1 II 2 11 — 1 —1 I 4 — 1 +1 —1 I 5 — 1 +1 +1 II 8 +1 +1 +1 I 9 —1 —1 +1 I 10 +1 +1 —1 II П* 323
четырехсвязных областей первого и трехсвязных областей второго класса. Разделяющая поверхность, изображенная на рнс. 11-13, реализуется с помощью трехслойной СР, имеющей соот- ветственно пять, два и одни ЛПЭ в первом, втором и третьем слоях. В табл. 11-4 представлены реакции первого слоя на соответствующие входные векторы, указанные на рис. 11-13. Рнс. 11-13. К эксперименту с трехслойной СР с пятью ЛПЭ в первом слое. Таблица 11-3 Точки на входе ЛПЭ 2-1 ЛПЭ 2-2 ЛПЭ 3-1 I — 1 +1 +1 2 +1 Н-1 —1 4 — 1 —1 —1 5 —1 +1 +1 8 +1 +1 —1 9 +1 +1 —1 10 —1 -1-1 +1 324
Таблица 11-4 Векторы на входе ЛПЭ 1-1 ЛПЭ 1-2 ЛПЭ 1-3 ЛПЭ 1-4 ЛПЭ 1-5 Класс 1 — 1 — 1 —1 + 1 — 1 I 2 +1 — 1 —1 +1 + 1 I 3 —1 — 1 +1 +1 +1 I 4 —1 — 1 —1 +1 -1-1 I 5 —1 +1 —1 +1 -1-1 I 6 —1 —1 —1 —1 +1 1 7 +1 —1 —1 —1 —1 II 8 -н —1 — 1 +1 —1 II 9 +1 —1 +1 +1 —1 II 10 -н —1 -1-1 +1 +1 II 11 +1 +1 +1 — 1 +1 II 12 —1 -н +1 +1 +1 11 13 „1 +1 —1 + 1 II 14 —1 +1 „I —1 +1 1 1 II 325
В данном случае уравнения, реализуемые .’II1Э второго и третьего слоя данной СР, имеют следующий вид: — 0,882 д-,—0,954 .v. —0,754 х, -- 0Д04 х4 0,718 д5 — — 1,385 - 0; — 0,118 л-!+ 0,046 х., -0,246 х3 -1,104 х4 -- + 1,718 х5 i 1,847 - 0; Д | -Г л-2 - 1 - 0. 11*4. Описание макета многослойной СР Данный макет представляет собой автономное устрой- ство, предназначенное для распознавания многомерных аналоговых' сигналов и применимое для решения широкого Рис. 11-14. Блок операцион- ных усилителей. Рис. 11-15. Общий вид макета. круга практических задач (техническая и медицинская диагностика, распознавание радиолокационных целей по характеристикам отраженных и излученных сигналов, и т. д.). Данный макет разработай и выполнен автором сов- местно с В. X. Наримановым. С помощью макета могут быть реализованы СР с различной структурой. Основой структуры являются два практически неизменяемые слоя 326
।3 Srt’S-i ‘ЖПГЛГ*-*’' ; -®s Рис. 11-17. Общим вид макета с задней стороны со сняюп крышкой. Рис. 11-lb. Общин вид Mabeia co снятыми крышками. 327
ЛПЭ (первый имел шесть ЛПЭ, второй три ЛПЭ). В пер- вом варианте макет в десятимерном пространстве призна- ков реализует трехслойлую СР (шесть, три и один Л11Э со- ответственно в первом, втором, третьем слоях). Во втором варианте входная часть функциональной схемы может быть перестроена следующим образом. Десять операционных усилителей, применяемых для инвертирования сигналов в первом варианте, используются для реализации десять ЛПЭ дополнительного слоя на входе многослойной СР, причем коэффициенты данных ЛПЭ реализуются на отдель- ной панели, а входом макета служит АВМ или реальный Рис. 11-19. Верхняя панель макета, объект. В третьем варианте функциональной схемы макета (получаемом из первого или второго) выходная часть ви- доизменяется следующим образом. Один ЛПЭ последнего слоя (два класса образов) заменяется специальным вход- ным каскадом, реализующим логическую функцию четы- рех переменных (три ЛПЭ предпоследнего и один ЛПЭ по- следнего слоя, соединенные в одном слое). Указанный вы- ходной каскад имеет десять выходов, сигнал на каждом из которых указывает принадлежность текущего образа на входе к тому или иному классу. Варианты функцио- нальной схемы макета переключаются специальными пе- реключателями. Схема отдельного ЛПЭ макета аналогична описанной выше при рассмотрении экспериментальной модели. Блок 328
операционных усилителей представлен на рис. 11-14. Для реализации настраиваемых коэффициентов в макете ис- пользуются малогабаритные мпогооборотные потенцио- метры типа СП-5-15. В схеме установки значений десяти- мерного вектора признаков в макете использованы много- оборотные потенциометры. Совместно со схемой многослой- ной СР в макете реализована схема управления, которая обеспечивает включение в мостовую схему с эталонным де- лителем и нуль-органом определенного переменного со- противления ЛПЭ. Макет выполнен в виде шкафа с наклонной верхней па- нелью (рис. 11-15—11-17). Спереди за открывающейся крышкой расположена дополнительная панель (рис. 11-18), на которой смонтирован выходной логический блок. Панель, на которой расположены переключатели структуры, опе- рационные усилители и блоки их обратных связей, распо- ложена за задней крышкой (рис. 11-17). На рис. 11-19 изо- бражена верхняя панель макета. Работа с макетом основана на использовании таблицы значений настраиваемых коэффициентов и таблицы значе- ний признаков распознаваемых объектов. ЗАКЛЮЧЕНИЕ Представленная в книге методика синтеза многослойных систем распознавания образов позволяет подойти к про- блеме сравнения СР различных типов. Достаточно очевидно, что если сравниваются СР различных типов по качеству выполняемой частной задачи распознавания, то такое срав- нение является некорректным. Для корректного сравнения СР различных типов необходимо рассматривать априорную информацию, данную для проектирования СР. Ниже пред- ставлены виды априорной информации, необходимость в которых на разных этапах синтеза СР показана выше: 1) априорные характеристики пространства «указаний учителя» СР о числе классов (два, К и континуум); 2) априорные характеристики нестационарности вход- ного сигнала СР; 3) функция «квалификации учителя» СР от двух аргу- ментов, являющихся индексами соответствующих классов; 4) функция «собственного мнения учителя СР о своих способностях». Это также функция двух аргументов, яв- ляющихся индексами соответствующих классов; 5) априорные вероятности появления классов; 329
6) априорные характеристики пространства решений (два, /Ср, континуум решений); 7) класс критериев первичной оптимизации СР; 8) функция потерь, возникающих при отнесении систе- мой образов одного класса к другому; 9) априорная информация об условных функциях рас- пределения f (х/е); 10) априорная информация о фиксированной структуре разомкнутой СР при построении СР с фиксированной струк- турой, настраивающейся но замкнутому циклу; 11) априорная информация о типе структуры при по- строении СР с переменной структурой; 12) априорная информация о соответствии функциона- лов первичной и вторичной оптимизации при построении СР с фиксированной структурой, настраивающихся по замкнутому циклу; 13) априорная информация о методике поиска экстре- мума функционала вторичной оптимизации; 14) априорная информация о наличии и виде ограниче- ний на настраиваемые коэффициенты; 15) априорная информация о методе выбора коэффици- ентов параметрической матрицы /С* системы поиска экстре- мума функционала вторичной оптимизации; 16) априорная информация о параметрах поисковых колебаний в том случае, если СР не может быть построена в виде аналитической системы; 17) априорная информация о начальных условиях для настройки; 18) априорная информация о классе типовых входных сигналов СР; 19) априорная информация о степени усложнения струк- туры разомкнутой СР иа каждом шаге и способе проведе- ния данного усложнения нрн построении СР с переменной структурой. Объективное сравнение СР различных типов необхо- димо проводить, сравнивая априорную информацию, дан- ную для их построения, а также качество работы СР при типовых и реальных входных сигналах. В дополнение к этому необходимо отметить, что резуль- таты синтеза многослойных систем распознавания образов нужно рассматривать с нескольких позиций независимо. Это необходимо для более глубокого понимания перспек- тив дальнейшего развития методов синтеза многослойных систем распознавания образов. 330
С точки зрения теории распознавания образов, по на- шему мнению, нужна логическая обоснованная методика синтеза систем распознавания образов с выходом на пер- спективный класс многослойных систем с фиксированной и переменной структурой. Структура разомкнутых систем подобного типа здесь является не только предметом син- теза и минимизации, но и средством решения задачи выбора информативных признаков. Теория автоматического управления включает в себя раздел методов синтеза адаптивных систем. Многослойные системы распознавания образов являются частным случаем адаптивных систем. Они обладают отличительной особен- ностью, которая дает возможность развить в этом частном случае теорию адаптивных систем. Эта особенность много- слойных систем распознавания образов заключается в том, что настраиваемая часть системы является многомерной, нелинейной, безынерционной системой, для которой до- статочно просто применимы методы точного вероятностного анализа. Именно эта особенность дала возможность в об- щей процедуре синтеза многослойных систем распознава- ния образов рассмотреть детальнее, чем в работах по ана- литическим и поисковым адаптивным системам, такие этапы, как: оценка точности СР, настраивающихся по ра- зомкнутому циклу; анализ разомкнутых СР и выбор функ- ционалов вторичной оптимизации, соответствующих за- данному критерию первичной оптимизации; построение замкнутых систем; исследование замкнутых систем; по- строение систем с переменной структурой; структурные методы выбора информативных признаков. Теория нейронных сетей как важнейший раздел науки о мозге рассматривает методы построения сетей из нейро- нов и преобразования сигналов в данных сетях. Методика синтеза многослойных систем распознавания образов позволяет подойти к решению следующих задач: построение алгоритмов адаптации в нейронных сетях про- извольной структуры, выполняющих различные, функции— преобразование, распознавание или запоминание сигналов; выяснение того, почему физиологическая нейронная сеть (например, зрительный или слуховой анализатор) имеет ту или иную структуру; синтез оптимальных структур ней- ронных сетей, выполняющих ту или иную функцию. Математическая статистика и теория статистиче- ских решений ставят своей целью изучение распределений, параметров распределений случайных величин и исследо- 331
ванне процессов принятия решений в пространстве пара- метров случайных величии. Многослойные системы яв- ляются частным, но достаточно эффективным средством изучения случайных величин с многомодальными распре- делениями, исследование которых обычными средствами математической статистики затруднительно. Многослойные системы, по нашему мнению, являются достаточно перспек- тивным средством организации процедуры принятия ре- шений в пространстве параметров случайных величин с многомодальными распределениями. Конечные автоматы, реализующие функции дву- и /f-значпой логики, могут быть представлены многослой- ными сетями из линейных пороговых элементов. В этом направлении некоторые шаги сделала пороговая логика. Однако она рассматривает в основном функции двоичной логики и сети с ограниченной структурой из линейных пороговых элементов. Многослойные сети из линейных по- роговых элементов могут реализовать в принципе любую функцию (дву- и /С-значную) математической логики. Интерполяция функций — самостоятельная задача, ко- торая может быть решена многослойной системой из линей- ных пороговых элемеитов, алгоритмы настройки которой представлены в данной книге. При этом, имея некоторую совокупность реализаций функции е (х), можно интерпо- лировать данную функцию преобразованием xk (х), реали- зуемым разомкнутой многослойной системой из линейных пороговых элементов. В этом заключается, по нашему мнению, специфика рассмотрения изложенных в книге результатов синтеза многослойных систем распознавания образов с точки зре- ния смежных с ней разделов кибернетики. Данная книга, естественно, не претендует на полноту решения и исследования поставленных в ней вопросов. Целью, которую ставил перед собой автор, является ме- тодика синтеза и по возможности глубокая иллюстрация работоспособности многослойных систем распознавания об- разов произвольной структуры. При этом автор видит ос- новное перспективное направление дальнейших исследо- ваний в следующих направлениях: развитие теории много- слойных СР; применение развиваемых методов для построе- ния математических моделей нейронных ансамблей; при- менение развиваемых методов для построения блоков и уз- лов современных ЦВМ на однородных структурах из ЛПЭ. 332
ПРИЛОЖЕНИЕ 1 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ ДВУХСЛОЙНОЙ СР С ЛПЭ ВО ВТОРОМ СЛОЕ № Геометрическая конфигурация Карта Карнапа £L бе гиперплоскости. I]. 1-1 333
334
П. 1-3 335
П. 1-4 336
П. 1-5 337
П. 1-6 338
П. Ь7 339
П. 1-8 340
Пять гиперплоскостей П. 1-9 341
П. 1-10 342
П. I ll 343
П. 1-12 344
П. 1-13 345
346
П. 1-15 Выводы, сделанные в гл. 5 по результатам, приведенным в при- ложении 1, справедливы с некоторыми допущениями для размер- ности исходного пространства признаков больше двух, так как касаются в основном ЛПЭ второго слоя двуслойной СР. Естественно, что приложение 1 носит иллюстративный харак- тер. Реализуемость логической функции на выходе ЛПЭ первого слоя проверялась с помощью одного ЛПЭ второго слоя обычными методами. Доопределение логической функции производилось про- извольно на одном из ЛПЭ второго слоя, так как доопределенная компонента аргумента логической функции физически никогда не появляется на выходе ЛПЭ первого слоя. Даже самое поверхност- ное сравнение конфигураций разделяющей поверхности, реализуе- мой двуслойными системами с мажоритарным элементом и ЛПЭ с настраиваемыми коэффициентами, показывает преимущества по- следних при отсутствии усложнений в технической реализации схемы. Возникает мысль о возможности построения упрощенного варианта системы, когда ЛПЭ второго слоя имеет все нефиксиро- ванные коэффициенты. При этом логическую функцию реализует не мажоритарный элемент, а ЛПЭ в одном из вариантов, представ- ленных в данном приложении. Как отмечалось в гл, 5, все вышеизложенное не является при- чиной выбора двухслойной системы, так как трехслойная система, как показано в гл. 5 и приложении 2, реализует еще более глубо- кую разделяющую поверхность. 347
ПРИЛОЖЕНИЕ 2 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ ТРЕХСЛОЙНЫХ СР П. 2-1 3-18
349
350
П. 2-4 351
П 2-5 352
П. 2-6 J 2 Заказ № 975 353
354
12* 355
356
ОСНОВНЫЕ ОБОЗНАЧЕНИЯ х (п) — последовательность образов на входе системы распоз- навания (СР); s (п) — указание учителя о принадлежности текущего образа на входе СР к тому или иному классу; Xk (л) — выходной сигнал СР; а (п) — вектор настраиваемых коэффициентов; g (п) — вектор промежуточных сигналов СР; f. (х, г) — совместная плотность распределения сигнала [х (п), s («)]; К — число классов; N* — размерность пространства указаний учителя (i* — = 1, . . . , №"); /Ср — число решений СР; п — текущее дискретное время; (x/s) — плотность распределения сигнала х (п) при условии заданногО'5 (п); fj" (t/x) — платность распределения сигнала е (п) при условии заданного х (п); fx (х) — плотность распределения сигнала х (п); /е (е) — плотность распределения сигнала e (п); Р1» рч, - . . , РК~~ априорные вероятности появления классов (ординаты дискретного распределения fB (в)); fi (х), /2 (х)> • • • » fК (х) — условные распределения вероятно- стей для совокупности образов, принадлежащих соответственно 1-му, . . . , Л-му классу; Ь — квалификация учителя; ttjk — смешанный момент /-го порядка многомерного случай- ного процесса х (п), представляющий собой последовательность образов А-го класса; с — «собственное мнение учктеля о своих способностях»; rk- — условная функция риска относительно образов А'-го класса; L = — матрица коэффициентов потерь, возникающих при отнесении системой образа А-го класса к области А-го решения; S<fe> (х) i> 0 — область А-го решения СР; R — средняя функция риска; / — функционал Лагранжа; dj, а^, . . . , dK к +1 d (хк) — превышение по апостериор- ным вероятностям; ? — пороги (параметры разделяющей поверхности в од- номерном случае); li (xk), l2 (xk), li (s), /2(е), I (е, — соответствующие компо- ненты вектор-функции потерь; 357
Xk = P (x) — преобразование, осуществляемое разомкнутой СР (СР на этапе распознавания); /Со — число градаций по амплитуде сигналов s (п) и хд (п) по каждому из каналов; р — функция потерь в режиме самообучения; Ьк — координата центра &р-го класса в режиме самообуче- ния; Р U — матрица ковариаций; m — вектор математических ожиданий многомерного случай- ного процесса; Т — порог; Г — гамма-функция; — начальные моменты распределений; — центральные моменты распределений; а — время упреждения решения в СР; Д4 —• память СР; IF^ — импульсная переходная функция дискретного филь- ра;_ л — множитель Лагранжа; Шр т2 — векторы математических ожиданий для совокупно- стей образов первого и второго класса; МРПрав — математическое ожидание вероятности правиль- ного распознавания; РРправ — дисперсия вероятности правильного распознава- ния; F (§) — нелинейное преобразование аналогового выходного сигнала линейного порогового элемента; IF — число слоев ЛПЭ в многослойной СР (/ = I........IF); ~~ настраиваемые коэффициенты многослой- ной СР, связывающие ЛПЭ (IF—/)-го и (IF—/-|- 1)-го слоев; у» —соответственно выходной и аналоговый выходной сигналы ft^_j+l-ro ЛПЭ (IF — / + 1)-го слоя; ф — число областей, на которое делит исходное пространство признаков результирующая кусочно-линейная разделяющая по- верхность, реализуемая многослойной СР; Hj — число ЛПЭ в /-м слое многослойной СР; Н — общее число ЛПЭ в многослойной СР; ха (я) — аналоговая ошибка СР; (п) — дискретная ошибка СР; fa (ха) — распределение аналоговой ошибки СР; txg (xg) — распределение дискретной ошибки СР; , а — момент г-го порядка распределений соответственно а s аналоговой и дискретной ошибок СР; ^rka, arkg — момент г-го порядка распределений соответст- венно аналоговой и дискретной ошибок СР для совокупности об- разов £-го класса; fka (ха), fkxs (xg), fkxk (xk) — распределения соответственно аналоговой и дискретной ошибок, а также выходного сигнала СР для совокупности образов £-го класса; f> ' (xg) —распределение преобразований дискретной ошибки; 358
Z (xg) — преобразование дискретной ошибки; xk — преобразованный выходной сигнал СР; F (а) — функционал качест?а СР; К'"' — параметрическая матрица системы поиска; / — единичная матрица; (а) = 0 (ц = 1, . . . , — канонический вид записи ог- раничений типа равенств на настраиваемые коэффициенты; (№ -J- 1) — количество настраиваемых коэффициентов; ?g(a)<0 (ji = 1, . . . , Л12) — канонический вид записи ог- раничений типа неравенств на настраиваемые коэффициенты; х (п)тп — оценка среднего значения сигнала х (п) иа интерва- ле времени [п, п—тл]; ДТ — интервал времени между моментами поступления об- разов на вход СР.
СПИСОК ЛИТЕРАТУРЫ 1. Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин. М., «Наука», 1970. 383 с. 2. Андерсон Т. Введение в многомерный статистический ана- лиз. М., Физматгиз, 1963, 500 с. 3. Вопросы статистической теории распознавания. М., «Со- ветское радио», 1967, 400 с. Авт.: Барабаш Ю. Л., Барский Б. В., Зиновьев В. Т. и др. 4. Бонгард М. М. Проблема узнавания. М., «Наука», 1967, 320 с. 5. Бутаков Е. А. Методы синтеза релейных устройств из по- роговых элементов. М., «Энергия», 1970, 328 с. ' 6. Синтез схем на пороговых элементах. Под ред. Е. Н. Ва- вилова. М., «Советское радио», 1970, 368 с. Авт.: Вавилов Е. Н., Тоценко В. Г., Егоров Б. М. и др. 7. Ван дер Варден Б. Математическая статистика. М., Изд-во, иностр, лит., 1960, 465 с. 8. Васильев В. И. Распознающие системы. Киев, «Наукова, думка», 1969, 291 с. 9. Глушков В. М. Введение в кибернетику. Киев, издание АН УССР, 1964, 324 с. 10. Кендалл М., Стьюарт А. Теория распределений. М.,«Наука», 1966, 587 с. 11. Дейч С. Модели нервной системы. М., «Мир», 1970, 325 с. 12. Дертоузос М. Пороговая логика. М., «Мир», 1967, 343 с. 13. Загоруйко Н. Г. Какими решающими функциями пользуется человек?—В сб.: Вычислительные системы. Новосибирск, 1967, вып. 28, с. 69—78. 14. Ивахненко А. Г. Самообучающиеся системы распознавания и автоматического управления. Киев, «Техника», 1969, 392 с. 15. Ковалевский В. А. Распознавание образов: эвристика или наука? — Обзор, Киев, ИК АН УССР, 1970, 94 с. 16. Корн Г. и Корн Т. Справочник по математике для научных работников и инженеров. М., «Наука», 1968, 720 с. 17. Красовский А. А. Динамика непрерывных самонастраи- вающихся систем. М., Физматгиз, 1963, 468 с. 18. Леман Э. Л. Проверка статистических гипотез. М., «Наука», 1964. 498 с. 19. Лупанов О. Б. О возможностях синтеза схем из произволь- ного числа элементов.— Труды Матем. ин-та им. Стеклова. 1958, т. 51, с. 158—173. 20. Минский М., Пейперт С. Персептроны. М., «Мир», 1971, 261 с. 360
21. Мкртчян С. О. Нейроны и нейронные сети. М., «Энергия», 197), 231 с. 22. Нильсон Н. Обучающиеся машины. М., «Мир», 1967, 180 с. 23. Пирс У. Построение надежных вычислительных машин. М., «Мир», 1968, 270 с. 24. Позин Н. В. Моделирование нейронных структур. М., «Наука», 1970, 259 с. 25. Пугачев В. С. Теория случайных функций и ее применение к задачам автоматического управления. М., Физматгиз, 1960, 883 с. 26. Пугачев В. С. Оптимальное обучение автоматических си- стем в изменяющихся условиях.— Труды III Всесоюзного совеща- ния по автоматическому управлению. (Опти.мальные системы. Ста- тистические методы). М., «Наука», 1967, 392 с. 27. Рао С. Р. Линейные статистические методы и их примене- ние. М., «Наука», 1968, 547 с. 28. Растригнн Л. А. Статистические методы поиска. М., «Наука», 1968, 376 с. 29. Рауднс Ш. Ю. Исследование зависимости вероятности ошибки классификации от объема обучающей выборки.— .цеп. ВИНИТИ, № 313-68. 30. Рауднс UJ. Ю. Об определении объема обучающей выборки линейного классификатора.— В сб.: Вычислительные системы. Новосибирск, «На\ ка», 1967, вып. 22. 31. Розенблатт Ф. Принципы нейродинамики. М., «Мир», 1965, 480 с. 32. Романовский В. И. .Математическая статистика. М.—Л., ГОНТИ, 1938, 528 с. 33. Аналитические самонастраивающиеся системы. Под ред. В. В. Солодовникова. М., «Машиностроение», 1965, 355 с. 34. Себестиан Г. С. Процессы принятия решений при распоз- навании образов. Киев, «Техника», 1965, 151 с. 35- Техническая кибернетика. Под ред. В. В. Солодовникова. Т. 1—3. М., «Машиностроение», 1969, 1970. 36. Уидроу. Распозкаванне образов и адаптивное управление.— «Зарубежная радиоэлектроника», 1965, № 9, с. 87—111. 37. Уилкс С. Математическая статистика. М., «Наука», 1967, 242 с. 38. Феллер В. Введение в теорию вероятностей и ее приложе- ния. Т. 2. М., «Мир», 1964, 498 с. 39. Худсон Д. Статистика для физиков М., «Мир», 1967, 242 с. 40. Цыпкин Я. 3. Адаптация и обучение в автоматических системах. М., «Наука», 1968, 399 с. 41. Цыпкин Я. 3. Основы теории обучающихся систем. М., «Наука», 1970, 251 с. 42. Элдертон П. Кривые распределения численностей и корре- ляция. М., ЦСУ, 1924, 199 с. 43. Cooper Р. W. The hypersphere in pattern recognition.— «Information and Control», 1962, № 5. 44. Дада P. О., Фоссум Б. Классификация изображений при помощи итеративно определяемой линейной и кусочно-лниейной классифицирующих функций.— Экспресс-информация. Техниче- ская кибернетика, ВИНИТИ АН СССР, 1966, № 35, реферат 138. 45. Elderton Р. W. Frequency curves and correlation. Cambridge, Univ. Press, 1953, 272 p. 361
46. Галушкин А. И. Многослойные системы распознавания образов. М.» МИЭМ, 1970, 167 с. 47. Галушкин А. И. Методы синтеза систем распознавания об- разов.— «Труды МИЭМ», 1969, вып. 6, с. 133—172. 48. Галушкин А. И. Расчет и реализация оптимальных дис- кретных фильтров.— В сб.: Автоматическое управление и вычис- лительная техника. М., 1968, вып. 9, с. 72—128. 49. Галушкин А. И., Зотов Ю. Я., Шикунов Ю. А. Оператив- ная обработка экспериментальной информации. М., «Энергия», 1972. 360 с. 50. Галушкин А. И. Исследование характеристик входного сигнала систем распознавания образов. Аннотации и тезисы Докла- дов II Всесоюзной конференции по технической кибернетике. Минск, 1969, с. 38—39. 51. Галушкин А. И. О характеристиках входных сигналов си- стем распознавания образов.— «Труды МИЭМ», 1971, вып. 14, с. 125—138. 52. Галушкин А. И. Единый подход к решению задач обуче- ния и самообучения систем распознавания образов.— «Труды МИЭМ», 1970, вып. 6, с. 104—120. 53. Галушкин А. И. Выбор критериев первичной оптимиза- ции и построение оптимальной модели систем распознавания клас- сов образов в режиме обучения.— В сб.: Автоматическое управле- ние и вычислительная техника. М., «Машиностроение», 1972, вып. 10, с. 104—116. 54. Галушкин А. И. О разделяющих поверхностях произволь- ного порядка в системах распознавания образов.— «Труды МИЭМ», 1970, вып. 6, с. 261-270. 55. Галушкин А. И., Каймин В. А. Моментный подход к реше- нию задачи самообучения систем распознавания образов.— «Труды МИЭМ», 1971, вып. 14, с. 139—146. 56. Галушкин А. И. Синтез обучающихся по разомкнутому циклу систем распознавания нестационарных образов.— «Техни- ческая кибернетика». АН СССР, 1971, № 1, с. 167—173. 57. Галушкин А. И. Синтез обучающихся по разомкнутому циклу систем распознавания нестационарных образов.— «Труды МИЭМ», 1970, вып. 6, с. 172—238. 58. Галушкин А. И. Методика синтеза обучающихся по разомк- нутому циклу систем распознавания нестационарных образог.— Тезисы докладов III Украинской республиканской конференции по бионике. Киев, ИК АН УССР, 1969. 59. Галушкин А. И., Юмашев С. Г. О кусочно-линейных раз- деляющих поверхностях в системах распознавания образов.— Те- зисы доклада I Всесоюзной межвузовской конференции по техни- ческой кибернетике. М., 1969, с. 93—94. 60- Галушкин А. И., Юмашев С. Г. О применении кусочно- линейных разделяющих поверхностей в задаче распознавания об- разов.— «Труды МИЭМ», 1970, вып. 6, с. 238—255. 61. Галушкин А. И. Об алгоритмах адаптации в многослойных системах распознавания образов.— Доклады АН УССР, 1973. 62. Галушкин А. И., Зак Л. Е., Тюхов Б. П. К сравнению кри- териев оптимизации адаптивных систем распознавания образов.— «Кибернетика». АН УССР, 1970, № 6, с. 122—130. 63. Галушкин А. И. Реализация критериев первичной оптими- зации в системах распознавания образов, настраивающихся по замк- 362
нутому циклу, в режиме обучения.— «Труды МИЭМ», 1971, вып. 23, с. 191—205. 64. Галушкин А. И. Анализ одного итерационного метода по- иска экстремума.— «Автоматика и вычислительная техника», АН Латв. ССР, 1970, № 2, с. 38—40. 65. Галушкин А. И., Шмид А. В. Итерационные методы поиска экстремума. функций многих переменных при ограничениях типа равенств.— «Автоматика и вычислительная техника». АН Латв. ССР, 1971, № 4, с. 88—91. 66. Анализ динамики систем распознавания нестационарных образов.— «Труды МИЭМ», 1971, вып. 23, с. 210—227. Авт.: Галуш- кин А. И., Василькова Т. Ф., Слободенюк В. И. н др. 67. Галушкин А. И., Тюхов Б. П., Чигринов В. Г. О сходимости одного метода случайного поиска при отыскании локальных и гло- бального экстремумов многоэкстремальной функции.— «Труды, МИЭМ». 1971, вып. 23, с. 205—209. 68. Галушкин А. И. Распознавание сигналов на септронах. М., «Энергия», 1974.
ОГЛАВЛЕНИЕ Введение ............................................... 3 Глава первая. Исследование характеристик входных сигналов системы распознавания ... 18 1-1. Постановка задачи..............................18 1-2. Совместный закон распределения вероятностей вход- ного сигнала для двух классов образов...........20 1-3. Совместный закон распределения вероятностей вход- ного сигнала для /С классов образов.............26 Глава вторая. Построение оптимальных моделей СР . 30 2-1. Общая структура оптимальной модели.............30 2-2. Аналитическое представление разделяющих поверхно- стей в типовых СР...............................31 2-3. Оптимальная модель СР для многомерных сигналов • (л) и X* (п)..................................54 2-4. Априорная информация о входном сигнале СР в режиме самообучения...........................56 2-5. О критериях первичной оптимизации СР в режиме са- мообучения .....................................58 2-6. Оптимальные модели СР в режиме самообучения при произвольной квалификации учителя...............60 Глава третья. Построение СР, настраивающихся по разомкнутому циклу .................................... 64 3-1. Классификация типовых распределений............64 3-2. Построение СР, оптимальных для совокупностей обра- зов, распределенных по некоторым типовым Законам . 65 3-3. Построение СР, оптимальных для совокупности раз- личных законов распределений вероятностей .... 69 3-4. Метод допустимых преобразований................70 3-5. Построение СР нестационарных образов...........75 3-6. Построение настраивающихся по разомкнутому циклу СР в режиме самообучения........................77 3-7. Исследование точности СР, настраивающихся по ра- зомкнутому циклу................................80 3-8. Исследование точности замкнутой СР ио величине ве- роятности правильного распознавания ....... 85 Глава четвертая. Описание и выбор структуры ра- зомкнутой СР...........................................89 4-1. Постановка задачи..............................89 4-2. Линейная и нелинейные разделяющие поверхности . 90 364
4-3. Реализация СР с кусочно-линейной разделяющей по- верхностью в виде многослойной СР на ЛПЭ ........94 4-4. Классификация типов структур разомкнутых много- слойных СР с последовательными связями ..........96 4-5. Структурное и символическое описание разомкнутых многослойных СР.................................107 4-6. Оптимизация структуры многослойных СР с перекре- стными связями...................................НО 4-7. Оптимизация структуры по некоторым основным топо- логическим характеристикам......................118 4-8. Оптимизация структуры многослойных СР с реше- ниями ..........................................122 Глава пятая, Анализ разомкнутых СР ....... . 124 5-1. Законы распределения аналоговой и дискретной оши- бок СР .........................................124 5-2. Выбор функционала вторичной оптимизации .... 134 5-3. Формирование функционалов вторичной оптимизации, соответствующих заданному критерию первичной оп- тимизации ...............................137 5-4. СР в режимах самообучения и при произвольной ква- лификации учителя........................147 Глава шестая. Разработка алгоритмов поиска экстре- мума функций многих переменных . . 147 6-1. Организация процедуры поиска экстремума функцио- нала вторичной оптимизации в СР................147 6-2. Анализ итерационного метода поиска экстремума функ- ций многих переменных..........................149 6-3. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа ра- венств на переменные...........................152 6-4. Итерационные методы поиска экстремума функций мно- гих переменных при наличии ограничений типа нера- венств на переменные...........................158 6-5. Алгоритм случайного поиска локальных и глобального экстремумов функций многих переменных..........160 6-6. Построение алгоритмов адаптации в многослойных СР с использованием оценок производных второго порядка функционала вторичной оптимизации ...... 162 Глава седьмая. Построение замкнутых СР..........166 7-1. Постановка задачи............................166 7-2. ЛПЭ с двумя и континуумом решений ........ . .167 7-3. Двухслойные СР ...............................171 7-4. Многослойные СР из ЛПЭ с континуумом решений . 175 7-5. Построение СР, настраивающихся по замкнутому циклу при ограничениях на переменные...........178 7-6, Реализация критериев первичной оптимизации в ЛПЭ с двумя решениями..............................181 7-7. Реализация критерия минимума средней функции риска в ЛПЭ с континуумом и К решениями .... 184 7-8. Реализация критерия минимума средней функции риска в СР с А* выходными каналами (слой ЛПЭ1 . . 186 365
7-9. Реализация критерия минимума средней функции риска в многослойных СР.........................187 7-10. Построение замкнутых СР нестационарных образов . 190 7-11. Построение СР с перекрестными и обратными связями, настраивающихся по замкнутому циклу.............193 7-12. Построение замкнутых СР в режимах самообучения и произвольной квалификации учителя...............194 7-13. Вывод выражений для оценок производных второго порядка функционала вторичной оптимизации . . . 196 Глава восьмая. Исследование замкнутых многослой- ных СР..............................................199 8-1. Постановка задачи синтеза контура настройки СР по замкнутому циклу...............................199 8-2. О выборе начальных условий настройки в многослой- ных СР.........................................201 8-3. Типовые входные сигналы СР....................202 8-4. Аналитические методы исследования СР, настраиваю- щихся по замкнутому циклу .................... 204 8-5. Исследование ЛПЭ при многомодальном распределе- нии входного сигнала...........................215 8-6. Исследование динамики частного вида СР нестацио парных образов.................................223 8-7. Исследование динамики трехслойной СР в режиме обучения .................................... 230 8-8. Исследование СР частного вида с обратными связями 235 8-9. Исследование динамики однослойных СР в режиме самообучения ................................. 239 8-10. Двухслойная СР в режиме самообучения..........249 8-11. О некоторых инженерных методах выбора параметров матриц в алгоритмах настройки многослойных СР по замкнутому циклу .............................. 259 8-12. Построение многослойной СР для решения задачи об- ращения матрицы.................................260 8-13. Построение многослойной системы для решения за- дачи перевода чисел из двоичной системы исчисления в десятичную....................................263 8-14. Исследование многослойной СР при произвольной квалификации учителя.....................265 Глава девятая. Синтез многослойных СР с переменной структурой .........................................266 9-1. Последовательный алгоритм обучения ЛПЭ первого слоя многослойной СР.............................267 9-2. Алгоритм обучения ЛПЭ первого слоя многослойнойСР с применением метода случайного поиска локальных и глобального экстремумов функций................272 9-3. Анализ сходимости алгоритмов при увеличении числа гиперплоскостей .................................276 9-4. Алгоритм обучения ЛПЭ второго слоя двухслойной СР 280 9-5. Алгоритмы обучения второго и третьего слоев ЛПЭ трехслойной СР...................................288 9-6. Общая методика последовательного синтеза много- слойных СР.......................................291 9-7. Метод обучения ЛПЭ первого слоя многослойной СР с континуумом признаков ........................ 292 366
Глава десятая. Выбор информативных признаков в многослойных СР........................................293 10-1. Постановка задачи выбора информативных призна- ков в режиме обучения . . ....................293 10-2. О выборе информативных признаков в системах с на- стройкой по замкнутому циклу ................ 296 10-3. Определение оптимального маршрута выбора призна- ков, обеспечивающих максимальную вероятность пра- вильного распознавания...................... 300 10-4. О структурных методах выбора информативных при- знаков в СР с фиксированной структурой ...... 301 10-5. Выбор информативных признаков исходного про- странства с помощью многослойных СР с последова- тельными алгоритмами настройки ЛПЭ первого слоя 10-6. О выборе информативных признаков в многослойных СР в режиме самообучения......................309 Глава одиннадцатая. О принципах построения спе- циализированных многослой- ных СР в аналоговом испол- нении .................................................310 11-1. Специализированные системы распознавания .... 310 11-2. О построении комбинированных специализированных СР .............................................. 315 11-3. Экспериментальная модель многослойной СР, реали- зованная на универсальных АВМ и специальной при- ставке .......................................316 11-4. Описание макета многослойной СР..............326 Заключение ............................................329 Приложение 1. Результаты исследования двухслойной СР с ЛПЭ во втором слое................................333 Приложение 2. Результаты исследования трехслойных СР ....................................................349 Основные обозначения...................................358 Список литературы......................................361