Текст
                    УДК 621
Г15
ББК 32.818
Федеральная целевая программа “Государственная поддержка интеграции
высшего образования и фундаментальной науки на 1997 - 2000 годы”
Нейрокомпьютеры и их применение
Рецензенты:
академик РАН Ю.В. Гуляев;
докт. техн, наук Э. Д. Аведьян.
Галушкин А.И.
Г15 Теория нейронных сетей. Кн. 1: Учеб, пособие для вузов / Общая ред.
А. И. Галушкина. - М.: ИПРЖР, 2000.-416 с.: ил. (Нейрокомпьютеры и их
применение).
ISBN 5-93108-05-8
Изложена методика синтеза многослойных нейросетей различной структуры: с полными
и неполными последовательными связями, перекрестными и обратными связями, функциони-
рующими в режимах обучения, самообучения, обучения с учителями, обладающим конечной
квалификацией. Приведены этапы исследования надежности и диагностики нейронных сетей.
Для студентов по направлению подготовки бакалавров и магистров «Прикладные
математика и физика»,а также для научных работников, аспирантов и студентов, зани-
мающихся разработкой и применением сверхвысокопроизводительной вычислитель-
ной техники.
УДК 621
ББК 32.818
4	у	Научное издание
НЕЙРОКОМПЬЮТЕРЫ И ИХ ПРИМЕНЕНИЕ
Александр Иванович Галушкин
ТЕОРИЯ НЕЙРОННЫХ СЕТЕЙ. Кн. 1
Зав. редакцией И. Е. Якушина
Редактор-оператор Т.Н. Алексеева
Корректор Р. М. Ваничкина
Изд. № 59. Сдано в набор 13.01.2000. Подписано в печать 29.06.2000. Формат 60 х 90 1/16.
Бумага офсетная. Гарнитура Times New Roman. Печать офсетная.
Печ. л. 26. Тираж 2000 экз. Зак. № 353.
ЛР № 065229 от 20.06.97.
Издательское предприятие редакции журнала “Радиотехника”.
103031, Москва, К-31, Кузнецкий мост, д. 20/6, ИПРЖР.
Тел./факс: 921-48-37; 925-78-72; 925-92-41.
E-mail: zaoiprzhr@glasnet.ru
http://www.glasnet.ru/~zaoiprzhr/
Отпечатано в ППП Типография “Наука”
121099, Москва, Шубинский пер., д. 6.
ISBN 5-93108-005-8	© Центр интеграции, 2000,
© А. И. Галушкин, 2000,.

Посвящаю своим учителям ~ российским классикам в области теории управления, диск- ретных и адаптивных систем Владимиру Викторовичу Солодовникову, Льву Тимофеевичу Кузину, Якову Залмановичу Цыпкину ВВЕДЕНИЕ 1. Нейронные ЭВМ Нейрокомпьютеры - вычислители нового класса, появление которых, обусловлено объективными причинами, связанными, с одной стороны, с принципиальными этапами развития современ- ной технологии элементной базы, в основном определяющей развитие архитектуры ЭВМ, с другой - практическими тре- бованиями все быстрее и дешевле решать конкретные задачи. Основной причиной развития нейронных ЭВМ еще в 50-е годы явилось развитие пороговой логики, которая постоянно противопоставлялась классическому развитию элементной базы в базисе И, ИЛИ, НЕ и т.п., что привело к созданию в 60-е и 70-е годы ряда конкретных специализированных и экспери- ментальных универсальных нейронных ЭВМ. Термин «ней- ронные ЭВМ» - «нейрокомпьютер» никак не связан с какими бы то ни было свойствами и характеристиками нервной сис- темы человека и животных. Он связан только с условным наименованием порогового элемента с настраиваемыми или фиксированными весами, который реализует простейшую пе- федаточную функцию нейрона-клетки. Резкий скачок разви- гтия технологии БИС в начале 70-х годов и реализация в пер- вую очередь микропроцессорных БИС с классической архи- тектурой вычислителя с элементной базой в логическом бази- се И, ИЛИ, НЕ и т.п. затормозило, но не прекратило разви- тие вычислительных средств на элементах пороговой логики. Очередной скачок в начале 80-х годов позволил по-новому взглянуть на проблему нейронных ЭВМ, так как технология Уже не БИС, а СБИС позволила реализовать или сэмулиро- вдть в одном или нескольких кристаллах не только множе- Sbo обрабатывающих элементов-нейронов, но и все множе- но связей между ними, что ранее было невозможно. Такую возможность в середине 80-х годов предоставили не только электронные, но и оптические методы реализации. 3
Основной идеей создания нейронной ЭВМ - специализи- рованной или универсальной является идея построения ЭВМ как аналого-цифровой, где «быстрая» - аналоговая часть выполняет многомерные операции в пороговом базисе. Алго- ритмы настройки коэффициентов нейронных сетей реализу- ются либо «быстро» в аналоговом виде, либо «медленнее» в виде специализированных цифровых схем, эмулирующих нейронные алгоритмы, либо «медленно» в цифровом виде, например, на универсальной персональной ЭВМ. Создание нейронных ЭВМ требует построения принципи- ально новых алгоритмов решения многомерных задач, в ко- торых время решения конкретной задачи, с одной стороны, всего лишь линейно зависит от размерности задачи, с другой стороны определяется временем сходимости итерационного процесса решения задачи в конкретной нейронной сети. Основным формальным аппаратом построения нейронных алгоритмов является теория нейронных сетей [В1—7]. Назовем логическим базисом задачи основной набор операций, реали- зуемых в процессе детализации алгоритма. Таким базисом для большинства задач является базис {S ах}, к таким зада- чам относятся: задачи векторной алгебры; преобразование Фурье; задачи оптимизации. К подобным задачам сводится класс задач решения обык- новенных дифференциальных уровней, уравнений Пуассона, Эйлера, Навье-Стокса, эллиптических уравнений и пр. Логическим базисом вычислительной системы является ос- новная группа операций, реализуемых элементами основного операционного устройства. В случае классических машин это базис И, ИЛИ, НЕ, из которого формируется во-первых, уровень несколько более сложного базиса (штрих Шеффе- ра, многократные И, ИЛИ, НЕ и т.п.), и макроуровень - уровень микроустройств. В данном случае логический базис вычислительной системы никак не определяется логичес- ким базисом решаемых задач, а требует наложения на него достаточно сложной системы программирования. В случае нейронных ЭВМ логическим базисом вычислитель- ной системы в простейшем случае является базис {S а х, sign}, который максимально соответствует логическому базису ос- новных решаемых задач. 4
При решении задач с логическим базисом, описанным выше, на нейронных ЭВМ, базис задачи соответствует ба- зису вычислительной системы и нет искусственных сдвигов в ту или иную сторону: - ту, когда задачи с пороговым базисом, а базис системы И, ИЛИ, НЕ; - или ту, когда задача с базисом иным, нежели порого- вый, а вычислительная система нейронная. Предполагается, что соответствие базиса вычислительной системы и задачи обеспечивает максимальную производитель- ность. Это заявление тривиально для специализированных ЭВМ, которые предназначены для решения данной конкрет- ной задачи и не тривиально для таких машин, как нейрон- ные, которые в настоящее время претендуют на звание уни- версальных При решении конкретных задач итерационными методами на нейронных ЭВМ все трудности многоэкстремального поис- ка конечно остаются, только здесь они как бы перекладыва- ются с программной реализации (машины фон-Неймана, ЭВМ с архитектурой SIMD и MIMD) на аппаратную или програм- мно-аппаратную реализацию. Короче говоря, в нейронных ЭВМ выделяется алгоритмическое ядро основного массива прикладных задач, которые удается реализовать аппарат- но или программно-аппаратно с максимально возможным быстродействием. Для данного алгоритмического ядра ней- ронная ЭВМ - это максимально распараллеленная система. Количество циклов ее работы в процессе решения задачи (в рамках указанного алгоритмического ядра) - циклов настрой- ки на оптимум функционала вторичной оптимизации в ней (нейронной ЭВМ) определяется не субъективной интуицией схемотехника, который раскладывает обработку по слоям схемы из булевских элементов, и не субъективными воззре- ниями программиста, который организует их взаимодействие, а физической сущностью и трудностью задачи. Однородные нейронные сети обладают свойствами посте- пенной деградации при выходе из строя элементов. Это было отмечено еще Ф. Розенблаттом при построении трехслойно- го персептрона со случайными связями в первом слое, когда число элементов первого слоя было взято избыточным. При этом функция, реализуемая сетью нейронов, как бы рас- пределяется по структуре.
Нейронные ЭВМ являются первым примером того, когда структура вычислительной машины может рассчитываться ана- литически, а не строиться эмпирически исходя из неких субъективных представлений о задачах и элементной базе. Способы реализации нейронных ЭВМ делятся в основном на три класса: 1. Программная эмуляция нейронных алгоритмов на вычис- лительных машинах с архитектурами ОКОД (один поток ко- манд, один поток данных) (например, на классических ПЭВМ), ОКМД (например, Connection Machine) или МКМД (напри- мер, на транспьютерных сетях). 2. Программно-аппаратная эмуляция нейронных блоков на цифровой элементной базе, обеспечивающая ускоренное выполнение массива операций порогового базиса, в пер- вую очередь таких, как умножение и сложение (процессо- ры фирмы Weitek, сигнальные процессоры типа TMS32020 и т.п.); 3. Аппаратная реализация нейронного блока на элементной базе, характерной для нейронных алгоритмов (КМОП - нейрочипа, оптические управляемые транспаранты, голог- рафия и т.п.); Эффективность реализации нейронных алгоритмов реше- ния конкретных задач возрастает при переходе от варианта 1 к 2 и далее к 3. В случае аппаратной реализации нейронного блока или программно-аппаратной эмуляции нейронная ЭВМ представ- ляет собой классическую структуру специализированной ЭВМ с ОКМД-архитектурой, а в более сложных случаях, смешан- ную МОКМД-архитектуру, когда ЭВМ представляет собой сеть асинхронно работающих вычислительных узлов, к каждому из которых подсоединен блок синхронно работающих элемен- тов, реализующих фрагмент нейронного алгоритма. СуперЭВМ, такие, как GRAY ХМР, GYBER 205 обладали громадной вычислительной мощностью, но они чрезвычайно дороги и их архитектура не соответствовала принципам ней- ронной обработки. Высоких скоростей обработки им позволяли достичь векторные процессоры, конвейерные спецпроцессоры и сжатое время цикла. Как правило, они были построены на основе современной технологии и достигали в своем развитии такой точки, где дальнейшее увеличение быстродействия 6
сдерживалось физическими ограничениями скорости распро- странения сигналов в схемах ЭВМ. Выход из этого «техноло- гического» тупика предлагала «мелкозернистая» обработка, ре- ализованная на ЭВМ с архитектурой ОКМД и МКМД типа Connection Machine, Intel Hypercube, Ncube, Meiko Computing Surface и др., в частности «нейронная» обработка. Существуют различные подходы к выявлению паралле- лизма в решаемой задаче и реализации ее на параллельных процессорах: - параллелизм подзадач или событий; - явный алгоритмический параллелизм; - геометрический параллелизм. Первый тип параллелизма эффективен для программы, ко- торая многократно выполняется с различными параметрами. В этом случае желательно представить ее множеством незави- симых подзадач (каждая со своими параметрами) и выполнять подзадачи параллельно на различных процессорах. Примером реализации алгоритмического параллелизма может служить векторный процессор умножения с плаваю- щей точкой. Здесь организация параллельной обработки зак- лючается в назначении различных подзадач конвейеру про- цессоров, каждый из которых осуществляет некоторую опе- рацию над данными и передает результат дальше. В этом случае для обеспечения эффективности работы конвейера необходимо сбалансировать загрузку и доступ к процессо- рам, учесть время, требуемое для перемещения данных от одной стадии обработки к другой. Геометрический параллелизм заключается в декомпози- ции данных среди процессоров таким образом, чтобы все требуемые процессору данные располагались в его опера- тивной памяти или в оперативной памяти процессоров не- посредственного окружения. Геометрический параллелизм является стандартным подходом, используемым для ЭВМ ар- хитектуры ОКМД. Как показывает практика, многие вычис- ления при моделировании нейронных сетей являются локаль- ными, что делает подход, связанный с геометрическим па- раллелизмом, реальным при реализации нейронных ЭВМ. Именно поэтому нейронные ЭВМ с аппаратной и програм- мно-аппаратной реализацией нейронного блока относятся к классам архитектур ОКМД и МОКМД, как отмечено выше.
Ярким примером математической операции, параллель- ная реализация которой соответствует процессам, протека- ющим в нейронных сетях, является умножение матрицы на вектор. Здесь вектор является входным сигналом однослой- ной нейронной сети, матрица представляет собой значения коэффициентов нейронов слоя, а значения выходных сигна- лов нейронной сети являются результатом перемножения и нелинейного преобразования. Нейрокомпьютеры являются междисциплинарным пред- метом исследований. Поэтому определение нейрокомпьюте- ра можно дать только на фоне еще нескольких определе- ний, адекватных различным направлениям науки. Математическая статистика. Нейрокомпьютеры — это системы, позволяющие сформировать описания характерис- тик случайных процессов и их совокупности, имеющих в отли- чие от общепринятых сложные, зачастую многомодальные или вообще априори неизвестные функции распределения. Математическая логика и теория автоматов. Нейрокомпь- ютеры - это системы, в которых алгоритм решения задачи представлен логической сетью элементов частного вида - ней- ронов с полным отказом от булевских элементов типа И, ИЛИ, НЕ. Как следствие этого введены специфические связи между элементами, являющиеся предметом отдельного рассмотрения. Пороговая логика (50-е и 60-е годы ЭВМ на пороговой ло- гике). Нейрокомпьютеры - это системы, в которых алгоритм решения задачи представлен в виде сети пороговых элемен- тов с динамически перестраиваемыми коэффициентами и ал- горитмами настройки, независимыми как от размерности сети так и от входного пространства пороговых элементов. Практически все подходы, связанные с пороговой логи- кой, обладая внешними признаками нейронных сетей, име- ли ограничения, аналогичные булевским элементам и свя- занные с размерностью входного пространства элементов и размерностью сетей. Теория управления. Общеизвестны трудности синтеза не- линейных динамических систем управления. В случае нейро- компьютеров эти трудности частично обходятся тем, что в качестве объекта управления выбирается частный случай, хорошо формализуемый объект, т.е. многослойная нейрон- ная сеть, а динамический процесс ее настройки представляет собой процессе решения задачи. При этом практически весь О
аппарат синтеза адаптивных систем управления переносится на нейронные сети как частный вид объекта управления. Вычислительная математика. В отличие от классичес- ких методов решения задач нейрокомпьютеры реализуют алгоритмы решения задач, представленные в виде нейрон- ных сетей. Это ограничение позволяет разрабатывать алго- ритмы, потенциально более параллельные, чем любая мыс- лимая их физическая реализация. Множество нейросетевых алгоритмов решения задач составляет новый перспектив- ный раздел вычислительной математики, условно называе- мый нейроматематикой. Вычислительная техника. С точки зрения вычислитель- ной техники нейрокомпьютер - это вычислительная система с архитектурой MSIMD, в которой реализованы три принци- пиальных технических решения: □ упрощен до уровня нейрона процессорный элемент од- нородной структуры; □ резко усложнены связи между элементами; □ программирование вычислительной структуры перене- сено на изменение весовых связей между процессорны- ми элементами. Общее определение нейрокомпьютера. Нейрокомпью- тер - это вычислительная система с архитектурой аппа- ратного и программного обеспечения, адекватной выпол- нению алгоритмов, представленных в нейросетевом ло- гическом базисе. 2. Место нейронных ЭВМ в ряду высокопроизводительных вычислительных средств Если высокопроизводительные вычислительные средства можно условно разделить на два класса: «крупнозернистые» (с небольшим числом процессоров) и «мелкозернистые» (с большим - сотни, тысячи процессоров), то нейронные ЭВМ относятся к классу мелкозернистых ЭВМ. Под новым классом вычислительных машин можно пони- мать класс машин, решающих достаточно широкий круг уни- версальных задач и требующих для своего решения по срав- нению с прежними типами вычислительных машин новой реализации технических средств, системы программирова- ния и алгоритмов решения задачи. 9
С точки зрения данного определения ЭВМ крупнозернистой обработки типа GRAY, «Эльбрус» являются новым классом вы- числительных машин по сравнению с машинами фон-Неймана, ЭВМ мелкозернистой обработки с архитектурой ОКМД (один поток команд, много потоков данных) являются новым классом по сравнению с ЭВМ крупнозернистой обработки. Каждый из перечисленных ниже классов ЭВМ является новым по отношению к предыдущему: - машины с архитектурой фон-Неймана; - машины крупнозернистой обработки типа GRAY, «Эль- брус»; - машины мелкозернистой обработки с архитектурой ОКМД; - машины мелкозернистой обработки с архитектурой МКМД (много потоков команд, много потоков данных); - машины мелкозернистой обработки со смешанной архи- тектурой типа МОКМД (множественный вариант ОКМД); - нейронные ЭВМ. Из четырех типов мелкозернистых ЭВМ, приведенных на рис. В-1 в своем эволюционном развитии, ЭВМ с архитекту- рой ОКМД являются первыми, появившимися еще в сере- дине 70-х годов. Процессор представляет собой в этом слу- чае однобитовый процессор с некоторой локальной памя- тью, что делало необходимым организацию синхронной ра- боты множества таких образований при решении достаточно сложных задач. Рис. В-1. Эволюция развития мелкозернистых ЭВМ: ОКМД - один поток команд, много потоков данных; МКМД - много потоков команд, много потоков данных; МОКМД - множественный вариант ОКМД Развитие технологии СБИС в начале 80-х годов послужи- ло первопричиной появления первых промышленных образ- цов мелкозернистых ЭВМ с архитектурой МКМД (много по- токов команд - много потоков данных), как асинхронно дей- ствующих сетей 16 и 32 разрядных микроЭВМ, в том числе транспьютерных сетей. 1 л
В 1985 - 1988 гг. появилось несколько проектов ЭВМ со смешанной архитектурой, в которых при наличии ядра в виде сети асинхронно работающих процессоров каждый процес- сор такого ядра управляет синхронно работающей сетью про- стых процессоров с локальной памятью (иногда такую архи- тектуру называют множественным вариантом ОКМД - МОКМД). Архитектура МОКМД - это повторение на новом каче- ственном уровне (МКМД) попытки распараллеливания алго- ритма на сети синхронно действующих процессоров, которая уже была реализована в структурах ОКМД. В целом нейронные ЭВМ можно трактовать, как частный случай (или развитие) ЭВМ с архитектурой МОКМД, в кото- ром синхронное образование при каждом «мелком зерне», работающем асинхронно, представляет собой не просто «вуль- гарную», с точки зрения алгоритмиста, сеть однобитовых про- цессоров с памятью, а осмысленное, с точки зрения алгорит- миста, синхронное образование, производящее программно- аппаратную, а лучше аппаратную эмуляцию нейронного ал- горитма, в простейшем случае представляющего собой опе- рацию перемножения векторов большой размерности или мат- рицы на вектор, но только в простейшем случае. Нейронные ЭВМ при этом являются частным случаем структуры МОКМД, где синхронно работающая «гроздь» однобитовых процессоров имеет специальную организацию, приближенную к програм- мно-аппаратной реализации основной части алгоритма, а в данном нейронном случае реализующая программно-аппаратно «нейронное» ядро ряда алгоритмов. Программно-аппаратная реализация нейронных алгорит- мов в синхронных образованиях нейронных ЭВМ позволяет по всей вероятности кроме всего прочего решить две дополни- тельные задачи: 1) минимизировать, а иногда и сделать нулевым обмен ин- формацией в процессе решения задач между узлами асинхронного ядра нейронной ЭВМ, что практически невозможно для большинства задач в транспьютерных сетях или подобных им системах. 2) решать так называемые плохо формализуемые зада- чи, такие, как обучение с целью оптимального распоз- навания, самообучение (кластеризация) и т.п. 11
Необходимо отметить, что из всех применений нейро- компьютеров в настоящее время наиболее важным является уровень супервычислений, т.е. уровень, где имеется нехват- ка производительности вычислительных средств при суще- ствующих ограничениях. При этом объективную необходи- мость появления архитектуры нейроЭВМ, как естественного развития архитектуры МКМД, можно объяснить также тем, что архитектура МКМД при естественном желании разра- ботчика увеличить производительность узла и число узлов имеет «область тупика» в своем развитии (рис. В-2) по кри- терию отношения производительности к стоимости по двум причинам: - объективное наличие межузловых обменов и увеличе- ние общих потерь на обмены при увеличении числа узлов, - увеличение стоимости узла при стремлении увеличить его производительность. Рис. В-2. К иллюстрации ограничения развития МКМД- архитектуры при увеличении числа узлов и производитель- ности узлов Тупиковость прямого варианта повышения производи- тельности ЭВМ с архитектурой МКМД, а именно варианта, связанного с повышением производительности узла и уве- личением числа узлов, определяется тем, что при этом про- изводительность растет медленнее (или значительно мед- леннее) стоимости системы, что недопустимо. Причины это- го заключаются в том, что стоимость узла растет быстрее производительности и за счет того, что при увеличении чис- ла узлов растут потери на обмены информацией между уз- лами в процессе решения задачи. Именно это, с нашей точки зрения, и является основной объективной причиной введения в каждом узле МКМД архи- тектуры некоторого синхронно функционирующего нейрооб-
разования, программно-аппаратно, а в будущем аппаратно реализующего нейронную сеть, реализующую в свою оче- редь заданную функцию. Экономический фактор играет и будет играть существен- ную роль при построении мелкозернистых суперЭВМ, осо- бенно в части ЭВМ с очень большим числом узлов. Рост цены на заказную транспьютероподобную БИС, связанный с ее ус- ложнением и повышением производительности, будет опре- делять ее место в основном не в качестве базового элемента большой решетки, а в качестве базового элемента коммута- ционной решетки «среднего» размера, к каждому узлу кото- рой присоединено некоторое образование из более «одно- родных», т.е. дешевых БИС, образующих некоторый сопро- цессор, специализированный либо по структуре - сеть од- нобитовых процессоров с памятью, либо по функции - на- пример, нейровычислитель. Отсюда следует, что роль заказных БИС транспьютеров и транспьютероподобных элементов, у которых имеется тенден- ция к усложнению структуры и увеличению числа транзисто- ров, будет, с нашей точки зрения, уменьшаться в диапазоне развития вычислительной техники, соответствующем суперЭВМ мелкозернистой структуры. Основной упор будет на массовое применение этих элементов в классе персональных ЭВМ (пла- ты ПЭВМ - ускорители), суперперсональных ЭВМ (блоки из нескольких плат при ПЭВМ), и в меньшей степени в классе суперминиЭВМ (стойка в несколько десятков плат с несколь- кими ПЭВМ типа Meiko и Megaframe). Появление систем на несколько тысяч транспьютеров или транспьютероподобных элементов является объективным, но временным явлением в классе суперЭВМ, да и только в разделе применений супе- рЭВМ, требующих единичных образцов. Это означает, что для перспективы развития суперЭВМ мелкозернистой структуры транспьютерного типа более 10 000 узлов в настоящем понимании является крайним на- правлением, развитие которого нужно искать в архитекту- ре периферийной части каждого узла коммутационной ре- шетки транспьютерных элементов будущей системы. Ней- ронные ЭВМ являются эффективным путем развития архи- тектур перспективных суперЭВМ с учетом вышеприведен- ных замечаний. 13
3. Понятие универсальности ЭВМ Каждая ЭВМ в какой-то степени является специализирован- ной в том смысле, что решает различные задачи с различной эффективностью. Однако со временем освоения каждого класса ЭВМ эта специализированность уменьшается хотя бы за счет расширения сферы применения На каждый текущий момент можно представить себе качественную картину степени уни- версальности различных классов ЭВМ в виде, представленном на рис. В-3. В настоящее время нейронные ЭВМ являются «бо- лее специализированными», чем транспыотероподобные, так- же, как транспьютероподобные - более специализированные, 4 Производительность на задачах нейронные ЭВМ МКМД, транспьютерные системы ОКМД малопроцессорные ЭВМ однопроцессорные ЭВМ Множество задач _РИС- В~3' Качественная картина оценки степени универсальности ЭВМ различных классов J Кол-во операций в одном цикле нейронные ЭВМ ЭВМ с архитектурой ОКМД и МКМД малопроцессорные ЭВМ однопроцессорные ЭВМ Число циклов Рис. В-4. Иллюстрация качественных возможностей распараллели- вания, представляемых вычислительными средствами различного класса чем однопроцессорные. Но это вопрос времени или ресурсов, выделенных по необходимости на данное направление. На рис. В~4 представлена столь же качественная иллюстрация по- тенциальных возможностей распараллеливания алгоритмов, представляемых каждым классом вычислительных средств из рассматриваемых при решении некоторой конкретной задачи. За счет увеличения потенциальной возможности распараллели- вания растет соответственно количество операций, выполняе- мых в одном цикле работы вычислительного устройства, и как следствие, сокращается время решения задачи. 4. Модульность нейронных ЭВМ Модульность (модульная наращиваемость) в нейронных ЭВМ определяется объективной необходимостью наличия в них транспьютерного или транспьютероподобного ядра. Конкретные примеры разработок показывают, что стрем- ление к увеличению производительности нейронных ЭВМ с учетом реальных конструктивных характеристик требует на- личия в них транспьютерного или транспьютероподобного ядра для организации асинхронного процесса передачи информации между отдельными нейронными образованиями как при подго- товке решения задачи, так и в процессе ее решения. Структу- ра такого транспьютерного или транспьютероподобного ядра может быть различной, причем при достаточно большом чис- ле асинхронно работающих узлов (несколько сот или тысяч) возможно потребуется переход от структуры ядра типа «ре- шетка» или «тор» к структуре типа «гиперкуб» с целью увели- чения эквивалентного трафика передачи информации в ядре. В отличие от вычислительных машин с архитектурой МКМД (см. рис. В-2) производительность нейронных машин некритична к производительности узловых ЭВМ асинхронно работающего ядра, и нет потребности доказывать необходи- мость увеличения производительности обязательным ужес- точением технологических норм. Необходимо отметить характеристики асинхронного ядра нейронных ЭВМ. При построении такого ядра на базе транс- пьютеров сохраняется аппаратная и программная совместимость нейронных ЭВМ с транспьютерами или другими трнспьютеро- подобными элементами. При этом нейронные ЭВМ (см. рис. В~1) не являются чем-то экзотическим, как они воспринимались в 15 14
60-е годы, а являются закономерным следствием эволюцион- ного развития архитектуры мелкозернистых ЭВМ. Так же, как и транспьютерные системы, нейронные ЭВМ могут применяться на различных уровнях реализации: - встроенные в ПЭВМ платы; - блоки из нескольких плат при ПЭВМ; - стойки с управляющими ПЭВМ; - совокупность стоек с управляющими ПЭВМ (уровень суперЭВМ). Подобно транспьютерным системам, основной целью пост- роения нейронных ЭВМ является уровень суперЭВМ и супер- вычислений. Именно поэтому к построению различных нейро- плат к ПЭВМ в настоящее время нужно относиться как к чисто технологическому, инструментальному этапу или эта- пу реализации некоторых социально-незначительных задач, а главной стратегической задачей считать разработку ней- ронных суперЭВМ, как это наблюдается в линии развития нейронных ЭВМ фирмы TRW (MARK I,II,III,IV,V и т.д.). Асинхронное ядро в нейронных ЭВМ будет в основном вы- полнять две функции: — подготовка, передача исходных данных и прием резуль- татов расчетов из отдельных нейронных образований при каждом узле асинхронного ядра до начала решения за- дачи; - передача сообщений в процессе решения задачи, недо- статочно корректно подготовленной для решения на ней- ронной ЭВМ, причем необходимо стремиться к тому, чтобы степень такой некорректности была минималь- ной и трафик передачи сообщений в асинхронном ядре был бы также минимальным. 5. Класс задач, адекватных нейронным ЭВМ Задачи, решаемые на вычислительных системах, можно условно разделить на три класса: 1) формализуемые; 2) трудноформализуемые; 3) неформализуемые. К формализуемым задачам относятся задачи с ясно очер- ченным алгоритмом решения, из которого прямо следует, какому классу ЭВМ он соответствует и на каких классах 16
машин (ОКОД, ОКМД, МКМД или других) задача с данным алгоритмом лучше всего решается. К трудноформализуемым задачам относятся задачи, для которых алгоритм решения либо не является единственным, либо он таков, что трудно оценить качество решения задачи или достижимость решения. К данному классу задач можно отнести задачи большой размерности, в которых из-за так называемого «проклятия размерности» вводятся для их реше- ния итерационные процедуры, сходимость и точность дости- жения результата у которых оценить трудно. К итерацион- ным процедурам, адекватным трудноформализуемым зада- чам, стали прибегать даже для формализуемых задач в том случае, когда формальный алгоритм становился трудоемким (например, для решения системы линейных уравнений при достаточно большой размерности). К неформализуемым задачам относятся задачи, в которых в алгоритме решения задачи присутствуют параметры или фун- кции, заданные неявно в виде описания некоторого класса входных сигналов. Это задачи распознавания образов, класте- ризации или самообучения, нахождения информативных при- знаков и т.п. Отметим, что в принципе есть связь между представ- ленными выше классами задач и типом архитектуры ЭВМ, но она не прямая. Конечно формализуемые задачи, для ко- торых алгоритм является существенно последовательным, адекватны архитектуре ОКОД. Однако среди хорошо фор- мализуемых есть много задач, в которых специальными при- емами распараллеливания можно добиться повышения эф- фективности их решения. И это достаточно большой раздел современной математики, связанный с разработкой парал- лельных алгоритмов. Причем, как правило, поиск парал- лельного алгоритма для формализуемых задач проводится под конкретную архитектуру ЭВМ (ОКМД, МКМД или дру- гую). Трудноформализуемые задачи, отмеченные выше, мож- но конечно решать и на последовательных машинах, но они более адекватны ЭВМ с архитектурой ОКМД и МКМД, бо- лее того, они послужили в какой-то мере причиной появ- ления этих машин. Можно сказать, что ЭВМ с архитектурой ОКМД и МКМД Условно адекватны формализуемым задачам с хорошо рас- 17
параллеливаемым алгоритмом решения и трудноформали- зуемым задачам. Именно неформализуемые задачи были еще 30 лет на- зад причиной появления нейронных ЭВМ, хотя в принципе нейронные задачи решались на ЭВМ с архитектурой ОКОД, и есть попытки решать их на ЭВМ с архитектурами ОКМД и МКМД. Одними из основных задач, которые необходимо решить при построении нейронных ЭВМ, являются: - разработка алгоритма решения задачи, адекватного струк- туре нейронной ЭВМ. Выделение в структуре алгоритма решения задачи ядра, адекватного по структуре ней- ронной сети с наибольшим параллелизмом (числом нейро- нов в слоях, размерностью пространства признаков); - разработка структур и методов реализации нейрон- ных сетей, адекватных заданному классу задач; - разработка алгоритмов настройки нейронных сетей при решении заданных задач и исследование их сходимости; - развитие теории нейронных сетей в сторону универ- сализации нейронного ядра в более широком классе алгоритмов. Структура однородной нейронной сети выбрана для выде- ления в качестве ядра алгоритма решаемых задач по следу- ющим причинам: L Она представляет возможность массового параллельно- го синхронного выполнения большого числа операций, состоящих в свою очередь из простейших операций сло- жения, умножения и нелинейных преобразований. 2 Реализует достаточно сложное и гибкое функциональ- ное преобразование входного пространства состояний в выходное пространство. 2 Допускает аналитическое описание преобразования входного пространства состояний в выходное. 4 Позволяет организовать контролируемый процесс на- стройки коэффициентов сети в адаптивном режиме. 5 В будущем с использованием аппарата линейных пос- ледовательностных машин Гилла позволит подойти к решению проблемы аналитического описания, а сле- довательно, и синтеза алгоритмов адаптации в много- слойных нейронных сетях [В-8]. 18
6. О способах перестройки коэффициентов Способы перестройки весовых коэффициентов нейронных сетей в нейронных ЭВМ можно классифицировать следую- щим образом: - технологические (на этапе производства), как это на- пример делается для разработанных японских GaAs- оптических нейрочипов. - схемотехнические (у пользователя до начала эксплуа- тации); - системотехнические (в процессе работы), которые в свою очередь в зависимости от класса задач можно разде- лить на несколько подклассов, например, условно на медленные, как при решении систем линейных нера- венств, или быстрые, как при адаптивной обработке входного сигнала нейронной сети. 7. Классификация нейронных ЭВМ По общему признанию многих авторов, нейронные идеи имеют более широкий спектр реализации, чем другие известные идеи параллелизма за счет того, что в них заложено внутреннее свойство большего массированного параллелизма. На рис. В-5 представлена структура основных типов ней- ронных ЭВМ. Данная структура представлена с целью опре- деления основных перспектив развития архитектур высоко- кол-во процессоров, работающих асинхронно (ЙсЙ»(Й>д 5 6 7 8 9 10 11 факт наличия или отсутствия при каждом асинхронно работающем процессоре «грозди» синхронно работающих 12 — — — — нет — есть наличие нейронной специализации архитектуры Рис. В-5. Структура основных типов нейронных ЭВМ 19
производительных ЭВМ, в частности ЭВМ нейронного типа Ниже дана краткая характеристика различных видов ней- ронных ЭВМ. Предполагается, что производительность ней- ронных ЭВМ растет с ростом номера типа. Тип 1. Вычислительные машины данного типа представляются известными образцами ЕС ЭВМ, СМ ЭВМ и персональных ЭВМ. Тип 2. Это нейронные ЭВМ самого простого вида, в ко- торых на ЭВМ типа 1 программно эмулируется нейронный алгоритм и за счет этого достигается эквивалентное увели- чение производительности на задачах. Тип 3. К данному типу ЭВМ относятся однопроцессорные ЭВМ (большие, миниЭВМ или персональные ЭВМ), оснащен- ные матричными процессорами. Это ЭВМ типа DAP, IBM с FPS, STARAN и пр. Тип 4. Это нейронные ЭВМ с программно-аппаратной эму- ляцией нейронных алгоритмов на ЭВМ типа 3. Тип 5. ЭВМ различного класса от суперЭВМ до многомик- ропроцессорных, имеющие несколько процессоров (2,4,8,16, но, как правило, не более). Это ЭВМ типа Эльбрус, WARP, Alliant и т.п. Тип 6. Это нейронные ЭВМ с программной эмуляцией ней- ронных алгоритмов на ЭВМ типа 5. Тип 1. Это ЭВМ с архитектурой ОКМД, имеющие несколь- ко, как правило немного, (2, 4, 8) командных процессоров. Тип 8 представляет собой ЭВМ типа 7 с программно-аппа- ратной реализацией на них нейронных алгоритмов решения задач. Тип 9. Это ЭВМ транспьютерного типа с числом процес- соров - десятки, сотни и тысячи. Тип 10 представляет реализацию на этих ЭВМ (ЭВМ тип 9) нейронных алгоритмов решения задач. Тип 11. ЭВМ с архитектурой МОКМД, в которой при на- личии достаточно мощного транспьютерного или транспью- тероподобного ядра увеличение производительности дости- гается за счет добавления к каждому процессору этого ядра сопроцессора, представляющего собой некоторое образова- ние с архитектурой ОКМД. « Тип 12. Это тип ЭВМ, аналогичный типу 11, в которой синхронно функционирующие грозди процессорных элемен- тов реализуют нейронные алгоритмы. 20
Необходимо отметить, что ЭВМ типа 4,8,12 включают в себя программно-аппаратную реализацию «нейронных гроз- дей», существенно специализированную по элементной базе, архитектуре и системам программирования именно на ней- ронные алгоритмы решения задач. Необходимо отметить также, что, с нашей точки зрения, наиболее перспективными в настоящее время являются вы- числительные системы типов 9,11,12. В ЭВМ типа 11 частично устраняются недостатки, связан- ные со свойством 1, а в ЭВМ типа 12 также и недостатки, связанные со свойством 2. 8. Об элементной базе нейронных ЭВМ Этот вопрос определяет в основном какие нейронные ЭВМ будут созданы в ближайшем будущем. Наряду с новыми, свой- ственными только нейронным ЭВМ, технологиями создания элементной базы должны развиваться классические направ- ления, но с ориентацией на нейронные структуры. Предло- жения по развитию перспективной элементной базы нейрон- ных ЭВМ формируются исходя из широкого круга задач. В будущем более детальная проработка эффективности реше- ния задач с применением той или иной технологии позволит более четко рассматривать приоритеты и выбрать первооче- редные варианты реализации элементной базы нейронных ЭВМ К элементной базе первой очереди для нейронных ЭВМ можно отнести: - Транспьютероподобный заказной 32-разрядный микро- процессор, разработка которого позволит сохранить в буду- щих системах опыт технических разработок транспьютер- ных и транспьютероподобных систем, а также задел в обла- сти их программного обеспечения. - Каскадируемые сигнальные процессоры типа IMS А100, IMS Al 10. ~ Комплекты СБИС и микросборок памяти с высокими быстродействием и разрядностью выборки. - Программируемые логические интегральные схемы для реализации элементов нейронной обработки. К элементной базе второй очереди для нейронных ЭВМ можно отнести: ~ Заказные цифровые КМОП нейрочипы. 21
- Оптоэлектронный арсенид-галлиевый нейрочип. - Аналоговые КМОП нейрочипы. К элементной базе третьей очереди для нейронных ЭВМ можно отнести: - Систему нейрообразований на пластине. - Нейроблоки на базе молекулярной электроники. - Квантовые нейрокомпьютеры. Большинство разработок новых перспективных средств об- работки информации в России и за рубежом связывают не- пременно с уменьшением технологических норм и увеличени- ем степени интеграции элементов на кристалле. Идеология нейронных ЭВМ позволяет, с одной стороны, добиться увели- чения отношения производительности к стоимости на задачах на базе существующих технологических норм, с другой сто- роны, использовать для создания высокопроизводительных си- стем принципиально новые технологии (аналоговую, опти- ческую, ПЗС и т.д.) наряду со стандартной цифровой. Это, на наш взгляд, позволит в значительной степени обойти трудно- сти, связанные со стремлением уменьшить технологические нормы при изготовлении цифровых СБИС. Роль технологий микроэлектроники в развитии архитек- туры ЭВМ является очевидной. Более того, с нашей точки зрения именно развитие технологии порождает новые ар- хитектуры вычислительных машин. Так было в середине 70-х годов, когда появление СИС породило ЭВМ с архитек- > турой SIMD, и в начале 80-х годов, когда развитие БИС породило транспьютер и ЭВМ с архитектурой MIMD. Именно развитие технологии микроэлектроники сделало! реальным активное развитие тематики нейрокомпьютеров! во второй половине 80-х годов. Подобно тому как транспыо-1 тер объективно мог появиться только тогда, когда реаль-| ным технологически стало изготовить в одном кристалле! 32-разрядный микропроцессор, внутрикристальную память! и канальные адаптеры, нейрокомпьютеры стали активней развиваться после того, как в одном кристалле стала воз-ч можным аппаратная реализация каскадируемого фрагмента! нейронной сети с настраиваемыми или фиксированными ко-4 эффициентами. I Важно отметить, что в случае нейронной технологии пред-1 ставления алгоритмов решения задач отсутствует то пато-| логическое, с нашей точки зрения, стремление к «гонке» в сторону субмикронной технологии, характерное для вычис- лительных систем на базе i860, Power PC, Альфа, Mersed и подобных процессоров. Это стремление к «гонке» в сторо- ну субмикронных технологий: - дает кратковременный, локальный, зачастую призрач- ный результат в развитии отечественной вычисли- тельной техники на базе импортных микропроцессо- ров; — практически ничего не дает развитию отечественной микроэлектроники, являющейся основой будущей оте- чественной вычислительной техники. Разработки нейрокомпьютеров будут эффективны даже при использовании имеющейся в России технологии 1,0 мик- рона по критерию отношения производительности к стоимо- сти и позволят эффективно и приоритетно развивать отече- ственную сверхвысокопроизводительную вычислительную технику. Те, кто развивают линию высокопараллельных систем с увеличением производительности узла, должны помнить о том, что скорость распространения информации в мозге че- ловека чрезвычайно низка и думать нужно не столько о ча- стоте работы узлового элемента, сколько о перспективных высокопараллельных алгоритмах решения задач и архитек- турах, в том числе и о нейронных. Нужно помнить также о том, что человечество подошло к тому рубежу, когда воз- можно изготовление технической системы из 3—4 миллиар- дов нейронов (столько их в мозге человека), однако неизвес- тно как их соединить. Разработка нейрочипов является кардинальным направле- нием развития разработок нейрокомпьютеров. Структура ней- рочипов следует из результатов разработки структур и ал- горитмов настройки многослойных нейронных сетей (для ней- рокомпьютеров общего пользования) и из нейросетевых алго- ритмов решения задач (для проблемно-ориентированных и специализированных нейрокомпьютеров). Однако становление этой тематики потребует некоторо- го времени, в течение которого для некоторых объектов будет экономически выгодной эффективная эмуляция нейро- сетевых алгоритмов решения задач на высокопроизводитель- ных ЭВМ. 23
Причем необходимо отметить неэффективность однопро-1 цессорных ЭВМ типа рабочих станций для решения сложных! задач в нейросетевом логическом базисе с точки зрения от-1 ношения производительности к стоимости. 1 Кроме этого необходимо отметить, что для эмуляции нейросетевых алгоритмов с использованием универсаль-| ных микропроцессорных средств эффективнее создать ар-| хитектуры, ориентированные на выполнение нейросете-1 вых операций, чем использовать стандартные, ориенти-1 рованные на модификацию однопроцессорных алгоритмов! решения задач. I Из всех направлений вычислительной техники, перечне-! ленных ниже, по нашему мнению, приоритет российской! вычислительной науки и техники может быть отдан направ-ц лению нейрокомпьютеров. ’] - однопроцессорные ЭВМ (персональные ЭВМ, ЭВМ*1 среднего класса и т.п.); !Л - малопроцессорные ЭВМ; - многопроцессорные ЭВМ (ЭВМ с массовым парал- лелизмом, транспьютерная ЭВМ, псевдотранспью-1 терные ЭВМ, ЭВМ с транспьютерным ядром и пе-1 риферийными процессорами типа i860, Альфа,] Power PC и т.д.); ] - нейрокомпьютеры. 1 На современном этапе развития технологии микроэлект-1 роники и других смежных областей нейронная технология стала! адекватна не только различным типам микроэлектронной по-1 лупроводниковой технологии, но и оптической и оптоэлект-1 ронной технологии, молекулярной, квантовой технологии Л некоторым другим. I Необходимо отметить, что рождение технологии систем на пластине и нанотехнологии аналогично предыдущим этапам приведет к рождению новых сверхпараллельных арЯ хитектур. Уже сейчас ясна адекватность нейросетевых ар-Я хитектур технологии на пластине (американская и японс» кая разработки). Поэтому попытки на уровне наноэлементом делать функциональные блоки со старой архитектурой» адекватной однопроцессорным машинам, можно считать ту» пиковыми. Начиная с нанонейроэлементов мы придем, воз- можно, к другим принципиально новым архитектурным эле- ментам. Ясно только, что это будут элементы сверхпарал- лельных высокопроизводительных вычислительных средств. На наш взгляд, изучение реальной структуры биологи- ческих нейронных сетей с целью выявления особенностей их построения для использования в перспективных нейрон- ных ЭВМ практически бессмысленно без наличия высокоав- томатизированных программных средств обработки цитоло- гических изображений со специализированными программ- ными средствами, позволяющими не только быстро и каче- ственно вводить реальные изображения срезов нейронных тканей, но и оперативную обработку их изображений. В настоящее время разработчики нейрокомпьютеров не чувствуют реальных ограничений конкретных используе- мых нейронных структур вследствие их относительной про- стоты или простоты решаемых задач. Увеличение требова- ний к сложности используемых нейронных структур по- требует развития нейрофизиологического направления их исследований, и в первую очередь это произойдет для раз- личного рода сенсорных применений, связанных с обра- боткой зрительной и слуховой информации. Каждая новая технология рождает новый класс архи- тектур вычислительных средств. Так было с архитектурой ОКМД в конце 70-х - начале 80-х годов, с архитектурой МКМД в начале - середине 80-х годов. Сейчас это проис- ходит с нейрокомпьютерами в современном их представле- нии инженерами. Проведение весьма важных для будущих нейрокомпь- ютеров работ по изучению структуры реальных нейрон- ных сетей и по молекулярным ЭВМ в каждой из этих об- ластей приведет к появлению своеобразных архитектур- ных прототипов, потому что технологические принципы реализации и эволюции появления реальных, биологичес- ких нейронных сетей и молекулярных принципов реали- зации отличаются от применяемых в настоящее время при реализации нейроннных ЭВМ на СБИС и оптических прин- ципах. 25 24
9. Нейроматематика. Методы и алгоритмы решения i задач на нейрокомпьютерах i Всегда стоит вопрос: для какого класса задач наиболее эффективно применение того или иного вычислительного устройства, построенного по новым признакам. По отно-1 шению к нейрокомпьютерам мнение по этому вопросу по4 стоянно развивается. Длительное время считалось, что ней! рокомпьютеры эффективны для решения так называемый не формализуемых и плохо формализуемых задач, свяа занных с необходимостью включения в алгоритм решения задач процесса обучения на реальном экспериментальном материале. | В настоящее время к этому классу задач добавляется вто| рой класс задач, не требующий обучения на экспериментальч ном материале, но хорошо представимый в нейросетевом лоз гическом базисе. К ним относятся в первую очередь задачи g ярко выраженным естественным параллелизмом: 1 — обработка сигналов; - обработка изображений и др. Эффективным будет также применение нейросетевых ал- горитмов в задачах, где пространство входной информации^ входных данных в пространстве аргументов может быть эфз фективно сформировано не аналитическим путем, а методом Монте-Карло. С нашей точки зрения любые задачи должны более эфч фективно решаться на нейрокомпьютерах, так как в принз ципе алгоритм любой задачи может быть представлен в ней! росетевом логическом базисе с контролируемым числом слоем нейронов [В-9]. Это означает, что нейросетевой алгоритм решения любой задачи на логическом уровне более парал! лелен, чем любая мыслимая физическая его реализация. От! метим, что в случае транспьютерных и псевдотранспьютер] ных систем исходный менее параллельный, чем физическая реализация, алгоритм решения задачи приспосабливается более параллельной физической реализации. Это в принцЛ пе отличает нейрокомпьютеры от таких систем, как тран<я пьютерные или системы с транспьютерным ядром и перЛ ферийными процессорами типа i860, Альфа, Power PC подобными, в которых разработчики прикладного програЛ много обеспечения как правило модифицируют алгоритме решения задач на однопроцессорных ЭВМ, стремясь мини- мизировать потери на обмен информацией между процес- сорами в процессе решения задачи. Подтверждением той точки зрения, что нейрокомпьютеры будут более эффективными, чем прочие архитектуры, мо- жет, в частности, служить резкое расширение в последние годы класса задач, решаемых в нейросетевом логическом ба- зисе. К ним, кроме перечисленных выше, можно отнести: - решение линейных и нелинейных задач алгебраичес- ких уравнений большой размерности; - решение систем нелинейных дифференциальных урав- нений; - решение уравнений в частных производных; - экспертные системы; - решение задач оптимизации (линейное и нелинейное программирование) и другие задачи. Для этих задач, как правило, переход к нейросетевому логическому базису характерен для случаев резкого увеличе- ния размерности пространства решения или необходимости резкого уменьшения времени решения. В целом формируется два раздела нейроматематики: об- щая нейроматематика и прикладная нейроматематика. Нейроматематика - это раздел вычислительной мате- матики, связанный с решением задач с помощью алгорит- мов, представимых в нейросетевом логическом базисе. Це- лью создания нейроматематики является создание алгорит- мов с высокой степенью параллельности как для формали- зуемых, так и для трудноформализуемых и неформализуе- мых задач. Критерием эффективности нейронных алгоритмов будет ускорение решения задач по сравнению с традиционными методами. Сравнение алгоритмов по эффективности для раз- личных способов реализации нейрокомпьютеров является предметом самостоятельного рассмотрения и отдельной ра- боты. Нейронным алгоритмом будем называть вычислительную процедуру, основная часть которой может быть реализована на нейронной сети. Пусть имеется Р - формальная постанов- ка задачи. Р включает множество исходных данных D и мно- жество объектов, подлежащих определению R. Основой раз- 27
работки нейронного алгоритма решения задачи является си- стемный подход, при котором процесс решения задачи пред- ставляется как фунционирование во времени некоторой ди- намической системы, на вход которой подается множество D, а на выходе снимается множество R (объекты, подлежащие определению и получившие свои значения). Для построения нейросетевой динамической системы, ре- шающей задачу, необходимо: 1. Определить объект, выступающий в роли входного сиг- нала нейросети. Это может быть элемент исходных данных, начальное значение определяемых величин и т.д. 2. Определить объект, выступающий в роли выходного сиг- нала нейросети. Это может быть само решение или некото- рая его характеристика. 3. Определить желаемый (требуемый) выходной сигнал ней- росети. 4. Определить структуру нейросети: а) число слоев; ; б) связи между слоями; г в) объекты, являющиеся весовыми коэффициентами. 5. Определить функцию ошибки системы, т. е. функцию, характеризующую отклонение желаемого выходного сиг-t нала нейросети от реального выходного сигнала. 6. Определить критерий качества системы и функционал ее оптимизации, зависящий от ошибки. 7. Определить значения весовых коэффициентов - в зави- симости от задачи это можно сделать различными способами а) аналитически, непосредственно из постановки задачи б) с помощью некоторых численных методов; в) применив процедуру настройки коэффициентов ней ронной сети. Решение задачи с помощью нейронного алгоритма зак лючается в применении (функционировании в некоторо! режиме) построенной вычислительной процедуры с конк ретными значениями числовых данных. Процесс решени. включает: 1) получение конкретной структуры нейросети, соотве’ ствующей применяемому алгоритму; 2) нахождение значений весовых коэффициентов, ли( выбор их из памяти если они были найдены ранее; OQ
3) генерацию начальных приближений параметров, если это необходимо; 4) передачу^всех численных значений в нейросеть и ее запуск; 5) функционирование сети в соответствии с режимом: а) за один шаг или фиксированное число шагов; б) за переменное число шагов, зависящее от требуемой точности и/или конкретных числовых значений па- раметров. В этом случае, происходит процесс настрой- ки входного сигнала; 6) получение решения. При многократном использовании п.1) и 2) могут быть вы- полнены однократно. Таким образом, нейрокомпьютером будем называть вы- числительную систему с архитектурой, обеспечивающей процесс функционирования в соответствии с шагами 1-6, приведенными выше. Нейроматематика является новым разделом вычислитель- ной математики, ориентированным на создание алгоритмов решения широкого класса задач на нейрокомпьютерах. Пред- лагаемый подход к построению алгоритмов использует как широко известные численные методы, так и уже накоп- ленные знания в области нейронных вычислений. Однако он имеет серьезные отличия и от первых, и от вторых Традиционные численные методы используются в нейро- математике только в том случае, если их удается эффектив- но распараллелить и выразить через нейросетевые опера- ции, при этом они могут быть существенно переработаны. Практически все известные подходы к проектированию нейронных сетей связаны в основном с выбором и анализом некоторых частных видов структур с известными свойствами (сети Хопфилда, Гроссберга, Кохонена) и некоторых режи- мов их работы. Использование нейросетей сводится к приме- нению этих структур для решения классов адекватных им задач, при изменении или выборе параметров структур. В нейроматематике исходной точкой является формулировка задачи. По ней из широкого класса выбирается структура ней- ронной сети, адекватная поставленной задаче. Если требуется настройка, то используются свойства того класса структур сетей, к которому принадлежит полученная структура. 29
При этом при рассмотрении множества задач класс струк тур нейронных сетей выбирается достаточно общим (много слойные сети с последовательными, перекрестными и обрат ными связями). Нейрокомпьютер, как правило, должен ориентироватьс на быстрое выполнение всех нейросетевых операций, а так же параллельных алгоритмов настройки нейронных сетей. Разработка нейрокомпьютера включает в себя три парал лельных направления: 1) 2) 3) разработку алгоритмов решения задач на нейрокомпью терах (нейроматематику); развитие теории нейронных сетей - классов структур методов их настройки; разработку нейрокомпьютера, как совокупности техни ческих средств и системного программного обеспече ния, ориентированного на решение задач нейроматема тики. Эти три уровня работ находятся между собой во взаимо связи. С одной стороны, структура нейронной сети для каж дой задачи определяется самой задачей, с другой - разви тие теории нейронных сетей побуждает применять для ре шения задачи все более сложные структуры нейронных се тей. С одной стороны, уровень совершенства технически устройств определяет диапазон возможностей для построе ния сетей и алгоритмов, с другой - развитие нейроматема тики подталкивает теорию сетей, а та, в свою очередь, на правляет развитие технического исполнения. В настоящее время направление исследования нейрон ных сетей связано с направлением разработки нейроком пьютеров, пожалуй, лишь программными средствами ре ализации конкретных задач и связанных с ними структу{ В будущем и программная, и аппаратная часть нейроком пыотера будут в значительной степени определяться pel шаемыми задачами и структурами реализуемых нейро^ ных сетей. I Решение задачи на нейронной ЭВМ связано с процедуро! настройки, требующей выбора начальных значений парамет ров, величин шага итерационных методов и т.п. I Так как не все подобные процессы выбора формализуем! и во многом зависят от области применения задачи, то ва они, как правило, происходят с участием человека. 30
Отметим, что при решении задачи на нейрокомпьютере имеет место диалог двух видов: 1. Диалог в процессе подготовки нейрокомпьютера к ре- шению конкретной задачи с заранее известными ограниче- ниями на исходные данные и результаты. Основную часть его составляет диалог, сопровождающий настройку весовых коэффициентов. После настройки, при сохранении парамет- ров задачи и сети, задачу можно решать многократно с раз- личными исходными данными. Если настройки весовых коэф- фициентов нейросети нет, то этот тип диалога сокращается до выбора из памяти необходимых значений. 2. Диалог в процессе решения. Он предполагает генерацию начальных значений параметров, однако наиболее трудоем- кую его часть составляет диалог в процессе настройки вход- ного сигнала, при котором расчетчик может анализировать динамику изменения функционала качества системы и выби- рать величины шага в методе настройки. Такой диалог находится на критическом пути в решении. Поэтому для задач, где минимизация времени выполнения является важнейшим критерием эффективности нейронных алгоритмов, этот вид диалога должен быть минимизирован (путем его сокращения или автоматизации) либо исключен (например, путем полной автоматизации выбора шага, мо- жет быть ценой усложнения алгоритма). Если этого сделать не удается, следует попытаться построить алгоритм без на- стройки входного сигнала, используя настройку весовых ко- эффициентов. 10.0 нейронных сетях Нейронная сеть представляет собой высокопараллельную динамическую систему с топологией направленного графа, которая может получать выходную информацию посредством реакции ее состояния на входные воздействия. Узлами в ней- ронной сети называются процессорные элементы и направ- ленные каналы. Нейронные сети по сути дела являются формальным ап- паратом описания основной части алгоритма решения зада- чи на нейронных ЭВМ. Основой данной книги, как и книги [В~6], является системный подход к синтезу нейронных се- тей, т.е. подход к построению самих нейронных сетей и их 31
алгоритмов адаптации, аналогичный классическим адаптив ным системам управления. Возможны, с нашей точки зрения, четыре подхода к ис следованию нейронных сетей: 1. Психологический подход, когда нужно смоделировал некую психологическую парадигму, для чего строится и ис следуется нейронная сеть некоторой структуры. 2. Нейрофизиологический подход, когда, исходя из знаний < структуре некоторого раздела мозга, строится и исследует^ нейронная сеть, моделирующая функции данного раздела мозгг 3. Алгоритмический подход, когда ставится математичес кая задача и, исходя из этой постановки, строятся адекват ные нейронная сеть и ее алгоритм настройки для решени. этой задачи. 4. Системный подход, объединяющий вышеизложенные i являющийся основой данной книги. На рис. В-6 представлен! общая структура синтеза нейронных сетей, которая являете основным предметом изложения в данной книге. 10.1. Структуры нейронных сетей В 40-, 50- и 60-е годы теория автоматов из булевски: элементов была основой построения архитектуры и отделу ных блоков однопроцессорных ЭВМ. Та же теория автома тов из булевских элементов продолжает быть логическо! основой малопроцессорных, транспьютерных и подобны: им ЭВМ, а также ЭВМ с архитектурой SIMD, где перифе рийным процессором является сеть однобитовых процессе ров (STARAN и др.). Подобно этому теория нейронных сетей является логичес кой основой нейрокомпьютеров, причем не только на сего, няшний день. Это было в 50-, 60- и 70-е годы. Сейчас эт факт стал более очевидным вследствие революционного ра вития тематики нейрокомпьютеров. Нейронная сеть - это сеть с конечным числом слоев j одиночных элементов - аналогов нейронов с различны! типами связей между слоями нейронов. При этом колич ство нейронов в слоях выбирается необходимым для обе печения заданного качества решения задачи, а число ело нейронов как можно меньшим для уменьшения времени р шения задачи. 32
Рис. В—6. Системный подход к синтезу многослойных нейронных сетей Книга посвящена описанию нейронных сетей различной структуры. Приводятся объективные предпосылки перехо- да от булевского к пороговому базису в вычислительной 2 - 353 33
технике. Описываются основные типы пороговых элемен тов - аналогов нейронов. Анализируются причины рассмот рения многослойных нейронных сетей, интерес к которьи начал проявляться еще в 60-е годы с появлением класси ческой работы Ф. Розенблатта [В-1]. Многослойность пон) мается как особое свойство структуры преобразования, ос; ществляемого разомкнутой системой при топологическо а не символическом его представлении. Ф. Розенблаттом [В-1] были рассмотрены многослойные с; стемы, где элементы в каждом слое находятся в равнопра: ном топологическом отношении к элементам других слоев. Слс образуют сенсорные элементы, являющиеся источником си1 налов для ассоциативных элементов трехслойного персептрс на. Ассоциативные элементы также образуют слой элемеа тов, входом которых являются выходные сигналы сенсорн: элементов следующего слоя. Многослойной системой называ- ется система элементов с объединением их в отдельные сло1 с топологически равными свойствами и различным характе ром связей между слоями элементов. Рассматриваются раз личные типы многослойных нейронных сетей, т.е. нейронны: сетей с последовательными, перекрестными, обратными свя зями, континуальные нейронные сети. Приводятся пример) многослойных нейронных сетей, предложенных отдельным авторами. Основными преимуществами нейронных сетей, как логи ческого базиса алгоритмов решения сложных задач, являютс следующие: - инвариантность методов синтеза нейронных сетей i размерности пространства признаков; - адекватность современным перспективным технолог: ям; — отказоустойчивость в смысле монотонного, а не к тастрофического изменения качества решения зад: чи в зависимости от числа вышедших из строя эл ментов. Основной целью данного раздела книги является выясни! почему система для решения определенной задачи долж строиться именно как нейронная сеть, как выбрать топо. гию этой сети (число слоев, число элементов в слое, хар« тер связей, характер структуры).
10.2. Исследование характеристик входного сигнала нейронных сетей В гл.1 работы [В-6] при исследовании характеристик вход- ного сигнала нейронных сетей для весьма распространенной задачи распознавания образов вводится характеристика ква- лификации учителя, позволяющая получить выражение для функций распределения входного сигнала, включающих в себя как частный случай известные режимы обучения и самообу- чения. В общем случае квалификация учителя вводится раз- личной для образов, принадлежащих объективно различным классам. Показывается возможность введения более тонких характеристик входного сигнала, например «собственного мне- ния учителя о своих способностях». Формальная постановка задачи обучения нейронных сетей заключается в аппроксимации заданной выборочно функции указаний учителя некоторым автоматом, свойства которого заданы. Формальная постановка задачи самообучения рассмат- ривается как выделение в пространстве входного сигнала об- ластей мод функции распределения совокупности образов на входе. Формальная постановка обучения нейронных сетей учи- телем, имеющим конечную квалификацию, в некотором смыс- ле обобщает эти постановки. Существующие разработки в области распознавания обра- зов в основном относятся к стационарным образам, когда рас- пределение входного сигнала нейронных сетей не зависит от времени. В данной книге рассматриваются нестационарные образы, когда распределение входного сигнала нейронных се- тей зависит от времени. 10.3. О выборе критериев первичной оптимизации нейронных сетей В качестве критериев первичной оптимизации многослой- ных нейронных сетей в режиме обучения распознаванию об- разов рассматривается в основном класс критериев теории статистических решений, таких, как критерий максимума апостериорной вероятности, критерий минимума средней Функции риска, критерий минимума средней функции рис- ка при условии равенства между составляющими средней Функции риска для образов различных классов, критерий Минимума средней функции риска при условии задания зна- 2« 35
чения составляющей средней функции риска для одного и классов. В режиме самообучения предпосылкой формирования кри терия и функционала первичной оптимизации нейронных се тей служит представление плотности распределения входно] сигнала в виде многомодальной функции, где каждой моде некоторой вероятностью соответствует класс. В качестве кри териев первичной оптимизации нейронных сетей в режим самообучения на первом этапе исследований используются мо дификации средней функции риска. Данный критерий потре бовал естественного обобщения при переходе к континуум; классов и решений. Отдельным вопросом, рассматриваемым книге, является вопрос формирования функционала первично! оптимизации в случае произвольной квалификации учителя. 10.4. Анализ разомкнутых нейронных сетей Формальным аппаратом, используемым при анализе ра зомкнутых систем, является аппарат, основанный на точнь методах вероятностного анализа многомерных нелинейнь: систем. Переход в основном к анализу распределений и mi ментов распределений ошибок обуславливается тем, что р зультаты данного анализа формально не зависят от сложн сти и вида нейронных сетей, за исключением характерней пространства признаков и пространства решений. Этот сутр ственный момент в дальнейшем широко используется на эт; пах выбора или формирования функционала вторичной опп мизации, а также построения замкнутых нейронных сетей Под функционалом вторичной оптимизации понимает! функционал, выражаемый через параметры распределен! текущих сигналов в нейронных сетях и непосредственно м нимизируемый в многослойных системах при настройке : замкнутому циклу. На данном этапе синтеза рассматривают в основном два вопроса. Первый вопрос связан с исследованием соответствия и пользуемых в известных работах функционалов вторичн! оптимизации некоторым критериям первичной оптимизацг Предметом рассмотрения здесь являются известные адапти ные системы, такие, как Адалин, матрица Штайнбуха, тре слойной персептрон Розенблатта (вернее, его настраива мый выходной блок). В качестве основного недостатка таю
подходов отмечается, что в большинстве случаев не рас- сматривается соответствие выбираемых функционалов вто- ричной оптимизации конкретным критериям первичной оп- тимизации. Это приводит к практическому отсутствию рабо- тоспособности некоторых систем при многомодальных рас- пределениях входного сигнала. Вторым, основным на данном этапе синтеза вопросом, является формирование функционала вторичной оптимиза- ции, соответствующего заданному критерию первичной оп- тимизации. Соответствие здесь понимается в смысле совпа- дения параметров нейронной сети при обеспечении миниму- ма функционалов первичной и вторичной оптимизации. В книге изложена общая методика формирования функционала вто- ричной оптимизации, соответствующего заданному крите- рию первичной оптимизации. Приведены результаты приме- нения данной методики для многослойных нейронных сетей различной структуры и критериев первичной оптимизации. 10.5. Алгоритмы поиска экстремума функций многих переменных и построение алгоритмов адаптации в нейронных сетях В главах 6, 7 работы [В~б] рассмотрены алгоритмы поиска экстремума функций многих переменных и их применение для построения алгоритмов адаптации в нейронных сетях. Вопросу организации процедуры поиска экстремума фун- кционала вторичной оптимизации в литературе уделяется значительное внимание. Нас в основном будут интересовать вопросы правомочности и целесообразности применения той или иной градиентной процедуры (Ньютона, релаксацион- ной, наискорейшего пуска, стохастической аппроксимации И т.д.) поиска локального экстремума. Применение итерационных методов при разработке алго- ритмов поиска экстремума функций многих переменных име- ет свои особенности при построении адаптивных систем [В-10]. Они связаны в основном с тем, что при неизвестных характе- ристиках входного сигнала в условиях так называемой апри- орной недостаточности даже при фиксированной структуре нейронных сетей ничего нельзя сказать о виде функционала вторичной оптимизации кроме того, что он имеет несколько локальных экстремумов, все или по крайней мере некото- 37
рые из которых должны быть найдены в процессе настрой- ки по замкнутому циклу. Именно этот факт делает необхо- димым введение элементов случайности в процедуру поис- ка, связанных с выбором множества случайных начальны: условий для некоторой градиентной процедуры. Основньц вопросом исследования при этом является вероятность на хождения некоторого числа локальных экстремумов функ ционала вторичной оптимизации в зависимости от числа выб росов случайных начальных условий градиентной процеду ры поиска локального экстремума. Одна из задач, которую нужно решать на этапе построения замкнутых систем, зак лючается в том, чтобы оценить вектор градиентов функци онала вторичной оптимизации в нейронных сетях. Это мож но сделать двумя путями: 1) введением поисковых колебаний и детектированием; 2) нахождением оценки вектора градиентов в виде выра жения через сигналы в нейронных сетях (выходные ; промежуточные). В первом случае имеем дело с поисковой адаптивной си стемой, во втором — с аналитической. Естественно, пред почтительнее построение нейронных сетей в виде аналити ческих систем, настраивающихся по замкнутому циклу, та: как введение поисковых колебаний вводит дополнительнь шумы в систему. Однако построение замкнутых нейроннь сетей аналитическими средствами не всегда возможно. Огр; ничения аналитического подхода показаны в данной кни при рассмотрении этапа построения замкнутых нейроннь сетей. Основное внимание на этапе построения замкнуть нейронных сетей уделяется реализации заданных критер: ев первичной оптимизации в сетях различной структуры. Важным является вопрос построения алгоритмов настрой! нейронных сетей в режимах самообучения и произвольной кв лификации учителя. Методология построения замкнутых си тем здесь та же, что и в режиме обучения. В этом заключав ся принцип единого подхода к обучению и самообучению, л жащий в основе методики синтеза многослойных нейронш сетей, излагаемой в [В-6] и данной книге. В [В~6] представлен анализ известных эвристических алг ритмов настройки нейронных сетей с позиций единого подхо, к синтезу алгоритмов адаптации в нейронных сетях. Отдели Я Я
изложен материал, посвященный алгоритмам адаптации в кон- тинуальных нейронных сетях и выбору из них алгоритмов адап- тации, адекватных физической реализуемости. Рассматриваются особенности выбора начальных условий в алгоритмах адаптации нейронных сетей. 10.6. Исследование алгоритмов адаптации в нейронных сетях Исследование замкнутых нейронных сетей является зак- лючительным для многослойных нейронных сетей с фиксиро- ванной структурой, настраивающихся по замкнутому циклу. На данном этапе синтеза решается ряд вопросов, связанных с оценкой качества работы разомкнутых многослойных нейрон- ных сетей. Первым таким вопросом является выбор началь- ных условий для настройки коэффициентов многослойных се- тей. Выше было отмечено свойство многоэкстремальности функционала вторичной оптимизации. Ввиду этого рассмат- риваются два способа выбора начальных условий: случайный, когда нужно найти все локальные и глобальные экстрему- мы, и детерминированный, когда многослойная нейронная сеть вводится в область глобального экстремума функционала вто- ричной оптимизации. Вторым вопросом является выбор клас- са типовых входных сигналов многослойных нейронных сетей, достаточно полного для того, чтобы при данных сигналах можно было в дальнейшем исследовать и сравнивать их качество работы. Для систем автоматического управления подобная за- дача решена, в частности, выбором в качестве типовых сиг- налов класса полиномиальных сигналов, где сложность вход- ного сигнала определяется порядком полинома. В случае мно- гослойных нейронных сетей ввиду специфики данных систем сложность входного сигнала определяется, в частности, мо- дальностью условных распределений входных сигналов для задач распознавания образов. Третьим вопросом является вы- бор оптимальных параметров контура настройки многослой- ных нейронных сетей, в частности параметрической матрицы системы поиска экстремума функционала вторичной оптими- зации. Особое внимание здесь уделяется вопросу выбора оп- тимальных параметров контура настройки нейронных сетей по оценке текущего значения функционала первичной оп- тимизации. В [В~1, В-6] приводятся результаты исследова- 39
ния большого числа многослойных нейронных сетей, полу- ченные моделированием на ЭВМ. В целом по данному этапу синтеза многослойных нейрон- ных сетей необходимо отметить следующее. Рассмотрение класса неформальных задач, в частности задач распознаваний образов при неизвестных, достаточно сложных функциях ус- ловных плотностей распределения, создает определенные трудности не только при построении самих систем, способ- ных решать подобные задачи, но и при попытке теоретичес- ки оценить качество решения данных задач. Поэтому в основ- ном приходится прибегать к методам, связанным со статис- тическим моделированием. Приведены результаты статисти- ческого моделирования для отдельных нейронов при многой модальном распределении входных сигналов, исследование ди- намики настройки трехслойных нейронных сетей с последова- тельными связями, исследование динамики настройки mhoi слойных нейронных сетей при нестационарных входных сиг налах, а также в режиме самообучения и в режиме обуче ния с учителем, имеющим конечную квалификацию. Конкретная нейронная сеть, как массив процессоров, свя занных между собой специфической сетью связи с обратным! связями, реализующими алгоритмы адаптации, является д1 намической системой, поведение которой в процессе реш< ния задачи описывается некоторой системой дифференци альных или разностных уравнений [В-8, В-11]. Представл- ние нейронных сетей с замкнутым контуром адаптации Л1 нейной последовательностной машиной позволяет описать ( поведение в терминах классического z-преобразования и npi менить к анализу поведения нейронных сетей в процессе pi шения задачи не только известные методы анализа повед- ния автоматов, как линейных последовательностных маши но и классические методы статистической динамики непр« рывных и дискретных систем автоматического управлени Необходимо отметить, что это практически единственнь эффективный путь количественного анализа динамики пов дения массива процессоров в процессе решения задачи, этот путь обеспечивает именно концепция нейронных ЭВ' Этот путь открывает в будущем возможность анализа и си: теза структур распределенных ЭВМ в виде массива проце соров в классе нейронных ЭВМ.
10.7. Многослойные нейронные сети с переменной структурой Выше было отмечено, что многослойные нейронные сети с фиксированной структурой, настраивающиеся по замкнуто- му циклу, обеспечивают оптимум функционала оптимизации при условных плотностях распределения вероятностей вход- ного сигнала произвольного, не заданного заранее вида. Од- нако потенциальное качество таких нейронных сетей ограни- чено априорной информацией о структуре разомкнутой сис- темы. В гл.9 книги [В-6] и в данной книге рассматриваются методы синтеза нейронных сетей, структура разомкнутой ча- сти которых априори не фиксируется и является результатом настройки наряду со значениями настраиваемых коэффициен- тов. При этом в процессе настройки выбираются число слоев и число нейронов в слое. В данной книге рассматриваются неко- торые варианты построения нейронных сетей с переменной структурой, особенности исследования динамики процесса настройки на уровне исследования зависимости значения фун- кционала оптимизации от числа нейронов в слоях и числа сло- ев. В конечном итоге нейронная сеть с переменной структурой реализуется в виде однородной многослойной нейронной сети. 10.8. Выбор информативных признаков в многослойных нейронных сетях Еще в работе [В-6] была сделана попытка с единой точки зрения взглянуть на разрозненные достаточно многочислен- ные работы по вопросу выбора информативных признаков и дать начало так называемым структурным методам, имею- щим объективной предпосылкой своего рассмотрения методы синтеза многослойных нейронных сетей. Необходимо отметить, что зачастую бытующее представ- ление о возможности так называемого предварительного выбора признаков, по мнению автора, является неверным, так как при любой процедуре выбора признаков косвенно ИЛИ прямо должна быть использована конкретная нейрон- ная сеть. Именно поэтому с этой точки зрения всякая проце- дура выбора признаков является субъективной, где субъек- том является нейронная сеть конкретного типа. Второй тезис, выдвигаемый автором для утверждения предлагаемого подхода, заключается в «абсолютности» фун-
кционала первичной оптимизации как показателя информ; тивности признаков. Именно поэтому оценки, связанные дивергенцией, средней условной энтропией и т.п., являют; приближенными и частными. Вышесказанное делает необходимым рассмотрение вопро выбора информативных признаков после окончания процеди синтеза и исследования динамики нейронных сетей. По мнени автора, многослойные нейронные сети с фиксированной и п ременной структурой обладают наименьшей степенью субъе: тивизма по отношению к входному сигналу (предмету исслед вания с помощью нейронных сетей), так как синтезируются, частности для задач распознавания образов, исходя из услов! отсутствия информации об условных плотностях распредел ния образов внутри классов. Именно поэтому в основном ра сматривается применение многослойных нейронных сетей щ выбора наиболее информативных признаков исходного простра: ства признаков. Применение и исследование многослойных нейронных © тей позволяет поставить задачу выбора наиболее информа тивных признаков не исходного, а промежуточных пространстх формируемых выходными сигналами нейронов первого, вто рого и т.д. выходного слоев нейронных сетей. Данная задач может трактоваться как задача минимизации структуры (числ нейронов в каждом слое) многослойной нейронной сети поел окончания настройки ее коэффициентов. 10.9. Исследование надежности нейронных сетей Проблема исследования надежности нейронных сетей на ходится еще в самом начале своего развития. Ее решени наверняка окажет революционное воздействие на реализа цию нейрокомпьютеров на принципиально новых технологи ях, в частности на системах на пластине. Еще в трехслойно; персептроне Ф. Розенблатта [В-1] отмечалось свойство струк туры персептрона сохранять работоспособность при выход из строя определенного количества элементов (нейронов). Пр: отсутствии явного резервирования это свойство неприсущ современным вычислительным машинам. Это не касается пожалуй, лишь вычислительных машин с архитектуре! МКМД (много потоков команд — много потоков данных), гд асинхронный принцип функционирования массива процессе
ров обеспечивает так называемую постепенную деградацию системы при выходе из строя отдельных элементов. Подоб- ное свойство существует и в нейронных ЭВМ, что является их большим преимуществом. Ниже изложены методы иссле- дования функциональной надежности нейронных сетей, в ча- стности методы исследования функциональной надежности экспериментальным путем, а также параметрической надеж- ности и функциональной при наличии катастрофических от- казов. Отдельно рассматриваются методы построения и ис- следования восстанавливающих органов в нейронных сетях. 10.10. Диагностика нейронных сетей Структура нейронных ЭВМ является специфической в классе ЭВМ, которая строится в виде массива процессоров. Это предъявляет особые требования к процедуре диагнос- тики по крайней мере той части нейронных ЭВМ, которая представляет сеть нейронов. Основы методов диагностики таких сетей были заложены еще в работах [В-12, В-13]. В данной книге изложены методы формирования понятия от- каза в нейронных сетях, представлены алгоритмы локали- зации отказов в нейронных сетях, методы построения мини- мальных тестов, а также методы адаптивной диагностики отказов в нейронных сетях. Изложенные методы в принци- пе могут быть основой разработки разделов операционных систем нейрокомпьютеров, связанных с их тестированием. Выводы В результате работ 60-, 70- и 80-х годов в России сфор- мировалось направление работ в области теории нейронных сетей, обладающее приоритетом по отношению к зарубеж- ный работам. Разработаны методы адаптивной настройки нейронных сетей: ~ с произвольным видом нейрона; ~ с произвольным числом слоев; ~ с различными видами связей между слоями (прямые, перекрестные, обратные); ~ с различными видами критериев оптимизации; ~ с различными ограничениями на весовые коэффици- енты нейронных сетей. 43
Исходной позицией автора в данной книге является н использование нейронных сетей некоторой заданной стру] туры, интересной какому-либо автору с точки зрения изв< стных ему задач (стандартные нейросетевые парадигмы), определение структуры нейронной сети и метода ее на стройки, адекватных выбранной для решения задаче. Материал книги является изложением результатов оч< редного этапа работ автора в области нейронных новным направлением перспективных работ в этой облает; является развитие теории нейронных сетей, структура i алгоритмы адаптации которых адекватны наиболее акту альным задачам. В целом нейрокомпьютеры являются перспективным на правлением развития современной сверхвысокопроизводител ной вычислительной техники. Теория нейронных сетей и не: роматематика являются приоритетными направлениями ра вития российской вычислительной науки, которые требуг поддержки. Основой развития этих направлений могут бы только прикладные вычислительные системы на базе нейр компьютеров, создание которых необходимо инициировать ближайшем будущем. Разработки трех направлений: нейросетевых алгоритм' решения задач, теории нейронных сетей и нейрокомпьютер находятся в тесной взаимосвязи: с одной стороны структура нейронной сети для кажд< задачи определяется самой задачей, с другой - развит: теории нейронных сетей побуждает применять для решен: задач более сложные структуры нейронных сетей; - с одной стороны, уровень совершенства технических у< ройств определяет диапазон возможностей для построения не ронных сетей и нейросетевых алгорритмов, с другой - разв: тие нейроматематики подталкивает теорию сетей, а та в сво: очередь направляет развитие технического исполнения; - в настоящее время направление исследования нейрон- ных сетей связано с направлением разработки нейрокомпьк теров пожалуй лишь программными средствами реализаци конкретных задач и связанных с ними структур. В будущем программная и аппаратная части нейрокомпьютера будут значительной степени определяться решаемыми задачами структурами реализуемых нейронных сетей.
Нейрокомпьютеры являются эффективным симбиозом вы- числительной науки, теории адаптивных систем автомати- ческого управления и нейродинамики. В Приложении к данному разделу представлен список до- полнительной отечественной литературы по нейрокомпью- терам. Литература В-1. F. Rosenblatt. Principles of neurodynamics. Spartan Books, Washington, 1962. Русский перевод: Розенблатт Ф. Принципы нейродинамики. -М., Мир, 1964. В-2. Minsky М., Papert S. Perceptrons. An introduction to computational geometry, MIT Press, 1969. Русский перевод: Минский M., Пайперт С. Персептроны. -М., Мир, 1971. В-3. Nillson N.J. Leaning Machines. McGraw-Nill Book Company, 1965. Русский перевод: Нильсон H. Обучающиеся машины. —М., Мир, 1967. В-4. Grossberg S. The Adaptive Brain, T.1,2, Advances in psychology, 1987. B-5. M.Dertouzos. Threshold logic. A synthesis Appro ach. MIT Press 1965. Русский перевод: М.Дертоузос. Пороговая логика. ~М., Мир, 1967. В-6. Галушкин А.И. Синтез многослойных систем распознавания об- разов. -М., Энергия, 1974. В-7. Ивахнёнко А.Г. Персептрон - система распознавания обра- зов. - Киев, Паукова Думка, 1975. В-8. Галушкин А.И., Фомин Ю.И. Нейронные сети, как линейные последовательностные машины. МАИ, 1991. В-9. Галушкин А.И., Судариков В.В., Шабанов Е.В. Нейроматемати- ка: методы решения задач на нейрокомпьютерах.//Математи- ческое моделирование, № 8, 1991. В-10. Цыпкин Я.З. Адаптация и обучение в автоматических систе- мах. —М., Наука, 1968. В-11. A.GUL Linear sequential circuits. Analysis, synthesis and applications. McGraw-Hill Book Company. Русский перевод: А.Гилл. Линей- ные последовательностные машины. Анализ, синтез и приме- нение. —М., Наука, 1974. В-12. Фомин Ю.И., Галушкин А.И. Методы технической диагностики сетей пороговых элементов.// «Техника средств связи», Сер. «Системы связи», ~№ 2, -1980. В-13. Фомин Ю.И., Галушкин А.И. О методе параллельной диагнос- тики отказов в сетях пороговых элементов. //«Электронное мо- делирование», -№3, -1981. 45
Приложени Теория многослойных нейронных сетей 1. Колмогоров А. Н. Представление непрерывных функций мн< гих переменных суперпозицией функций одной переменной сложением./ Докл. АН СССР, т.114, №5, с. 953-956. 2. Глушков В.М. Теория обучения одного класса дискретных пер септронов.// Журнал вычислительной математики и матема тической физики. -№2. -1962, с. 317-335. 3. Ивахненко А.Г. Может ли познающая самообучающаяся систе ма выделить моменты преобразования на ретине лягушки? /, Автоматика. ~№2. —1963, с. 31-40. 4. Ивахненко А.Г., Клещев В.В., Отхмезури Г.Л., Шлезингер М.Р Фундаментальная монография по теории персептронов. Обзо; книги Ф.Розенблатта «Принципы нейродинамики».// Автома тика. -№3, -1963, с. 84-90. 5. Глушков В.М. Введение в кибернетику. ~М., Наука, 1964. 6 . Стаффорд Т. Многослойные обучающиеся схемы. //Зарубеж ная радиоэлектроника, №8, 1965, с. 58-64. 7. Гелиг А.Х. Опознающие системы с неограниченной плоско! ретиной.// Вычислительная техника и вопросы кибернетики 1988, с. 80-94. 8. Галушкин А. И. Многослойные системы распознавания обра зов, М., 1970. 9. Галушкин А. И., Юмашев С.Г. О применении кусочно-линей ных разделяющих поверхностей в задаче распознавания обра зов.// Труды МИЭМ. -Вып.6. -1970, с. 238-254. 10. Юмашев С.Г. Применение методов линейного программирование для построения кусочно-линейных разделяющих поверхностей! задаче распознавания образов. //Труды МИЭМ. -Вып.6. -1970. И. Ивахненко А.Г. Системы эвристической самоорганизации в тех нической кибернетике. -Киев, Техника, 1971. 12. Ivachnenko I. G. Polinomial theory of complex systems. IEEE Trane on System, Man and Cybernetics v. SMC-1,1971, v.4.13. 13. Галушкин А. И. Реализация критериев первичной оптимиза ции в системах распознавания образов, настраивающихся ni замкнутому циклу в режиме обучения. //Труды МИЭМ. • Вып.23. -1971. 14. Галушкин А.И., Василькова Т.А., Слободенюк В.А., Тюхов Б.П; Анализ динамики систем распознавания нестационарных об- разов.// Труды МИЭМ. - Вып.23. -1971. 15. Агабабян КГ. Об алгебре нейронных матриц /Докл. АН СССР, 199 №5, 1971, с. 991-993 (представлено акад. В.М. Глушковым). 16 . Мкртчян С.О. Нейроны и нейронные сети. -М., Энергия, 1971, 232 с. 17. Ванюшин В.А., Галушкин А.И., Тюхов Б.П. Построение и ис- следование многослойных систем распознавания образов./ Сб 46
«Некоторые проблемы биологической кибернетики». Под общ. ред. акад. А.И. Берга. -Л., Наука, 1972. 18. Агабабян КГ. О нейронных матрицах. Кибернетика, т.1, 1972, с. 211-214. ' 19. Корелов И.В. Об одном классе сетей из элементов непрерывно- го и дискретного действия. Изв. АН СССР. Сер. «Техническая кибернетика», — №1, 1972, с. 109—114. 20. Галушкин А.И. Об алгоритмах адаптации в многослойных сис- темах распознавания образов. /Докл. АН Укр. ССР, А, 91, №1, 1973, с. 15-20 (представлено акад. В.М. Глушковым). 21. Ивахненко А.Г. Персептроны - система распознавания обра- зов. -Киев, Наукова Думка, 1975. 22. Галушкин А.И., Кудрявцев А.М. Обращение матрицы с помощью многослойной системы из пороговых элементов. //Кибернетика и вычислительная техника». -Киев, Наукова Думка, вып.ЗЗ, 1976. 23. Агабабян К. Восприятие размера угла в нейронных структу- рах. Кибернетика, т.5, 1976, с. 173-176. 24. Галушкин А.И. Континуальные модели многослойных систем распознавания образов.// Автоматика и вычислительная тех- ника. —№2, —1977, с. 43—48. Реализация нейрокомпьютеров 25. Пупков К.А., Нариманов В.К., Галушкин А.И. Специализиро- ванное распознающее устройство. //Труды МИЭМ, выл. 23, 1971, с.156-165. 26. Пупков К.А., Нариманов В.К., Галушкин А.И. Выходной каскад многослойной сети пороговых элементов. //Труды МИЭМ, вып. 23, 1971, с. 166-178. 27. Галушкин А.И. Синтез многослойных систем распознавания образов. -М., Энергия, 1974. 28. Галушкин А.И. Основные направления разработок специали- зированных многослойных систем автоматизированной меди- цинской диагностики.//Медицинские информационные систе- мы на базе ЭВМ, т. II. М., 1977, с. 191-198. 29. Зайцев С.Г. Системы автоматизированной диагностики по таб- личным данным и тенденции их применения в медицинских ин- формационных системах на базе ЭВМ.//Медицинские инфор- мационные системы на базе ЭВМ, т. II. М., 1979, с.187-191. Элементная база нейрокомпьютеров 30. Трейер В.В., Елизаров АБ. Электрические интегрирующие эле- менты и аналоговые запоминающие элементы. -М., Энергия, 1971. 31. Боярченков М.А. и др. Аналоговые запоминающие и адаптив- ные элементы. — М., Энергия, 1973. 47
РАЗДЕЛ 1. СТРУКТУРА НЕЙРОННЫХ СЕТЕЙ Структура нейронных сетей является исходной аксиома- тической посылкой как самой теории нейронных сетей, так и в значительной степени нейросетевых алгоритмов решения задач, архитектуры нейрочипов и нейрокомпьютеров. Ниже представлены основные предпосылки перехода от логического базиса булевских элементов к пороговому логи- ческому базису, описаны основные типы пороговых элемен- тов, связь пороговой логики с многозначной и непрерывной логикой. Описываются основные типы нейронных сетей, пред- ложенных различными авторами ранее, в 60-е годы (Ф. Ро- зенблаттом, Б. Уидроу и др.) и в настоящее время. Представ- лены материалы по континуальным нейронным сетям (конти- нуум признаков, нейронов и т.д.). Отдельно рассматриваются объективные предпосылки введения перекрестных связей в многослойных нейронных сетях, а также методы формально- го описания таких сетей. Глава 1.От логического базиса булевских элементов И, ИЛИ, НЕ к пороговому логическому базису Принципиальным моментом появления нейрокомпьютеров является отказ от булевского логического базиса на уровне элементов вычислительных машин с переходом на базис по- роговой логики, который в простейшем варианте моделирует функции нервной клетки. При этом изменяется не только элементная база, но и архитектура ЭВМ. 1.1. Линейный пороговый элемент (нейрон) Работы по пороговой логике известны еще с 60-70-х го- дов [1.1-1.8]. В них предлагается использовать для построе- ния отдельных узлов и блоков ЭВМ нейроны, осуществляю- щие следующее логическое преобразование входных сигна- лов в выходной: N у = sign ^аг xi. (1.1) Это простейшая интерпретация передаточной функции ней- рона, где у ~ значение выхода нейрона; а£ - весовые коэффи- циенты; а0 - порог; х{ ~ входные значения нейрона(х. е {0,1}); 48
N - размерность входного сигнала нейрона. Нелинейное пре- образование, осуществляемое в данном случае в нейроне: sign (g) = ' О, g<0 1. g SO . (1.2) На рис. 1.1 представлена функциональная схема нейрона. При этом в частном случае при =1 (i=l,...,n) нейрон являет- ся мажоритарным элементом, порог в этом случае принима- ет значение а0= N/%. Необходимо отме- тить, что пороговая функция в выраже- нии для передаточной функции (1.1) может принимать любые значения, а не толь- ко указанные в (1.2). Это определенным образом меняет зна- чения коэффициен- тов а(. и а0. Для удоб- ства, как правило, Рис. 1.1. Функциональная схема нейрона используют форму пороговой функции (1.2) или следующую: sign (g) = . -i, g< о 1, g >0 в зависимости от удобств физической реализации этой функции в аналоговом или цифровом виде. Отмечаются следующие преимущества нейрона перед эле- ментами И, ИЛИ, НЕ и т.п.: 1. Нейрон выполняет более сложные логические функции, что обеспечивает реализацию заданной логической функции меньшим числом элементов. Отсюда отмечаемая и исследо- ванная многими авторами возможность сокращения объема оборудования при построении некоторых узлов вычислитель- ных машин. 2. Сети из нейронов имеют повышенную устойчивость к выходу из строя отдельных элементов. В [В~1] было отмече- 49
но, что в трехслойном персептроне выход из строя некоторо- го количества нейронов 1-го слоя со случайными связями не приводил к резкому, катастрофическому падению качества решения задачи при отсутствии процедур диагностики и ре- конфигурации структуры. Подобным свойством в настоящее время обладают лишь многомикропроцессорные ЭВМ с рас- ширенным параллелизмом с архитектурами ОКМД (один по- ток команд, много потоков данных) и МКМД (много потоков команд, много потоков данных) при реализованных на этих структурах процедурах диагностики и реконфигурации. При этом свойством таких структур является свойство так называемой постоянной деградации, когда основное ка- чество работы системы (такое, как вероятность правильно- го распознавания или производительность) будет максималь- ным при полностью исправных элементах и падало бы не катастрофически, а монотонно при выходе из строя отдель- ных элементов. 3. Сети из нейронов имеют повышенную устойчивость к изменению параметров схем, их реализующих. Это можно пояснить на примере реализации с помощью нейрона про- стой логической функции двух переменных (рис.1. 2), где весьма значительные изменения весов и порога не приводят к ошибкам в реализации заданной логической функции. 4. Реализация в виде СБИС или оптических систем функцио- нальных устройств, алгоритмы которых адекватны нейронным се- тям, производится в аналоговом виде с присущим ему бГлыпим быстродействием по сравнению с цифровой реализацией. 50
При аппаратной реализации нейронными сетями доста- точно «крупных» математических операций большой размер- ности производится максимальное распараллеливание ин- формации на аппаратном уровне. 5. Для нейронных сетей существует возможность формаль- ного описания их как динамических дискретных систем с ис- пользованием аппарата линейных последовательностных ма- шин. Это дает возможность не только исследовать поведение таких систем с помощью методов теории управления, но и синтезировать структуры нейронных сетей по заданным кри- териям. 6. Для однородных нейронных сетей существует возможность минимизации типажа СБИС, их реализующих, что позволяет проследить тенденцию упрощения САПР СБИС. При этом су- ществующая относительная независимость алгоритмов логи- ческого проектирования нейро СБИС от размерности входного и выходного пространства, создает предпосылки для унифика- ции этой процедуры в более широком классе функциональ- ных схем, реализуемых нейронными сетями. 1.2. Многопороговая логика Многопороговую логику можно рассматривать как обоб- щение пороговой. Логическая полнота многопорогового эле- мента (МПЭ), являющегося функциональной ячейкой логичес- кого устройства, выполненного в базисе многопороговой ло- гики, обусловлена наличием группы порогов, реализуемых данным МПЭ. Под МПЭ здесь и далее будем понимать эле- мент, функционирующий согласно выражению 1 К У {sign[g(n) - aj+l}, (1.3) приведенному в работе [1.6]. Функциональная схема МПЭ приведена на рис.1.3. Методы синтеза сетей из МПЭ являлись предметом ис- следований многие годы [1.7, 1.9, 1.10] и не привели к прак- тически ощутимым результатам. Наиболее перспективны- ми для сетей из МПЭ все же можно считать лишь адаптив- ные методы [В.6, В.10] как слабо зависимые, по сравнению с остальными, от размерности входного пространства и сложности сети. 51
1.3. Непрерывная логика Данный раздел логики как науки, являющейся естествен ным развитием двухзначной логики через К-значную, имеет важное значение для построения теории нейронных ЭВМ, прямо связанных с аналоговой реализацией частей алгорит мов, требующих большого быстродействия вычислителя. Непрерывная нейронная логика рассматривает схемы, по- зволяющие выполнять логические операции с непрерывными величинами [1.11-1.13]. На рис.1.4 представлена общая струк- турная схема нейрона с континуумом решений, являющихся основой построения схем непрерывной нейронной логики. Вид функции f, называемой функцией активации, рассматрива- ется ниже либо исходя из представления о модели нейрона, либо исходя из класса решаемых задач и удобства построе- ния алгоритма адаптации сети из таких нейронов. Рис.1.4. Структурная схема нейрона с континуумом решений 52
Преобразование, осуществляемое схемой (рис.1.4), име- ет вид N У (п) = /&(п)]=/ [ S а,. х,(и) ]. Функция /(g) является непрерывной, монотонно возрастаю- щей, дифференцируемой и формирует непрерывный выход- ной сигнал элемента нейронной сети. В этом случае понятие разделяющей поверхности, реализуемой сетью в исходном про- странстве признаков (в интерпретации систем распознавания образов), вырождается. Параметры функции /(g) могут быть как фиксированными, так и настраиваемыми. 1.4. Частные виды функций активации Кроме рассмотренных выше можно рассмотреть несколь- ко других видов функции активации. Функция активации R представлена на рис. 1.5. Наличие линейной зоны позволяет реализовывать на сетях из элемен- тов с подобной функцией активации непрерывные функции. Функция активации R достаточно просто реализуется. Функция активации S (сигмоидная). Графически данная функция активации представлена на рис. 1.6. Здесь у =(1+е-?)-1. Эта функция в отличие от функции R обладает свойства- ми обратимости и непрерывной дифференцируемости, одна- ко более трудно реализуема. Недостатком ее, зачастую от- мечаемым, является наличие только положительных значе- ний. Однако, на наш взгляд, этот недостаток несущественен, так как может быть устранен на уровне структуры сети из- менением порогов элементов. Рис. 1.5. Функция активации R Рис. 1.6. Функция активации 5 53
Функция активации типа tank gfn)ti %/п arctg g(n) (рис. 1.7 1.8) Рис.1.7. Функция активации tanh g(n) 1 о -1 arctg g(n) Рис.1.8. Функция актива- ции 2/я arctg g(n) Эти функции по свойствам аналогичны сигмоидной функ- ции. Преимущества применения той или иной функции акти- вации определяются сложностью реализации нейронной сет» и ее алгоритма адаптации на выбранном классе задач. Литература 1.1. 12. 1.3. 1.4. 15. 1.6. 1.7. Dertouzos М. Threshold Logic: A sybthesis approach, MIT Press 1965. Русск. перев.: M. Дертоузос. Пороговая логика. - M., Мир 1967. Пирс У. Построение надежных вычислительных машин. - М. Мир, 1968. Shigeo Oyagi, Ryoichi Mori, Noriaki Sanechika. Realization of i Boolean Function using an extended threshold logic. Bulletin oi. the Electrotechnical Laboratori, vol 42, 1978, pp. 9-74. Лупанов О.Б. О схемах из пороговых элементов./ Докл. АН СССР, 1972, т.202, № 6. : Бутаков Е.А. Методы синтеза релейных устройств из пороге-: вых элементов. -М., Сов. радио, 1970. Гутчин И.Б., Кузичев А.С. Бионика и надежность. -М., Наука, 1967. Вавилов Е.Н. и др. Синтез схем на пороговых элементах. -М., Сов. радио, 1970. 1А Степанян А.А., Архангельский С.В. Построение логических схем на пороговых элементах. Куйбышевское кн. изд-во, 1967. 1.9. Minsky М. Finite and infinite Machines. Prentice-HalUnc, 1967.. Русск. перев.: Марвин Минский. «Вычисления и автоматы». - М., Мир, 1971. 54
1.10. Специализированный выпуск по многозначной логике. Computer, v.21, № 4, 1988. 1.11. Айзенберг Н.Н., Иваськив ЮЛ. Многозначная пороговая логи- ка. _ Киев, 1977, 148 с. 1.12. King J. Fuzzy logic provides new way to deal wi th uncertainty, Electronics, Pk 12, pp.40,41,1985. Русск. перев.: Д. Кинг. Непре- рывная логика: альтернатива вероятностному подходу. //Элек- троника, № 12, 1985. 1.13. Позин Н.В. Нейронные схемы непрерывной логики и класси- фикации ансамблей непрерывных сигналов. Proc. Inst. Stosowane, PAN, Z.II, Warsawa, 1972. 1.14. Позин H.B. Моделирование нейронных структур. -М., Наука, 1970. 1.15. Уиндер Р. Логические схемы на пороговых элементах. // «Элек- троника», № 11, 1968, с. 3-25. 1.16. Бутаков В.А. Методы синтеза релейных устройств из порого- вых элементов. - М., Сов. радио, 1970. 1.17. Вавилов Е.Н., Егоров Б.М., Ланцев В.С., Тоценко В.Г. Синтез схем на пороговых элементах - М, Сов. радио, 1970. 1.18. Варшавский В.И. Функциональные возможности и синтез по- роговых элементов./ Докл. АН СССР, 1961, - т.139. -№ 5. 1.19. Coatee C.L., Lewis В.М. DONUT - a" threshold gate computer, IEEE Trans, on Electronic Computer, 1964, v. EC - 13, № 3. 1.20. Гутчин И.Б., Кузичев A.C. Бионика и надежность: элементы теории формальных нейронов. - М., Наука, 1967. 1.21. Степанян А.А., Архангельский С.В. Построение логических схем на пороговых элементах. Куйбышевское кн. изд-во, 1967. 1.22. Лебедев В.С. О возможности реализации узлов цифровых уст- ройств на пороговых элементах.//«Автоматика и телемеха- ника», №3, 1971, с. 91-100. 1.23. Мкртчян С.О. Нейроны и нейронные сети. - М., Энергия, 1971, 231 с. 1.24. Овчинников В.В. Способ построения арифметических устройств ЦВМ на пороговых элементах. // «Автоматика», вып.6. Киев, Наукова Думка, 1971, с. 70 - 77. 1.25. Мкртчян С.О. Комплекс пороговых элементов для проектирования ЦВМ.// «Вопросы радиоэлектроники».—Сер. ЭВТ. - 1972. - Вып.2, с.133 - 139. 126. Пакулов Н.И., Уханов В.Ф., Чернышев П.Н. Мажоритарный принцип построения надежных узлов и устройств ЦВМ. - М., Сов. радио, 1974. 1.27. Добронравов О.Е., Овчинников В.В. Проектирование схем и узлов ЭВМ на пороговых элементах. - М., Энергия, 1976. 1.28. Мкртчян С.О. Проектирование логических устройств ЭВМ на нейронных элементах. - М., Энергия, 1977. 55
1.29. Пальянов И.А., Потапов В.И. Диагностика неисправностей и си тез цифровых структур из пороговых логических модулей. Новосибирск, 1977. > 1.30. Потапов В.И. Анализ и синтез логических высоконадежных ци< ровых вычислительных и логических структур из порогов! модулей. - Новосибирск, 1977. 1.31. Галушкин АН., Фомин Ю.И. Об оптимальности восстанавливав щих органов, реализующих мажоритарное голосование. // Те ника средств связи». - Сер. «Вычислительная техника» - Вып. 1979, с. 56 - 61. 1.32. Кирсанов Э.Ю. О построении систем сверхоперативной пам на элементах пороговой логики.// Техника средств связ: Сер. «Системы связи» - Вып.4. - 1980, с. 28 — 37. 1.33. Кирсанов Э.Ю. К вопросу о построении односторонней пам на элементах пороговой логики.// Техника средств связи.; Сер. «Системы связи» - Вып.2. - 1981, с. 44 - 52. 1.34. Кирсанов Э.Ю. К задаче классификации и анализа путем по роения памяти в базе пороговой логики.// Техника сред связи. - Сер. «Системы связи» - Вып.2. - 1981, с. 36 - 48. 1.35. Кирсанов Э.Ю. К вопросу о выборе структуры одного кла запоминающих устройств на пороговых элементах. //«Эле ронное моделирование». -Киев, 1981, № 6, с. 88 - 89. 56
Глава 2. Качественные характеристики архитектур нейронных сетей Основными качественными характеристиками архитектур нейронных сетей являются [2.1 - 2.5]: 1. Типы входных сигналов (размерность, дискретность и т. д.). 2 Тип операций, реализуемых в разомкнутой нейронной сети (дискретные или непрерывные). 3. Топология связей (прямые, перекрестные, латеральные, обратные и т.д.). 4. Наличие или отсутствие желания сымитировать в струк- туре конкретную биологическую систему (зрительный или слуховой анализатор, мозжечок, таламус и т.д.). 5. Наличие желания максимально повысить скорость вы- числительных операций на нейронной сети. 6. Ограничения архитектуры, связанные с удобством (про- стотой) или ограничениями принятого способа техничес- кой реализации. 7. Способ объединения в группы процессорных элемен- тов. 8. Способ функционирования во времени (дискретный или непрерывный). 9. Способ изменения весов связей (случайный или упоря- доченный). 10. Способ соединения независимо настроенных (или настра- иваемых) нейронных сетей вместе. 2.1. Частные типы архитектур нейронных сетей Ниже описаны некоторые частные структуры нейронных сетей, являющиеся предметом интересов при решении раз- личных задач в нейросетевом базисе. На рис. 2.1 представлена Рис.2.1. Сети с прямыми связями 57
структура, условно называемая нейронной сетью с прямь связями. Характерной особенностью такой сети является венство числа входов, выходов и нейронов в каждом из д слоев сети, а также наличие так называемых латералы связей между нейронами 1-го и 2-го слоя. При этом на рис. латеральные связи имеют ограниченную структуру (глуб1 распространения). На рис. 2.2 представлена частная струн Рис. 2.2. Нейронные се’ перекрестными связями ра двухслойной нейронной сети, в которой настраиваемые в связей 2-го слоя определяются выходными сигналами 1-го сл Рис. 2.3 иллюстрирует пример структуры нейронной сер упорядоченными обратными связями, а рис. 2.4 с аморфн Рис. 2.3. Сети с упорядоч ными обратными связями Рис. 2.4. Сети с аморфн] обратными связями 58
обратными связями. На рис. 2.5 представлены частные струк- туры нейронных сетей с латеральными связями, наиболее часто применяемые в системах обработки сигналов и изобра- жений. Рис. 2.5. Основные типы нейронных сетей с латеральными связя- ми: а - латеральные связи, повторяющиеся на каждом процессорном элементе; б - латеральные связи, повторяющиеся на каждом процес- сорном элементе; в — каждый вход имеет специфическое распределение вад полем процессорных элементов; г - латеральные связи могут быть любых типов 59
2.2. Многослойные нейронные сети с последовательными связями Исторически многослойные нейронные сети в теории р познавания образов появились вследствие следующих при» 1. Линейная разделяющая поверхность (линейный поре вый элемент) не обеспечивает достаточной вероятности п вильного распознавания для распределений, отличных от н мальных с равными ковариационными матрицами. 2. В N-мерном пространстве двоичных переменных гип плоскость не может реализовать любую булевскую фунвд от N двоичных переменных при N>2. 3. Чтобы повысить вероятность правильного распознана; в случае, когда совокупности векторов двух классов обра распределены по закону более сложному, чем нормалью равными ковариационными матрицами, строятся системы; познавания образов, реализующие нелинейную разделяю! поверхность, которая, в частности, может быть задана вь жением: L L L L L ъ...ъ а, , х. , + ... + Е Е а., х, х, + Е а, х, + а = /.=1 1,=1 ll'Jr /.=1 !,=1 1,2 11 !2 /.=1 !1 11 0 1 ' 1 * 1 Реализация систем распознавания образов с нелинеЯ разделяющей поверхностью является сложной практиче< задачей, связанной с необходимостью настройки большого ’ ла коэффициентов порядка (N+r)!/N!r!, где N - размерн пространства признака; г - порядок разделяющей поверх» Например, при N порядка нескольких сот и г порядка число настраиваемых коэффициентов составляет неско; миллиардов. Трудности решения задачи построения нели; ной разделяющей гиперповерхности преодолеваются nj использования кусочно-линейной аппроксимации этой по; хности гиперплоскости. Если при этом поверхность r-го noj ка аппроксимирована достаточно хорошо с точки зрения роятности правильного распознавания, то порядок числа страиваемых коэффициентов равен N г, т. е. в случае, ука. ном выше, составляет несколько сот. Для задач распознавания образов и других, допускаю применение в первом слое нейронной сети нейронов с koj ним количеством решений, необходимо решить задачу о 60
сения различных областей исходного многомерного простран- ства признаков к тому или иному классу (рис. 2.6). х(п) I—----------1 у?(п) —I нейрон1 I " - 1----:-----1 У?(л) —I нейрон 2 |—•— .----------1 У^(л) »—I нейронМ1 | Блок отнесения областей многомерного пространства признаков к тому или иному классу У (Л) рис. 2.6. Структурная схема нейронной сети, реализующей кусоч- но-линейную разделяющую поверхность Указанные области образуются при взаимном пересечении гиперплоскостей, реализуемых нейронами первого слоя. Каж- дая из областей определена в виде набора Ну двоичных сигна- лов (Ну - число нейронов первого слоя), принимающих зна- чения (0,1) или (+1,-1) на выходе нейронов первого слоя, и соответствующего значения выходного сигнала всей системы. Блок отнесения областей к тому или иному классу должен реализовать в данном конкретном случае некоторую функ- цию у*( у ) от Ну двоичных переменных. Указанная логическая функция в свою очередь должна ре- ализоваться нейронной сетью вследствие известных преиму- ществ пороговой логики, а также вследствие необходимости функциональной однородности всей системы. Граф многослой- ной нейронной сети с последовательными связями показан на рис. 2.7. В работе [2.6] дана подробная классификация типов Рис. 2.7. Граф многослойной нейронной сети с последовательными связями 61
структур многослойных нейронных сетей с последователь! ми связями по следующим признакам: - число слоев нейронов с настраиваемыми коэффици тами; - число слоев нейронов с фиксированными коэффици тами; - метод фиксации коэффициентов. Рассмотрены, в частности, следующие структуры: дв; слойная сеть с настраиваемыми коэффициентами первого с. и фиксированными (или настраиваемыми) коэффициенте нейронов второго слоя; трехслойная нейронная сеть с разл ными вариантами слоев с настраиваемыми и фиксированн: коэффициентами. Двухслойная нейронная сеть с настраиваемыми коэфф! ентами имеет ограниченные возможности в смысле реал] ции различных конфигураций разделяющей поверхности, как нейрон не может реализовать произвольную булевс: функцию от N>2 двоичных переменных (в данном случае i рон второго слоя нейронной сети). Если не задано огран! ние на число нейронов во втором слое, то для реализа: кусочно-линейной поверхности произвольной конфигурации статочно иметь в нейронной сети количество слоев W=3. Задача синтеза трехслойной нейронной сети при зада! числе нейронов в первом и третьем слое сводится к мин» зации числа нейронов второго слоя и настройке коэфф! ентов нейронной сети. Проведенные исследования многое, ных нейронных сетей с последовательными связями позв< ют сделать вывод, что качество их работы монотонно во; стает при увеличении числа слоев и числа нейронов в к; дом слое. 2.3. Структурное и символическое описание многослойных нейронных сетей В последнее время можно отметить резкое возраста роли структурных методов в исследовании различного j систем по сравнению с символическими методами. Основа причинами данного подхода являются такие свойства ис дуемых систем, как многослойность, многоконтурность и 1 гомерность. Именно этими свойствами обладают и совре! ные нейронные сети. Настоящая работа ставит своей це развитие структурного подхода, когда относительный вес 62
работок блока обучения уменьшается, а увеличивается соот- ветственно вес разработок при выборе структуры разомкну- той системы. Именно по этим причинам кроме символических описаний разомкнутых систем возникает необходимость в структурном представлении преобразований. Ниже представ- лено формальное описание основных типов многослойных ней- ронных сетей. а) Двухслойная нейронная сеть: 1 ! «1 y(n)= f [g(n)J = f [S Vhi(n)]=/ H| N =f [ (2-1) б) Многослойная нейронная сеть из нейронов с контину- умом решений: Hw.l HW-2 HW.3 x* (n) I I xw'2(h)'> I wr I w'lf ч * I 1 ч(л) |ч.,(л) ... a . l fl . hW-j +2'hW-j+l J *-hw.j=1 hW-j+bhW-j j. (R) hW-j+l (2.2) W-J+Iz 4 4?’ W-j xh (я) hw-j a ^гЛ1 [ 1 ••]••• ]]]• I А/я) IX (я) £'»,(«) 63
Здесь N=H0 — размерность исходного пространства п знаков. Стрелкой и символом указаны обозначения сигнала, опи ваемого в формуле выражением справа от стрелки; и g^'j+l(n) ~ соответственно выходной и аналоговый выход! "W-j+l сигналы Ъ^_.+1-го нейрона (W~j+l)-ro слоя рассматривав! многослойной нейронной сети. Многослойная нейронная сеть с К решениями получав1 заменой в (2.2) в выходном слое нелинейного преобразова; / на определяемое выражением (1.3). в) Многослойная нейронная сеть с Hw выходными ка\ лами. Символическое описание подобной системы достатч но просто получить из (2.2) и граф-схемы нейронной се представленной на рис.2.7. В частности, можно рассмат] вать случай сигналов е(п) и у(п) одинаковой размерност! г) Многослойные нейронные сети с перекрестными сея ми. В многослойных нейронных сетях с полными перекрест! ми связями [В.б] множество признаков j-ro слоя (j=1,..., < состоит из признаков исходного пространства и выходных q налов всех слоев с номерами от 1 до (j - 1). Анализ частных структур с полными перекрестными <д зями показывает, что они значительно проще (по числу hi ронов) структур с полными последовательными связями i условии, что обе структуры реализуют одну и ту же кон<| гурацию разделяющих поверхностей в пространстве приз! ков. В частности для двухслойной нейронной сети с перекй тными связями: / । W N y(n)=f [ ahj/[ S a<hx,(n)]+ S a^(n)]. Граф-схема данной нейронной сети представлена; рис. 2.8. Рис. 2.8. Граф-схема нейронной сети с перекрестными связ:
в принципе возможно рассмотрение многослойных ней- ронных сетей произвольной структуры с перекрестными свя- зями. д) Многослойные нейронные сети с обратными связями. Для нейрона с обратной связью (рис. 2.9): N y(n)=f [ S а^Дп) + а'у (п-1)]. Рис. 2.9. Граф-схема нейрона хо_________ с обратной связью f У В случае двухслойной нейронной сети с обратными связя- ми (рис. 2. 10): У(п)=/ [g(n)]; ahiyhl(n) + afcy(n~l); у yhl(n)=/ [ghl(n)]; ghi(n)=Z ajhlx,.(n) + a"y(n)+a’^y^tn-l). Рис. 2.10. Граф-схема двухслойной нейронной сети с обратными связями В принципе возможно рассмотрение многослойных ней- ронных сетей произвольной заданной структуры с обратны- ми и перекрестными связями. Объективная необходимость вве- дения перекрестных связей в многослойных нейронных сетях обосновывается ниже в главе 3, а обратных связей в данной книге при исследовании замкнутых нейронных сетей для рас- познавания нестационарных образов. е) Нейронные сети с к-значными и двоичными весовыми КОэФфициентами. Известны трудности физической реали- 3 - 353 65
зации настраиваемых переменных весовых коэффицие! многослойных нейронных сетей. Эти трудности появил в частности, при реализации в 60-е годы систем на ме> торах, когда их авторы пытались реализовать в аналоге виде и разомкнутую систему и блок настройки нейро* сети [2.12). На современном этапе развития технологии СБИС эти т] ности сохранились. Однако резкое увеличение степени ин рации позволяет реализовать нейронные сети с нейрон; имеющими k-значные значения весовых коэффициентов, ализуемые, например, на резисторных сетях, или в прос шем случае двоичные (0,1) значения весовых коэффиц] тов, реализуемые на управляемых ключах. При этом pi упрощается физическая реализация процедуры настро многослойной нейронной сети, имеющей подобные настра* емые коэффициенты. При рассмотрении каждого нейро* k-значными или двоичными коэффициентами реализуется гическая функция в пространстве входных переменных пу изменения наклона разделяющих гиперплоскостей на фи рованный угол (рис.2.11) или путем использования в coboi ной разделяющей гиперповерхности «кусков» гиперплоско; трех типов (рис.2.12). При этом, естественно, чем меньше Рис.2.11. Гиперплоскости, реализуемые в пространстве входных признаков нейроном с k-значными весовыми коэффици- ентами Рис.2.12. Гиперплоскости, ализуемые в пространстве 1 ных признаков нейроном с Д1 ными (0,1) значениями вес коэффициентов даций имеют весовые коэффициенты нейронов в нейро: сети, тем большее количество нейронов потребуется в ронной сети для решения некоторой задачи.
Рис. 2.13. Многослойная нейронная сеть Настоящий уровень развития технологии вполне приемлет общую структуру нейронной сети, представленную на рис. 2.13. Методика синтеза алгоритмов настройки подобных нейронных сетей является основным предметом рассмотрения в данной книге. Литература 2.1. Стаффорд. Многослойные обучающиеся схемы.// Зарубежная радиоэлектроника, № 8, 1965, с. 58-64. 2.2. Гавронски Р. Сравнение некоторых свойств симметричных сло- истых сетей с прямыми и обратными локальными связями./ Сб. «Биологическая кибернетика», 1968, с. 209—223. 2.3. Нильсен Н. Обучающиеся машины. -М., Мир, 1967. 2.4. Гелиг А.Х. Опознающие системы с неограниченной плоской ретиной.// Вычислительная техника и вопросы кибернетики. 1968, с. 80-94. 2.5. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потен- циальных функций в теории обучения машин. -М., Наука, 1970. 2.6. Галушкин А.И. Многослойные системы распознавания образов. М., МИЭМ, 1970. 2.7. Галушкин А.И., Юмашев С.Г. О применении кусочно-линей- ных разделяющих поверхностей в задаче распознавания обра- зов. //Труды МИЭМ, 1970, вып.6, с. 238 - 254. 2-8. Минский М. Вычисления и автоматы. -М., Мир, 1971. Перев. М. Minsky. Computation: Nachines, Prentice - Hall, 1969. Finite and Infinite. 2.9. Минский M., Пейперт С. Персептроны. -M., Мир, 1971. R7
2.10. Ивахненко А. Г.. Системы эвристической самоорганизац! технической кибернетике. -Киев, «Техника», 1971. 2.11. Ивахненко AT. Polinomial theory of complex systemsa. Trans, on System, Man and Cybernetics, v.SMC-1, 1971, 2.12. Трейер B.B., Елизаров А.Б. Электрические интегрирую! элементы и аналоговые запоминающие элементы. — М., Э1 гия, 1971. 2.13. Ивахненко А.Г.. Персептроны - система распознавания об зов. - Киев, Наукова Думка, 1975. 2.14. Юмашев С. Г. Применение методов линейного программирс ния для построения кусочно-линейных разделяющих пове ностей в задаче распознавания образов. //Труды МИЭМ, 1! вып. 6, с. 255-260. 2.15. Кохонен Т. Ассоциативная память. - М., Мир, 1980. 2.16. Amari S. Topographic organization of nerve fields. Bull, of I Biology, 1980, т.42 № 3 (339-364). 2.17. Fukushima K. Neocognitron: A Self - Organizing Neural Neb Model for a Machanism of Pattern Recognition Unafectei Shift in Position. Biological Cybernetics, 1980, т.36, (193-202). 68
Глава 3. Оптимизация структуры многослойных нейронных сетей с перекрестными связями Вопрос выбора структуры разомкнутой многослойной ней- ронной сети является сложным. Структура разомкнутой ней- ронной сети может задаваться либо априори, либо исходя из соображений, высказанных выше при рассмотрении двухслой- ной и трехслойной нейронной сети, либо исходя из ограниче- ний технического характера. Ниже рассматривается возмож- ность выбора структуры (числа слоев и числа нейронов в слое) многослойных нейронных сетей с перекрестными связями, со- стоящих из нейронов с двумя решениями. 3.1. О критерии сложности задачи Необходимо остановиться на критерии сложности задачи распознавания, решаемой многослойной нейронной сетью. При использовании детерминированной модели нейронной сети таким критерием может служить количество эталонных обра- зов, заключаемых в замкнутые области гиперплоскостями, реализуемыми нейронами первого слоя в исходном простран- стве признаков. При рассмотрении вероятностной модели ней- ронной сети каждому эталонному образу соответствует мода функции распределения вероятностей совокупности образов на входе нейронной сети. При этом в каждой области исходно- го пространства признаков многослойная нейронная сеть вы- деляет уже не эталонный образ, а некоторое компактное мно- жество образов. При многомодальных распределениях сово- купностей образов на входе нейронной сети эти компактные множества могут характеризоваться областями в многомер- ном пространстве признаков, образованными линиями рав- ных значений функции плотности распределения вероятнос- тей (на определенном уровне). Число и сложность данных об- ластей совместно характеризуют сложность решаемой зада- чи. При этом детерминированная модель нейронной сети мо- жет рассматриваться как частный случай вероятностной и реализует по сути дела систему памяти для конечного числа Многомерных векторов. Принимая в данном параграфе за кри- терий качества многослойной нейронной сети число областей, Реализуемых подобной нейронной сетью в исходном простран- стве признаков, необходимо отметить, что качество много- слойной нейронной сети с последовательными связями, рас- 69
смотренной выше, монотонно возрастает при увеличении ла слоев и числа элементов в каждом слое. Поэтому в подобной нейронной сети задача оптимизации стр туры (минимизация числа нейронов и числа слоев) может б поставлена только либо в плане ликвидации избыточности ч ла нейронов, либо при наличии ограничений на число нейро: Основное внимание ниже уделяется многослойным ронным сетям с полными перекрестными связями, когда nz жество признаков каждого ;-го слоя состоит из признаков ходного пространства и выходных сигналов первого, втор и (j - 1)-го слоя. Для подобной нейронной сети задача опти зации структуры, в частности выбора числа слоев и чи нейронов в каждом слое при ограничении на общее число и ронов в сети, является актуальной. 3.2. Одномерный вариант нейронной сети с перекрестными связями Рассмотрим на простейшем примере одномерного вари та, когда N = 1 (один признак х), принцип действия перекр тной связи. Структурная схема рассматриваемой нейронной с представлена на рис. 3.1. Разделяющая поверхность, реалис мая подобной нейронной сетью при отсутствии перекрест связи, представлена на рис. 3.2. В областях I, II, III аналога выходной сигнал нейронной сети g при включенной перекр< ной связи представляется следующим образом: 9i = ао + anx ~ ai " av 9II = ао + anX ~ai~ a2’ 9щ = ао *" anx ~ ai~ a2' Рис. 3.1. Двухслойная нейронная сеть с перекрестной связью, одно- мерный вариант -----o----------o------- I II O02 III Рис. 3.2. К принципу дей< перекрестной связи в много< ных нейронных сетях 70
Каждую из областей I, II, III нейронная сеть делит на две подобласти, где р.> 0 и д<0. Из условия равенства нулю др 5п’ следУют выражения для дополнительных порогов при включении обратной связи в пространстве X: _ а1 а2 ~ а0 . _ а2 ~ а1 ~ а0 . _ ~ Д1 ~ а2 ~ а0 х1~~ а ’ х2 а ’ хз а 1 п п п Таким образом, рассматриваемая нейронная сеть (см. рис. 3.1) реализует максимально пять порогов, делящих ось х на шесть областей. В этом случае нейронная сеть эквивалентна (по критерию максимума количества областей, реализуемых кусочно-линейной разделяющей поверхностью в исходном про- странстве признаков) многослойной нейронной сети с последо- вательными связями с пятью нейронами в первом слое, т.е. ней- ронная сеть с перекрестными связями реализуется значитель- но проще, чем нейронная сеть с последовательными связями. В процессе анализа многослойной нейронной сети необхо- димо знать максимальное число областей, на которое про- странство признаков размерности N может быть разбито Нг гиперплоскостями. Согласно результату, полученному в [3.1], максимальное количество областей XVNH1 определяется по сле- дующей рекуррентной формуле: или в нерекуррентном виде ^=^ + 2 Д с^. Здесь имеется в виду, что С* = 0 при t<s. Отметим, что из (3.1) следует: ^Н1=2Н1 при HX<N (3.2) при H.>N, (3.3) 3.3. Вывод верхней и нижней оценки количества областей Рассмотрим многомерный вариант (г = 1....Д) нейронной сети, стРУктура которой представлена на рис. 3.3. Обозначим коли- чество областей, на которое разбивает исходное простран- ство признаков (; - 1)-слойная нейронная сеть через _ ц, 71
Рис. 3.3. К решению за- дачи оптимизации структу- ры разомкнутой нейронной сети с полными последова- тельными связями где через [j - 1] обозначено условно эквивалентное количе- ство гиперплоскостей, реализуемых многослойной сетью с пол- ными перекрестными связями и с (j - 1)-м слоем. Данная сеть j-i содержит Н{ нейронов, где через Нг обозначено ко- 1=1 личество нейронов в г-м слое нейронной сети. Как следует из структурной схемы, входные каналы каждого h.-го нейрона j-ro слоя (h. = 1,... Н.) могут быть разделены на два множе- ства. Первое множество составляют входные сигналы нейрон- ной сети, второе - выходные сигналы нейронной сети с 1-го, 2-го,..., (у - 1)-го слоев. Тогда уравнение разделяющей поверх- ности, реализуемой одним h.-м нейроном в j-м слое, имеет следующий вид: Здесь ah.{ - вектор настраиваемых весов входных сигналов нейронной сети нейрона h? ah,2 - вектор настраиваемых весов входных и промежуточных сигналов (;' - 1)-слойной сети эле- мента h.; а. °. - порог h^-нейрона; вектор выходных сиг- налов нейрона(; - 1)-го слоя. Отсюда следует, что по отношению к исходному простран- ству признаков каждый из нейронов в j'-m слое реализует столько параллельных гиперплоскостей, сколько вариантов вектора порождает () - 1)-слойная нейронная сеть. Пред- полагая, что существует метод настройки нейронной сети, при котором все гиперплоскости, порождаемые вектором xhj_x в j-м слое, попадают в область исходного пространства призна- ков, соответствующую ему, запишем рекуррентную формулу для вычисления верхней оценки количества областей в виде: Это следует из того, что каждая из 'Род-ц областей, вы- деляемая (j — 1)-слойной подсетью, разбивается на y¥NH. обла- 72 3
стей. Здесь Ч^. определяется рекуррентным выражением (3.1). Запишем теперь нерекуррентную формулу. Из (3.4), а также из того, что первый слой нейронной сети разбивает простран- ство признаков на областей, следует: Ч'вд-П'1'™,. <ЗД Для вывода нижней оценки количества областей потребуем от каждой из Ч'ЛГ^._1^ гиперплоскостей, порождаемых h^.-м ней- роном, выполнения условия более сильного, чем попадание в область, соответствующую вектору xfcj._r Именно потребуем, чтобы некоторое количество гиперплоскостей из Ч'^._1] могло быть проведено через любую точку исходного пространства изменением только свободного члена в уравнении гиперплос- кости. Отметим, что в этом случае эти гиперплоскости, не- сомненно, могут попасть в любую область. Для оценки их ко- личества составим систему линейных уравнений относитель- но настраиваемых весов и порога элемента hr. Здесь qt(i =1, .. . гЧ'/щ-ц) ~ произвольно задаваемые числа. Отметим, что количество чисел qit которые можно задать произвольно, не нарушая равенства (З.б), есть искомое число гиперплоскостей из числа Ч^.^, которые могут быть прове- дены через любую точку исходного пространства. Из (3.5) сле- дует, что это число есть (^.j+1), т.е. равно размерности вектора ай2плюс единица. Отсюда следует рекуррентная формула для вычисления нижней оценки количества областей: =^-1] - - х+1) + (^ _ ,+D^ • Здесь - (LJ._1+1) - число областей, в которых не проводятся новые гиперплоскости; (L^. _ 1+1)4'NH. - число но- вых областей, которое появляется после разбиения. 73
Окончательно ^мл=чЧ-1]+ L-L._1+H. Выражение (3.7) есть окончательный результат вывод одномерном случае (3.7) имеет следующий вид: Li=LJ-i+Hi J’ 3.4. Частная задача оптимизации Можно сформулировать несколько задач оптимиза структуры многослойных нейронных сетей с перекрести связями. 1. Задано число слоев и число нейронов многосло! нейронной сети. Найти распределение нейронов по сл максимизирующее число областей Т, образованных ку но-линейной разделяющей поверхностью, реализуемой , ной многослойной нейронной сетью в исходном простран признаков. 2. Задано общее число нейронов сети. Найти число ело распределение нейронов по слоям, максимизирующее ¥ 3. Задано количество областей % которое должно ( реализовано сетью, и число слоев в ней. Найти структ минимизирующую количество элементов в сети. 4. Найти структуру (количество слоев и распредел! нейронов по слоям) при заданном Т, минимизирующую к чество нейронов в сети. Отметим, что оптимизация стру ры по числу областей представляет частный критерий о мальности нейронной сети. Рассмотрим синтез структуры одномерного варианта для указанных задач оптимизации. 1. Для заданного числа слоев нейронной сети W и 41 нейронов во всей сети Н, равного Н., найдем распред j=l 3 ние элементов по слоям, максимизирующее 'P1W. Форма задача ставится в виде соотношений, записанных с уч< (3.5) и (3.1): 74
(3.9) (3.10) (3.11) w Ё н =H; 7=1 w уор‘ _ max TT/H +n Метод множителей Лагранжа дает решение в виде систе- мы уравнений w П(Н.+1)+А=0, i=l,...,W; >1 1 7*1 W ( X н. - н = 0. j=l 1 Решением системы (3.9) являются H>-=wH(’:1........w); . + J Из (3.10) и (3.5) следует, что при этом \popt___/2L + i)w т.е. при заданном числе слоев имеющееся число нейронов надо распределять по слоям равномерно. В связи с (3.10) возникает вопрос о целочисленности Н?. ( j =1, .. .,W). Если Н не делится на W нацело, то, как следует из (3.5) и (3.10), остаток элемен- тов также следует распределить по слоям равномерно, при- чем не имеет значения как именно. В этом смысле (3.11) есть верхняя оценка, которая становится точной верхней оценкой при H=KW, где К - це- лое число. 2. Для заранее незаданного числа слоев W и при ограниче- ниях на количество нейронов Н в сети найдем оптимальную по верхней оценке структуру. Это можно записать следую- щим образом: Ф°₽‘= max ; 1 w<h Ё Н =Н. 7=1 ’ J 75
Из очевидного неравенства с учетом (3.11) ( — + l)w< (—~+ 1) W+1 VW ' ''W + 1 4 следует, что число областей с ростом числа слоев моното возрастает. Отсюда получается, что оптимальной в дан1 случае является Н-слойная сеть с одним элементом в каж; слое, для которой из (3.11) следует, что T1opt= (^ + 1)Н=2Н 1 Н есть точная верхняя оценка. 3. Для заранее заданного числа слоев W и суммарв количества нейронов в сети найдем структуру, оптималы по нижней оценке. С этой целью представим (3.8) в виде не куррентной формулы: w w w W Условный экстремум (3.12) при условии X и. =Н согла i=l ’ методу множителей Лагранжа достигается в случае, если (i=l,... ,W) являются решениями системы ЯДХ-1)+Я+1=0; I и, - н-о. J 1=1 » J 1 Отсюда #! = #! = ... Hw = — Н и при заранее заданно» и2 Н2 i = 1+ Н + ~ 2W • Из (3.13) следует, что монотонно возрастает при W- и является точной при H=KW, где К-целое число. Отсюда = дЛЯ Н-слойной сети с одним нейроном в слое. "
= max max Пф ким образом, в одномерном случае (Я=1) структуры, опти- мальные по верхней и нижней оценкам, совпадают. 4. Для многомерного варианта сети, оптимального по верх- ней оценке, на основании (3.5), так же, как в одномерном слу- чае, можем записать: w W<H Hl,...UN J=1 NHj ’ w X H. = H. 1=1 3 Из (3.14), а также из (3.2) и (3.3) следует, что условиям оптимальности (3.14) отвечает целый класс структур, именно все структуры, для которых H-<N (i = 1, . . . ,W): w S н = я. (3.15) j=l > Для этих структур W ipopt = 2>г1 =2н (31б) Для структур, у которых H->N, ДЛЯ любого J— 1....TV <2Н. 3.5. Оптимизация структуры по некоторым основным топологическим характеристикам При технической реализации нейронной сети возникает ес- тественное желание ограничить суммарное число входов в сети, вызванное тем, что число входов есть число техничес- ки трудно реализуемых блоков умножения. На этапе настрой- ки выбранной структуры число входов равно размерности про- странства настраиваемых коэффициентов, в котором произ- водится поиск экстремума функционала качества нейронной сети. Поэтому уменьшение числа входов нейронов многослойной нейронной сети облегчает как реализацию, так и настройку. Для нейронной сети с полными перекрестными связями сум- марное количество входов нейронов в г-м слое равно Y,= (L.+Я) H(j, i} =1---W. 77
Отсюда следует выражение для суммарного количеа входов нейронов в W-слойной сети: > w V/ i W W Vs, I1, н +n]h=tvS H.+-7J2- H (3: На основании (3.17) задача синтеза многослойной нейр ной сети с полными перекрестными связями, оптимальной верхней или нижней оценке количества областей при orpai чении на суммарное число входов у в сети, формулируем следующим образом: 'P*wra,, = max max TMIV1 ; w w w y>N X H. + И.]2 - Я2 1 3=1 i 21 j=i 2 >1 J Индекс * означает экстремальное значение. С учетом (3. обратная задача, т.е. задача синтеза структуры многослой! нейронной сети с полными перекрестными связями, минима, ной по суммарному числу входов, при ограничении на koj чество областей 'К, реализуемых нейронной сетью, имеет с; дующий вид: w w w y=min min Н +-[S H2 1; w w Н1....НИ’1 3=1 J 2 13=1 2 3=1 I f (3.1 'W'1' • J В формулах (3.18) и (3.19) 'PN|W) в зависимости от вида оце ки определяется выражением (3.5) или (3.7). Обратная постановка задачи синтеза является практичеС менее пригодной, чем прямая, так как задание ограничен на количество входных каналов в нейронной сети физичес более оправдано, чем несколько расплывчатое ограничен на число областей. Пример 1. Покажем, что структура многослойной нейрс ной сети, оптимальная по верхней оценке количества облг тей с ограничением на число элементов, будет в одномери случае оптимальна по верхней оценке с ограничением по су марному числу входов. Согласно методу множителей Лагра жа и (3.18) при N=1 оптимальные Нг и Hw являются решен ями следующей системы уравнений: 78
(3.20) Здесь А. - множитель Лагранжа. Решением (3.20) являются: Н. =1, j =1........W; (3.21) Здесь W - число слоев есть целая часть положительного Y корня уравнения W2 + W ~ — =0. Из (3.21) и следует исходное утверждение. Пример 2. Рассмотрим синтез нейронной сети с учетом (3.19), где определяется выражением (3.5). Отметим, что при перенесении нейрона из )-го слоя в j - }2 -слой уменьшение числа входов элемента для нейронной сети с полными пере- крестными связями будет равно: у2 дг= L Н (3.22) а суммарное увеличение числа входов остальных элементов сети будет равно: Ду+ = S Н,. (3.23) ii=j 31 Из (3.22), (3.23) следует, что при перенесении нейрона из ;-го в j - j2 слой число входных каналов в многослойной ней- ронной сети будет уменьшаться, если i-ii J-A+1 X н. > X Н, илиН.. >н.. А-У-1 31 31 3 32 3 Из (3.15), (3.16) следует, что условиям оптимальности (3.19 отвечают две структуры с суммарным числом нейронов в сетг fHlog24'], где квадратные скобки означают округление д< ближайшего целого в сторону увеличения: 7
Нг =Д; Hj =N, j=2, ... , W; H.=N; Hw=b, j=l, . . . , W~l. Здесь Д - остаток от деления Н на N; О при Д=0, . 1 при Д^О. отвечает одинаковое число н-ь W = —— + 3 , где 3 = Обеим этим структурам дов, определяемое (3.17). Пример 3. Рассмотрим оптимизацию структуры нейрон сети, оптимальной по длине связей. Припишем каждой связи, идущей из jj-ro в j-й слой, не торый вес U.^. Физическим смыслом такого веса наряду с $ ной в обычном понимании может быть, например, велича обратная помехозащищенности. Через UQ- обозначим дд связей входного вектора с j-м слоем. Тогда суммарная длина связей нейронов в j-м слое бу/ V1=H1(UOJ.N+ 2., Н.^.). ? Суммарная длина связей в W-слойной сети будет, очев но, равна W 1-1 Vw= X, (3. Аналогично (3.19) запишем: Т* IW1 = max max Ч* Wl , AW W H1....HW W H < V> S H. (UniN + Z< H- U..)- 7=1 } V 7,=1 П W" J W H min E H. (L7nJV + E H. 17,,.); В (3.25) и (3.26) T, как и ранее, определяется выраже: (3.5) или (3.7) в зависимости от вида оценки. Отметим, что 17^=1 (jj=O, 1, . . . , W-l; j=l, . . . , W) выражение С 80
совпадает с (3.17), а (3.25) и (3.26) соответственно с (3.18) и (3.19)- Пример 4: Естественно теперь рассмотреть наиболее об- щие ограничения на структуру нейронной сети, включающие в себя как частные случаи все остальные вышеперечислен- ные ограничения. С этой целью назначим цену одного нейрона Р , цену одного входа 0а и цену единицы длины связи 0и. Тог- да на основании (3.17) и (3.24) суммарная стоимость запишется следующим образом: W W , W 1 w х «,,+ 5( SV" 2,?, V’+ W W ro 97\ + ₽.[S НЛЛ+ дн,ии]. (3'27) 71=1 Ji-1 Аналогично (3.18) и (3.19) сформулируем задачи синтеза многослойной нейронной сети с ограничением по стоимости Sw в следующем виде: n^x ’ 'S' Sw; S* = min min Sw > w w hv..hw (3.28) (3.29) В выражениях (3.28) и (3.29) Sw определяется выражением (3.27), а выражениями (3.32) и (3.7) в зависимости от вида оценки. Отметим, что вариацией коэффициентов стоимости 0Н 0а и ₽и в выражениях (3.28) и (3.29) могут быть получены все рас- смотренные выше формулировки задач синтеза структуры нейронной сети. 3.6. Оптимизация структуры многослойных нейронных сетей с Кр решениями В данном случае многослойная нейронная сеть с полными перекрестными связями составлена из элементов, описывае- мых соотношением, приведенным в предыдущей главе. Каж- дый такой элемент реализует в своем пространстве признаков 81
совокупность параллельных разделяющих гиперплоско< Очевидно, что максимальное число областей, выделяем! исходном пространстве признаков эквивалентной разде! щей поверхностью, в данном случае не превышает Кри, Н - число нейронов в сети. Эта оценка достигается то для многослойных нейронных сетей с полными перекрес ми связями. Оценим количество областей, на которое простран признаков размерности N может быть разбито Нг груш гиперплоскостей по (Кр~1)-й гиперплоскости в каждой гру Обозначим максимальное количество областей, выделяв [Hj-1] группой через Тогда аналогично п. 3.3 j можно показать, что Ч>Кр =хркр . Оценим величину г. При проведении каждой из (Кр-1 перплоскостей количество выделяемых областей увелич ется на число областей, образуемых на гиперплоскости л1 ями ее пересечения с остальными гиперплоскостями прост ШКР ства, т.е. на Отсюда к 2 = I Kp-i] TN(pHi ll и окончательно к, к. к с начальными условиями К К V1^1- (3; Исходя из (3.30) и (3.31) можно показать, что К м приН^; (3 к н приН^Л. Рассмотрим h. -й нейрон с Кр решениями, расположен: в j-м слое многослойной нейронной сети с полными перек] 82
тНыми связями. Входные сигналы /г;-го нейрона могут быть разбиты на две группы: x=[Xj......xw] - вектор входных сигналов и у=[уи - •, Уь] ~ вектор-строка выходных и проме- деуточных сигналов (j - 1)-слойной нейронной сети. Пусть 0- - 1)-слойная нейронная сеть выделяет в исходном простран- стве признаков 'PJV₽_1] областей. Тогда по каналам у на входы h.-го нейрона может посту- пить различных вариантов вектора у. Уравнение для выходного сигнала h. -го нейрона с Кр решениями может быть записано в следующем виде: =F„(A. х+А\ у), Д.=1, ...» Н., (3.33) knj р' hj nj &п ’ 1 J1 ' ' где Ah .n A1^ — векторы весовых коэффициентов соответствен- но для х и у. Геометрически, как следует из (3.33), каждый из Н;- нейро- нов с Кр решениями реализует в пространстве входных сигна- лов нейронной сети (Кр-1) параллельных гиперплоско- стей. Допуская, что существует метод настройки коэффици- ентов нейронной сети, при котором для каждого h^.-ro нейро- на каждые (Кр-1) гиперплоскостей, порожденных вариантом вектора у, проходят через область исходного пространства при- знаков, соответствующую ему, запишем выражение для вер- хней оценки числа областей, на которое пространство X раз- бивается рассматриваемой j-слойной нейронной сетью: К к к ’ (3.34) Здесь 'Р N* определяется выражениями (3.30) и (3.31). Если считать (3.34) рекуррентным выражением и вспомнить, что первый слой нейрона с Кр решениями разбивает пространство X на N/₽ областей, то (3.34) перепишется в следующем виде: =й А- (3-35) Выражение (3.35) позволяет поставить и решить задачу син- теза структуры нейронной сети, оптимальной по верхней оцен- ке количества областей при ограничении на суммарное число Н нейронов в нейронной сети. Из (3.35) и (3.32) следует, что в W-слойной нейронной сети 83
ь, к ’°l '?n[₽w1=Kp приН^Ы; к = •*, при H,>N (j =1------W). 7 Следовательно, оптимальной по верхней оценке числа ластей будет нейронная сеть с полными перекрестными св; ми такая, что число нейронов с Кр решениями в любом ее i не превышает размерности исходного пространства признг Литература 3.1. Лупанов О.Б. О возможностях синтеза схем из произвол го числа элементов. Труды Математического института В.А. Стеклова, т. 51, 1958, с. 158-173. 32. Галушкин А.И. Синтез многослойных систем распознавани разов. - М., Энергия, 1974. 3.3. Галушкин А.И., Шмид А.В. Оптимизация структуры многое ных нейронных сетей с перекрестными связями.// Нейро пьютер, №3,4, 1992. 84
Глава 4. Континуальные нейронные сети При построении структур многослойных нейронных сетей приходится оперировать большим числом параметров, задаю- щих входной сигнал, например,, в системе распознавания об- разов, когда стремятся обеспечить максимальную вероятность правильного распознавания [1]. Предлагается учитывать в ма- тематических моделях и при технической реализации конти- нуальные свойства той или иной характеристики многослой- ной нейронной сети. 4.1. Нейроны с континуумом признаков на входе Переход к континууму признаков становится актуальным, когда размерность N некоторого вектора признаков свя- занная, например, с квантованием сигналов, становится боль- шой (несколько сот или тысяч). В этом случае вектор призна- ков {хр i заменяется функцией непрерывного аргу- мента {х(г), i el}, весовой вектор {ат, -пг=1,...,М} заменяется весовой функцией {а(тп), m еМ}. Модель нейрона с контину- умом признаков по аналогии с классическим дискретным слу- чаем [4.2] задается выражением у = sign ( J a(m)x(m)dm + a0), (4.1) м где у - выходной сигнал нейрона; х(т) - входной сигнал нейрона; а0 - пороговое значение. Переход к континууму признаков на входе первого слоя нейронной сети зачастую исключает необходимость квантова- ния входного сигнала (например, периодического электричес- кого сигнала, изображения и т.п.). В зависимости от конкрет- ного физического типа входного сигнала выбирается метод технической реализации весовой функции нейрона. Например, в случае, когда входной сигнал является электрическим сиг- налом, меняющимся во времени, весовую функцию также следует генерировать в виде электрического сигнала. Если же входным сигналом сети является оптическое изображение, то весовая функция может быть реализована на фотомаске. При Дискретном множестве нейронов с континуальным простран- ством признаков Mn)=siSn 11 xlmW a ^tydm'+ag/m2]. (4.2) 85
Рис. 4.1. Слой нейр< континуумом признан входе Структура слоя нейронов в соответствии с (4.2) предста на на рис. 4.1. 4.2. Континуум нейронов в слое Переход к континуальному пространству выходных налов слоя нейронов можно интерпретировать в некот< смысле как континуум числа нейронов в слое, что влече собой реализацию выходного сигнала слоя нейронов не в конечномерного вектора, состоящего, например, из 1 i как на рис. 4.1, а в виде сигнала у(т2, п), принимающего чение 1 и -1 на интервале (О, М2) изменения непрерыв аргумента тп2. Отсюда следует, что при рассмотрении ко нуума признаков с учетом (4.2) выходной сигнал есть бе нечномерный вектор, каждая компонента которого прию ет значение: у(т2, n)=sign[ J x(mp n) а(т2, m^dm^a 0(тп2)]. i Выражение (4.3) является основой для рассмотрения N дов физической реализации разомкнутых систем подобного: 4.3. Континуум нейронов слоя и дискретное множество признаков В частном случае дискретного множества признаков и тинуума нейронов в слое из (4.3) при переходе от непре] ной переменной ml к дискретной переменной получим: V1 y(m2, n)=sign[ xmi(n)ami(rn2)+a 0(m2)]. । Это выражение служит основой для реализации ней ной сети, частный случай которой представлен на рис. 4.2
Рис. 4.2. Дискретное множество пространства признаков. Континуум нейронов в слое Выходной сигнал слоя нейронов представляет собой элек- трический сигнал с признаками формы на n-м периоде свое- го существования. Электрические сигналы ami(m2) и а0(ш2) генерируются внутри системы каждый раз на n-м шаге, при- чем в отличие от системы распознавания сигналов по фор- ме, их период определяется априори. В этом случае на выхо- де слоя нейронов появляется электрический сигнал, прини- мающий два значения: (1,-1) в интервале (0,М2) (рис. 4.3). Здесь М2 - интервал времени, на котором генерируются сигналы ami(m2) и ао/тпг) и на котором существует выходной сигнал у(т2, п). Подобная модель слоя с континуумом нейронов адек- ватна нейрофизиологической модели нейрона при введении им- пульсно-частотной модуляции выходного сигнала слоя. 4.4. Классификация континуальных моделей слоя нейронов Рассматриваемые ниже системы предназначены для рас- познавания одноканальных электрических сигналов типа: «всплеск» - сигнал с синхронизацией начала всплеска и пери- одический сигнал с синхронизацией на каждом периоде (Рис. 4.4).
о Рис. 4.4. Виды сигн| воспринимаемых слоем ронов в случае контин; признаков, одномерно; одноканального а - нал всплеска; б - период 4.4.1. Дискретное множество нейронов В данном случае основой для реализации нейронной ! служит выражение (4.2), в котором ут2(п) принимает два чения: (1,-1); x(mv п) и аТО2(п) - электрические сигнал n-м периоде своего существования, а аОт - постоянны! эффициент. 2 4.4.2. Одномерное и двумерное т2 пространство призн Основой для реализации нейронной сети в данном сл; является выражение (4.3). Трудность для реализации ц ставляет блок перемножения непрерывной функции одно! ременной на непрерывную функцию двух переменных, i из которых совпадает с переменной первой функции. Треб ние сохранения континуальности входного пространства i делает необходимой реализацию функции x(m2, п) по 1 электрического сигнала, тогда как требование континуал сти выходного пространства слоя делает необходимым ре; зацию функции а(т2, mJ по типу изображения. В данном > чае основную трудность представляет перемножение х(п и a(m2, mJ. Можно предположить физическое существов; оптического элемента xstr, потемнение (или посветление] торого изменяется в реальном времени по одной из коорд| в зависимости от формы прилагаемого напряжения, а ф< выходного напряжения — в зависимости от распределения темнения (или посветления) по координате при интегрир нии интенсивности по другой. Этот элемент условно ма назвать «пространственным оптроном». Тогда реализация' сматриваемой системы имела бы вид, изображенный на рис где входной электрический сигнал слоя подавался бы к вв] 88
Xstr £°T“aTa Xback a(m2, mJ Рис. 4.5. Гипотетический вариант реализации оптической системы в случае одномерного, одноканального т1 и двумерного т2 калькой пластине элемента xstr на входе, а выходной сигнал снимался с горизонтальной пластины выходного элемента х^^. Из рассмотренного выше следует, что при существующем уровне развития техники рассматривать случай двумерного т2 затруднительно, так как это потребует физической реали- зации трехмерной функции а(т2, т^. 4.4.3. Континуум признаков. Одномерное ту для нескольких каналов Этот случай имеет большое практическое значение, ибо зачастую необходимо распознавать не одноканальный элект- рический сигнал с априори информативными признаками фор- мы, а многоканальный сигнал (например, при распознавании ЭКГ и РЭГ, когда одновременно или синхронно анализиру- ются, например, три отведения) (рис. 4.6). Для реализации ней- ронной сети в этом случае можно воспользоваться выражени- а б Рис. 4.6. Виды сигналов, воспринимаемых слоем нейронов в слу- ае к°нтинуума признаков, одномерного и многоканального т,: а - гнал всплеск; б - периодический сигнал 89
Рис. 4.8. Структура многоканального слоя нейронов с дискр< множеством нейронов в случае континуума признаков и одномв пространства признаков ’ ем (4.2), где x(mv п) аТП2(ш1) ~ скалярное произведение; векторов-функций. Структура нейрона такого варианта ; зана на рис. 4.7, а слой нейронов представляет собой п; лельное соединение нейронов, имеющих одинаковые в (рис. 4.8). 4.4.4. Континуум признаков. Двумерное mt При дискретном множестве нейронов в слое адекв! варианту двумерного тп1 является задача распознавания ражений. При этом с учетом выражения (4.2) структура нейронов в случае континуума признаков и двуме тп1 может быть представлена в виде рис. 4.9. Система разм ния изображений может быть реализована на волоконн< тике, либо с помощью голографических методов или си зеркал. 90
Рис. 4.9. Блок-схема физической реализации слоя нейронов с кон- тинуумом признаков, двумерным т1 и дискретным множеством эле- ментов в слое 4.4.5. Слой нейронов с континуумом выходных значений При введении нейронов с континуумом выходных значений выходное пространство остается по существу пространством табличных признаков, принимающих непрерывное множество значений в некотором диапазоне изменения, определяемом функцией активации, т.е. нелинейным преобразованием на выходе нейронов. Сказанное относится и к системам (4.2) (рис. 4.1, 4.9). Для систем, описываемых уравнением (4.4), выходной элек- трический сигнал системы в виде функции одной переменной, принимающей два значения (-1, 1) на некотором периоде сво- его изменения, при переходе к нейронам с континуумом ре- шений преобразуется в электрический сигнал, непрерывно изменяющийся по амплитуде. Многослойные нейронные сети, решающие различные за- дачи обработки векторов, сигналов и изображений могут быть построены как различные комбинации описанных континуаль- ных систем. Перспективными задачами в рассматриваемой об- ласти, на наш взгляд, являются следующие: • нахождение методов физической реализации различных типов континуальных моделей многослойных сетей; • разработка методов синтеза структуры континуальных моделей многослойных сетей (выбора числа слоев, их последовательности т.д.) по некоторым количественным критериям; • разработка других априори заданных типов структур континуальных моделей многослойных сетей (систем с 91
перекрестными и обратными связями и т.д.); • использование систем «человек-машина» для син континуальных моделей многослойных сетей; • введение новых континуальных свойств многосло$ сетей (континуум числа слоев и пр.). Переход к континуальному множеству признаков и ко нуальному множеству нейронов в слоях обусловлен необх мостью оперирования большим количеством (несколько тысяч и десятков тысяч) признаков и нейронов в слоях. Проблема континуума числа слоев, с этой точки зре; не является столь острой. Предварительное рассмотрение 3 вопроса показало наличие принципиальных затруднений тематического характера при переходе к континууму ч слоев. Это следует из выражения для выходного сигнала т слойной системы: М? Щ М, Уз = sign S a sign £ a sign S ах Год ° т2 1 1 Решение задачи перехода к континууму числа слоев рудняется в первую очередь наличием нелинейных прес зователей на выходе нейронов каждого слоя, а также т ностью выбора метода физической реализации разомкн системы, адекватного такой модели. Литература 4.1. Галушкин А.И. Синтез многослойных систем распознав образов. -М.: Энергия,1974. 4.2. Rosenblatt F. Principles of neurodynamics. Spartan 1 Wachington. 1962. Русск. пер. Розенблатт Ф. Принципы н< динамики. - М.: Мир, 1965. 4.3. Галушкин А.И. Континуальные модели многослойных ей распознавания образов. //Автоматика и вычислительная, ника. - Рига -1977- №2. 4.4. Галушкин А.И. Континуальные нейронные сети. //Нейро пьютер. —1992 —№2. ПС
РАЗДЕЛ 2. ОПТИМАЛЬНЫЕ МОДЕЛИ НЕЙРОННЫХ СЕТЕЙ Глава 5. Исследование характеристик входных сигналов нейронных сетей 5,1. Постановка задачи Нейронная сеть может быть представлена в виде эквива- лентной системы, приспосабливающейся в определенном ре- жиме к внешним условиям. Общая структурная схема такой системы изображена на рис. 5.1, где х(п) есть многомерный случайный процесс, представляющий собой последователь- ность образов на входе нейронной сети, п - дискретный ар- Рис. 5.1. Структурная схема нейронной сети образов гумент. Сигнал е(п) определяется в частности как указание учителя о принадлежности текущего образа на входе ней- ронной сети к тому или иному классу. Каждый класс охваты- вает определенное множество образов, объединенных неко- торым общим свойством. Многомерный выходной сигнал сис- темы распознавания у(п) формируется в частности в виде Данных нейронной сети о принадлежности текущего образа к той или иной области пространства решений. В связи с этим рассматриваются X, Е, Y - соответственно пространства об- разов, указаний учителя и выходных сигналов нейронной сети. Блок настройки параметров нейронной сети, кроме вектора а(п) настраиваемых коэффициентов, в общем случае выдает информацию о структуре преобразования у(х), представля- ющего собой зависимость выходного сигнала нейронной сети 0,1 входного; g(n) - вектор промежуточных сигналов нейрон- ной сети. Входным сигналом нейронной сети является сигнал [х(п), е(п)], одной из характеристик которого является число гра- 93
даций сигнала е(п) по уровню, определяемое числом i образов. При этом независимо от этого сигнал х(п), щий размерность N, в общем случае может быть как ретным, так и непрерывным по амплитуде. Если е(п) одномерный сигнал, квантованный по уровню на две : градаций, имеют дело соответственно с двумя или К к. ми образов. Если вектор е(п) имеет размерность N* и градаций каждой компоненты его по амплитуде равз то число классов К =(K0)N*. Для сигнала е(п), имеющего не дискретное, а непрер] распределение, рассматривается случай континуума кл! когда задачу настройки нейронной сети при общей поста можно трактовать как задачу оценки системой некоторо! прерывного параметра е распределения /(х, £) случайного цесса. Конкретную задачу настройки (обучения) нейронной сети но проиллюстрировать следующим примером. Рассмотрим ф рование входного сигнала нейронной сети в случае конти! признаков в задаче прогнозирования надежности некотороп ройства. На рис. 5.2 x-(t0) - кривые изменения во времени некс го параметра устройства, по которому проверяется надежное! испытании, j - номер испытываемого устройства, х0 - доп мое значение параметра, ниже которого устройство считаете годным. Точка пересечения кривой x-(t0) с уровнем х0 определяет 1 работы устройства. Каждой кривой соответствует вектор х.(п лученный квантованием кривой по времени на интервале1 где То - время испытания устройства, выпускаемого из пром Рис. 5.2. К формированию пространства признаков и указа! теля в задаче прогнозирования надежности приборов 94
j-гва; компоненты вектора х}(п) соответствуют ординатам Xj(t0) в ^«псах квантования. Таким образом формируется пространство при- знаков нейронной сети в данной задаче. Указание учителя может быть сформировано следующим обра- зом. Априори задается ресурс времени работы устройства Тд'. При этом векторы х-(п), фиксируемые точкой пересечения кривой Xy(t0) с уровнем хд, лежащим слева от То', относятся к первому классу (негодных устройств), а лежащим справа от Тд' - ко второму клас- су (годных устройств). Соответственно этому вводятся две градации (произвольные) сигнала е(п) по амплитуде, в частности равные ±1. Ось t0 априори может быть разбита на К интервалов с указанием сорта устройства, и сигнал е(п) будет иметь К градаций по ампли- туде (например, е=1,...,К); каждому вектору aj(n) будет приписано свое значение е. В предельном случае при отсутствии процесса априорного разби- ения оси t0 на отрезки системе распознавания образов для каждой кривой x}(t0), как вектора х^п), сообщается указание учителя о вре- мени работы устройства до выхода из строя (пересечения x^(t0) уров- ня х0) в виде величины, имеющей непрерывное распределение. Задачей исследования характеристик входного сигнала является вывод и анализ выражений для функций распреде- ления вероятностей входных сигналов при различной априор- ной информации о входном сигнале и различных режимах работы системы. Предметом исследования в каждом конкретном случае могут быть: совместное распределение f(x,£), условное рас- пределение У '(х/е) совокупности образов х при заданном указании 6 о принадлежности образов k-му классу, услов- ное распределение f '(х/е), собственные распределения сиг- налов /(х) и /е(Е), а также смешанные моменты этих рас- пределений. Введением понятия квалификации учителя создается еди- ный подход к решению задач обучения и самообучения. Со- вместный закон распределения входных образов и сигнала Указания принадлежности образов к классам представлен на основе единого подхода. 5.2. Совместный закон распределения вероятностей входного сигнала для двух классов образов В задаче обучения нейронной сети принадлежность пред- ставителей обучающей выборки к тому или иному классу из- вестна с вероятностью, равной единице, т.е. учитель дает точ- 95
ное указание, к какому классу относится сигнал из об; щей выборки. При самообучении сигналы в обучающей в: ке не сопровождаются указанием об их принадлежности г или иному классу и вероятность принадлежности предс телей обучающей выборки, в простейшем случае с двумо ным распределением, к классам, соответствующим ка моде, равна не единице, как в случае обучения, а 0,5. ятность указания учителя об объективной принадлеж образов к тому или иному классу обозначим через а. Представляет интерес рассмотрение промежуточны жимов, режимов плавного перехода от задачи обуче: самообучению и наоборот в расчетной блок - схеме алг ма (рис. 5.3). Переход должен осуществляться измене пределах от а=1 до а=0,5 (и наоборот) вероятности пр Рис. 5.3. Структура математической модели единого подхо, дачам обучения и самообучения систем распознавания образов лежности членов обучающей выборки тому или иному kj Рассмотрение этих режимов необходимо для: 1. Создания общего подхода к анализу и синтезу обу’ и самообучения систем распознавания образов. 2. Решения некоторых практических задач, в части обучения системы распознавания образов с учителем, и щим ограниченную, неполную квалификацию, т.е. делав определенное количество ошибок при обучении системы познавания. В случае, когда учитель совсем не делает бок, мы имеем дело с указанным выше режимом обу* Если учитель ничего не знает о входных образах и bi последовательность указаний принадлежности выборок к сам совершенно произвольно, независимо от представ! обучающей выборки, мы имеем дело со случаем а=0,5, случаем самообучения. Заметим, что при рассмотрении подобного общего по, к задаче, включающей режимы обучения и самообучен: частные случаи, приходится в любом из рассматрива 96
еясимов (обучение, самообучение и промежуточных) назы- вать выборку на входе обучающей. Выражение для совместного закона распределения /(х,е) сигнала х(п), соответствующего последовательности образов, и сигнала е(п) указания учителя о принадлежности образов к илассам имеет следующий вид: Pi(l “ а) Д(х) + р2а /2(х) при Е=1, . рга fjx) + р2(1 - а) /2(х) при Е=-1, (5.1) где Pi и Рг ~ априорные вероятности появления первого и второго класса, Д(х) и /2(х) - законы распределения сигналов xjn) и х2(п), представляющих в данном случае образы перво- го и второго класса. Распределение (5.1) является дискретно-непрерывным из- за дискретной записи функции е(п), хотя в принципе его можно записать в непрерывной форме, используя 5-функцию Кроне- кера. Особенность дискретного представления учитывается далее заменой операции интегрирования по е операцией сум- мирования. Степень квалификации учителя 6 вводится следующим об- разом [5.1, 5.2]: Ъ = 2а - 1. (5.2) Отсюда Ь = 1 при а = 1 - учитель имеет полную квалифи- кацию, Ъ = 0 при а = 0,5 - учитель не имеет квалификации. При подстановке (5.2) в (5.1) получаем: fP1(1-b)f(x) н Р2^ t Ь1 /2(х) приЕ=~1, 2 1 /(х, Е) = .’’(1*WA(x) 2 b) f при е=1 2 (5-3) На рис. 5.3. представлена структура математической моде- ли формирования входного сигнала нейронной сети для дан- ного случая. Выражения (5.3) и (5.2) относятся к случаю, когда степень квалификации учителя при отнесении им образа из выборок первого или второго класса одинакова и равна Ь. Соответствен- но одинаковой для этих классов и равной а будет вероятность пРинадлежности текущего образа классам. Из (5. 3) при b = 1 следует совместный закон распределения входного сигнала в Режиме обучения нейронной сети: 4 - 353 97
f(x, e)= P2/2(x) при E=l, pt /j(x) при e=-l. Совместный закон распределения входного сигнала в самообучения нейронной сети при Ь = 0 имеет следуюп /(х, е) = 21/Jx) + Р2./2(х) при е=1, 2 2 21Л(х) + £V2<X) ПРИ е=-1- 2 2 Здесь сигнал е(п), являющийся указанием учителя, н( никакой информации о принадлежности образов к тому или классу, так как условные вероятности f '(х/е=1) и / '(х/ равны между собой. Из (5.3) при Ъ = - 1 имеем: Pj/jCx) приЕ=1, /(х, £)= р2 /2(х) при Е=-1. В этом случае учитель специально осуществляет 1 вильную классификацию (учитель является «вредителе Составим выражение для условных законов распр ния вероятностей входного сигнала. По определению ной вероятности ЛИ 4-сю где /е(е) = J / (х, £) dx. После интегрирования выражения (5.3) получим ФУ распределения указаний учителя в следующем виде: ' —+ —(Р2“ Pi) приЕ=1, 2 2 /е(е) =1 Ъ —+— (Pi“ Р2) прие=-1. 2 2 Подставив (5.6) и (5.3) в формулу (5.5), получим: 98
f'(*/$ = P1(l - b) Д(х) + P2(l + b) у2(х) при e=lj 1 - b (P1 - p2) P1(l + b) /t(x) + p2(l - b)/2(x) (57) — Х1М/Х Cz Л • i - b (P1 - p2) Условный закон распределения / "(e/x) определяется ана- логично /"(х/е)= £ > ; Дх) f(x)=[ /(х, Е) de = 2 pfc./k.(x)( — оо К —1 где интегрирование по дискретному аргументу е заменяется операцией суммирования. После подстановки и интегрирова- ния имеем: /*(Е/Х) = (1 - Ъ) , ( х , „ (1 + b) f , х Pi ~ Aw + Р2 2~ г Р1Д(х) + Р2/2(х) Р,(ЦЬ) ЛЫ + Р/у> Р1Д(х) + р2/2(х) При Ь=0 из (5.7) и (5.8) следует / ’(х/Е)= /Х(х), f "(е/х)= /е(Е), что указывает на статистическую независимость сигналов х(п) и Е(п) на входе нейронной сети в режиме самообучения. Обозначим через а?. смешанный момент j-ro порядка много- мерного случайного процесса х(п) “i = J • • • j x(*i> ...xN)dxv...,dxN, ... Тогда выражение для моментов распределения (5.3) имеет вид: — ft е’х J = Pi + р2 l+baj2 + (-1/Р1 , гДе а?1 и aj2 - смешанные моменты j-ro порядка совокупнос- тей образов первого и второго класса. При четном и нечетном 1 соответственно 4* 99
> = р2 а .2 + pj а;1; е‘х* = Ь( р2 а>2 - рг а}1). Отсюда следует, что квалификация учителя влияет на мо менты распределения f(x, е) при нечетном i. Неравная квалификация учителя относительно образо* первого и второго класса. В практических задачах може’ встретиться случай, когда квалификация учителя системы рас- познавания образов или вероятность принадлежности текущеп образа на входе нейронной сети будет различной для первого i второго класса. Введем в рассмотрение стохастическую матрицу L a2i а12 __ а1 1 а2 а22 - -1 ~ а1 а2 где - вероятность отнесения учителем образов j-ro класс к i-му классу. В данном случае /(х,е)= Pi (1 - at) f j(x) + р2 а2 /2(х) при 8=1, Pjflj //х) + р2 (1 - а2)/2(х) при Е=-1, или P1!L2P/1(X)+ /2(Х) прие=1, 2 2 ^(Х,£) /j(x)+ p2(1 ~ Ьг) / (х) приЕ=-1 2 2 Рассмотрение различных вариантов для соотношений межд величинами Ьг и Ъ2 может привести к появлению интересных ) значительных для практики режимов работы нейронной сети. На пример, при ^=1 и Ь2=0 квалификация учителя относительн» первого класса равна единице, а по отношению к представите- лям второго класса учитель не имеет информации. При этом /(х, Е) = — Р2Л(Х) ПриЕ=1, 2 PlA(x) + — Р2/2(х) при Е=~1. Данный случай в каком-то смысле является промежуточ- ным между режимами обучения и самообучения. Моменты распределения, определяемые из (5.9), имеют вид 1 г>п
—7—;n e* xJ — p2 aj2+ pY а;1 при i четном; E1 x = b2 p2 aj2 - bj Pj a;1 при i нечетном. Совместный закон распределения при наличии «собствен- ного мнения учителя о своих способностях». Объективно учи- тель делает некоторое количество ошибок при обучении систе- мы распознавания образов. Выше рассмотрены случаи, когда учитель сам до конца самонадеян, т.е. думает, что обладает полной квалификацией. Введем понятие «собственного мнения учителя о своей квалификации», характеризуемого коэффи- циентом с. Тогда при с>Ь имеем «самомнение учителя», равное с - Ь, а при с<Ь «скромность учителя», равную Ъ - с. Встает вопрос исследования влияния на работу нейронной сети ука- занных характеристик и определения оптимального с некото- рой точки зрения соотношения истинной квалификации учите- ля и «собственного мнения учителя о своих способностях». Аналогичные задачи можно ставить и в плане «вредитель- ства» при —1< Ъ< 0. Обозначим через е' сигнал указания учителя, который до конца самонадеян. Выше было принято, что е=е'. Неуверен- ность учителя в своих способностях, определяемая через сте- пень его квалификации, состоит в том, что появление образа первого или второго класса констатируется учителем, т.е. е=-1 или Е=1, с вероятностью (1+с)/2. Соответственно принадлеж- ность этих же образов ко второму или первому классу опре- деляется с вероятностью (1 - с)/2. Совместное распределение случайных величин Е и Е' можно записать в виде р2 - 2 - ПРИ £=1 f (е,е') = 1 — с Р2 2" ПрИЕ=-1 Р1 -Цр при Е=-1 1 Pj —2“ при Е=1 приЕ'=~1. Отсюда следует: при е'=1, (5.10) Pi + Р2 ПРИ е=1> Р1—2-+Р2 2^ при е— 1. 101
Из совместного распределения (5.3), при замене в нем е н е‘, и (5.10) получим распределение Pi А<х> + Рг Ц,-- А(х) приЕ=1, Л 2» /(х, е)=] (5.11 Pi Чг2 Л(х) + Рг L~- "PH е=-1. 4 Л В [5.2] приведен вывод выражения [5.11] и анализ как част ных, так и общих случаев. Там же показано, что в случа неравного для образов первого и второго класса «собственно го мнения учителя о своих способностях» р,/,«2+(Сг~С|);Ь||С1+Сг) + + 2+(с< ~ ci> ьг<с1 + сг> прие=1, + р2/2(х) 2+(С2 ~ Сд) - b2(ct + с2) ПрИ g=-l. 4 Отсюда можно получить выражения для условных и соб ственных распределений входного сигнала нейронной сети 1 для моментов распределений. 5.3. Совместный закон распределения вероятностей входного сигнала для К классов образов При числе классов, больше двух, априори вводится в рас смотрение матрица вероятностей afefe, отнесения учителем обра зов, объективно принадлежащих k'-му классу и k-му классу: Очевидно, что °и • а1к' • alK А = a • ’ afcK ‘ ’ akK - акг • aKK • aKK-‘ к S Оц,.-1, k, к'= 1, ... , К . к=1
(5.12) Совместный закон распределения вероятностей сигналов х(п) и е(п) имеет вид: к = Д при е=к, где к=1, В режиме обучения матрица А является единичной 0 1 О О О 1 Л= 1 J О О В режиме самообучения вероятность отнесения образов, принадлежащих объективно к'-му классу, к любому k-му клас- су одинакова для всех классов и равна 1 /К: •^2 ±-...± К К L к kJ В режиме «вредительства» образы, объективно принадле- жащие k'-му классу, относятся с какой-то вероятностью к любому из классов, кроме самого k'-го класса: лз 0 а12 . .. а1К а21 0 • • ’ а2К - аК1 аК2 ' • • 0 - Введем понятие квалификации Ък учителя системы распоз- навания образов для К классов. Зависимость между вероятно- стями акк, и величиной Ък является нелинейной, так как Ък 1, если акк~ 1, О, если акк = , -1, если afefc = 0. (5.13) При аппроксимации этой зависимости функцией второго порядка акк = xb2k + уък + г 103
после подстановки в нее значений (5.13) и решения систе! уравнений относительно неизвестных х, yf z получим: = 4 + ^. (5.14 Аналогично получается зависимость b(a), имеющая вид: 2 ь =К(К- 2) 2 + 2^_К _ °fc ------- а кк i_j£ акк Ь ^01Э В конкретных расчетах можно пользоваться любой из фор мул (5.14) или (5.15). Из (5.12) можно вывести выражение дл момента распределения, окончательное выражение которог имеет вид: ___________________ к к £'ХЗ = £ ^акк' а>к'^ Совместное распределение вероятностей входного сигнал, для К классов образов при произвольных квалификации учи теля и «собственном мнении учителя о своих способностях: относительно каждого класса имеет вид: к к /(х, е) = S clk ^akk.pk.fk.(*\ при г=1, 1=1,... К, где матрица вероятностей C=[c;fe] характеризует «собственное: мнение учителя о своих способностях» при отнесении образов 1-го класса к k-му классу. Обозначив к clk акк' ~ &1к‘, получим К /(х, е) = S рк. ДДх)^. прие=1, 1=1,... К. к'=1 Случай континуума классов образов. Собственное распре- деление указаний учителя нейронной сети в режиме обуче- ния распознаванию К классов образов имеет вид: Уе(е) = рк при e=k, к= 1,... К.
Это функция дискретного аргумента е. Случай непрерыв- ной функции распределения имеет широкое практическое применение тогда, когда учитель нейронной сети не может четко определить принадлежность образов к тому или иному классу, а выдает лишь некоторую количественную оценку этой принадлежности. При этом, конечно, возможно (но нежела- тельно ввиду потери информации при квантовании) разбить шкалу Г на К участков и свести задачу с континуумом классов к задаче с К классами образов. Для континуума классов обра- зов и единичной матрицы А при непрерывной функции /е(е) в режиме обучения аналогично (5.12) имеем: /(х,Е) =/e(E)f'(х/Е), а в режиме самообучения f(x,E) =/Е(е)/1(х). При произвольной квалификации учителя нейронной сети вводится в рассмотрение функция а(Е',Е) вероятности отнесе- ния учителем образов, объективно соответствующих распре- делению /(х,е'), к распределению /(х,е). В данном случае ©о f а (е', е) dE' =1. — ©о Совместное распределение вероятностей f(x,E) сигналов х(п) и е(п) на входе нейронной сети будет иметь следующий вид: О© / (х, е) = J а (е’, е) f (х, E')dE'. — оо Для режима обучения д(е',е)=8(е' - е) и /(х,е)=/(х,е). О нестационарных входных сигналах нейронных сетей При нестационарных входных сигналах рассматриваются со вокупности образов, распределенных внутри каждого класс; в соответствии с законом Д(х,п), переменным по времени. Из менение распределения /(х,е) в зависимости от времени п мо жет возникать из-за изменения во времени условных плотно стей /'(х/е) или распределения /е(Е) указаний учителя ней ронной сети. Общее выражение для совместного закона рас пределения входного сигнала нейронной сети имеет в данно случае следующий вид: к f(x,e,n) = ^dlk. рк. fk.(x,n) при £=1, 1=1,... К. 1
распределения в текущий moi к dk.k(n)ajk(n)k\ k*1 J Принципиально можно рассматривать еще более об] случай переменных во времени значений квалификации j теля и «собственного мнения о своих способностях». Выра ние для моментов данного времени имеет вид: -r-п £ E’xJ = X k'=l В данной главе представлен анализ функций распред^ ния входного сигнала нейронной сети в случае произволу квалификации учителя. В связи с этим как частные ели рассмотрены режимы обучения, самообучения и «вредите ства», а также промежуточные режимы работы нейрон сети. В общем случае учитель нейронной сети может укай вать на принадлежность текущего образа на входе нейрон сети к тому или иному классу в виде многомерного (размед сти АГ) вектора е(п); формальная запись выражений для фа ций распределения входного сигнала в большинстве рассм ренных случаев при этом сохраняется. Выражения для за нов распределения входного сигнала записываются в оба виде относительно априорных вероятностей появления кД сов и условных распределений f '(х/е). ! Литература 1 5.1. Галушкин А. И. Единый подход к решению задач обучени самообучения систем распознавания образов.// Труды МИЗ вып.6, 1970, с. 104 -120. J 5.2. Галушкин А.И. О характеристиках входных сигналов системы 1 познавания образов. // Труды МИЭМ, выл. 14, 1971, с. 125—= 1АА
Глава 6. Построение оптимальных моделей нейронных сетей Общая структура оптимальной модели Под оптимальной (эталонной) моделью нейронных сетей, как и в любой другой оптимальной системе (рис. 6.1), понима- ется оптимальное преобразование, осуществляемое системой над входным сигналом [х(п), £(п)] для получения выходного сигнала у(п), с точки зрения выбранного критерия первичной оптимизации. На рис. 6.1 верхний блок - управля- емая система, нижний - оптимальная модель, по которой настраивается уп- равляемая система. Общий подход к построению опти- мальных моделей систем Рис. 6.1. К определению оптималь- ной модели распознавания образов в режиме обучения состоит в том, что система стро- ится при произвольных характеристиках входного сигнала, составляющих два, К и континуум классов образов, для про- извольного числа решений, осуществляемых нейронной се- тью. Пространство решений имеет также две, Кр и контину- ум градаций. Характеристики указаний учителя (классов) и решений выбираются априори независимо. Построение оптимальной модели производится по выбран- ному критерию первичной оптимизации, а описание ее осу- ществляется, в частности, в виде выражения для разделяю- щей поверхности. Разделяющая поверхность делит многомер- ное пространство признаков на непересекающиеся области с указанием принадлежности соответствующей области к тому или иному классу. В табл. 6.1 представлена классификация нейронных сетей по характеристикам входного сигнала и пространства реше- ний для частного вида одномерных сигналов у(п) и е(п). Оста- новимся коротко на отдельных типах систем. Система типа 1, рассчитанная на два класса образов с дво- ичным выходом, наиболее широко представлена в литературе. Система типа 2 рассчитана на К классов образов с числом Решений Кр, равным К. Исследование оптимальных моделей 107
Таблица 6.1 Пространство (число) решений Входной сигнал Два класса К классов Континуу^ классов Два 1 7 8 ! К„=3 За К<КР 9 10 к-кр 2 Kp=const 35 К>КР 4 Континуум 5 6 11 d подобных нейронных сетей проведено в [6.1—6.3] для раз ных критериев первичной оптимизации нейронных сетей и личной априорной информации о характеристиках вхо^ сигнала. Необходимо отметить, что представление о том, задача обучения при распознавании К классов образов мо быть сведена к последовательному применению на каждом 1 алгоритма обучения для двух классов, является неверным, самостоятельная задача, для оптимального решения кот( уже на первом шаге строится эквивалентная разделяю поверхность, делящая пространство признаков на К нет секающихся областей. Пространство решений нейронной сети характеризуё числом уровней квантования по амплитуде выходного си ла у(п) по каждому из каналов. Нейронные сети с kohtj умом решений, например типа 5 или 6, имеют непрерыв выходной сигнал. Нейронные сети типов 8, 10, 11 характ< зуются непрерывным распределением /Е(е) указаний учит когда текущему образу на входе приписывается не ин, класса из дискретного множества индексов, а некоторая личественная (континуальная) оценка принадлежности. 6.2. Аналитическое представление разделяющих поверхностей в типовых нейронных сетях Методика построения оптимальных моделей нейрон сетей, предназначенных для распознавания К классов о зов достаточно подробно описана в работах [6.1-6.3]. В п] ципе оптимальные модели некоторых нейронных сетей, п назначенных для распознавания К классов образов можнс лучить из выражений для оптимальных моделей нейрон сетей более общего типа, рассматриваемых ниже. В случ;
классов образов, так же, как и в любом другом случае, полу- чение выражений для оптимальных разделяющих поверхнос- тей производится следующим путем: записывается выраже- ние для минимизируемого функционала первичной оптимиза- ции и решается задача минимизации функционала первичной оптимизации с учетом существующих ограничений. Оптимальная модель нейронной сети, предназначенной для распознавания К классов образов, определяется системой не- равенств, определяющих деление исходного пространства при- знаков на К областей с отнесением каждой области к тому или иному классу. Рассмотрим построение оптимальных моделей нейронных сетей, приведенных в табл. 6.1. Нейронная сеть типа 3. Система распознавания образов, оптимальная по критерию максимума апостериорной вероят- ности (в случае двух решений), преобразует входной сигнал х(п) в выходной у(п) в соответствии со следующим соотноше- нием: 1 при/(Е=1/х)>/(£ = -1/х), у(п)= -1 при f (е = _1/х) > f (Е =1/х). Разделяющая поверхность проводится по тем точкам х, для которых апостериорные вероятности принадлежности к перво- му и второму классу равны. Та область многомерного простран- ства признаков, где апостериорная вероятность принадлежно- сти х к первому классу больше, чем апостериорная вероят- ность принадлежности ко второму классу, принимается за об- ласть первого класса. Однако во многих практических задачам принадлежность точек многомерного пространства признаков i тому или иному классу должна указываться с определенно! уверенностью. В случае одной разделяющей поверхности, ха рактерной для системы 1, эта уверенность уменьшается по мер приближения к разделяющей поверхности и равна нулю на не) Система распознавания двух классов образов типа За имее Две разделяющие поверхности. Эти поверхности делят npocrpai ство признаков на три части ( I, II, III, рис. 6.2 ) с зоной нечу) ствительности, в которых нейронная сеть указывает прина; лежность текущего образа на входе: I область - к первому кла СУ> Л область - ко второму классу, III область - ни к первом НИ ко второму (либо и к первому и ко второму) классу.
Рис. 6.2. К делению прост] признаков двумя разделяющ: верхностями Уверенность ответа нейронной сети, как системы ра навания образов о принадлежности текущего образа х на де, например, к первому классу должна определяться р цей апостериорных вероятностей принадлежности к nej и ко второму классу. В этом плане многомерное простра: признаков должно делиться на три части: - область I соответствует решению нейронной сети о надлежности ее к первому классу Г(е =-1/х) - dj > /"(£ = 1/х); - область II соответствует решению нейронной сети о надлежности ее ко второму классу Г(е =-l/x) + d2<r(e= 1/х); - область III, в которой нейронная сеть либо вообп может ответить на вопрос о принадлежности текущего о( к первому или второму классу, либо отвечает на этот воп некоторой вероятностью Ле =-1/х) - dx < Ле = 1/х); Ле =-1/х) + d2 > Ле = 1/х). Здесь величины dx и d2 (0<dj<l, 0<d2<l) определяют пень уверенности нейронной сети в отнесении образов на де к первому или второму классу. В частном случае воз! но, что d1=d2=d или dr= d2=d=O. В последнем случае вар с двумя разделяющими поверхностями вырождается в ант с одной разделяющей поверхностью. В случае двух ра ляющих поверхностей система распознавания образов с о:
мяльными параметрами разделяющих поверхностей преобра- зует входной сигнал х(п) в выходной y(ri) (указание системы о принадлежности текущего образа к тому или иному классу) следующим образом: х(п) в области I - у(п)=-1 (1-й класс); х(п) в области II - у(п)=1 (2-й класс); х(п) в области III - ,/(п)=0 (1-й и 2-й ^cc). Общее выражение для разделяющих поверхностей, опти- мальных по величине апостериорной вероятности, имеет вид Р1Л(х)________Рг/2(х) Pj Л(х) +р2 /2(х) Pj f/х) +р2 /2(х)’ Pifi(x) + рЛ<х) Pi А(х) +р2 /2(х) рх /1(х) +р2 /2(х) Преобразовывая, получаем /2(х> Pi "I //x) (1+^)Р2 (u.l) ^(x)= Д(х) (l-d2) p2 Это окончательное выражение для разделяющих по- верхностей, когда в качестве критерия первичной оптими- зации используется величина апостериорной вероятности. В [6.1, 6.2] представлена более подробная интерпретация ве- личин d, и d2 через условные плотности f '(х/е.) и /"(е/х). Система распознавания, оптимальная по критерию мини- мума средней функции риска, делит многомерное простран- ство признаков на три части: область, относимую нейронной сетью к первому классу; область, относимую нейронной сетью ко второму классу; область, в которой нейронная сеть отка- зывается от принятия решения о принадлежности образов к тому или иному классу: 5'(х) < 0 ; S"(x) > 0 ; S'/'(x)<0<6"(x). (6.2) Ш
Условная функция риска есть сумма потерь при отнес образа г-го класса к ;-й области. Потери вычисляются ка ответствующие вероятности, умноженные на величин^ эффициентов I*. (г=1, 2; j=l, 0, 2) матрицы потерь L < *11 *10 *12 - *21 *20 *22 - Коэффициенты Z10, Z20 - коэффициенты потерь при о! системы от распознавания. Очевидно, что ^11<^10<^12 ’ *21>*20>*22 ’ Выражения для условной функции риска имеют еле; щий вид: N N N Tj = J...J 1п Д(х) dx + J...JZ10 Д(х) dx +J..J l12 fY(x) dx; У(х) < 0 5"(x)<0<5'(x) S"(x) > 0 N N N 2 = J-Jг21 dx + I-/*20 /г*х) dx +I- j *22 A*x) dx- S'W < 0 5'(x)<0<S'fx) S"(x) > 0 Усредняя условные функции риска, получаем выра: для средней функции риска N R = J..J[ZU p1/i(x)+Z21 р2/2(х)] dx + J...J [Z10 S"(x) < 0 S"(x)<0<S'(x) N +*20 P2/2WI dx +J-J t*12 Plfl(X)+*22 P2AWI dx fw > 0 Учитывая, что N NN и -ГГ П. S"(x)<0<S'(x) S"(x) < 0 5'(x) < 0
N NN П i i 5"(x)>0 - oo S"(x) < 0 a также то, что N f • • • J [*12 Pi/i(x)”^22 P&f2*x*l dx — *i2Pi"*"*22P2’ — oo выражение для средней функции риска можно записать в следующем виде: N R = (^12 Р1"^*22 ₽2* "rf • • • ^ [^11 Р1/1(Х)"*”*21 P^W *10 Р1/1(х) ~ S'(x) < О N - *20 Р/г*3^ +!• • I [*10 P1AW + *20 Р^2<Х) ~*12 P/1W ~ *22 Р/2(х)]dx- ^"(х) < О Отсюда следует окончательное выражение для средней функции риска: N ** **12 Р1"*’*22 Рг^ "hl • • • j [dll *lfl) Р1/1*Х)"Н*21 *2(0 Р^2*Х) ] dx + S'(x) < О N (6.5) +/•••/ [(*10 “ *12)Р1/1(Х) + (*20~ *22) Р/2*Х)] dx- ^'(х) < О Необходимо найти выражения для 5'(х) и S"(x), обеспечи- вающие минимум R. Достаточно просто показать, что мини- мум R обеспечивается в том случае, когда подынтегральные ьыражения отрицательны внутри соответствующей области интегрирования и положительны вне ее, т.е. минимум R обес- печивается при условии *х) (*11 *ю) Р1/1(х)’*"**21 *20^ РгА*Х) > •S' (x)=(Z1Q — Z12)p1/1(x) + (*2о“ *22) Рг/2*х)- (6.6) 113
Выражения (6.2) и (6.6) определяют оптимальную м< нейронной сети для распознавания двух классов образов с л разделяющими поверхностями. Рассмотрим несколько по; нее частный случай, который более физически отражает ность нейронной сети для распознавания двух классов об] с двумя разделяющими поверхностями. Примем 1ц— ^22— 0’ ^12~' ^21— 1’ Z1(T ^20— ^0’ Р1=^2 при ЭТОМ 5'(х)=(1-10)/2(х) - 10Д(Х)( 5"(x)=Z0/2(x)-(l-Z0) Д(х). На рис. 6.3. представлена иллюстрация (в одномерном чае) зависимостей изменения порогов \ п h2 от Zo. Анализ выражений для разделяющих поверхностей п ляет сделать следующие выводы: а) при 1о=О зона, в которой нейронная сеть отказывает распознавания, занимает все пространство признаков. Эт тественно, так как в данном случае потери при отказе от познавания равны нулю; б) при Z0=l/2 нейронная сеть с двумя разделяющим: верхностями вырождается в нейронную сеть с одной раз; ющей поверхностью. Это случай, когда потери при отк$ распознавания в два раза меньше потерь при неправил распознавании, а потери от правильного распознавания ны нулю; Рис 6.3. Исследй структуры нейро сети в зависимости < эффициента потер! отказе системы от ра навания
в) при конечном значении 10 в пределах 0,5 >10>0 существу- ет зона нечувствительности, где нейронная сеть не относит текущий образ на входе ни к первому, ни ко второму классу. г) при значении 10 в пределах 1> 10>0,5 нейронная сеть ре- злизует две разделяющие поверхности, причем в зоне меж- ду ними нейронная сеть относит текущие образы на входе и к первому и ко второму классу. На рис. 6.3 кривые изменения порогов симметричны как относительно линии /1(х)= /2(х), так и относительно уровня lQ= 0,5. На рис. 6.3 hx - порог, которым определяется (в одномерном случае) поверхность S"(x), h2 - порог, которым определяется поверхность д) при 10=1 все многомерное пространство признаков счи- тается принадлежащим и к первому и второму классу. Если сравнить оптимальные модели нейронной сети, пост- роенные по критерию апостериорной вероятности (6.1) и кри- терию минимума средней функции риска (6.5), то видно, что при условии ^11+ ^21) ~ (J10+ ^2(Р ^12+ ~ (Z10+ ^2(Р di= _ -d_ - оптимальные решения по указанным критериям совпадают. Кроме того, данные равенства являются дополнительной ин- терпретацией коэффициентов dx и d2. Использование того или другого критерия возможно при наличии априорной инфор- мации о коэффициентах или I.. . Анализ выражения для средней функции риска показыва- ет возможность рассмотрения критериев первичной оптими- зации при следующих ограничениях: 1) равенство отдельных составляющих средней функции риска Pi г1= Р2 rv (6-7) 2) постоянная величина составляющей средней функции Риска для одного из классов р2 r2= а = const. (6.8) Для решения задачи минимизации с учетом первого огра- иичения запишем функционал Лагранжа в виде /= R + X (рх тх - р2 т2). 115
Подставив в уравнение (6.7) значения функций из (6.3) и (6.4), получим: Pi*12 +/•••/ (1ц~ lio) Pi/iMdx+J... f (l10 - S'(x) < о 5"(x) < 0 -i N N ~ Рг^22+^ • ^21 ^2<P РгА(х) dx+/... /(Z2()— ^22) РгА^ S'(x) < 0 5"(x) < 0 Уравнения для оптимальных разделяющих поверхнв имеющие вид: S'(x)=(lu- Z10) Р1Д(х)(1+Л) + (l21- Z20) р2/2(х)(1-Л) ; ' 5"(x)=(l10- Z12) Р1Д(х)(1+Х) + (Z20- Z22) р2/2(х)(1-Х) , . есть результат минимизации функционала I. Значение Л, печивающее минимум I, получается из условия равенства производной dl/dX, т.е. при подстановке (6.10) в урав] (6.9) для соответствующего ограничения. Для критерия минимума составляющей средней фу! риска для одного из классов при заданном значении соеП ющей средней функции риска для другого класса, т.е. С том ограничения (6.8), выражения для оптимальных раз) ющих поверхностей имеют следующий вид: S'(x)=(Zu~ Z10) Р1/1(х)+Л(121- Z20) p2/2(x)=0 ; 1 ; S"(X)=(11O - l12) P1 f^+^20~ P2 /2(Х)=0- Выражение для Л получается подстановкой (6.11) в ур ние для соответствующего ограничения, и имеет вид N N Рггг ~ Рг^гг^ ••••!" ^21— ^20^ Р2/2^ dx+j... j (Z20~ Z22) p?f2(x) dx S'(x) < 0 5'(X) < 0 Нейронная сеть типа 36. Рассмотрим систему распо; ния типа 36 (см. табл. 6.1) двух классов образов, ими (Кр-1) разделяющую поверхность. Для заданной си< 116
ft =const означает, что число (целое) решений равно четы- рем или больше. Определим оптимальную модель нейронной сети по крите- рию сравнения апостериорных вероятностей. По аналогии со случаем двух классов образов и двух разделяющих поверхно- стей определим деление многомерного пространства призна- ков на области следующим образом. Область кр(кр=1,..., Кр) определяется следующей системой неравенств: /(е=-1/х) - dkp.lkp < /(е=-1/х) - dkpkp+v при d0,i=1’ dKp,Kp+i=-1 и следующем условии: dfep,fcp+i >0 ПРИ f (£="1/х) > f (Е=1/х) ; dkp,kp+i <0 п₽и f (е=’1/х) </ (е=1/х) . Иллюстрация такого деления пространства признаков в одномерном случае приведена на рис. 6.4. Выходной сигнал нейронной сети должен иметь Кр градаций по уровню, т.е. нейронная сеть принимает при наличии двух классов образов S, решений. Из рис. 6.4 следует, что отнесение той или иной ласти многомерного пространства признаков к первому или второму классу производится с определенным запасом по апо- стериорной вероятности, например в области Кр с запасом, равным J, |d fcp>Jkp+J}. Рис. 6.4. К рассмотрению критерия первичной оптимизации ней- ронной сети по величине апостериорной вероятности в случае двух классов образов и (Кр-1)-й разделяющей поверхности 117
Учитывая известные выражения для апостериори роятностей /(е=-1/х) и /(е=1/х), можно получить выра для области кр-го решения нейронной сети в исходном мерном пространстве признаков в следующем виде: 1 fcp-i,fcp ^fcp,fcp+i 1+%-1Лр P1AW 1 + сгкрЛр+1 Определим оптимальную модель нейронной сети по рию минимума средней функции риска. В данном случа< ронная сеть после обучения делит многомерное прострг признаков на Кр частей, в каждом из которых сущее априори потери при отнесении образов к тому или иному к Матрица коэффициентов потерь имеет следующий вид: £ц, \2, i1Kp - ^21’ ^22’ • • •’ ^2Кр - где lik (г-1, 2; кр=1, ... , Кр) - коэффициенты потер^ отнесении образов г-го класса к кр-й области. Очевидно : ходимо, чтобы hl< ^1Кр> Чг* ^22> • • >^2Кр- Выражения для условных функций риска в данном cj имеют следующий вид: Кр Г1 = S J • • • J hkr, AW dX > fcp -1 SfcP(x)>0 Кр -- r2 = S J... f Z2fcp /2(x) dx . fcP -15fcP(x)>0 Здесь yfep(x)>0 - область многомерного пространства i знаков, соответствующая кр-му решению. Отсюда следу< ражение для средней функции риска: Кр Ат R = Е Г?. J [Zlfe Р1 /1(Х)+ l2k p2y2(x)]dx . кр 1 SfcP(x)>0
Найдем выражение для 5fcp(x), минимизирующее среднюю функцию риска. Введем дополнительное обозначение следую- щим образом: %(х) = lAfcp Рг /i(x)+ Z2fcp p2/2(x)J, тогда .. кр R = S L •. f gfcp(x) dx . fcP =1 5fcp(x)>o С использованием приведенного выше материала доста- точно легко показать, что минимальное значение R достига- ется при ^fcP)(x)=9fc„p(x) - gfc₽(x)>0, k"p=l, Кр или p)(x)=Ilfc„p p1/1(x)+l2fc.,pp2y2(x) - IjkpPx/iW ~ -Чр^(х)<0Л"р=1’ ->КР- Выражения для оптимальных моделей нейронных сетей в случае других рассмотренных выше критериев первичной оп- тимизации могут быть получены достаточно просто на осно- вании изложенного выше метода. Нейронные сети типа 4 и 9. Это - нейронная сеть для распознавания К классов образов, имеющая (Кр-1) разделяю- щую поверхность. При использовании критерия минимума средней функции риска система неравенств, ограничивающая в многомерном пространстве признаков область fcp-ro решения, имеет следу- ющий вид: к ^(х)= Si(iktp - Pk Д(х)<0, W=l.............. кр. Нейронная сеть типа 5. При наличии на входе двух клас- сов образов нейронная сеть имеет на выходе непрерывный (по Уровню) сигнал. Естественно, что данный сигнал, как и вход- ной сигнал нейронной сети, является дискретным по времени. 11 а
В случае использования критерия первичной оптим! нейронной сети по величине апостериорной вероятное обходимо иметь априори функцию d(y) превышения апо< орной вероятности принадлежности этих образов на вх первому классу над апостериорной вероятностью прин; ности этих образов ко второму классу при конкретном нии выходного сигнала у, т.е. для каждого значения у ронной сети априори должна быть определена «уверен нейронной сети в отнесении образов к тому или иному i по апостериорной вероятности. В этом случае уравнен] оптимальной модели нейронной сети для двух классов о< и континуума решений имеет следующий вид: f "(е=-1/х) - d (у)= f "(е=1/х) . Отсюда Pi/iW р2/2(х) Р1 А(х)+ р2 /2(х) Pj /1(х)+ р2 /2(х) ’ Pi /1(х) [ 1 - d (у)] - [1 + d(y)] р2 /2(х)=0. Это окончательное выражение для оптимальной л нейронной сети в рассматриваемом случае. Это уравнен ределяет связь между входным и выходным сигналом в ной сети, которую в принципе необходимо реализовав ходя из выбранного критерия первичной оптимизации и туры нейронной сети. Рассмотрим критерий минимума средней функции Иллюстрация видоизменения функции ошибок при пе от двух к Кр и континууму решений нейронной сети, как мы распознавания двух классов образов представлена 1 6.5. Следовательно, в данном случае вводится в рассмогч вместо матрицы (6.12) коэффициентов ошибок для случая; классов образов и Кр решений вектор-функция ошибок ; Г Му) . Му) J L возникающих при приписывании различным образам пе] и второго класса решения у.
Му)- Му) Рис. 6.5. Иллюстрация видоизменения функции ошибок при переходе от двух к К и континууму решений нейронной сети при распознавании двух классов образов: а - два решения; б - три реше- ®м; в - Кр - решений; г - континуум решений В случае Кр решений нейронной сети, как системы распоз- навания двух классов образов выражение для условной функ- ции риска для образов первого класса имеет следующий вид: ri= S Zlk₽ J .. J Д(х) dx . kp -1 £кр(х)>0 Кр Здесь \J SkP(K)=X, где X - полное многомерное простран- но признаков. Введем дополнительные обозначения:
G(x, kp) = 1 при x e Skp(x)>0, О при x gSfcp(x)>0. Тогда выражение для условной функции риска Tj следующий вид: N Kp . Z llfc J ... J G(x, kp) (x) dx . ftp =1 x Г, как и в предыдущих, рассмотрены! В этом случае, нее, функция G(x, kp) является предметом синтеза. Ош деляет оптимальную модель нейронной сети, т.е. оптимг связь (с точки зрения принятого критерия первичной 01 зации) выходного и входного сигналов нейронной сети. При переходе к континууму решений выражения для ций риска принимают следующий вид: N ri = I г1(у) I • • • I G(x, у) Д(х) dxdy ; y х N R= p/j + p2r2=f f... f G(x, у) [ рг Цу) /1(x)+p2 Z2(y) f2(x)] dx Y X Обозначая д(х, у) = [рт lj(y) f^)+p2 l2(y) /2(х)], получаем окончательное выражение для средней функции N R= J J... J G(x, y) g(x, y) dxdy. y X Здесь функция g(x, у) задана в общем виде. Функщ у), являющаяся предметом синтеза, должна быть выр через функцию д(х, у) таким образом, чтобы достигал нимум R. На рис. 6.6. представлена иллюстрация данной ции для случая одномерного пространства признаков и ного числа Кр решений нейронной сети. При переходе тинууму решений нейронной сети данная функция вы{ ется в функцию G(x, у), общий вид которой представ, рис. 6.7. Эта полоса с высотой, равной единице. Предмете теза является форма данной полосы.
Рис.6.7. Вид функции G(x, у) для континуума решений и двух классов образов Рис.6.6. Вид функции G(x, у) для дискретного множества реше- ний и двух классов образов На рис.6.8, представлена геометрическая иллюстрация функ- ции G(x, у) в простейшем случае. Таким образом, задача минимизации средней функции риска сводится к задаче минимизации площади полосы G(x, у) д(х, у), полученной мо- дуляцией (профилированием) полосы G(x, у), показанной на рис. 6.7, функцией д(х, у). Рис.6.8. Вид функции G(x, у) для континуума решений и двух классов образов В выражении для средней функции риска (6.14) [ 1 при у = р(х), G(x, к ) = "j р I 0 при у * р(х), гДе функция р(х) есть предмет синтеза - преобразование, осу- ществляемое нейронной сетью над входным сигналом. Отсюда Сражение для К(х, у) можно записать в следующем виде: N R— / . . . J g[x, Р*(х)] dx,
где функция g[x, р(х)] в данном случае имеет вид g[x, р(х)] = Pi Д(х) 1Д Р*(х)]+ р2/2(х) 12[ Р*(х)]. Минимизация R является задачей вариационного ис ния. При этом минимум достигается при условии Э д[х, р(х)] -------------=0 Э Р*(х) или с учетом конкретного вида функции д[х, р(х)]: Иначе можно записать: Pi ДМ d 1г (у) dy + Р2/2(х) у=Р*(х) dl2 (у) dy = 0. у=Р*(х) Это уравнение определяет оптимальную модель н( ной сети двух классов образов с континуумом решений. Рассмотрим частные случаи. 1. Функции ошибок для образов первого и второго 1 имеют вид, изображенный на рис. 6.9. Этот случай со ствует одинаковому значению функции ошибок на некс интервале изменения у. При этом А = ма^У~ Уа) у=Р*(х) “ 1 А =Е А1а]5(р(х)- у( Р*(х) “ 1 d 12 (у) dy А =-Z М^у-уа) У=Р*Ы “ А =S Д?а25(р(х)- Р*(х) “-1 Уравнение для оптимальной модели нейронной сети иметь следующий вид: А А Р1Л(х) 2 Д1а16(Р*(х)-уа)-р2/2(х) S dl^CP’Cx)-у0) а=1 а=1
Му) i Рис. 6.9. Зависимости функции ошибок для нейронной сети с конти- нуумом решений Здесь 8(у) - 8 - функция с известными свойствами. 2. Функции ошибок для образов первого и второго класса - функции второго порядка Z1(y)=(l+t/)2Z, Z2(y)=(l-y)2Z. При этом d Zj(y) d l2(y) —--------- 2l(l+y), --— = 2Z (y-1). Ф dy Подставляя данные выражения в (6.15), получаем уравне- ние для оптимальной модели Р*(х) нейронной сети с контину- умом решений в случае квадратичных функций потерь: р2/2(х) - р^/х) Р*(г) =----------------- P2/2W + Pi/iW Иллюстрация функции у = Р*(х), реализуемой нейронной сетью, представлена на рис. 6.10. Рис. 6.10. Иллюстрация к оптимальной модели нейронной сети в ^Учае континуума решений и квадратичных функций потерь 125
3. Функции ошибок для образов первого и второго есть функции первого порядка 11(у)=1(1+у), 12(у)=1(1-у). ном случае dl^y) /dy^l; dl2(y) /dy= -l. Отсюда следу! при линейных функциях ошибок возникают трудности в формировании оптимальной модели нейронно: Для исследования данного вопроса рассмотрим функцию ки в следующем виде: l1(y)=l(l+y)c+1, I2(y) = l(l-y)c+1, из которого при с=1 следует случай п. 2, а при с=0 - ный случай. Тогда d d ,, 1 т- цу)=i*(wc+1]= -тг dy 1 dy с+1 d d 1 -— l2(y) =—- [Z(l-y)c+1]=----------— Ц1-у)'. dy dy c+1 Общее выражение для оптимальной модели нейроны имеет следующий вид: р1/1(х)(1+уГ-р2/2(х)(1-уГ=0 или, иначе, 1 (P2 /2(х)]1/с ~ [Pi Л(х)]1/С у ---------------------------- [ Р2 f2(x)]1/c + [Pj Л(х)]1/С При с=1 получаем уже известное выражение оптима модели для функций потерь второго порядка. Исследуе! чай с —> 0. Тогда у =-1 при любом значении х, удовлетв щем неравенству р1/1(х)>р2 /2(х), у =1 при любом значе: удовлетворяющем неравенству р2/2(х)>р1/1(х). Таким образом, в случае линейных функций ошибок тинуума решений пространство решений вырождается странство двух решений. При сравнении критериев первичной оптимизации н< ной сети по величине апостериорной вероятности (6.13) нимума средней функции риска (6.15) видно, что опт» ные модели нейронной сети совпадают, если
1 - d(y) = dZj(y) 1 + d(y) = dtyy) dy Эти выражения позволяют ввести дополнительную физи- ческую интерпретацию функции d(y). рассмотрим критерий минимума средней функции риска при ограничениях (6.7) и (6.8). Минимизация средней функции риска (6.14) при условии N N- J J • • • ! G(x, у) gr(x, у) dxdy=J . .. f gJxP(x)] dx=0, (6.16) у x X где 91(x,y)= p^Jx) (Jy) - p2/2(x)Z2(y), приводит к уравнению для оптимальной модели нейронной сети следующего вида: d l.(y) d L (у) (l+DpJ^x)-i— +(1-Л)р2/2(х) —------ =0. (6.17) dy y=P(x) dy y=P(x) Множитель Лангранжа Л определяется подстановкой (6.17) в (6.16), Ограничение в виде заданного значения составляющей средней функции риска имеет вид: N J /77]" G(x, у) [ pj //xji/y) ] dxdy= а. (6.18) у X Обозначая g2(x,y, Х)= д2(х,у) + Xpj Д(х) Цу) = =(1+Л.) р^/х) \(у) + p2/2(x)Z2(y), 127
получаем выражение для оптимальной модели нейрон» в следующем виде: dg2(x,y,X) | у=р(х) ЭРЙ или, иначе, (l+AJp/^x) d \ (У) dy + Р/2(х> У=Р(х) dl2{y) dy У=Р(*) Множитель X определяется подстановкой (6.14) в (6.1 Нейронная сеть типа 6. Система распознавания К к; образов с континуумом решений имеет оптимальную ь следующего вида в случае критерия минимума средней кции риска: d lk (у) --------- =0, dy у=Р(х) где Р(х)=у - оптимальная модель нейронной сети в д случае. Нейронная сеть типа 7. Это система распознана: классов образов с двумя решениями. В случае критерия мума средней функции риска вместо матрицы коэфф» тов потерь, возникающих при отнесении ol i-го класса к j-му, которая для системы типа 1 имеет в ^1Р ^12 - ^2Р ^22 необходимо ввести в рассмотрение матрицу 11V J12 12Р 122 ^kV ^k2 - ^KV ^К2 Матрица L есть матрица коэффициентов потерь, воз< ющих при отнесении образов, относящихся к к-му
/bsl.... К), к областям многомерного пространства призна- ков соответствующим первому и второму решению. Выра- жение для условной функции риска имеет следующий вид: N N Гк = ZfciJ • • • J/fc(x) dx+lfe2J ... J/fc(x) dx. S(x) < 0 5(x) > 0 Средняя функция риска получается усреднением условной функции риска по всем классам: w N R = РкГк ~ Pk^kl J i /fc(x)dx+ S pklk2 J • • • J f k(x)dx. k~1 k 1 S(x)<0 5(x)>0 Учитывая, что N N N J... J /fc(x)dx = J... J /fc(x)dx+ /... J yfc(x)dx , S(x)>0 S(x)<0 получаем окончательное выражение для средней функции риска к ? к К = X Pklk2+ J • • • J [ S Рк(1к1~ ^2^] • fe=1 5(х)<0 k=1 Легко показать, что минимум R в данном случае обеспе- чивается при условии к 5(х) = X pk(lkl~ lk2)ffc(x) • к=1 Это есть уравнение для оптимальной разделяющей повер- хности, определяющее оптимальную модель нейронной сети. Нейронная сеть типа 8. При оптимизации нейронной сети с континуумом классов образов и двумя решениями по кри- терию минимума средней функции риска необходимо ввести в рассмотрение матрицу (вектор-строку) L^ZJe), (2(е)] функ- ций потерь, возникающих при отнесении образов, объектив- 80 подчиняющихся закону /'(х/е), к областям многомерного пространства признаков, соответствующих 1-му и 2-му ре- шениям. Условная функция риска есть функция риска при- нятия решения о принадлежности образов на входе нейрон- 5'353 129
ной сети к совокупности образов с распределением f (х/ пичные зависимости для функций потерь Z1(e) и 12(е> ставлены на рис. 6.11. В этом случае выражение для < ной функции риска имеет следующий вид: N N Здесь 5(х)=0 - уравнение разделяющей поверх! многомерном пространстве признаков. Средняя функция риска получается усреднением ной функции риска по всем значениям е следующим о( R = J Г(Е) /£(Е) dfi = f /е(£) X N N ; X l^E) I... J /'(х/е) dx + I 2(e)J ...ff '(х/е) dx I 2'- - ..... ; 5(х) < о 5(x) >0 { Преобразовывая, получаем окончательное выражей средней функции риска:
N R = f{(2(e)/E(e) + /ДЕ)[1 Де) “ Me)] J • -1 f '(x/e) dx}dE . 5(x) < о Для решения задачи минимизации запишем R в несколько ином виде n оо -ж й = J I 2(е) /£(е) dE + f . . . J X S(x) < О X { J [ 11(e) - 12(e)] /£(e) f '(x/e) dE }dx. —co Отсюда следует, что минимум R обеспечивается при усло- вии, когда подынтегральное выражение отрицательно внут- ри области и положительно вне данной области. Следователь- но, минимум й обеспечивается при условии ос 5(х)= J (I Je) - l2(e)] /£(е) /'(х/е) dE. —со Нейронная сеть типа 10. В случае континуума классов образов и Кр решений нейронная сеть строит в многомерном пространстве признаков Кр-1 разделяющую поверхность. При оптимизации по критерию минимума средней функ- ции риска вводится матрица (вектор-строка) L = [Ij(e), . . . , (Kp(E)l функций потерь, возникающих при отнесении образов, объек- тивно подчиняющихся закону /'(х/е), к областям многомер- ного пространства признаков, соответствующим 1, 2, Кр-му Решению нейронной сети. В данном случае выражение для Условной функции риска имеет следующий вид: к Г(Е) =S L (6) J ... j /'(х/е) dx . fcp-1 ”Р sfcp(x) > о Средняя функция риска получается усреднением г(е) по всем значениям е : Кр N s* R = / Г(Е) /e(E)dE = / /£(Е) Е lk (Е) I ... f / '(х/е) dx dE. fcp=l р skP[x) > 0 133
Отсюда определяется оптимальная модель с помощ темы неравенств: S(kpX*) = / Д(е) [lr (е) - L (е)] f '(x/E)dE <0, —ОО Р Р к"=1, ...К. р ’ р Нейронная сеть типа 11. Эта система распознавай тинуума классов образов, имеющая континуум решен! оптимизации по критерию минимума средней функции; вместо матрицы функций L = [^(Е).....Zfcp(E)], - введенной в случае континуума классов и Кр решений, ходимо ввести функцию потерь Z(y,E), возникающих пр нятии нейронной сетью решения при наличии на входе за, принадлежащего совокупности с распределением f ' Выражение для условной функции риска имеет сл щий вид: N Г(Е) = J Z(y,E) J ... J G(y,x) f'(x/E) dxdy . у X Средняя функция риска ОО 00 N R = J r(E)/E(E)dE = J/£(E)/ Z(y,E) / . . . J G(y,x) X -о» -» У х N х f '(х/е) dxdyde = J j... J G(y,x) x у x x [ / 4(E) l(y,E)f '(x/E)ds]dxdy . —©o Введем обозначение 93(x> У) = I 4(e) i(y,E)/ '(x/E)dE.
f/E(e)f'(x/Ю -—Ду,е) с L dy Тогда выражение для средней функции риска примет сле- дующий вид: N R= f / . J G(y,x) g3(x,y)dxdy. Y X Учитывая свойства функции G(y, x), указанные и исполь- зуемые ранее, получаем: R = J • • • J g3[x, Р(х)] dx, х где У~ Р(х) “ оптимальная модель нейронной сети. Решение задачи минимизации R дает выражение для оптимальной мо- дели нейронной сети в следующем виде: дд3(х,у) ---- (... =0 Эу У=Р(х) или с учетом конкретного вида функций р3(х,у) de =0. у=Р(х) Это наиболее общее выражение для оптимальной модели нейронной сети, из которого легко получить любой рассмот- ренный выше случай. Для решения практических задач функция распределения /Де) может в простейшем случае быть представлена или ап- проксимирована суммой одномерных нормальных законов с раз- личными дисперсиями и математическими ожиданиями, а так- же любым из известных типовых законов распределения ве- роятностей. 6.3. Оптимальная модель нейронной сети для многомерных сигналов е(п) и у(п) Выражение для условной функции риска в случае конти- нУУма решений имеет следующий вид: N N r(e) = I... f l(y,е) f... / G(y,x) f '(х/е) dxdy . y x 133
Отсюда имеем среднюю функцию риска N* N* N R = / • • / r(e) Ze(E)de = /.../ f... J G(y,x) x E Y X N‘ x [ J • • j /E(e) l(y,e)f '(x/E)de]dxdy E или, иначе, при введении дополнительных обозначен] N N R = f... j J... J G(y,x) g(y,x) dxdy . Y X Как указывалось выше, E представляет собой простр! указаний учителя нейронной сети; N" - размерность Е ходного сигнала системы. Остановимся на свойствах фу G(y, х). Если N*=l и нейронная сеть имеет Кр решений, ция имеет вид: [ 1 при х е 5Кр(х)>0, G(x, Кр) = Н „ I 0 при х £ 5к₽(х)>0, а для континуума решений: f 1 при у = Р(х), G(x, у) = I 0 при у *Р(х). Для многомерных пространств Е и Y преобразован» сываемое системой, может быть записано в следу виде: У1(п) у(п) = Р[х(п)] или LPw.(x) J - yN.(n) Если N* - const и нейронная сеть имеет дискретное выходного сигнала, т.е. Кр решений, функция имеет вй 11 при х е S№lp’ • - W(X)> G(x, fclp, . . kw.p) |0 £S{klp...........
соответственно для континуума решений нейронной сети: G(x, ур • • , yN.) = 1 при у(п)= Р[х(п)], О при у (n)*P[xfn)]. С учетом замечаний о функции G можно записать выра- жение для средней функции риска следующим образом: N R = I • • • / у[р(х), х] dx = х N _ kiy» = J.. J I • J /е(е) I [P(x),e)]f'(x/e) de dx. X E !: Оптимальная модель нейронной сети определяется выра- жением J • • • //е(£)/ '(х/е) [ I (у,е)] = Р(х) de = О, Е ОУ * где производная I (ху,Е) - функция двух переменных: у и е. Пусть каждый из N' выходных каналов имеет Ко градаций по амплитуде. Тогда выражение для условной функции риска имеет следующий вид: к к r(kv . . .,kN,)= S ... S I (kj ,. . .,kN, ,kv . . .,kN. ) x kip=l k]V*p=l N X J... J f '(x/e=kv .. .,kN.) dx. S^lP- ^N^x) > 0 Отсюда получаем среднюю функцию риска к к R= S ... L г (kp .. ,,kN.) fE(kp . . .,kN„) = fcl=l к к к к ~ S ... S ... S I (kj , .. -,kjy, р,кр • • .,kjy, ) х klp=l kjV*p=l fcl=l kN»=l 135
xf£(kv.. ,,kN.) J ... J f '(x/E=kp • • .,kN.) dx 5lfclP.............fcW*p)(x) > 0 * При введении дополнительных обозначений имеем:. к к _ —у R= S ... Z J...J д (к1р, ..., kN.p,x) j Mp=l kW’p=l ^(fcip.....fcW*p)(x) > fl гДе к к 1 9 (klp, • • •, kw« ,x)— £ ... S I (kt , .. .ЛдррЛр • • F H fc=l fciV*=l x /g (kp . . .,kjy*) f (и/ъ=ку . . .,кдр) . j Результат минимизации средней функции риска в 1 случае Ч S(k^...feJV*p)(x) = д (k"lp,.. , k>p>x) - g(klp,..., kN.p>x)^ (k"lp, ..., k\.p) = (0 . ;. 0) , .... (K, .. . , K), W N* Л т.е. всего KN* комбинаций. Отметим, что, в частности, можно рассматривать К=2 как наиболее просто реализуемый. 6.4. Априорная информация о входном сигнале нейронной сети в режиме самообучения Задача сомообучения отличается от задачи обучени, что в режиме самообучения в нейронной сети не указы! принадлежность образов к тому или иному классу. В d обучения нейронная сеть получает информацию об оргг ции образов внутри классов в виде указаний учителя. 1 чае самообучения эта информация должна быть залом нейронной сети априори. Наверное, разумно при опредв класса в режиме самообучения наложить следующее о! чение. Каждому классу образов должна соответствовать мода функции плотности распределения вероятностей в} го сигнала х(п) нейронной сети. От априорной информации о входном сигнале суще! но зависят методы решения задачи самообучения. Указ! априорную информацию о входном сигнале можно с mJ логической точки зрения разделить на три основные ча
1. Априорная информация о числе классов или, что тоже самое, информация о числе мод функций плотности распре- еления входного сигнала. На основании данной априорной ^формации и предположения о том, что каждый класс име- ет свое собственное одномодальное распределение, распре- деление входного сигнала нейронной сети может быть пред- ставлено в виде к /(х) = S pfc/fc(x), k=l (6.19) где х(п) _ входной сигнал нейронной сети; /(х) - плотность распределения входного сигнала; ffc(x) - плотность распреде- ления образов в k-м классе; рк - вероятность появления обра- за из k-го класса; К - число классов. 2. Априорная информация о виде плотностей распределе- ния образа в каждом из классов. 3. Априорная информация о величинах вероятностей появ- ления образов из различных классов рк . Априорная информация о числе классов К (мод функции плотности распределения входного сигнала) может быть трех типов (по мере уменьшения априорной информации): точно из- вестно К ~ число классов (т.е. мод); число К классов (мод) не более заданного Кмакс; число К классов (мод) неизвестно. В первом случае необходимо создание алгоритма решения задачи самообучения для конкретного числа классов. Во вто- ром случае необходимо создавать алгоритм самообучения, ко- торый, будучи оптимальным для максимального числа клас- тов Кмакс, будет оптимальным и для меньшего, каким и может оказаться действительное число классов. В третьем случае, пожалуй, единственным путем качественного решения зада- чи самообучения является построение алгоритма самообуче- НИя для постепенно увеличивающегося числа Кмакс. В таком алгоритме нужно вводить критерий остановки алгоритма при Увеличении максимального числа классов К^. Критерием ос- тановки может являться либо отсутствие увеличения каче- ства самообучения при увеличении Кмакс, либо невозможность Реализации алгоритма ввиду его сложности. Априорная информация о виде распределения для каждого 43 классов может быть трех типов (по мере уменьшения): точ- 137
но (с точностью до конечного числа неизвестных пара известен вид распределения; вид распределения неиг но может быть принята некоторая аппроксимация ра ления, которая, естественно, в общем случае приводи большим ошибкам, чем больше несоответствие peart аппроксимирующих распределений; вид распределени вестей. В зависимости от количества априорной информации распределения для каждого из классов выбирается сш ализации оптимальной модели нейронной сети. Априорная информация о вероятностях появлени зов из различных классов. При представлении суммарн пределения вероятностей входного сигнала системы навания образов в виде (6.19) для создания системы пр ляется априорная информация следующих типов о ве стях появления образов из различных классов рк: коэ< енты рк равны между собой для любого к, коэффици, априори не равны для любого к, но неизвестны. Первый случай не накладывает практически ника полнительных ограничений на методы решения зада обучения. Во втором случае введение более широких зонов изменения параметров входного сигнала вследст равенства рк приводит к усложнению процесса самооб ввиду необходимости при настройке определять кром< метров распределений для каждого подкласса еще и к( циенты рк. 6.5. О критериях первичной оптимизации нейро, сети в режиме самообучения Критерий первичной оптимизации также является нительной информацией, закладываемой в нейрон! априори, наряду с априорной информацией о входном ле. Необходимость задания этого критерия заключается что он определяет качество системы распознавания, г го она должна достигнуть в режиме самообучения. Во всех случаях, описанных выше, когда распред образов в классах известны, аппроксимируемы или I неизвестны, в принципе возможно применение критерк вичной оптимизации самообучающихся систем распозн образов, по которому разделяющая поверхность (в ч 1 яя
одномерном случае - порог) вычисляется в соответствии со следующим выражением: Э/(х) d2/(x) —-------=0 при условии-----—>0 . Решение этого уравнения соответствует порогу (рис. 6.12). В случаях, когда распределения образов в классах могут быть определены или аппроксимированы, можно применить следующий критерий р1/1(х)= р2/2(х), (6.20) которому (на рис. 6.12) отвечает порог h2. - Применеие вводимого критерия (6.20) первичной оптими- зации в режиме самообучения оправдывается нашим пред- ставлением о работе человека в режиме самообучения, когда он в случае двух признаков и двух классов (рис. 6.13) делит множество образов на подмножества, проводя раделяющую поверхность по местам наименьшего сгущения образов. Рис. 6.12. К введению критериев первичной оптимизации самообуча- ющихся нейронных сетей Рис. 6.13. Иллюстрация к критерию (6.23) Легко показать, что решения, оптимальные по данным критериям первичной оптимизации нейронной сети в режиме самообучения, отличаются друг от друга. Частный случай, изоб- раженный на рис. 6.14, иллюстрирует дополнительные свой- ства указанных критериев. Здесь можно выделить три воз- можных случая: 1) классы хорошо разделяются, т.е. пересечение невелико (условием этого является то, что или или о2 много мень- Ще половины расстояния между центрами классов); оптималь- но пороги hj и h2, соответствуют первому и второму крите- 139
Рис. 6.14. Сравнение критериев первичной оптимизации нейронной сети в режиме самообучения рию первичной опти ции, отличаются др друга незначительн роги h.j и h2 при Oj на рис. 6.14,а); 2) классы столь но пересекаются, ч первому критерию i лучается оптимал: порога hy При этом из параметров бо. половины рассто между центрами кл: а второй сравним с ледней величиной 6.14,6, ст2=1>0,5); 3) классы сильн ресекаются, в этом чае пороги hx и h2 т сильно отличаются.' вием этого, по-види! является то, что Oj имеют тот же пор; что и половина рас ния между центр классов (рис. 6.14,в).1 Полученные рез таты имеют следующее объяснение: в случае пп.1 и 3 ра< деление входного сигнала f(x) является двумодальным, 1 как в случае п.2 оно одномодальное, и как раз в этом cj не ясен качественный смысл разделения одного «горба» н класса, тогда как в случаях пп.1 и 3 пороги разделяют «го двумодального распределения входного сигнала. Последнее, по нашему мнению, является весомой чиной для введения в определение класса для задачи с обучения ограничения, связанного с модальностью ф ции плотности распределения входного сигнала системы познавания образов. Именно представление /(х) мног дальной функцией позволяет использовать в режиме с обучения в качестве критерия первичной оптимизации циальную среднюю функцию риска. 140
6.6. Оптимальные модели нейронной сети в режиме самообучения и при произвольной квалификации учителя Предположим, что образы сгруппированы вокруг некото- рых неизвестных центров bfep классов. При введении в рас- смотрение функции расстояния образов от множества к-го класса р (х, bfe )= || х - bfc ||2 условная функция риска, возни- кающего при отнесении образа х к области кр-го решения, может быть представлена в следующем виде: rk= / l|x-bfcp||2/(x)dx, 5«р)(х) > О где || " II означает норму вектора. Средняя функция риска равна: КР , R= L J || х - bfcp||2 f (х) dx. kp=1 s<kp)(x) > 0 P В данном случае область кр-го решения (kp=l, ...,Кр), удов- летворяющая условию минимума R, определяется следующей системой неравенств: S(fep) (х)=|| х -bj2 - || х - b J2>0, (6 21) (^кр=1,...,Кр). Уравнение, определяющее координаты центров классов, удовлетворяющих условию минимума R, имеет следующий вид: f х^ (х) dx, 5(fcP\x) > О Ч =------------;------------------, г=1,. . ., N; kpi г J f (X) dx, (6.22) S(kp) (х)> о к = 1, ..., К р ’ ’ р Системы (6.21), (6.22) определяют оптимальную модель ней- ронной сети в режиме самообучения. Отметим, что функция потерь р(х, bfc )= || х - b. ||2 определяет довольно грубую ап- проксимацию. распределения в классе. Более точная ап- проксимация может быть достигнута усложнением оптималь- ной модели, достигаемым за счет усложнения функции по- терь, например, следующим образом: 141
X - b. II2 P(x> Ькр)= ----------~----““ II % II или взятием p(x, bfc ) в еще более сложной форме. Подобно тому как в режиме обучения вектор-функц, [1т(е),.., 1к (£)] заменяется функцией I (у,е) двух перемени! при переходе к случаю континуума решений, в режиме сам обучения вводится в рассмотрение функция потерь в виде [х, Ь(у)], где Ь(у) является либо конечным, либо проиея точным результатом синтеза нейронной сети. В случае дне ретного множества решений нейронной сети средняя функц риска имеет следующий вид: Кр . R= S J р (х, bfc )G(x, kp) f(x) dx, fcp=l X P где 1 при x е^(х)>Й, G(x, к ) = p I 0 при x g 5(kp) (x)>0. Для континуума решений нейронной сети имеем анали К® I f р[х, b(y)]G(x, у) /(х) dx dy, Y X где G(x,y)= или, иначе, 1 при у = Р(х), О при у * Р(х) R= f р[х, Ъ[Р(х)]] /(х) dx. Выражение для оптимальной модели нейронной сети полу- чается отсюда дифференцированием R по у = Р(х) и Ъ акало' гично тому, как это было сделано в режиме обучения /(х)-^~ р [х, Ь(у)] ду у = Р(х) °’ дЬ{ р [х, Ь(у)] = 0, i =1, . . . , N, 142
при использовании дополнительных условий Сильвестра для матрицы смешанных производных второго порядка R по ком- понентам вектора Ь(у). Рассмотрим оптимальную модель нейронной сети с Кр =К решениями при произвольной квалификации учителя Ъ. Необходимо так определить функцию потерь Z(x, bfc , Ь, 1к к), чтобы в режиме обучения при Ь=1 1= 1к к, в режиме самообу- чения при b=0, l=p (х, bfc ), а при b= -1 определялся функци- онал первичной оптимизации с обратной экстремальностью по отношению к режиму обучения. Такая функция потерь может быть записана в следующем виде: ^.ЧР,Ь, 1м) = ым+(1-ь2)Р(х,Чр). Выражение для средней функции риска имеет вид: к к R = S J {[ X pfc/fc(x) lk J+ (1-Ь2)|| х - bj|2 /(x)}dx. feP=1s<M(x)>o fe=1 Оптимальная область кр -го решения может быть представ- лена следующим образом: sMx) = gVp(x) - gfcp(x)>0, fcykp=l, ..Kp. Выражение для оптимальных значений Ък { имеет вид, ана- логичный (6.22). Выше предполагалось, что квалификация учителя извест- на точно при построении оптимальной модели нейронной сети. Неточное знание квалификации учителя имеет место, напри- мер, при решении задач медицинской диагностики, когда из- вестно, что классификация обучающей выборки сделана вра- чом, имеющим конечную, неточно известную конструктору нейронной сети квалификацию. При этом объективная квали- фикация Ъ учителя определяет вид распределения входного сигнала, а субъективная квалификация учителя Ьс, сообщае- мая системе, определяет вид функционала оптимизации. В случае К=Кр классов и решений нейронной сети: к л кг R J ( Ji [ъ' pApfe+(1" b2c)p(x>bfcp)Jf '(x/E=fc)}dx • fcp-l 5(kp)(x)>0 k-1 P P С учетом выражения для закона распределения входного сигнала оптимальная модель нейронной сети, в данном случае 143
определяемая системой К неравенств, запишется в следую- щем виде: bc (PAfcp “ РЛк'рЖ1- ь2с) [р<х>ъкр) - P<x bfc-p)]} х К Pfc' fk (Х)акк' х "/с-------------> °’ (6.23) ^Рк'^ где fc'p=l, К. В этом случае предполагается, что субъективная квали- фикация учителя, сообщаемая нейронной сетью, не зависит от номера класса. Из (6.23) следует, что в случае Ьс=1 и [afcfc,]=yl1 , где Aj- единичная матрица, имеют дело с режимом обучения. В слу- чае Ьс=0 при произвольных значениях afc. к система работает в режиме самообучения. В общем случае, когда объективная Ь и субъективная Ъс квалификации учителя совпадают, система, способна к настройке. В том случае, когда учитель имеет ну- левую квалификацию, а систему принуждают работать в ре- жиме обучения, она оказывается неспособной к настройке. Вышеизложенный материал позволяет следующим образом классифицировать априорную информацию, необходимую для построения оптимальной модели нейронной сети: а) число клас- сов образов (два, К, континуум); б) характер нестационарно- сти входного сигнала; в) функция квалификации учителя ней- ронной сети от двух аргументов, являющихся индексами соот- ветствующих классов; г) функция «собственного мнения учи- теля нейронной сети о своих способностях»; это также функ- ция двух аргументов, являющихся индексами соответствую- щих классов; д) априорные вероятности появления классов; е) структура пространства решений нейронной сети (два, Кр, континуум решений); ж) класс критериев первичной оптими- зации нейронной сети; з) функция потерь при отнесении ней- ронной сетью образов одного класса к другому. Это указывает на значительность объема априорной ин- формации, необходимой для построения оптимальной модели нейронной сети. Необходимо отметить, что иногда отпадает 144
необходимость в некотором виде априорной информации, на- пример в априорных вероятностях появления классов при ис- пользовании минимаксного критерия или эмпирического бай- есовского подхода. Количество ^приорной информации о виде /'(х/е) определяет пути реализации оптимальных моделей нейронной сети, указанные в табл. 6.1. Литература 6.1. Галушкин А.И. Многослойные системы распознавания образов. М., МИЭМ, 1970, 167 с. 6.2. Галушкин А.И. Выбор критериев первичной оптимизации и построение оптимальной модели системы распознавания К классов образов в режиме обучения./ Сб. «Автоматическое уп- равление и вычислительная техника», вып. 10, 1972. 6.3. Галушкин АИ., Зотов ЮЛ, Шикунов Ю.А. Оперативная обра- ботка экспериментальной информации. -М., Энергия, 1972, 360 с. 6.4. Галушкин А.И. Методы синтеза систем распознавания обра- зов. — «Труды МИЭМ», 1969, вып. 6, с. 133—172. 6.5. Галушкин А.И. Единый подход к решению задач обучения и самообучения систем распознавания образов. - «Труды МИЭМ», 1970, вып. 6, с. 104-120. 6.6. Викторов Н.В., Галушкин А.И. Построение и исследование систем распознавания образов при произвольной «квалифика- ции учителя». /Сб. «Медицинская радиоэлектроника», 1976, с.95-106. 145
Глава 7. Анализ разомкнутых нейронных сетей 7.1. Законы распределения аналоговой и дискретной ошибок нейронной сети Исходным материалом для анализа разомкнутых нейрон- ных сетей являются заданная в общем виде плотность рас- пределения входного сигнала и структура разомкнутой ней- ронной сети. Рассматриваются такие структуры разомкнутых нейронных сетей, как нейроны с двумя, Кр и континуум ре- шений, нелинейные и многослойные нейронные сети из ней- ронов. Варианты характеристик входного сигнала представле- ны случаями двух, К и континуума классов образов при про- извольной квалификации учителя. Целью анализа разомкнутых нейронных сетей является вы- вод и исследование выражений для распределений и момен- тов распределений промежуточных и выходных сигналов ней- ронной сети. В данной главе в основном производится анализ распределений и моментов распределений ошибок нейронной сети. На основании результатов анализа разомкнутых нейрон- ных сетей выбираются функционалы вторичной оптимизации. Под функционалом вторичной оптимизации понимается функционал, выражаемый через параметры распределений текущих сигналов и ошибок нейронной сети и непосредствен- но минимизируемый в многослойных нейронных сетях при настройке по замкнутому циклу. При этом основной является задача формирования функционала вторичной оптимизации, соответствующего заданному критерию первичной оптимиза- ции; соответствие понимается в смысле совпадения парамет- ров нейронной сети при обеспечении минимума функциона- лов первичной и вторичной оптимизации. 7.1.1. Нейрон с двумя решениями Преобразование, осуществляемое нейроном с двумя ре- шениями, может быть представлено в следующем виде: N y(n) = sign S owcln) = sign g(n). (7.1) i=0 Выражения для аналоговой и дискретной ошибок нейрона имеют вид xa(n) = е(п) - g(n); xg(n) =е(п) - у(п). (7.2) 146
^'Функция распределения входного сигнала при К-2 равна И.ГЛ.5): r 1 1 442y2(x)npHe=l, J(x,e) i i 4 Bj/Jx) + 4 B2/2(x) при e=-l. ? Здесь = [S+fCj-Cj) - b1(c1+c2)]p1; А2 = [2+(с2~с1) + b^+c^Jp^ Bj = [Z+Coj-cp + Ь^+с^Рр B2 = (2+(c2-C!) - Ь2(с1Ч-с2)]р2. г Распределение аналоговой ошибки рассматриваемой ней- ронной сети имеет вид: Г W~1 faM= 1 1АА(®р • > ~ £-) + i UN UN * 1 U’N + a fix x 1+ao~X° - L ai ) + A2h\XV • • • > XN-V aN (7.3) + вДяр .... XN_V - -tfo Л - £ х,Л-) + ujV -1+a a + ^^^.XV • • > XN-V a ~~ Ji Xi ^XN-V ' а дискретной ошибки { [Bjd^) +В2(1~Ф2)] при хд=-2, f4xJ = ] I [^1(1-Ф1) +^(1-Ф2) +В2Ф2] при хд=0, (7.4) Л [Аф1 +Л2ф2] ПРИ Жд= 2- Здесь gN-l •,xN )dxv ., dxN, fc=l,2. 147
Выражения для моментов r-го порядка распределения аналоговой и дискретной ошибок рассматриваемой нейрон- ной сети можно представить в виде 1 r N ага= Г 2 (-l)2r+m стт 2 ай . .. ах in xKA/au+l^+B^ao-D^lY...........+ +[А2(а0+1 )r’m +B2(aQ-l)r'm .(7.5) N (k) ( °° f v. = J ... J x. x- f,(x) dx, 4...гт J -oo J »!••• 7 ’ агд=2-2[(А1Ф1+Л2Ф2)] + (-1)Г(В1+В2-В1Ф1+В2Ф2)]. (7.6) В частном случае при Cj= с2= 1 и Ьт- Ъ2= Ъ распределение ана- логовой ошибки рассматриваемой нейронной сети имеет вид (7.3) с заменой А=2(1-Ь)Р1;А2=2(1+Ь)р2; В =2(1+Ь)Р1; В2=2(1-Ь)р2. Распределение дискретной ошибки: f (х ) = • JZg' д’ 1 9 I 2 1 [p/l+bXl^) +р2(1-Ъ)(1-Ф2)], х = -2, [1+Ь(р2-р1) +2?^ -2р2ЬФ2], х= 0; [(l-b)p^! +(1+Ь)р2Ф2], х = 2. Выражение для моментов распределения дискретной ошиб- ки нейронной сети в данном случае имеет следующий вид: агв=2{р1[1+Ь(1-2Ф1)] +р2[1-Ь(1-2Ф2)]} и отдельно для совокупностей образов первого и второго класса: +р2(1-ь)(1-ф2)], ar2g=2[pA 1-Ь)Ф! +Р2(1+Ь)Ф2]' 148
7.1.2. Нейрон с континуумом решений Преобразование, осуществляемое нейроном с контину- умом решений в режиме обучения, может быть представле- но в следующем виде: N у(п) = F [ Z а,х(] = F[g(n)]. В случае континуума классов образов на входе нейронной сети /(х, t,)=f(xv..., х/е) 4(e). Совместное распределение для сигнала е(п) и аналогового выходного сигнала g(n) имеет следующий вид: N-1 f (д,е)=Л ~ °- ./gEiy» ; J J V р ’ ^N-v a N JV-l ХпЬ/e) № ^N-r l — l N Распределение аналоговой ошибки нейронной сети ЛГ-1 , t 1 Г °° Г -х +e+aft J f (Xl’ • • 1 XN-1> N-l a - X xi /e) 4(e) dxN V.. dXjdE. I—1 N Отсюда можно получить выражение для момента r-го по- рядка аналоговой ошибки в следующем виде: N ara= J J (-Е а{ +е +a0)r xf (у/е) 4(E)dyde. (7.7) Распределение дискретной ошибки нейронной сети N r , 1 Г °° [ F^E-xJ + a., fxg^~ a7 Uo- J /(XP •••> XN-V ~^ixi l£)A(e> I -^(£ Yg)|ch:Jv.1...dx1dE. (7.7a) ’-1 " d(E-xg) Отсюда 149
N+! %= I • • • I [-F(E а, У,- -а0)+е] 7'(у/е)/£(e)dydE. (7.8) -°° :=1 В частном случае при обучении распознаванию двух клас- сов образов N-l —:------Ч X d(-l-xg) , ( P’1(“l~®o) *" an 'V ai x/ 1(®P • , ^N.v N-l xdx^...dx^-Л UN dF-^l-xJl ---2----SI х (7.8a) d(l-xg) , ( F’^l— x ) + an 'V a. \ X/2\X1> •••> XN-V ---^W-vdXp % %= Pl N N N a<-a0)-l]r/1(y)dy + N ^aiyi ~a0)+l]r/2(y)dy (7.9) и отдельно для совокупностей образов первого и второго класса N “rlS N -ао)-1] Г Л(У)<*У > ' (7.10) N ar2g= _ L-F^1 “i У« ~ao)+1 ] Г fitlW . Из данных выражений достаточно просто получить соот- ветствующие выражения для частных случаев, а именно: F(g) = sign g',F(g)= • 1 при g > Да; 0 при -Да<д<Да; -1 при д<~Да; 150
1 , g > a; Q F(9)=| Да’ -Да<9<Да; -1 , д<-Да. 7.1.3. Анализ нейрона с Кр решениями Совместный закон распределения вероятностей входно- го сигнала системы распознавания К классов образов в ре- жиме обучения имеет вид: Р/iW при Е=1, f(x, £) = ............. рк/к(х) при Е=К. В данном случае y(n)=kp при fcp < g(n) <afcp>fcp+1 (ак>к+1=о°; aoi=~°°)- Для совокупности образов К-го класса N-1 - I /Д........XN-V ~ J*. Распределение аналоговой ошибки в данном случае будет иметь следующий вид: К-1 К К р ОО р , ( k+an~x„ V а, \ , /fc (хр ..., xN p — Z ) dxN1... dxr Распределение дискретного выходного сигнала нейрона рассматриваемого типа для совокупности образов k-го класса может быть получено в следующем виде: 10 . а1 а? ’ ак’ ’ ' ’ а< / Пь ь + По а. - ф ( *р b fcp 0 _ fc ' ак ’ % • • при у= к (7.10а) 151
Здесь, как и ранее, . /%-!’ кр + % . а1_ aW~l\ к v aN ’ a'N • ' ’ а„> Отсюда распределение дискретной ошибки , , , V fak-k"’k-k"+i +ао ai aw-n W=ktl Р* 5 % ’ ' • ’ - % . ( ak-k"-Vk-k”+a0 а1 aN-l\l , „ -; s.....................-VJnp” *=k Выражения для моментов r-го порядка распределений ана- логовой и дискретной ошибок могут быть представлены в виде: N к ( °° f N ага=£Рк ^0C"(a0+k)m(-l)r-m J J (Za.yi)’"m/k(x)dx; aN-l \1 ’ % • ( ак-к"-Гк-к"+ а0 “1 -ФД---------%—;-a-w Выражение для r-го момента распределения аналоговой ошибки имеет следующий вид: N 1 [ “ f у ( /с+а0~ ага_ aj — j ха ^РкАДЛ......XN-V N-l - 2ix,.— ) dx dx.,. dx,. t=l 1 aN ’ a N-l 1 После замены переменных x^i/p ... ^N.i=yN.v к+а.п~х у1 —2—2— Lx. ан i=i 1 ai - 152
получаем N ara=fc5 Р J — И //А + (г+ао)]Г fk^V , У N)dyN... dy^, N-1 Г °° f т N a™=fc?!PJ Jm50Cr(a0+fcH-l)’- &aiyJ-mfk(y)dy. Л X —oo 771 ~U l=l 7.1.4. Анализ системы распознавания образов с нелинейной разделяющей поверхностью В [7.4] было указано, что система распознавания образов с нелинейной разделяющей поверхностью может быть представ- лена эквивалентной системой, состоящей из безынерционного слоя нелинейных преобразований и нейрона. Если слой нели- нейных преобразований формирует из компонент вектора (xv xN) компоненты вектора (хр ..., xN, {z^}, ,{zir.ir}], где i., ..., i=l,.... N и z< t= x,. ... x,, то можно показать, что плотность распределения выходного сигнала данного слоя может быть представлена через плотность распределения /(х) । входного сигнала следующим образом: /'(х')=/'(х, {ziii2}.{гг1...^})= >к «1 f(x) для всех г, к, (к=1,..., г), при которых zq.........,fc= х^,.. . ,xifc; О для всех г, к, при которых z. . Ф х. ,..., х; , (к=1,..., г). Ч» ••••»« i/с Выражение для второго момента распределения дискрет- ной ошибки рассматриваемой нелинейной системы имеет сле- дующий вид: %= 4[Ф'2Р2+ргФ’1Р1], где /• оо л N* Ф'г J • • • J /,'(^') dx' и S'(x')=-a0 + S агх{'. S"(x')<0 ’ 1 153
N Необходимо учесть, что выражение S(x)=~aQ + S 0^,= О определяет линейную разделяющую поверхность в исходном пространстве признаков. Определим, как изменяется вид раз- деляющей поверхности в исходном пространстве признаков при увеличении порядка г нелинейного преобразования. В слу- чае преобразования второго порядка: s'(x')<0 /Дх) при = xili2 Оприг.^х,.^ dx j • dx J. k(x) П 8(Ziii-xiii2)dx'1...dx'N.-, s (x )<0 tl«i xdXj J ...J /.(*) П ЙЦ.!2 a»+(?1aA+il?1a4i22.P2<0 «2=1 ‘2*1 N* ..dxNAdz..= J.”J N i1=i <P2 w * N * »2=1 -ao+Eaixi+Zaill.2XI.iXI.2<0 x /,(x) dx. Отсюда следует, что в случае г=2 эквивалентная разде- ляющая поверхность в исходном пространстве признаков будет поверхностью второго порядка с коэффициентами, однозначно определяемыми по коэффициентам выходного нейрона с входным слоем нелинейных преобразований. В случае преобразования r-го порядка: а, = 2 2g Р1+ J I [р2/2(х) "Pi/i(x)]dx г N "а°+Л Этим доказывается эквивалентность (по критерию ми- нимума средней функции риска) представления системы рас- познавания образов с нелинейной разделяющей поверхностью в виде блока нелинейных преобразований и нейрона. 154
7.2. Выбор функционала вторичной оптимизации Рассмотрим функционалы вторичной оптимизации, свя- занные с моментами распределения аналоговой и дискретной ошибок нейронной сети с двумя решениями (два класса обра- зов). Общие требования к функционалу вторичной оптимиза- ции нейронной сети были отмечены в введении. Параметры функционала, необходимые для организации итерационной процедуры поиска, должны достаточно легко измеряться и оцениваться в системе; функционал должен иметь сравни- тельно простой вид относительно настраиваемых коэффици- ентов нейронной сети и минимальное значение при тех же значениях настраиваемых параметров нейронной сети, при которых соблюдается (при заданной структуре разомкнутой нейронной сети и некоторой априорной информации) экстре- мум некоторого функционала первичной оптимизации. Анализ выражений (7.5) и (7.6) для моментов распределе- ния аналоговой и дискретной ошибок позволяет сделать сле- дующие выводы [7.2, 7.3]: 1. Моменты нечетного порядка распределений аналоговой и дискретной ошибок нейронной сети в режиме обучения не могут быть использованы в качестве функционалов вторич- ной оптимизации. Возможно использование в качестве таких функционалов модулей указанных моментов. 2. Моменты четного порядка указанных распределений мо- гут быть использованы в качестве функционалов вторичной оптимизации, причем в случае моментов распределений дис- кретной ошибки нет смысла в рассмотрении моментов выше второго порядка ввиду их пропорциональности а2д. 3. Основной целью исследования в данной главе является выяснение того, какому критерию первичной оптимизации и какой априорной информации о характеристиках входного сигнала и матрице потерь соответствует минимизация выб- ранного функционала вторичной оптимизации. 4. Исследование выражений для |а1а| и (случай нейрона) показывает, что минимизация данных функционалов вторич- ной оптимизации эквивалентна минимизации средней функции риска при учете только моментов первого порядка распреде- лений совокупностей образов того или иного класса. При этом считается, что априорные вероятности появления образов из различных классов равны и имеет место следующее ограниче- ние на коэффициенты матрицы потерь (122~^21) I 12^' 155
5. Исследование выражения для модуля первого момента распределения дискретной ошибки нейронной сети в данном случае I % I = 21 РгФа~ Р1+ Р1Ф11 показывает, что минимизация | а. | приводит к удовлетворе- нию критерия минимума средней функции риска при условии равенства составляющих средней функции риска для обоих классов и следующих ограничениях на коэффициенты матри- цы L ^22~^21 = 6. Исследование выражения для второго момента распре- деления дискретной ошибки нейронной сети а2д = 4 | Р2Ф2+ + Pt~ показывает, что минимизация a2g приводит к удов- летворению критерия минимума средней функции риска при аналогичных указанным выше ограничениям на коэффициен- ты матрицы. 7. Дополнительные ограничения, связанные с конечным числом учитываемых моментов при рассмотрении | ala| и а2а, а также связанные с равенством Р1^1=Р2Г2 при рассмотрении | alg| делают указанные функционалы одноэкстремальными при ограниченной структуре разомкнутых систем (нейрон) и мно- гомодальных распределениях входного сигнала. Функционал a2g при ограниченной структуре нейронной сети может быть многоэкстремальным, т.е. его минимизация приводит к обес- печению в общем случае только локального минимума сред- ней функции риска при Z22~i21= 8. При произвольной структуре разомкнутой нейронной сети, т.е. при произвольном виде разделяющей поверхности, в соответствии с результатами п.7.1 для случая Ь}= Ь2=1, сг= с2=1, выражение для a2g будет иметь следующий вид: “2д = 4[Р2Ф2+ Р1~Р1Ф1], фк= фк[5(х)]= J • • • J/fc(x) dx, k=l, 2. 5(х)<0 Здесь функционал a2g пропорционален средней функции 156
риска при произвольной структуре нейронной сети (два класса образов, два решения) и при известных ограничени- ях на коэффициенты матрицы L. Необходимость в анализе нейронной сети с конкретной структурой возникает, так же как и выше, в случае системы с нелинейной разделяю- щей поверхностью для определения вида разделяющей по- верхности, реализуемой системой с данной структурой в исходном пространстве признаков. 9. Рассмотрение указанных выше функционалов вторич- ной оптимизации представляет интерес, несмотря на указан- приводит к достаточно простой ные ограничения, так как реализации соответствующих систем, настраивающихся по замкнутому циклу, а также может быть полезно при пост- роении нейронной сети с переменной структурой. 7.3. О выборе функционала вторичной оптимизации в системе «Адалин» Основой методов настройки нейрона по замкнутому цик- лу, представленных в работах Б. Уидроу (системы под назва- нием «Адалин») [7.1], является минимизация второго момента распределения аналоговой ошибки. Ниже обсуждается утвер- ждение Б. Уидроу, высказанное им в одной из первых работ этого цикла: «Используя некоторые геометрические аргументы, можно показать, что средний квадрат дискретной ошибки есть моно- тонная функция среднего квадрата аналоговой ошибки и мини- мизация их обоих есть минимизация средней функции риска». Это является неверным, хотя бы потому, что минимиза- ция средней функции риска для нормальных распределений с различными ковариационными матрицами достигается с по- мощью системы с разделяющей поверхностью второго поряд- ка. Рассмотрим случай, когда система представлена в виде нейрона. В этом случае совпадение оптимальных решений по критериям минимума ос2д (средней функции риска при опре- деленных ограничениях на р{ и 1^) и а2а достигается лишь при равных ковариационных матрицах, соответствующих обра- зам первого и второго класса [7-2]. Проведем исследование экстремальных свойств моментов второго порядка аналоговой и дискретной ошибок одномерно- го нейрона с целью выяснения разницы в оптимальных реше- ниях по критериям минимума и а2р. 157
Исследование проводится следующим образом: а) вычис- ляются значения коэффициентов а'о и a'v минимизирующих а2а; б) вычисляются значения коэффициентов а"0 и а"р мини- мизирующих а2д; в) вычисляется величина Да2д=а2д(а'о, a'J - - a2g(aZ/()> а'\У которая служит оценкой отклонения оптималь- ных решений по критериям минимума и а^. На рис.7.1 построена зависимость ДЯ=Да2д(ц2) для одного частного случая [7.2], когда для случая двух нормальных распределений при фиксированных математических ожида- ниях меняется дисперсия Ц2 распределения одного из клас- сов. Ограниченность критерия минимума а2а особенно хоро- шо иллюстрируется на примере многомодальных распреде- лений (рис.7.2), где показаны в одномерном случае «пороги» нейрона а'о и а"0, оптимальные по критериям минимума а2а и a2g (заштрихованная площадь - приращение ДЯ при пере- ходе от критерия минимума а2д к критерию минимума a2a). Рис. 7.1. Сравнение крите- риев минимума и Рис. 7.2. Сравнение крите- риев минимума а!аи а^для многомодальных распределе- ний 7.4. Формирование функционалов вторичной оптимизации, соответствующих заданному критерию первичной оптимизации Ниже формирование функционалов вторичной оптими- зации производится для разомкнутых нейронных сетей с про- извольной структурой для случая Кр=К=2, т.е. с разделяю- щей поверхностью произвольного вида. 158
7.4.1. Критерий минимума средней функции риска Основной вопрос здесь заключается в выборе преобразо- вания дискретной ошибки нейронной сети xg(n) = е(п) - хк(п) для получения дискретной ошибки х'д(п), второй момент рас- пределения которой был бы равен средней функции риска. Будем осуществлять указанное преобразование следующим образом: умножаем xg(n) на А, если е(п)=-1, на В - если е(п)=+1; затем к результату прибавляем С. Найдем парамет- ры данного преобразования (А, В, С), так чтобы второй мо- мент распределения (х'д) был равен R: p^l-Ф^ при х'д=~2А+С, /х'д(х'д)= Р1Ф1+(1-ф2)Р2 ПРИ х’д= с- р2Ф2 при х'д=2В+С; (7.П) а2д=р1(2А-С)2+р2С2+р1Ф1(4АС-4А2)+р2Ф2(4ВС-4В2); (7.12) R Р^12^2^22^1^11 W Ф1'*’Р2Ф2^21 У’ (7.12а) Отсюда следуют выражения для искомых параметров пре- образования: С= Ь2г22+2Р1г12~Р1г1П P2(^ll+W + ^12^Р1~Р2) +iIp2^22+2PJ12~ Pl^ll . __________________2 _________________(7.13) в- К ~ Р1г22+2Р1?12 - Р1г11 Ргг22+2Р1г12 ~ Ml 2 Если искать параметры А, В, С, обеспечивающие совпа- дение а2д и R с точностью до постоянного слагаемого (Р^г+Рг^гг)’ то в данном случае С=0; Л=у^12- ln, В=“ ^I21- Z22. (7.14) Возможно применение следующего преобразования (Z) дискретной ошибки Х'Я(П)= ' Z12 при X =~2, Е=-1, Zn при Хд=о, Е=-1, z22 при Хд=о, Е=+1, 4Z21 при хд=2, Е=1. 159
В этом случае Р1(1“Ф1) прих'д=212, Р1Ф1 при x'g=Zn, р2(1-Ф2) npnx'g=Z22, . Р2ф2 ПРИ X'g=Z2l (7.14а) и условия совпадения а2д и R записываются в следующем виде: Zkpk Vfcpfc- (7-15) 7.4.2. Критерий минимума R при условии равенства ptr,=p2r2 Минимизация R при условии равенства р^^р^, т.е. при условии Р1^11Ф1"*"Р1^12^—Ф1) " Р2^21Ф2— Р2г22(1-Ф2) —(7.16) эквивалентна минимизации функционала Лагранжа: ^[pi^^j+PiZ^d-^jJd+Z) + (717) +[Р2^21Ф2—Р2(22(1 “Ф2)](1 Совпадение R* и а2д обеспечивается при следующих пара- метрах описанного выше преобразования (А, В, С): С =^|р2(22(1-Х) +2p1Z12(l+X) - p^d+A); A =|i| (1+А)[р2(п +(р1-р2)(12] + p2Z22(l-X) + -ЧP2Z22(1-X) +2pJ12(l+A) - p^/l+A); (7.18) В — — [ J (1— A)(Z21— PjZ22] +(l+A)(2p1Z12_p1Z11) — — P2(22(^-^') +2p1Z12(l+A) _ pJjJl+A)]. Левая часть (7.16) есть градиент R* по А. В нейронной сети эту величину можно оценивать как первый момент преобразованной (Ар Вр CJ дискретной ошибки, причем параметры преобразования Ар Вр Cj получаются следую- щим образом. Из (7.11) следует, что 160
а19=Р1(СГ2А1)+С1Р2+Р1Ф12Л1+Р2Ф22В1' <7'19) Сравнение а1д и левой части (7.16) показывает, что Л1=!11Лг.В1=!0..с.рА1-р21г!. (т.20) В случае применения описанного в предыдущем пункте преобразования Z сравнение а2д, полученного по (7.14а), и R* (7.17) дает условие для их совпадения в следующем виде: Z12=h12(l+X); Z22=<Z22(1-X); Zn= ^П(1+Л); Z21=<Z21(1+X). (7.21) Преобразование, необходимое для получения дискретной ошибки, первый момент распределения которой был бы ра- вен левой части (7.16), имеет следующие параметры: % 12— ^12’ 22= ~ ^22> % 21~ “ ^21> % 11~ ^1Г (7.22) 7.4.3. Критерий минимума R при условии p,r = a = const Минимум R при условии равенства p/j= а, т.е. при условии Р1(11Ф1+р1112[1-Ф1] - а =0, (7.23) обеспечивается при минимизации функционала Лагранжа: R*=PiW1+7t) +Р2122+Р1(г11“112^1+^ (7-24) Сравнение (7.24) и (7.12а) дает выражения для коэффици- ентов А, В, С данного преобразования, обеспечивающие ра- венство R* и а2д: С = p2Z22 + 2pJ12(H-A) - p1l11( 1+Х) -cA; A = | N(l+X)[p2lu +(Pi-p2)Z12] + P2Z22~cA+ +]p2l22 +2p1Z12(l+A) - PjZj^l+X) - cA]; (7.25) в = | [ ^21"PlZ22 +(1+^)(2P1Z12- P1ZU) ~cA- “ 'I P2Z22 +2P1Zl2(l+A) - pJjJl+A) - oA]. 6 - 353 161
Параметры Ар Вр Ct преобразования дискретной ошиб- ки, делающие равными первый момент распределения (7.12) и левую часть (7.23), имеют следующий вид: В = 0; Cj= р^ц-а. (7.26) В случае применения к дискретной ошибке преобразова- ния Z равенство (7.24) и второго момента распределения (7.14a) обеспечивается при условии: ^21 Дг1> ^22 ^22! ^12 Р ’> 2ц 1ц(1+^) • (7.27) Fl Определение градиента R* по Л в данном случае произво- дится в нейронной сети формированием дискретной ошибки r'g(n), первый момент распределения которой равен левой части (7.23). Параметры преобразования Z в этом случае по- лучаются следующими: Z 21 2 22 0’ Z 12 ^12 р ’ % 11 ^11 Pj ' (7.28) 7.5. Континуальные модели нейронной сети Для континуальных моделей нейронной сети рассмотрим про- цедуру формирования функционалов вторичной оптимизации, соответствующих критерию минимума средней функции рис- ка, так как обобщение на другие критерии первичной опти- мизации не представляет принципиальных затруднений. Так же как и выше, вопрос формирования функционала оптимизации решается для нейронной сети с произвольной структурой и иллюстрируется на конкретных структурах. 7.5.1. Нейронная сеть с континуумом решений; два класса образов Преобразование дискретной ошибки в данном случае име- ет следующий вид: x'g(n) = Z2[xg(n)], Е(п)=1, ZJx^n)], E(n)=-1. Отсюда распределение преобразованной ошибки имеет сле- дующий вид: 162
4'g(x?=p^[zr1(x;)])^4^)l+p^[z2-i(x'9)]|^4^)|, 9 s dx g 9 dx g а выражение для второго момента данного распределения (после соответствующей замены переменных и при условии монотонности функций Zj и Z2 ОО ОО % = Z)(xff)]2pi/1Xg(r9)dx(7+2 [Z2(x9)]2p2/2Xff(x9)dz9 При произвольной структуре разомкнутой нейронной сети имеют место соотношения у=Р(х), хд= е-Р(х). Отсюда xN=P\(xg, Р, xt.....XNA) при Е=-1; xw=P'2(xp, Р, хр , xNA) при е=1. В данном случае распределение дискретной ошибки для образов k-го класса имеет следующий вид: W-1 fk4X9)= J fk [Хр ’'' ’ Р'к{ХЯ’ Р’ Хр ’ ’' ’ XjV'1)]X х| dP'k{x^ Р’ Х1’ --’Х"-фх„ dxg Отсюда после соответствующих преобразований и замены переменных можно получить следующее выражение для вто- рого момента распределения дискретной ошибки: N а2о = J I {Zj-l-Pfx)]} p1/1(x)dx+ 29 „ (7.29) +f J {Z2[l-P(x)]} p2/2(x)dx В частности, для нейрона с континуумом решений с ис- пользованием (7.8а) можно получить следующее: N % = J т J {Zit-1-^ ( % atx:i-aQ)]}Zplfl(x)dx + N + I J {Z2[l-F (,E ;-%)]} p2/2(x)dx . 163 6*
В общем случае N N % = / — 1{г1Ц(х)]} P1/1(x)dx + f f{Z2[xg(x)]} p2/2(x)dx. Сравнение данного выражения с выражением для средней функции риска к R = I — I Pjf^xJljtx^PCx)] + p2f2(x)l2[xfc=P(x)]dx дает соотношения для преобразования дискретной ошибки, необходимые для равенства а2д и R: Z1(xg)=>lz1(-l-xff); Z2(xg)=^2(l-xg). (7.30) 7.5.2. Нейронная сеть с континуумом решений; континуум классов образов В данном случае , г , . ildZ"’(x' )| / , (х) = / [Z~4x )11------—2- . W Я1 V S'" dx> I Отсюда при условии монотонности функции Z(xg) следу- ет, что оо Здесь р=Р(х); хд= е -Р(х); хЛ,=Р'(хд, Р, Е, хр ..., xNA); N fx = J Li; I / 1Ж1> • • • - XN-1> Р> £> XV • • > XN-J l£JX х/е(е)| d-(x2’_P’£’^’"-LX^)|dxN.1dx1dE. dxg Отсюда и из (7.31) следует после соответствующей замены переменных: 164
N OO * a2 J I ... I {Z [e -P(x)] }2/(x|e)/ (e) de dx. (7.32) £y —<y? —oo v В частности, с учетом (7.7a) для нейрона с континуумом решений N оо * |А ' ‘ % =.l J • J {Z(E ~F Of aA-ao)]} /(x|e)/£(e) de dx. Из сравнения (7.32) с выражением для средней функции риска ОО у « Я = 1° J — J /Е(е) /(х|е) I [хк=Р(х), e]dxde следует соотношение для преобразования дискретной ошибки, необходимого для равенства a2ff и R: Z(x9)= [(E-xp), e]. 7.5.3. Нейронная сеть с Kp решениями; К классов образов Из выражения (7.10a) следует выражение для распределе- ния преобразованной соответствующим образом дискретной ошибки нейрона с Яр решениями для образов k-го класса при х' =(к~к )Ак к : У Р КрК -....— 9 aN aN aN -ф ( акр-Щ+(10 ai aN~l) a., ’ a.,’ ' ’ a„ ’ N N N Отсюда % Д £ fcp)AfcpfcJ PfcX х[ф ( aMp+1+a°. ai............aN-t)_ k aN aN aN -фД%^;|)]. aN aN 165
В случае нейронной сети с произвольной структурой К Кр 2 Г “2g = , [(fc~fcpXJ Рк J 4<Х) dx- Ь1Р 1 р Из сравнения а2д и R: К Кр л = ^>^=Jk„k J dx р ₽ S’^’tx^O следует условие для их совпадения в следующем виде: Акрк k~kp \к ' 7.5.4. Нейронная сеть с И*-выходными каналами; К.о градаций сигнала по каждому классу В этом случае функция распределения дискретной ошибки для совокупности образов класса (кр ..., kw.): N f (fop ... , k^J^lg- ••• ’ TWg) = . J* • V f (kp ..., kN.)(x) dx № 'P’ " ’ «•p’fxH) при (xlg,..., xN.g) = (kp ..., kw.) - (klp,..., kN.p). Применяем к вектору (xlg,... , kN.g) следующее преобразо- вание, необходимое для получения преобразованной дискретной ошибки x'g(n). Умножаем вектор хд на скаляр А (кр ..., kN„ к1р, ..., kN.p) и вычисляем сумму квадратов компонент данного ре- зультирующего вектора. Результат будет преобразованной дискретной ошибкой x'g(n). В этом случае для совокупности образов всех классов _ Ко Ко Ко Ко м[х'/ +... +x'w?J = S .. S 2 ... 2 [(fcp..., fclp)2+ *1 1 kN. 1 fclp 1 Kjg-p-1 +(^*“^лг*р) ]-42(kp •••»..., kN*p) /E(kp — > kjy*)x N -k ! Akp...,kN.)(x)dx- S*K‘P. '’•p’(x)X) Сравнение данного выражения c R дает соотношение для параметров преобразования А в следующем виде 166
A (kv ... ,kN„ klp, ... , kN.p) v _ д! I (fop - Л;у». ^ip. - > kjyp) '(krklp)2+... + (kw....,kw.p)2 Это преобразование дискретной ошибки делает равным величины m[x'j29+ ... +x'w.2g] и R. 7.5.5. Нейронные сети с Н*-выходными каналами; континуум решений нейронных сетей В данном случае хд =е - Р(х) - вектор размерности JV*. Плотность распределения суммы квадратов компонент векто- ра хд имеет вид: У» N~l I ’ f J • . Ь - XN-V PV) |e]X ’ EX ХЛ(£)| j^|dxN_r..dx1de. dx2g Здесь XN~ P (^2g> Py >?№>•> £1>- • •» ejv«> X1> • . XN^~P (*)• Распределение квадрата преобразованной дискретной ошибки f (х'2 )= f FZ^fx'2 ^'2s( я> f*2g[Z (x p I I’ Отсюда первый момент данного распределения оо со % =iZ (x29)142g(x2s)dx2g=jL[Z(x2g^x NJ 1УГ1 XI ... П .... f/[xx....Xj^.pP'(*) |e]x e x dx2g После соответствующей замены переменных 167
W N aig = p- И • • [e i- - Р,-(х)]2}/(х|е)/е(€) de dx. a c< Л i*~l Из сравнения alg с выражением для R в нейронных сетях с N* выходными каналами и континуумом решений следует уравнение для функций преобразования дискретной ошиб- ки в следующем виде: N' z{ Si[e,,-Pi.(x)]2}= I [P(x), е]. (7.34) 7.6. Нейронная сеть в режимах самообучения и при произвольной квалификации учителя В случае Кр решений выражение для средней функции риска в режиме самообучения имеет вид: Кр г R = S J р [x-bfc ] f (х) dx. fcP-1 В случае системы с Кр решениями можно показать, что преобразование выходного сигнала у, формирующее сигнал у', первый момент распределения которого равен R, опре- деляется следующим образом: у' = р[х~Ь(у)], (7.35) а в случае с произвольной квалификацией учителя у' = 1(У>Е) b + (1~Ьг) p[x-b(y)J. (7.36) Выражения (7.35) и (7.36) справедливы также и для случая нейронной сети с континуумом решений. Литература 7.1. Уидроу Б. Распознавание образов и адаптивное управление // Зарубежная радиоэлектроника. - 1965, - №9, с. 87-111. 72. Галушкин А.И., Зак Л.С., Тюхов Б.П. К сравнению критериев оптимизации адаптивных систем распознавания образов. - Киев, «Кибернетика», №6, с.122-130. 7.3. Галушкин А.И. Реализация критериев первичной оптимизации в системах распознавания образов, настраивающихся по замк- нутому циклу в режиме обучения. - Труды МИЭМ, вып.23, 1971, с. 191-203. 7.4. Галушкин А.И. Синтез многослойных систем распознавания образов. -М., Энергия, 1974. 168
Глава 8. Разработка алгоритмов поиска экстремума функций многих переменных 8.1. Организация процедуры поиска экстремума функционала вторичной оптимизации в многослойных нейронных сетях В соответствии с принятой в данной работе методикой син- теза нейронных сетей экстремум функционала вторичной оп- тимизации находится с помощью итерационных методов с использованием градиентной процедуры поиска в основном локального экстремума. Рассматриваются вопросы анализа ус- тойчивости и сходимости градиентных процедур при отсут- ствии и наличии ограничений на переменные, а также воз- можность ускорения процессов поиска экстремума. В каче- стве ограничений на переменные (в частности настраивае- мые коэффициенты) рассматриваются ограничения типа ра- венств и неравенств, реально присутствующие в случае ре- ализации многослойных нейронных сетей. Итерационные методы поиска экстремума функций мно- гих переменных развиваются в основном в двух направлениях. Первое направление включает поиск экстремума функций многих переменных с построением стандартных программ по- иска. При этом вид функции и ее свойства задаются достаточ- но полно. В процессе исследования изучается в основном схо- димость методов, иногда их точность в установившемся со- стоянии; динамике переходных процессов уделяется незначи- тельное внимание. Второе направление включает в себя построение алго- ритмов настройки адаптивных систем. Здесь функция задана в самом общем виде вследствие специфики задачи, заключаю- щейся в необходимости работы системы в условиях малой априорной информации о входном сигнале [8.1-8.29]. Многослойные нейронные сети есть частный случай адап- тивной системы. Особенности построения адаптивных систем связаны с тем, что при неизвестных характеристиках вход- ного сигнала (в нашем случае - условной плотности f '(х/е)) даже при фиксированной структуре разомкнутой нейронной сети ничего нельзя сказать о виде функционала вторичной оптимизации, кроме того что он имеет несколько локальных экстремумов, все или по крайней мере некоторые из кото- 169
рых должны быть найдены в процессе настройки по замкну- тому циклу. Решить задачу оптимизации контура настройки многослойной нейронной сети в общем на этапе организации поиска экстремума функционала вторичной оптимизации нельзя. В процедуре поиска всегда остается степень субъек- тивизма, это выражается, в частности, в выборе коэффици- ентов параметрической матрицы системы поиска. В связи с этим в гл. 12 основной упор делается на оптими- зацию контура настройки многослойных нейронных сетей при исследовании замкнутых систем с оценкой качества по текущему значению функционала первичной оптимизации. 8.2. Анализ итерационного метода поиска экстремума функций многих переменных Общее выражение для вычисления вектора состояния системы при поиске экстремума функции У(а) в момент вре- мени п+1 по вектору состояния в n-й момент имеет следую- щий вид (для памяти системы поиска, равной единице): а(п+1) = а(п) + . (8.1) а а = а(п) Здесь Y(a) - функционал вторичной оптимизации; а(п) - вектор состояния системы (текущее значение аргумента эк- стремальной функции); К*-[№х№] - матрица коэффициен- тов; № - размерность вектора а. Выбор коэффициентов матрицы К* определяет скорость и качество сходимости итерационного метода. В процедуру (8.1) вписываются известные методы поис- ка: сканирования, наискорейшего спуска, градиента, Гаус- са-Зейделя, Розенброка, Пауэлла, Саусвелла и др. Основной задачей является выбор ограничений на пара- метры матрицы К* для обеспечения определенного качества системы поиска экстремума функции. Рассмотрим частный вид функции качества нейронной сети Y(a) = лгА • а + Вга + С. (8.1а) Здесь А - матрица коэффициентов функционала Y(a); В - вектор коэффициентов; С - коэффициент. 170
Отсюда dY(a) ГЭ2У(а)1 т=2Ла+в- [э^]=2Л> <8-2> i, ] = №. Из (8.1) и (8.2) следует рекуррентное выражение для вы- числения вектора состояния системы поиска в (п+1)-й момент времени через вектор состояния системы в п-й момент вре- мени в следующем виде: а(п+1) = а(п) + К*[2Ах(п) + В] или а(п+1) = К* • В + [У + 2К*А] а(п). (8.3) Здесь У - единичная матрица. Определим, при каких значениях коэффициентов матрицы К* итерационный процесс сойдется за один шаг из любого начального состояния. Значение вектора а(1), обеспечиваю- щего в данном случае экстремальное значение, определяется следующим образом: 1 а(1) = - ^'*В. Подставляя данное выражение в (8.3), получаем выраже- ние для искомой оптимальной матрицы К*: К*о„ = - | А’1. Система, обеспечивающая на n-м шаге переход в (п+1)-ю точку, называется устойчивой, если значение функции в (п+1)-й точке меньше, чем в n-й точке. Соответственно автоколеба- тельной или неустойчивой называется система, у которой пос- ледующие значения функции равны или больше предыдущих: 1) а(п+1) = К* В + [У + 2К*А] а(п); 2) ат(п)Аа(п) + Вта(п) = ат(п+1) А а(п+1) + Вга(п+1). (8.4) Решение данной системы требует применения ЭВМ. При рассмотрении конкретных методов поиска экстремума, а сле- довательно, и конкретных видов матрицы К* необходимо про- верять условия удовлетворения данной матрицей соотноше- ния (8.4) для обеспечения устойчивости системы поиска. 171
Получим нерекуррентное выражение для а(п). Из (8,3) следует: а(1) = К* В + [У+ 2АК*] а(0); а(2) = К* В + [У + 2АК*]К* B + [Y + 2АК*]2а(0); а(3) = К* В+ [У + 2АК*]К* В + [У + 2АК*)2К* В + [У + 2К*А]3а(0). По индукции а(п) = [У +(У + 2К*А] +... + (У + гК'АГ'ЧК* В + [У + 2К*АГа(0). Учитывая, что У +(У + 2К*А] +... + (У + 2К*АГ'’= УГРГ~|~-2К*Л)П= v J k J У-[У + 2К*А] = - 1у-(у + 2к*а)п](2К*А)"1, можно записать выражение для а(п) в следующем виде: а(п) = (У + 2К*А)П а(0) +| [(У + 2К*А)П- У](К*А)-ТК*В. Отсюда получаем окончательное нерекуррентное выра- жение для вектора состояния системы поиска а(п) = (У + 2К*А)П а(0) [(У + 2К*А)П- У^В. (8.5) Подставляя в (8.5) условие оптимальности по быстродей- ствию рассматриваемой системы поиска, равное К = -1/2 А'1, получаем, как и следовало ожидать: 1 , а(п)= -- А-1В,п=1,2.... что соответствует экстремальному значению функции. Путем анализа нерекуррентной формулы получим ограни- чения на параметры матрицы /С, обеспечивающее сходимость итерационного процесса поиска. Из (8.5) следует, что 1 lim а(п) = - — А-1В, П -4<*> 2 т.е. не зависит от а(0) и равен экстремальному значению век- тора состояния при 172
lim (Y + 2K*A)n = O, n —><» где О - нулевая матрица (Y, Л). Это выражение можно исполь- зовать для доказательства сходимости системы поиска. В [8.12] приводится также вывод выражения доя матрицы К*, удовлет- воряющей условию автоколебательности процесса поиска. 8.3. О методе стохастической аппроксимации Метод стохастической аппроксимации реализуется систе- мой поиска, аналогичной градиентной, но имеющей перемен- ные параметры (матрицу К*) [8.1, 8.3, 8.6, 8.8]. Метод стохас- тической аппроксимации как частный градиентный метод по- иска применяется при наличии случайных ошибок измерения вектора градиента минимизируемой функции. Именно нали- чие указанных случайных ошибок делает необходимым вве- дение переменности параметров системы поиска с целью обес- печения нулевой случайной ошибки определения точки экст- ремума. Недостатки этого метода поиска совершенно спра- ведливо отмечаются в работах А.Г. Ивахненко [8.29] в плане увеличения систематических ошибок в переходном процессе поиска точки экстремума. В излагаемой в данной работе методике синтеза нейрон- ной сети применение метода стохастической аппроксимации возможно наряду с другими методами поиска, в частности с постоянными параметрами. При этом построение замкнутых нейронных сетей производится в любом случае при некото- рой неопределенности в задании матрицы К*, которая ликви- дируется лишь на этапе исследования замкнутых систем. Воп- рос об оптимальном (по критериям первичной оптимизации) выборе параметров матрицы К* здесь будет являться некор- ректно поставленным, так как вид минимизируемой функции нам заранее не известен. 8.4. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа равенств на переменные В общем виде ограничения типа равенств на настраиваемые коэффициенты нейронной сети записываются в следующем виде: дц(а) = 0, ц = 1..Мр Mj<№+1. 173
В реальных нейронных сетях N S аг = а = const, (8.6) т.е. существуют, например, ограничения на сумму коэффи- циентов. 8.4.1. Алгоритм поиска В данном случае задача минимизации функции качества Y(a) в многослойных нейронных сетях решается путем состав- ления функции Лагранжа Y(a, X) = Y(a) + VqT(a), где Хг = [ХрХм ] - вектор множителей Лагранжа, qT(a) = = [д±(а)...qM (а)] - вектор-функция ограничений. Решение задачи минимизации сводится к решению следу- ющей системы уравнений: dY(a, X) dY(a) dY(a,l) —------= —— + Q(a) X = 0; —------= q(a) = 0. (8.7) da da dX Здесь dq^a) ... dgMl(a) Q(a) = Эдц(а) Из (8.7) следует рекуррентное основой для алгоритма поиска . хи- / х-Liz*/ ,dY(a,X) a(n+l) = a(n) + К*£п) a = a(n) A = A(n) A(n+1) = A(n) + a = a(n) A - A(n) да{ Эа0 ддг(а) ...ЭдМ1(а) Эа„ соотношение, являющееся Л(а-*) a = a(n) A = A(n) к* a = a(n) A = A(n) представлена В этом случае система поиска может быть эквивалентной дискретной системой с параметрическими мат- рицами К*а, К*Л , . Учитывая (8.7), можно записать окончательное выражение для алгоритма поиска в следую- щем виде: а(п+1) = а(п) + К* (n) + Q(a) • Л J А = Х(п) aa _ + К* (n) q(a) a = a(n) ™ a = a(n) ^7 174
A,(n+1) =tyi) + (n) + Q(a) X a = a(n) + K*ft(n) q(a) L -I x=X(n) В случае ограничений типа (8.6) Г dY(a) a(n+l) = a(n)+K*(n) aa ”dY(a) ^(n+l) = X](n) + K*(n)|j£j- a = a(n) -r— + 1’ aa a=a(n) Г № + К*г(п) S a,(n)-a ; л Li=O + 1 • X,(n) + K* (n) L a{n) -а , a = a(n) J » Li=0 где 1 - вектор-столбец размерности W0+l, состоящий из 1. 8.4.2 Анализ матрицы вторых производных функции Лагранжа Если Y(a) представлено выражением (8.1а) и введено обо- значение YT=[a0, . . Э 2У(а,Л)~ = ’ а№< ^1........\vfjb то I III II IV , I -И = 0,..., i = О, •., №; II -> i = №+1,..., №+М[; j = 0,..., №; III г = 0,..., №; j = №+1,.... №+Мг- IV -> г = №+1,..., №+Мр j = №+1,№+Mv i,j-0,...,№, N+1,...,N°+Mr Очевидно, что [I] = 2А, [III] = [II]T = Q(a), [IV] = 0. Таким образом, матрица вторых производных функции Лаг- ранжа имеет следующий вид: Г W)l.[2£ieliW_o........л„.+1.... [ Э».Ч] м о] 8.4.3. Оптимальность по быстродействию итерационной процедуры поиска экстремума при ограничениях типа равенств При использовании метода Ньютона для минимизации функции Лагранжа оптимальность по быстродействию обес- печивается при условии К*(п)= УУ(у)- ,№,№+1,...,№ + Мг у=1Н 175
Можно показать, что условием существования матрицы, обратной матрице входных производных функции Лагранжа, является условие равенства Мг рангу матрицы Q. Отсюда 2А . QT н-1 -H-'QTA^ I Q О г, j = О, ...,№, №+1, ..., №+м,, ’ J * ’ ’ ’ ’ 1’ где Н =-QTA1'iQ, Aj=2A. Отсюда следуют выражения для матриц K*a(n), K^(n), K^(n), К*л(п), обеспечивающих опти- мальность процедуры поиска по быстродействию. 8.4.4. Оптимальность по быстродействию при ограничениях (8.6) В данном случае № (n)=-Aj' 1[Л_Ъ], где I - единичная матрица размером [(№+1)х(№+1)]; L = QH'lQTA1-1 = Q(-QTAj-1Q) ‘ VAf1. В рассматриваемом частном случае при QT=[1, . . . , 1] № № где ол= S Д ay; Af^ta.]; L= ~ oj QQrAj"1 = —”бд ао • • • а№ “о № а =Е a.., j = о,... №. J i=0 4 ’ J Следует отметить, что при любой априорной информации о матрице А матрица К*а отлична от (-А^1) и даже при диагональной матрице А является недиагональной. Матрица имеет следующий вид: т.е. при наличии одного ограничения оптимальная величина определяется лишь суммой элементов матрицы Af1 по стро- кам и столбцам. В данном случае K^A^QH-1 =A1-1Q(-Q*Ai-iQ)-1 = a;1Q(- [ “° A A K. В данном случае при любой априорной информации о 176
матрице А матрица К*^ не равна нулевой матрице, т.е. пере- крестные связи в алгоритме поиска присутствуют. 8.4.5. Случай ограничений типа равенств, решаемых относительно переменных При рассмотрении ограничений на переменные вида QTa=a, где QT = Qoi • • • $№i (8.8) линейность ограничений позволяет решить систему равенств относительно переменных, т.е. выразить коэффициенты a0,...,aMi j через остальные переменные. Для этого матрица Q разбивается на два блока: QTW- = I ^(Mj+цг • • ®№1 ---------1--------------- «0! ®0М1 Тогда ограничения (8.8) принимают следующий вид: Qjad’+Q/a’^a, где а(1)Т= [а0, ... , аМг1 ], а<2’т= [aMj, ... , aNo], Отсюда a<1>=(QT)'1(a-Q2Ta'2>). (8.9) Данное выражение подставляется в У(а) и экстремум ре- зультирующей функции (M’+l-Mj) переменных отыскивается изложенным выше методом. При этом определяются опти- мальные значения (№+1-.^) переменных. Оптимальные зна- чения М1 переменных определяются по (8.9). При соблюдении условия (8.6) выражение (8.9) принимает вид: № a. = a - 2 а,. 0 ,=1 1 177
8.4.6. Устойчивость итерационного процесса при ограничениях типа равенств Процесс поиска будем считать устойчивым, если на каж- дом шаге значение функции Лагранжа уменьшается, т.е. У[у(п)]< Y[y(n-1)]. (8.10) Раскладывая Y(y) в ряд Тейлора в окрестности точки у(п-1) и пренебрегая членами порядка выше второго, получаем: Y[y(n-l)+A]=Y[y(n-l)]+A7’ т y=y(n-n 2dy2 А. у=у(п-1) Здесь через А обозначен вектор-приращение переменных. Учитывая (8.10), получаем условие устойчивости ^1 ^1 ау |y=y(n-l) zay |у=у(п-1) Итерационная процедура на каждом шаге поиска дает сле- дующее приращение: А=К*(п-1) dy y=y(n-l) (8.12) Подставляя (8.12) в (8.11) после соответствующих преобра- зований получаем dY(y) dy y=y(n-l) K*T(n-l)+K*T(n-l)S-| K*(n-1) x y=y(n-l) dY(y) dy <0. y=y(n-1) Отсюда следует, что достаточным условием устойчивости является отрицательная определенность матрицы G= K*T(n-l)+K*T(n-l) K*(n-1) y=y(n-l) Эта матрица связывает параметры функции Лагранжа и параметры матрицы К* системы поиска. 178
8.4.7. Сходимость итерационного метода поиска при ограничениях типа равенств Сходимость процесса поиска будет рассмотрена для слу- чая квадратичной функции. В этом случае У(аЛ)=атАа+Вта+ +C+XTQa: dY(aA) _ 2Aa + BT + QTk d(a,X) Qa Это выражение можно записать: dy(a,X) d(a,X) 2А Q QT 0 а X + 'вт' 0 = А а X + в. В данном случае у(п) ~ У(я-1) + K*(n-1) [Ау(п~1) + В]. Как и ранее, можно записать нерекуррентное соотноше- ние для обобщенной переменной состояния ¥(п) = [у + к*А]пу(0) + [(У +к*А)п - у]а-!в. Подстановка Y(n) =А'1В в (8.13) показывает, что вектор- градиент функции Лагранжа обращается в нуль, т.е. точка ¥(п) =А'1В есть точка экстремума. Для сходимости итерацион- ной процедуры к точке ¥(п) =А-1В достаточно доказать, что lim [У + К*А]П = 0. п->°° В случае неособенности матрицы [У + К* А] это эквивалент- но доказательству того, что | Det [У + К*А] | <1. 8.5. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа неравенств на переменные Указанные ограничения в нейронной сети возникают в ча- стности из-за ограниченности пределов изменения настраи- ваемых коэффициентов и записываются в следующем виде qg(a)<0 (ц=1,...,М2). 179
В основном в нейронных сетях имеют место ограничения частного вида а. — а < 0: : макс ’1 а — а - < 0. МИН I (8.13а) В частном случае при построении нейронных сетей на ре- альных физических элементах возможны следующие случаи: а = — а > 0. макс мин 8.5.1. Условия оптимальности Условия оптимальности в данном случае даются теоремой Куна-Такера, которая представляет собой обобщение мето- да Лагранжа на случай ограничений типа неравенств. В соот- ветствии с теоремой Куна-Такера оптимальный вектор а, доставляющий минимум выпуклому функционалу, является решением следующей системы уравнений и неравенств: dY(a,X) dY(a) da da + Q(a)X =0; q(a) + 5 = 0, X>0, „ (8-14) Г8 = 0, 5>0. Выражение для матрицы Q здесь сохраняется прежним с заменой Mj на М2. В выражении (8.14) Х2, Х3, . . . , ХМ2], 5= [5р 52, 53, .. . , 5Мг]. Неравенства 8>0 и Х>0 означают, что все компоненты этих векторов неотрицательны. Кроме того, предполагается, что ограничения таковы, что существует вектор а, для которого соблюдается соотношение qg(a)<0. Условия (8.14) имеют сле- дующий физический смысл. Если для оптимального вектора аопт несущественно какое-то ограничение, т.е. <?и(аопт)<0 для какого-то Ц, то соответствующее Хц равно нулю. Если Х^>0, то в этом случае, как следует из (8.14), 8(i=q|i(aom.)=0. Таким образом, множители Лагранжа можно интерпрети- ровать как некоторые оценки влияния ограничений на опти- мальное значение вектора настраиваемых коэффициентов. От- 180
метим, что если функции Y(a) и дц(а) (|г=1.М2) выпук- лы, то теорема Куна-Такера дает необходимые и достаточ- ные условия оптимальности. 8.5.2. Алгоритм поиска экстремума при наличии ограничений типа неравенств Из условий оптимальности (8.14) получаем систему соот- ношений для итерационной процедуры поиска экстремума при ограничениях типа неравенств ~ dY(a,X) dY(aA) ' а (п+1) = а (п) + К*о(п)-^-+ К*^(п) а = а(п) А = А (п) Л(п+1) = max Л(0)>0 0,Л(п) + К»^ dY(aA) + K^-d)T a = a(n) А = А (п)" Отсюда окончательно dY(a) а (п+1) = а (п) + JCJn) следует аа Х(п+1) = max 10, А(п) + К* (п) Ла + Q(a)A u«t a = a(n)+K*>)4(a) X = А (п) а = а(п) < x+K^(n)q(a) a = a(n) " А = А(п) a = a(n) В частном случае ограничений типа неравенств, задавае- мых соотношениями (8.13а), q,(a)= а-а„„ <0; q,(a)= а„ -а<0; • А МаКС 6 МНП q(a)= а~а . ®мин 1 О 0 1 о о Q(a)= -1 О 0....0 0 -1 0....0 0 0 0....1 8.6. Алгоритм случайного поиска локальных и глобального экстремумов функций многих переменных Пожалуй, единственной причиной введения случайности в процедуру поиска экстремума функционала вторичной оп- тимизации нейронной сети является многомодальность рас- 181
пределений входного сигнала, которая при заданной струк- туре разомкнутой нейронной сети приводит к многоэкстре- мальности функции качества нейронной сети. Наиболее пол- ное освещение методы случайного поиска нашли в работах Л.А. Растригина, в частности в его монографиях [8.2, 8.16]. Нашей задачей является поиск локальных минимумов мно- гоэкстремального функционала ошибки нейронной сети, и, если это необходимо, выбор из них глобального минимума. Именно поэтому применительно к нейронной сети был раз- работан метод случайного поиска локальных и глобального экстремумов функций многих переменных. Опишем один цикл работы данного алгоритма: а) случайным образом выбирается значение вектора пере- менных функции, экстремум которой отыскивается. Само со- бой разумеется, что данный вектор располагается в области одного из локальных экстремумов; б) одним из изложенных выше методов неслучайного по- иска находится локальный экстремум, в области которого рас- положен вектор переменных, выбранный на первом этапе; в) величина экстремума и соответствующее ему значение вектора переменных, найденных на втором этапе, сравнива- ются с содержимым памяти. При отсутствии в памяти указан- ных характеристик локального экстремума последние запо- минаются; г) производится переход к первому этапу (п.«а»). Результаты экспериментального исследования данного ал- горитма при многомодальных распределениях входного сигна- ла и нейронной сети типа одномерного и многомерного ней- рона приводятся в гл. 12. Ниже рассматривается задача ана- лиза сходимости данного алгоритма случайного поиска по числу экстремумов функции. В принципе можно рассмотреть алгоритм случайного поиска, исключающий из области слу- чайного задания вектора начальных условий те подобласти, которые соответствуют уже найденным локальным экстре- мумам. Это, несомненно, ускорит сходимость алгоритма слу- чайного поиска по числу экстремумов. Произведем анализ сходимости алгоритма случайного по- иска локальных и глобального экстремумов функций. Пусть найдено i мод (0<i<U-l). Вероятность того, что на следующем шаге мы попадаем в область этих i мод, равна i/U при равно- мерном распределении мод в пространстве поиска. Распреде- 182
ление случайной величины равной числу шагов случайной процедуры поиска от нахождения г-й моды до нахождения (г+1)-й моды включительно, имеет вид ^.=fc с вероятностью Процедура случайного поиска производится независимо на каждом шаге. Введем в рассмотрение новую случайную величину ,^(1<)<П), характеризующую число шагов слу- чайной процедуры до нахождения j мод из U. Независимые события ...........где * - s+1,..., 1 < < s+1 и fcj+кг + • + ^;-i= s + j ~ 1 в объединении дают событие такое, что Т|3- =^0 +... +Е5_1= s + 7> причем = 1 с вероятностью, равной единице. Вероятность такого события в силу независимости равна: По формуле полной вероятности P(n, = s + j)= S P^kJ.-.P^ =к ) = k1+... + k1=s+j-l к_>1 (17-1)! J-1 к’. = V1-1-S -1---X П i (8.16) fc1,+... + k/.1=s(V>0)i=l В частности, при j=U и~1 к' P('Y\U = s + U) = U1'u's(U~l)\ L Пг г, к^+... + kJ^s i=l (k>r=l,..U-1) где Р(т]ц = s + И) - вероятность того, что 17 мод будут най- дены за (s+U) шагов случайной процедуры поиска. Можно показать, что среднее значение и дисперсия числа шагов случайной процедуры поиска, необходимых для нахожде- ния U мод, могут быть представлены следующими выраже- ниями: 183
и-1 1 Мт|„=1 +и Е 7= 1 + Ц [in(U-l) + 0,577]; г=1 г (8.16а) U-1 DT1u=r?i = 2U2 - U [in(U-l) + 0,577... ]. г2 Анализ данных выражений показывает достаточную ско- рость сходимости рассматриваемой процедуры поиска. В прин- ципе, как показано выше, процедура может быть обобщена на случай, когда область найденной моды исключается из об- ласти случайного поиска, что еще более ускорит сходимость случайной процедуры поиска. Приведенные выше соотноше- ния верны и для многомерного случая. 8.7. Построение алгоритмов адаптации в многослойных нейронных сетях с использованием оценок производных второго порядка функционала вторичной оптимизации Рассмотрим построение алгоритмов адаптации в многослой- ных нейронных сетях с использованием оценок производных одновременно и первого и второго порядка функционала вто- ричной оптимизации. Основное внимание уделяется алгорит- мам поиска экстремума функционала с учетом вторых произ- водных и выводу выражений для оценок вторых производных функционала через текущие сигналы в системе. 8.7.1. Построение алгоритмов поиска Рассмотрим задачу поиска экстремума в виде эквивалент- ной задачи нахождения корня следующей системы уравнений: D1(x1.....xN) = 0; (8.17) ^jy(^p ' • • > O’ При рассмотрении системы, заданной неявно У1 Hj(Xp • • •, Дуу) 0, У/v — ON(Xp ..., xN) — 0 (8.18) и удовлетворяющей второй теореме Юнга, существуют такие 184
*1(У1- •••> yN) = Fi(yp у J' хг№и •••> У^ = ^(Ур •••> У^< (8.19) что при их подстановке в (8.18) получаются тождества. Раз- ложим функции Fl(y1> ..., yN)......FN(y1....yN) в ряд Тейлора, ограничившись двумя членами N N N аг v / 1 F,(0) = F,(y) - S F.-.W », + £2 S + B31; (8.20) F«(0) f»<y> ...+2, Дифференцированием (8.18) с учетом (8.19) получаем сле- дующую систему уравнений: у dDj dx; i=l Эх,. dy 1; k <=1 dyk (8.21) <ц = 0; i=l Эх,- dyk ЭУ1 ..3FJ Wn dD, di. .ЭЛ/ 3xw -1 • 3yt dyN dDN. Эх j 3xN После дифференцирования (8.21) получаем: £ Э2х,- Эо1 , у у a2Pt dx. Эх{ 1=1 dykdyl Эх( i=lj=l dxidxj dyldyk Э2х{ dDN + 2 d2DN Эх;. Эх,- i=i dykdyl Эх,. i=lj=l dXjdXj dyt dyk 185
Умножая обе части уравнений на уку1 и суммируя по к и I, получаем N -лг. N N 32 N N N N 3 з V oD. v v rx. v v d2D, у v dx,- dx,- _ h з-1 L L —yky, = -2Л —1 L L—i—i y,yk=C,\ 1=1 dx{ k= 11=1 УкУ1 1=11=1 аг.&гЛ=11=1 ду,дук1к 1 М9?/г............................................ .......... УкУг N N 22 п № N -ч i=i ;=1 дх{ дх.к=1 г=1 dy; ЭУк У!Ук= сгг Иначе эту систему уравнений можно переписать: N N ZX ykyt k 11-1 3yfcdy( n'n ........... S S С учетом того, что вектор dD1 dD^ dXj dxN dxt dxN С . есть корень системы (8.17), aDj др± dXj dxN ^Dn ... ^Dn dxN N Ук=Т>№'< Д Л d2P} Д dx dx( i=i j=i дх{дх. t=i 1=1 дуг dyk^k^1 s s L E yy,. L^i м dx.dXj i^i i=i дУ1 дукУкУ1 .86
Из (8.20) следует: а= х - W’iD + -jp W-!C. Отсюда следует общее выражение для алгоритма поиска экстремума функции многих переменных при наличии матри- цы производных второго порядка х(п+1) = х(п) - W-][r(7i)] D [x(n)] + W1 [x(nj] С [х(п)]. (8.22) 8.7.2. Одномерный случай В этом случае D(x)=0; F(y)=D’1(x); xeF[D(x)], (xe[a,b]); y=D[F(y)]. Если a - корень уравнения, то a = F(0). Разложим F(y) в ряд F(0) - F(y) = S (~l)fc ^yfc + Rr+1 /c=l K‘ или, иначе, a= x + t (-l)fc —[D(x)p + Rr+1. Из исходных уравнений дифференцированием получаем: F' [О(х)]О'(х) = 1; F" [О(х)]о'2(х) + F' [D(x)]D"(x) = 0; F'" [D(x)]№(x) + 3F" [D(x)]D'(x)D"(x) + Г [D(x)]D'"(x) = 0; В случае r=2 получаем окончательно D'(x) d'\x) x(n+l) = x(n)--+ D'"(xn), (8.23) 2X'(xn) 2D 3(xn) где D"'(xn)=K*(n). Литература 8.1. Цыпкин Я.З. Адаптация, обучение и самообучение в автомати- ческих системах. //«Автоматика и телемеханика». -1966, - № 1,- с. 23 - 62. 187
8.2. Растригин Л.А. Случайный поиск в задачах оптимизации мно- гопараметрических систем. - Рига, Зинатне, 1965. 83. Цыпкин Я.З. Применение метода стохастической аппроксимации к оценке неизвестной плотности распределения по наблюдени- ям.//«Автоматика и телемеханика».-1966, -№ 3, -с. 94 - 96. 8.4. Девятериков И.П., Пропой А.И., Цыпкин Я.З. О рекуррент- ных алгоритмах обучения распознаванию образов. //«Авто- матика и телемеханика». -1967. -№ 1,-с. 122 - 132. 8.5. Цыпкин Я.З., Кельманс Г.К. Рекуррентные алгоритмы само- обучения. //«Автоматика и телемеханика». -1967, -№5, - с.78 - 87. 8.6. Цыпкин Я.З. Адаптация и обучение в автоматических систе- мах. -М., Наука, 1968. 8.7. Цыпкин Я.З. Оптимальные гибридные алгоритмы адаптации и обучения.//*Автоматика и телемеханика». -1968. -№9, -с. 96. 8.8. Цыпкин Я.З. Основы теории обучающихся сестем. -М., Наука, 1970, 251 с. 8.9. Цыпкин Я.З. Обобщенные алгоритмы обучения. //«Автоматика и телемеханика». -1970, -№1, с .97 - 104. 8.10. Цыпкин Я.З. Обучающиеся автоматические системы. //Авто- матика и телемеханика». - 1970, -№4, с. 55 - 71. 8.11. Забрейко П.П., Красносельский М.А., Цыпкин Я.З. Об опти- мальных и субоптимальных алгоритмах обучения. //«Автома- тика и телемеханика». -1970,. -№ 10, с. 91 - 98. 8.12. Галушкин А.И. Анализ одного итерационного метода поиска экстремума, //«Автоматика и вычислительная техника». АН Латв. ССР. -1970, -№ 2, с. 38 - 40. 8.13. Цыпкин Я.З. Сглаженные рандомизированные функционалы и алгоритмы в теории адаптации и обучения. //Автоматика и те- лемеханика». -1971, -№ 8, с. 29 - 50. 8.14. Галушкин А.И., Тюхов Б.П., Чигринов В.Г. О сходимости од- ного метода случайного поиска при отыскании локальных и глобальных экстремумов многоэкстремальной функции. // Тру- ды МИЭМ. -1971. - Вып.23. - С. 205 - 209. 8.15. Галушкин А.И., Шмид А.В. Итерационные методы поиска эк- стемума функций многих переменных при ограничениях типа равенств. //«Автоматика и вычислительная техника». АН Латв. ССР. -1971. -№ 4. С. 88 - 91. 8.16. Растригин Л.А. Случайный поиск с линейной тактикой. -Рига, Зинатне, 1971. 8.17. Цыпкин Я.З. Алгоритмы динамической адаптации. //«Автома- тика и телемеханика». -1972, -№1, с. 68 - 76. 8.18. Цыпкин Я.З. Алгоритмы обучения распознаванию в нестацио- нарных условиях. //«Проблемы передачи информации». -1972. - Вып. 3. - С. 94 - 102. 8.19. Поляк Б.Т., Цыпкин Я.З. Псевдоградиентные алгоритмы адап- 188
тации и обучения. //«Автоматика и телемеханика». -1973. -№3, -с. 45 - 68. 8.20. Цыпкин Я.З., Каплинский А.И., Красненкер А.С. Методы ло- кального улучшения в задачах стохастической оптимизации. Изв. АН СССР. Сер. «Техническая кибернетика», -№6 , -1973. С. 3 - 11. 8.21. Цыпкин Я.З. Адаптивные методы выбора решений в условиях неопределенности. //«Автоматика и телемеханика». -1976, - №3, -с. 78 - 91. 8.22. Цыпкин Я.З. Оптимизация в условиях неопределенности. Докл. АН СССР. Т 228, №6, 1976. С. 1306 - 1309. 8.23. Цыпкин Я.З. Стабилизация и регуляризация оценок оптималь- ных решений при наличии неопределенности. Докл. АН СССР, Т 236, № 2, 1977. С. 304 - 306. 8.24. Цыпкин Я.З. О некоторых свойствах случайного поиска. // «Автоматика и телемеханика». -1977, ~№ 11, - с. 89 - 94. 8.25. Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные ал- горитмы стохастической оптимизации. Докл. АН СССР. Т. 250, № 5, 1980. С. 1084 - 1087. 8.26. Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные ал- горитмы адаптации. //«Автоматика и телемеханика». -1980. - № 8. - С. 74 - 84. 8.27. Поляк Б.Т., Цыпкин Я.З. Робастные псевдоградиентные алго- ритмы адаптации. //«Автоматика и телемеханика», -1980, - № 10, - с. 91 - 97. 8.28. Цыпкин Я.З., Позняк А.С. Оптимальные поисковые алгоритмы стохастической оптимизации. Докл. АН СССР. Т. 260, № 3, 1981. С. 550 - 553. 8.29. Ивахненко А.Г. Самообучающиеся системы распознавания и автоматического управления. -Киев, «Техника», 1969, 392 с. 189
РАЗДЕЛ 3. АДАПТИВНЫЕ НЕЙРОННЫЕ СЕТИ Глава 9. Алгоритмы настройки нейронных сетей 9.1. Постановка задачи Как указывалось в гл.7, выбор функционала вторичной оп- тимизации производится на основании заданных в общем виде характеристик входного сигнала, критерия первичной оптими- зации и структуры разомкнутой нейронной сети. В процессе выбора функционала в системе распознавания были сформиро- ваны сигналы, моменты распределения которых соответствуют или равны некоторым функционалам первичной оптимизации. Замкнутая нейронная сеть представляет собой разомкну- тую нейронную сеть с включенным блоком настройки. Постро- ение замкнутых нейронных сетей производится на основании выбранного критерия вторичной оптимизации и метода поис- ка экстремума данного функционала [9.1-9.4]. В качестве фун- кционалов вторичной оптимизации были рассмотрены функ- ционалы, связанные с моментами аналоговой и дискретной ошибок нейронной сети. В процессе построения замкнутых систем производится синтез блока вычисления параметров фун- кционала качества нейронной сети, необходимых для органи- зации процесса итерационного поиска. При этом основная за- дача заключается в том, чтобы оценить вектор градиентов функционала вторичной оптимизации. Решить эту задачу мож- но двумя путями: поисковым, когда для организации итера- ционного процесса движения к экстремуму функционала ка- чества знания или знаки производных определяются в ре- зультате воздействия на систему и обработки результатов воздействия поисковых колебаний; нахождением оценки век- тора градиентов в виде аналитического выражения через про- межуточные и выходные сигналы нейронной сети. В первом случае имеют дело с поисковой нейронной сетью, во-втором - с аналитической. Естественно, предпочтительнее построение нейронной сети в виде аналитических систем, на- страивающихся по замкнутому циклу, так как введение поис- ковых колебаний вносит дополнительные шумы в систему. Од- нако построение нейронной сети в виде аналитической систе- мы не всегда возможно. Если в системе нельзя выделить сиг- нал, характеризующий градиент функционала оптимизации, то необходимо использование поисковых колебаний. 190
Ниже рассматриваются системы распознавания различ- ных типов: нейрон с двумя решениями на два класса обра- зов, нейрон с Кр решениями на К классов образов, нейрон с континуумом решений и континуумом классов образов, мно- гослойные нейронные сети из нейронов с континуумом ре- шений при наличии и отсутствии ограничения на настраива- емые коэффициенты, многослойные нейронные сети с N'- мерными сигналами е(п) и у(п), многослойные нейронные сети с перекрестными и обратными связями. Методика построения методологически просто обобщается на случай нестационарных образов, когда функционал вто- ричной оптимизации зависит от времени, а реализация век- тора градиентов есть реализация нестационарного многомер- ного случайного процесса. Это свойство градиента определя- ет методику построения многомерного фильтра в блоке на- стройки нейронной сети. Отдельного внимания требует вопрос построения многослой- ных нейронных сетей в режимах самообучения и произвольной квалификации учителя. Методология построения замкнутых нейронных сетей здесь та же, что и в режиме обучения. Построение алгоритма настройки нейронных сетей по замкну- тому циклу производится подстановкой выражения для оцен- ки вектора градиента функционала в соответствующую фор- мулу для поисковой процедуры. 9.2. Нейрон с двумя и континуумом решений Для нейрона с двумя решениями ниже рассматриваются четыре функционала вторичной оптимизации |а1о|, а2а, | а1д|, а2д. Выражение для модуля оценки первого момента аналого- вой ошибки имеет следующий вид: N | = |e(n)mn -1 afxi(n)m"|, (х0=-1). Отсюда Э j xa(n) I =_ sign [ Ха(п™” ] х/пГ”, г=0, . . .,N. d ai Рекуррентное выражение, являющееся основой построе- ния нейрона, настраивающегося по замкнутому циклу, имеет следующий вид: а(п+1) = а(п) -К* sign [ xa(n) n] x(n) n. (9.1) 191
Выбор параметров матрицы К* является в конечном итоге задачей анализа и синтеза замкнутых нейронных сетей. Одна- ко уже на данном этапе можно наложить на ее вид опреде- ленные ограничения. Эти ограничения могут определяться, исходя из задания конкретного вида градиентной итерацион- ной процедуры (Ньютона, Гаусса-Зейделя, Саусвелла и др.). В [9.5, 9.6] эти ограничения определяются для метода стоха- стической аппроксимации. Можно потребовать сходимости ите- рационной процедуры к экстремуму | а1а| на каждом шаге, т.е. соблюдения следующего условия (в одномерном случае): е(п)1Ип - х(п)тп а1(п+1)+ао(п+1)=О. В данном случае одними из возможных значений элемен- тов матрицы К* будут: К*п= - | xa(n)m" |, К’21=К’12=К*22= 0. Выбор величины тп в выражении хл(п)’п’1 = —Е х(г) а тп а' также является задачей анализа и синтеза замкнутых ней- ронных сетей. Здесь необходимо отметить следующее. Умень- шение тп, с одной стороны, приводит к повышению уровня шумов измерения градиента функционала вторичной опти- мизации, с другой стороны, уменьшает запаздывание в кон- туре настройки по замкнутому циклу. В случае минимизации второго момента аналоговой ошибки _____т тп2 N x2a(n) n = 1 +[ Е а,.х(.(п) ]- 2е(п)Е а(.хДп). Отсюда ________ " = - 2 х(п) х/пГ", г = 0,.. „N. да, а(п+1) = а(п) -2К* xa(n) х(п) п. При минимизации модуля первого момента дискретной ошибки нейронной сети | xg(n)m”| = |е(пГп - sign[ Е atxf(n) ]|; д I x7n)mnl г-----------Л Э т" ---jf 1 =- sign [ х (п)] д— sign g(n) . да, v о а. Для поиска экстремума можно использовать информацию о знаке первой производной, о величине первой производ- 192
ной, о величине первой производной и знаке второй, о величинах первой и второй производной и т.д. В данном случае величину первой производной опреде- лить нельзя и необходимо использовать информацию о ее знаке; так как Э v 2 Э v -^-sign X а.х/п) = lim Т arctg В X аЛ(п) = = lim-~- Вх^ , в->~ 71 1+В2д2(п) ТО Sign [jLSign 9(n) 1 , .S 2, J = Si§n OUl 1+B g Отсюда Э | Xg(n)| _ sjgn sign х(.(п), i = 0, . . ,,N. (9.2) Здесь и в дальнейшем при рассмотрении функционалов, связанных со вторым моментом распределения дискретной ошибки, эта величина также условно называется оценкой век- тора градиента, хотя в принципе представляет собой псевдо- градиент, полученный заменой производной ду/да^ на знак производной. В данном случае нет возможности построения алгоритма настройки по замкнутому циклу с удовлетворением крите- рия минимума | alff| при произвольном значении памяти тп фильтра оценки градиента. Чтобы показать это, представим измеренные значения градиента функционала вторичной оп- тимизации в виде некоторого случайного процесса. В общем случае (включающем и критерий минимума а2д) измеренное в текущий момент времени значение градиента может быть условно представлено в виде произведения двух сомножите- лей, а именно х1(п)х2(п). Величину одного из сомножителей, например d[sign p(n)]/9ai, нельзя вычислить непосредственно через сигналы в нейронной сети. Можно определить таким образом только знак этого сомножителя. Замена в выражении для градиента при произвольном значении тп при этом при- водит к невозможности определения знака оценки градиен- та, так как в общем случае 7 - 353 193
sign х1(п)х2(п)’Пп * sign [ xt(n) sign x2(n) n] . Отсюда следует, что построение аналитических алгорит- мов настройки нейронной сети с двумя решениями по замк- нутому циклу при рассмотрении функционалов втоичной оп- тимизации, связанных с дискретной ошибкой, возможно только при mn=l. При тп>1 и прочих равных условиях необходимо построение поисковой процедуры настройки. Необходимо от- метить, что в любом случае поисковая процедура настройки должна быть введена для оценки одного из множителей в выражении для реализации градиента вторичной оптимиза- ции, а именно ду/да. Выражение (9.2) служит основой для построения соответ- ствующей замкнутой нейронной сети. Для нейронной сети с минимизацией а2д ------тп йг2(п) ---------------тп я(П)- =_ 2 х (n) signx (n) . da, у Достаточно очевидной является идентичность алгоритмов настройки по критериям минимума | а1д | и а2д в случае mn=l- В случае нейрона с континуумом решений N у(п) = F [дг(п)] = F [ S а-хДп) ] , 1=0 N х (n) = e(n) F [ X a.x (n) ] . 9 1=0 В случае минимизации | а1д | и а2д соответственно sign [ ^)тп]_Ёр) xt(n)mn; да, в -—s--- ----------------mn ^^) = -2х(п)^92 xf(n). да, 9 dg Рекуррентные алгоритмы, являющиеся основой для пост- роения замкнутой нейронной сети, в рассматриваемых случа- ях будут иметь вид: m а(п+1) = a(n)+K*sign [х (n) х(п) • dg -------------- тп a(n+l) = a(n)+2K,*x (п)-^Д^-х(п) 19 194
2 В частном случае при arctg Вд a(n+l) = a(n)+K* sign [ [ jjff(n) L тп a(n+l) = а(п)+К * [ x(n) ^g(n) "]. 1 71 L 1+B2g2(n) J 9.3. Двухслойные нейронные сети Рассмотрим построение нейронных сетей, настраивающих- ся по замкнутому циклу и представляющих собой двухслой- ную сеть из нейрона с полными связями. В данном случае y(n) = F [g(n)] = F [ S a.y(n) ]=F [ Е a.F [д/п)](п) ]= О ' J Hl и =Ft Ц?омДп)]1 Здесь xa(n) = E(n) - g(n); xg(n) = e(n) -y(n). Основной задачей в данном случае является вывод выра- жений для оценок градиента функционала вторичной опти- мизации через выходные и промежуточные сигналы ней- ронной сети. В табл. 9.1 приведены указанные выражения соответственно для настраиваемых коэффициентов нейро- на первого и второго слоя. Таблица 9.1 Функционал вторичной оптимизации Э() да. 9() км тп ' -sign[xa(n)] y(n) -sign[xa(n)] a dF^ x/n) а2<х’ х2а(п)тп -2xa(n) y(n)"‘n -2a. xo(n)!*^!iL x;(n) 1«191> КМ mn -sign[xg(n)] x dg -sign[xg(n)] na;.x x^)dF(gi)r(n)m" dg dg, ’ 1%1, Км -2x (n)^21 y(n) 9 dg -2a,x (n)^12)^B9j)x (n) 1 9 dg dgj Л 195 7*
В табл.9.2 и 9.3 приведены выражения для градиентов фун- кционалов вторичной оптимизации для случаев F(g)=sign(g) 2 и F(g)= -jj- arctg Вд. Таблица 9.2 Функционал вторичной оптимизации Э() да Э() dOjj 1 aial> 1 xa(n)l т" mn тп - sign[xa(n)] у(п) ”4 тп -a^sign[xa(n)] signx/n) «2а> ~2ха(п) у(п)тп тп -2ajxa(n)signxj(n) 1 а1д1> | хд(п)| -sign[xg(n)] у(п) -sign[xg(n)]sign assign х;(л) _2хд(п)у(п) -2sign a-xg(n) sign xf(n) Таблица 9.3 Функционал вторичной оптимизации Э() daj Э() dOj, I«1J« 1 ха(п)Гп mn mn -sign[xe(n)] i/(7i) -sign[xa(n)] a ^. Bx»(Tt) Я[1-В2д2(п) a2a- x2a(n) m" -2xfl(n) y(n)mn 0 9 r \ Bx,(n)mn [1+B2g2(n) M 1 *9(п)ГП m"2 -sign[xg(n)] -jfx x By(n)mn [1+B2g2(n)] mn Л -sign[xg(n)] B2xi(n)mn x [[1+B2g2(n)l [1+B2g2.(n)] 1 a2ff|, X2g(n)m" -2x in) 71 1+B2g2(n) _S_a B2x,.(n) xg(n)mn 712 ’[[l+tfiftnJHl+^n)] 196
Несколько слов о методах обучения двухслойной ней- ронной сети со слоем нелинейно-случайных связей. Струк- тура подобной нейронной сети, которая Розенблаттом была названа трехслойным персептроном (первый слой - элемен- ты ретины), описана в гл.2. Это своеобразная структура, в которой за счет резкого уменьшения числа входов нейронов первого слоя и за счет введения случайности связей этих нейронов с входным пространством нейронной сети возника- ет необходимость в увеличении числа нейронов первого слоя. В данном случае Hl Wj y(n) = F XaF [ S a..x..(n)]J. j=0 J ij=0 b b Случайные связи являются неизменными на этапе настройки. Настраиваться должны лишь коэффициенты связей. Алгоритм настройки коэффициентов нейрона первого слоя получается в следующем виде (например, для критерия минимума a2g): Эх29(п)т" _ _2 ( . dF(g) dF(gj) , } 9.4. Многослойные нейронные сети из нейронов с континуумом решений j+2 П tthw-n,ftW-n-lX .=1 n=0 В данном случае рассматриваемая многослойная нейрон- ная сеть имеет по Н. нейронов в каждом j-м (j=l,...,W) слое. Выражение для выходного сигнала подобной нейронной сети имеет вид (2.2). Предварительно найдем значения частных производных хк(п) и g(n) по коэффициентам ahw_.+1 w_.: Hw-i Hw-j+3 d y(n) _ % £ dahW-j+bhw-j ^-i=1 1+1 хП v=0 (9.3) W-v dF( W] ------- ч W-V d^w-v ___dgfr) = £ _ Kw-j+1,hW-jV"1 Vj+31 j+2 (9.4) V=1 , W-v w> d<hW-v 197
В табл. 9.4 и 9.5 приведены выражения для оценок гради- ентов функционалов вторичной оптимизации соответственно для произвольной F и F=sign(g). Таблица 9.4 1°Ча1 mn j+2 -Sign[xa(n)] £=1 ... Под^.^х xfl v-i da w-v xf-w-Sn> V'1 “%.V «2а Hw^i Я'Л^+3 j+2 -2b h IX ahW-V hW-n-l ^0(«) X n-W-l-l "W-j+3’1 'I-® 1+1 Jrr W-V , V,mn xfi ... dF[W^. ^w) d^v 1“101 m ^w-i ^w-j+з J+2 -sign[x (n)] X ... Z Под h^x y "w-i"1 '»w-/<r1 П-0 fl ‘ЯдЕ.ыГ- „ rfaW-v Xhw.j(n) v=0 9hW-v % j+2 ~2V,-1 •" Д ah^-hW^ X9(n) X xfj ^[9^(n)in,n„w-i v»o dghw-v } ^hW-v Таблица 9.5 l«J mHw-i j-1 "w-v w m" -sign [xa(n)l S од^им sign [П S од^ hw.nXhwJ^)] ftw i-1 n=2 \v^=1 a2a j-1 Hw-ri " -2 2 од^лц,.!! (n)sign [П Z ahw Xh^?(n)] ^.,=1 1=2 Vn=l I«1J j-1 ^W-l) -sign[x (n)]sign [П X n=i V4=i 2g j-1 -2xg(n) sign [П Z ahw.ntl.hw.nXh^(n)] 9-1 "iv-n-! 198
В этом случае F(g)=sign(g), sign х^.(п)= x*w3 (п) для всех j*W, что значительно упрощает запись выражений для градиентов. 9.5. Построение нейронных сетей, настраивающихся по замкнутому циклу при ограничениях на переменные Рассмотрим ограничения на настраиваемые коэффициен- ты многослойных нейронных сетей типа равенств и неравенств, представленные в гл.8. Для многослойных нейронных сетей характерны в свою очередь ограничения на совокупность ко- эффициентов всех нейронных сетей, ограничения на совокуп- ности коэффициентов каждого слоя в отдельности, ограниче- ния на совокупности каждого нейрона нейронной сети в от- дельности. Соответственно данным типам ограничений для двухслой- ной нейронной сети имеем: Ht и S (a+S a.) = a; (9.5a) i=o 1 i=o 13 H, N H, £ S a,., = a.; S a. = a,; (9.56) J=o t=o 11 1 j=o 3 2 N H, Sa.. -a .= 0; Sa. -a- 0; ?=0,..., H,. (9.5e) 1=0 ч 1 j=0 3 1 Ограничения типа неравенств на настраиваемые коэффи- циенты многослойных нейронных сетей в основном имеют вид, представленный в п. 8.5. Нейронная сеть в виде нейрона. В случае критерия мини- мума | ala| при наличии ограничения типа равенств (9.5a) сис- тема соотношений (9.1) преобразуется следующим образом: - signfr^n)]”1" x(n)m" + 1А,(п) а(п) + к. ^•(n) S a,.(n) - a j=o а(п+1) Л(п+1) Для критерия минимума | а1д| рекуррентное соотношение, являющееся основой для построения замкнутой нейронной сети, в случае ограничений типа неравенств (см.гл.8) на настраива- емые коэффициенты будет иметь следующий вид: 199
a(n+l) = a(n) + K*a(n) _sign[a?a(n)] sign x(n) + +K^(n) а(И)~амакс амин " а(”) 4 ^W+l \v-^2(N+l) X(n+1) = max sO,X(n) +К*Хд(п) s-sign[xg(n)] sign x(n)+ N+l (A'+l) +K*u(n) аИ“аМакс амин " Двухслойная нейронная сеть. Рассмотрим случай ограни- чений на коэффициенты нейрона многослойной нейронной сети. Ниже представлены рекуррентные соотношения, являющие- ся основой для построения замкнутых нейронных сетей в дан- ном случае. Ограничения типа равенств а) - второй слой, б) - первый слой: a) a'(n+l) = a'(n)+K-aa. (п)[хд(п)^^^|д=д(п) хк(п) + 1Х'(п)] + + Ка.}. (п)[Да;.(п) -а]; Х'(п+1) = Х'(п)+к;,а,(п)[хд(п)^.)|д=д(п) Хк(п) + 1Х'(П)] + Н, + K*u.(n)[Za (п)-а]; j=0 б) а,(п+1) = а/»)+1Гл(п)(-2«)(»)х,(п)^г>|>_111в + N 7 +\(п)1] +К^(п)[Е а~ (п) -а] +1^.(п); Х/п+1) = А.(И)-ЫГ ^4-2«/п)*9(п)^9)|д=д(п) х(п)+ +Х.(п)1] +К*;л(п)[Ё а., (п) -а]. 200
Ограничения типа неравенств а) - второй слой, б) - первый слой: _____________________m a) a'(n+l) = a'(n)+K'a.a.(n)[xff(n)^^^|g=g(n) хк(п) + QA, (п)] + С1у + x(n) q[a'(n)]; -------------------тп X(n+1) =max{o,A4n)+K’Xa,(n)[x (n)<^£?| (n) хк(п) + QX(n)] + dg + Ккк(п) q[a'(n)]}. Здесь Q и q определяются так же, как в гл.8: ----------------------------------------------------- тп б) a (n+l) = a/n)+JC (п)[-2а (п)х х(п) + 3 аЛ 3 я dg s=s(n) dg. ягя^п) +Q\<n)] +Кл(п)ч[а/к)]; X(n+l)=max{o,X(n)+K'(n)[-2a (n)xn(n) _^j| х(п) + 1 3 кр, 3 9 dg 9=9(«) dg. 9г?№ +QX/n)]+K-^n)q[a.(n)]}. Представленные алгоритмы достаточно просто могут быть обобщены на произвольное число слоев и для случаев огра- ничений произвольного частного вида. 9.6. Реализация критериев первичной оптимизации в нейронах с двумя решениями Рассмотрим критерий минимума средней функции риска. Выражение для преобразованной дискретной ошибки может быть представлено Х'р=(£-;:Ск)[("2А+С)(е"1)+(2В+С)(е+1)]^ + 2 (E+xfc)fe. Необходимая для построения замкнутой нейронной сети величина градиента в данном случае или, иначе, 201
={(£-у)[(-2А+С)(Е-1)+(2В+С)(е+1)] i + (9 6) + -|(e+y)Z£}2sign x/ J Ze-| [(-2A+Z)(e-1)+(2B+C)(e+1)]}. Величины А, В, С здесь определяются выражениями (7.13) и (7.14). В случае (7.14) Эх/ i -^-=-2xgsignx,.{ д [(ZI2-Z11)(E-1)4-(Z21-Z22)(E+1)]. (9.6а) При использовании выражения (7.14а) для формирова- ния преобразованной дискретной ошибки имеем: х'д=(Е+ y)[z11(E-l) + Z22(E+l)]i + (E-y)[z12(e-l) + Z21(e+1)]. (9.7) После соответствующих преобразований получаем: ^=7 sign xi{(l-e)[(Z212-Z211) xg+y(ZH-Z12)2ZH]+ да. 4 у +(1+e) [(Z221-Z222) xg+y(Z22-Z21)2Z22 ]}, (9 8) что совпадает с полученным выше результатом при исполь- зовании ABC-преобразования при Zu=Z22=0. Оценку гради- ента второго момента распределения преобразованной диск- ретной ошибки можно получить, используя иное, нежели (9.7), выражение для х'д: 4х'д=(1+у)[(1+Е) Z^+Q-EjzJ + (1-У) [(1+e)Z12+ (l-e)Zn] • В приведенных выше выражениях Zk к=\/ 1к к для обес- печения равенства К=хд Критерий минимума R при условии Pli\~P2r2 определя- ется следующим образом. Оценка градиента R* (7.17) по на- страиваемым коэффициентам выражается в виде (9.6), где коэффициенты А, В, С определяются выражением (7.18). Оценка градиента R* по А. определяется в виде оценки первого мо- мента распределения преобразованной дискретной ошибки, записываемой в соответствии с (7.19) и (7.20) 202
-^=(е-У)[(-2А1+С1)(е-1)+(2В1+С1)(е+1)] I +|(e+y)C1e. (9.8a) oA 4 * Выражения (9.6), (7.18), (7.20) и (9.8a) служат в данном случае основой для построения соответствующей замкнутой нейронной сети. При использовании для формирования преобразованной дис- кретной ошибки нейронной сети преобразования Z, описанно- го выше, выражение для оценки градиента R* по а. определя- ется (9.8) и (7.21), а выражение для оценки градиента R* по X: —9= (E+y)[z'n(E-l)+Z'l2(e+l)] | +(E-y)[Z'22(E- 1)+Z'21(e+1)] I ,(9.9) ЭЛ 4 4 где Z'fc fc определяется (7.22). Определим критерий минимума R при условии PjT^const. В данном случае оценка градиента R* (7.24) по настраивае- мым коэффициентам выражается в виде (9.6), где коэффици- енты А, В, С определяются выражением (7.25). Оценка гради- ента R* по X определяется в виде оценки первого момента распределения преобразованной дискретной ошибки, записы- ваемой в виде (9.8a) с коэффициентами Av Bv Cv определяе- мыми (7.26). При использовании преобразования Zt выраже- ния для оценок градиентов R* по а(. и X определяются соот- ветственно (9.8), (7.27), (9.9) и (9.28). 9.7. Реализация критерия минимума средней функции риска в нейронах с континуумом и Кр решениями Для нейрона с континуумом решений (два класса образов) в соответствии с (7.30) имеем: х = |(l+E)Z12(x9)+|(l-E)Z1(r'9)= (9 9a) = |(l+e)V i2(y)+|(l-e)V Здесь * у =e-ig=F(g)=F(2^ ал:,). После некоторых преобразований получаем необходимое выражение для оценки градиента средней функции риска через текущие сигналы в нейронной сети в следующем виде: 203
т. дх'д да, В частном 2 1 dF(q) г dlJv) dl,(v)i -2 X ] • <91»> случае ij(y) = (1+у)2; (1-!/)2; Z1(-l-xg) = (l-l-xg)2=xg2; Z2(l-xg) = (1-1+х9)2 = xg2; г'=|(1+Е)х+|(1-е)х9=х9. Отсюда ^7mn=_9dF<ff) m" da, “ dg ’ что соответст ному в п. 9.2. 1 градиента Rг решениями в В случае в вует нейрону с минимизацией рассмотрен- 1з (9.10) следует известное выражение для оценки » случае двух классов образов и нейрона с двумя виде (9.6а). юнтинуума классов образов a:/9=Z1(xg)=Vi((e-x9)E]; Э1(у,е) dF(g) да. dy dg * Отсюда ка ражение (9.10) должна быть Для нейро ной сигнал оп к частный случай следует соответствующее вы- Э/(у,Е) 1 для двух классов образов. В (9.11) функция —— задана априори. на с Кр решениями (К классов образов) выход- исывается выражением: 1 V 1 =Fp(g)=l+- Sj [sign(g-afcpfcp+1)+l]; N g= X ax. t=0 ’ ‘ Здесь, как и ранее, 204
где 1(у,е) _ (К х К)-матрица, элементы которой представляют собой первую разность соответствующей дискретной функции 1(хк,г). В частности, эта матрица может иметь следующий вид: ° 1 = :1 .? оу J -1 -1 В формуле (9.12) Эу I у . г i L9-aM₽J = _ 1 ^"1,. 2 Вх( = — Zj lim — -—-----------ч. 2 kp-i л 1 +Вг(д-а ) Отсюда следует, что ду Slgn da = Slgn Х< и окончательно 1 дхд _д1(у ,Е) Эа; Эу Sign X; . 9.8. Реализация критерия минимума средней функции риска в нейронных сетях с N* выходными каналами (слой нейронов) Ниже рассмотрено построение замкнутых нейронных се- тей с N* выходными каналами. Построение оптимальных моде- лей таких нейронных сетей и выбор для них функционалов вторичной оптимизации рассмотрены в гл.6 и 7. Здесь рассмат- ривается случай одинаковой размерности сигналов е и xfc, хотя в принципе эти сигналы могут иметь различную размерность. При вычислении преобразований дискретной ошибки, ког- да выходной сигнал имеет по каждому каналу Ко градаций, измеренный вектор дискретной ошибки, имеющий вид: (ер - > en«) (Ур - , Ух-) (kp ..., kN.) (fclp,..., kN.p) (xlg,..., xN.g), умножается на скаляр (7.33) и далее вычисляется норма ре- зультирующего вектора. Отсюда Хд 1д2 + ... + х N.g2 }/ l(kv..., kN., klp,..., kN.p), если 205
(£р ... , Еде.) (^р ••• , fcp/*) И (УI yNJ = (felp- ••• ’ kN'p)- Рассмотрение общего случая Ко градаций выходного сиг- нала нейронной сети по каждому каналу, имеющего вид: 1 V У*'=1+2 fcfJsi8n^-"a!fc₽fcp+>)+1b N д..= X a., X:, i*=l, ... N*, 1 »=о ” не является принципиальным. Поэтому остановимся на слу- чае Ко=2: У/.= sign д(... Можно показать, что Эх'2 а а .............у^^-у'- ,9Л4) Здесь Z(Er..en., Ур ..., yN.) -(2^x2^) матрица. Градиент вычисляется как соответствующая первая разность по у, дис- кретной функции. В частности, эта матрица может иметь вид, аналогичный (9.13). Величина ду^/да... определяется только сво- им знаком следующим образом: Эу,. sign = sign . Пусть система распознавания имеет континуум решений по каждому из N* каналов. Предполагается, что функции F идентичны для каждого выходного канала. Преобразованная дискретная ошибка, первый начальный момент распределе- ния которой равен средней функции риска R, получается как сумма квадратов компонент вектора измеренной дискретной ошибки, преобразованной в соответствии с (7.34): =zi{ [е{.-Р{.(х)]2}=2[Р(х),е]. i*=i В данном случае N г=0 и окончательно Эх'д2 " Э 3F(g.) ^7; ~ дх(.к Z(£l...е^-’ ....XN-k> дд.' 206
Это выражение служит основой для построения соответству- ющей нейронной сети, настраивающейся по замкнутому циклу. 9.9. Реализация критерия минимума средней функции риска в многослойных нейронных сетях Ниже для трех типов многослойных нейронных сетей пред- ставлены алгоритмы настройки по замкнутому циклу, реали- зующие критерий минимума средней функции риска. Обоб- щение результатов на другие критерии, рассмотренные выше для нейрона, не представляет принципиальных трудностей. Для нейронной сети двух классов образов, имеющей один выходной канал при произвольной структуре разомкну- той системы справедливо соотношение (9.9а). Оценка градиента средней функции риска имеет в общем случае следующий вид: Здесь dg(n) d.. s 2х, Ж™' da. h eda, h nW-j+l’nW-j hW-j+v'lW-i dl2(y) dF(g) dg(n) i + dy dg dahwj+vhw. , 1 .. .r 1 1___dl'ty} dF(g) dg(n) i определяется соотношением (9.4). Окончательно I vn — _ _ - — дх'я2 п _ 1 dF(g) dg г dl2(y)^ f1_^ dl^y) dah L 2 dg da. . И ’ dy 1 dy~ hw-j+i’hw-i a hw-j+i'hw-i y y В частности, в случае многослойной нейронной сети с полными связями между слоями имеем: dF(g) Х dg wj 3+2 д=д(П)ХЛ^-/П)I Для многослойных нейронных сетей из нейронов с двумя решениями: 207
Эя'2 ” 1г „dMy) , . dl.(y) i , w-j "W-J+l’nW-i ГТ X 11 sign CL h >1=0 ° hw-n> "W-n-l (9.15) Рассмотрение многослойных нейронных сетей с континуу- мом классов образов и решений не представляет принципиаль- ной трудности. Поэтому рассмотрим нейронную сеть с К града- циями по уровню сигналов е(п) и у(п), т.е. число классов образов и число решений нейронной сети равны К Разомкнутая нейрон- ная сеть при N*=l описывается следующим выражением: х к₽-1 У=1+2 ?Jsign^“% fcp+1)+1L где g™w определяется выражением (2.7) в случае сети из ней- ронов с континуумом решений. Выражение для градиента функционала оптимизации Эх д2 Э Эу -- *— = -г— Це, у) ---- да.---------------------------------оу а да. . nW-j+l’nW-; д Матрица Z(e, у) здесь определяется так же, как в п. 9.7. Далее, так как д У W4 ЭН—- slgnxhw-\’ nWnW-l то выражение для оценки градиента средней функции рис- ка для сети из нейронов с двумя решениями будет иметь следующий вид: ^'д2 д . г(Е> У) S1§n х дУ (9.16) f’ 1 ^W-0 Это выражение служит основой для построения соответ- ствующей замкнутой нейронной сети. Рассмотрим нейронную сеть с N* выходными каналами и двумя градациями выходного сигнала по амплитуде в каж- дом из каналов. Здесь y,,= sign у.. = sign hw=l........N*. Отсюда следует, что при наличии (2w'x2w')-MaTpnubi 208
d -^7 У!..yN.) алгоритм настройки подобной многослойной сети аналогичен изложенному в п. 9.7 для нейрона последнего слоя и в п. 9.8 для нейронов слоев кроме последнего. 9.10. Построение замкнутых нейронных сетей нестационарных образов Ниже отмечаются основные принципиальные моменты, воз- никающие при построении настраивающихся по замкнутому циклу нейронных сетей нестационарных образов. Основная осо- бенность по сравнению со случаем стационарных образов здесь возникает при построении алгоритма настройки коэффициен- тов нейронной сети. Рассмотрим одномерный вариант нейрон- ной сети с минимизацией по замкнутому циклу. В данном случае -------------------------------------------mn г2а(пДТ) =е2(пДТ) + х2(пДТ) +а20(пДТ) - -------------------------------------------тп -т -m -2е(пДТ) х(пДТ) +2а0(пЛТ) е(пДТ) -2а0(пЛТ) х(пЛТ) . Усреднение здесь должно производиться по множеству реализаций нестационарного случайного процесса в момент времени пДТ. Однако на практике при настройке нейронной сети имеется лишь одна реализация нестационарного случай- ного процесса. При этом значение х^(пДТ) вместо усреднения по множеству получается усреднением по времени на интер- вале памяти шп с дополнительным заданием свойства приво- димости процесса к стационарному и априорной информации о характере изменения параметров распределения нестационар- ного случайного сигнала, т.е. на интервале памяти. При этом наиболее удобным для реализации и достаточным для практи- ческих целей является представление нестационарного слу- чайного процесса в нейронной сети на интервале памяти в виде аддитивной суммы стационарного сигнала и детермини- рованного сигнала с известным в общем функциональном виде характером изменения. Для того чтобы оценка градиента фун- кционала вторичной оптимизации выражалась в алгебраичес- кой форме, необходимо предположить, что за интервал ус- реднения тп параметры нейронной сети (настраиваемый ко- эффициент а0) не изменяют своего значения. В данном случае 209
<Щ»ДТ)= da^ Алгоритм обучения в нестационарном случае определя- ется следующим соотношением: г 7) -1 Т1 ГПп а0[( + т)ДТ] = а0[ — ДТ]+К*ха(пДТ) . Для построения замкнутой нейронной сети необходима ин- формация о характере изменения (на интервале памяти блока настройки нейронной сети) параметров распределения сигнала х0(пДТ). Эта информация в рассмотренном случае может быть однозначно получена по информации о характере изменения на интервале памяти блока настройки нейронной сети пара- метров распределения входного сигнала и структуре нейрон- ной сети. Если предположить, что совокупности образов рас- пределены по нормальному закону с переменными во времени математическими ожиданиями, то при статистической неза- висимости детерминированной и случайной составляющих на интервале памяти нейронной сети для случайного сигнала ха(пАТ) справедлива та же гипотеза изменения математичес- кого ожидания, что и для сигнала х(пДТ). Следовательно, в нейронной сети нестационарных образов данного типа фильтр в блоке настройки, предназначенный для оценки градиента функционала вторичной оптимизации, должен быть предназ- начен для оптимальной фильтрации нестационарного сигнала с гипотезой изменения первого момента распределения, экви- валентной соответствующей гипотезе для совокупностей не- стационарных образов. Синтез подобных фильтров рассмотрен в [9.7]. При необходимости упреждения решения данный фильтр должен быть синтезирован как упреждающий. Исходя из физи- ческих соображений, необходимо отметить, что гипотезы о характере изменения на интервале памяти нейронной сети пер- вых моментов распределений являются одинаковыми для сово- купностей образов первого и второго классов. В случае раз- личных гипотез для синтеза фильтра оценки ха(пДТ) необ- ходимо выбирать гипотезу высшего порядка. В случае нестационарных образов, как показывает анализ соответствующих выражений, оценка градиента функциона- ла вторичной оптимизации есть задача фильтрации нестаци- онарных случайных сигналов. Выше, задаваясь некоторой ап- риорной информацией о характере нестационарности обра- 210
зов на входе, определялись характеристики нестационарнос- ти реализаций градиента функционала вторичной оптимиза- ции. Для многомерных и многослойных нейронных сетей и функционалов вторичной оптимизации, связанных с дискрет- ной ошибкой, этот путь построения замкнутых нейронных сетей является сложным. В этом случае мы отступаем от ос- новного принципа построения нейронных сетей, настраива- ющихся по замкнутому циклу, а именно вносим в процедуру синтеза априорную информацию о входном сигнале нейрон- ной сети. Поэтому методологически будет правильнее зада- ваться некоторой априорной информацией о нестационарном характере изменения градиента на интервале памяти ней- ронной сети, а именно такой информацией, которая значи- тельно облегчила бы синтез фильтра оценки вектора гради- ента. По этой априорной информации о структуре разомкну- той нейронной сети можно на нестрогом, даже семантичес- ком, уровне показать класс нестационарных характеристик совокупностей образов, для которого априорная информация о характере изменения во времени параметров распределе- ния градиента является достаточной. Этот подход, с одной стороны, облегчит процедуру синтеза фильтра в блоке на- стройки, с другой стороны, создаст возможность построения алгоритмов настройки по замкнутому циклу с поправкой ко- эффициентов не через тп тактов поступления входных обра- зов, как было выше принято, а в каждый момент времени п. Результаты синтеза многомерных фильтров, представ- ленные в [9.8], примененимы как при построении нейронных сетей, настраивающихся по разомкнутому циклу (при оцен- ке векторов математических ожиданий нестационарных со- вокупностей образов), так и при построении нейронных се- тей, настраивающихся по замкнутому циклу (при оценке векторов градиентов функционалов вторичной оптимизации нейронной сети нестационарных образов). 9.11 .Построение нейронных сетей с перекрестными и обратными связями, настраивающихся по замкнутому циклу Ниже рассматривается в качестве функционала вторич- ной оптимизации только второй момент распределения диск- ретной ошибки. 211
В случае системы распознавания с перекрестными связя- ми разомкнутая нейронная сеть, в частности двухслойная, описывается следующим выражением (см.гл.2): И, N N y = a.F[ Z a. rJ+L аЛ]. Здесь, как и ранее, ~ Эх 2 п д — =-2хп-5— У да 9 да у В данном случае Эу dF(g) ду _ dF(g) dFjg^ ду _ dF(g) На* ~dg УУ ~5а(. dg ai dg{ Х'’ да( dg Эти выражения являются основой для построения соответ- ствующей замкнутой нейронной сети. Разомкнутая нейронная сеть в виде нейронов с обратной связью описывается следующим выражением (гл.2): N y(n)=F[ S atx/n) +afcy(n-l)]. Рассмотрим вариант с mn=l. При mn=const важно лишь удовлетворить условие независимости у(п-1) от af Из (9.18) следует: Эу(п) dF(g) ду(п) dF(g) da,- dg ,v дак dg (9.17) (9.18) Отсюда с учетом (9.17) следует рекуррентное соотноше- ние, являющееся основой для построения соответствующей замкнутой нейронной сети: а(п+1) _ а(п) afc(n+l) afc(n) + К* dF{g) dg (9.18a) Рассмотрим двухслойную нейронную сеть с обратными свя- зями. Описание разомкнутой нейронной сети следующее: Я. y(n)=F[g(n)]; g(n)= X a y(n) + a. y(n-l); N 3=1 (9.186) y(n)=F[a.(n)]; g,(n)= E a-x/n) + afc y(n-l)+a, y(n-l). 7 J J ! 1 Используя преобразование (9.17), получаем: 212
dy(ri) _ dF(g) ду(п) dF(g) ду(п) X- =-^-«("-% - dF(g) dF(g) = —:— a——L xAn); (9.18e) dg 1 dg. dy(n) dF(g) dF(g) Эу(п) -xr = ~^r ai< -j-2- у fa-1);-tv— = °akj dg i dg. dakj _dF(g) dF(g) Эти выражения являются основой для построения соот- ветствующей замкнутой нейронной сети. Не представляет принципиальных затруднений обобщение данных резуль- татов на нейронной сети с наличием одновременно перекре- стных и обратных связей, нейронной сети с произвольным числом слоев нейронов, нейронной сети с перекрестными и обратными связями различной «логической глубины». 9.12. Построение замкнутых нейронных сетей в режимах самообучения и произвольной квалификации учителя В [9.5] рассмотрены алгоритмы самообучения, аналогич- ные по своему качеству алгоритмам восстановления плотнос- тей распределения вероятностей, так как в режиме настрой- ки по замкнутому циклу определяют координаты мод функ- ции /(х). Ниже рассмотрены алгоритмы настройки по замкну- тому циклу нейронной сети с произвольной фиксированной структурой в режиме самообучения. Данные алгоритмы мо- гут быть получены из приведенного расчета на каждом шаге настройки параметров многослойной нейронной сети с фикси- рованной структурой по координатам векторов, соответству- ющих модам /(х). Возможен и другой подход, аналогичный тому, который использовался выше на этапе рассмотрения режима обучения. Средний риск есть в данном случае первый момент распределения сигнала х'к, определяемого выражени- ем (7.35). Отсюда ду' д Эр ЭЬ ду -Л-= х-Р [х- b(y)]= - s• (919) оа Эа d[x ~Ъ(у)] ду Эа В частности, при р(х, b)=|| х - b ||2 213
ЭР - or к/ мт ЭЬ (у) ЭГ" 2[х-Ъ(1/)Е-^-. Уравнение для неизвестных функций Ь(у) записывается в виде некоторого рекуррентного соотношения (mn=l) Ь(у,п) = Ь(у,п-1) + К* [х - Ъ(у,п-1)] . (9.20) OD Уравнения (9.19) и (9.20) служат основой для построения нейронных сетей, настраивающихся по замкнутому циклу, в режиме самообучения. В выражении (9.19) ду/да определяет- ся, как и ранее, в режиме обучения для нейронной сети с ЭЬ (у) любой структурой. В случае Кр решений — есть (KpxN)~ матрица, получаемая по результатам решения уравнения (9.20) в текущий момент времени. Более подробно построение замкнутых многослойных ней- ронных сетей с Кр решениями и N* выходными каналами в режиме самообучения рассмотрено в гл. 12. Итак, алгоритм настройки многослойной нейронной сети в данном случае заключается в следующем: 1. При наличии некоторых начальных значений настраива- емых коэффициентов нейронной сети по текущему входному сигналу х(0) рассчитывается у(0). 2. Выбирается соответствующий у(0) столбец матрицы Ь(у,О), полученной как указывалось выше. 3. Производится настройка коэффициентов нейронной сети в соответствии с (9.19) и т.д., начиная с п.1. Необходимо отметить, что значения Ь(у) на каждом шаге настройки можно определить расчетом по параметрам и структуре многослойной нейронной сети. При произвольной квалификации учителя: х'д=Цу,E)b+(l-b2)p [х - Ь(у)]. (9.20а) Отсюда дх’дт"_ду ( д1(у,Е) др db(yhmn —- ь > а|х -ъ<и)1 w' '<9 20б) ~дхгтп ~5 т" а J . = Д-Г7-7 Р [х - Ь(у)] . (9.20в) д Ъ(у) о Ь(у) Данные два выражения служат основой для построения замкнутой нейронной сети с произвольной структурой при 214
произвольной квалификации учителя. Необходимо отметить, что алгоритм настройки делится на две самостоятельные ча- сти, одна из которых, определяемая членом ду/да, зависит от структуры разомкнутой нейронной сети и определяет по- тенциальное качество решения задачи распознавания. Разработанные методы настройки многослойных нейронных сетей пригодны и для случая, когда нейронная сеть имеет не- сколько слоев нейронов с фиксированными коэффициентами. Отметим, что процедура настройки многослойных нейрон- ных сетей, связанная с выражением (8.1), обеспечивает лишь локальный экстремум функционала оптимизации, причем на- чальные значения настраиваемых параметров должны зада- ваться случайно в диапазоне их изменения, определяемом из физических соображений. Поэтому полностью алгоритм на- стройки многослойной сети должен содержать множество (объемом Т)°) этапов выброса случайных начальных условий для настройки, следующие за каждым выбросом этапы на- стройки в соответствии с (8.1) и этап усреднения результатов настройки по Т|° (см.гл.8 и 12). 9.13. Вывод выражений для оценок производных второго порядка функционала вторичной оптимизации Ниже для многослойных нейронных сетей различных ти- пов найдены выражения для оценок производных второго по- рядка второго момента распределения дискретной ошибки, являющегося функционалом вторичной оптимизации. В слу- чае нейронов с континуумом решений: 9^7" dF m" В случае многослойной нейронной сети с последователь- ными связями: HW-j+3 j+2 Z • • Z Па. h x Vj=1 n=o dx2 m" g — _ За? Г” 215
----- тп, д2Х2д хх (n) (П)^ xw‘> (П) Х’(П) Vod^ hw-> К , da. . nw-v "W-j+l^W-j hw-j+l’nw-i "D C. x xh^ (n) +ii at "w-r 4=o 'hv-rf'hv-n-i fj dF[g Д 3(1. h V=O doI'V-v y/llV-v ^w7n) + fL . x(n)i;2__________ т)=о hw-T|> 'hv-n-i 9 1=0 Эд L dg?4 J v=? daw''> (n) hw-i+i>hw-i "w-i v*i g\v.y; XX 3xC/w); 3a. h '4v-i+i>nw.i Здесь j+2 д[Д ^w-n^w-tnl 3 a,. . hw-i+l,hw-i dx9 (n) _ dy da,lW-i+l- ^W-i ^W-i О при i >J+3; приг^+З; ' П* »+l HW-1 Hw-i+3 i+2 ^3=! Ца^-Ф^Х X n dFkOn)] -О C Xhw-i^ ; __Э— r^Cjld^C,] dg™4 да^-^ dg^ 4^,/^ Использование данных выражений для построения соот- ветствующих алгоритмов в многослойных нейронных сетях достаточно сложной структуры затруднительно. Однако ме- тодология многослойных нейронных сетей определяет умень- шение необходимости учета производных второго порядка функционала вторичной оптимизации при усложнении струк- туры разомкнутой нейронной сети. Для двухслойной системы с перекрестными связями 216
H, N N y=F [ X a,F [S a„x,l+X a'x,. y L j=i 1 г=о 4 lJ »=o * '• -2 x dy 9 da mn __—— -- TM d2x2„ dy dy d2y ^a(l)^a(2) d“(l) ®a(2) 9 ^a(l)3a(2) d2y d2F(g) d2y d2F(g) dafia. dg2 У* У>’ Эа'Эа' dg2 X‘ Xj ’ d2y _ d2F(g) d^y dF(gj) d2F(g) da'da' dg2 Х'У>’ da^aml ai dgj Xi dg2 dF(g.) dF(g) d2F(g) dg. ха,—j—— xm H—t— ax. , 1 -j-J 1 dgl m dg j i dg. dgt m ’ d2y d2F(g) dF(g;) dF(g) dF(g.) dg. dai^ami yj dg2 0,1 dg{ X™ dg dgt dgt Xm ’ d2y = d2F(g) dF(g;) da'idami X* dg2 a‘ dgt Xm' В случае нейронов с обратной связью (9.22) dOjOa^ dgz ‘g=g(n) J da2k dg2 Полученные выражения служат основой для построе- ния алгоритмов настройки многослойных нейронных сетей с использованием производной второго порядка функцио- нала вторичной оптимизации. Литература 9.1. Галушкин А.И. Об алгоритмах адаптации в многослойных сис- темах распознавания образов. Докл. АН УССР, № 1, 1973, с. 15-20 - (представлено акад. В.М. Глушковым). 9.2 Галушкин А.И. Синтез многослойных систем распознавания образов. -М., Энергия, 1974. 93. Викторов Н.В., Галушкин А.И. Построение и исследование си- стем распознавания образов при произвольной «квалификации учителя». //Сб. «Медицинская радиоэлектроника» ВНИИ ме- дицинской техники. -1976. - С. 95-106. 9.4 Галушкин А.И., Точенов В.А. Системы «человек-машина» в тео- рии распознавания образов. - Труды семинара «Искусствен- ный интеллект. Итоги и перспективы». -1974, с.1~7. 217
9.5. Цыпкин Я.З. Адаптация и обучение в автоматических систе- мах. -М., Наука, 1968, 399 с. 9.6. Цыпкин Я.З. Основы теории обучающихся систем. - М., На- ука, 1970, 251 с. 9.7. Галушкин А.И. Зотов Ю.Я. Шикунов Ю.А. Оперативная обра- ботка экспериментальной информации. - М., Энергия, 1972, 360 с. 9.8. Галушкин А.И. Расчет и реализация оптимальных дискретных фильтров. - В сб. Автоматическое управление и вычисли- тельная техника. - М., 1968, вып. 9, с. 72-128. 218
Глава 10. Настройка континуальных нейронных сетей* В данной главе рассматривается континуальная модель двухслойной нейронной сети с континуумом нейронов в пер- вом слое и нейроном с континуумом признаков на входе во втором слое. Структура модели данной нейронной сети описывается выражением: L y(n)=sign[ j" a2l(i,n) sign ( X аи(г,п)’г1;(п)+а10(г,п))йг]. (10.1) I M Здесь: хп(п) - l-я компонента вектора признаков; у - вы- ходной сигнал нейронной сети; а1((г,п) ~1-я компонента весовой вектор-функции первого слоя; a2[(i,n) - весовая функция вто- рого слоя. Целью данной главы является вывод выражений рекуррент- ных процедур настройки весовых коэффициентов двухслой- ной континуальной нейронной сети и рассмотрение особен- ностей этих процедур. За исходное выражение принято выражение рекуррент- ной процедуры для нейрона с конечным числом признаков: ЭУ(а) а(п+1) = а(п) - К* —г оа , , (Ю.1а) а=а(п). Здесь Y(a) - функционал вторичной оптимизации; а(п) - вектор состояния системы (текущее значение аргумента эк- стремальной функции; K*[L°L°] - матрица коэффициентов; L0 - размерность вектора а: К,. Л Л Л к „ ’ 11 щ" М М К., Л К.. Л к „ .I и lL<> м м а1 м а. j М I а |_ 11 к= * Материал данной главы написан совместно с Тарковым М.А. 219
10.1. Настройка нейрона с континуумом признаков Соотношение (10.1а) в скалярном виде может быть записа- но следующим образом: v ЭУ( а) а,.(п+1) = а(п) - X К (10.2) 7=1 3 3 a^a^n)- При L->oo номера i и j компонент вектора а заменяются параметрами i и j, непрерывно меняющимися в некоторой об- ласти I. Соответственно, в выражении (10.2) сумма по j заме- няется на интеграл по параметру j. Таким образом, получаем выражение рекуррентной процедуры настройки весов нейро- на с континуумом признаков, имеющее вид: ( dY(a(j)) d. a(i, n+1) = a (г, n) - J ’ (10.3) J да® а,= аУ,п)- Здесь K*(i, j) - функция двух переменных г и j. 10.2. Настройка слоя, состоящего из континуума нейронов Каждому нейрону из непрерывного множества в этом слое соответствует некоторое значение параметра г, непрерывно меняющегося в некоторой области J', в частности, можно рас- сматривать некоторый интервал (с, d). В соответствии с этим рекуррентная процедура настройки континуального слоя нейронов будет иметь вид: а(г, п+1) = а(г, п) - К*(г) (10.4) a(i)= a(i, п). Здесь К*(г) -[L°xL°] матрица функций параметра г, где L° - размерность вектора признаков (или вектор-функции а(г)). 10.3. Выбор параметрической матрицы для процедуры обучения континуального слоя нейронов на основе данных случайных выборок Структура континуального слоя нейронной сети, исполь- зуемого, как самостоятельная система (случай а2(г) = 1), опи- сывается выражением: Г L° у= sign [J sign (Z а((г) xt + a0(i)) di], 220
где L° - размерность пространства признаков. Рекуррентная процедура обучения слоя нейронов имеет, как уже указывалось, следующий вид: а(г, п+1) = а(г, п) - К*(г) (10.5) а(г)= a(i, п). До сих пор не рассматривался вопрос о выборе матрицы функций К*(г). Между тем ясно, что К*(г) =К*(г, п), так как зависит от номера шага процедуры настройки. Цель данного пункта - выяснить зависимость матрицы функций от номера шага п и от параметра г при условии, что a2(i) = 1 и не зави- сит от п (данное условие принято для упрощения анализа зависимости К*(г)). Рассмотрим частный случай матрицы функций - диаго- нальная матрица: *„„(') 0 Л 0 К*(г) = 0 Ки(г) Л 0 Л Л Л Л 0 Л Л Континуум нейронов реализует в пространстве признаков кон- тинуум гиперплоскостей. Каждому значению параметра i соот- ветствует нейрон, дискриминантная функция которого имеет вид: L д(у, i) = S а,(г) у( + а0(г). (10.6) В точках г-й гиперплоскости д(у, г) =0. Известно, что рас- стояние от некоторой точки у до гиперплоскости пропорцио- нально д(у, г). Назовем R(i) = д(у, г) расстоянием от точки у до гиперплоскости, соответствующей параметру г. Условимся, что если у принадлежит первому классу, то для г-й гиперп- лоскости правильной ориентацией будет такая, при которой К(г) >0 . Пусть на n-м шаге процедуры R(i) = К(п, г), где L R(n, г) = S а((п, г) у, + а0(п, г). (10.7) Здесь в скалярном виде: dY(a(i)) аг(п+1, г) = а;(п, г) - Кг*(п,г) ——— (10.8) Эа1(г) а^аДг.п). 221
Тогда L R(n+1, i) = Еаг(п+1, г) yt + а0(п+1, г) (10.9) записывается в виде v г ЭУ(а(г)) R(n+1, г) = Z [а/п, г) - К*(п,г) -—- 1-1 оаг(г) а,(1)= а/n, i) Л, л ™ лэу(“«) + [а0(п, г) - ка*(п,г) - vOq(i) а0(’)= “о<п- *) • С учетом (10.9) получаем V v ЭУ(а(г)) К(п+1, г) == R(n, г) -X K*(n,i) —у( - 1=1 да,(г) ... .. Л ' a,(t)= а;(п, I) - К0*(п,г) ЭУ(а(г)) да0(г) (10.10) а0(г)- а0(п. 0 • Так как для классификации точек пространства признаков используется сумма (в данном случае интеграл) выходных сиг- налов нейронов слоя, то на n+l-м шаге точка у будет класси- фицироваться заведомо правильно, если R(n+1, г) выбрать следующим образом: R(n+1, г) = -е0 R(n, г), если R(n, г) <0, R(n, г), если R(n, г) >0 (10.11) (подразумевается, что у принадлежит первому классу). Здесь е0>0. Чтобы из (10.10) определить К(*(п,г), I = 0,1,..., L, необхо- димо взять (Ь+1)-ю точку и для каждой посчитать R(n+1, г) по формуле (10.11). Получим систему L+1 линейных уравне- ний относительно функции K*(i), I = 0,1,..., L. Перепишем (10.10) в векторном виде: R(n+1, i) - R(n, г) =-К(п, г) AYX. (10.12) Здесь К(п, i)=(K00(n, i)... K.LL(n, г)) диагональ матрицы К*(г). 222
Матрица ' ЭУ(а(г)) .. <)а0(г) ЭУ(а(г)) ' Эа0(г) &YX v дУ(а(г)) .. У и Эа((г) у ЭУ(а(г)) ,ь Эа1(() < daL(t) daL (г) Из (10.12) следует K*(n, i)=-(K(n+l, i) - R(n, z')) A^x . (10.13) Это окончательное выражение для параметрической мат- рицы функций на n-м шаге процедуры. Для усреднения берем тп выборок по L+1 векторов в каж- дой и затем выбираем матрицу 1 V * K*(t, Чез= — S Кт «) • (10.14) т т 1п п п Диагональ матрицы (г, п) вычисляется по формуле (10.13) для каждой выборки. К трудностям данного метода следует отнести вопрос о выборе оптимального е0>0. 10.4. Выбор параметрической функции K*(i,j) на основе данных случайных выборок для процедуры обучения нейрона с континуумом признаков Метод оценки расстояний, изложенный в предыдущем пунк- те для вычисления матрицы функций К*(г), применим для оцен- ки параметрической матрицы для нейронов с контину- умом признаков. Как было показано, рекуррентные процеду- ры обучения нейрона с континуумом признаков имеют вид: a f ЭУ | а(г, п+1) = а(г, п) - J Кп(г, j) dj с 'a(j)=a(j,n) ЭУ I (1015) а0(п+1) = а0(п)-Кпд— 0aO I а0= а„(п) Расстояние от точки х(п, г) до гиперплоскости 5(х(г)) = J а(г) х(г) di + ао=О равно 223
Rn(x(n, г)) = J a(i) x(n, i) di + a0(n) a(i)= a(t, n), Rn+1= J a(n+l, i) x(n, i) di + a0(n+l). С учетом (10.15) и (10.16) получаем R +1(x(n, г)) = f a(n, г) x(n, i) di - Я К (г, j) oa(J) (10.16) и didj + a(j)= a(j, n) dY + a°(n)~Kn“d^ “oO')= %(") :n+1(x(n, г)) -R (x(n, г)) = Я к (г, j) IJ da(j) -K — I n da0 | ao= ao<n) ’ x(n, г) didj - a(j)= “(J>n) (10.17) Если x(n, i) принадлежит первому классу и Rn(x(n, i)) < 0, то выбираем Rn+1(x(n, г)) = - е0 Rn(x(n, г)), е0>0. Функцию Кп(г,)) и коэффициент Кп невозможно опреде- лить из интегрального уравнения (10.17) однозначно. Наложим некоторые ограничения на функцию Кп(г, j), а именно введем функцию 1 ЗУ К (г, j) = — nv ’ J ' If * 9Y_ 9a(i) a(i)= a(i, n), ®a(l) a(j)= a(j, n) (10.18) где KQ*= d-c. В этом случае формула (10.15) приобретает следующий вид: ду a(i, n+1) = a(i, п)---- (10.19) oa(i) ... . a(i)= a(i, п), так как с учетом (10.18) f ЭУ ЭУ J dj = —- да^ а0>аУ,п) Эа(1) a(t)=a(i,n)- Из (10.19) следует, что функция (10.18) является контину- альным аналогом единичной параметрической матрицы К*. С учетом (10.18) формула (10.17) примет следующий вид: 224
Г ЭУ R^x (n, г)) ~Rn(x (n, г)) =-J-- ; ; . “ J da(j) a(j)= afj, nj ЗУ x(n, i) di ~K ------- .. -....) 4 (10.20) a0= a0(n)- Отсюда Kn =W~ [K„(x(n, г)) -К, Эа0 Г ЭУ , :n+1(x(n, г)) - J х(п, г) di ]. a0= “oW a(i)= a(i, n) В случае неверной классификации Кп = t(1+eo) R№n’г')) " / Э§) Эао “оО')= ao(n> х(п, i) di ]. a(i)= a(i, n) (10.21) Таким образом, одним из возможных решений вопроса о выборе параметрических коэффициентов в случае нейрона с континуумом признаков является решение, определяемое фор- мулами (10.18) и (10.21). В любом случае описанный подход сводится к нахождению Kn(i,j) и Кп из уравнения (10.17) с уче- том каких-либо дополнительных ограничений. Аналогично слу- чаю континуума нейронов здесь можно усреднять вычислен- ные значения Кп и Kn(i,j) по тп точкам пространства функций. Также, как и в предыдущем пункте, возникает вопрос оп- тимального выбора е0. 10.5. Особенности алгоритма настройки континуальной двухслойной нейронной сети Особенности алгоритма настройки описываемой нейронной сети связаны с заменой структурной матрицы коэффициентов К* на матрицу функций К*(г) при переходе к континууму нейронов в первом слое и на функции двух переменных К(г, j) при переходе от нейрона с конечным числом признаков к нейрону с континуумом признаков во втором слое. Алгоритм выбора К*(г) связан с решением системы (Ь+1)-уравнений (если К*(г) - диагональная матрица функций) относительно функ- ций параметра г в то время, как в случае конечного числа гиперплоскостей необходимо найти диагональную матрицу ко- эффициентов для каждой гиперплоскости, т.е. решить Н сис- тем из (L+l)-ro уравнения, где Н - число нейронов в слое. Алгоритм выбора К(г, j) состоит в решении интегрального уравнения относительно К(г, j) и коэффициента Кп. На рис. 10.1 и 10.2 представлены разомкнутая структура континуальной нейронной сети и структурная схема алгоритма ее обучения. 8 - 353 225
Рис. 10.1. Разомкнутая структура континуальной двухслойной ней- ронной сети Рис. 10.2 Структурная схема алгоритма обучения двухслойной кон- тинуальной нейронной сети (n+1-й шаг) 10.6. Три варианта реализации весовых функций континуального слоя нейронов и соответствующие им процедуры обучения В данном параграфе рассматривается разомкнутая струк- тура континуального слоя нейронов и процедуры настройки слоя в зависимости от выбора способа реализации весовых функций слоя. Разомкнутая структура континуального слоя нейронов опи- сывается формулой L x2(i) = sign S а;(г) х; + а0(г), (10.22) где г2(г) - выходной сигнал слоя; х( - вектор входных сигна- лов (в частности вектор табличных признаков); а(г) - вектор весовых функций континуального слоя из класса кусочно-диф- ференцируемых функций с разрывами первого рода и конеч- ным числом нулей (1=1... L). 226
Из (10.22) следует, что х2(г) - функция, имеющая вид (рис.10.3), представляет собой последовательность прямоуголь- ников разной длительности и единичной амплитуды. Стоящая под знаком сигнума функция L ЯО = £ at(i) Xj + а0(г) может иметь сложную форму. Тем не менее вид функции г2(г) определяется лишь числом и положением нулей функции /(г) и не зависит от ее поведения на интервалах знакопостоянства, т.е. между нулями. Следовательно, весовые функции а(г) мож- но аппроксимировать достаточно грубо, например, кусочно- постоянной функцией (рис.10.4) с конечным числом ступенек или, более точно, кусочно-линейной функцией вида (рис. 10.5). Рис. 10.3. Выходной сигнал континуального слоя нейронов Рис. 10.5. Кусочно-линейная аппроксимация весовой функ- ции континуального слоя ней- ронов Рис.10.4. Кусочно-постоянная аппроксимация весовой функции континуального слоя нейронов Таким образом весовые функции могут быть описаны ко- нечным и достаточно малым числом параметров. Процедура настройки организуется следующим образом. Интервал аппроксимации весовых функций разбивается на S отрезков. Строим кусочно-постоянные весовые функции (каж- 8* 227
дая задана .S' коэффициентами) или кусочно-линейные функ- ции (каждая задана 2S коэффициентами). Производим настрой- ку коэффициентов, задающих весовые функции, используя градиентный метод. В качестве критерия качества нейронной сети используем величину вероятности правильного распознавания, которую вычисляем, используя тестовую выборку векторов. Если при заданном числе шагов процедуры обучения вероятность пра- вильного распознавания ниже заданной величины, удваива- ем число S отрезков разбиения и снова производим настрой- ку коэффициентов. Таким образом находим достаточное с точки зрения задан- ного критерия распознавания число отрезков аппроксимации и величины весовых функций на этих отрезках. При этом дос- тигается решение следующей важной задачи. Слой, состоя- щий из большого числа нейронов заменен континуальным слоем нейронов, т.е. N весовых коэффициентов (по каждому призна- ку) заменены кривой весовой функции. Эта весовая функция аппроксимируется с достаточной для распознавания степенью точности кусочно-постоянной или кусочно-линейной функци- ей, описываемой достаточно малым, по крайней мере значи- тельно меньшим, чем в случае дискретного слоя нейронов, числом параметров (рис. 10.6). Здесь веса нейронов расположе- ны вдоль некоторой кривой, которая аппроксимируется ку- сочно-постоянной функцией. Рис.10.6. Весовая функция континуально- — —।-----1----1---1---1—*—1--1—।।—> го слоя нейронов С точки зрения минимизации числа отрезков аппроксима- ции весовых функций необходимо достигнуть максимально возможной степени их монотонности, т. е. минимума числа «колебаний» (перемен знака производной) на интервале ап- проксимации путем перенумерации (ранжировки) нейронов слоя. 228
10.7. Алгоритм обучения двухслойной континуальной нейронной сети с функционалом вторичной оптимизации a2g (в пространстве пяти признаков) Структура рассматриваемой нейронной сети описывается следующим выражением: 5 у = sign [ J а2(г) sign^X ап(г) хп + а10(г)с!г]. (10.23) Рассмотрим случай функционала вторичной оптимизации а2д. Квадрат модуля дискретной ошибки: I -----mn |2 --mn-----------mn 2 I xg(i, n) |= | e(n) - sign g(n) | , (10.24) где g(n) = J a2(i,n)sign ( S an(i, n) xn(n) + a10(i, n)) di. 10.7.1 Алгоритм обучения второго слоя (нейрон с континуумом признаков) Э I х (г, п)п|2 Вычислим производную -----7“ о а2(г, п) Э I х (г, n)m" 12 ---- Э (sign g(n))m’> ----а-------- = -2 х (п)™"---------------. Э а2(г, п) В 9 Э а2(г, п) Обозначим 5 sign ( S а;1(г, п) хп(п) + а10(г, п))= х2(г, п) . (10.25) d(sign g(n)) 3(sign f a2(i, n) x2(i, n) di) Тогда —-------------=------------------------------ оа2(г, n) da2(i, n) В данном случае величину первой производной опреде- лить нельзя и необходимо использовать информацию об ее знаке: 3(sign g(n)) sign 2 Bx2(i, п) — lim-------- . . ------------= sign оа2(г, n) 3(J a2(i, n) х2(г, n) di) так как ---------------------------------- х,(г, n). aa2(i, n) ***** » » = sign х,(г, n), 1+B2g2(n) J 6 2 229
(Здесь, как и далее везде, кроме окончательных результатов, знак усреднения по тп опущен). С учетом этого, получаем Э(х (п))2 ——— = -2 х (n) sign х2(г, п). (10.26) оа2(г, п) 8 Подставляя (10.26) в (10.3), получаем выражение для ре- куррентной процедуры настройки весовой функции нейрона второго слоя: а(г, п+1) = а(г, п) +2 f К(г, j) хд( j, п) sign x2(j, n)mndj, (10.27) где хд(п) определяется из (10.24), x2(j,n) - из (10.25). 10.7.2 Алгоритм обучения первого слоя (континуальный слой нейронов) д (х (п)) 2 Вычислим производную —т—: о ац(г, п) Э(х(т,п))2 Э (sign g(i, n)) а 9 .------2 X (n) - ; о аа(г, п) 8 оаа(г, п) d (sign д(п)) Э (sign g(i, п)) Э (х2(г, п)) д an(i, п) д х2(г, п) д a^i, п) => sign d(sign g(n)) д ап(г, п) = sign a2(i, n) sign хп(п). Отсюда Э (х (п))2 -—-—-=-2 xg(n)sign а2(г, n) sign хц(п). (10.28) Получаем выражение для рекуррентной процедуры на- стройки весовой вектор-функции первого слоя: а(г, п+1) = а(г, п) +2К*(г) хд(п) sign хд(п) х -Щ xsigna2(i, п) signx(n) п. (10.29) Здесь К*(г) - [L°xL°] - матрица функций параметра г, где L° - размерность вектора признаков х(п). 230
10.8. Континуальный слой нейронов с кусочно- постоянными весовыми функциями 10.8.1 Разомкнутая структура слоя Отрезок, на котором генерируется весовая функция, раз- бивается на равные отрезки длины т. Разбиение фиксирова- но, а амплитуда прямоугольников as (s - номер отрезка раз- биения) изменяется в процессе обучения (рис. 10.7) Рис. 10.7. Схема разомкнутой структуры континуального слоя нейронной сети с кусочно-посто- янными весовыми функциями Используя функции h(i) = 1, г >0 0, г<0 представим а(г) в следующем виде: 5 а(г) = S s=l s Введем обозначение Н(г, s) = h(i-(s-l)t)-/i(i-st). Тогда О а(г) = S а Н(г, s). 3=1 s Континуум нейронов описывается выражением L х(г) = sign ( Z а,(г) х, + а0(г)). В (10.31) j'1 а.(г) = Z als H(i, s). _ s=i Тогда s L x(t) = sign [ Sh(i, s) ( E als(i) x, + aOs)]. S=1 1=1 (10.30) (10.31) (10.32) 231
Используя определение функции H(i, s), получаем S L х(г) = £н(г, s) sign (S а. х, + anJ. (10.32а) s=l 1=1 ls 1 us Из (10.32) следует, что данная структура представляет собой слой нейронов вида L х(«) = sign ($-1) т < г < st, (10.33) причем выходы нейронов в течение равных отрезков времени г по очереди подключаются ко входу следующего слоя нейро- нов. Функция H(i, s) играет роль коммутатора (переключателя) выходов слоя нейронов. Структура, соответствующая (10.33), изображена на рис.10.7. 10.8.2 Рекуррентная процедура настройки кусочно- постоянных весовых функций Рекуррентная процедура настройки континуального слоя нейронов в случае двухслойной нейронной сети имеет следу- ющий вид: а(г, п+1) = а(г, п) +2 К*(г) xg(n) sign а2(г, п) sign rjn)?Пп. (10.34) Рассмотрим частный случай процедуры обучения, когда матрица функций К*(г) является диагональной. Пусть весовая функция нейрона второго слоя кусочно-по- стоянна. Тогда на каждом s-м отрезке имеем а2(г, n) = a2s( n)=const. (10.34а) Так как а^г) = s) > (10.35) 5 К*(г) = %KS H(i, s), (10.36) где Ks - диагональная числовая матрица на s-м отрезке. Тог- да для s-ro отрезка аппроксимации процедура настройки бу- дет иметь вид as(n+l) = as(n) +2 К (n) xg(n) sign a^n) sign x^n)m". (10.37) 10.8.3 К вопросу об оценке матрицы K*(i) Выше получено выражение для компонент диагонали мат- рицы К*(г) в случае двухслойной континуальной нейронной сети: 232
K*(i) =-(Кп+1(г) - Knw) Аух . (10.38) Здесь Ayx= Cyx sign a2(i), где Cyx - численная матрица (не зависит от i); а2(г) в данном случае кусочно-постоянная весовая функция нейрона второго слоя, т.е. постоянная на s-м отрезке. С учетом (10.35) ' Я(п)= Ё R (n) H(i, s), S \ (10-39) .Я(п+1)= Ёй(п+1)Н(г, s). Из (10.36) и (10.39) следует, что на s-м отрезке К,(п) =-(Я,(п+1) - R,(n)) Ayx . (10.40) 10.9. Континуальный слой нейронов с кусочно- линейными весовыми функциями 10.9.1 Разомкнутая структура слоя нейронов Рассмотрим континуальный слой нейронов с весовыми функциями вида, представленного на рис.10.8: а,(г)= Z (aslli+asOl)H(i,s). (10.41) S—1 ’ ’ ’ ‘ В этом случае выходной сигнал слоя имеет следующий вид: L S S x(i) = sign [ S Z (as! (г +as 0, )Н(г, s) х, +Х (а ог +а 0 0) H(i, s)] . i=l s=l s=l Отсюда S L х(г) = Zh(i, s) sign [S(ai; i +a Q l) x( + (a oi +a 0 0)]. (10.42) S=1 1=1 ’ Рис. 10.8. Весовые функ- ции с кусочно-линейной ап- проксимацией для контину- альной нейронной сети 233
Рис. 10.9. Схема разомк- нутой структуры контину- ального слоя нейронной сети с кусочно-линейными весо- выми функциями (s-й канал) Структуру (10.42) можно рассматривать как слой из S по- роговых элементов, весовые коэффициенты которых линейно зависят от г, причем при изменении г выходы нейронов пооче- редно подключаются ко входу следующего слоя функциями Н(г, s). Структура слоя изображена на рис. 10.9. (Для простоты показан лишь один канал преобразования, соответствующий s-му отрезку изменения параметра г). 10.9.2. Рекуррентная процедура настройки кусочно- линейных весовых функций Рассуждая как в предыдущем пункте, приходим к выво- ду, что матрица К*(г) имеет в данном случае следующий вид (при условии, что весовая функция нейронов второго слоя кусочно-постоянна): £ К*(г) = S(KU г +KOs) Н(г, s). (10.43) Следовательно, процедура обучения слоя на s-м отрезке име- ет следующий вид: ------------------------------------------------- а1з (n+1) = ais(n)+2 Kls(n) ^g(n) sign xi<n) - f 1 n Л ----------------------mn ' %s (n+l) = ajn) +2 K^n) xg(n) sign ajn) sign x/n) Здесь подразумевается, что s а(г) = S (au i +aQj) H(i, s). Выражение (10.44) имеет место лишь для указанного выше 134
ограничения на весовую функцию нейрона второго слоя. В об- щем случае процедура обучения имеет вид als(n+l) i+aOs(n+l) = als(n) i + a^n) + + 2 K*ls(n,i) xg(n) sign Xj(n) Fs(i,ri)m", (10.45) где функция Fs(i,n) зависит от выходных сигналов слоев ней- ронов, следующих за рассматриваемым. Отсюда, обозначив линейную функцию Цп, г) =2 К*/п,г) xg(n) sign x^ri) Fs(i,n) ™п, получаем для S-ro отрезка d als(n+D = als(n)+di(/s(n,i)), (1046) aOs (n+1) = М") +ЦП’ V ~ Ji ШП’ »>) • Выражения (10.45), (10.46) - общие алгоритмы настройки кусочно-линейных функций континуального слоя нейронов. Вид матрицы (10.43) следует из выражения (10.38) при ог- раничениях вида (10.34а) на весовую функцию нейрона второ- го слоя, определения векторов-функций Rn+1(i), Rn(i) и усло- вия линейности весовых функций на s-м отрезке. Действительно, из условия линейности весовых функций на s-м отрезке и определения Нп+1(г), Кп(г) следует Rs (п, г) = Rls(n) г + ROs(n) (10.47) Rs (п+1, г) = Rls(n+1) г + ROs(n+l). Из (10.38) и (10.47) следует (10.43). 10.10. Континуальный слой нейронной сети с кусочно-постоянными весовыми функциями (случай фиксированных величин «ступенек») 10.10.1 Разомкнутая структура слоя Пусть весовые коэффициенты слоя нейронов имеют вид рис.10.4 при условии, что точки разбиения Ts не фиксированы (т.е. меняются длины отрезков разбиения). Пусть при этом амп- 235
питуды прямоугольников фиксированы и имеют величины 'Jsl Да, где Usi - целое число; Да - постоянная величина. При этом l-я весовая функция слоя запишется следующим образом: 5 а((г) = Z Utl Да H(i, s), (10.48) S=1 'де H(i, s) = h(i~isA) - h(i-Ts). Выходной сигнал слоя L s s x(i) = sign [ Да( Z Z U3l H(i, s) x. +2 U QH(i, s) )] . 1=1 s=l s=l Этсюда S L x(i) = Z H(i, s) sign [ Да( Zll, x. +U 0)] . (10.49) s~ 1 1=1 Структура (10.49) аналогична структуре (10.32a) при усло- эии, что временные интервалы Т5, в течение которых соот- эетствующие нейроны подключены ко входу следующего слоя, гвляются переменными, и, кроме того, амплитуды весов на ;-м отрезке фиксированы. Таким образом имеем s-мерный век- гор изменяемых параметров Ts. 10.10.2. Рекуррентная процедура настройки кусочно- постоянных весовых функций с изменяемыми длинами отрезков ts Рекуррентная процедура настройки вектора т имеет следу- ощий вид tWMW-r? <1050) дт т= т(п) ’ де Y(n) - функционал вторичной оптимизации. Если Y(n) = (е(п) - у(п))2 = х2д, де у(п) - выходной сигнал нейронной сети; е(п) - указание 'си лите ля, то у(п) = Р[х(г)], де х(г) - выходной сигнал рассматриваемого слоя, F - пре- образование, осуществляемое последующими слоями нейрон- юй сети над х(г): 36
ЭУ ду dx(i) drs 2 Х9 дх(г) Этл С учетом вида x(i) получаем Э¥ _ з дР dx(i) dH(i,s) дг5 Х9 Эх(г) dH(i,s) Эту Эх(г) _ j- Su i х, +U „)] . дН(г,з) 1 4=1 sl 1 s0'J (10.51) Из определения функции H(i, s): dH(i,s) д г ] dH(i,s) dh(t~i:) ~dH(i,s)___d(sign(t-T8)) 9(t~Ts) dr, d(t~Ts) drs ’ = . 4 dH(i,s) xr —------ = 5(г_т ). Эт5 ' s> Необходимо использовать информацию о знаке производной dH(i,s) (дН(г,з) \ sign (—J = 1 при г > т, . Окончательно ЭУ дЕ Г z V \1 — = - 2 х — sign [ Да( Z t/s! х(+C7s0)]. (10.52) ох(г) 1-1 Литература 10.1. Галушкин А.И. Синтез многослойных систем распознавания об- разов. —М., Энергия, 1974. 10.2. Галушкин А.И. Континуальные модели многослойных систем распознавания образов. //Автоматика и вычислительная тех- ника. - №2 -1977. 10.3. Галушкин А.И. Континуальные нейронные сети. //«Нейроком- пьютер» -№2 -1992, с.9-14. 237
Глава 11. Выбор начальных условий при настройке нейронных сетей. Типовые входные сигналы многослойных нейронных сетей 11.1. О методах выбора начальных условий Однородная нейронная сеть, настраивающаяся на решение конкретной задачи, является динамической системой, поведе- ние которой описывается разностным или дифференциальным (линейным или нелинейным) уравнением. Именно поэтому за- дача выбора начальных условий для настройки системы (или, иначе, для решения дифференциального или разностного урав- нения) и, как следствие, для решения конкретной задачи явля- ется важным разделом теории нейронных сетей. Качество вы- бора начальных условий в некоторых случаях в значительной степени определяет качество решения задачи. Этот вопрос прак- тически всегда опускается в известных алгоритмах настройки или его решение считается тривиальным. Данного вопроса, пожалуй, касался лишь Розенблатт Ф. в своем основополагающем труде [1]. Однако во всех экспери- ментах он полагал начальные значения коэффициентов рав- ными нулю. Это не гарантирует того, что система окажется в глобальном экстремуме или в локальном с достаточным экст- ремальным значением функционала оптимизации. Важность выбора начальных условий обнаруживается в за- дачах с многоэкстремальными функционалами оптимизации. Очевидно, что в этих задачах можно подобрать такие началь- ные условия, при которых в процессе настройки нейронная сеть не достигнет требуемого качества решения задачи, т.е. мы не найдем глобального или «хорошего» (в смысле качества ре- шения задачи) локального экстремума функционала [2]. Можно рассматривать два метода выбора указанных на- чальных условий: выбор случайных начальных условий и выбор детерминированных начальных условий. Случайный выбор начальных условий производится ввиду многоэкст- ремальности функционала вторичной оптимизации, связан- ной с многомодальностью распределений /(х) входного сиг- нала и ограниченностью структуры разомкнутой нейронной сети. Случайные элементы в процедуру поиска экстремума функционала вторичной оптимизации вводятся в связи с необходимостью поиска локальных и глобального экстре- 238
мумов указанного функционала. Необходимость поиска ло- кальных экстремумов обусловлена необходимостью реше- ния задачи минимизации структуры многослойной нейрон- ной сети при анализе результатов настройки. На первом этапе использования случайных начальных условий (и сле- дующего за ним этапа усреднения результатов настройки по множеству этапов выброса случайных начальных усло- вий) создается впечатление о большом числе локальных экстремумов функционала вторичной оптимизации в про- странстве настраиваемых коэффициентов. Однако в связи с этим необходимо отметить, что при усложнении структу- ры разомкнутой нейронной сети увеличивается множествен- ность состояний многослойной нейронной сети, оценивае- мая по величине функционала вторичной оптимизации. Ина- че говоря, большинство локальных экстремумов функцио- нала в пространстве настраиваемых коэффициентов обес- печивают одно и то же качество распознавания. Это заме- чание необходимо связывать с описываемыми ниже мето- дами оценки качества многослойных нейронных сетей по оценке значения функционала вторичной оптимизации по текущим сигналам в нейронной сети. С учетом вышесказан- ного и результатов данной главы, полученных эксперимен- тально, можно отметить правомерность подхода к настройке с использованием случайных начальных условий, хотя этот подход, очевидно, вводит избыточность во времени настрой- ки нейронной сети с целью полного изучения входного сиг- нала (в частности, нахождения глобального экстремума фун- кционала). Целью введения детерминированных начальных условий является априорное введение нейронной сети в область од- ного из локальных экстремумов функционала вторичной оп- тимизации в пространстве настраиваемых коэффициентов. На уровне геометрии первого, второго слоя и т.д. много- слойная нейронная сеть должна быть максимально аморф- на, рассредоточена, т.е. подготовлена к решению наиболее сложной (с точки зрения модальности /(х)) задачи распозна- вания. Мыслимая конфигурация разделяющей поверхности в этом случае при обучении распознаванию двух классов образов представлена на рис. 11.1, хотя это предваритель- ный вариант. Окончательный вариант может быть опреде- 239
Рис. 11.1. Разделяющая поверхность при выборе начальных условий: 1 - первый класс; 2 - второй класс лен только при введении критерия аморфности, рассре- доточенности. Очевидно, что минимально аморфной и рас- средоточенной является многослойная нейронная сеть, в которой все коэффициенты нейронов первого слоя одина- ковы и соответствующие разделяющие поверхности сме- щены к «краю» пространства признаков. На рис. 11.1 пунк- тиром обозначена физически реализуемая в нейронной сети область пространства признаков. Это распространяется и на режим самообучения, если не указывалась заранее при- надлежность клеток рис. 11.1 к тому или иному классу. Начальные условия на настраиваемые коэффициенты вто- рого слоя и т.д. рассчитываются по геометрии разделяю- щей поверхности, реализуемой нейронами первого слоя с указанием принадлежности областей исходного простран- ства признаков к тому или иному классу. Начальные условия выбираются исходя из априорной ин- формации о входных распределениях при уже известной структуре разомкнутой нейронной сети и выбранном функ- ционале оптимизации. Выбор начальных условий связан не только с выбором вектора а (0), но и с выбором метода оп- ределения элементов параметрической матрицы К на каж- дом шаге. Эта формальная связь обусловлена тем, что вто- рая задача решается на этапе выбора начальных условий и обе они входят в задачу выбора параметров итерационной процедуры. Методы, используемые при выборе начальных условий, можно упорядочить по виду используемой ин- формации: - выбор случайных начальных условий без использования обучающей выборки; - выбор детерминированных начальных условий без ис- пользования обучающей выборки; - выбор начальных условий с использованием выборки. 240
11.2. Алгоритм детерминированного выбора начальных условий в алгоритмах настройки многослойных нейронных сетей В данном параграфе предлагается алгоритм, с помощью которого выбираются начальные условия для слоя многослой- ной нейронной сети. В этом алгоритме используется априор- ная информация о взаиморасположении мод в пространстве признаков, их числе и дисперсиях мод. Пусть пространство признаков отнормировано в единич- ный гиперкуб К= { х: 0 < х.< 1, г=1...ЛГ}, х. 6 К, (j =1.М), (11.1) где х^. -вектор признаков ;-го образа обучающей выборки; JV-размерность пространства; М-длина обучающей выборки. Без потери общности рассмотрим случай двух классов с Кги К2 модами, соответственно в первом и втором классе. Обо- значим их ^(1=1,...,^), r2i(i= 1,...,К2). Организуем теперь для проекций мод на каждую коорди- натную ось монотонные последовательности: О < г/. < г/. < .. .< 1, (а. ,=1,2; j = 1,..., N), (11.2) где 2 “ номера мод первого и второго классов. Рассмотрим разности вида (1L3) Пусть - есть оценка дисперсии j-й моды г-го класса, тогда при выполнении условия 1<- <!<(<+<) 7=1.........N (11.4) гиперплоскость проводится через середину отрезка [’•A,. 4J (и-5) перпендикулярно ;-й координатной оси. Если проведенная гиперплоскость разделяет и проекции других мод, то она проводится через точку, полученную усреднением средин соответствующих отрезков вида (11.5), концы которых она 241
Рис. 11.2. Пример использо- вания алгоритма детерминиро- к ванного выбора начальных ус- *1 ловий разделяет. Если условие (11.4) не выполняется для данной пары мод, то гиперплоскость не проводится. Для наглядности рассмотрим пример на рис. 11.2. Взаи- морасположение мод имеет вид: ®<А1<Аг<Аг<А1<^’ Проверяем выполнение условий (11.4) для хг В результа- те проводим гиперплоскость 1 через середину отрезка [r*1( Я12], где Д1 = Аг~ Ai Д1 = Аг- Ai 1 2 ’ 2 2 Аналогично, проверяя для х2, проводим гиперплоскость 2 через середину отрезка [К2Р R22], где: К2 = А1~ А1 R2 = Г212~ Аг 1 2 ’ 2 2 С ошибкой, определяемой заштрихованными областями, можно отнести первый и третий отсеки к первому классу, второй и четвертый ко второму классу. Блок-схема программы, реализующей данный алгоритм, и описание параметров даны на рис. 11.3 ив табл. 11.1. 242
Рис. 11.3. Блок-схема программы, реализующей алгоритм детер- минированного выбора начальных условий 243
Таблица 11.1 R1 матрица оценок координат центров мод 1-го класса R2 матрица оценок координат центров мод 2-го класса (проекции центров мод на i-ю координатную ось расположены в г-м столбце) SGM1 матрица проекций оценок дисперсий мод 1-го класса SGM2 матрица проекций оценок дисперсий мод 2-го класса Ml число мод 1-го класса М2 число мод 2-го класса N размерность пространства признаков R3 матрица, получающаяся объединением матриц R1 и R2 по столбцам (М3 = М1+М2) X матрица точек на координатных осях, через которые проводятся гиперплоскости К номер точки на данной координатной оси I номер координатной оси А матрица коэффициентов проводимых гиперплоскостей IK номер гиперплоскости 11.3. Выбор начальных условий в многослойных нейронных сетях Задача выбора начальных условий в многослойных нейрон- ных сетях разбивается на поэтапный выбор начальных усло- вий для первого, второго и т.д. слоев. Методы определения начальных условий на нейронах первого слоя были рассмотре- ны выше. Пусть, например, в результате детерминированного выбора определены коэффициенты нейронов первого слоя, тем самым получен набор отсеков, каждому из которых соответ- ствует номер, состоящий из чисел +1 и -1 (их число определя- ется числом нейронов). При предположении, что такой выбор обеспечивает положение разделяющей поверхности, близкое к оптимальному (даже за счет избыточности структуры перво- го слоя, которая может быть устранена в процессе обучения многослойной нейронной сети), т.е. при предположении о ма- лости ошибки распознавания, получаемой при этом положе- нии, вероятность изменения конфигурации отсеков будет мала. Оценки этой вероятности даны ниже. С этой вероятностью бу- дут сохраняться обучающие последовательности для второго и т.д. слоев. Если выбрать коэффициенты нейронов этих слоев 244
Рис. 11.4. Пример зависимости коэффициентов нейронов второго и третьего слоя от распределения номеров классов по отсекам так, чтобы они правильно производили разделение в про- странстве выходов предыдущего слоя, то в процессе обуче- ния многослойной нейронной сети эти коэффициенты могут ос- таваться фиксированными. На рис. 11.4 показана зависимость коэффициентов нейронов второго и третьего слоев от распре- деления номеров классов по отсекам при одинаковой конфигу- рации. Заведомо опущены случаи линейно разделимых клас- сов и случаи, получающиеся из данных заменой «+» на «-». В случаях а - г логическая функция реализуется на одном ней- роне второго слоя, в случае д - реализуется трехслойная нейронная сеть. Рассмотрим вопрос фиксации коэффициентов более под- робно. Пусть в пространстве признаков реализуется некото- рая кусочно-линейная поверхность. Для формирования обуча- ющей выборки для второго слоя нужно поставить в соответ- ствие каждому отсеку номер класса. 245
Это делаем следующим образом. Сначала получаем соот- ветствие между каждым элементом обучающей выборки и номером отсека, а затем из всех образов, попавших в один отсек, выбираем максимальное число образов с одинаковым номером класса. Этот номер будет соответствовать данному отсеку. Далее следует выбрать оптимальные коэффициен- ты нейронов второго слоя. Методы, применявшиеся для первого слоя, оказываются малопригодными, так как это ведет к избыточности структуры последующих слоев, что может препятствовать физической реализуемости многослой- ной нейронной сети. Поскольку в большинстве задач диагно- стики кусочно-линейная поверхность не очень сложна, то для типовых конфигураций отсеков можно эксперименталь- но получить таблицы соответствия коэффициентов нейро- нов второго слоя данной конфигурации. Хотя эта задача является сложной и трудоемкой, ее решение позволило бы свести выбор начальных условий в многослойной нейронной сети к детерминированному выбору начальных условий для первого слоя и фиксации по таблицам коэффициентов пос- ледующих слоев. Ниже приводится оценка вероятности со- хранения конфигурации в пространстве признаков. Рассмотрим детерминированный выбор начальных усло- вий для многослойной нейронной сети с тремя нейронами в первом слое, показанный на рис. 11.5. Значения логической функции У на отсеках, аргументами которой являются выхо- ды нейронов первого слоя, при данной конфигурации даны в Рис. 11.5. Пример де- терминированного выбо- ра начальных условий для многослойной ней- ронной сети с тремя ней- ронами в первом слое табл. 11.2, где yt(i =1,2,3) - выходы нейронов первого слоя. Такая фун- кция реализуется двумя нейронами второго слоя, например с коэффи- циентами а/ = {1, 1, 1, -2); (11.6) а22 = {-1, -1, -1, 2}. Таблица 11.2 № 1 2 3 4 5 6 У 1 -1 + 1 +1 + 1 -1 -1 У 2 +1 + 1 -1 -1 -1 -1 Уз + 1 + 1 +1 -1 -1 + 1 У + 1 -1 +1 + 1 -1 + 1 246
В процессе дальнейшего обучения отсеки из табл. 11.2 могут исчезнуть, а также могут появиться новые, их число равно 2Н1 - т, где количество нейронов в первом слое; m-число отсеков, полученных при выборе начальных усло- вий. В нашем примере могут появиться отсеки (+1+1-1) и (-1+1-1). При фиксированных коэффициентах второго слоя (11.6) получаем, что оба новых отсека относятся к первому классу. Как видно из рис. 11.4 первый отсек увеличит ошибку распознавания, так как в него попадут элементы второго класса, а второй - нет. Увеличение ошибки классификации за счет фиксации коэффициентов слоев выше первого мо- жет произойти: во-первых, если новые отсеки (при наличии в них образов) будут отнесены к другому классу образов, во- вторых, если в старый отсек, который изменит при обуче- нии составляющих его гиперплоскостей свою конфигурацию, попадет больше образов другого класса, чем было. Рассмотрим отсек е' = {е'р . . . , e‘fe}, е*.= ±1, i = 1, . . . ,т. Пусть номеру отсека е* соответствует первый класс (рассмот- рим задачу 2 классов) и пусть в данный отсек при выборе начальных условий попали Si элементов второго класса, тогда вероятность ошибочной классификации, даваемой поверхно- стью, образующей данный отсек, есть SJM-, где М. - число образов в отсеке е‘. Очевидно, что дальнейшему обучению по замкнутому циклу будут подлежать те гиперплоскости, изме- нения положения которых будет уменьшать вероятность ошибки Sj/Mi. Если р{ есть вероятность деформации отсека в процессе обучения, то можно определить ее как: р, = pGS^/M, ) • (11.7) Предположим, что зависимость вероятности деформации отсека от вероятности 8{/М{ линейна, т.е.: р{ = -^- (11.8) Mi и что образы равномерно распределены по отсеку с плотно- стью №р, тогда: р<= V.L. (11.9) Mi Очевидно, что р£ —>0 при V;—>0, 5‘p=const, а также р< —>0 при S*p—>0, Vf=const. Физически это означает, что вероят- 247
ность деформации отсека, который не дает вклад в ошибку распознавания, равна нулю и что при постоянной плотности распределения Sp, уменьшая объем отсека, мы уменьшаем число попавших в него элементов Sit а следовательно и вероятность (11.9). При рассмотрении предела оказы- вается, что р—>1/2 (при предположении, что в выборке нахо- дятся по М/2 элементов каждого класса). Усредняя величину (11.9) для всех т отсеков, имеем т Рт т i=i Mi Mi учитывая, что для любого р< Sj < —получаем оценку сред- ней вероятности деформации отсеков данной конфигурации: 1 2 В результате проведенных рассуждений видно, что на этапе выбора начальных условий для нейронов первого слоя можно оценить вероятность деформации имеющихся отсеков в процессе обучения, т.е. оценить правомерность использова- ния фиксированных коэффициентов последующих слоев. Про- веденная оценка опиралась на ряд упрощений, так как иссле- дование увеличения ошибки распознавания в общем виде при фиксировании коэффициентов нейронов слоев выше первого представляется сложной. С учетом рассмотренного выше можно изложить методику выбора начальных условий в многослойных нейронных сетях. 1. Проводится кусочно-линейная поверхность в простран- стве признаков с помощью алгоритма детерминированного выбора начальных условий на нейронах первого слоя. 2. Находится соответствие между г-м образом обучающей выборки и номером отсека (eJ= 1.т) с помощью экзамена пер- вого слоя на всей обучающей выборке. 3. Номеру отсека е3 ставится в соответствие указание учи- теля Е((/=1.К), где К-число классов образов. Для этого вычис- ляются числа Yy(i= 1,...,р) - для каждого отсека (Yi;. - число образов i-го класса, попавших в j-й отсек; р - число классов, образы которых попали в j-й отсек) и находится max YfJ.. Соот- ветствующее Е; и будет искомым указанием учителя. 4. Вычисляется вероятность, с которой происходит отнесе- ние j-го отсека к г'-му классу образов: 248
P.= l- А. 1 Mj где p Si =M. - max Y(j, Ё Y... J J l 4 1 ;=1 4 5. Проверяется реализация логической функции на одном нейроне второго слоя. Если функция реализуема, то обучени- ем нейрона второго слоя кончается выбор начальных условий. 6. В противном случае выбираются начальные условия на нейронах второго слоя, либо аналогично п.1 (с тем отличием, что для любого отсека EJ должно быть S=Q), либо с помо- щью таблиц соответствия коэффициентов нейронов второго слоя конкретным конфигурациям отсеков. Выбранные таким образом коэффициенты фиксируются. 7. Аналогично поступаем с последующими слоями. 8. Формируются подвыборки для обучения нейронов перво- го слоя: для каждого отсека ej проверяем поочередно, какие гиперплоскости из образующих отсек дают вклад в ошибку S? Сдвигаем каждую гиперплоскость на ±т;.(г>г;.°), где г ° - сред- нее расстояние между ближайшими образами, попавшими в данный отсек, и контролируем изменение числа S? Найденные таким образом гиперплоскости будут подлежать дальнейшему обучению по замкнутому циклу. Подвыборка, по которой бу- дет обучаться каждая гиперплоскость, формируется из обра- зов, попавших в отсеки, прилегающие к ней. Частичное обучение нейронов первого слоя позволит: во- первых, не обучать гиперплоскости, занимающие оптималь- ное положение, во-вторых, получить экономию во времени обучения. После выполнения всех пунктов данной методики можно переходить к обучению многослойной нейронной сети, кото- рое сведется к обучению нейронов первого слоя. 11.4. Типовые входные сигналы многослойных нейронных сетей Выбор определенного класса типовых входных сигналов должен производиться с точки зрения решения задачи более или менее объективного сравнения качества многослойных нейронных сетей в режиме настройки и в установившемся состоянии. Основу для рассмотрения здесь дает системный 249
подход к синтезу многослойных нейронных сетей. Методо- логически данная задача достаточно полно решена для ли- нейных систем автоматического управления при детерми- нированных и случайных входных сигналах. Так, достаточ- но полным классом детерминированных входных сигналов, для которых производится как оценка, так и сравнение ка- чества систем управления, является класс полиномиальных входных сигналов. В этом случае основной характеристикой сложности сигнала является соответствующая степень по- линома. Для многослойных нейронных сетей основной ха- рактеристикой сложности входного сигнала является модаль- ность распределения fx(x) совместно с некоторыми характе- ристиками пространства указаний учителя. Рассмотрим не- которые частные случаи выбора типовых сигналов в много- слойных нейронных сетях. В случае самообучения, по на- шему мнению, логично распределение типового стационар- ного входного сигнала многослойной нейронной сети счи- тать многомодальным с более или менее равномерным рас- положением мод распределения /Х(х) в физически реализу- емом пространстве признаков. На рис. 11.6 представлен полный класс типовых входных сигналов многослойной нейронной сети в режиме самообуче- о ______X. г =1 о о о о г =4 ООО ООО ООО ___X г =9 оо оо оооо оо оо оо оо г =16 Рис. 11.6. Условное представление класса типовых входных сиг- налов нейронной сети в режиме самообучения по степени сложнос- ти ния, иллюстрируемый линиями равных значений /Х(х) на физически реализуемом пространстве признаков (изображе- ние в двумерном пространстве X является условным). Здесь г - сложность типового входного сигнала многослойной ней- ронной сети. При исследовании динамики нейронной сети величина т типового входного сигнала должна достигать мак- симальной сложности, на которую в принципе проектирова- лась многослойная нейронная сеть. Дисперсия для каждой моды /Х(х) должна выбираться так, чтобы моды были доста- точно ярко выраженными. В случае обучения многослойной 250
О 0 X О 0 0 О о@о ©о® о®о X О0 00 0О ©о О© 0© ©о ©о X г=2 г=4 г=9 г=16 Рис. 11.7. Условное представление двух классов входных сигна- лов нейронной сети в режиме обучения по степени сложности нейронной сети распознаванию двух классов образов на рис.11.7 представлены линии равных значений Д(х) и /2(х) для типовых входных сигналов (Д - светлые, /2 заштрихованные кружки). Необходимо отметить, что для каждой конкретной зада- чи, решаемой нейронной сетью, типовые входные сигналы выбираются своим образом. Литература 11.1. Розенблатт Ф. Принципы нейродинамики. - М., Мир, 1964. 11.2. Галушкин А.И. Синтез многослойных систем распознавания образов. - М., Энергия, 1974. 251
Глава 12. Исследование замкнутых многослойных нейронных сетей 12.1 .Постановка задачи синтеза контура настройки многослойных нейронных сетей по замкнутому циклу Настоящая глава является заключительным этапом син- теза многослойных нейронных сетей с фиксированной струк- турой, настраивающихся по замкнутому циклу. При этом заданными являются структура разомкнутой нейронной сети, характеристики сигнала в общем виде, алгоритм настройки коэффициентов многослойной нейронной сети, удовлетворя- ющий некоторому критерию первичной оптимизации. Для оцен- ки качества работы замкнутых многослойных нейронных се- тей нужно решить ряд задач. Первой является задача выбора начальных условий для настройки коэффициентов многослойной нейронной сети. Вви- ду многоэкстремальности функционала вторичной оптимиза- ции нейронной сети рассматриваются два способа выбора на- чальных условий: случайный выбор с усреднением результа- тов по числу случайных выбросов, когда нужно найти все локальные и глобальный экстремумы, и детерминированный выбор, когда многослойная нейронная сеть вводится в область глобального экстремума функционала вторичной оптимиза- ции путем определенного задания кусочно-линейной разде- ляющей поверхности в начальный момент времени. Второй является задача выбора класса типовых входных сигналов многослойных нейронных сетей для оценки качества их работы в переходном и установившемся режимах анало- гично тому, как это делается в системах автоматического управления. Сложность входного сигнала будет определяться, в частности, модальностью условного распределения /’(х/е). Третьей является задача выбора параметрической матри- цы К* в алгоритме поиска экстремума функционала вторич- ной оптимизации. Решение данной задачи возможно аналити- ческим методом и путем использования методов статистичес- кого моделирования. Общая методика аналитического иссле- дования замкнутых нейронный сетей состоит из следующих этапов: 252
1) определение плотности распределения вероятностей для оценки вектора градиента функционала вторичной оптимизации; 2) вывод стохастического дифференциального уравнения для изменения в процессе настройки плотности распределе- ния настраиваемых коэффициентов нейронной сети; 3) решение данного уравнения; 4) нахождение параметров распределения функционала первичной оптимизации интегрированием по пространству признаков и по пространству состояний нейронной сети как системы со случайным входным сигналом и случайными параметрами. В результате данного исследования можно решить задачу синтеза контура настройки нейронной сети, исходя из условия обеспечения заданного качества по значению функционала пер- вичной оптимизации. Необходимо отметить, что решение тре- тьей задачи аналитическим методом является трудным с мате- матической точки зрения. Поэтому методика аналитического ис- следования замкнутых нейронных сетей иллюстрируется в кни- ге частными примерами. Основным остается метод статистичес- ких испытаний, при этом выбор оптимальных параметров кон- тура настройки нейронной сети производится по оценке теку- щего значения оценки функционала вторичной оптимизации. 12.2. Исследование нейрона при многомодальном распределении входного сигнала 12.2.1. Одномерный случай; поисковый алгоритм настройки Моделировался нейрон с двумя решениями и минимиза- цией а^. Структурная схема моделируемой системы пред- ставлена на рис. 12.1 Исследовалась возможность построения замкнутых систем с поисковой процедурой адаптации ввиду невозможности аналитической оценки величины градиента a2ff в данной системе. Совокупности образов первого и второго класса подчинены многомодальным распределениям. В этом случае имеем дело со структурной недостаточностью, когда сложность структуры системы меньше, чем сложность реша- емой задачи, и потенциальное качество распознавания в прин- ципе не достигается. Исследование подобной системы позво- ляет выяснить возможность обучения нейронов первого слоя многослойной нейронной сети при введении элементов слу- 253
Рис.12.1. Функциональная схема поисковой нейронной сети, настраивающейся по замкнутому циклу с мини мизацией второго момента дискретной ошибки: 1 - квадратор; 2 - блок задержки на такт Т 254
чайности в поисковую процедуру (гл.8) нахождения локаль- ных и глобального экстремумов функционала оптимизации. На рис. 12.2 представлены плотности распределения совокуп- ностей образов первого и второго класса, а также зависимо- сти для данного случая средней функции риска, точнее, а2д от порога а0, если нейрон слева указывает область первого класса, а справа второго. Градиент а2д при поисковой проце- дуре адаптации вычислялся в соответствии с выражением %(а0+Аа0) ~ а2д(а0-Аа0) da0 2Да0 где Аа0- амплитуда поисковых колебаний. Оценка da2g /daQ производилась усреднением по mn реализациям входного сиг- нала системы. Основной целью моделирования являлась оцен- ка влияния Аа0, К*, тпп, а0(О) на динамику контура настрой- ки коэффициента а0 системы. Результаты моделирования по- зволили сделать следующие выводы: 1) поисковые колебания вполне применимы для пост- роения блока настройки нейрон- ной сети по замкнутому циклу. Чем больше Аа0(в рассматри- ваемых пределах), тем больше Гtx) «• 1 О 11,752 3 Ч 5 S 7 в 3 1011 12 Рис. 12.2. Характеристики входного сигнала и функциона- ла оптимизации: I - первый класс; II - второй класс точность работы контура настройки в установившемся состо- янии (рис.12.3); 2) чем больше К*, тем меньше систематическая ошибка итерационной процедуры поиска оптимального решения, но тем больше случайная ошибка указанной процедуры (рис.12.4); 3) чем больше тп, тем меньше случайные и больше ди- намические ошибки контура настройки системы из-за введе- ния дополнительного запаздывания в контур обратной связи нейронной сети как экстремальной системы (рис.12.5); 255
Рис. 12.3. Исследование влияния шага на динамику настройки систе- мы при К=0,5; mn=20; ао(О)=О: 1 - Да0=0,25; 2 - Дао=О,5; 3 - Да0=1 Рис. 12.4. Исследование влияния К* на динамику настройки системы при Дао=О,25; mn=20; ао(О)=4: 1-К*=0,25; 2-К’=0,5; 3-К*=1; 4-К*=2 Рис.12.5. Исследование влияния памяти тп блока настройки сис- темы при Да =0,25; К=0,5; а„(0)=7,32:1-т =5; 2-т =10; 3-т =20 • и О' ' ’ Я ’ п я 256
4) при любых начальных условиях ао(О) (рис.12.6) итера- ционная процедура поиска оптимального решения сходится к одному из локальных экстремумов. Результат работы ал- горитма поиска всех локальных экстремумов с введением элементов случайности в процедуру поиска представлен на рис.12.7. Рис.12.6. Исследование влияния начальных условий на динамику настройки системы при Дао=О,25; К=10; mn=10: 1 -ао(О)=О; 2-а0(0)=3; 3-а„(0)=4; 4 -ао(0)=7; 5-а„(0)=9 Рис. 12.7. Настройка при множестве случайных начальных усло- вий: 1 -Да=0,25; К=0,5, т =10; 2 -Да =0,25; К=0,25, т =20; 3 ~&а=2; К=2, U ’ ’ Л U 11 и т,=10 9-353 257
12.2.2. Многомерный случай. Аналитический алгоритм настройки Аналитическая процедура настройки при многомодаль- ных распределениях входного сигнала исследовалась на примере минимизации а2д в нейроне с континуумом реше- ний (гл.1) и арктангенсной функцией активации (В=10). В ходе эксперимента были изучены следующие вопросы: 1. Влияние начальных условий на сходимость итераци- онной процедуры при отыскании одного локального экст- ремума. 2. Зависимость скорости сходимости итеративной процеду- ры от величины шага и размерности пространства признаков N. Вопрос устойчивости градиентной процедуры. Влияние ве- личины дисперсии на качество сходимости итерационного процесса. 3. Влияние способа вычисления градиента оптимизируемо- го функционала на скорость сходимости и качество процесса поиска. 4. Влияние памяти (тп) системы настройки на качество итерационного процесса. Заметим, что исследования проводились с помощью дат- чика случайных векторов х и указаний учителя е. Многомо- дальное распределение случайных векторов х в достаточно общем случае проиллюстрировано на рис.12.8, где окружнос- ти обозначают уровни равных значений плотностей вероятно- сти для каждой моды. Модальность распределения случайных векторов может быть задана любой, соответствующей плану экспериментов. На рис. 12.8 в виде окружностей сплошной линией обозна- чены линии равных значений плотности распределения для образов первого класса, пунктиром - второго. Общее число Z мод распределений для первого и второго класса равнялось 10; среднеквадратичное значение о, определенное для одной моды, равно 2. Установить факт наличия устойчивости вектора коэффи- циентов нейрона в оптимальном состоянии - цель первого эксперимента. Для этого вектор коэффициентов нейрона по- лучал оптимальные начальные условия, соответствующие одному из локальных экстремумов (рис. 12.9 - положения 1 и la), и начинался процесс обучения. Начальные 1 и 1а и конеч- 258
Рис.12.8. Иллюстрация работоспособности нейрона при многомо- дальном распределении входного сигнала:------- начальное положе- ние гиперплоскости;----- - промежуточное (после 500 итераций) поло- жение гиперплоскости; 1-7 - номера экспериментов ные Г и 1а' положения гиперплоскостей говорят об устойчи- вости ее экстремального положения, соответствующего од- ному из минимумов средней функции риска. Колебания отно- сительно устойчивого положения обусловлены стохастично- стью минимизируемого функционала качества нейронной сети. Плавность этих колебаний тем больше, чем больше память 9* 259
Рис. 12.9. Динамика на- стройки коэффициентов нейрона при многомодаль- ном распределении вход- ного сигнала при mn=30 (арабскими цифрами обозначен номер опыта): - - - - начальное положе- ние гиперплоскостей;----- - конечное положение гипер- плоскостей системы и чем меньше модальность (число мод) распределе- ний входного сигнала, используемого при обучении. При от- клонении от оптимальности положения с поворотом 3 и без поворота 2 гиперплоскость приходит в ближайший локальный минимум 2' и 3', поворачиваясь, и уменьшая при перемеще- нии ошибку. На рис.12.9 показаны начальные I, 2, 3, 4 и конечные Г, 2', 3', 4' положения разделяющих плоскостей для различных начальных условий. Динамика настройки ко- эффициентов этих прямых проиллюстрирована на рис. 12.10. Здесь оказалось удобным воспользоваться уравнением пря- мой (гиперплоскости в общем случае) в отрезках и следить (рис.12.10) за изменением этих отрезков в процессе настройки. На рис.12.10 видно, что при оптимальных начальных услови- ях (1, 2) система испытывает незначительные колебания око- ло положения оптимума. Градиент начинает часто менять знак, и система останавливается. Большие колебания кривой 3 обусловлены значительными величинами градиента функ- ционала, что характерно для изображающей точки вблизи от локального экстремума. При больших отклонениях от экт- ремумов изображающая точка попадает в область с малыми значениями градиента, что приводит к движению с очень малой скоростью. Отсюда следует определенное требование к априорной информации о функционале качества (ограни- 260
Рис.12.10. Динами- ка настройки коэффи- циентов нейрона при многомодальном рас- пределении входного сигнала: 1-4 - номера экспериментов О 24 48 72 36 120 144 168 132 216 240 ченность пространства поиска локальных экстремумов, пред- полагаемый характер их расположения и т.п.), позволяющее сделать вывод о зоне поиска и выбрать начальные величины шагов градиентной процедуры. Интересные результаты получены при исследовании вли- яния величины дисперсии (степени пересечения классов) на процесс настройки. Если брать дисперсии малыми по сравне- нию с расстояниями между модами, то оптимальное положе- ние разделяющей гиперплоскости может быть довольно без- различным, так как это соответствует случаю непересекаю- щихся классов и локальные экстремумы в зоне оптимума не являются острыми. Был произведен также эксперимент, ког- да при условии пересечения классов дисперсия первого клас- са в несколько раз превосходила дисперсию при модах второ- го класса. Как и следовало ожидать, для системы распозна- вания, настраивающейся по средней функции риска, опти- мальное состояние разделяющей гиперплоскости сместилось в сторону моды с меньшей дисперсией. Обеспечение устойчивости градиентной процедуры достиг- нуто экспериментальным выбором величины шага и приме- 261
~526~},s Рис.12.11. Динамика на- стройки коэффициентов ней- рона при числе мод распре- деления входного сигнала, равном 4: 1 - первый минимум; 2 - второй минимум нением ограничения на величи- ну приращения компонент векто- ра. Ограничение выбирается по априорной информации о харак- тере функционала так, что при- ращения, получаемые коэффи- циентами нейрона, не могут быть больше четверти мини- мального расстояния между ло- кальными экстремумами. Такая мера обеспечивает плавность процедуры обучения. Две пары кривых, характе- ризующих динамику поиска двух минимумов при четырехмодаль- ном распределении входного сигнала (рис.12.11), оптимальном начальном значении шага гради- ентной процедуры, равном че- тырем, и ограничении на Да;, равном 0,03, интересны тем, что в процессе настройки коэффи- циенты нейрона меняют знак. При этом следует помнить, что скачки в этих графиках соответ- ствуют малым и плавным изме- нениям коэффициентов нейрона. Изображающая точка при поис- ке первого минимума переходит из второго в первый квадрант пространства настраиваемых ко- эффициентов, а при поиске второго минимума - из тре- тьего в первый. На рис.12.8 представлены различные начальные и соот- ветствующие промежуточные (по окончании 200 итераций) положения гиперплоскостей. Данные промежуточные по- ложения гиперплоскостей можно считать установившими- ся, так как экстремальная характеристика в этом диапазо- не настраиваемых параметров нейрона является практи- чески «плоской». 262
12.3. Исследование динамики частного вида нейронных сетей для распознавания нестационарных образов В данном параграфе исследуется одномерная нейронная сеть с минимизацией а2э (гл. 9). Основной целью исследова- ния является оценка влияния различных характеристик си- стемы и характеристик нестационарных образов на динами- ку работы контура настройки системы по замкнутому циклу. Выражение для аналоговой ошибки системы в данном слу- чае имеет следующий вид: хо(пДТ)=е(пДТ) - х(пДТ) + а0(пДТ). (12.1) Тогда х2а(пДТ) =е2(пДТ) - ^(пАТ) + а20(пДТ) - 2е(пДТ) х(пДТ) + +2а0(пДТ) е(пДТ) - 2а0(пДТ) х(пДТ). Черта сверху означает усреднение по множеству реали- заций нестационарного случайного процесса, проведенное в момент времени пДТ. Так как на практике мы имеем одну реализацию нестационарного случайного процесса ха(пДТ), то заменяем операцию усреднения по множеству операцией ус- реднения по времени на интервале памяти величиной mn с дополнительным заданием априорной информации о харак- тере изменения параметров распределения нестационарного случайного процесса на интервале памяти. Как отмечено в [12. 1], наиболее удобным в данном случае является пред- ставление нестационарного случайного процесса на интер- вале памяти в виде аддитивной суммы стационарного слу- чайного процесса и детерминированного с известным в общем функциональном виде характером изменения. Ввиду того что производная d^^n^Tj/da^riAT) не выража- ется в алгебраической форме, предполагаем, что за интер- . вал усреднения mn величина а0(пДТ) не меняет своего значе- ния. При этом изменение а^иДТ) происходит в режиме адап- тации с тактом, равным памяти шп блока настройки системы. Отсюда __________ с1х2(пДТ) _________ -----—- - 2х„(пДТ) . daQ(n&,T) Алгоритм настройки системы по замкнутому циклу в дан- ном случае имеет вид: г 263 •i. 1
%[(“ + ™„) дт]= 4^ДТ]+ К*хо(пДТ). (12.2) п п В случае нестационарных образов процесс ха(пДТ) явля- ется нестационарным с характеристиками, определяемыми характеристиками нестационарности входных сигналов сис- темы (см. гл.9). Задача получения ха(пДТ) является класси- ческой задачей фильтрации нестационарных дискретных слу- чайных процессов, в частности процессов, приводимых к стационарным, и достаточно подробно была рассмотрена в [12.3-12.7]. При моделировании данной нейронной сети были использованы методы рекуррентной реализации оптималь- ных дискретных фильтров, разработанные в [12.6]. В данном случае при mn=m=const для любого п и ДТ= 1 а0( — + тп)= а0( — )+ К*Х W(i, п) х (ш), т т i=g где W(i, п) - оптимальная импульсная переходная функция фильтра оценки ха(пДТ). Для всех рассмотренных ниже вари- антов использовались выражения для W(i, п), приведенные в [12.6, 12.7]. Конкретная цель исследований в данном случае заключа- лась в оценке влияния на динамику системы, настраиваю- щейся по замкнутому циклу, следующих ниже характерис- тик входного сигнала и системы: 1) гипотезы о характере изменения во времени на интер- вале памяти математического ожидания совокупности обра- зов (одинаковой для образов первого и второго класса); 2) степени пересечения классов, задаваемой дисперсией, одинаковой для совокупностей образов первого и второго класса (разница между математическими ожиданиями совокупнос- тей образов первого и второго класса остается постоянной); 3) степени нестационарности, определяемой, например, скоростью изменения во времени координат центров классов; 4) памяти тп= т в блоке настройки системы по замкнуто- му циклу; 5) времени упреждения а в блоке настройки системы по замкнутому циклу при оценке градиента функционала вто- ричной оптимизации; 264
6) коэффициента усиления К* в блоке настройки системы по замкнутому циклу. Ниже представлены результаты моделирования. Исход- ные данные для моделирования указаны отдельно на каж- дом рисунке. На рис.12.12-12.19 представлены кривые изменения порога нейрона во времени при линейных законах изменения коор- динат центров классов. Использованы два вида законов: пер- вый (2t+3), второй [(V2)t+3]. Рис. 12.12. Исследование динамики настройки по замкнутому цик- лу системы распознавания нестационарных образов при а=3; а=0; К*=~0,1:---------т=20;--------т=3;-----идеальное значение порога Рис. 12.13. Исследование динамики настройки по замкнутому цик- лу системы распознавания нестационарных образов при о=10; а=0; К*=~0,1:---------т=20;--------тп=3;-----идеальное значение порога Группы кривых I и II представляют собой случаи с раз- личной скоростью изменения указанных координат. Расстоя- ния между центрами классов в данном эксперименте и дру- гих остается во времени неизменным. Анализ данных кривых позволяет сделать следующие выводы: 265
1. Чем больше память системы распознавания тп, тем ме- нее влияет на случайную ошибку настройки степень пересе- чения классов, определяемая величиной дисперсии распре- деления совокупностей образов о внутри каждого класса. 2. Чем больше тп, тем больше систематическая ошибка настройки коэффициентов системы (рис.12.14, 12.15). 3. При малых значениях mn(mn=5) и К*= -2 процесс на- Рис. 12.14. Исследование динамики настройки по замкнутому цик- лу системы распознавания нестационарных образов при К*=-0,5; т=3: - а=2, а=1 (идеальное значение порога); — ------а=10, а=5; — • ----а=20, о=5;-------а=40, о=5 Рис. 12.15. Исследование динамики настройки по замкнутому циклу системы распознавания нестационарных образов при К*=-0,5; т=2й: ---------а=1, а=2;-----о=5,а=10; о=5,а=20;-------о=5,а=40 266
стройки коэффициентов нейронной сети является неустойчи- вым, а при увеличении тп до 20 делается устойчивым. Отсю- да следует естественная необходимость при рассмотрении си- стемы распознавания нестационарных образов иметь дело с алгоритмами с наличием памяти в блоке настройки. В боль- шинстве случаев распознавания нестационарных образов ал- горитмы с тп=1 неприменимы. Увеличение тп в какой-то сте- пени компенсирует априорную недостаточность в знании К*. 4. Скорость изменения во времени координат центров классов практически не влияет на ошибки работы контура настройки. 5. Область изменения К*<~1 является областью необходи- мых условий устойчивости контура настройки системы. 6. Обращает на себя внимание характерная модуляция оги- бающей изменения порога системы при неустойчивом режи- ме работы. 7. Проведенные расчеты с квадратичной зависисмостью из- менения во времени координат центров классов показали, что выводы пп. 1~6 подтверждаются, однако в этом случае имеет место более характерное, чем в случае линейной за- висимости, увеличение систематической ошибки работы кон- тура настройки системы во времени. При достаточно боль- ших значениях тп выявляется закономерность изменения зна- ка систематической ошибки контура настройки системы (от- рицательный при К*>-1, положительный при К*<-1). Эксперимент по оценке влияния степени пересечения клас- сов на динамику контура настройки системы (рис.12.17-12.19) показал, что при К*=-2, когда процесс настройки является Рис. 12.16. Исследование динамики настройки по замкнутому циклу системы распознавания нестационарных образов при 0=5; 0=0; тп=20: ----------К‘=-0,5;---------К*=-0,75;-----К*=-1 (идеальное значение порога);--К.*=-2 267
Рис. 12.17. Исследование динамики настройки по замкнутому циклу системы распознавания нестационарных образов при 6=5; а=0; тп=5: — • ------К*=-0,5; — ------К*=~0,75;------К*=-1 (идеальное значение порога); о о о - К*=-2 Рис. 12.18. Исследование динамики настройки по замкнутому цик- лу системы распознавания нестационарных образов при а=3; а=0; К*=_2 :------т=20;-----идеальное значение порога; о о о - т=5 Рис. 12.19. Исследование динамики настройки по замкнутому цик- лу системы распознавания нестационарных образов при 6=10; а=0; К*=~2 :--------т=20;-----идеальное значение порога; о о о - т=5 268
автоколебательным, степень пересечения классов играет зна- чительную роль в формировании процесса настройки. При значительных а процесс настройки расходится. При незначи- тельных о колебательный процесс настройки периодически изменяет свою амплитуду относительно идеального значения порога, в некоторые моменты времени принимая достаточно точные значения. Необходимо отметить, что процессы (рис.12.18) имеют ме- сто в основном в существенно нелинейных системах, каковы- ми и являются нейросетевые системы распознавания обра- зов, настраивающихся по замкнутому циклу. Эксперимент с системами с упреждением решения на вре- мя а позволил сделать следующие выводы (рис.12.14,12.15): 1. Чем больше а, тем больше случайные ошибки контура настройки системы по замкнутому циклу. 2. Чем больше о и меньше тп, тем при постоянном а боль- ше случайные ошибки контура настройки системы по замк- нутому циклу. 3. Расчеты с линейной и квадратичной гипотезой измене- ния во времени координат центров классов показали, что при прочих равных условиях увеличение порядка гипотезы приводит к увеличению случайных ошибок контура настрой- ки системы по замкнутому циклу. 12.4. Исследование динамики трехслойной нейронной сети в режиме обучения Предметом исследования в данном случае являлась трех- слойная нейронная сеть из нейронов с континуумом решений. Первый, второй и третий слои нейронной сети содержали со- ответственно три, два и один нейрон. Пространство признаков было в общем случае многомерным; в частном случае - дву- мерным. Разомкнутая нейронная сеть описывалась следую- щим выражением: и, „ 2 у 2 х - — arctgB zL ah h — h3 Tt h2=> h3’h2 Л h3 Hl £1%>1X <12-3) "2 2 . о x— arctgB Г?* xhi Ho S a. . x°; ho=0 1 °ho *3^ 269
Выражения для оценок градиентов а2д: 16 В3”£ ----=------------X (1) X ЭаМ0 л3 mni=l х£ %h2 ah2h1xh0l-z')________. Vi [l+lg^)]2] [1+[ 0h2(i)]2] 11+(<Ю21Г SL _l_? (i) а^2 ХЧ(2) Ч2М 712 mn i=19 iW^wm+lg2^]2] ’ ^9т"_ 4 в g х (о 43h2 71 тп -1 Хв [1+[9%W]2] ’ Для распределений образов 1 и 2 классов, линии равных значений которых представлены на рис. 12.20, оптимальное состояние рассматриваемой многослойной нейронной сети оп- ределяется следующим образом. Для первого слоя первый, второй и третий нейроны имеют соответственно коэффици- енты. а10—12, аи—1, а12—1, а20—24, а21——1, а22—~ 1, а30——36, а31=1, а32=1. Нейроны второго слоя имеют коэффициенты: а Ю~0’ а11-1’ а 12—1’ а 13“ а20—а 21~ а22=1> а 23=^’ не^- роны третьего слоя имеют следующие коэффициенты: а"10=0, а и=1> а 12=1‘ Рис. 12.20. Начальные и конечные положения разделяющих по- верхностей, реализуемых нейронами в эксперименте 1-3; а - первый слой; б - третий слой 270
Эксперименты проводились со следующими параметрами датчика образов на входе нейронной сети: размерность вход- ного пространства признаков N=2, число мод f(x) равно 4. Эксперименты с первым слоем нейронов (второй и тре- тий слой оптимальны). Каждый из перечисленных ниже эк- спериментов определялся своими условиями. 1-1. Приведенные выше коэффициенты гиперплоскостей, реализуемых нейронами, оптимальны. 1-2. Параллельный сдвиг гиперплоскостей, реализуемых нейронами первого слоя нейронной сети (начальные коэффи- циенты: +1, +1, -8, -1, -1,20; 1,1, -32). 1-3. Параллельный сдвиг двух гиперплоскостей, реализу- емых нейронами первого слоя нейронной сети, в разные сто- роны (начальные коэффициенты: 1,1; -8; -1; -1,24; 1,1; -40). 1-4. Поворот двух гиперплоскостей, реализуемых нейро- нами первого слоя нейронной сети, на угол а=л (начальные коэффициенты: -1; -1,12; 1,1; -24; 1,1; -36). Эксперименты со вторым слоем нейронов (первый и тре- тий слои оптимальны). 2-1. Поворот одной гиперплоскости, реализуемой нейро- нами второго слоя нейронной сети, на угол а=л (начальные коэффициенты -1; -1; -1; 1,1; 1). 2-2. Поворот двух гиперплоскостей, реализуемых нейро- нами второго слоя нейронной сети, на угол а=л. Эксперименты с третьим слоем нейронов нейронной сети (первый и второй слои оптимальны). 3-1. Поворот гиперплоскости, реализуемой нейроном тре- тьего слоя нейронной сети, на угол а=л. Ниже приведены результаты экспериментов. На рис. 12.21-12.23 приведена иллюстрация процессов на- стройки коэффициентов нейронов. По вертикальной оси от- ложены значения коэффициентов, а по горизонтальной - количество итераций. Уровень осей координат соответству- ет оптимальному отношению коэффициентов. Эксперимент 1-1 подтверждает предположение об устойчивости значе- ний коэффициентов нейронов в оптимальном состоянии, так как при достаточно большом количестве итераций отклоне- ния этих значений от оптимальных были незначительны. Эк- сперименты 1~2 и 1-3 показали, что градиентная процеду- ра обеспечивает настройку таким образом, что разделяю- 271
ai a! Рис. 12.21. Динамика на- стройки коэффициентов в экс- перименте 1-2 (количество ите- раций равно 50) при тпп=50; К*=0,1; К^О.01; К2=0,1; К3=0,1; Кр К2, К3 - весовые коэффициенты к К* для ней- ронов первого, второго, третье- го слоев: 1 - первый нейрон; 2 - второй нейрон; 3 - третий ней- рон Рис. 12.22. Динамика на- стройки коэффициентов ней- ронов в эксперименте 1-4 (ко- личество итераций 32) при пгп=50; К\=1; К^О.05; К2=0,05; К3=0,05: 1 - первый нейрон; 2 - второй нейрон; 3 - третий нейрон щие плоскости приходят за 25-30 итераций в оптимальное положение. Довольно интересен результат эксперимента 1~4. Началь- ные условия эксперимента таковы, что поверхности, реали- зуемые первым и вторым нейронами второго слоя, занимая оптимальные положения, относили векторы первого класса ко второму, а второго к первому (т.е. осуществляли класси- фикацию «наоборот»). В результате настройки разделяющие плоскости пришли в оптимальные положения, перемещаясь параллельно самим себе, хотя принципиально возможен по- ворот плоскостей на 180°. Разделяющие плоскости, реализуе- мые нейронами второго и третьего слоя, проходят через на- чало координат, т.е. при настройке возможен только поворот 272
этих плоскостей вокруг начала координат. Поэтому экспери- менты с нейронами второго и третьего слоя предусматривали настройку коэффициентов плоскостей, повернутых на 180°. В результате настройки в эксперименте 2-1 плоскость, реали- зуемая нейронами третьего слоя, развернулась в оптималь- ное положение. На рис.12.23 представлена динамика настрой- ки коэффициентов нейронов для эксперимента 2-2 и 3~1. Рис.12.23. Динамика настройки коэффициентов нейронов в экспе- рименте: а - эксперимент 2-2; б - эксперимент 3-1; 1 - первый нейрон; 2 - второй нейрон; 3 - третий нейрон В результате обучения системы гиперплоскость, реализуе- мая нейронами третьего слоя, развернувшись на 180°, при- шла в оптимальное состояние. Вполне закономерно поведе- ние коэффициентов нейронов первого слоя, так как до мо- мента, когда коэффициенты нейрона третьего слоя не опти- мальные, коэффициенты нейронов первого слоя значитель- но отклоняются от оптимальных. Но после настройки нейро- на третьего слоя они приходят в оптимальное состояние. Данная работа является начальным исследованием много- слойных нейронных сетй, настраивающихся по замкнутому цик- 273
лу в режиме обучения. Результаты проведенных эксперимен- тов подтвердили теоретическое обоснование исследуемого ал- горитма настройки, а также показали высокую его эффектив- ность. Остается довольно широкий круг вопросов, которые не- обходимо исследовать. К ним в первую очередь относятся: 1) выбор оптимальных коэффициентов К в градиентной процедуре и их соотношения между слоями многослойной ней- ронной сети; 2) изучение влияния избыточности структуры многослой- ной нейронной сети на эффективность и качество настройки. 12.5.Исследование нейронной сети частного вида с обратными связями Объектом исследования в данном пункте является одно- мерный нейрон с обратной связью, описываемый следующи- ми соотношениями: у(пДТ) = sign[g(nAT)]; д(пДТ) =х(пДТ) - а0(пДТ) + + ак(пДТ) хД(п-1)ДТ], (12.4) где ДТ - интервал времени между моментами поступления образов на вход системы. В качестве критерия вторичной опти- мизации выбирается критерий минимума а^. Предполагается, что при настройке по замкнутому циклу коэффициенты а0 и ак не меняют своего значения на интервале усреднения тп. Выра- жения для оценок градиента имеют в данном случае вид: Э х2а(пДТ)т" Эа0 ------тп = 2 ха(п&Т) ; Э х2 (пДТ) ----------------тп —Г1-------=“2 хоу[(п-1)ДТ) . (12.5) dafc Выражения (12.4), (12.5) служат основой для построения соответствующей замкнутой системы. Усреднение измеренных значений градиента производилось оптимальным дискретным филь- тром с памятью тп, синтезированным исходя из априори задан- ной гипотезы об изменении на интервале тп математического ожидания входного сигнала (стационарный, линейный, квадра- тичный сигнал и тд.). Анализ результатов экспериментального исследования нейрона с обратной связью, частично представлен- ных на рис 12.24 -12.29, позволил сделать следующие выводы: 274
1. Введение положительной или отрицательной обратной связи в разомкнутой системе (К*>0 или К*<0 в контуре на- стройки коэффициента ак) приводит к одинаковым результа- там настройки системы по величине а0 и суммарному порогу ax=a0(n) + ak(n) xfc(n-l), но различным по знаку и одинако- вым по модулю коэффициентам afc. Рис. 12.24. Иссле- дование динамики настройки нейрона с обратной связью (т=20; К*=-0,5): 1 - идеальный случай (a0=2t + 3); - без обратной Связи; —----с поло- жительной обратной связью при К*,=0,5 и отрицательной обрат- ной связью при - X-----------с по- ложительной обратной связью при ^*,=-0,5;----------идеальный случай (ao=O,5t+3);---------- без обратной связи и с положительной обратной связью при К*1=0,5; • -----с Отрицательной обратной связью при fC^-0,5; — XX-----с положительной об- ратной связью при К‘^-0,5 Рис. 12.25. Иссле- дование динамики Настройки нейрона с обратной связью: '" — идеальный случай (a0=2t+3); ---- - без обратной связи;------с поло- жительной обратной связью при К‘^0,5 и отрицательной обрат- ной связью при К*=~ 0,5; — х — - с поло- жительной обратной связью при ^=-0,5; ----- - идеальный случай (ao=O,5t+3); — • • - - без обратной связи; ' - • _ - с положительной обратной связью при К‘^0,5 и отрицательной обратной связью при К‘^-0,5; - XX----с положительной обратной связью При К*1=-0,5
2. При достаточно большой памяти системы в блоке на- стройки (порядка mn=20) характер изменения а0 и ак являет- ся колебательным. При уменьшении памяти (до тлп=5) коле- бательность процесса настройки коэффициента ак резко воз- растает, а коэффициента а0 - падает. Рис. 12.26. Иссле- дование динамики настройки нейрона с обратной связью при т=5; К*=~0,5). -----идеальный слу- чай (a0=2t+3);----- без обратной связи; - • - - с положитель- ной обратной связью при К*,=0,5 и отрица- тельной обратной свя- зью при К*, = -0,5; - х----с положитель- ной обратной связью при К*,=-0,5; - • • - - без обратной связи;-------с отрицательной обратной связью при К* 0,5 и с положительной обратной связью при К'^-0,5; - хх — - с положи- тельной обратной связью при К*,=-0,5;------------идеальный случай (ao=O,5t+3) Рис. 12.27. Иссле- дование динамики настройки нейрона с обратной связью. -------идеальный слу- чай (a0=2t+3);-------- без обратной связи; - -----с положитель- ной обратной связью при /<*,=0,5 и отрица- тельной обратной связью при К‘^-0,5; -------идеальный слу- чай (ao=O,5t+3);------ без обратной связи; ----------с положи- тельной обратной связью при K*t=-0,5 и с отрицательной обратной связью при К*]=-0,5; - ххх - - с положительной обратной связью при К*,=-0,5 276
3. Систематическая ошибка настройки коэффициента а0 увеличивается при увеличении памяти системы, а также при введении обратной связи в структуру разомкнутой системы. Систематическая ошибка настройки суммарного порога ней- рона практически равна нулю. Это - положительное свой- ство нейронной сети с обратной связью по сравнению с ней- ронной сетью без обратной связи. Рис. 12.28. Исследование ди- намики настройки нейрона с об- ратной связью при ?п=20; К*=-0,5 (К* - коэффициент на- стройки порога а0, К*1 - коэф- фициент настройки порога afc). Для идеального случая (a„=2t+3): -х - с положительной обратной связью при К*,=-0,5; ------- с отрицательной обратной связью при К*, =0,5;-----с по- ложительной обратной связью при К*,=0,5; Для идеального случая (ao=O,5t+3): - хх — с положитель- ной обратной связью при К*,=-0,5; --------с положительной обрат- ной связью при К*,=0,5; - — - с отрицательной обратной связью при /£*,=-0,5 Рис. 12.29. Исследование дина- мики настройки нейрона с обрат- ной связью при тп=5; К*=~0,5. Для идеального случая (a„=2t+3): - х - - с положитель- ной обратной связью при К*,=-0,5; ~ ---с отрицательной обратной связью при К*,=-0,5;----- ---- с положительной обратной связью при К*,=0,5. Для идеального случая (ao=O,5t+3): - хх — с положитель- ной обратной связью при К*,=-0,5; -------- с отрицательной обратной Связью при К*,=-0,5;---------с положительной обратной связью при К*,=0,5 277
4. Уменьшение K*v~ коэффициента в итерационной про- цедуре настройки коэффициента обратной связи - приво- дит, естественно, к тому, что нейрон с обратной связью по своим характеристикам приближается к нейрону без обрат- ной связи. 12.6. Исследование динамики однослойных нейронных сетей в режиме самообучения Ниже представлены результаты моделирования трех ти- пов нейронных сетей в режиме самообучения: нейронная сеть с поиском центров мод распределения /(х); нейронная сеть в виде слоя нейронов с двумя решениями; нейронная сеть в виде нейрона с Кр решениями. Основной задачей исследования является оценка качества разработанных алгоритмов при наличии на входе сигнала х(п) с распределением произвольной модальности. Качество опре- деляется числом найденных и выделенных алгоритмом мод распределения /(х) при заданной точности получения вели- чин настраиваемых коэффициентов нейронной сети. 12.6.1. Нейронная сеть с поиском центров мод распределения f(x) В соответствии с результатами гл. 9 рассматривается ал- горитм самообучения, реализующий следующее рекуррент- ное соотношение: b(xfc, n+1) = b(xfc, п) + K*[x(n)-b(xfc, п)] (12.6) и включающий в себя следующие этапы. 1. В заданном интервале изменения х случайным образом выбираются координаты Кр-мерного вектора b(xfc,0). 2. На вход поступает очередной образ х. Вычисляется ближайший к данному х центр Ь. 3. В соответствии с выражением (12.6) данная координата вектора b(xfc) изменяется. 4. Замыкается внутренний цикл на п.2, затем внешний цикл на п.1. Распределение случайного входного сигнала х(п) пред- ставляет собой сумму нормальных законов с заданной дис- персией и математическими ожиданиями, равными 2, 4, ..., 16. Число мод распределения f(x) в процессе эксперимента устанавливалось фиксированным от двух до восьми. На рис. 12.30 представлена типовая зависимость b(xfc, п) в режиме 278
Рис. 12.30. Изменение коор- динат центров классов в про- цессе настройки при К*=0,02; 0=0,5 настройки, для одного из вариантов случайных начальных ус- ловий. Результаты работы алгоритма представлены в табл. 12.1 и 12.2. В таблицах i - номера мод распределения /(г), участву- ; ющие в эксперименте (считая слева по оси х моды с координа- 1 тами 2, 4 ...), Z - модальность распределения /(х), j - номер цикла выбрасывания случайных начальных условий b(xfc,0), • поиска экстремума R. Таблица 12.1 просчитана для случая Кр=5, М=300 (число итераций по п), К*=0,02. В ней для каждого о в правой колонке представлено число мод рас- \ Пределения f(x), найденных алгоритмом на данном j-м шаге выброса случайных начальных условий. В левой колонке ( представление соответственно число мод, найденных за все Таблица 12.1 i Z 0 = 0,1 0=03 0 = 0,5 0=0,7 0 = 0,9 1 2 2 1 2 2 2 2 2 2 2 2 0 0 2 2 2 2 2 2 1 2 1 0 0 3 2 2 2 0 2 1 2 0 0 0 4 2 1 2 2 2 2 2 0 0 0 5 2 0 2 0 2 0 2 0 1 1 1 2 3 3 1 3 3 1 1 1 1 1 1 1 1 2 3 2 3 3 1 0 1 0 1 0 3 3 3 3 2 2 2 2 2 2 1 4 3 3 3 3 3 3 2 1 2 2 5 3 2 3 2 3 1 2 2 2 1 1 2 3 4 4 1 2 2 2 2 1 1 1 1 2 2 2 4 4 3 3 2 1 2 1 2 1 3 4 2 3 1 2 1 2 1 2 2 4 4 2 4 3 3 1 3 1 2 0 5 4 4 4 4 4 3 3 2 2 1 1 2 3 4 5 1 3 3 2 2 0 0 0 0 0 0 2 4 2 3 1 1 1 1 1 2 2 3 5 3 5 3 2 2 3 2 4 3 4 5 2 5 1 4 1 4 2 5 2 5 5 1 5 1 5 1 4 1 5 1 279
Таблица 12.2 j г=1,2,3,4,5,6 1=1,2,3,4,5,6,7 г=1,2,3,4,5,6,7,8 2=^=6 2=^=7 2=КТ)=8 1 0 0 3 3 2 2 2 2 2 4 1 4 3 3 2 1 6 2 4 1 4 4 2 6 2 5 1 5 4 0 7 3 6 2 6 4 1 7 0 6 1 7 4 0 7 0 6 2 8 4 2 7 2 7 4 9 5 1 7 1 8 3 10 5 3 7 3 8 2 11 5 1 7 0 8 2 12 5 1 7 0 8 2 13 5 2 7 0 8 0 14 5 0 7 1 8 3 15 6 2 7 2 8 2 16 6 2 7 5 8 1 17 6 0 7 1 8 1 18 6 1 7 2 8 3 19 6 2 7 0 8 0 20 6 1 7 2 8 2 предыдущие циклы, включая j-й. Такого же рода данные представлены в табл. 12.2 для случая Z=Kp, К*=0,01, М=100, о=0,5. Анализ результатов работы рассматриваемого алго- ритма самообучения, представленных в табл. 12.1, 12.2, по- зволяет сделать выводы: 1) рассматриваемый алгоритм достаточно работоспособен при значительной сложности (Z) задачи самообучения; 2) экспериментальные результаты подтерждают теорети- ческие выводы, сделанные в гл.9 относительно предлагаемо- го алгоритма поиска локальных и глобального экстремумов функций; 3) чем больше о (степень пересечения классов), тем ниже качество работы алгоритма при фиксированных Z, Кр, К*, г, j. Данный алгоритм был несколько видоизменен, так как оче- видно, что задание начальных условий для поиска экстрему- ма функционала вторичной оптимизации (начальных значе- ний координат центров классов) лучше производить в виде 280
координат первых Z образов, поступивших на вход нейрон- ной сети в режиме самообучения. Повышение качества рабо- ты алгоритма самообучения в данном случае по сравнению с равновероятностным заданием начальных условий на некото- ром интервале иллюстрируется табл. 12.3, в которой для дан- ных двух способов задания начальных условий и описанного выше алгоритма самообучения представлено число мод рас- пределения, найденных на А-м шаге выброса начальных ус- ловий и за А шагов. В данном эксперименте К*=0,02, о=0,5, коэффициенты /(х) Ьр Ъ2, Ъ3, Ъ4, Ъ5, Ь6, Ь7, Ь8 соответственно равны -9,1; -7, -3, -5, -1; 3,13. Пространство X ограничено интервалом [-11,5]. Таблица 12.3 Моды i Число мод Z Номер эксперимента j Выбор начальных условий Равновероятно ПО ... хй 1-4 4 1 0 0 3 3 2 1 1 3 3 3 2 2 3 4 4 0 2 3 4 5 1 2 2 4 1-5 5 1 2 2 1 1 2 1 2 5 5 3 1 2 1 5 4 1 3 1 5 5 1 3 3 5 1-6 5 1 1 1 4 4 2 3 4 0 4 3 0 4 2 5 4 2 5 3 б 5 0 5 1 6 1-7 7 1 1 1 4 4 2 3 3 1 4 3 2 4 1 5 4 1 4 1 6 5 4 5 3 6 1-8 8 1 4 4 2 2 2 1 4 4 6 3 3 4 2 7 4 3 4 2 8 5 3 5 2 8 281
12.6.2. Нейронная сеть с N* выходными каналами В данном случае рассматривалась нейронная сеть в виде слоя нейронов с характеристиками N=l, N*-3. Структурная схема данной системы представлена на рис. 12.31. В данном случае у' = {х-Ь[У1(а01), у2(а02), у3(а03)]}2, (12.7) причем величина Ъ(у) однозначно определяется по извест- ным в текущий момент времени величинам а01, а02, а03 в соответствии с рис. 12.32, табл. 12.4 и следующими выраже- ниями: b = а0., + а°‘ ; г-2,3; 2 Из (12.7) следует, что Эи' ЭЬ Эи Л = " 2[х(п) - Ь(х, п)]— . (12.8) Эа0,. Эу,. Эа0(. Здесь согласно рис. 12.31 Эу(. /Эа01=-1. Вектор ЭЬ /ду( вычис- ляется следующим образом. Табл. 12.4 может быть представ- лена иначе, а именно в виде табл. 12.5. 282
Таблица 12.5 Отсюда следует, что дЪ(у) дЬ(у) дЬ(у) дуг ' ду2 ’ Эу3 ] [b2 Ьр Ь3 Ь2, ^4 ь3]. \ Окончательный алгоритм настройки коэффициентов сис- темы в данном случае выглядит следующим образом: Oo/n+1) = а^п)+[x(n) - b(yfn)] — | у=у{п) (i 2.9) Вектор Ъ(у,п) вычисляется либо так, как указано выше, либо (для системы с более сложной структурой) по рекур- рентной формуле, аналогичной рассмотренной в предыдущем пункте. Экспериментально исследованный алгоритм содержит следующие этапы работы: 1. На вход системы поступает образ х(п). 2. Случайным образом на интервале изменения х задаются начальные значения настраиваемых параметров aQi (г—1,2,3). 3. По значениям вычисляются значения Ьр ..., Ь4. 4. Выбирается компонента вектора Ь(у), ближайшая к г(п). 5. Для данной компоненты выбирается соответствующая величина в векторе ЭЬ /Эу(. , 6. Пользуясь данными пп. 1,2,4,5 и выражением (12.9), произ- водят настройку коэффициентов системы. : 7. На вход системы поступает образ х(п+1) и далее про- должается процесс настройки, начиная с п.З. 283
Исследовалось качество работы алгоритма как при опре- деленным образом задаваемых начальных условиях, так и при случайно задаваемых с усреднением результатов по множеству случайных выбросов начальных условий на- стройки. На рис. 12.33 представлена иллюстрация динамики настройки системы при определенных начальных условиях (координаты мод равны 3, 5, 7; сплошная линия - один вариант, пунктир- ная - другой). На рис. 12.34, 12.35 представлены некоторые результаты работы алгоритма при случайных начальных условиях и конечной последовательности образов, а также задан- ных начальных условиях и различной длине последователь- ности образов. Жирные линии соединяют коэффициенты цен- тров классов начальные (п=0) и конечные (п=М) моменты настройки. Рис.12.33. Динамика настройки коэффициентов системы, пред- ставленной на рис. 12.31 Рис. 12.34. Результаты ис- следования при различных начальных условиях и оди- наковой длине выборки М на входе Рис.12.35. Результаты ис- следования при одинаковых начальных условиях и раз- личной длине выборки М на входе: M^ISO; М2=300; М3=450; М4=600 284
12.6.3. Нейрон с Кр решениями В данном случае т Кр-1 У = 1 +2 2 [sign(g-aJ. .+1)+1], д(п) = ajn) х(п) - a0(n). Как и ранее, da dy da Используя полученные в гл.9 значения Эу /да, для данного случая можно записать рекуррентные выражения, являю- щиеся основой для построения соответствующего алгоритма настройки системы в режиме самообучения: ЭЬ(у %(п+1) = а^п) - К*о (х(п) - Ь(у)] , К*0>0; а1(п+1)=а.(п) + K*Jx(n) - sign х. ду Алгоритм настройки системы содержит в данном случае следующие этапы: 1. На некотором заданном интервале случайным образом выбираются значения коэффициентов и ar 2. В соответствии со структурой разомкнутой системы и значениями коэффициентов ОцИ вычисляются текущие зна- чения порогов , X аы+1 + aoW X. +1(п) = -i-----—------ }J a^ri) 3. Вычисляются значения Ь(у) в соответствии с выражениями к = ~ Х2,3 “ Х1,2 . °1 Х1,2--------------’ л ’-2'3.......V1: , , ХКр-1, Кр- ХКр-2,Кр-1 Or- = Xr- R + —---------------—— . Лр Лр 1 Лр л 4. На вход системы в момент времени п поступает образ х(п) и вычисляется величина у. 285
5. По величине у выбираются соответствующие значения Ь(у) и дЪ(у)/ду 6. Производится коррекция настраиваемых коэффициентов а0 и cij в соответствии с приведенными выше выражениями. 7. Процедура повторяется начиная с п.2. 8. Процедура повторяется начиная с п.1, и результаты усредняются по множеству выбросов начальных условий. 12.7. Двухслойная нейронная сеть в режиме самообучения Вначале предметом исследования являлась двухслойная нейронная сеть, в которой в первом слое было четыре ней- рона с двумя решениями, во втором - нейрон с Кр= 5 реше- ниям. Здесь i К₽ Н=4 №2 у = F(g) = 1 +- Z [sign{ Z a.signx (Z a,.xt)-k }+l], zk=l 7=1 i=0 С использованием материалов гл.9 были получены выра- жения, являющиеся основой для построения замкнутой двух- слойной нейронной сети в режиме самообучения, в следую- щем виде: ЭЫ i w т" а (п+1) = a (n) + К*[х(п) - b(y,n)f —— sign[ Z af (п)х/п)] , ду i-0 J , 5; %(n+l) = a0(n) + K**[x(n) - b(y,n)F ------------------------m ЭЦу.п) r ] ——sign [a,(n)x.(n)J , oy i=l.....N; j=l,.... 5; b(y, n+l)= b(y, n)+K***[x(n) - b(y, n)]. Экспериментальное исследование данного алгоритма по- казало, что скорость сходимости при нахождений некоторой локальной моды мала и причиной этого является применение в многослойной системе нейронов с двумя решениями, кото- рые в значительной степени «загрубляют» информацию о гра- диенте функционала вторичной оптимизации при квантова- нии выходного сигнала. В связи с этим основным предметом исследования являлась двухслойная нейронная сеть, по струк- 286
туре подобная описанной выше, но состоящая из нейронов с континуумом решений. Для данной системы: 1 ^=5 2 V 2 v у = 1 + - Е [й arctg в{ Е ай arctg В (Еа^хД-к }+1]; & /с=1 ;-1 J t=0 л V1 a (n+l) = a.(n) + К*(х - b(y,n)f ~ х 1 1 оу В Hi 2 N Х 1+Е a(n)^~ arctg В [Еа.. (n)x/n)-k]2 j=l 1 i=0 J ’И N Пп х arctg В[2а..(п)х(п)] ; i-О J (12.10) > %.(п+1) = а(п) + К**[х - b(y,n)f х * х^- В2а3(п)х/п) 1+^ а.(п)^arctg В [^a..(n)x.-J j=i »=° --------------------тп 1 N ’ 1+(В Еа,.(п)х/п))2 i=0 Ь(У> п+1)= (Ху, П) + к***[х - (Ху, П)]т". - х |2 (12.12) х (12.11) Реализованный алгоритм представляет собой последова- тельность следующих этапов: 1) в память вводятся случайные или определенные на- чальные значения координат центров классов и настраивае- мых коэффициентов данной двухслойной нейронной сети; 2) производится подсчет векторов ЭЪ(у)/Эу; 3) на вход нейронной сети поступает образ х; 4) по данному х и состоянию многослойной нейронной сети в данный момент времени вычисляется значение у; 287
5) выбираются векторы b(y) и дЪ(у)/ду, соответствующие данному у; 6) с использованием результатов пп.З, 5 вычисляются но- вые значения настраиваемых коэффициентов нейронной сети и центров классов; 7) при подаче на вход следующего образа повторяется алгоритм по пп.4-6; 8) после нахождения локального экстремума алгоритм повторяется по пп. 1-7. На рис. 12.36 представлены линии равного значения плот- ности распределения /(х), используемой при исследовании данного алгоритма. Оптимальные значения настраиваемых коэффициентов нейронов первого слоя данной нейронной сети: ап=9; а12=15; а13=21; а14=27; а21=1; а22=^> а2з=^; а24~^’ а31=1; а32=1; а33=1; а34=1- Рис.12.36. Линии равных зна- чений плотности распределения /(х): 1-оптимальное положение раз- деляющих гиперплоскостей; 2-линии равного значения плотности распре- деления входного сигнала для раз- личных дисперсий распределений, представляющих моды /(х) Нейрон второго слоя с Кр= 5 решениям должен реализо- вывать логическую функцию, представленную в табл. 12.6. Ус- ловием формирования правильного решения у является фор- мирование соответствующего промежуточного значения ана- логового выходного сигнала g(n)=y~0,5. На основании этого Таблица 12.6 У 1 2 3 4 5 У1 -1 1 1 1 1 У2 -1 -1 1 1 1 Уз -1 -1 -1 1 1 У4 -1 -1 -1 -1 1 288
может быть составлена система алгебраических уравнений для определения оптимальных коэффициентов нейрона вто- рого слоя: -at - а2 - а3 - а4 +2,5 = 0,5; а1 - а2 ” аз " а4 +2,5 = 1,5; аг + а2 ~ аз " а4 +2,5 = 2,5; а4 + а2 + а3 — а4 +2,5 = 3,5; cij + Отсюда а2 + а3 + а4 +2,5 = 4,5. а1 = а2 = аз = а4 = 0,5. Эксперименты с рассматриваемой двухслойной нейронной сетью проводились в соответствии со следующим планом: 1. Эксперимент с различными дисперсиями распределений, составляющих моды/(х) (рис. 12.36). 2. Коэффициенты нейрона второго слоя оптимальны, значе- ния центров классов оптимальны. Для коэффициентов нейро- нов первого слоя задавались следующие различные условия: а) коэффициенты нейронов первого слоя оптимальны; б) начальные значения коэффициентов нейронов первого слоя задавались с равным отклонением от оптимальных; в) начальные значения коэффициентов нейронов первого слоя задавались с различными по величине и по знаку от- клонениями от оптимальных. 3. Коэффициенты нейронов второго слоя оптимальны; при неоптимальных начальных значениях центров классов прово- дились эксперименты, аналогичные пп. 2а и 26. 4. Коэффициенты нейронов первого слоя и значения цент- ров классов оптимальны. Начальные значения коэффициентов нейрона второго слоя не оптимальны. 5. Эксперименты, аналогичные п. 3, но с неоптимальными начальными значениями центров классов. 6. Коэффициенты нейронов первого и второго слоя и зна- чения центров классов не оптимальны. 7. Все перечисленные выше эксперименты проводились при различных, но детерминированных начальных условиях. За- вершающим явился эксперимент со случайными начальными условиями на коэффициенты нейронов и центры классов. Эксперимент п. 1а показал устойчивость двухслойной ней- ронной сети в глобальном экстремуме специальной средней Ю - 353 289
Рис.12.37. Динамика настройки по координатам центров классов функции риска. Для случая, когда начальные значения ко- эффициентов нейронов обоих слоев оптимальны, а центры классов не оптимальны, ре- зультаты эксперимента при- ведены на рис. 12.37. Для слу- чая, когда начальные значе- ния коэффициентов нейронов первого слоя были не опти- мальны, а начальные значе- ния коэффициентов нейронов второго слоя и значения цен- тров классов оптимальны, ре- зультаты эксперимента при- ведены на рис. 12.38. Как вид- но из результатов данного эк- сперимента, выбранное расположение мод плотности распре- деления входного сигнала делает гиперплоскости (I, II, III, IV) мало чувствительными к повороту. Здесь при сравнительно большом диапазоне угла поворота плоскостей величина функ- ционала качества не изменяется (при условии неизменного no- fl 1 г з Ц 5 6 1 а я to tt <г 13 юн к п /а Рис. 12.38. Результаты исследования двухслойной нейронной сети в режиме самообучения:------------------начальное положение гиперплос- костей; -----------оптимальное положение гиперплоскостей;-------------_ положение гиперплоскостей через 3 000 итераций 290
рога а1;). Этот факт, очевидный из физических соображений, подтверждается экспериментом. Приведенные рассуждения по- зволяют считать целесообразным в дальнейшем при заданном расположении мод /(х) исследование лишь динамики настрой- ки порогов а{-0=1, 2, 3, 4) и только в отдельных исключи- тельных случаях исследовать также и динамику настройки коэффициентов наклона гиперплоскостей. Для случая, когда начальные значения коэффициентов ней- рона второго слоя оптимальны, а начальные значения коэф- фициентов нейронов первого слоя и значения центров клас- сов брались с одинаковыми по величине отклонениями в одну сторону (отклонения отрицательны), результаты эксперимента приведены на рис.12.39. Динамика настройки порогов приведе- на на рис. 12.40 (сплошная линия). В случае положительных отклонений динамика настройки также проиллюстрирована на рис.12.40 (штрих-пунктирная линия). Для случая, когда на- чальные значения коэффициентов нейрона второго слоя оп- тимальны, а начальные значения коэффициентов нейрона пер- вого слоя и центров классов брались с различными по вели- Чйне и знаку отклонениями от оптимальных, результаты эк- сперимента приведены на рис. 12.40 (пунктир) и 12.41. О 1 г 3 4 S 6 7 8 3 Ю 11 12 13 14 IS 1В1718 Рис. 12.39. Результаты исследования двухслойной нейронной сети режиме самообучения: I - начальное положение гиперплоскостей; II - Оптимальное положение гиперплоскостей; III - положение гиперплоскос- тей через 3 000 итераций 10» 291
Рис. 12.40. Результаты исследования двухслойной нейронной сети в режиме самообучения: 1-4 - конечные положения гиперплоскостей, реализуемых нейронами 1-4 первого слоя соответственно Цель эксперимента п.6 состояла в выяснении влияния дис- персии распределений, представляющих моды /.Дх), на каче- ство распознавания. Эксперименты этой группы проводились при одних и тех же начальных условиях (типа начальных условий эксперимента, представленного на рис. 12.39) и раз- личных дисперсиях а2 (рис. 12.42). 292
о i г з « s 6 7 a s ю и и i3 i>n5 ts п № is Рис. 12.41. Результаты исследования двухслойной нейронной сети В режиме самообучения: / - начальное положение гиперплоскостей; II - «пимальное положение гиперплоскостей; III - положение гиперплоскос- тей через 3 000 итераций Сравнивая результаты экспериментов этой группы, мож- ио сделать вывод о том, что для данного расстояния между модами плотности распределения входного сигнала задача са- мообучения может быть решена для о2макс=1,5. Этот экспери- ментальный факт имеет ясное физическое обоснование, так Ери большом а2 (сильно пересекающиеся классы) невоз- о выделить группы локально сосредоточенных объектов довательно, методы самообучения (на данном этапе сво- его развития), основанные на выделении таких групп, оказы- ваются неработоспособными. Для случая, когда начальные значения коэффициентов ней- . |Юна первого слоя и начальные значения центров классов оп- ч^имальны, а начальные значения коэффициентов нейрона вто- dppro слоя не оптимальны, динамика процесса настройки ко- эффициентов нейрона второго слоя и результаты экспери- мента представлены на рис. 12.43. Все эксперименты были ||проведены при памяти системы mn=l. В этом смысле следует Учесть тот факт, что увеличение памяти, вообще говоря, ^Меньшает случайную ошибку измерения. 293
Рис. 12.42. Результаты исследования двухслойной нейронной сети в режиме самообучения:---------- о2=1,----------о2=1,5; — ---б*=2; -----о2=2,5 Рис. 12.43. Резуль- таты исследования двухслойной ней- ронной сети в режи- ме самообучения: ---- -а,;-----а2; ------------ 294
. Рис. 12.44. Результаты исследования двухслойной нейроной сети режиме самообучения: I, II, III, IV - номера соответствующих нейронов яервого слоя;-------оптимальное положение гиперплоскостей;-------- Начальное положение;------- — положение гиперплоскостей после 5 000 Итераций lb; к Следует добавить, что критерием остановки процесса яв- лялось вхождение кривых в «трубку» диаметром 0,2 (см. 12.43) И длиной 500 итераций. Эксперимент иллюстрируется рис. 12.44. -• На рис. 12.45 представлены результаты работы двухслой- ной нейронной сети в режиме самообучения с несколько другим видом типовой плотности /Х(х). •> Рис. 12.45. Результаты исследо- вания двухслойной нейронной сети в режиме самообучения: 1-4 - но- мера соответствующих нейронов пер- вого слоя 295
12-8.0 некоторых инженерных методах выбора параметров матриц в алгоритмах настройки многослойных нейронных сетей по замкнутому циклу При построении алгоритмов настройки многослойных ней- ронных сетей по замкнутому циклу с оценкой только первой производной функционала оптимизации вряд ли будем иметь информацию для того, чтобы сделать матрицу К* недиаго- нальной. В простейшем случае это единичная матрица, умно- женная на постоянный или переменный во времени, как в ме- тоде стохастической аппроксимации, коэффициент. Правда уже сейчас, как показано выше в экспериментах, есть основания этот коэффициент делать различным для настройки коэффи- циентов различных слоев многослойной нейронной сети. Как указывалось в гл. 9 основная цель применения методов стохас- тической аппроксимации заключается в обеспечении нулевой случайной и динамической ошибки определения вектора на- страиваемых коэффициентов в установившемся состоянии. Од- нако применение данных методов приводит к увеличению со- ответствующих динамических ошибок в переходном процессе, т.е. в режиме настройки. В реальных инженерных задачах вряд ли есть необходимость в обеспечении нулевой случайной ошибки настройки многослойных нейронных сетей в установившемся состоянии. Некоторая конечная, достаточно малая дисперсия распределения настраиваемых коэффициентов допустима вви- ду относительной гладкости функционала вторичной оптими- зации в экстремальной точке. Эта конечная дисперсия распре- деления /а(а) не приводит к значительному увеличению функ- ционала вторичной оптимизации и может быть обеспечена не переменной (как в методе стохастической аппроксимации), а постоянной во времени матрицей К*. В случае постоянной во времени матрицы К* возможно два инженерных подхода к вы- бору значений ее коэффициентов, по крайней мере для на- стройки нейронов первого слоя Первый подход основан на анали- зе априори задаваемой для многослойной нейронной сети слож- ности задачи, определяемой модальностью /^(х), при фикси- рованных размерах пространства признаков. Второй подход, также основанный на анализе экспери- ментов, показывает, что в реальном случае возникает объек- тивная необходимость в процессе настройки многослойной 296
нейронной сети производить оценку функционала вторич- ной оптимизации и по его скалярной величине судить о качестве работы контура настройки многослойной нейрон- ной сети. Эта идея была реализована в конкретных много- слойных нейронных сетях. Если кривая зависимости функ- ционала вторичной оптимизации от п сильно колеблется, нужно уменьшить К*, если она достаточно гладкая, то нуж- но увеличить К*, чтобы уменьшить систематическую ошиб- ку настройки (увеличить быстродействие) до появления ко- лебательности (достаточно малой) в данной зависимости. При этом первый подход к выбору К* можно использовать для выбора начального значения К* при втором подходе. 12.9.Построение многослойной нейронной сети для решения задачи обращения матрицы В качестве примера рассмотрим построение многослой- ной нейронной сети и алгоритма ее настройки по замкнуто- му циклу для решения задачи обращения матрицы размером 2x2. Результатом обращения должна быть также матрицы размером 2x2, поэтому на выходе многослойной нейронной сети должны быть четыре нейрона с континуумом решений. Минимальный вариант структуры разомкнутой трехслойной нейронной сети определяется в виде, изображенном граф- схемой на рис. 12.46. При недостаточной точности обращения матрицы в оптимальном режиме структура разомкнутой мно- гослойной нейронной сети должна рассматриваться в сторону увеличения числа нейронов сначала первого, а затем второго слоя. Первый второй Третий слой слой слой хщ Рис. 12.46. Графы многослойной нейронной сети для обращения матрицы 297
Начальные условия на настраиваемые коэффициенты ней- ронов первого слоя здесь необходимо выбрать так, чтобы при условии В=оо четыре гиперплоскости делили исходное четырехмерное пространство признаков на области равного гиперобъема. Выбор начальных условий на настраиваемые коэффициенты нейронов второго и третьего слоя данной си- стемы должен производиться аналогично тому, как это дела- лось для нейронов первого слоя, так как и в данном случае система строится из нейронов с континуумом решений. Отдельным вопросом является формирование обучающей выборки для рассматриваемой многослойной системы. В дан- ном случае Xj х2 - *3 Х4 D 'С2Х3' В то время как на амплитуду изменения входного сигнала многослойной нейронной сети практически не накладывается ограничений, амплитуда выходного сигнала нейронной сети ограничена по каждому каналу диапазоном [-1, +1] ввиду спе- цифики выходных нейронов. Эта особенность требует опре- деленной нормировки входного сигнала таким образом, чтобы ни одна из компонент выходного сигнала не превышала преде- лов [-1, +1]. Данная нормировка входного сигнала должна про- изводиться следующим образом. Пусть X - исходная матрица и х=тах{[х.]}. Разделив X на х, получим матрицу X ,, эле- i=l,2,3,4 менты которой лежат в пределах [-1, +1]. Обозначим: Тогда Г П~1 X, X, X-i= 1 2 = х3 х4 =хц Di х3 Х4 X X Х3 X! X X 298
i --i X Таким образом, умножая элементы матрицы X на входе на величину l/xDx и подавая ее на систему обращения, на выходе получим матрицу, х4 -х2 . ~Х3 Х1 элементы которой лежат в диапазоне [-1, 1] и которую дос- таточно умножить на величину l/xDp чтобы получить окон- чательный результат, т.е. матрицу X'1. Структура разомкнутой многослойной нейронной сети опи- сывается следующими соотношениями: 2 v arctg в + hi=1,21 3’ 4; 2 4 arct§ + а°й2^ hz-l’ 3’ 4’ & •• *1 S] it * X 4> 2 .V \ У™3= 7 arCtg В + а°^’ h3=1, 21 3’ 4’ Указание учителя ЕЛ многослойной системы должно вы- рабатываться алгоритмическим путем с использованием од- ного из известных алгоритмов обращения матрицы и конт- ролем точности обращения. Выражения для оценок градиен- тов среднеквадратичной ошибки обращения элементов мат- рицы имеют следующий вид: Эх2 доз х, * х. * ah h cl . ___s_ _ fy) у gh3 у '‘г'1! . Эа. h л3 l+CjA )2 h,=11+ (g\ )2 h,=l 1+ (<A )2 ---------------------------------------------------------- 2B2 У hy £ Xgh3ah3h2 i+(g\)2 м i+(9%3)2 ’’ 299
----—mn --------------mn fe2g = В y"2h2x9h3 da,, n 1+(<A)2 «3"2 лз Здесь 4 a\ = S ak xb + an>, ; hi \=i hiho ho Ohi’ 4 a2b = S с.. . у', + aft. ; и 7^=1 h2hr* hll 0h2 4 У3 *3= J=i%ft2y*,ft22 + a°h3 Эти выражения служат основой для построения алгоритма адаптации многослойной системы, предназначенной для вы- полнения операции обращения 2x2 матрицы. 12.10. Построение многослойной нейронной сети для решения задачи перевода чисел из двоичной системы исчисления в десятичную В качестве примера подобной сети рассмотрена система перевода в десятичную систему четырехразрядного двоично- го числа. После окончания режима настройки по замкнутому циклу в режиме обучения система должна в качестве желае- мого соотношения «вход-выход» реализовать функцию е(х) мно- гозначной логики, приведенную в табл. 12.7. Табл. 12.7 позволяет сформировать обучающую выборку на входе системы вместе с указанием учителя е, выбирая представителей обучающей выборки (столбцы) из таблицы случайным образом. Таблица 12.7 е 0 1 2 3 4 5 6 7 8 9 X, ч -1 -1 -1 -1 -1 -1 -1 -1 1 1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 -1 -1 1 1 -1 -1 X.4 *о -1 1 -1 1 -1 1 -1 1 -1 1 300
Разомкнутая нейронная сеть в данном случае описыва- лась следующим соотношением: J М 3 2 4 ®.=1+~ X [sign(X a. h arctg В X cl. х з 2 6 4 л2=1 Мг д 6 h=i h2hi 9 4 х — arctg В X ah h xh - a, t ) + 1] ; Я b ho=O hlh0 h0 *tp.fep+l/ J a, . = k-l;K=10. Mp+i p p Отсюда 4 4 signr-^—x,= signf L ab . X a. h 1; 5 Эа, . 3 L /, =1 21 h =o 1 ° ° rtyl2 lti 1 nQ u 4 signl|-^'si6nK4 ?_Л»аЬ 'l0 u signar~X3=signta^%ftixJ- hlh0 Данные выражения служат основой для построения алго- ритма настройки многослойной системы, предназначенной для решения задачи перевода чисел из двоичной системы исчис- ления в десятичную. 12.11. Исследование многослойной нейронной сети при произвольной квалификации учителя Построение оптимальной модели нейронной сети в случае произвольных объективной и субъективной квалификации учи- теля было проведено в гл.5. В описанном ниже эксперименте рассматривался случай К=2 и произвольной объективной ква- лификации учителя Ьо. Система распознавания образов представляла собой двух- слойную нейронную сеть на нейронах с арктангенсной харак- теристикой и В=5. Моделировался алгоритм настройки такой нейронной сети в режимах обучения (Ьс=1) и самообучения (Ьс=0). Структурная схема алгоритма представлена на рис.12.47. Основной задачей экспериментального исследования была про- верка работоспособности системы. В соответствии с этим план экспериментов предусматривал два основных пункта: 301
Рис. 12.47. Структурная схема нейронной сети с субъективной ква- лификацией учителя: 1 - сумматор; 2 - нелинейный преобразователь; 3 - блоки вычисления градиента; 4 - блок перемножения 1. Исследование поведения системы при оптимальных значениях коэффициентов и различных соотношениях ве- личин Ъо и Ьс. 2. Исследование динамики системы для различных Ьои Ь.и неоптимальных нейронах. В качестве генератора входных сигналов системы исполь- зовался датчик псевдослучайных чисел с распределением, близким к нормальному и равными ковариационными матри- цами для обоих классов. Экспериментальные исследования по- зволили сделать по п.1 следующие выводы: 1) в случае b0=bc наблюдается колебание коэффициентов системы около оптимального положения; 2) при Ьс=1 происходит постепенная расстройка системы тем сильнее, чем более Ьо отличается от 1 и чем менее от 0; 3) при Ьс=0 вне зависимости от величины Ьо система оста- ется в оптимальном положении. 302
Рис. 12.48. Динамика измене- ния коэффициента системы при Ьс=1 для различных Ьо. Исследования при началь- ных значениях коэффициентов нейронной сети, не равных оп- тимальным, показали, что при ЬС=ЪО система в результате на- стройки приходит к оптимальному состоянию. При Ьс=1 и b<,/b0 система не настраивается, несмотря на длительное время настройки (рис.12.48). 12.12. Аналитические методы исследования нейронных сетей, настраивающихся по замкнутому циклу Ниже излагается общая методика анализа нейронных се- тей, настраивающихся по замкнутому циклу. Данная методи- ка иллюстрируется частными примерами. Отмечаются труд- ности использования данной методики и возможные пути ре- шения задачи в менее частных постановках. Общая методика анализа замкнутых нейронных сетей, на- страивающихся по замкнутому циклу, по структуре анало- гична методике анализа замкнутых нейронных сетей, настра- ивающихся по разомкнутому циклу, и состоит из следующих этапов: 1) определение плотности распределения вероятностей для вектора оценки градиента функционала вторичной оп- тимизации; 2) вывод стохастического дифференциального уравнения для изменения в процессе настройки плотности распределе- ния настраиваемых коэффициентов нейронной сети; 3) решение данного уравнения; 4) нахождение распределения вероятности правильного распознавания интегрированием по пространству признаков и пространству состояний нейронной сети (пространству на- страиваемых коэффициентов). В принципе задачу выбора параметрической матрицы К*, обеспечивающей заданное качество настройки, нужно про- 303
изводить, исходя из результатов п.З методики. Однако, как будет показано ниже, это довольно трудная задача. Ее при- ходится решать, зачастую исходя из косвенных критериев, непосредственно не связанных с функционалом вторичной оптимизации. Ниже данные этапы исследования замкнутых нейронных сетей иллюстрируются на некоторых частных при- мерах, не претендующих на законченность решения для кон- кретных систем. В данном параграфе рассматривается ли- нейный пороговый элемент, оптимизация которого осуще- ствляется по критерию минимума модуля первого момента дискретной ошибки. Для нейрона с минимизацией |ос1д| в случае N = тп=1 было получено рекуррентное соотношение, являющееся основой для построения блока настройки, в следующем виде: а0(п+1)=а0(п) - К*х9(п). Первый этап анализа. В данном случае имеем дело с зада- чей случайного блуждания по одномерной решетке. Это блуж- дание описывается марковской цепью с бесконечным числом состояний. Вероятности переходов системы из состояния тпК* в состояние (т+1) К', (т-1)К* и тК* соответственно равны: , 1 P[mK*|(m+l)K*] = - [l-OjCmK»)], , 1 P[mK*|(m - 1)К*] = - Ф2(тК*); , 1 Р[тпК*| тпК*] = - [1+Ф1(тпК*)-Ф2(тК*)]. Здесь Ф - интегральный закон распределения. Второй этап. Стохастическое разностное уравнение, опи- сывающее изменение во времени плотности распределения вероятностей порога а0, имеет следующий вид: Wn+1(mK*) =W„[(m-l)K*] | {1-Ф,[(т-1)К*]}+ + Wn(mK*)| [Ф1(тпК*)+1-Ф2(тК*)] + + Wn[(m+1)K*] | Ф2[(т+1)К*]. 304
Третий этап. Решение данного стохастического разно- стного уравнения является достаточно сложной задачей. Поэтому остановимся на решении данного уравнения для установившегося состояния (п = <»). Полагая ао(О)=0 и переходя к пределу при п —> что соот- ветствует системе в установившемся состоянии, получаем: W[(m-X)K*] | {1-Ф1[(т-1)К*]}+ г , I + W[(m+1)K*]- Ф2[(т+1)К*]- 1 - W(mK*) - (1_Ф1(тК*)+Ф2(тК*)] = 0. Отсюда W[(m-1)K*] | а-ФДСт-ХЖ*]}- 1 1 Ф2(тК*) = W(mK*)~ [Х-Ф/тК*)]- - W[(m+1)K*]| Ф2[(т+1)К*] = С. Из условия нормировки плотности распределения настра- иваемого коэффициента а0 по т следует, что W(mK*)—0. Поэтому С=0 и {Х-ФДОп-ХЖЧН = W(mK*) Ф2(тК^. Полагая W(0)=A получаем: W(K*)=A W(2K*)=W(A) Ф2(К*) Ф2(2К*) W(-K*)=A __°2.(0) ; 1-Ф^К») W(~2K*) = W(~K*) . х-Ф^-гк*) 305
В общем случае т=1 W(mK*)=AlI к=1 Ф2[кК*] ’ -тп №(-тК*)=дП fc=l Ф2[((с+1)К*] Ф2[/сК*] (12.13) Величина A=W(0) определяется из условия нормировки плот- ности W по т. Функция IV(’) представляет собой плотность распределения для настраиваемого коэффициента а0 сети в установившемся состоянии. Функция !/2 [1_Ф1[(тпК*)] монотон- но убывает от V2 до нуля в интервале -°°< тД<- °° Функция 1/2 Ф2(тК*) монотонно возростает от нуля до 1/2 в интервале —оо< тД<оо. функция 1/2 П-Ф^тК*) + Ф2(тК*)] имеет макси- мум в точке корня уравнения 1-Ф1(тК*)=Ф2(тК*). (12.14) Пусть корень уравнения (12.14) равен тпК*=0. Тогда при тпД > (5 1-Ф1[(тпК*) < Ф2(тпК*) < Ф2[(т+1)К*), т.е. Ф2(^) м 1-ФД(?п-1)К*] Соответственно при тК*<8 имеем: Ф2(тК*) <1-Ф1[(шК*)<1-Ф1[(тп-1)К*]; Ф2ИК») 1-Ф1[(тп-1)К*] Поэтому, если 0/К* - целое число, то zs Л Ф (Й) W(0-A)=W(0) % . <W(0); 1-®j(0-A) A 1- Ф (0) W(9+A)=W(9) ~1>Д) <W(6)- Отсюда видно, что 0 есть мода распределения значения порога как случайной величины и обеспечивает в свою оче- редь равенство условных функций риска для совокупностей образов первого и второго класса. 306
Из (12.13) вытекает, что математическое ожидание и дис- персия распределения значения порога конечны. Для нейрона с произвольной памятью тп в блоке настрой- ки (mn=const, N=l): a0(n+1)= а0(п) при п+1*йпп, г=1, 2, 3 . . ., a0(n) + К и 2 {e(l)~signx (12.15) mn l=(i- l)mn+l x [x(() - a0(Z)]} при n=imn. Здесь, несмотря на сделанное в гл. 9 замечание о невоз- можности в общем случае для критерия минимума | а1д| и системы с двумя решениями построения аналитических ал- горитмов настройки с произвольными значениями тп, выра- жение (12.15) справедливо, так как рассматривается част- ный, одномерный (N=l) вариант, в котором x0=~l=const. В (12.15) поправка коэффициентов происходит через каждые тп тактов поступления образов на вход системы. Получим выражение для вероятностей перехода в дан- ной марковской цепи. Как и в случае mn=l, здесь Р[хд(п)=~2]= | [1-Ф/тК*)]; Р[х (п)=2]= ± Ф2(тК*); * л Р[хд(п)=0]= | [1-Ф2(тК*)+Ф1(шК*)], где тпК* - текущее значение настраиваемого коэффициента а0. Величина irn К* К* т-» пГ х"д= xVn=imn)=-fiT~ {£(0 ~ sign[x(l)-aol]} а п l=(l-l)mn+l к* к* принимает значения - К*п, ~Кп+-^-?, ..., 0, ..., К*п- п '^п в данном случае имеем дело с задачей о полиномиальном распределении т ! P[x7n = imn)] = 2(l-t)]=Pmn[t,t,(mn-l-t)^t!f,(^_"z_t)! х 307
х[| Ф2(тК*)]г{| [1-Ф2(тК*)+Ф1(тпК*)]}т,’,'‘. Здесь I, t, тп ~l ~t - соответственно число раз, которое в хд выпадают + 1, -1, 0. При замене переменных £ = I - t можно получить ограничения на пределы изменения пере- менных в следующем виде: £ > 0 при —?2 - t > 0; ^<- 0 при —- > t > Выражение для переходных вероятностей при £> 0 име- ет следующий вид: Р[т К*|(тп+£)К*]=Ё —- — х n n t=o х2’т» х [1+Ф^К*) - Ф2(тпК*)]т”’21+\ При £< 0 выражение для переходной вероятности сохра- няется с заменой нижнего предела на (-£). Выражение для переходной вероятности будет единым, если нижний предел сделать равным {max [0, -£]}. Соответствующее второму этапу стохастическое разностное уравнение для плотности распределения вероятностей настра- иваемого коэффициента а0 системы имеет вид: т wimSmK^k?/(.-!) mn 1(™-кЖЧ P[(m-k)K*| тК*], где Р[ ] определяется приведенным выше выражением для переходной вероятности. В многомерном случае рекуррентное соотношение, явля- ющееся основой для построения замкнутой системы, при тпп=1 может быть записано: а(п + 1) = a(n) + К*хд(п) sign х(п). В данном случае имеем дело с задачей блуждания по (W+1)- мерной решетке. Это блуждание описывается много- мерной марковской цепью. Здесь, как и выше, задача анализа замкнутой системы состоит из следующих этапов: запись вы- ражений для переходных вероятностей; получение стохасти- ческого уравнения, описывающего динамику поведения мар- ковской цепи; исследование решения данного уравнения. 308
Решение данных вопросов является чрезвычайно сложным даже для рассматриваемой относительно простой системы, не говоря уже о таких, как многослойные нейронные сети. Нейрон с континуумом решений и континуумом клас- сов образов. Рассматривается случай N = тп= 1. При исполь- зовании критерия минимума второго момента дискретной ошибки имеем: a0(n + 1) = а0(п) -2К*{е(п) - F [х(п) -а0(п)]^}. [12.16] dF(g) Здесь xg(n) = e(n) - F[x(n) - a0(n)]; = <p(g). Введем в рас- смотрение случайные величины A0(n), Z[n], L[n], X[n], E[n], G[n], Y[n]. Их возможные значения соответственно равны a0[n], z[n], Z[n], x[n], E[n], g[n], y[n]. Величина G[n] является функцией случайных величин А0[п] и X[n]: G[n] = X[n]-A0[n], a Y[n] является функцией случайной величины G[n]: Y[n] = <p (G[n]). Величина Z[n] определяется: Z[n]={E[n]-F(G[n])}9(G[n]); L[n] = {E[n]-F(G[n])}; I[n] = xg[n]. Плотность распределения величины A0(n+l) будем искать в виде /[a0(n+l)] = J /[а0(п+ 1), x(n)] dx(n) = со —оо = / /[%(п + 1)/х (n)]/[x (n)]dx (п). (12. 17) —оо Для определения /[(^(n+lj/a^n)] нам понадобится Ф^тО/а^п), ®(п)]: Ф[х(п)/а0(п), х(п)] =| J flxg(n), у(п)/а0(п), х(п)] х Xg(n) y(n)<z(n) х dxg(n) dy(n); 309
/i[xg(n), y(n)/x(n), a0(n)] =/2[xg(n)/y(n), x(n), a0(n)] /3[y(n)/x(n), a0(n); /3[y(n)/x(n), a0(n)] = 3 {y(n) -ф [x(n) - a0(n)]}; x(n)> ao(n)l = /21;ср(п)/ж(п)> at/n)l’ так как случайная величинафявляется определенной функ- цией случайной величины X и Ао: f2[xg(n)/x(n), a0(n)] = f4{xg(n) + F[x(n) - a0(n)]/x(n)}; /4[е(п)/х(п), a0(n)] = J4[e(n)/x(n)]. Отсюда /2[xg(n)/x(n), a0(n)] = /4*{xg(n) + F[x(n) - a0(n)]/x(n)}, где /4*- новая функция, в которой a0(n) - фиксированная величина. В результате получаем: /i[xg(n), y(n)/x (п\ a0(n)] =/4*{xg(7i) + F[x(n) -^(n)]/x(n)}8 [y(n) -ф(д(п)} Определим: Ф[г(п)/а0(п), x(n)] = f J Яхд(п), y(n)/a0(n), x(n)] daodx. Xg(n) 1/(n)<z(n) Можно показать, что о °° Ф[г(п)/а0(п), x(n)]= J / /4*{х (n) + F[x(n) - a0(n)]/x(n)}x -оо z(w) УМ х 3 {у(п) - Ф [x(n) - a0(n)]}dy(n) dx (п) + z(n) ~ у(п) + J J /4*{х (n) + F[x(n) - a0(n)]/x(n)}x х 8 {у(п) - Ф (х(п) - a0(n)]}dy(n) dxg(n). Отсюда плотность вероятности величины L(n) относитель- но величин Х(п) и А0(п) д Яз(п)/а0(п), х(п)] = — Ф[г(п)/а0(п), х(п)]= о = ~ I У(п)^ у^)+ Г^(п)/;г(п)П 81у(п) “ ф dy(n) + 310
+J у(п)Л*{ +4*(«) -Oo(n)]/x(n)}8 {y(n) -tpMnh^nJjJdyfn) = = J j^“jj /4*^))+ Л^(п) -a0(n)]/x(n)}5 {у(п) -ф[х(п) - a0(n)]}x х<Ш=------------------rf,* { --—---------+ flx(n)_ il,(n)]/x(n)}. J |ф[х(п) - a0(n)] | ‘ ф[х(п) - a0(n)] Интегральный закон распределения случайной величины А)(п+1) относительно Х() имеет вид: ф[а0(п+1)/х(п)] = Я Ф[е(п)/а0(п), x(n)]/[ao(n)/x(n)daodz(n)]. Так как Яа0(п)/х(п)] = f [а0(п)], то Ф[а0(п+1)/х(п)]= L ф+1)-ф) /д[а°(п)] |ф[х(п) - a0(n)]| fi 'гК* х { у(п)+ F[x(n> ~ a0(n)V*(n)}da0(n) dz(n). Отсюда /п+1£ао(п+1)/х(пЯ= Дк+n Ф[а0(п+1)/х(п)]= -f AW71)!х OCIq^TI I х j Xiix —оо X г-:-7 1---a--W-+-)——+ F[x(n) - a0(n)]/x(n)}da0(n). 1ф[х(п)-а0(п)р -2К*ф[х(п)а0(?г)] 0 ° Окончательно имеем: /п+1К("+1)] = йЛ lkrtr(n)-ao(n/’‘[ao(n)1^-2^iJn^Tnjt + F[x(n) - a0(n), x(n)} da0(n)dx(n). (12.18) В предельном случае при n—>°° /,(а0) =4г / J —f [------------а-° xldxd£,. 10 2К*4 4о|ф(х-01 -2К*ф(х-Ч) Это однородное интегральное уравнение Фредгольма вто- рого рода. Оно решается в общем случае численными метода- 311
ми. В выражении для /п+1[а0(п+1)] интегрируется неотрицатель- ная функция Следовательно, /п+1[а0(п+1)] > 0. При п=0 очевид- но, что ОО 0° J /o[ao(O)]dao(O) = f 5[a0(0)-^]dao[0]=l, — QQ “OO где заданное начальное значение порога. Предположим, что для /П[ао(п)] I /n[ao(n)dao(n)l = —о© Покажем, что тогда J /n+1[a0(n+l)]da0(n+l)=l; ОО Y°= f /п+Дао(п+1)]Ч(п+1)= I / J . 1 . ,,,/*№] х R -оо 2К*|ф[х(п) - а0(п)]| х/ (+FWn) “ ао<< x(n)}dx(n) сЩп) da^n+1). -2К*<р[а:(п)-а0(п)] и и Сделаем замену переменных £(П)= -2g^(nWfo)l +F[X(n) " a°(n)]: , , . _ da0(n+l) de(n) =------S--------r. 2К*|ф[х(п) - a0(n)]| Отсюда у°= J J J /п [a0(n)l/ [e(n), r(n)]de(n) da0(n)dx(n) = OO oo = / fn[a0(n)] I I / Ле(п)> Х<ПИ dE(n) dx(n)]da0(n). —OO —oo По свойству плотности вероятности fj f [е(п), r(n)] dE(n) dx(n) =1, по предположению oo a J /nl“0(n)] da0(n) = l. —oo Следовательно, 312
Y°= J\+1 [a0(«+1)] Ч(«+1> = 1- что и требовалось доказать. Аналогичные выражения можно получить для случаев mn= const и N Ф 1, а также для более сложных структур многослойных нейронных сетей. Однако при этом резко воз- растает сложность полученных выражений. Анализ данных выражений в явном виде, т.е. анализ качества настройки нейронных сетей в пространстве настраиваемых коэффици- ентов, вряд ли имеет смысл, особенно для случая много- слойных систем. В данном случае необходимо переходить к распределению вероятности правильного распознавания интегрированием по пространству настраиваемых коэффи- циентов. На наш взгляд, эта задача, достаточно сложная с математической точки зрения, может служить предметом самостоятельного рассмотрения. В данном случае можно записать, пожалуй, только общие выражения для матема- тического ожидания и дисперсии средней функции риска: MR= J /**(a)[f f fE(e)/(x/e) I [xfc=P(x), e]de dx]da; A EX DR= J /**(a)[R-MR]2da. A Указанная выше сложность аналитического исследова- ния замкнутых систем с фиксированной структурой, настра- ивающихся по замкнутому циклу, приводит к необходимос- ти применения для исследования указанных систем, в ос- новном многослойных, методов статистического моделиро- вания. Литература 12 .1. Галушкин А.И. Методика синтеза обучающихся по разомк- нутому циклу систем распознавания нестационарных обра- зов. Тез. докл. III Укр. респ. конф, по бионике. Киев, ИК АН УССР, 1969. 122. Галушкин А.И., Василькова Т.А., Слободенюк В.А., Тюхов Б.П. Анализ динамики систем распознавания нестационарных об- разов//Труды МИЭМ, вып.23, 1971. 122. Ванюшин В.А., Галушкин А.И., Тюхов Б.П. Построение и ис- следование многослойных систем распознавания образов. Сб. 313
Некоторые проблемы биологической кибернетики/ Под общ. ред. акад. А.И. Берга. - М., Наука, 1972, с. 315-323. 12 .4. Галушкин А.И. Синтез многослойных систем распознавания образов. - М., Энергия. 1974. 12 .5. Галушкин А.И., Кудрявцев А.М. Обращение матрицы с помо- щью многослойной системы из пороговых элементов. Кибер- нетика и вычислительная техника, вып. 33. Киев, Наукова Думка, 1976. 12 .6. Галушкин А.И. Расчет и реализация оптимальных дискрет- ных фильтров. В сб.: Автоматическое управление и вычисли- тельная техника, вып. 9. М., 1968, с. 72-128. 127. Галушкин А.И., Эргов Ю.Я., Шикунов Ю-А. Оперативная обра- ботка экспериментальной информации. - М., Энергия. 1972, 360 с. 128. Steriti R., Coleman J., Fiddy M.A. Aneral network based matrix inversifn algoritm. IJCNN, Jnt Jt. Conf. Neural Networks, San Diego, Calif., vol 1, 1990, c. 467-470. 129. Steriti R., Coleman J., Fiddy M.A. Regularized matrix inversion on a nenral network architecture. IJCNN - 91, Sea tile, Wach, July 8 - 12, vol 2, 1991, c. 938. 1210. Викторов H.B., Галушкин AM. Построение и исследование сис- тем распознавания образов при произвольной квалификации учителя. // Медицинская радиоэлектроника. ВНИИМеждуна- родной техники, 1976, с.95-106. 314
Рис. 13.1. Структурная схема нейронной сети с переменной структурой, настраивающейся по замкнутому циклу Глжа 13. Синтез многослойных нейронных сетей I с переменной структурой I Несмотря на то что при построении многослойных нейрон- ных сетей с фиксированной структурой, настраивающихся по замкнутому циклу, необходимость в некоторой априорной ин- формации о характеристиках входного сигнала отпадает по сравнению с разомкнутым циклом, все же потенциально дос- тижимая величина вероятности правильного распознавания здесь ограничена за счет фиксации структуры нейронной сети. В данной главе рассмотрен синтез многослойных ней- ронных сетей с переменной структурой (рис. 13.1), выби- раемой в процессе настрой- ки исходя из обеспечения за- данной вероятности правиль- ного распознавания. На рис. 13.1 у(х) - структура преоб- разования разомкнутой час- ти нейронной сети. Методы настройки многослойных нейронных сетей с перемен- ной структурой, выбираемой исходя из обеспечения заданной вероятности правильного распознавания, основаны на после- довательном обучении слоев нейронов, причем методы обуче- ния каждого слоя могут быть идентичными. 13.1 .Последовательный алгоритм обучения нейронов первого слоя многослойной нейронной сети Последовательные алгоритмы обучения первого слоя ней- ронов многослойной нейронной сети основаны на постепенном увеличении числа гиперплоскостей, составляющих результи- рующую кусочно-линейную гиперповерхность, до тех пор пока не будет достигнуто нужное качество распознавания или вы- полнено какое-либо другое условие окончания процесса обу- чения. Процесс обучения сводится к формированию логическо- го дерева. В геометрической интерпретации это выглядит сле- дующим образом. Пространство признаков оптимально делится некоторой нейронной сетью с фиксированной структурой (на- пример, нейроном) на две части, затем полученные подпрос- 315
транства делятся еще раз и т.д. На рис. 13.2-13.4 представлены! соответственно общая структурная схема алгоритма, иллюст-1 рация к построению кусочно-линейной разделяющей поверх-! ности, реализуемой нейронной сетью с переменной структу-4 рой, и логическое дерево, описывающее процесс построения разделяющей поверхности. На рис. 13.2: I - блок определения параметров нейронной сети с фиксированной структурой; II —| блок разделения входной обучающей последовательности; VI Ч блок управления; III (пунктир) - алгоритм многослойной ней-] ронной сети с переменной структурой на первом шаге, анало-| гично которому строятся блоки III. На рис. 13.3 двойной лини-1 ей изображена результирующая граница между классами! Первая гиперплоскость <р0(х) разбивает пространство призна-1 ков Фо на две подобласти Фх и Ф2, причем Фх считается собч ственной областью образов первого класса, Ф2 - второго. Обу-1 чающую выборку Lo делим на две: Lr и Ь2, состоящие из век-| торов, попавших в Ф; и Ф2 соответственно. Подсчитывается число неправильно классифицированных образов 9Х и 92 в каж-| дой из подобластей. Выбирается максимальный элемент из мно-1 жества {9р 92} и дальнейшему делению подвергается соответ-1 ствующая подобласть. Пусть 9Х>92. После деления Фх гиперп-1 лоскостью получаем области Фп и Ф12. Вычисляем 9П и 912 и сравниваем ошибки распознавания. Если 01>611+612, то введе-1 ние новой гиперплоскости улучшает качество распознавания В этом случае выборку Lx разбиваем на подвыборки Ln и LXJ Рис. 13.2. Структурная схема алгоритма последовательного пос' роения кусочно-линейной разделяющей поверхности а б Рис. 13.4. Логическое дерево: а - схема построения кусочно-линейной разделяющей поверхности рис. 13-2; б — последовательная нумерация вер- шин дерева Снова выбираем подпространство с наибольшим числом не- правильно классифицированных образов, строим новую ги- перплоскость и т.д. В результате получается набор областей Фр • • • , Фу,ь„..е> гДе индексы г, j, к, ... ,t принимают значение 1 и 2. Если проведение гиперплоскости в подпрост- ранстве Фул t не приводит к уменьшению ошибки распозна- вания, то следует продолжить деление вновь полученных об- ластей. При обучающей выборке конечной длины алгоритм всегда сходится к 9=0, однако сходимость может быть и немо- нотонной. При построении подобных алгоритмов [13.1] необхо- димо ограничивать число шагов, при которых ошибка увели- чивается. Если при заданном числе шагов ошибка не умень- шится, данная исходная область Фу Ь> t исключается из числа подпространств, которые подвергаются делению, т.е. величи- на исключается из набора 9р Q.jt .... 9; к л, среди которых отыскивается наибольшая величина ошибки. В [13.1] рассматриваются следующие правила остановки алгоритма: 316 317
1) остановка при достижении заданного значения вероятности ошибки; 2) остановка при достижении заданного числа гипер- плоскостей (числа нейронов первого слоя многослойной ней- ронной сети). Структурная схема программы, реализующей алгоритм построения кусочно-линейной разделяющей поверх- ности, приведена на рис. 13.5. Назначение большинства опера- Рис. 13.5. Структурная схема программы, реализующей процесс последовательного построения ку- сочно-линейной разделяющей по- верхности торов понятно из вышеиз- ложенного, поясним лишь три из них. Оператор «Логическое дерево». Для пояснения его работы удобно воспользо- ваться рис. 13.4, на котором приведено логическое дере- во для построения разделя- ющей поверхности, изобра- женной на рис. 13.3. Как вид- но из рис. 13.4, вершины де- рева могут быть двух типов: промежуточные вершины, вершины, являющиеся кон- цами дерева. Началом дерева («кор- нем») является вершина с индексом нуль, а концы де- рева соответствуют опреде- ленным классам образов. Любой образ х после при- менения к нему оператора «Логическое дерево» попа- дает в один из концов де- рева и относится к соответ- ствующему классу образов. Для принятия решения о направлении дальнейшего движения из вершины i, j, k, . .. , t используется функция ср. . k t(x). Если sign cpi k t(x)>0, то даль- нейшее движение происходит по правой ветви, в противном случае - по левой ветви. Вершины логического дерева удоб- но пронумеровать последовательно, так как индексация пере- менной длины очень наглядна при объяснении работы алго- 318
ритма, но не удобна при программировании. Логическое де- рево рис. 13-4,а при последовательной нумерации вершин при- нимает вид, изображенный на рис.13.4,б. Логическое дерево удоб- но описывать матрицей, имеющей три столбца: 0 2 3 0 4 5 0 6 7 1 0 0 0 8 9 С = 1 0 0 0 10 11 1 0 0 2 0 0 1 0 0 2 0 0 Каждой вершине логического дерева с номером s соответ- ствует s-я строка матрицы С. Поясним смысл строк матрицы, которые, как и вершины, могут быть двух видов. Строка вида (О s s +1) описывает промежуточную вершину дерева. Берется раз- деляющая поверхность <ps=0, соответствующая этой вершине, и в зависимости от sign ф/х) происходит переход к вершине s, если sign ф5=-1, или к вершине s+1, если sign фв=1. Если же строка имеет вид (к 0 0), где к=1, 2, то она описывает один из концов логического дерева. Если после последовательного ис- пользования нескольких разделяющих поверхностей точка х. попала в вершину, описываемую подобным образом, то ее сле- дует отнести к классу Ак. Проведение новой гиперплоскости фДх) вызывает построение двух новых ветвей дерева, отходящих от вершины i. При этом матрица, имеющая U строк, получает две новые строки с номером (17+1) и (17+2) следующего вида: П+1:10 0 U+2 : 2 0 0, а в г-ю строку заносится запись 0 U + 1 U + 2, т.е. теперь г-я вершина является промежуточной вершиной логического дерева. Оператор «Проведение дополнительной разделяющей по- верхности» может использовать практически любой алгоритм настройки нейрона, описанный в гл.9. Более того, данный опе- ратор может реализовать любую нейронную сеть с фиксиро- ванной структурой, описанную в гл. 9 и 10. 319
Оператор «Проверка улучшения качества» предназначен для проверки улучшения качества распознавания Результаты рабо- ты этого оператора используются для процесса построения логи- ческого дерева: если качество улучшилось, то дальнейшему делению подвергается область, например, с наибольшим значе- нием средней функции риска; в противном случае делению под- вергаются области, полученные при последнем делении. 13.2. Алгоритм обучения нейронов первого слоя многослойной нейронной сети с применением метода случайного поиска локальных и глобального экстремумов функций На основе метода случайного поиска локальных и глобально- го экстремумов функций многих переменных, изложенного в гл.8, разработан алгоритм обучения нейронов первого слоя мно- гослойной нейронной сети. В данном случае можно отказаться от построения древообразной структуры и в первый слой включа- ются все нейроны, обеспечивающие локальные экстремумы сред- ней функции риска (рис.13.6,13.7). на рис.13.6 четыре гиперплос- кости в двумерном пространстве признаков определяют четыре! локальных экстремума средней функции риска. Цифрами в кру- жочке обозначены номера аргумента логической функции, соот- ветствующие каждой области многомерного пространства при- знаков. В табл.13.1 даны значения логической функции (для при- мера рис. 13.6), реализуемой в многослойной нейронной сети сло- ями нейронов, кроме первого. Звездочкой в таблице обозначены те значения логической функции, которые не являются опреде-; ленными при данном значении аргументов (при данной на рис. 13.6 конфигурации разделяющей поверхности). Индексом нуль Рис. 13.6. Иллюстрация к ме- тоду обучения нейронов перво- го слоя многослойной нейронной сети с применением алгоритмов случайного поиска Рис.13.7. Свойство многоэкст- ремальности средней функци» риска при многомодальных рас. пределениях /(гс/е) 320
обозначены области пространства признаков, в которых нет °0' разов ни первого, ни второго класса. Таблица 13.1 Z 0 1 2 .1 4 5 6 7 8 9 10 н 12 13 14, 15 V1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 , 1 1 1 1 * У1 -1 -[ 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 Уз -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 У< -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 е * * * * -1 0 0 * -1 0 0 * 0 1 1 Совершенно очевидно, что детерминированные мет°Ды поиска не позволяют выйти за пределы локального экстрёмУ~ ма и, пожалуй, единственным выходом из этого положёния является введение элемента случайности в процедуру пойска- Основные этапы работы алгоритма в каждом цикле сост0- ят в следующем: а) случайным образом выбираются компоненты вектора на- страиваемых коэффициентов очередного нейрона; б) применяя один из методов обучения нейронов, нахоДим очередной локальный экстремум средней функции риска) в) величина экстремального значения средней функции рис- ка и соответствующие компоненты вектора весовых коэфф^Д11' ентов нейрона сравниваются с содержимым памяти и запоми- наются, если ранее этот локальный минимум найден не 6р1Л- На первом цикле по числу нейронов первого слоя произво- дится сравнение с нулем и запись в память. Если став»1™ цель - определение только глобального, а не всех локальных экстремумов, то необходимо сравнение величины очередного экстремального значения минимизируемого функциона.па с ранее полученным, выбор и запись только минимального зна- чения функционала. По окончании третьего этапа происходит переход к пеРВ0- му этапу и определяется вектор настраиваемых коэффиц^ен" тов следующего нейрона первого слоя, обеспечивающий оче- редной локальный экстремум средней функции риска. Экспериментальное исследование одного цикла ра^оты данного алгоритма обучения нейрона первого слоя многостоп- ной нейронной сети было приведено ранее в гл.12. На риё-13.8 представлена структурная схема программы, реализук»Щеи И - 353 321
322
описанный выше алгоритм. План экспериментов с программой ставил своей задачей выявление свойств процессов обучения слоя нейронов. Характеристики входного сигнала и алгоритм настройки нейронов аналогичны рассмотренным в 12.2. При анализе работы программы по схеме, представленной на рис.13.8, необходимо исследовать следующее: 1. Получение экспериментальной оценки сходимости слу- чайной процедуры, т.е. зависимости количества случайных выбросов начальных условий от N и Z. 2. Зависимость общего времени счета от размерности про- странства признаков N, количества искомых экстремумов U, величины шага Д. Эксперимент был поставлен таким образом, что обучение новых нейронов формируемого слоя нейронной сети проводилось до тех пор, пока последовательный выброс случайных начальных условий (именно здесь проявляются ос- новные качества случайного поиска), не обеспечивал нахож- дения всех локальных экстремумов функционала качества при заданной модальности функций распределения входного сиг- нала. Количество шагов случайного поиска, потребовавшееся для нахождения всех локальных минимумов, приведено в табл. 13.2, где U - количество искомых минимумов, Г)у - количе- ство шагов случайной процедуры для нахождения всех U эк- стремумов. Приближенные оценки математического ожидания и дисперсии числа шагов, необходимого для нахождения U минимумов, имеют вид (8.16а). Данные табл. 13.2 и п. 8.6 дают возможность достаточно про- сто определить общее время обучения слоя нейронов много- слойной нейронной сети, затраченное при определенной мо- дальности входного сигнала. Отметим, что увеличение раз- мерности пространства признаков ведет, естественно, к уве- личению времени обучения, причем это время увеличивается пропорционально росту размерности. Таблица 13.2 и Т|<7 D^u 1 1 1 — 2 4 3 2 3 8 6 3 5 8 10 6 7 23 14 8 10 33 22 12 II» 323
13.3. Анализ сходимости алгоритмов при увеличении ; числа гиперплоскостей Сходимость алгоритмов по вероятности ошибки при услож-i нении структуры нейронной сети зависит от правила выбора очередной подобласти для деления и от алгоритма обучений нейронов на каждом шаге деления. Метод выбора очередной подобласти для деления, описанный выше и состоящий в том, что на каждом шаге проведения гиперплоскости выбиралась для деления та область, в которой оценка вероятности ошибю является максимальной, является оптимальным с точки зрени; скорости сходимости алгоритма. В большинстве используемы: на практике алгоритмов с последовательным делением простран ства признаков авторами применялись простейшие методы про ведения гиперплоскости на каждом шаге, состоящие в настройю нейрона по разомкнутому циклу с использованием первых мо ментов обучающих выборок. Это зачастую приводит к увеличе нию вероятности ошибки на некотором шаге работы алгоритм; (рис. 13.9). На рис. 13.9 в очередной области (незаштрихованна: часть) разделяющая поверхность проведена перпендикулярно, линии, соединяющей центры двух классов. На данном шаге деления ошибка увеличилась, так как часть образов первого класса попала к образам второго класса. Для обеспечения моно- тонности изменения вероятности ошибки при увеличении числа гиперплоскостей необходимо применять на каждом шаге алго- ритм обучения нейрона, который приводил бы к минимуму ве- роятности ошибки на каждом шаге (настройка по замкнутом; циклу с минимизацией второго момента дискретной ошибки Обеспечение монотонности изменения вероятности ошибки по зволяет сделать минимальным число нейронов первого ело; многослойной нейронной сети. Однако в некоторых случая: необходимо идти сознательно на увеличение числа нейроно; первого слоя при немонотонном из- менении вероятности за счет резкого упрощения алгоритма обучения ней- ронов. Рис. 13.9. Иллюстрация процесса уве- личения вероятности ошибки на некото- ром шаге работы последовательного ал- горитма: I - первый класс; II - второй класс 324
Отметим, что при увеличении числа гиперплоскостей в самом неблагоприятном случае оценка вероятности ошибки стремится к нулю из-за конечности длины выборки, данной для обучения. В связи с этим необходимо указать на два этапа в создании нейронной сети: этап обучения алгоритма и этап оценки его точности. Совершенно естественно, что при нали- чии в качестве исходного материала выборки длиной М толь- ко часть ее Му (причем несомненно меньшую) нужно исполь- зовать для обучения алгоритма. На выборке длиной Мг алго- ритм при увеличении числа гиперплоскостей обеспечит нуле- вую ошибку. Проводя распознавание обученным алгоритмом по элементам выборки М2, равной M~MV оцениваем действи- тельную точность алгоритма по вероятности ошибки распоз- навания Функция АР(Н1)=Рр(Н1)-Р0(Н1), график кото- рой приведен на рис. 13.10, должна быть в принципе монотон- но возрастающей при увеличении числа гиперплоскостей из-за уменьшения способности алгоритма к обобщению. Здесь Р^Н^ - функция изменения вероятности ошибки на этапе обучения нейронной сети. Необходимо отметить, что зачастую кривая PptHj) имеет локальный минимум при конечном определенном значении Hv равном, например Н'г В этом случае может быть выдана рекомендация на выбор именно этого числа гипер- плоскостей Н'р если Рр(Н\) удовлетворяет исходным услови- ям. В некотором смысле описанный выше алгоритм обучения с применением случайного поиска является оптимальным с точ- ки зрения минимизации числа нейронов первого слоя много- слойной нейронной сети, так как определяет все локальные моды средней функции риска в пространстве настраиваемых параметров. Результатом обучения нейронов первого слоя многослой- ной нейронной сети с двумя решениями, в частности, являет- ся логическая функция, определяющая последовательность де- ления многомерного пространства признаков. Данная логичес- кая функция иногда не определена не только на некоторых полных наборах аргументов, но и на некоторых отдельных аргументах. Простейшая иллюстрация недоопределенности ло- гической функции подобного рода представлена на рис.13.11 и в табл.13.3. Здесь арабскими цифрами отмечены области ис- ходного пространства признаков, являющихся исходными для формирования некоторого набора аргументов логической фун- 325
&P(Hf>=tPp-P0) Рис. 13.10. К анализу сходимо- сти алгоритма при увеличении числа гиперплоскостей на этапах обучения и распознавания Рис. 13.11. Формирование обу-3 чающей выборки на выходе ней- ронов первого слоя ' Таблица 13.3 Номер области 1 2 3 4 5 6 7 8 Е -1 1 -1 1 1 1 -1 * У Первый нейрон -1 1 1 -1 -1 1 1 * Второй нейрон Ф 1 -1 Ф Ф 1 -1 ♦ Третий нейрон -1 ® Ф 1 1 Ф Ф ♦ Ш ХУ У VI кции е(у) Клетки, помеченные звездочками, означают набор j переменных, который никогда не появляется на выходе ней-i ронов первого слоя. Клетки, помеченные знаком Ф, означают! значения переменных из полного набора, равного 2Н1, кото- ! рые также отсутствуют на выходе нейронов первого слоя. Про- i цедура последовательного деления, показанная на рис. 13.11, j может быть проиллюстрирована деревом и матрицей вида, j изображенного на рис. 13.12. Здесь I-V1 - области, получен-j О I У I Ш1У ш о О 1У о о II УУ1 У о о та о о Рис. 13.12. Логическое дере- во и матрица переходов для при- мера рис.13.11 ные в результате последова- тельного деления. Проблема доопределения ло- гической функции е(у), получен- ной на этапе последовательной настройки нейронов первого слоя, возникает в связи с необ- ходимостью формирования мас- сивов обучающих векторов на выходе нейронов первого слоя для настройки последующих слоев нейронов. Основная зада- ча здесь заключается в доопре- делении логической функции на 326
частично заданных наборах своих аргументов. Доопределение же логической функции на наборе 8 (рис. 13.11, табл. 13.3) может вообще не производиться, так как этот набор никогда не появ- ляется ввиду специфики задачи построения кусочно-линейной разделяющей поверхности. Доопределение при неполных набо- рах производится следующим образом. В обучающий массив для нейронов второго слоя многослойной нейронной сети, представ- ленных в табл. 13.4, записываются векторы с присутствующими координатами, исходным указанием учителя и полным перебо- ром по отсутствующим значениям переменных. Таблица 13.4 Номер области 1' 1" 2' 2" 3' 3" 4' 4" 5' 5" 6' 6" 7' 7" е -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 У Первый нейрон -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 Второй нейрон -1 1 1 1 -1 -1 -1 1 1 1 1 1 -1 -1 Третий нейрон -1 -1 -1 1 - 1 1 1 1 1 -1 1 -1 1 В табл. 13.4 сформирована логическая функция, по кото- рой производится настройка нейронов слоев, кроме первого. 13.4. Алгоритмы обучения нейронов второго слоя двухслойной нейронной сети 13.4.1. Условие реализуемости логической функции г(у) на одном нейроне Целью данного параграфа является проверка реализуемо- сти логической функции на одном нейроне втрого слоя систе- мы распознавания образов. Если результат проверки будет положительным, то многослойная нейронная сеть будет двух- слойной с одним нейроном во втором слое. Если же результат проверки будет отрицательным, необходимо перейти к синте- зу трехслойной нейронной сети, в которой логическая функ- ция реализуется на двух выходных слоях нейронов с некото- рым (выбираемым в процессе синтеза сети) числом нейронов первого слоя и одним нейроном второго слоя. На рис. 13.13 представлена иллюстрация реализуемости ло- гической функции на одном нейроне, когда величина выход- 327
о—о о *—к д(х) Рис.13.13. К определению физической реализуемости логических Z функций на одном нейроне: (1) - S | cTy(z)|, (2) - (сгЬ)1 ного аналогового сигнала g(n) нейрона меньше нуля на всех наборах входных двоичных переменных y(z) (z - номер набо- ра) первого класса и больше нуля на всех входных двоичных переменных второго класса. Величина Ag= д(^~ д(1^а называ- ется промежутком [13.5]. Необходимое и достаточное условие реализуемости логической функции на одном нейроне можно записать в следующем виде: или, иначе, E(z) = sign g(z) g(z) e(z) = | g(z) |. (13.1) Суммирование правых и левых частей (13.1) дает условия реализуемости логической функции на одном нейроне в сле- дующей форме: z Z S g(z)E(z) = S |g(z)| (13.2) или, иначе, Hl Z z Z Н1 S a. S у. (z)e(z) + а0 S E(z) = S S а. у Az) + а0 . (13.3) ;=1 J zel J uz=l z=l 1 ;«1 J J Ul Величины z z E y. (z)E(z), X e(z) z-1 J z=l однозначно определяются данной логической функцией и мо- гут быть вычислены до решения задачи синтеза нейрона, ре- ализующего данную логическую функцию. Так же как в [13.5], введем в рассмотрение величину z Е(2) > J = 0..НГ (13.4) 328
Отметим, что z Ъо = S e(z), так как xofe(z) =1; z = 1, ..., Z. Из (13.3) и (13.4) следует: Hl Z Н1 Л = S аД. = X I S а. у .(Z) + а0| или Z aTb=S|g(z)|. (13.5) Выражение (13.5) дает необходимое и достаточное условие реализуемости логической функции Е(у). В случае, если логическая функция e(z), существующая в Z точках -мерного двоичного аргумента y(z), не реализуема на одном нейроне с вектором а весовых коэффициентов, ска- лярное произведение вектора а и характеристического векто- ра логической функции меньше, чем сумма модулей значений выходного аналогового сигнала нейрона по всем z=l, ..., Z. Отсюда следует, что вектор весовых коэффициентов нейрона, реализующего данную логическую функцию с характеристи- ческим вектором Ь, должен минимизировать (до нуля) значе- ние следующего функционала: z 1(а)=Х | g(z)\ - атЬ. (13.6) 2=1 Необходимо отметить, что вектор b в некотором смысле близок к вектору весовых коэффициентов а нейрона, реали- зующего соответствующую Ь логическую функцию. Если пони- мать под ошибкой реализации логической функции разность е(г) ~^сТхМ то [13.5] среднеквадратичная ошибка будет минимальна при с = Ь. Следовательно, в качестве вектора весовых коэффици- ентов а иногда (например, в качестве начальных условий ите- рационной процедуры поиска вектора а, реализующего дан- ную логическую функцию) можно принимать соответствую- щий вектор Ъ. Однако, естественно, вектор Ъ не будет всегда 329
вектором весовых коэффициентов, реализующих данную ло- гическую функцию. Таким образом, соотношение (13.5) является необходимым и достаточным условием реализуемости логической функции на одном нейроне. Соотношение (13.5) полностью аналогично (13.2). Соотношение (13.2) можно представить как систему линейных неравенств, а (13.5) - нелинейное уравнение. В этом основное отличие данных двух методов представления условия физи- ческой реализуемости логических функций на одном нейроне. Использование соотношения (13.5) несколько упрощается вслед- ствие того, что исходная логическая функция е(у), существую- щая максимально в 2Н1 точках Номерного пространства двоич- ных (-1, 1) переменных, в (13.5) представляется Я^мерным аналоговым вектором, а в (13.2) 2Hl двоичными числами. 13.4.2. Синтез нейрона методом минимизации функционала Указанное соответствие между соотношениями (13.2) и (13.5) показывает на преимущество (13.5). Однако здесь возникает трудность выражения в явном виде нелинейного члена S | g(z)\, которую можно обойти путем соответствующей ап- г=1 проксимации. Естественно, чем точнее аппроксимация, тем бли- же найденное значение вектора весовых коэффициентов (при аппроксимации) к искомому. Согласно (13.6) минимизируемый функционал представляется в следующем виде: z I(c,b) = Е | ст y(z)| - Л. (13.7) Здесь с - произвольный вектор весовых коэффициентов, для которого значение аналоговой ошибки нейрона не равно нулю, b - характеристический вектор данной логической функ- ции. При определении вектора, обеспечивающего минимум (13.7), устанавливается, что: либо а, равное с, является век- тором весовых коэффициентов, реализующих данную логи- ческую функцию, либо данная логическая функция не реали- зуема на одном нейроне. На рис.13.14 представлены условно зависимости слагаемых формулы (13.7) от с. для логических функций, реализуемых и нереализуемых на одном нейроне. На рис. 13.14 цифра 1 соот-
ветствует физически реализуемой, цифра 2 - нереализуемой логичес- кой функции. Излагаемый метод синтеза нейро- нов второго слоя многослойной нейрон- ной сети основан на представлении: q I g(z) I = Ц9292(2)] + U<?V(2)] + • • •, где q ~ нормирующий множитель, ограничивающий область аппрокси- мации следующим образом: 1 < q| g(z) | < 0. Аппроксимация q| g(z) | /с-членами называется аппроксимаци- ей к-го порядка. В случае к=1 Рис. 13.14. Общий вид функционалов качества физически реализуемой и нереализуемой на нейро- не логической функции |9(z)I = U992(z)]. Отсюда 2 z S 19(2) I = I ? 92(2) Z=1 Z~l ИЛИ Z Z Hi Н1 Е15(z)| = ^gS Е Z с,с3. y.(z) y^z); z hi hi z S | g(z) | = ^2g S S c,.c S у (z) у Az) . 2=1 A i=Q j=0 J z«l * J Сумма z '£yi(z)yj(z) = dij целиком определяется данной логической функцией (одними значениями своих аргументов) и может быть вычислена до решения задачи синтеза нейронов, так же как и характерис- тический вектор. Для полного набора аргументов логической функции, существующей на 2Н1 точках /fj-мерного простран- ства двоичных (1, -1) переменных, справедливо следующее: z ^(г)у/г)=2% (13.8) где 8~ - символ Кронекера. В общем случае это свойство не 331
соблюдается при синтезе многослойных нейронных сетей. Одна-, ко если это соблюдается, то t z Hl S|g(z)| = ^q2HiZ с,2. (13.9) В общем случае z S I g(z) I = ^2q (cTDc); D=[d..]. (13.10), При соблюдении условия (13.9) Hl Hi 1(с,Ь)=^2푧с;2-2с}Ь7.. Выражение для оптимального, обеспечивающего минимум 1(0) вектора с имеет следующий вид: Ci= Pibi> где Р,. = (^д2^+1)-1. Необходимо отметить, что свойство реализуемости логи- ческой функции на одном нейроне инвариантно относительно умножения на постоянный коэффициент. Поэтому выраже- ние для искомого вектора весовых коэффициентов нейрона, реализующего логическую функцию с характеристическим век- тором Ъ, при соблюдении условия (13.8) имеет следующий вид: a.ebp г = 0, . . . , Нр (13.11) Таким образом, при аппроксимации первого порядка и со- блюдении (13.8) вектор весовых коэффициентов равен харак- теристическому вектору логической функции. В этом случае, если аппроксимация первого порядка оказывается непригод- ной, принимают: а( = лишь для i = 1, . . . , Hv а величину а0 варьируют для обеспечения возможной реали- зуемости логической функции на нейроне (см. пример ниже). В общем случае, когда соотношение (13.8) не соблюдается Н1 l(c,b)= %2q (cTDc) - Е cj bj , искомый вектор весовых коэффициентов нейрона вычисляет- ся по формуле 332
a = D-ife. Это выражение является основным для синтеза нейронов методом минимизации функционала при аппроксимации пер- вого порядка. Матрица О'1 и вектор Ъ вычисляются по исход- ным значениям реализуемой логической функции. Операция с вариацией порога а0 здесь полностью аналогична соответству- ющей операции в случае соблюдения условия (13.8). Пример. Пусть дана следующая конфигурация разделяю- щей поверхности, полученная (рис. 13.15) пересечением четы- рех гиперплоскостей. В табл. 13.5 представлены значения логи- ческой функции четырех переменных. Звездочкой отмечены те значения аргумента, которые не присутствуют при фор- мировании исходной кусочно-линейной разделяющей поверх- ности. Множество всех возможных наборов значений входных двоичных переменных нейронов упорядочивается таким обра- Рис. 13.15. Иллюстрация к синтезу нейронов второго слоя двухслойной нейронной сети методом минимизации функционала Таблица 13.5 Z 0 1 2 3 4* 5* 6 7 8 9* 10 11* 12 13* 14 15 У| -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 У, -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 Ут -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 У4 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 Е -1 -1 -1 -1 -1 1 -1 1 -1 1 -1 1 1 1 1 1 зом, чтобы десятичные числа z, соответствующие двоичным кодам, составленным из значений переменных, образовывали возрастающую последовательность. Полный набор значений логической функции реализует следующее преобразование: Е = XjX3 + т3х4 + XjX2X4. 333
Определяем характеристический вектор логической функц] Hl = S e(z) x,(z), i = 0, ..., H.; x =1. 1 z=2 ’ 10 Для рассматриваемого примера bQ=-2, ^=6, b2=-2, b3=10, b4=6. Легко проверить, что данные коэффициенты нейрона1 позволяют реализовать на нем исходную логическую функ- цию. Однако, если аппроксимации первого порядка не хвата- ет для обеспечения реализуемости логической функции, необ- ходима вариация коэффициента Ьо. Для вычисленных коэф- фициентов bf и условия (13.11) для i = 1....Н1 вычисляв; величину (табл.13.6) п В(г)=^а{у(г). Таблица 13.6 Z 0 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 В(2) -20 -8 -24 -12 0 12 -4 8 -8 4 -12 0 12 24 8 20 Перебор значений Ь0=а0 (порога нейрона) производится в пределах [В(г)макс - 0,5] + [Bfz)^ + 0,5] через единицу. Аналогично можно проиллюстрировать метод синтеза ней- рона методом минимизации функционала с применением an-i Рис. 13.16. Иллюстрация к син- тезу нейрона второго слоя двух- слойной нейронной сети при не- полностью определенной логичес- кой функции е(у) проксимации первого порядка на неполном наборе перемен- ных, определяемых видом раз- деляющей поверхности, пока- занной на рис. 13.16 (табл. 13.7). Таблица 13.7 Z 0 1 2 3 4 5 6 7 У, 1 1 1 1 1 -1 -1 1 -1 1 1 1 -1 1 -1 1 У1_ -1 -1 -1 -1 1 1 1 1 е 1 1 1 - -1 -1 1 -1 Таким образом, общая схема синтеза нейрона методом ми- нимизации функционала заключается в следующем (переход к каждому следующему пункту обусловлен нереализуемостью логической функции): 1) определение характеристического 334
вектора b; 2) определение порога b0; 3) применение аппрокси- мации второго порядка и т.д. Вполне очевидно, что изложенный метод синтеза нейро- на эквивалентен обычным методам синтеза нейронных сетей, настраивающихся по разомкнутому циклу, при учете выс- ших моментов входного сигнала нейронной сети. Особенность его заключается в том, что здесь гиперплоскость, реализуе- мая нейроном, проводится с учетом высших моментов (по разомкнутому циклу), а раньше, при учете высших момен- тов, проводилась соответствующая нелинейная гиперповерх- ность. В данном случае видно, что при аппроксимации пер- вого порядка характеристический вектор есть вектор разде- ляющей поверхности проведенной посреди центров двух клас- сов (это вектор есть полусумма векторов математических ожиданий первого и второго класса). 13.4.3. Синтез нейрона по таблицам пороговых функций Достаточно большое внимание, которое выше было уде- лено синтезу нейрона второго слоя многослойной нейронной сети из нейронов с двумя решениями, объясняется характер- ными особенностями, возникающими при оперировании в дво- ичном пространстве выходными сигналами нейронов первого слоя. В принципе для синтеза нейрона второго слоя может быть применен любой из итерационных методов настройки по замкнутому циклу, разработанный в гл.9. Синтез нейрона по таблицам пороговых функций [13.5] осно- ван на использовании таблиц характеристических векторов ло- гических функций. Как указано в [13.5], в тех случаях, когда реализация логической функции на одном нейроне возможна, использование таблиц позволяет получить оптимальные (в смыс- ле минимума суммы весов и порога) параметры нейрона. Метод синтеза нейронов по таблицам пороговых функций применим в том случае, когда число нейронов в первом слое нейронной сети не превышает семи. Необходимо отметить, что для боль- шинства инженерных задач это вполне приемлемо, так как гиперповерхность, составленная из кусков семи гиперплоскос- тей, является достаточно гибкой даже в двухслойной нейрон- ной сети. Процесс получения таблиц характеристических век- торов и соответствующих векторов весовых коэффициентов ней- рона второго слоя нейронной сети подробно описан в [13.5]. Про- 335
цедура синтеза нейрона, имеющего до семи входов, состоит в следующем: 1. Определяем характеристический вектор Ь. 2. Образуем убывающую последовательность абсолютных величин | | (г = 0, ..., коэффициентов характеристичес- кого вектора логической функции (слева направо) и проверя- ем ее наличие в соответствующей таблице. Если такой пос- ледовательности в таблице нет, то данная логическая функ- ция не реализуется на одном нейроне и процедура синтеза заканчивается. 3. Если последовательность найдена в таблице, то данная логическая функция реализуема на одном нейроне. Вектор весовых коэффициентов а нейрона второго слоя нейронной сети находим следующим образом. Выписываем последовательность | а( |, смежную с последовательностью | Ь. | в таблице. Затем делаем перестановки и изменения знаков а{ в этих последова- тельностях в точном соответствии с теми перестановками и изменениями знаков, которые делались в векторе Ъ для на- хождения его канонического представления в таблице. В ре- зультате получаем /^+1 элементов af = (г'о, ..., Нг), которые представляют собой весовые коэффициенты нейрона второго слоя нейронной сети. 13.5. Алгоритм обучения второго и третьего слоев нейронов трехслойной нейронной сети Задача обучения второго и третьего слоя трехслойной ней- ронной сети, если первый слой является обучаемым, является самостоятельной задачей обучения двухслойной нейронной сети при двоичных входных сигналах. В данном параграфе рассмат- риваются два метода построения двух выходных слоев трех- слойной нейронной сети: построение в виде порогово-дизъюн- ктивной сети [13.5] и построение в виде двух слоев нейронов с настраиваемыми коэффициентами. Исходными данными для синтеза порогово-дизъюнктивной сети является полностью определенная логическая функция е(у). Синтез порогово-дизъюнктивной сети проводится в сле- дующем порядке: 1. Выполнение процедуры Квайна-Мак-Класки над функ- цией е(у), пока не получим всех ее простых импликантов. 2. Находим все общие пересечения (центры тяжести двух или более простых импликантов и объединяем в звезды те 336
простые импликанты, которые имеют общий центр тяжести. Таким образом, звездой является объединение нескольких простых импликантов, имеющих общий центр тяжести. 3. Находим характеристические векторы каждой звезды, полученной на предыдущем этапе, и проверяем эти звезды на реализуемость на одном нейроне (любым из методов, изло- женных в предыдущей главе). 4. Для каждой звезды, нереализуемой на одном нейроне, находим всевозможные подзвезды. При этом подзвезда опреде- ляется как реализуемое на одном нейроне подмножество звез- ды, которое не является подмножеством любой другой звезды. 5. Дополняем перечень простых импликантов реализуемы- ми на одном нейроне звездами и подзвездами, найденными в пп. 3, 4, и отмечаем наборы, покрываемые каждой записью этого списка. 6. Выбираем наименьшее число записей, покрывающих все единицы функции е(у). Линейные пороговые элементы, реализующие эти записи, составляют либо первый слой по- рогово-дизъюнктивной сети, либо каскадную сеть [13.5], эк- вивалентную данной порогово-дизъюнктивной сети. Метод нахождения подзвезд заключается в следующем: 1. Определяем все импликанты, которые имеют пересече- нием центр тяжести рассматриваемой звезды. 2. Эти импликанты вместе с простыми импликантами звез- ды рассматриваются затем во всех возможных комбинациях, вычисляются их характеристические векторы и затем осуще- ствляется их проверка на реализуемость на одном нейроне. Такая процедура должна осуществляться при начальном рас- смотрении групп, покрывающих наибольшее число единиц, а затем необходимо переходить к группам, покрывающим мень- шее число единиц. Этот метод является достаточно громоздким в том случае, когда число простых импликантов звезды велико. Поэтому можно использовать другой метод нахождения подзвезд. 1. Если звезда, нереализуемая на одном нейроне, состоит из простых импликантов, то необходимо рассмотреть все груп- пы этих простых импликантов, взятых по (G-1) в группе, и проверить каждую такую группу на реализуемость на одном Нейроне. 337
2. Если по крайней мере одна из таких групп реализуема на одном нейроне, то нет необходимости рассматривать дру- гие разбиения данной звезды, так как она может быть реали- зована на двух нейронах. 3. Если ни одна из этих групп не реализуема на одном ней- роне, то повторяем проверку реализуемости на одном нейро-, не групп простых импликантов, взятых по (G-2). 4. Эта процедура выполняется до тех пор, пока не будут исчерпаны все простые импликанты. Группы, полученные на этом этапе и реализуемые на одном нейроне, будут подзвез- дами. Отметим, что этот метод определения подзвезд не обя- зательно приводит к минимальной порогово-дизъюнктивной сети нейронов. В случае не полностью определенной логической функции е(у) неопределенность задания значений логической функции на некоторых наборах переменных можно использовать для минимизации общего числа нейронов порогово-дизъюнктив- ной сети. Процедура синтеза в данном случае заключается в следующем: 1. Доопределяем функцию е(у) на всех наборах переменных, где она принимает произвольные значения. 2. Выполняем процесс синтеза порогово-дизъюнктивной сети, изложенный для случая полностью определенной логической функции до тех пор, пока не будет установлено, что все звез- ды и подзвезды реализуемы на одном нейроне. 3. Составляем импликатную таблицу, число строк которой равно числу звезд, позвезд и простых импликантов, получен- ных на втором шаге процедуры синтеза, а число столбцов - числу наборов функции Е(у). При составлении такой таблицы все произвольные значения функции е(у) принимаются рав- ными (-1). 4. Выбирается наименьшее подмножество записей в табли- це, которое покрывает все единицы функции е(у). При этом автоматически доопределяются все ее произвольные значе- ния. На этом процесс синтеза заканчивается. Построение двух выходных слоев нейронной сети в виде сети из нейронов с настраиваемыми коэффициентами может быть осуществлено на основании следующих соображений. Выше было показано, что два выходных слоя нейронов трехслойной нейронной сети являются сами по себе самостоя- 338
тельной системой распознавания принадлежности областей ис- ходного пространства признаков, образованных пересечением гиперплоскостей, к первому или второму классу. В данном слу- чае признаки являются двоичными, а мерность пространства признаков равна числу нейронов первого слоя многослойной нейронной сети. Именно поэтому для обучения нейронов второ- го слоя трехслойной нейронной сети можно применить любой из методов, изложенных выше в п. 13.1 и 13.2. При этом выби- рается число нейронов второго слоя для обеспечения заданной вероятности распознавания принадлежности областей исходно- го пространства признаков тому или иному классу. Эта вероят- ность довольно просто связывается общей вероятностью пра- вильного распознавания при наличии результатов обучения нейронов первого слоя трехслойной нейронной сети. После обу- чения нейронов второго слоя в данном случае древообразная логическая структура третьего слоя может быть проверена на реализуемость на одном нейроне третьего слоя. 13.6. Общая методика последовательного синтеза многослойных нейронных сетей Изложенная выше методика последовательной настройки трехслойной нейронной сети приводит к обобщению на много- слойные нейронные сети следующим образом: 1. По исходным выборкам настраивается первый слой ней- ронов многослойной нейронной сети. При этом выбираются число нейронов и настраиваемые коэффициенты. 2. Получающаяся в результате настройки первого слоя ней- ронов логическая функция проверяется на реализуемость на одном нейроне. Если данная функция реализуема на одном нейроне, то на этом процесс синтеза сети заканчивается. 3. В случае отсутствия реализуемости логической функции на одном нейроне аналогично п.1 производится обучение ней- ронов второго слоя. При этом выбирается число нейронов и настриваются коэффициенты. 4. Получающаяся в результате настройки второго слоя ней- ронов... (продолжение аналогично п.2). Данная методика легко обобщается на случай многослой- ной сети из нейронов с континуумом решений. При этом необ- ходимо отметить следующее. В случае сети из нейронов с кон- тинуумом решений число образов первого и второго класса 339
сохраняется при переходе от слоя к слою. При этом в обучен-, ной нейронной сети в каждом слое происходит как бы дефор-! мация распределений классов в смысле их разнесения. При этом критерием качества многослойной нейронной сети явля- ется уже не только вероятность правильного распознавания; на выходе нейронной сети, а функция изменения данной ве- роятности от слоя к слою. Таким образом, результатом применения предлагаемой методики синтеза многослойных нейронных сетей является чис- ло слоев нейронной сети, число нейронов в каждом слое и< величины настраиваемых коэффициентов. Данная методика по- зволяет, следовательно, выбрать на этапе настройки опти- мальную или близкую к оптимальной структуру разомкнутой сети в виде многослойной нейронной сети. Отметим, что в! рассмотренной методике обучения многослойной нейронной сети- на каждом шаге обучения вместо нейрона может быть любая! из структур, рассмотренных в гл.9. Последовательная процедура настройки достаточно простс обобщается на режим самообучения. В этом случае критерш оптимальности при проведении очередной гиперплоскости ест] критерий минимума специальной средней функции риска. 13.7. Метод обучения нейронов первого слоя многослойной нейронной сети с континуумом признаков В данном параграфе кратко рассмотрен алгоритм обуче- ния первого слоя многослойной нейронной сети с континуумов признаков, а также пути его физической реализации. Методь обучения подобных нейронных сетей строятся по аналогии < рассмотренными выше методами обучения многослойных ней- ронных сетей с дискретным множеством признаков. Особен- ность обучения многослойных нейронных сетей с континуумол признаков проявляется при обучении нейронов первого слоя. В простейшем случае выражения для функций a(i) и коэффи- циентов а0 имеют следующий вид: a(i) = m/i) - m2(i); 340
При наличии набора изображений x^i.n) и x2(i,n) первого и второго класса функции m^i) и m2(i) получаются 1 м тк(1) = м^ xk(i,n), к = 1, 2. iV1 П=1 Реализация функциональных преобразований, указанных выше, может быть осуществлена фотографическими метода- ми в случае двумерного i. Результатом обучения в данном слу- чае должны явиться фотомаски, реализующие функции an(i), моделирующие световой поток x(i,n) перед интегрированием по i (см. гл.4), и коэффициенты а0. В случае одномерного i при распознавании кривых или электрических сигналов на фиксированном интервале наблю- даемые функции an(i) и коэффициенты а0 достаточно просто технически получаются на аналоговых средствах. Методика последовательного обучения слоя нейронов с кон- тинуумом признаков остается той же, что и для дискретного множества признаков. 13.8. Использование алгоритма настройки многослойных нейронных сетей с переменной структурой для решения задачи выбора начальных условий На рис.13.17 показана структурная схема программы, реа- лизующей процесс последовательного построения кусочно-ли- нейной разделяющей поверхности при выборе начальных усло- вий. Ниже обсуждается идея использования его для выбора начальных условий при обучении многослойных нейронных се- тей с фиксированной структурой по замкнутому циклу. Посколь- ку мы имеем дело с фиксированной структурой многослойной нейронной сети, в выше указанном алгоритме появляются ог- раничения на число нейронов, по крайней мере, первого слоя. При этих ограничениях и при конечном объеме выборки алго- ритм может не сойтись (в смысле получения нулевой ошибки в подобластях). Такое условие сходимости алгоритма не являет- ся строгим, если его рассматривать без оценки правдоподобия получения нулевой ошибки на данной выборке, т.е. без статис- тических методов вычисления вероятности ошибочного распоз- навания, но при выборе начальных условий мы можем этим пренебречь. После применения алгоритма остается возможность 341
Рис.13.17. Структурная схема программы, реализующей алго- ритм с переменной структурой улучшить положение разд< ляющей поверхности, н< страивая последователь: каждый нейрон по замкну тому циклу с проверкой ка чества обучения для все кусочно-линейной поверх» сти. Ввиду неэкономичное! использования этого алп ритма на полном объеме в: борки при выборе началь ных условий (в худшем слу чае придется проводить на стройку по замкнутому цик лу 2Н1 раз, т.е. 2HjX М ите раций, где Hj— число ней ронов первого слоя; М - объем всей выборки) имев' смысл уменьшать объе> подвыборки, используемы! при выборе начальных ус ловий, до некоторого оп тимального. Одним из методов построения такой подвыборки являете; детерминированный выбор, например, К (либо 2К, ЗК и т.д. образов, каждый из которых принадлежит одному из К клас- сов образов. Выбор образов одного класса можно производит! случайно, либо в качестве представителя класса брать еп характерный образ (например, математическое ожидание). I случае предельного уменьшения объема предвыборки в зави- симости от наличия либо отсутствия априорной информации мы переходим к детерминированному либо случайному выбо- ру начальных условий, соответственно. 13.9. Об алгоритме самообучения многослойных нейронных сетей с переменной структурой Изложенные методы настройки многослойных нейронны сетей с пременной структурой применимы к решению задач: самообучения (кластеризации), когда на входе нейронной сет: имеется случайная выборка с многомодальным распределе нием без указания отнесения образов к тому или иному клас 342
су. В этом случае многослойная нейронная сеть настраивает- ся на распознавание двух классов образов: - первый класс представляет собой исходную выборку; - второй класс является искусственно генерируемой случай- ной выборкой с равномерной функцией распределения вероятнос- тей в диапазоне изменения признаков. Размерность пространства признаков выборок первого и второго класса совпадает. Литература 13.1. Галушкин А.И. Многослойные системы распознавания образов. -М., МИЭМ, 1970. 13.2. Галушкин А.И. Синтез многослойных систем распознавания образов. -М., Энергия, 1974. 13.3. Грачев Л.В., Симоров С.Н. Статистические исследования мно- гослойных нейронных сетей с переменной структурой. // Ней- рокомпьютер -№ 2, 1992, с. 5-8. 13.4. Герасимова А.В., Грачев Л.В. К вопросу о представительности обучающей выборки для парадигмы нейронных сетей с пере- менной структурой. // Нейрокомпьютер -№3,4, -1992, с. 3-6. 13.5. Дертоузос М. Пороговая логика. ~М., Мир, 1967, 343 с. 343
Глава 14.Выбор информативных признаков в многослойных нейронных сетях 14.1. Постановка задачи выбора информати$Нь1Х признаков в режиме обучения Проблема выбора информативных признаков яьЛяется са мостоятельной в теории распознавания образов и а настояще время не решена до конца. В данной книге кратко изложен! существующие подходы к проблеме выбора информативны признаков, а также вводятся так называемые структурны, методы, основанные на методах синтеза многослойных систе! распознавания образов [14.1, 14.2]. Основой предлагаемого подхода к проблеме выбОра инфОр. мативных признаков являются изложенные ниже три тезиса 1. Бытующее представление о возможности пРедваритель- ного выбора информативных признаков до этапа настройк многослойных нейронных сетей является неверны^, так как ] любой из известных процедур выбора прямо или косвен» присутствует настроенная многослойная нейронная Сеть q эт0] точки зрения всякая процедура выбора информатиЙНЬ1х п знаков является субъективной, где субъект - это многослой ная нейронная сеть в том или ином формальном х^ди не(коп мальном представлении. 2. Критерием информативности признаков мож^т СЛужит1 только критерий первичной оптимизации, принятий для ной системы. Применение вместо критериев первичной опти- мизации аппроксимирующих критериев, таких как экстремум дивергенции или средней условной энтропии, вноСит допол_ нительные ошибки, сужает границы их применимоСти и дол_ жно быть обосновано количественно. 3. Необходимо выбирать такие типы многослойных нейрон- ных сетей, которые в процедуре выбора информат!1ВнЬ1х ПрИ_ знаков являются наименее субъективными, т.е. те> которые обеспечивают оптимальные решения в достаточно щИрОКИх пределах изменения характеристик входного сигнала MHOroJ слойных нейронных сетей (число классов, сложность распре-* делений внутри классов). Первоначально задача выбора информативных признаков' в режиме обучения ставилась и ставится во многих работах как задача выбора из N исходных признаков (V^coi^ Призна_ 344
ков, обеспечивающих максимальную вероятность правильно- го распознавания. Эта постановка может быть интерпретиро- вана в другой форме. Из N исходных признаков выбрать то минимальное число признаков, которые обеспечивают за- данную вероятность правильного распознавания- Определим в данном случае критерий информативности признаков. Пред- положим, что НС0, HCj, НС2 (нейронная сеть) соответственно с и признаками (рис.14.1) по некоторой вы- борке обеспечивают вероятности правильного распознавания соответственно Р, Pt и Р2. Если Р1>Р2, то группа из при- знаков будет более информативной по сравнению с группой из N2 признаков. В этом случае использование группы из N2 признаков будет целесообразным, если приращение вероят- ности правильного распознавания ДР = Р - р оправдано для конструктора тем усложнением многослойных нейронных се- тей, которое имеет место при прибавлении группы из N2 при- знаков. Таким образом, в данном случае определяется основ- ной критерий выбора информативных признаков. Данная по- становка задачи выбора информативных признаков оправдана большим кругом практических задач, в которой отдельные группы признаков формируются различными (зачастую, не- зависимыми) измерителями, и перед разработчиком многослой- ных нейронных сетей встает задача минимизации числа изме- рителей - сжатие исходного описания с целью упрощения как измерительного устройства, так и самой многослойной ней- ронной сети. В частности, при решении задачи сравнительной оценки информативности признаков принимаются путем ана- лиза вероятности правильного распознавания Рправ. получен- ные для четырех групп признаков: (хг _, xN), ((^, -> п ХД Г*...хн) п ((ХР xN) п (х,., х.)). Такая постановка зада- и> как выбор Nf признаков из N, обеспечивающих, в част- ности, максимальную вероятность правильного распознава- Ро Рг 0,95 0.9 0,85 S,hc, Рис. 14.1. Выбор информатив- ных признаков в исходном про- странстве признаков НС2 О)нс0 N2 345
ния, по нашему мнению, не может быть решена без решение задач в указанных выше постановках. Рассмотрение многослойных нейронных сетей и общее пред ставление о работе человека на этапе распознавания приво дят к несколько иной постановке задачи выбора информатив ных признаков, которая заключается не в минимизации ис ходного описания, а в минимизации промежуточных описа ний, т.е. «сжатий» самой многослойной нейронной сети, в т< время как исходное описание фиксировано. В частном случае в многослойных нейронных сетях с полными связями задач, заключается в минимизации числа линейных пороговых эле. ментов в каждом слое, причем описанный выше критери! минимизации остается в силе. Обе указанные выше постанов ки задачи выбора информативных признаков объединяются 1 общем структурном подходе к проблеме выбора информатив ных признаков, когда первый слой связей считается априор] организованным так, как показано на рис. 14.1. В связи с рассмотренными выше постановками задачи j критериями выбора информативных признаков на рис.14.: Рис. 14.2. Классификация методов выбора информативных признаке! 346
представлена схема, отражающая пути решения задачи вы- бора информативных признаков. Данная схема отражает лишь основные пути, не претендует на полноту и ставит своей целью введение структурных методов выбора информатив- ных признаков. На уровне решения задачи выбора информа- тивных признаков исходного пространства основное разви- тие получили подходы, связанные с дивергенцией и услов- ной энтропией, а также с некоторыми упрощенными их оцен- ками. К ним относятся также подходы с применением фак- торного и дисперсионного анализа. Основной задачей данной главы является рассмотрение структурных методов выбора информативных признаков, сущ- ность которых заключается в оценке информативности при- знаков по результатам настройки многослойных нейронных сетей (структуре, коэффициентам и значению функционала качества). При решении задачи минимизации структуры на- строенной многослойной нейронной сети метод минимизации соответственно будет зависеть от способа настройки много- слойных нейронных сетей. 14.2.0 структурных методах выбора информативных признаков в многослойных нейронных сетях с фиксированной структурой Структурные методы выбора информативных признаков предполагают оценку информативности признаков исходно- го пространства по параметрам и структуре оптимально настроенной многослойной нейронной сети. В данном пункте структурные методы оценки информативности иллюстри- руются на примере нейрона. Показывается возможность оцен- ки информативности признаков по соответствующим опти- мальным коэффициентам нейрона. Естественно, что нейрон является практически простейшей многослойной нейронной сетью; поэтому в соответствии с тезисом 1, изложенным в п.14.1, данная процедура выбора информативных призна- ков имеет и свои ограничения в плане субъективизма оцен- ки информативности признаков. Ниже будут указаны и дру- гие ограничения, присущие нейрону в рассматриваемой процедуре. Остановимся на многослойных нейронных сетях типа нейрона и нейрона со слоем нелинейных или нелинейно-случайных преоб- разований (гл.1, 2). Многослойная нейронная сеть в виде нейрона 347
является оптимальной для совокупностей образов, распределен ных по многомерным нормальным законам с равными ковариаци онными матрицами. Для случая единичных (с точностью до посто явного множителя) ковариационных матриц степень пересечение классов по каждому из признаков определяется соответствую щим углом наклона оптимальной линейной разделяющей поверх ности (рис. 14.3). На рис. 14.3 круги — линии равных значений плот ностей Д(х) и /2(х). Если считать, как и выше, вероятность пра вильного распознавания основным критерием информативное ти признаков, то в данном случае легко показать, что г-й ко эффициент оптимальной ли О Рис. 14.3. К доказательству воз- можности использования коэффи- циентов нейронов в качестве оце- нок информативности признаков неинои разделяющей поверх ности может служить относи тельной оценкой информатив ности г-го признака. : Доказательство проводит ся двумя этапами. Сначала дс называется монотонность в некотором интервале измене ния вероятности правильно! распознавания в зависимост от угла наклона гиперплоскс сти к оси, соответствующе выбранному признаку, зате1 монотонность изменения дан ного угла в зависимости от величины соответствующего коэф фициента линейной разделяющей поверхности. В случае ненормальных распределений коэффициенты оп тимального нейрона также могут служить оценкой инфор мативности признаков, но лишь на уровне такой структур! разомкнутой многослойной нейронной сети, как нейрон. В слу чае ненормальных распределений и нелинейной многослой ной нейронной сети, представляемой в виде последователь ного соединения слоя нелинейных преобразований с фикси рованными коэффициентами и нейрона, коэффициенты ней рона в оптимальной нелинейной многослойной нейронной сет являются оценками информативности сложных признаке! определяемых слоем нелинейных преобразований. Аналоги1 ный вывод можно сделать также относительно трехслойнс го персептрона Розенблатта. 348
Минимизация структуры при рассмотрении алгоритмов настройки многослойных нейронных сетей с фиксированной структурой и множество этапов настройки с заданием слу- чайных начальных условий является самостоятельной зада- чей. При этом возникает необходимость усреднения резуль- татов настройки по множеству этапов выброса случайных на- чальных условий для поиска локально оптимальных значе- ний настраиваемых коэффициентов. При этом, несмотря на то что настройка многослойных нейронных сетей произво- дится при фиксированной структуре, на каждом этапе выб- роса случайных начальных условий возможно проведение минимизации числа нейронов в слоях путем выбрасывания нейронов с одинаковыми (приближенно с точки зрения реак- ции на входные образы) величинами коэффициентов, полу- чающихся из-за избыточности фиксированной структуры мно- гослойной нейронной сети при обеспечении ею локального экстремума средней функции риска. Сравнение указанных минимизированных структур и локально оптимальных зна- чений средней функции риска дает непосредственное прави- ло минимизации числа нейронов в многослойной нейронной сети, настраивающихся по замкнутому циклу при фиксиро- ванной структуре. Отдельно необходимо остановиться на вопросе миними- зации числа нейронов в слое при независимом обучении ней- ронов с выбором для каждого нейрона случайных начальных условий. После получения результатов независимого обуче- ния нейронов первого слоя, обеспечивающих локальный экстремум функционала оптимизации, задача выбора по ре- зультатам настройки одного из Н1 нейрона, обеспечивающе- го экстремальное значение функционала оптимизации, яв- ляется тривиальной. Задача выбора из Нг нейронов, обеспечивающих экстремальное значение функционала оп- тимизации, является трудной задачей, возможно неразре- шимой в такой постановке (за исключением пути, связанно- го с очевидной процедурой полного перебора). Это достаточ- но легко иллюстрируется на примере рис. 14.4, в котором Для каждого варианта выбора порогов (параметров и струк- туры первого слоя нейронов) указана в процентах величина 349
Рис. 14.4. Пример минимизации числа нейронов первого слоя мно- гослойной нейронной сети: 1 - пер- вый класс; 2 - второй класс Рис. 14.5. Иллюстрация к свой- ству локальной оптимальности про- цедуры выбора информативных при- знаков: 1 - первый класс; 2 - второй класс вероятности ошибк: На рис. 14.4 цифры оке ло стрелок указываю номер класса. При обо? щении на случай слоя ных и не известных в of щем виде распределени /'(х/е) этот подход такж демонстрирует в некотс рой степени свою ограни ченность, однако эт ограниченность полное тью объясняется с пози ций тезиса о невозмож ности выбора информа тивных признаков д окончания этапа настрой ки. Поясним это на конк ретном примере. Н рис. 14.5 представлен! линии равных значени /'(х/е) в многомодально! случае и показаны четы ре положения линейно; разделяющей поверхнос ти, обеспечивающие ло кальный экстремум Р Отсюда следует, что пр; фиксированной структу ре разомкнутой много слойной нейронной сет; любая оценка информа тивности будет не толь ко субъективной, но ; локальной, так как настроенная многослойная нейронная сет с фиксированной структурой обеспечивает лишь локальны экстремум функционала оптимизации. Эти рассуждения спра ведливы и для режима самообучения. 350
14.3. Выбор информативных признаков исходного пространства с помощью многослойных нейронных сетей с последовательными алгоритмами настройки нейронов первого слоя Основной вопрос состоит в том, как можно оценить относи- тельную величину вероятности правильного распознавания по структуре обученной многослойной нейронной сети и резуль- татам обучения. Сравниваются в плане информативности две группы признаков. В данном случае можно привести несколь- ко методов оценки информативности признаков. 1. При использовании многослойных нейронных сетей с пос- ледовательными алгоритмами обучения нейронов первого слоя на некоторой конечной обучающей выборке обеспечивается заданная величина РПрав=С0^>в частности Рправ=1- Тогда, если первая многослойная нейронная сеть с характеристиками Nv Р1прав имеет больше нейронов в первом слое, чем вторая много- слойная нейронная сеть с характеристиками N2, Р2прав= ^1прав’ группа из TVj признаков менее информативна, чем группа из N2 признаков. Это следует из объективной необходимости боль- шего числа нейронов в первом слое многослойной нейронной сети при большем пересечении классов. Подобный способ оценки информативности признаков исходного пространства верен только при определенных ограничениях, рассмотренных ниже. 2. Предположим, что на каждом шаге обучения первого слоя обеспечивается минимальное значение ошибки распознавания. В результате настройки многослойной нейронной сети имеем кривые изменения Рправ от (числа нейронов первого слоя) на совокупностях признаков (НСХ) и N2 (НС2) (рис. 14.6,а). Рассмотрение кривых показывает, что в данном случае груп- па признаков менее информативна, чем группа признаков N2. Здесь рассматривается случай, когда превышение инфор- мативности для N2 по сравнению с наблюдается при любой структуре (Н^) многослойной нейронной сети. Данная методика выбора информативных признаков включает в себя изложен- ную в п.1 как частную. 3. При наличии достаточно большой обучающей выборки за- висимость Рправ (HJ имеет характер, изображенный на рис. 14.6, б. Достаточное приближение кривой Рправ к асимптоте (точки 1 и 2) на рис. 14.6, б означает переход от статистического режи- ма обучения к детерминированному, когда многослойная ней- ронная сеть заключает в отдельные подобласти совокупности 351
в г Рис. 14.6. Выбор информативных признаков с помощью многослой ной нейронной сети с переменной структурой образов с малым числом членов. В данном случае оценка ин формативности групп признаков должна производиться пути сравнения установившихся значений зависимостей Р (Н^. 4. В случае неоптимального алгоритма настройки на каж дом шаге первого слоя многослойной нейронной сети в обще! случае имеет место картина, изображенная на рис.14.6, < В данном случае (более общем, чем предыдущие) оценка ин формативности производится либо как ранее в п.З, либо npi любом Нг с оговоркой, что оценка информативности произво дится при данном алгоритме настройки и данном числе ней ронов в первом слое. 5. Выше принималось, что вся исходная выборка исполь зуется на этапе обучения и оценки информативности, и н учитывалась возможная непредставительность обучающе: выборки. Для учета представительности обучающей выборк: необходимо произвести обучение на части ДЛ^ всей исходно: выборки. Зачастую для проверки представительности необхо димо выбирать несколько интервалов АЛТ и помещать их : различных участках исходной выборки. Распознавание обу ченной многослойной нейронной сети производится на полно! объеме обучающей выборки. Анализ результатов обучения (Hv и распознавания Ррасп (HJ (рис. 14.6, г) позволяв оценить стационарность и представительность обучающей вы борки, а также информативность отдельных групп признаков 352
14.4. Минимизация числа нейронов Процесс последовательности настройки (гл.13) нейронов пер- вого слоя многослойной нейронной сети характеризуется гра- фом, являющимся прадеревом, каждой вершине которого соот- ветствует нейрон с некоторой величиной приращения Рправ, име- ющей место при введении данного нейрона. Данный граф явля- ется исходной информацией для указанной выше процедуры минимизации. Граф может быть минимизирован в одной из сле- дующих постановок: при заданной величине Рправ минимизиро- вать число вершин графа, при заданном числе вершин с ветвле- ниями выбором структуры прадерева обеспечить максималь- ную величину Рправ. На рис. 14.7 представлена иллюстрация исходной информа- ции для минимизации прадерева. Слева в кружке указывается номер вершины нейрона в исходном графе. Справа в кружке указан номер вершины нейрона в результирующем оптимизи- рованном графе. Номер каждого ребра графа совпадает с номе- ром делимой области, причем нумерация областей производит- ся следующим образом (гл.13). Область с номером у делится на две подобласти с номерами 2у и 2у+1, где подобласть с номе- ром 2у относится к первому классу, а подобласть с номером 2у+1 - ко второму. В качестве правила выбора очередной по- добласти для деления зачастую наиболее целесообразно взять правило выбора той подобласти, которая содержит наиболь- [0,01J] 4 8 [0,025] 40 5 0 [0,008 [0,035] [-0,021](io|id 2) [-0,018] [0,048] [-0,0125] 42 *43 э) [0,021] Рис. 14.7. Минимизация числа нейронов первого слоя многослой- ной нейронной сети с переменной структурой 12-353 353
шее число векторов первого и второго класса. Пунктиром] графе показаны те подобласти, в которых имеется сравнителы незначительное число векторов. Около каждой вершины гра< в квадратных скобках указывается приращение Рправ, обесг чиваемое введением соответствующего нейрона. Это прираш ние может быть и отрицательным из-за неоптимальности ( Рпраа) мет0Да настройки отдельного нейрона. Оптимизация прадерева происходит следующим образо! 1) в случае первого ветвления (нейрон 3 и нейрон 8 в j ходном графе) сравниваются приращения Рправ. К оптимие рованному графу относится нейрон с максимальным прирап нием Рправ (на графе нейрон 3); 2) далее сравниваются по величине ДРправ нейроны даш го и последующих ветвлений (нейрон 8 и нейрон 4) и так: выбирается нейрон с максимальным значением ДРправ и вкл чается в оптимизированный граф; 3) данный процесс продолжается до тех пор, пока сум приращений вероятностей правильного распознавания не ; стигнет заданной величины Рправ или пока число вершин гр фа не достигнет заданной величины. На рис. 14.7, а данная процедура приводит к оптимально обходу вершин графа так, как обозначено в кружках (вер! нах) справа. На рис. 14.7, б представлен результат оптимиза: графа рис. 14.7, а для двух критериев: Рправ>0,7 и Рправ>0,73 оптимальном графе порядок обхода вершин не совпадает с с ходом вершин на этапе обучения. Исходными данными для об чения нейрона второго слоя многослойной нейронной сети, к указывалось в гл. 13, являются логическая функция, дополне ная определенным образом и составляющая обучающую выбо ку и значение вероятности ошибки, соответствующее кажд< подобласти (т.е. каждой реализации логической функции). Идея применения последовательных алгоритмов для об чения нейронов второго слоя заключается в использоваш последовательных алгоритмов с учетом для каждого обуча! щего вектора веса, определяемого Рош в подобласти, соотве ствующей данному вектору. При обучении ошибка в подобла ти подсчитывается как сумма ошибок для всех векторов, н правильно отнесенных к тому или иному классу. Идея мин: мизации числа нейронов второго слоя и последующих ело многослойной нейронной сети в данном случае остается т< же, что и для нейронов первого слоя. Необходимо лишь отм 354
тить, что чем больше номер слоя, тем менее актуальной ста- новится задача минимизации числа нейронов в слое ввиду специфики структуры разомкнутой многослойной нейронной сети, связанной с уменьшением числа нейронов от первого слоя к выходу вследствие сжатия информации. 14.5.0 выборе информативных признаков в многослойных нейронных сетях в режиме самообучения В режиме самообучения справедливы все постановки зада- чи выбора информативных признаков, описанные в п.14.1. Ме- няются лишь критерий выбора информативных признаков. Если в режиме обучения таким критерием является значение сред- ней функции риска (в частном случае, вероятности правильно- го распознавания), то в режиме самообучения критерием ин- формативности признаков является значение специальной сред- ней функции риска. С данной точки зрения в режиме самообу- чения роль структурных подходов к выбору информативных признаков возрастает по сравнению с режимом обучения, так как, с одной стороны, эта задача, как нам известно, еще не была ранее поставлена, с другой стороны, хотя в принципе и возможна, является трудной задачей обобщения на случай са- мообучения подходов к выбору информативных признаков, свя- занных с дивергенцией, средней условной энтропией, а также упрощенными оценками. Достаточно просто методологически обобщаются на режим самообучения методы выбора информа- тивных признаков, описанные в п.14.3 для режима обучения и систем распознавания с переменной структурой, а также соот- ветствующие методы минимизации структуры многослойных систем. Минимизация структуры систем распознавания, имею- щих при настройке фиксированную структуру, должна произ- водиться путем анализа структуры настроенной многослойной нейронной сети и полученного в результате настройки значе- ния специальной средней функции риска. Литература 14.1. Галушкин А.И. Синтез многослойных систем распознавания образов. - М., Энергия, 1974, с.367. 14.2. Галушкин А.И. Итоги развития теории многослойных нейрон- ных сетей (1965-1995 гг.) в работах Научного центра нейроком- пьютеров и ее перспективы. М., 1996. 12* 355
РАЗДЕЛ 4. НАДЕЖНОСТЬ И ДИАГНОСТИКА НЕЙРОННЫЕ СЕТЕЙ* Глава 15. Надежность нейронных сетей 15.1. Методы исследования функциональной надежности нейронных сетей Первые попытки оценки функциональной надежности не ронных сетей были экспериментальными [15.1], либо качестве ными [15.2]. Качественные оценки показали, что сети нейр подобных элементов обладают логической избыточностью [15. [15.3], т.е. отказы некоторых элементов не вызывают появл ния ошибки на выходе всей сети. Попытки аналитического исследования надежности нейро ных сетей сталкиваются с математическими сложностями, ряде работ, например, в [15.4 -15.6], говорится о невозмоз ности (по крайней мере, общепринятыми методами) полно аналитического исследования нейронных сетей. В этих раб тах для частного вида нейронных сетей для простейших сл чаев на основе теории марковских процессов строился грг переходов сети при отказах отдельных нейронов, записью лась и решалась соответствующая система дифференциал ных уравнений. Недостатком такого подхода является то, ч даже для простых графов оказывается затруднительным яв: разрешить данную систему дифференциальных уравнений. В работе [15.7] рассматривается надежность нейронной се' в смысле ее логической устойчивости. Логическая устойчивое исследуется с помощью карт устойчивости, которые мож: расписать в явном виде лишь для простейших сетей, напр мер, триплета порогового элемента (ПЭ). Для практическо исследования более сложных сетей этот метод не пригоден. В работе [15.8] для специфических нейронных сетей выв дились эмпирические выражения для надежности такой се1 при ограничениях на ее сложность (под сложностью поним лась суммарная нагруженность нейронов сети по входам). П лученные вспомогательные эмпирические выражения и чи ленный расчет по ним не могут претендовать на объективна оценку функциональной надежности рассматриваемой сети П * Материал данного радела написан совместно с Фоминым Ю.И. 356
В работах [15.9] - [15.12] делается попытка исследовать на- дежность одного нейрона с учетом того, что весовые коэффи- циенты, порог и значения входов - суть случайные величины. Даже в таком простом случае при принятых в работах допу- щениях авторам не удалось получить точный аналитический результат. Можно перечислить несколько недостатков мето- дики упомянутого исследования: все аналитические выклад- ки основывались на экспериментально полученной (для конк- ретной реализации нейрона на согласованной паре туннель- ных диодов) и затем аппроксимированной вероятностной ре- лейной функции нейрона (ВРФ); ряд промежуточных резуль- татов, например, математическое ожидание ВРФ в [15.11] был получен путем дополнительных упрощений ввиду математи- ческих сложностей; в конце концов полученное выражение может быть проинтегрировано лишь с помощью численных методов. Тем не менее, данное исследование, с нашей точки зрения, является наиболее успешным аналитическим иссле- дованием надежности нейрона, так как учитывает как функ- циональную структуру нейрона, так и вероятностную модель его функционирования. Попытка провести аналогичное иссле- дование надежности для многослойной нейронной сети для бо- лее простой вероятностной модели показывает невозможность разрешения поставленной задачи даже приближенно. Ввиду вышеизложенного можно сделать вывод либо о не- обходимости принципиально нового подхода в аналитическом исследовании надежности многослойных нейронных сетей, либо о необходимости экспериментального исследования таких се- тей с помощью методов Монте-Карло. Используя подход к многослойной нейронной сети как ли- нейной последовательностной машине в [15.13] аналитически исследуется надежность так называемого обобщенного поро- гового элемента. Новизна такого подхода заключается в том, что, любая комбинационная сеть нейронов (многослойная ней- ронная сеть с последовательными или перекрестными [15.14] связями) может быть реализована в виде слоя нейронов, а поскольку функциональная надежность слоя нейронов иногда сводится к надежности одного нейрона, то аналитическое ее исследование приобретает принципиальное значение. Экспериментальное исследование надежности может быть проведено на трех различных уровнях: схемотехническом, функ- 357
циональном и логическом. В исследовании, проведенном пп. 15.4,15.5, рассмотрены функциональный и логический уров! Экспериментальное исследование надежности делится на pj этапов, по числу классов отказов нейронов, существующих рассматриваемых многослойных нейронных сетях, или тех ] типов, которые наиболее часто встречаются в конкретной р ализации многослойной нейронной сети. Отказы нейронов д лятся обычно {15.15] на два класса: параметрические и катас рофические. Параметрический отказ нейрона определяется к< неисправность, вызванная постепенными изменениями весовь коэффициентов и порога под действием внешних факторов (и менение напряжения питания, изменение температуры, ст рение элементной базы и т.д.). Катастрофические отказы - э1 неисправности типа «обрыв» или «короткое замыкание». Методика экспериментального исследования параметричес кой надежности многослойных нейронных сетей, т. е. надежн сти при наличии параметрических отказов нейронов, заключ ется в следующем. Предполагается, что весовые коэффицие: ты всех нейронов и их пороги являются случайными величин ми, подчиняющимися нормальному закону распределения в роятностей с известными параметрами, которые моделирую ся с помощью метода Монте-Карло. Далее исследуется завис: мость вероятности безотказной работы многослойной нейронно сети, вычисленной на множестве всех возможных наборов вход ных значений при условии, что появления различных наборе равновероятны от параметров нормального распределения. Пс ложительным моментом такой методики исследования являет ся тот факт, что она позволяет не только исследовать шире кий класс многослойных нейронных сетей и сделать обобщат щие выводы, но и является инструментом оценки параметр: ческой надежности конкретных реализаций. Если в каждом конкретном случае возможно соотнести ко: кретные физические параметры с параметрами случайно распределения, то такое исследование на этапе синтеза мн гослойных нейронных сетей даст ответ: соответствует ли да: ная реализация предъявляемым требованиям или нет. Очевидно, что без исследования функциональной надел ности многослойных нейронных сетей при наличии катастр' фических отказов экспериментальное исследование будет не полным. Ввиду этого была разработана методика исследова 358
ния надежности для отказов типа логических констант на вхо- дах-выходе нейрона (константные неисправности). Исследо- вание основывается на последовательном моделировании для каждого нейрона всех типов отказов константного типа и вы- числении вероятности безотказной работы на множество всех наборов входных значений (при условии, что появление раз- личных наборов равновероятно). Такое исследование (для до- статочно больших сетей провести его без автоматизации ис- следования невозможно) позволяет выявить «потенциально опасные» отказы, т.е. отказы, которые ведут к сильному (по отношению к другим отказам) уменьшению вероятности бе- зотказной работы, а также выявить логическую избыточность исследуемой сети на классе константных неисправностей. По- лученные результаты позволяют предусмотреть на этапе про- ектирования какие-то меры, устраняющие возможность «по- тенциально опасных» отказов и учитывающие логическую из- быточность сети. Разработанная методика экспериментального исследования функциональной надежности позволяет получить некоторые ко- личественные характеристики надежности многослойных ней- ронных сетей и практическую возможность исследования надеж- ности конкретных реализаций многослойных нейронных сетей. 15.2. Исследование функциональной надежности восстанавливающих органов, выполненных в виде многослойных нейронных сетей Проблема обеспечения надежности цифровых устройств на любой логической основе, в том числе и на основе многослой- ных нейронных сетей, является в настоящее время актуаль- ной, ввиду усложнения структуры самих ЭВМ и увеличения сложности выполняемых ими функций. Особенно остро про- блема повышения надежности стоит для ЭВМ, работающих в невосстанавливаемом режиме (например, бортовые ЭВМ), т.е. с отсутствием возможности доступа к ЭВМ с целью ремонта. Первый отказ такой ЭВМ обычно бывает и последним, так как ведет к невыполнению задачи. Для подобных систем вопрос обеспечения требуемой надеж- ности является одним из важнейших. В этом случае надеж- ность целиком определяется теми усилиями, которые прило- жены на этапе проектирования системы. 359
После основополагающей работы фон Неймана [15.16] си тезом надежных цифровых устройств из ненадежных комп нентов занимался ряд исследователей. Особо стоит отмети1 работы [15.17 - 15.21], заложившие основы построения надеж ных систем из ненадежных компонент. Методы, предлага мые в этих работах, основаны на введении некоторой изб1 точности в цифровые устройства. Согласно [15.22], избыто’ ность можно разделить на три вида: аппаратурную (стру турную [15.23]), временную и информационную. Такого ро; разделение является условным, поскольку аппаратурная и быточность влечет за собой информационную избыточность в большинстве случаев временную. Информационная избыто1 ность требует дополнительной аппаратуры и дополнительно времени, а временная избыточность приводит к информац: онной и аппаратурной избыточности. Приведенная на рис. 15 классификация типов введения избыточности проведена не i тому признаку как избыточность реализована, а по тому, к; кой вид избыточности повышает надежность системы. Аппаратурная избыточность может использоваться на ра; личных функциональных уровнях: от компонентов до вес системы. В зависимости от активности основных и резервнь элементов можно реализовать три вида аппаратурной изб1 точности [15.24]: статическую (пассивное резервирован! [15.25]), динамическую [15.4] и гибридную [15.2], [15.26], [15.2' В случае статической избыточности, которая получила наз большее распространение в невосстанавливаемых ЭВМ, bi компоненты и основные, и резервные участвуют в работе. В< элементы такой системы равноправны. Преодоление после; ствий отказов в таких системах происходит путем автомат] Рис. 15.1. Классификация методов введения избыточности 360
ческой коррекции ошибки за счет избыточности в компонен- тах системы. В случае динамической избыточности резервная аппарату- ра включается в работу лишь при необходимости замены не- исправных модулей. Если на выходе модуля появляется ошиб- ка, то она обнаруживается и затем или исправляется (исполь- зование корректирующих кодов, повторный счет), или устра- няется неисправность (замена неисправного модуля, рекон- фигурация системы). Динамическая избыточность обеспечива- ет самовосстановление системы. Такой тип избыточности тре- бует наличия методов контроля и диагностики с целью обна- ружения отказов. Гибридная избыточность является комбинацией статичес- кой и динамической избыточностей. Постоянно в работе нахо- дятся несколько дублированных устройств: при возникнове- нии отказа одного из устройств неисправное заменяется ре- зервным. Каждый вид аппаратурной избыточности имеет свои пре- имущества и недостатки, и эффективное использование того или иного метода определяется конкретной задачей. В литературе достаточно полно изложены теоретические аспекты методов статической избыточности, однако при прак- тической реализации возникает ряд специфических проблем, которые требуют специальных исследований. Обычно выделяются следующие основные особенности ста- тической избыточности [15.25], определяющие ее применимость (аэрокосмические системы, системы защиты, ЭВМ в конту- рах управления ответственными процессами): - коррекция ошибок без перерыва в функционировании; - коррекция ошибок, возникающих как вследствие устой- чивых отказов, так и сбоев; - существенное увеличение вероятности безотказной ра- боты устройств с низкой надежностью за счет малого уровня резервирования; - важными достоинствами статической избыточности яв- ляются их универсальность и отсутствие необходимости раз- работки специального программного обеспечения для обнару- жения, локализации и исправления ошибок. Часто используемой схемой при введении статической из- быточности является схема мажоритарного резервирования [15.17], [15.28]. Она подразумевает n-кратное дублирование 361
какого-то блока или компоненты цифрового устройства (п-н четно), причем выходы дублированных блоков нагружены : восстанавливающий орган [15.17], [15.29], который реализу некоторое решающее правило, которое в случае мажорита ного голосования имеет вид: выход восстанавливающего орг на равен значению, которое принимает большинство вход восстанавливающих органов. Исследуется зависимость вероятности безотказной рабо: восстанавливающего органа от типа решающего правила, к торое он реализует. На основе исследования свойств функц: вероятности безотказной работы восстанавливающего органа в ходится оптимальное решающее правило, реализующее вс станавливающий орган. По критерию максимума параметр ческой надежности находится оптимальная реализация маж ритарного восстанавливающего органа. Рассматриваются ра личные схемы восстанавливающего органа, реализованные виде многослойных нейронных сетей и находятся допустим области изменения параметров, в которых применение тех и иных схем восстанавливающих органов оптимально. 15.3. Исследование функциональной надежности многослойных нейронных сетей Методы исследования функциональной надежности мно: слойных нейронных сетей можно разделить на аналитичесв и экспериментальные. Аналитическое исследование фун: циональной надежности нейронных сетей общепринятыми м тодами на уровне нейрона сталкивается с математически» сложностями. В связи с этим основной упор делается на эк периментальное исследование надежности многослойных не: ронных сетей, методика которого рассматривается в п. 15. там же приведены план и результаты проведенного эксперт мента. Возможно обобщить разработанную методику на сл; чай любой комбинационной сети нейронов. На основе noflxoj к многослойным нейронным сетям как к линейным последов, тельностным машинам показывается возможность аналитиче кого исследования функциональной надежности частных в; дов многослойных нейронных сетей при случайных весовь коэффициентах и значениях входных сигналов. Основные Р1 зультаты, полученные ниже, изложены в работах [15.3 15.33-15.36]. 362
Рассматривается класс многослойных нейронных сетей с дво- ичными входами. Многослойность структуры понимается как особое свойство структуры преобразования, осуществляемо- го многослойной нейронной сетью при топологическом, а не символическом его представлении. Исследование функциональной надежности многослойных нейронных сетей основано на задании: а) критерия функциональной надежности; б) вероятностной модели функционирования сети; в) множества входных значений. В качестве критерия функциональной надежности ниже рас- сматривается вероятность правильного функционирования многослойной нейронной сети, вычисляемая на полном множе- стве входных значений, и функция распределения вероятнос- тей выходного сигнала сети. Вероятностная модель функционирования сети зависит от физической сути рассматриваемых типов отказов (параметри- ческих, катастрофических). В п.15.4, например, при исследо- вании надежности нейронной сети при наличии параметричес- ких отказов нейронов предполагается случайность весовых коэффициентов и порогов всех элементов сети. Экспериментальное исследование надежности может быть проведено на трех различных уровнях: схемотехническом, функциональном и логическом. В нашем исследовании будут рассматриваться функциональный и логический уровни. Экс- периментальное исследование целесообразно разделить на ряд этапов по числу классов отказов нейронов, которые вообще существуют или тех типов, которые наиболее часто встреча- ются в конкретной реализации нейронных сетей. Отказы нейронов обычно [15.15, 15.37] делятся на два класса: пара- метрические и катастрофические, поэтому эксперименталь- ное исследование функциональной надежности нейронных сетей разбивается на два этапа: исследование надежности при наличии параметрических отказов (параметрическая надеж- ность) и исследование надежности при наличии катастрофи- ческих отказов (катастрофическая надежность). Методика экспериментального исследования была разра- ботана для класса нейронных сетей с последовательными свя- зями и позволяет исследовать сети с произвольным числом входов, числом нейронов в слоях и числом слоев. 363
Под параметрическими отказами нейронов маются ошибки на выходах нейронов, [15.15] пони появляющиеся в ре зультате постепенного изменения их параметров (весовы: коэффициентов и порога) под действием внешних физичес ких факторов: изменения температуры, напряжения пита НИЯ и Т.Д. При исследовании параметрической надежности нейронны сетей с помощью метода Монте-Карло моделируются случай ные нормальные распределения, элементами которых в про цессе исследования являются весовые коэффициенты и и пороги. Выясняется зависимость вероятности правильной реа лизации заданной логической функции на полном множеств значений ее аргумента от параметров случайных распределе ний при условии, что появления различных значений равно вероятны. Под катастрофическим отказом нейрона понимается отка типа обрыва или короткого замыкания на входах или выход нейрона. Отказы такого типа можно свести к отказам тип логических констант (const=0 и const=l) на входах и выход нейрона [15.37]. Предполагается, что отказы нейронов случай ны, независимы и равновероятны. При исследовании катает рофической надежности проводился детерминированный вы бор типа отказа и номера отказавшего нейрона. Ранее пред полагалось, что в нейронной сети могут появляться лишь од нократные отказы нейронов. Такое исследование позволяв' выявить все «потенциально опасные» отказы, т.е. отказы, ко торые ведут к сильному (по отношению к некоторому априор но заданному значению) уменьшению вероятности правильно го распознавания, а также выявить логическую избыточност: исследуемой сети на заданном классе отказов. Полученные таким образом конкретные значения вероят ности правильного распознавания для различных отказо: позволяют на этапе проектирования предусмотреть меры устраняющие возможность появления «потенциально опасных отказов и учитывающие логическую избыточность сети. Поло жительным моментом данной методики исследования надеж ности является тот факт, что она позволяет не толью исследовать широкий класс нейронных сетей и делать обоб щающие выводы, но и дает возможность оценить надежност: конкретных реализаций. 364
15.4. Исследование параметрической надежности нейронных сетей При исследовании параметрической надежности нейронных сетей рассмотрено несколько реализаций логической функ- ции на одном нейроне, а также группы двухслойных и трех- слойных сетей с различным числом нейронов в первом слое. В процессе экспериментального исследования ставились следу- ющие цели: 1. Исследовать зависимость вероятности правильного рас- познавания от дисперсии О[а] изменения весовых коэффициен- тов и порога при различных, но фиксированных сдвигах мате- матического ожидания (МО) -Да (при Да = О МО равняется ис- тинному значению весового коэффициента или порога) для раз- личных реализаций некоторой логической функции на одном нейроне; на основе данных исследований найти оптимальную реализацию. 2. Выяснить, как изменяется зависимость вероятности пра- вильного распознавания от дисперсии изменения весовых ко- эффициентов и порога при: а) увеличении числа нейронов в первом слое в двухслой- ных сетях; б) увеличении нейронов в первом слое в трехслойных сетях; в) переходе от двухслойной к трехслойной сети, реализую- щей ту же логическую функцию при фиксированном числе нейронов в первом слое; г) переходе от двухслойной к трехслойной сети с одинако- вым суммарным (по всем слоям) числом нейронов. Зависимость вероятности правильного распознавания от дис- персии весовых коэффициентов и порога назовем параметри- ческой надежностью. Ниже представлены этапы данного ис- следования. Этап 1. На данном этапе на примере трех различных реа- лизаций мажоритарного голосования на одном нейроне по критерию максимальной параметрической надежности пока- зан выбор оптимальной реализации. Каждый рассматривае- мый нейрон реализует некоторую гиперплоскость, пересека- ющую единичный гиперкуб размерности N (N - число входов нейрона) и разделяющую два класса вершин: 1) - вершины, у N которых число единичных компонент меньше и 2) - вер- 365
~ N, шины, у которых число единичных компонент больше (чис. N . „ нулевых компонент меньше ~2-)- С целью упрощения из все множества нейронов, реализующих мажоритарное решающ правило, выберем нейрон с единичными весовыми коэффиц ентами. Соответствующие им гиперплоскости будут проходи1 параллельно друг другу, пересекая оси координат под угле в 45°. Обычно в качестве элемента, реализующего мажор тарное решающее правило, используется мажоритарный эл мент, т.е. элемент, определяемый следующим выражением: N у = sign (S х. - а0), (15. где х;е{0,1}- входные значения, а0 = 2 — порог мажор; тарного элемента sign (х) = О, х<0 1, х>0 . (15.: Эта реализация является крайним случаем в сторону умен , N - 1 шения порога, так как при а 0 = —2-----е > где е ~ ско- угодная малая величина, нарушается выполнение услов! (15.2). Гиперплоскость, соответствующая мажоритарному эл менту для случая п=3, показана на рис.15.2. Крестиками зде и далее обозначены входные и промежуточные значения, да которых на выходе должна быть единица, кружочками - Hyj Реализацией, ограничивающей рассматриваемое семейст: нейронов в сторону увеличения порога, является нейрон с п N + 1 рогом----- , описываемый выражением (15.1) и (15.2). Рис. 15.2 Гиперплоскос реализуемая мажоритарш элементом в пространств < ' М~1 , входов (а 0 = "2 ) 366
Гиперплоскость, соответствующая такой реализации для №=3, показана на рис.15.3. Рис. 15.3. Гиперплос- кость, реализуемая нейро- ном с единичными весами и N+ 1 порогом 2 в простран- стве входов Таким образом, будем исследовать нейроны с единичными весами, у которых пороги лежат на отрезке "] • Для экспериментального исследования были взяты три нейрона с N ~ 1 N + 1 N порогами: --—2> 2~' Поскольку изменение сдвига математического ожидания весовых коэффициентов - Да означает некоторый сдвиг и пово- рот гиперплоскости, то, исследовав три вышеприведенные ре- ализации для различных Да, найдем оптимальную реализацию для произвольного Да. Эксперимент проводился для каждой из реализаций для трех значений сдвигов математического ожи- дания: Да =0,15; 0; -0,15. На рис. 15.4, а, б, в приведены усред- ненные экспериментальные кривые. Дисперсия О[а] измеряет- ся в тех же единицах, что и весовые коэффициенты. Экспери- ментальные точки вычислялись с шагом 0,05 по дисперсии, а затем для каждых трех соседних точек находилось среднее зна- чение. Из приведенных кривых видно, что вероятность пра- вильного распознавания с ростом дисперсии уменьшается. Не- которое увеличение вероятности правильного распознавания на отрезке [0; 0,6] для нейрона с а0= —%— (рис.15.4, в) объясня- ется тем, что для данной реализации сдвиг математического ожидания, равный -0,15, вносит большую, чем для других ре- ализаций детерминированную ошибку, которая частично ком- пенсируется с ростом дисперсии на отрезке (0; 0,6]. Из рис.15.4, а видно, что при Да=0 оптимальной является реализация нейро- на с порогом а0= 1,5; при Да =0,15 (рис. 15.4, б) нейрона с порогом 367
Рис. 15.4. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для трех реализаций одного нейрона: а - при Да=0; б - при Да=0,15; в - при Да=-0,15 368
а0=2,О; при Да =-0,15 (рис. 15.4,в) нейрона с порогом ао=1,О. Ус- редняя все соответствующие значения вероятности правиль- ного распознавания по реализациям для трех значений Да, делаем вывод, что для произвольных Да, оптимальной реали- зацией является нейрон с порогом 1,5. Отсюда можно сделать обобщающий вывод на случай а0=-^-. Как следствие этого, можно _ „ W+1 сделать выводы об оптимальности нейрона с порогом —g— Г1РИ Да>0, и об оптимальности нейрона с порогом g ~ ПРИ <0- Для реальных нейронов Да может быть как положительной, так и отрицательной величиной. Полученная в этом случае оп- тимальная реализация нейрона соответствует положению ги- перплоскости, равноудаленной от симметричных точек обоих классов, т.е. проведенной через середины соответствующих ре- бер гиперкуба. Положение этой гиперплоскости для N=3 пока- зано на рис. 15.5. Из полученных результатов можно сделать следующий вы- вод. При синтезе многослойной нейронной сети на множестве двоичных входных сигналов каждую гиперплоскость следует проводить через середины соответствующих ребер гиперкуба, при этом нейроны будут обладать максимальной параметричес- кой надежностью по отношению ко всем возможным реализа- циям. Нейронная сеть, синтезированная таким образом, будет обладать максимальной параметрической надежностью по от- ношению ко всем возможным реализациям при том же числе нейронов в слоях и тех же связях. Увеличить параметрическую надежность можно лишь путем изменения структуры нейрон- ной сети. На всех последующих этапах исследования рассмат- риваются нейронные сети с оптимальными (в смысле максиму- ма параметрической надежности) нейронами, поэтому не име- Рис. 15.5. Гиперплоскость, реализуемая оптимальным нейроном 369
ет смысла проводить дальнейшие эксперименты при ненуле- вых Да, так как это будет соответствовать априорному смеще- нию гиперплоскостей из оптимальных положений. Этап 2. Рассмотрим шесть различных двухслойных ней- ронных сетей с 2,3,...,7 нейронами в первом слое: причем всё нейроны, согласно результатам исследования этапа 1, реали- зуют оптимальные гиперплоскости. Одна из реализаций (сеть с двумя нейронами в первом слое Н1=2) показана на рис. 15.6, где х/ ~ значение выхода г-го нейрона j-го слоя. Эксперименталь- ные кривые зависимости вероятности правильного распозна- вания от дисперсии для Да =0 представлены на рис. 15.7,а,б (кривые для Hj=2,4,6 и Hj=3,5,7 расположены на разных ри- сунках для большей наглядности). Полученные результаты по- зволяют сделать вывод, что с ростом Н1 при малых дисперси- ях: 0 < £>[а] < D*[a] (D*[a] =0,6) параметрическая надежность рас- сматриваемых сетей в пределах точности эксперимента оста- ется неизменной, а при D*[a]< D[a]<2 наблюдается увеличение надежности с ростом Hv особенно это заметно для Таким образом, можно сделать вывод, что у двухслойных сетей с ростом Hj наблюдается улучшение положения кривых зависимости вероятности правильного распознавания от дис- персии, т.е. повышение параметрической надежности. Этап 3. Рассмотрим пять различных трехслойных сетей с 3,4,...,7 нейронами в первом слое, двумя нейронами — во вто- ром и одним нейроном в третьем слое. Положения, занимае- мые гиперплоскостями, реализуемыми всеми нейронами, оп- тимальные. Кривые параметрической надежности для ^=3,5,7 Рис. 15.6. Гиперплоскости, реализуемые нейронами двухслойной сети 370
Вероятность правильного распознавания ----1---1---1 1---1----1--1---1----1--1--► О 0,2 0,4---0,6 0,8-1,0 1,2-1,4-1,6 1,8-2,0 Рис. 15.7. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для двух- слойных сетей с различным числом нейронов в первом слое представлены на рис. 15.8. Вывод, который можно сделать из исследования полученных кривых, полностью аналогичен вы- водам этапа 2: с ростом параметрическая надежность трех- слойных сетей возрастает. Этап 4. На данном этапе исследования выясняется вопрос, как изменится параметрическая надежность при переходе от двухслойной к трехслойной сети, реализующей ту же логичес- кую функцию при фиксированной величине Нг Для этого мож- но воспользоваться экспериментальными результатами, полу- ченными на этапах 2, 3. Соответствующие сравнительные ха- 371
Рис. 15.8. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для трех- слойных сетей с различным числом нейронов в первом слое рактеристики для двухслойных и трехслойных сетей с Н1=3,5,7 приведены на рис. 15.9-15.11. Видно, что при переходе от двух- слойной к трехслойной сети параметрическая надежность умень- шается. На рис. 15.9 для наглядности, кроме вышеназванных! кривых, приведена кривая для нейрона, реализующего ту же логическую функцию. Отсюда можно сделать качественный вы-’ вод об уменьшении параметрической надежности с ростом чис- ла слоев. Рис. 15.9. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для ней- ронов двухслойной и трехслойной сети, реализующих одинаковую логическую функцию 372
Рис. 15.10. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для двух- слойной и трехслойной сети с одинаковым числом нейронов в первом слое (^=5) Рис. 15.11. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для двух- слойной и трехслойной сети с одинаковым числом нейронов в первом слое (Н=7) Этап 5. Рассмотрим все возможные двух- и трехслойные сети из Имеющейся совокупности, у которых суммарное число нейронов одинаково. Таких пар всего три: с шестью нейронами (3+2+1 и 5+1), семью нейронами (4+2+1 и 6+1) и восемью ней- ронами (5+2+1 и 7+1). Соответствующие кривые приведены на рис.15.12, а,б,в. Отсюда можно сделать вывод, что двухслойная сеть обладает большей параметрической надежностью. 373
Рис. 15.12. Усредненные кривые зависимости вероятности правиль- ного распознавания от дисперсии весовых коэффициентов для двух- слойной и трехслойной сети с одинаковым суммарным числом нейро- нов: а - Н. = 6; б - Н( = 7; в - Н,. = 8 374
Проведенное исследование позволяет сделать следующие выводы: 1. Вероятность правильного распознавания уменьшается с ростом дисперсии весовых коэффициентов и порога при фик- сированном сдвиге математического ожидания. 2. Нейрон обладает максимальной параметрической надеж- ностью, когда гиперплоскость, им реализуемая, проходит че- рез середины соответствующих ребер гиперкуба. 3. Параметрическая надежность нейронной сети повышает- ся с ростом числа нейронов в первом слое как у двухслойных, так и у трехслойных сетей. 4. При переходе от двухслойной к трехслойной сети, реали- зующей ту же логическую функцию с одинаковым числом ней- ронов в первом слое, параметрическая надежность уменьшается. 5. Сравнение двухслойных и трехслойных сетей с одинако- вым суммарным (по всем слоям) числом нейронов показыва- ет, что двухслойная сеть обладает большей параметрической надежностью. Стоит отметить, что более детальное экспериментальное исследование параметрической надежности может быть про- ведено лишь при наличии множества требуемых реализаций нейронных сетей: с большим числом нейронов в слоях, боль- шим числом слоев и т.д. Ниже представлен проект плана эксперимента, который можно было бы провести в дополнение к описанному выше при наличии достаточного числа требуемых реализаций мно- гослойных нейронных сетей. Исследовать зависимость параметрической надежности ней- ронной сети от : 1) числа слоев при фиксированных величинах Hv Н2, ...; 2) размерности входного сигнала нейронной сети Нр W; 3) числа нейронов в слоях при фиксированном числе вхо- дов нейронной сети. 15.5. Исследование функциональной надежности многослойных нейронных сетей при наличии катастрофических отказов Методика экспериментального исследования функциональ- ной надежности многослойных нейронных сетей при наличии катастрофических отказов, как это отмечалось выше, заклю- чается в последовательном моделировании однократных отка- 375
Результаты исследования надежности сети номер Тип отказа ВПР СЛОЯ нейрона 1 1 ВХОДЫ 1 0 0,875 1 0,875 2 0 0,875 1 0,875 3 0 0,875 1 0,875 выход 0 0,875 1 0,375 2 входы 1 0 0,875 1 0,875 2 0 0,875 1 0,875 3 0 0,875 1 0,875 выход 0 0,875 1 0,375 3 входы 1 0 0,875 1 0,875 2 0 0,875 1 0,875 3 0 0,875 1 0,875 выход 0 0,875 1 0,375 Номер Тип отказа ВПР СЛОЯ нейрона 2 1 ВХОДЫ 1 0 1 0,375 2 0 1,000 1 1,000 3 0 0,875 1 0,375 выход 0 0,750 1 0,375 2 | входы 1 0 1,000 1 1,000 2 0 0,875 1 0,375 3 0 1,000 1 1,000 выход 0 0,875 1 0,375 3 1 входы 1 0 0,750 1 0,375 2 0 0,875 1 0,375 выход 0 0,625 1 0,375 зов типа логических констант на входах и выходах нейронов и вычислении значения вероятности правильного распознава- ния для каждого отказа. На основе исследования катастрофической надежности сети, покажем, как находятся «потенциально опасные» отказы и оп- ределяется ее логическая избыточность. Результаты исследования сведены в таблицу, из которой видно, что исследуемая сеть на классе отказов типа логичес- ких констант на входах-выходе нейронов при условии равнове- роятности отказов обладает коэффициентом логической избы- точности, равным т.е. при 6 отказах из 46 возможных веро- ятность правильного распознавания равна единице. Можно так- же выделить «потенциально опасные» отказы, задавшись ми- нимально допустимым значением вероятности правильного рас- познавания. Пусть оно равно 0,750, тогда всего имеется 11 «по- тенциально опасных» отказов с вероятностью правильного рас- познавания, равной 0,375, например: const=l на выходе 1 ней- ронов 1 слоя, const=l на входе 1 нейронов 2 слоя и т.д. 376
Таким образом, экспериментальное исследование катаст- рофической надежности нейронной сети позволяет на этапе проектирования учесть и использовать логическую избыточ- ность сети и принять меры по предотвращению «потенциаль- но опасных» отказов. Такие меры могут существенно повы- сить надежность проектируемых логических устройств. Литература 15.1. Coates C.L., Lewis P.M. DONUT-a threshold gate computer. IEEE Trans. EL. Comp., №3, vol. EC-13,1964. 15.2. Аббакумов И.С., Чернышев И.А. Мажоритарные избыточные системы с перестраиваемой структурой. - Автоматика и вы- числительная техника, №3, 1979, с.31-36. 15.3. Блюм М., Онесто М., Вербик Л. Допустимые ошибки нейронов для безотказной работы сетей. - В кн.: Методы введения избы- точности для вычислительных систем. /Под ред. Пугачева В.С. -М.: Сов. радио, 1966, с.84-87. 15.4. Потапов В.И., Пальянов И.А. К оценке функциональной надеж- ности избыточной перестраиваемой однородной вычислитель- ной структуры. - В сб.: Вычислительная техника в системах уп- равления летательными аппаратами, ч.П, вып. 23. М., 1972. 15.5. Потапов В.И. Анализ и синтез высоконадежных цифровых вычислительных и логических структур из пороговых моду- лей. - Новосибирск, 1977, с.80. 15.6. Потапов В.И. Функциональная надежность сетей из формаль- ных нейронов. - Автоматика и вычислительная техника, №1, 1968, с.37-43. 15.7. Майтра К.К. Синтез надежных автоматов и устойчивость ней- ронных цепей. - Бионика, ч.П и III. Киев: КВИИТРУ, 1966, с.98-147. 15.8. Лопин В.Н. О надежности управляемой сети на пороговых эле- ментах при ограничении на ее сложность. - В кн.: Адаптивные системы управления. Киев, 1975, с.91-97. 15.9. Серапинас К.Л., Жукаускас К.П. Надежность пороговых эле- ментов (1. Вероятностная оценка релейной части порогового эле- мента). - Труды АН ЛитССР, сер. Б, т.2(57), 1969, с.159-162. 15.10. Жукаускас К.П., Серапинас К.Л. Надежность пороговых эле- ментов (2. Влияние внешних помех). - Труды АН ЛитССР, сер. Б, т.4(59), 1969, с.213-216. 15.11. Жукаускас К.П., Серапинас К.Л. Надежность пороговых эле- ментов (3. Обобщенная ВРФ для группы пороговых элементов). Труды АН ЛитССР, сер. Б, т.3(62), 1970, с.153-157. 15.12. Жукаускас К.П., Серапинас К.Л. Надежность пороговых эле- ментов (5. Определение среднего значения ошибки пороговых 377
элементов с учетом разброса параметров входных сигналов и весовых входов). - Труды АН ЛитССР, сер. Б, т.1(64), 1971,, с.231-236. 15.13. Гилл А. Линейные последовательностные машины. - М.: Мир,' 1974, с.287. 15.14. Галушкин А.И. Синтез многослойных систем распознавания об- разов. - М.: Энергия, 1974, с.367. 1 15.15. Пальянов И.А., Потапов В.И. Диагностика неисправностей и синтез цифровых структур из пороговых логических модулей. ’ - Новосибирск, 1977, с.78. 15.16. Нейман Дж. Вероятностная логика и синтез надежных орга- низмов из ненадежных компонент. - В кн.: Автоматы, М.: Иностр, лит., 1955, с.68-138. 15.17. Пирс У. Построение надежных вычислительных машин. - М.: Мир, 1968, с.270. 15.18. Мур Э., Шеннон К. Надежные схемы ненадежных реле. - В кн.: Кибернетический сборник. - М.: Иностр, лит., 1960, вып.1, с.109-149. 15.19. Трайон Дж. Учетверенная логика. - В кн.: Методы введения избыточности для вычислительных систем. -М.: Сов. радио, 1966. 15.20. Elais Р. IBM Journal of Research and Development, №3, 1958, pp.346—353. 15.21. Winograd S., Cowan J.D. Reliable Computation in the Presence of Noise, M.I.T. Press, Cambridge, Mass., 1963. 15.22. Зрелова Т.И. Обзор методов повышения надежности вычисли- тельных систем. - Сб. Вычислительные машины и системы с перестраиваемой структурой. Сер. Вопросы кибернетики, 1978, с.152-163. 15.23. Малев В.А. Структурная избыточность в логических устрой- ствах. —М: Связь, 1978, с. 192. 15.24. Bennetts R.G. Designing rekeiable computer systems. The Fault- tolerant approach-I. Electron and Power, 1978, pp.846-851. 15.25. Чернышев ЮА, Аббакумов ИС Расчет и проектирование устройств ЭВМ с пассивным резервированием. - М: Энергия, 1979, с.119. 15.26. Mathur F.P. and de Sousa P.T. Reliability modeling and analysis of general modular redundant systems. IEEE Trans. Reliability, vol. R-24, Dec. 1975, pp.296-299. 15.27. Mathur F.P. and Avizienis A. Reliability analysis and architecture of a highly redundant digital system. Generalized triple modular redundancy with self repair, Proc. SJCC, vol.26, 1970, pp.375-383. 15.28. Пакулев Н.И., Уханов B.M., Чернышев П.Н. Мажоритарный принцип построения узлов и устройств ЦВМ. - М.: Сов. радио, 1974, с.183. 15.29. Лосев В.В. Восстанавливающие органы на основе мажоритарных элементов. - Изв. АН СССР, Техн, киберн., №2, 1971, с.116-122. 378
15.30. Фомин Ю.И. О восстанавливающих органах, реализующих ма- жоритарное голосование. - Электронное моделирование, №2, 1980, с.53-60. 15.31- Фомин Ю.И. Программа локализации параметрических отка- зов. - Аннотированный перечень новых поступлений. МосФАП АСУ, №2, 1980, с.10. 15.32. Фомин Ю.И. Программа генерации минимального проверяю- щего теста. - Там же, с.11. 15.33. Фомин Ю.И. Программа исследования катастрофической на- дежности. - Там же, с.11-12. 15.34. Фомин Ю.И. Программа исследования параметрической надеж- ности. - Там же, с. 12. 15.35. Фомин Ю.И. Программа расчета таблицы вероятностей отказа логического устройства, состоящего из дублированных иден- тичных блоков, когда на их выходе стоит сеть мажоритарных элементов. - Там же. с.13-14. 15.36. Фомин Ю.И. Программа расчета таблицы вероятностей отказа логического устройства, состоящего из дублированных иден- тичных блоков, когда на их выходе стоит мажоритарный эле- мент. Там же, с. 13. 15.37. Потапов В.И., Пальянов И.А. Построение проверяющих тестов для пороговых элементов. - Изв. АН СССР, Техн, киберн., №4, 1973, с.140-146. 15.38. Фомин Ю.И., Галушкин А.И. Мажоритарное голосование и вос- станавливающие органы, его реализующие. Кибернетика и вы- числительная техника. Вып.55, Киев, Наукова Думка, 1982, с. 91-97. 15.39. Мкртчян С.О. Проектирование логических устройств ЭВМ на нейронных элементах - М.: Энергия, 1977, с.199. 15.40. Галушкин А.И., Фомин Ю.И. Об оптимальности восстанавли- вающих органов, реализующих мажоритарное голосование. Техника средств связи, сер. АСУ, №3, 1979, с.56-61. 379
Глава 16. Диагностика нейронных сетей Введение динамической избыточности с целью повышения надежности в структуру цифровых устройств требует разра- ботки методов технической диагностики отказов в структурах, на которых реализовано данное устройство. Одной из важ- нейших проблем технической диагностики является разработ- ка методов и алгоритмов построения проверяющих и диагнос- тирующих тестов для цифровых устройств, которые позволя- ли бы в короткий срок обнаружить и локализовать неисправ- ность с точностью до определенного функционального эле- мента, задаваемого глубиной тестирования. Методы, предлагаемые в ряде работ, посвященных диаг- ностике нейронных сетей, можно разделить на две группы: методы контроля и диагностики отдельных нейронов на уров- не отдельных составляющих функциональных узлов (умно- житель, сумматор) и методы диагностики нейронных сетей на уровне отдельных нейронов. Алгоритмы первой группы деталь- но разработаны в работах [15.15], [15.37], [16.1 - 16.4]. Авторами проведена полная классификация видов неисправностей, по- являющихся в нейронах, и на основе ее разработаны алго- ритмы синтеза тестов, проверяющих и локализующих неисп- равности в нейронах с точностью до входа-выхода. В [15.15] разработаны алгоритмы синтеза нейрона, не имеющего логи- чески неразличимых неисправностей с точностью до входа- выхода. Предложенные алгоритмы являются достаточно эф- фективными для диагностики отдельных нейронов, но для ней- ронных сетей с большим числом нейронов тестирование мето- дом перебора является практически непригодным. Алгоритмы второй группы представлены в работах [16.5], [16.6]. В этих работах разработаны методы тестирования схем нейронов специального вида (связка из двух нейронов, кас- кадная схема, схема с ветвлением, пирамидальная схема и т.п.). Основным недостатком предложенных в данных работах диагностических процедур является их практическая мало- пригодность, так как для тестирования схемы произвольного вида ее необходимо разбивать на «стандартные» подсети и тестировать каждую из них. Причем при тестировании такой подсети не исключается возможность появления некоторого подмножества логически неотличимых неисправностей нейро- нов. Это подмножество в зависимости от структуры схемы 380
может включать в себя как всю последовательность подозре- ваемых в отказе нейронов, выделенную проверяющим тес- том, так и один нейрон. Ниже представлены алгоритмы технической диагностики отказов в нейронных сетях, которые проверяют их функцио- нирование и локализуют возникающие в них отказы с точно- стью до нейрона. Алгоритм локализации отказов нейронов в нейронных сетях основывается на исследовании графа состоя- ний сети, понятие которого вводится ниже в п.16.1. Данный алгоритм можно отнести к программным методам техничес- кой диагностики, так как он требует запоминания графа со- стояний исправной нейронной сети, а также хранения теку- щей информации о графе состояния сети с отказом. На основе анализа графа состояния для класса отказов типа логических констант на выходах нейронов разработан алгоритм построе- ния минимального проверяющего теста для отказов этого клас- са. Метод адаптивной диагностики, рассматриваемый в п.16.4, основан на синтезе адаптивной диагностической сети в виде нейронной сети, которая локализует любой отказ в нейронной сети типа логических констант на входах-выходах нейронов за время, равное одному такту работы нейронной сети. Адаптив- ная диагностическая сеть синтезируется с помощью адаптив- ного алгоритма на основе моделирования всех отказов задан- ного класса конкретной нейронной сети и построения обучаю- щей выборки. Диагностические алгоритмы, рассматриваемые в данной главе, можно разделить по способу их реализации на две группы: программные и аппаратные. К первой группе алгоритмов относятся: алгоритм лока- лизации отказов в нейронных сетях (п.16.2) и алгоритм пост- роения минимального проверяющего теста для класса отка- зов типа логических констант на выходах нейронов. Алго- ритм локализации отказов в нейронной сети основан на по- строении и исследовании графа состояний сети с отказами и позволяет локализовывать с точностью до нейрона отказы любой кратности. Алгоритм построения минимального про- веряющего теста основан на построении минимального гра- фа состояния сети, соответствующего минимальному про- веряющему тесту для класса отказов типа логических кон- стант на выходах нейронов. 381
Во вторую группу входит метод адаптивной диагностики! отказов типа логических констант на входах-выходах нейро-1 нов, основанный на моделировании всех возможных отказов! заданного типа, построении обучающей выборки и синтезе] адаптивной диагностической сети. i 16.1. Граф состояний нейронной сети. Основные понятия и определения ] Существует несколько различных способов описания функ-5 ционирования нейронной сети: аналитический, структурный,] геометрический и т.д. Каждый из этих способов хотя и полно- стью описывает конкретную сеть, но отражает какую-то одну] сторону функционирования сети. Например, структурный ме-| тод дает описание структуры нейронной сети, расположение нейронов по слоям, связи и их веса, а геометрический пока- зывает расположение гиперплоскостей, реализуемых нейро-] нами слоев в пространствах выходов нейронов предыдущего] слоя. Ниже вводится понятие графа состояний нейронной сети,? который описывает логику функционирования сети. j Определение 1. Величину а^., представляющую собой зна-< чение выходов всех нейронов г-го слоя и удовлетворяющую] условию j где Hj - число нейронов в г-м слое; аГ - значение выхода’ j-ro нейрона г-го слоя, назовем j-м узлом г-го уровня графа: состояний. j Определение 2. Ветвь графа состояний - это направленная] прямая, соединяющая два узла графа состояний, обозначаемая! aik> 1 = i +1- : Определение 3. Узлы графа состояний нулевого уровня, ко- торые представляют собой значения входной переменной, на- зываются вершинами графа состояний. Определение 4. Узлы графа состояний W-ro уровня (W - число слоев нейронной сети) называются корнями графа со- стояний. Определение 5. Путь в графе состояний - это любая цепоч- ка из узлов, связанных между собой ветвями согласно функ- ционированию данной нейронной сети, в которой есть верши- на и корень. 382
Определение 6. Граф состояний представляет собой древо- видный направленный несвязный граф, составленный из пу- тей, причем все их узлы расположены по соответствующим уровням. Утверждение 1. Покажем, что граф состояний полностью описывает функционирование нейронной сети для всех значе- ний входной переменной. Рассмотрим все узлы графа состоя- ний, входящие в произвольный путь: %о Поскольку узел а0^ представляет собой значение входной переменной, а узлы a^fi —1,2,...,W) - значения выходов всех нейронов всех слоев в порядке возрастания номера, включая последний, то функционирование сети, т.е. ее полная реак- ция на данное входное воздействие aOjQ полностью определе- но. Поскольку граф состояний - это совокупность всех воз- можных путей, то он определяет реакцию нейронной сети на все входные воздействия. Определение 7. Критичный отказ нейрона — это есть неисп- равность, влекущая за собой появление ошибки на его выходе на одном или нескольких входных значениях из заданного мно- жества, причем эта ошибка вызывает ошибку на выходе всей нейронной сети. Если ошибка на выходе нейрона не вызывает ошибку на выходе всей нейронной сети на всех входных значе- ниях из множества допустимых, то отказ нейрона некритичный. Определение 8. Ошибочным путем в графе состояний назы- вается путь, соответствующий нейронной сети с критичным отказом, проявляющимся на данном значении входа нейрон- ной сети, т.е. путь, имеющий корень, соответствующий оши- бочному значению логической функции, реализуемой нейрон- ной сетью. Определение 9. Путь, имеющий требуемый корень, т.е. путь соответствующий нейронной сети без отказов или при нали- чии некритичных отказов или при наличии критичных отка- зов, но не проявляющихся на данном значении входа нейрон- ной сети, называется безошибочным. Определение 10. Полный граф состояний - это граф, имею- щий 2п вершин, где п - размерность входа нейронной сети. Определение 11. Отсеком гиперкуба называется замкнутая область, образованная гиперплоскостями, реализуемыми ней- ронами в данном пространстве и гранями гиперкуба. Очевид- 383
но, что каждый отсек имеет свой номер, определяемый упо-| рядоченными по номерам выходами нейронов, т.е. номер от-! сека — это узел графа состояний. ; 16.2. Алгоритм локализации отказов в нейронных i сетях ] На основе нескольких конкретных примеров поясним сущ- ность предлагаемого алгоритма. Сначала проведем все рас-? суждения для случая однократных отказов, а затем обобщим] полученные результаты на случай отказов многократных. | Пусть задана трехслойная сеть с тремя нейронами в пер-| вом слое, двумя во втором и одним - в третьем. Расположе-i ние гиперплоскостей, реализуемых нейронами первого, вто-j рого и третьего слоев, показано на рис. 16.1, а, б, в соответ-] ственно, где х{ i - значение выхода г-го нейрона j-ro слоя) (для j =0 это значение входной переменной). Крестиками обо- значены значения, которым на выходе нейронной сети соот-З ветствует единица, а кружочками - значения, которым на! выходе нейронной сети соответствует нуль. Цифра, стоящая у каждой гиперплоскости, обозначает номер нейрона в слое. Со-] ответствующий данной реализации нейронной сети полный граф ] состояний приведен на рис. 16.2. ! 384
Пусть имеется, напри- мер, параметрический кри- тичный отказ первого ней- рона первого слоя. Положе- ние гиперплоскостей, соот- ветствующее этому случаю, показано на рис.16.3, а, б, в. В результате изменения ве- совых коэффициентов отка- завшего нейрона вершина гиперкуба 110 оказалась в 000001 010 011 100 101 111 111 Рис. 16.2. Граф состояний трех- слойной сети без отказа (рис. 16.1). другом отсеке - с номером 100 (была в отсеке с номером 000), и это привело к ошибке на выходе нейронной сети: на рис.16.3в не все крестики и кружочки лежат в разных отсеках. На рис.16.4 показан пол- ный граф состояний, соответствующий данному отказу. Штри- ховой линией выделены однозначные ветви ошибочного пути, т.е. ветви, не совпадающие с ветвями безошибочных путей. Каждому значению на входе нейронной сети соответству- ет один путь в графе состояний, следовательно, «перемеще- 13 - 353 385
000 001 010 011 100 101 110 111 ООО 100 010 001 oo 10 и Рис. 16.4. трехслойной (рис. 16.3). О 1 Граф состояний сети с отказом го отказа того же нейрона. ного гиперкуба 100 и ПО оказались в других отсеках с номе-! рами 000 и 100, соответственно. В графе состояний, показан-! ном на рис. 16.6, это соответствует появлению двух ошибоч-ч ных путей. 1 Задача поиска отказавшего нейрона по графу состояний] заключается в поиске преобразования одного или несколь-1 ких ошибочных путей в безошибочные, при котором не до-1 в ние» вершины гиперкуба и данный отсек соответствуем преобразованию пути, соот-1 ветствующему данной верши! не, в некоторый другой, оши! бочный. Получившийся оши-1 бочный путь имеет ту же вер-1 шину, но все или часть ос-1 тальных узлов стали другими? На рис. 16.5, а, б, в показан дру-j гой пример параметрическо-ч результате вершины единич! 386
бавлялись бы новые ошибоч- ные пути. Такое преобразова- ние заключается в переходе какой-то ветви ошибочного пути в другую, которая ведет к требуемому корню. Вид это- го преобразования (номера по- зиций в узлах графа состоя- ний, сменивших свое значе- ние) должен указать номер от- казавшего нейрона. В приме- 000 001 010 011 100 101 111 111 О 1 Рис. 16.6. Граф состояний трехслойной сети с отказом (рис. 16.5). ре, представленном графом со- стояний на рис. 16.4, единственный ошибочный путь ПО-> 100 —> 00 —> 1 (16.1) должен быть преобразован в другой путь: 110—>000 -> 10 ->0. (16.2) Сравнивая пути (16.1) и (16.2), видим, что некоторые пози- ции, начиная с первой, узла первого уровня поменяли свое значение. Если взять первую несовпавшую позицию, то можно сделать предположение об отказе первого нейрона первого слоя. В данном примере мы сделали предположение об отказе, так как при этом преобразовывалась однозначная ошибочная ветвь (НО—>100), которая в получившемся ошибочном пути един- ственная. Правомерность такого предположения можно пока- зать, доказав справедливость следующего утверждения. Утверждение 2. При поиске отказа нейрона в нейронной сети с помощью графа состояний преобразовывать можно лишь однозначные ветви ошибочных путей. Попытаемся доказать это. Всем вершинам графа состояний, соответствующего нейрон- ной сети без отказа, безошибочно и однозначно поставлены в соответствие значения логической функции (корни графа со- стояний). При возникновении отказа в нейронной сети какая-то из ветвей изменяется — появляется ошибочный путь. Каждый ошибочный путь соответствует одной ошибке на выходе ней- ронной сети. Искомое преобразование пути есть преобразова- ние, обратное отказу, т.е. такое преобразование, которое уст- раняет отказ, не добавляя новых. Допустим, что мы преобра- зуем неодназначную ветвь ошибочного пути. Это означает, что у всех остальных путей, имеющих данный узел, появится дру- 13* 387
гой корень, а поскольку по предположению они были безоши-i бочные, то все они преобразуются в ошибочные. Это противо^ речит допустимости преобразования. Утверждение доказано. J Для другого отказа в графе состояний на рис. 16.6 уже два( ошибочных пути с вершинами 100 и 110. Первый путь имеет^ единственную однозначную ветвь на нулевом уровне. Рассмот-<( рим все возможные преобразования этой ветви в ветви соот-( ветствующих участков безошибочных путей: ( —> 100 —> 00 —> Ц и (—> 010—>11—>1).В результате преобразования имеют вид; 100-»(0->1)00->00-> 1, (16.3) 100 ->0(0->1)0->11->1, (16.4), где два значения в скобках означают смену значений в данной позиции при преобразовании. Из (16.3) делаем предположе- ние, что отказал первый нейрон первого слоя, а из (16.4) - второй нейрон первого слоя. Для ветви нулевого уровня вто- рого ошибочного пути аналогично запишем 110 ->(1 ->0)00 ->10->0, (16.5) т.е. подозревается первый нейрон первого слоя. Второй путь однозначен также на первом уровне, следовательно, возмож- но такое преобразование: 110 -> 100-> (0->1) 0-> 0. (16.6) Из этого следует предположение об отказе первого нейро- на второго слоя. Чтобы выявить из всей совокупности подо- зреваемых нейронов требуемый, покажем справедливость сле- дующего утверждения. Утверждение 3. Предположим, что в нейронной сети суще- ствует один критичный отказ нейрона, а в графе состояний более одного ошибочного пути. Если получена совокупность но- меров нейронов, подозреваемых в отказе, тогда в этой сово- купности имеется номер, встречающийся максимальное число раз, и он является номером отказавшего нейрона. Предполо- жим, что в графе состояний имеем N ошибочных путей при одном критичном отказе нейрона. Из сущности любого отказа следует, что всегда существует преобразование, обратное от- казу, т.е. преобразование, которое переводит N ошибочных путей в безошибочные. Допустим, что это преобразование соответ- 388
ствует не максимальному номеру нейрона из всех подозревае- мых. Тогда это означает, что преобразуются не все ошибоч- ные пути (что следует из процедуры поиска подозреваемого в отказе нейрона), а это противоречит вышеизложенному. Выделим одно очевидное следствие, вытекающее из при- веденного выше утверждения. Максимальное число повторя- ющихся номеров нейронов во множестве подозреваемых рав- но числу однозначных ветвей ошибочный путей в графе со- стояний. На основе приведенных утверждений в вышерассмот- ренном примере получаем, что отказал первый нейрон перво- го слоя, так как его номер встречается дважды среди номе- ров подозреваемых нейронов. Нижеприведенное утверждение позволяет упростить про- цесс поиска номера отказавшего нейрона. Утверждение 4. При последовательном сравнении от вер- шины к корню ошибочного пути в графе состояний и соответ- ствующего ему безошибочного пути первая несовпавшая по- зиция укажет номер отказавшего нейрона. Покажем справед- ливость данного утверждения. Согласно приведенному выше утверждению 2 при наличии нескольких однозначных ветвей в рассматриваемом ошибочном пути необходимо для каждой из них искать свое преобразование. Мы же хотим доказать, что достаточно найти преобразование одной безошибочной ветви, лежащей на самом высоком уровне. Допустим в нейронной сети имеется один отказ. Последова- тельно сравниваем узлы ошибочного пути в графе состояний. Пусть не совпадает узел и ветви j-ro и (j+l)-ro уровней ошибочного пути однозначны. Несовпадение узла говорит о том, что на выходе г-го нейрона j-ro слоя появилась ошибка. Поскольку узлы предыдущих уровней совпадали, то отказал именно г~й нейрон j-ro слоя. По предположению не совпал также и узел ак^+1, но по условию в нейронной сети имеется лишь один отказ, следова- тельно fc-й нейрон (j+l)-ro слоя отказать не мог, а несовпаде- ние узлов вызвано влиянием ошибки предыдущего слоя. Учитывая результаты, полученные выше, перечислим пос- ледовательность основных действий, составляющих алгоритм локализации отказов нейронов в нейронных сетях в случае однократных отказов. Граф состояний правильно функциони- рующей нейронной сети будем считать заданным. 389
1. На вход нейронной сети последовательно подаются зна- чения входной переменной. V 2. Для каждого входного значения запоминаются выходы всех нейронов (строим путь в графе состояний). 3. Сравниваем полученное выходное значение с корнем задан- ного графа состояний соответствующего пути (пути с той же вер- шиной), если корни совпали, переходим к п.1, иначе к п.4. 4. Сравниваем (от вершины к корню) позиции обоих путей графа состояний. 5. Первая несовпавшая позиция укажет номер отказавше- го нейрона. Поскольку отказы однократные, то процесс за- канчивается. Обобщим предложенный алгоритм на случай отказов про- извольной кратности. В случае отказов нейронов одного слоя происходит изменение различных позиций в узлах графа со- стояний одного уровня, т.е. нет влияния одного отказа на дру- гой. В этом случае алгоритм, описанный выше, справедлив, если при нахождении одного отказа не заканчивать его рабо- ту, а переходить к п.1 до тех пор, пока на вход не будут поданы все входные значения. Рассмотрим теперь случай от- казов нейронов различных слоев. В этом случае, применяя вы- шеизложенный алгоритм, мы не выявим отказы нейронов, проявляющиеся на том же пути, что и первый, но лежащие на последующих слоях. Рассмотрим возможность модифика- ции алгоритма, т.е. сравнения позиций не до первого несовпа- дения, а всех, от вершины до корня. Из примера, приведенного на рис.16.5 и 16.6, становится ясно, что отказ нейронов может проявляться в последую- щих слоях (это вызывает несовпадение узлов последующих уровней), поэтому одновременное сравнение и выявление всех несовпавших узлов одного пути может привести к тому, что мы примем за отказ его последствия. В утверждении 3 при допущении существования одного отказа от такой си- туации мы избавлялись нахождением номера нейрона, встре- чающегося максимальное число раз. В случае же несколь- ких отказов это теряет смысл, поэтому приходим к следую- щему алгоритму: 1) на вход нейронной сети последовательно подаются зна- чения входной переменной; 2) для каждого входного значения запоминаются выходы всех нейронов (строится путь на графе состояний); 390
3) сравнивается полученное выходное значение с коРнем соответствующего пути (пути с той же вершиной) задан1101,0 графа состояний, если корни совпали и подано не послеДнее выходное значение, переходим к п.1, иначе к п.4; 4) сравниваем от вершины к корню узлы обоих путей графа состояний; 5) первая несовпавшая позиция укажет номер отказавше- го нейрона. Если подавалось не последнее входное знач£ние> переходим к п.1, иначе к п.6; 6) производим коррекцию отказов и переходим к п.1. Процесс происходит до тех пор, пока не избавимся от всех ошибочных путей. Если имеем наихудший вариант, т.е. отка- завшие нейроны расположены в W слоях, то процесс п°вт0- рится W раз. Для оценки быстродействия разработанного алгоритма срав- ним его с методом перебора, при котором тестируется каж- дый нейрон сети для случая однократных отказов. Для этого представим последовательность действий при работе алгоритма локализации отказов. Пусть задан граф состояний, соответ- ствующий нейронной сети без отказов. Строим граф состоя- ний, соответствующий нейронной сети с отказами. А. Последовательно подаем на вход нейронной сети значе- ния из полного множества значений входной переменН°и и для каждого значения получаем путь в графе состоя#*111 и значение выхода всей нейронной сети. Сравниваем поЛУчен- ный выход нейронной сети с соответствующим выходом ней- ронной сети без отказов. Если значения совпадают, на ВХ°Д нейронной сети подается следующее значение, в прот#вном случае переходим к п. Б. Таким образом, после подачи на ВХ°Д нейронной сети полного множества значений, произведен0 2Н° операций элементарного сравнения бит с битом. Б. В графе состояний обнаружен ошибочный путь. ПРОВО" дим его сравнение с соответствующим путем графа состоя- ний нейронной сети без отказов. Первая несовпавшая пози- ция в графе состояний указывает номер отказавшего яеиро- на. Если имеется один отказ нейрона, то после подави на вход нейронной сети полного множества входных знаяении производится S Н{ элементарных сравнений. Таким образом> для максимального числа операций сравнения в случае алго- ритма локализации отказов можно записать: 391
w ^тах=2»о+Х H£. (16.7) Величина Nx достигает максимального значения (16.7), так как предположительно отказавший нейрон имеет последний номер в последнем слое и ошибочный путь - последний. Рассмотрим теперь тестирование нейронной сети методом перебора. Если длина полного проверяющего теста для одного нейрона есть 2Ni и проверять приходится все нейроны (N. - число входов нейронов г-го слоя; то в случае перебо- ра для числа элементарных сравнений можно записать: ^max=22Hi-1 Я,-. (16.8) Величина N2 принимет здесь максимальное значение в том смысле, что длина теста для одного нейрона оценена величи- ной 2Ni. Покажем, что справедливо неравенство N <N 'vlmaxv J,2max' (16.9) Подставляя в неравенство (16.9) значения из (16.7) и (16.8), имеем: w w 2Но + Н.< S 2 Н-. i=l ’ i-1 ’ Раскрывая знаки сумм, имеем: 2но +НГ+- +Hw<H12ho+H22hi+- +HW2 Hw-i. (16.10) Учитывая очевидные неравенства: Н2< H22hi > при Hi >1, i =2, . . . ,W, Hw<Hw2hw-iJ перепишем неравенство (16.10) в виде 2но +Н1<Н12но. (16.11) Практически интересны случаи, когда Но >3, а Wlmax=2Ho. 392
В этом случае (16.11) имеет вид 2яа+! < 22Я0 (16.12) Логарифмируя (16.12) получаем Но >1, что всегда выполняет- ся. Неравенство (16.9) доказано. Таким образом, получили, что при наихудших расположе- ниях отказавшего нейрона алгоритм локализации отказов все- гда быстрее, чем метод перебора. Проведем аналогичные оценки для случая отказов произ- вольной кратности. Пусть в нейронной сети имеется тп отка- зов, появившихся в к слоях. Рассмотрим наихудший случай расположения отказавших нейронов: k—k^^W, тогда нера- венство (16.9) принимает вид: w w W(2Ho + S Я.)< S 2 я-‘ Я*. (16.13) Поскольку W<HV то неравенство (16,13) перепишется в виде wS Я, <S 2Н-‘Я,. (16.14) При Н2 >1, W < Hj имеем W (Нг+ Я2)< 2 Н1 Я2, тогда неравенство (16.14) имеет вид W S н,. < S Я, 2 н»-1. (16.15) 4=3 ’ 4=3 * Рассматривая неравенство (16.15) для случаев > Н2>.. .> Hw и Я1=. . -—Hw, делаем вывод, что оно выполняется, следова- тельно, выполняется и неравенство (16.13). Оценим теперь относительный выигрыш в быстродействии по нижним оценкам при переходе к алгоритму локализации отказов от метода последовательного тестирования в случае многократных отказов: w N*1m„ W(2Ho+S Я.) imax ' Iх ^max S 2 Н; (16.16) 393
где W*lmax ~ нижняя оценка быстродействия алгоритма лока- лизации отказов для многократных отказов. Неравенство (16.16) в случае Нг= Л2=.. .= = Н принимает вид imax _ 1 W Н 2»’ (16.17) При Нг > ... > Hw вместо величины Н в оценку (16.17) можно подставить некоторую среднюю величину Н, например Н = = Hi + Hw или н = Ht+H2+---+Hw 2 или п Очевидно, что при достаточно больших Н вторым слагае- мым в сумме (16.17) можно пренебречь. Таким образом, выиг- рыш в быстродействии при применении алгоритма локализа- ции отказов по сравнению с методом последовательного тес- тирования, согласно нижним оценкам, растет линейно с рос- том числа нейронов в слоях. 16.3. Алгоритм построения минимального теста для отказов типа логических констант на выходах нейронов Предлагаемый алгоритм построения минимального прове- ряющего теста имеет ограниченную область применения вви- ду того, что получаемый тест проверяет наличие не всех кон- стантных неисправностей, а лишь отказов типа логических констант на выходах нейронов. Он может применяться в слу- чаях, если допустимо предположение о безотказности входов нейронов. Рассмотрим пространство входов нейронной сети - единич- ный гиперкуб, который разбит на отсеки гиперплоскостями ре- ализуемыми нейронами первого слоя. Пусть во всех отсеках кроме одного находится по одной вершине гиперкуба, а в вы- деленном отсеке п вершин. Пусть номер отсека есть а^.=1 an = аЛ----------аа1}> Предположим, что отказ некоторого нейрона вызывает изменение некоторого значения а^1, а поскольку рассматри- ваются только отказы типа логических констант на выходе нейрона, то изменится номер отсека для всех п вершин, ле- жащих в нем. Отсюда следует, что данный отказ оказывается 394
индицируемым сразу на п входных значениях. Поскольку при построении теста необходимо, чтобы один отказ индицировал- ся не более чем на одном входном значении, то процедура минимизации полного теста (тест, состоящий из 2" входных значений) будет состоять в поиске отсеков, в которых нахо- дится более одной вершины, и выбрасывании любых лишних вершин из данного отсека, чтобы там оставалось лишь одна. Поскольку вершины гиперкуба являются одновременно и вер- шинами графа состояний, то процесс минимизации полного те- ста, описанный выше, аналогичен процессу минимизации пол- ного графа состояний. Поясним это на примере нейронной сети, показанной на рис. 16.1 и графа состояний на рис. 16.2. Тот факт, что несколько вершин гиперкуба лежат в одном отсеке, в гра- фе состояний соответствует тому, что все пути с этими вер- шинами имеют общие ветви начиная с первого уровня. Начнем выбрасывать такие вершины, в нашем примере их пять: {ООО, 011, 101, 110, 111}. (16.18) Из совокупности (16.18) оставляем одну вершину, напри- мер, ООО. Тогда граф состояний принимает вид, показанный на рис. 16.7. Вершины этого минимизированного графа состояний и являются входными значениями минимизированного теста {ООО, 001, 010, 100}. (16.19) Докажем, что полученный тест минимальный на заданном выше множестве отказов. Утверждение 5. Для отказов типа логических констант на выходе нейрона число вершин минимизированного графа со- стояний сети равно длине минимального теста, выявляюще- го все отказы заданного класса. Покажем справедливость этого утверждения. Тот факт, что число вершин определяет длину соответствующего теста, сле- дует из определения графа состояний. Докажем теперь, что в случае минимизированного графа соответствующий тест бу- дет минимальным для заданного класса отказов. Минимизация графа состояний заключалась в последователь- ном переборе непустых отсеков, образуемых нейронами первого слоя и выбрасывании вторых, третьих и т. д. вершин гиперкуба входного пространства, попавших в один отсек. В результате 395
000001 010 100 000001 010 100 00 10 11 Рис. 16.7. Мини- мизированный граф состояний проведения такой процедуры получаете! минимизированный граф состояний, котя рый соответствует случаю, когда в каяв дом непустом отсеке будет находиться я одному значению аргумента. | Предположим, что полученный тест минимальный. Выбросим любую из вер! шин полученной совокупности. В этом слу! чае появляется новый пустой отсек, и зна» чение логической функции на этом отсей ке становится неопределенным. Это оз| начает, что при тестировании нейронно! 1 о сети с помощью уменьшенного теста не может появиться ошим бочный путь, соответствующий выброшенной вершине, а ввив ду однозначного соответствия любого пути в минимизирован» ном графе некоторой группе отказов получается, что эта труп» па отказов становится неиндицируемой на данном тесте (а этсЯ противоречит определению теста, т.е. выявляемое™ всех отка» зов заданного класса). Поскольку была выброшена произволь» ная вершина, то отсюда следует, что тест, соответствующий! минимизированному графу состояний, минимальный. Утверж-1 дение доказано. 1 На основании вышеизложенного, представим процедуру! построения минимального теста, выявляющего отказы типа! логических констант на выходе нейрона: 1 1) для правильно функционирующей нейронной сети стро-1 им два уровня полного графа состояний (нулевой и первый).! Для этого каждому входному значению ставится в соответ-1 ствие узел графа состояний первого уровня; | 2) число неповторяющихся узлов графа даст длину мини-Я мального теста, а соответствующие им вершины (любая из 1 вершин, соединяющаяся с данным узлом) - входные значе-| ния минимального теста. 16.4. Метод адаптивной диагностики отказов 1 в нейронных сетях | В некоторых случаях, когда нейронная сеть должна быть 1 высоконадежной и работать в непрерывном режиме, нет воз- 1 можности прервать ее работу и начать тестирование. В таких я случаях любой отказ нейрона должен быть локализован на пер-1 396
вом же значении входной переменной, на котором он проявля- ется. Такой цели и служит метод адаптивной диагностики отка- зов в нейронных сетях. В основе предлагаемого алгоритма ле- жит моделирование всех отказов заданного типа и на его осно- ве генерация обучающей выборки для синтеза адаптивной ди- агностической сети. Адаптивная диагностическая сеть синтези- руется в виде нейронной сети с полными последовательными связями таким образом, чтЪ локализует любой отказ типа ло- гических констант на входах-выходе нейрона на первом же зна- чении входной переменной, на котором он проявляется. Это позволяет осуществлять диагностику нейронной сети «парал- лельно» его функционированию, поэтому метод адаптивной ди- агностики можно назвать методом параллельной диагностики. Рассмотрим процесс генерации обучающей выборки для син- теза адаптивной диагностической сети на примере двухслойной сети с двумя нейронами в первом слое и одним нейроном во втором (рис. 16.8). Здесь и далее предполагается наличие в ней- ронной сети лишь одного отказа, а вероятность появления вто- рого отказа за время тестирования пренебрежимо мала, так как Рис. 16.8. Гиперплоскости, реализуемые двухслойной сетью тестирование происходит за один такт работы нейронной сети. На рис. 16.9 представлен полный граф состояний рассматриваемой нейронной сети без отказов, а на рис. 16.10~16.12 графы состояний для всех возможных отка- зов заданного класса, где хД ~ зна- чение j-ro входа г-го нейрона 1-го слоя, а хк\ - значение выхода г-го нейрона I-го слоя. Рис. 16.9. Граф состо- яний двухслойной сети (рис. 16.8) 397
x‘i=const=0 x1 =const=0 ki x‘ =const=l Kl x\i cons^ 1 ac,,—const—0 x1 =const=l 12 12 Рис. 16.10. Графы состояний двухслойной сети (рис. 16.8) для всех константных отказов первого нейрона первого слоя Рис. 16.11. Графы состояний двухслойной сети (рис. 16.8) для всех константных отказов второго нейрона первого слоя Разобъем все отказы на классы, соответствующие своим нейронам. Число классов равно числу нейронов плюс один (класс безошибочной нейронной сети). На рис. 16.10-16.12 представле- 398
ны графы состояний для всех отказов пер- вого нейрона первого слоя, второго нейро- на первого слоя и вы- ходного нейрона, со- ответственно. Внутри каждого класса соста- Рис. 16.12. Графы состояний двухслой- ной сети (рис. 16.8) для константных от- казов выхода нейрона второго слоя вим совокупности ошибочных путей гра- фов состояний (в слу- чае класса отказов) и всех безошибочных путей графов состояний (в случае класса, соответствующего отсутствию отказов), при этом все повторя- ющиеся пути внутри каждого класса выбрасываются. Каждый ошибочный путь идентифицирует один отказ. Вся совокупность неповторяющихся внутри классов ошибочных путей будет час- тью обучающей выборки, представляющей классы отказов. Для нашего примера она имеет вид: 00 010 00 юо'1 00 11 но' по 01 11 111 010 ► 1 10 11 111 г 100 J 2 01 011 > 3.(16.20) 10 101, Берем теперь все безошибочные пути из графа состояний на рис.16.9. Они будут представлять вторую часть обучающей вы- борки, соответствующей классу нейронных сетей без отказов: 00 111) 01 010 d HR9U 11 111 > 4‘ (16'21) 10 100 J Цифрами, стоящими у фигурных скобок, обозначены но- мера классов. Очевидно, что все пути в графе состояний из полученной совокупности (16.20), (16.21), представляют собой вершины еди- ничного гиперкуба размерности w N — X Н,. i=o 1 В нашем примере N=5. Задача синтеза адаптивной диагно- стической сети решается как обычная задача распознавания 399
образов. С помощью некоторого адаптивного алгоритма на ос- нове обучающих выборок (16.20), (16.21) синтезируется ней- ронная сеть, разбивающая единичный гиперкуб размерности N на ряд отсеков, в каждом из которых лежат элементы одно- го класса, и ставящая в соответствие отсекам однозначно их определяющие сигналы на своем выходе. Такое разбиение, а следовательно и синтез нейронной сети, возможно с вероят- ностью единица (имеем случай дискретных входных сигналов), если в различных классах нет одинаковых элементов, т.е. если ошибочные пути, соответствующие отказам различных ней- ронов различны. В связи с этим покажем, что справедливо следующее утверждение. Утверждение 6. Два любых ошибочных пути в графе со- стояний нейронной сети, соответствующие любым отказам двух различных нейронов, различны. Пусть даны два ошибочных пути в графе состояний {ап< >аи > • • > },{ЬП, , Ь,,. ,..., bw, }. (16.22) 1 Q?0 bl’ ’ Ojo’ ’ W]w> ' ' Для их совпадения необходимо выполнение условия t=l,2,...W, j\=i,..., я,.. Отсюда можно сделать вывод, что одинаковые пути в гра- фе состояний имеют одинаковые вершины: “oj’o Ьо;'о’ ?0 ’ Н° ’ Таким образом, для доказательства утверждения достаточ- но показать, что соответствующий безошибочный путь при отказах различных нейронов переходит в различные ошибоч- ные пути. Пусть этот безошибочный путь имеет вид {сп, , с,,. ,..., сш. }. (16.23) °?о Существуют два различных варианта отказов: 1) отказы нейронов различных слоев и 2) отказы нейронов одного слоя. Рассмотрим сначала первый случай. Пусть отказали нейроны в 1-м и к-м слоях, тогда, очевидно, что: с,, —с.. —»Ь,. , 11 где стрелки означают переход одного узла в другой при отка- зе нейронов. Таким образом, в безошибочном пути (16.23) при отказе нейрона в 1-м слое узлы Су. с номерами I, l+l,..., W превращаются в узлы by с номерами I, 1+1,..., W соответствен- но. При отказе нейрона в k-м слое узлы с., превращаются в 400
узлы Ь,- с номерами /с,/с+1,..., W соответственно. Следователь- но, можем записать: =а =ь* 1Л г=1, ... , l-l, i =1, ... , k~l. (16.24) Пусть 1<к, тогда согласно (16.24), выполняется условие afj. # b.j, , г =1, l+l, ... , к-1, к, т.е. пути а и Ъ различны. Рассмотрим второй случай: отказы нейронов одного слоя. Пусть отказали l-й и s-й нейроны в г-м слое, тогда с* =4- > к =1’ • • • ’ Hi’ ** 1> c^.=bL> к=1,...,Н{, kit s, гЧ г]к г к т к следовательно, получаем, что а,-,- + ъ г l]i ч, различны. к ~l, s, т.е. пути а и Ъ Поскольку кроме двух рассмотренных выше вариантов от- казов других отказов в нейронной сети быть не может, то утверждение справедливо. Для примера с помощью адаптивного алгоритма синтеза нейронной сети по обучающим выборкам (16.20), (16.21) была синтезирована адаптивная диагностическая сеть, структурная схема которой с весовыми коэффициентами приведена на рис. 16.13. Схема приведена к виду нейронной сети с полны- ми последовательными связями (связи с нулевыми весами не приведены). Связи между нейронами первого и второго слоев имеют веса +1, весовые коэффициенты нейронов первого слоя проставлены у соответствующих входов. Внутри прямоуголь- ника, изображающего нейрон, стоит величина его порога. Нейронная сеть имеет четыре выхода, причем она синтезиро- вана таким образом, что появление 1 на одном из выходов (при этом на всех остальных должны быть нули) означает, что входное значение отнесено к соответствующему классу. Поскольку использованный алгоритм синтеза нейронной сети не предусматривал поиск оптимального положения каждой гиперплоскости, реализуемой нейронами, а также минимиза- цию их числа, то вероятным является уменьшение числа ней- ронов в полученной адаптивной диагностической сети при ис- пользовании более совершенного алгоритма синтеза. Поскольку обучающая выборка для синтеза адаптивной ди- агностической сети строилась на основе анализа полных гра- фов состояний, то очевидно, что любому значению сигнала на 401
Рис. 16.13. Структурная схема адаптивной диагностической сети для двухслойной нейронной сети (рис. 16.8) 402
входе и соответствующему ему пути графа состояний будет иметь место сигнал на выходе адаптивной диагностической сети, выдающий информацию о номере отказавшего нейрона, либо о безотказной работе нейронной сети. Время диагностики будет определяться временем прохождения сигнала через адаптив- ную диагностическую сеть. Вследствие быстродействия пред- ложенного метода диагностики можно говорить о создании вы- соконадежных самопроверяемых логических устройств на ос- нове нейронных сетей, которые бы включали в себя: нейрон- ную сеть, адаптивную диагностическую сеть, резервные ней- роны и устройство переключения резерва. К недостаткам метода адаптивной диагностики можно отне- сти большую избыточность структуры, получающуюся при син- тезе адаптивной диагностической сети. Такая избыточность яв- ляется «платой» за быстродействие метода. Недостаток метода заключается также в том, что если на выходе нейронной сети стоит один нейрон, то являются логически неотличимыми от- казы выходов нейронов предпоследнего слоя и соответствую- щих входов нейронов последнего слоя. В свете преимуществ, получаемых от быстродействия метода, для нейронных сетей с большим числом нейронов этот недостаток является несуще- ственным. Поясним это утверждение. Если сигнал с адаптивной диагностической сети подается на систему переключения ре- зерва, то в случае отказа либо выходов нейронов предпослед- него слоя, либо соответствующих входов нейронов последнего слоя, будет отключаться не один нейрон, а сразу два. Остановимся на особенностях метода адаптивной диагнос- тики. Для генерации обучающей выборки требуется промоде- лировать все отказы заданного класса, а это является самой трудоемкой частью синтеза адаптивной диагностической сети. Автоматизация этого процесса позволяет существенно упрос- тить процесс синтеза адаптивной диагностической сети, а ис- пользование хорошего алгоритма позволяет получить ее ми- нимальную реализацию. Реализация самой нейронной сети и адаптивной диагности- ческой сети на однофункциональных элементах с одним типом связей дает преимущество при реализации всего устройства в виде СБИС, а также позволяет применять одни и те же методы синтеза для обеих сетей. Поскольку при синтезе адап- тивных диагностических сетей, как это следует из рассмот- 403
ренного примера, имеет место избыточность нейронов, то оче- видно, что этот метод целесообразно применять в устройствах с повышенными требованиями по их надежности. Расширение возможностей применения данного метода может быть произведено за счет класса параметрических от- казов. Для этого требуется доказать, что все возможные оши- бочные пути, соответствующие параметрическим отказам, принадлежат множеству ошибочных путей для класса отказов типа логических констант на входах-выходах нейронов. Про- верка этого условия для простейших нейронных сетей показа- ла его выполнимость, а доказательство его в общем случае представляется затруднительным. Литература 16.1. Пальянов ИА. Локализация неисправностей в пороговых логичес- ких элементах с точностью до входа-выхода. Радиоприборострое- ние и микроэлектроника, вып.4. Омск, 1975, с.160-166. 16.2. Пальянов И.А., Потапов В.И. Контроль неисправности много- функциональных пороговых модулей. - В сб.: Устройства меха- низации и автоматизации технического контроля качества, 1973, с.73-83. 16.3. Пальянов И.А. Построение проверяющих тестов для многопо- роговых пороговых элементов. - В кн.: Вычислительная техни- ка и системы управления. Омск, 1975, с.70-75. 16.4. Потапов В.И., Пальянов И.А. Диагностика неисправностей по- роговых элементов. - Изв. СО АН СССР, сер. Технические на- уки, №8, вып.2, 1976, с.126-133. 16.5. Чараев Г.Г. Техническая диагностика схем на пороговых эле- ментах. - Автоматика и телемеханика, №1, 1971, с.151-158. 16.6. Чараев Г.Г. Техническая диагностика дискретных устройств ин- тегральной электроники. - М., Энергия, 1974, с.105. 16.7. Фомин ЮЛ Галушкин АЛ Методы технической диагностики сетей пороговых элементов. //Техника средств связи, сер. «Системы связи», вып.2, 1980, с. 84-94. 16.8. Фомин Ю.И. Галушкин А.И. О методике параллельной диагнос- тики отказов в сетях пороговых элементов. Электронное моде- лирование. Киев, Наукова Думка, 1981, №3, с. 89-92. 16.9. Sarje A.K. Implication chart for testing threshold functions. «J.Inst. Eng. (India), Electron, and Telecommun. Eng. Div», 1984, 65, №2, c. 46-77. 16.10. Mourad Samiha, Hughes Joseph L.A., McCluskey Edward J. Multiple fault detection in parity trees, COMPCON Spring 86, 31 st IEEE Comput. Soc. Int. Conf., San Francisco, Calif., March 3-6, 1986, c.. 441-444. 16.11. D.P.Brown. Matrix Tests for Period 1 and 2 Limit Cycles in discrete threshold networks, IEEE Trans. Syst. Man and cybernetics, v.22, 1992, №3, c. 552-534. 16.12. Eijkman Eg G.J. Neural nets tested by psychophysical methods, Neural Networks, 1992, 5, №1, c. 153-162. 404
ЗАКЛЮЧЕНИЕ Теория нейронных сетей является в настоящее время са- мостоятельным направлением науки. Основные перспективные направления теории нейронных сетей связаны, конечно, с решением наиболее сложных практических задач, среди ко- торых можно отметить следующие: - континуальные нейронные сети, в которых на формаль- ном уровне рассматривается континуум, например, числа вход- ных каналов или нейронов в слоях; - надежность нейронных сетей; - нейронные сети, обеспечивающие инвариантность к груп- пе преобразований (например к сдвигу, повороту, измене- нию масштаба изображения или сигнала); — аналитическое описание нейронных сетей с контуром адап- тации с помощью аппарата линейных последовательностных ма- шин Гилла и многие другие. Количество научных работ в области теории нейронных се- тей возрастает. Именно поэтому требуют аналитического подхо- да сравнение и детальная классификация различных подходов к решению задач синтеза нейронных сетей. В первую очередь это нужно делать, сравнивая априорную информацию, необходи- мую для синтеза многослойных нейронных сетей в каждом кон- кретном случае. 1. Априорные характеристики пространства «указаний учите- ля» нейронной сети — число классов образов (два, К, континуум). 2. Априорные характеристики нестационарности входного сигнала нейронной сети. 3. Функция «квалификации учителя» нейронной сети двух аргументов, являющихся индексами соответствующих классов. 4. Функция «собственного мнения учителя» нейронной сети о своих способностях. Это также функция двух аргументов, являющихся индексами соответствующих классов. 5. Априорные вероятности появления классов. 6. Априорные характеристики пространства решений ней- ронной сети (два, Кр, континуум решений). 7. Класс критериев первичной оптимизации нейронной сети. 8. Функция потерь, возникающих при отнесении системой образов одного класса к другому. 405
9. Априорная информация об условных функциях распре- деления f '(х/е ). 10. Априорная информация о фиксированной структуре ра- зомкнутой нейронной сети при построении нейронной сети с фиксированной структурой, настраивающейся по замкнуто- му циклу. 11. Априорная информация о классе структур при постро- ении нейронной сети с переменной структурой. 12. Априорная информация об отличии функционалов пер- вичной и вторичной оптимизации при построении нейронной сети с фиксированной структурой, настраивающейся по зам- кнутому циклу. 13. Априорная информация о методе поиска экстремума функционала вторичной оптимизации. 14. Априорная информация о наличии и виде ограничений на настраиваемые коэффициенты. 15. Априорная информация о методе выбора коэффициен- тов параметрической матрицы К* системы поиска экстремума функционала вторичной оптимизации. 16. Априорная информация о параметрах поисковых коле- баний в том случае, если алгоритм адаптации нейронной сети не может быть построен в виде аналитической системы. 17. Априорная информация о начальных условиях для на- стройки. 18. Априорная информация о классе типовых входных сиг- налов нейронной сети. 19. Априорная информация о степени усложнения струк- туры разомкнутой нейронной сети на каждом шаге и способе проведения данного усложнения. Объективное сравнение многослойных нейронных сетей различных типов необходимо проводить, сравнивая априор- ную информацию, данную для их построения, а также каче- ство работы многослойных нейронных сетей при типовых и реальных входных сигналах. В таблице приведено сравнение методов синтеза нейрон- ных сетей, представленных в данной книге, и методов, изло- женных в большом количестве американских работ, посвя- щенных методам обратного распространения ошибки. В приведенном ниже списке литературы указаны работы, которые стали основой данной монографии. 406
Примечание | Характеристики входных сигналов | рактеристика пространства решений 1 для любого варианта числа классов | Критерии первичной оптимизации | Российская методика: -min R (средней функции риска) - min R при p(r(=const (составляющей средней функции риска) -min R при Рхг{=Р/2 и ДР- критерии Метод обратного распределения 1976-1984 гг. сч стационарные обучение (в=1) редко самообучение (в=0) 1 равные СЧ не учитывается энергетическая функция, среднеквадратичес- кая ошибка Российские методы адаптации в многослойных нейронных сетях 1965-1971 гг., 1970-1974 гг. 2, К, континуум стационарная, нестационарная произвольная + произвольная 2, К, континуум может быть учтена средняя функция риска, без учета и при наличии ограничений на составляющие для различных классов, максимум апостериорной информации и другие критерии, соответствующие физике задач Признак методики синтеза нейронных сетей Срок разработки и опубликования Число классов образов (градаций по уровню сигнала указаний учителя о принадлежности входных образов полученному классу Характеристика стационарности входных образов, как случайных сигналов Характеристика «квалификации учителя» Собственное мнение учителя о своих способностях 1 Априорные вероятности появления классов образов | Ха Количество решений Априорная информация об условной плотности распределения вероятностей относительно образов классов Класс критериев первичной оптимизации £ ч с - еч -Л Г- ОО 407
Примечание | Структуры многослойных нейронных сетей | | Функционал вторичной оптимизации | | Методы поиска экстремума функционала вторичной оптимизации 1 | Типовые входные сигналы | Метод обратного распределения диагональная, симметричная । трехслойные сети с полными последовательными связями 1 1 1 1 1 1 1 1 Российские методы адаптации в многослойных нейронных сетях произвольная многослойные нейронные сети с полными и неполными последовательными, перекрестными и обратными связями. Произвольные структуры, адекватные решаемым задачам + + + + + + + + Признак методики синтеза нейронных сетей Матрица (функция) потерь Типы структур многослойных нейронных сетей Метод выОора функционала вторичной оптимизации, соответствующего функционалу первичной оптимизации Использование комбинированных (градиентных и случайных методов поиска) Использование метода стохастической аппроксимации Учет информации об ограничениях на настраиваемые коэффициенты (например, по величине или скорости изменения) Возможность использования поисковых колебаний Возможность фильтрации в контуре адаптации при оценке градиента функционала вторичной оптимизации Выбор начальных условий в контуре адаптации весовых коэффициентов 1 19 (Выбор типовых входных сигналов С С О z: — — 2 SO £ ОО 408
Литература 1. Аналитические самонастраивающиеся системы. Под ред. В.В. Солодовникова. - М.,Машиностроение, 1965, с.355. 2. Розенблатт Ф. Принципы нейродинамики. - М., Мир, 1965, с.480. 3. Галушкин А.И. Многослойные системы распознавания обра- 3OB.-M., МИЭМ, 1970, с.167. 4 Галушкин А.И., Юмашев С.Г. О применении кусочно-линей- ных разделяющих поверхностей в задаче распознавания обра- зов. //Труды МИЭМ, 1970, с.238-254. 5. Галушкин А.И. Синтез многослойных систем распознавания образов. - М., Энергия, 1974, с.368. 6. Galushkin A., Shmid A. Structure optimization of multilayer neural networks with cross connections. RNNS/IEEE Symposium. 1992, Oct.7-10, c. 509-520. 7. Галушкин А.И., Шмид A.B. Оптимизация структуры многослой- ных нейронных сетей с перекрестными связями. //Нейроком- пьютер, №2, 1992, с. 7-11. 8. Галушкин А.И. Континуальные модели многослойных систем распознавания образов. Автоматика и вычислительная техни- ка. Рига, АН Латв. ССР, 1977, №2, с.43-48. 9. Galushkin A. Continual neural networks. RNNS/IEEE Symposium, 7-10, Oct7, 1992, pp.1056-1067. 10. Галушкин А.И. Континуальные нейронные сети. //Нейроком- пьютер - 1992 - №2 - с.9-14. 11. Galushkin A.I. Continual neural network. Int. Joint Conf, on neural network, IJCNN’93, Nagoya, Japan, 1993, pp.345-398. 12. Галушкин А.И. Единый подход к решению задач обучения и самообучения систем распознавания образов. //Труды МИЭМ, вып.6, 1970, с.104-120. 13. Галушкин А.И. Выбор критериев первичной оптимизации и по- строение оптимальной модели систем распознавания К клас- сов в режиме обучения. /Сб. Автоматическое управление и вычислительная техника (распознавания образов). - Машгиз, вып.10, 1972, с.101-115. 14. Галушкин А.И., Зак Л.С., Тюхов Б.П. К сравнению критериев оптимизации адаптивных систем распознавания образов // Кибернетика. Киев, - №6, -1970, с.122-130. 15. Галушкин А.И. Реализация критериев первичной оптимизации в системах распознавания образов, настраивающихся по зам- кнутому циклу в режиме обучения. //Труды МИЭМ, вып. 23, 1971, с. 191-203. 16. Галушкин А.И. Анализ одного итерационного метода поиска экстремума. //Автоматика и вычислительная техника. Рига, №2, 1970, с.38-40. 409
I г 17. Цыпкин Я.З. Адаптация и обучение в автоматических систе- мах. - М., Наука, 1968, с. 399. 18. Цыпкин Я.З. Основы теории обучающихся систем. - М., Наука, 1970, с. 251. 19. Галушкин А.И., Шмид А.В. Итерационные методы поиска эк- s стремума функций многих переменных при ограничениях типа равенств.// Автоматика и вычислительная техника. Рига, №4, 1971, с.88-91. 20. Галушкин А.И., Тюхов Б.П., Чигринов В.Г. О сходимости одно- го метода случайного поиска при отыскании локальных и гло- бальных эустремумов многоэкстремальной функции//Труды МИЭМ, вып. 23, 1971, с. 205-209. 21. Растригин Л.А. Статистические методы поиска. - М., Наука, 1968, с. 376. 22. Галушкин А.И. Об алгоритмах адаптации в многослойных сис- темах распознавания образов. Докл. АН УССР, 1973. (представ- 1- лено академиком Глушковым В.М.). 23. Галушкин А.И. Методы синтеза систем распознавания образов // Труды МИЭМ, вып.6, 1970, с.133-171. 24. Викторов Н.С., Галушкин А.И. Построение и исследование си- стем распознавания образов при произвольной «квалификации учителя» // Медицинская радиоэлектроника. ВНИИ Между- народной техники, 1976, с.96-106. 25. Ванюшин В.А., Галушкин А.И. Построение и исследование мно- гослойных систем распознавания образов // Сб. Некоторые про- блемы биологической кибернетики. /Под ред. А.И.Берга. — Л., « Наука, 1972. | 26. Галушкин А.И., Василькова Т.Ф., Слободенюк В.Н., Тюхов Б.П. Анализ динамики распознавания нестационарных образов // Труды МИЭМ, вып.23, 1971, с.210-227. 27. Викторов Н.В., Галушкин А.И. Построение и исследование систем распознавания образов при произвольной «квалифи- .. кации учителя». //Медицинская радиоэлектроника. ВНИИ Международной техники , 1976. 28. Галушкин А.И., Кудрявцев А.М. Обращение матрицы с помо- щью многослойной системы из линейных пороговых элементов. =» // Кибернетика и вычислительная техника, вып.ЗЗ. - Киев, Наукова Думка, 1976. 29. Galushkin A.I. and oth. The pattern recognition system with variable structure on the base of personal computer and transputer system. SERC/DTI Transputer Initiative Mailshot, 1991, p. 56-73. ( 30. Grachev L.V., Simorov S.N. Statistical reseach into multilayer neural network. RNNS/YEEE Symp. 7-10 Oct., 1992 (1172-1178). 31. Grachev L.V., Reznitsky I.V. Synthesis of recognition systems with variable structure by three layer neural networks. RNNS/ IEEE Symp. 7-10 Oct. 1992, p. 1086-1097. 32. Gerasimova A., Grachev L. Representativeness of learning samples for paradigm of variable - structure neural networks. RNNS/ YEEE Symposium, 7-10 Oct. 1992, p. 449-456. | 33. Герасимова A.B., Грачев Л.В. К вопросу о представительно- Ж сти обучающей выборки для парадигмы нейронных сетей с А 410
переменной структурой.// Нейрокомпьютер -1992- №3/4, с.3-6. 34. Фомин Ю.И., Галушкин А.И. Методы технической диагностики сетей пороговых элементов // Техника средств связи, сер. «Системы связи», - вып.2, - 1980, с.84-94. 35. Фомин Ю.И., Галушкин А.И. О методе параллельной диагнос- тики отказов в сетях пороговых элементов. // «Электронное моделирование». -Киев: Наукова. Думка, - 1981 - №3, с.89-92. 36. Галушкин А.И., Фомин Ю.И. Об оптимальности восстанавли- вающих органов, реализующих мажоритарное голосование //Техника средств связи, сер. «Системы связи», - вып 3, - 1979, с. 56-61. 37. Галушкин А.И., Фомин Ю.И. Мажоритарное голосование и вос- станавливающие органы, его реализующие // «Кибернетика и вычислительная техника», вып.55. -Киев, Наукова. Думка, 1982, с.91-97. 38. Гилл А. Линейные последовательностные машины. -М., На- ука, 1974. 39. Фараджев Р.Г. Линейные последовательностные машины. -М., Сов. радио, 1975. 40. Галушкин А.И. Итоги развития теории многослойных нейронных сетей (1965-1995 гг.) в работах Научного центра нейрокомпьюте- ров и ее перспективы М., 1996. 411
ОГЛАВЛЕНИЕ Введение....................................................... 3 Раздел 1. Структура нейронных сетей........................... 48 Глава. 1. От логического базиса булевских элементов И, ИЛИ, НЕ к пороговому логическому базису............................... 48 1.1. Линейный пороговый элемент (нейрон)................ 48 12. Многопороговая логика............................... 51 1.3. Непрерывная логика................................. 52 1.4. Частные виды функций активации..................... 53 Глава 2. Качественные характеристики архитектур нейронных сетей......................................................... 57 2.1. Частные типы архитектур нейронных сетей............ 57 2.2. Многослойные нейронные сети с последовательными связями 60 2.3. Структурное и символическое описание многослойных нейронных сетей......................................... 62 Глава 3. Оптимизация структуры многослойных нейронных сетей с перекрестными связями....................................... 69 3.1. О критерии сложности задачи........................ 69 3.2. Одномерный вариант нейронной сети с перекрестными связями................................................. 70 3.3. Вывод верхней и нижней оценки количества областей.. 71 3.4. Частная задача оптимизации......................... 74 3.5. Оптимизация структуры по некоторым основным топологическим характеристикам.......................... 77 3.6. Оптимизация структуры многослойных нейронных сетей с Кр решениями.......................................... 81 Глава 4. Континуальные нейронные сети......................... 85 4.1. Нейроны с континуумом признаков на входе .......... 85 42. Континуум нейронов в слое........................... 86 43. Континуум нейронов слоя и дискретное множество признаков . 86 4.4. Классификация континуальных моделей слоя нейронов .... 87 Раздел 2. Оптимальные модели нейронных сетей.................. 93 Глава 5. Исследование характеристик входных сигналов нейронных сетей . 93 5.1. Постановка задачи.................................. 93 5.2. Совместный закон распределения вероятностей входного сигнала для двух классов образов........................ 95 5.3. Совместный закон распределения вероятностей входного сигнала для К классов образов.......................... 102 Глава 6. Построение оптимальных моделей нейронных сетей....... 107 6.1. Общая структура оптимальной модели................ 107 6.2. Аналитическое представление разделяющих поверхностей в типовых нейронных сетях.............................. 108 6.3. Оптимальная модель нейронной сети для многомерных сигналов е(п) и у (п).................................. 133 6.4. Априорная информация о входном сигнале нейронной сети в режиме самообучения............................. 136 6.5. О критериях первичной оптимизации нейронной сети в режиме самообучения.................................. 138 6.6. Оптимальные модели нейронной сети в режиме самообучения и при произвольной квалификации учителя .. 141 Глава 7. Анализ разомкнутых нейронных сетей.................. 146 7.1. Законы распределения аналоговой и дискретной ошибок нейронной сети......................................... 146 7.2. Выбор функционала вторичной оптимизации........... 155 412
7.3. О выборе функционала вторичной оптимизации в системе «Адалин» ............................................. 157 7.4. Формирование функционалов вторичной оптимизации, соответствующих заданному критерию первичной оптимизации........................................... 158 7.5. Континуальные модели нейронной сети............... 162 7.6. Нейронная сеть в режимах самообучения и при произвольной квалификации учителя............... 168 Глава 8. Разработка алгоритмов поиска экстремума функций многих переменных.................................................. 169 8.1. Организация процедуры поиска экстремума функционала вторичной оптимизации в многослойных нейронных сетях . . 169 8.2. Анализ итерационного метода поиска экстремума функций многих переменных..................................... 170 8.3. О методе стохастической аппроксимации ............ 173 8.4. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа равенств на переменные......................................... 173 8.5. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа неравенств на переменные......................................... 179 8.6. Алгоритм случайного поиска локальных и глобального экстремумов функций многих переменных ................ 181 8.7. Построение алгоритмов адаптации в многослойных нейронных сетях с использованием оценок производных второго порядка функционала вторичной оптимизации............. 184 Газдел 3. Адаптивные нейронные сети.......................... 190 Глава 9. Алгоритмы настройки нейронных сетей................. 190 9.1. Постановка задачи................................. 190 9.2. Нейрон с двумя и континуумом решений.............. 191 9.3. Двухслойные нейронные сети........................ 195 9.4. Многослойные нейронные сети из нейронов с континуумом решений............................................... 197 9.5. Построение нейронных сетей, настраивающихся по замкнутому циклу при ограничениях на переменные .... 199 9.6. Реализация критериев первичной оптимизации в нейронах с двумя решениями...................................... 201 9.7. Реализация критерия минимума средней функции риска в нейронах с континуумом и Кр решениями............... 203 9.8. Реализация критерия минимума средней функции риска в нейронных сетях с N" выходными каналами (слой нейронов).. 205 9.9. Реализация критерия минимума средней функции риска в многослойных нейронных сетях........................ 207 9.10. Построение замкнутых нейронных сетей нестационарных образов ............................................... 209 9.11. Построение нейронных сетей с перекрестными и обратными связями, настраивающихся по замкнутому циклу........... 211 9.12. Построение замкнутых нейронных сетей в режимах самообучения и произвольной квалификации учителя........ 213 9.13. Вывод выражений для оценок производных второго порядка функционала вторичной оптимизации.............. 215 Глава 10. Настройка континуальных нейронных сетей............ 219 10.1. Настройка нейрона с континуумом признаков........ 220 413
10.2. Настройка слоя, состоящего из континуума нейронов.. 220 10.3. Выбор параметрической матрицы для процедуры обучения континуального слоя нейронов на основе данных случайных выборок................................ 220 10.4. Выбор параметрической функции К* (i,j) на основе данных случайных выборок для процедуры обучения нейрона с континуумом признаков......................... 223 10.5. Особенности алгоритма настройки континуальной двухслойной нейронной сети.............................. 225 10.6. Три варианта реализации весовых функций континуального слоя нейронов и соответствующие им процедуры обучения . 226 10.7. Алгоритм обучения двухслойной континуальной нейронной сети с функционалом вторичной оптимизации .............. 229 10.8. Континуальный слой нейронов с кусочно-постоянными весовыми функциями...................................... 231 10.9. Континуальный слой нейронов с кусочно-линейными весовыми функциями...................................... 233 10.10. Континуальный слой нейронной сети с кусочно- постоянными весовыми функциями............................ 235 Глава 11. Выбор начальных условий при настройке нейронных сетей. Типовые входные сигналы многослойных нейронных сетей . 238 11.1.0 методах выбора начальных условий................. 238 11.2. Алгоритм детерминированного выбора начальных условий в алгоритмах настройки многослойных нейронных сетей .... 241 11.3. Выбор начальных условий в многослойных нейронных сетях... 244 11.4. Типовые входные сигналы многослойных нейронных сетей . . 249 Глава 12. Исследование замкнутых многослойных нейронных сетей . 252 12.1. Постановка задачи синтеза контура настройки многослойных нейронных сетей по замкнутому циклу..................... 252 12.2. Исследование нейрона при многомодальном распределении входного сигнала ....................................... 253 12.3. Исследование динамики частного вида нейронных сетей для распознавания нестационарных образов................ 263 12.4. Исследование динамики трехслойной нейронной сети в режиме обучения....................................... 269 12.5. Исследование нейронной сети частного вида с обратными связями................................................. 274 12.6. Исследование динамики однослойных нейронных сетей в режиме самообучения................................... 278 12.7. Двухслойная нейронная сеть в режиме самообучения... 286 12.8. 0 некоторых инженерных методах выбора параметров матриц в алгоритмах настройки многослойных нейронных сетей по замкнутому циклу............................... 296 12.9. Построение многослойной нейронной сети для решения задачи обращения матрицы................................ 297 12.10. Построение многослойной нейронной сети для решения задачи перевода чисел из двоичной системы исчисления в десятичную............................................. 300 12.11. Исследование многослойной нейронной сети при произвольной квалификации учителя.................... 301 12.12. Аналитические методы исследования нейронных сетей, настраивающихся по замкнутому циклу...................... 303 Глава 13. Синтез многослойных нейронных сетей с переменной структурой.................................................... 315 414
13.1. Последовательный алгоритм обучения нейронов первого слоя многослойной нейронной сети....................... 315 13.2. Алгоритм обучения нейронов первого слоя многослойной нейронной сети с применением метода случайного поиска локальных и глобального экстремумов функций............ 320 13.3. Анализ сходимости алгоритмов при увеличении числа гиперплоскостей........................................ 324 13.4. Алгоритм обучения нейронов второго слоя двухслойной нейронной сети......................................... 328 13.5. Алгоритм обучения второго и третьего слоев нейронов трехслойной нейронной сети............................. 337 13.6. Общая методика последовательного синтеза многослойных нейронных сетей........................................ 340 13.7. Метод обучения нейронов первого слоя многослойной нейронной сети с континуумом признаков................. 341 13.8. Использование алгоритма настройки многослойных нейронных сетей с переменной структурой для решения задачи выбора начальных условий........................ 342 13.9. 06 алгоритме самообучения многослойных нейронных сетей с переменной структурой ......................... 343 Глава 14. Выбор информативных признаков в многослойных нейронных сетях............................................. 345 14.1. Постановка задачи выбора информативных признаков в режиме обучения.................................. 345 14.2.0 структурных методах выбора информативных признаков в многослойных нейронных сетях с фиксированной структурой......................................... 348 14.3. Выбор информативных признаков исходного пространства с помощью многослойных нейронных сетей с последовательными алгоритмами настройки нейронов первого слоя....................................... 352 14.4. Минимизация числа нейронов...................... 354 14.5.0 выборе информативных признаков в многослойных нейронных сетях в режиме самообучения.............. 356 Раздел 4. Надежность и диагностика нейронных сетей.......... 357 Глава 15. Надежность нейронных сетей........................ 357 15.1. Методы исследования функциональной надежности нейронных сетей........................................ 357 15.2. Исследование функциональной надежности восстанавливающих органов, выполненных в виде многослойных нейронных сетей .......................... 360 15.3. Исследование функциональной надежности многослойных нейронных сетей........................................ 363 15.4. Исследование параметрической надежности нейронных сетей.................................................. 366 15.5. Исследование функциональной надежности многослойных нейронных сетей при наличии катастрофических отказов... 376 Глава 16. Диагностика нейронных сетей....................... 381 16.1. Граф состояний нейронной сети. Основные понятия и определения.......................................... 383 16.2. Алгоритм локализации отказов в нейронных сетях.. 385 16.3. Алгоритм построения минимального теста для отказов типа логических констант на выходах нейронов........... 395 16.4. Метод адаптивной диагностики отказов в нейронных сетях .. 397 Заключение ............................................... 405 415