Текст
                    ОСНОВЫ ИНФОРМАЦИОННЫХ
ТЕХНОЛОГИЙ
Г. Э. Яхъяева
НЕЧЕТКИЕ МНОЖЕСТВА И
НЕЙРОННЫЕ СЕТИ



Основы информационных технологий Г. Э. Яхъяева НЕЧЕТКИЕ МНОЖЕСТВА И НЕЙРОННЫЕ СЕТИ Учебное пособие Интернет-Университет Информационных Технологий www.intuit.ru БИНОМ. Лаборатория знаний www.lbz.ru Москва 2006
УДК 004.032.26+510.6 ББК22.12+32.818 Я91 Яхъяева Г. Э. Я91 Нечеткие множества и нейронные сети: Учебное пособие /Г. Э. Яхъяева. — М.: Интернет-Университет Информационных Техноло- гий; БИНОМ. Лаборатория знаний, 2006. — 316 с.: ил., табл.— (Се- рия «Основы информационных технологий») ISBN 5-94774-510-0 (БИНОМ. Л3) ISBN 5-9556-0049-3 (ИНТУИТ.РУ) Двумя популярными направлениями Artificial Intelligence являются теория нечетких множеств (fuzzy sets) и теория нейронных сетей (neuron nets). Данный курс является систематизированным вводным курсом в эти два направления. УДК 004.032.26+510.6 ББК 22.12+32.818 Издание осуществлено при финансовой и технической поддержке издательства «Открытые Системы», «РМ Телеком» и Kraftway Computers. Полное или частичное воспроизведение или размножение каким-либо способом, в том числе и публикация в Сети, настоящего издания допускается только с письменного разрешения Интсрнет-Университета Информационных Технологий. По вопросам приобретения обращаться: «БИНОМ. Лаборатория знаний» Телефон (495) 157-1902, 157-5272, e-mail: Lbz@aha.ru, http://www.Lbz.ru ISBN 5-94774-510-0 (БИНОМ. ЛЗ) ISBN 5-9556-0049-3 (ИНТУИТ.РУ) © Интернет-Университет И нформационных Технологий, 2006 © БИНОМ. Лаборатория знаний, 2006
О проекте Интернет-Университет Информационных Технологий — это первое в России высшее учебное заведение, которое предоставляет возможность получить дополнительное образование во Всемирной сети. Web-сайт уни- верситета находится по адресу www.intuit.ru. Мы рады, что вы решили расширить свои знания в области компью- терных технологий. Современный мир — это мир компьютеров и инфор- мации. Компьютерная индустрия — самый быстрорастущий сектор эко- номики, и ее рост будет продолжаться еще долгое время. Во времена жест- кой конкуренции от уровня развития информационных технологий, до- стижений научной мысли и перспективных инженерных решений зависит успех не только отдельных людей и компаний, но и целых стран. Вы вы- брали самое подходящее время для изучения компьютерных дисциплин. 11рофессионалы в области информационных технологий сейчас востребо- ваны везде: в науке, экономике, образовании, медицине и других облас- тях, в государственных и частных компаниях, в России и за рубежом. Ана- лиз данных, прогнозы, организация связи, создание программного обес- печения, построение моделей процессов — вот далеко не полный список областей применения знаний для компьютерных специалистов. Обучение в университете ведется по собственным учебным планам, разработанным ведущими российскими специалистами на основе между- народных образовательных стандартов Computer Curricula 2001 Computer Science. Изучать учебные курсы можно самостоятельно по учебникам или па сайте Интернет-Университета, задания выполняются только на сайте. Ддя обучения необходимо зарегистрироваться на сайте университета. Удостоверение об окончании учебного курса или специальности выдает- ся при условии выполнения всех заданий к лекциям и успешной сдачи и готового экзамена. Книга, которую вы держите в руках, — очередная в многотомной серии «Основы информационных технологий», выпускаемой Интернет- Университетом Информационных Технологий. В этой серии будут выпущены учебники по всем базовым областям знаний, связанным с компьютерными дисциплинами. Добро пожаловать в Интернет-Университет Информационных Технологий! Анатолий Шкред anatoli@shkred.ru
Об авторе Яхъяева Гульнара Эркиновна, кандидат физико-математических на- ук, занимается преподаванием с 1995 года. В настоящее время является доцентом кафедры общей информатики факультета информационных технологий Новосибирского Государственного Университета. Читает курсы лекций «Математическая логика», «Дискретная математика» и «Нечеткая логика». Автор 20 научных работ, регулярно принимает участие в различных международных конференциях. Область научных интересов — искусственный интеллект, нечеткая логика, приложения математиче- ской логики в программировании и лингвистике. В настоящее время занимается исследованием теоретико-модель- ных свойств нечётких алгебраических систем, применением нечётких ал- гебраических систем для построения формальных моделей предметных областей и процессов обработки информации. Ряд исследовательских проектов автора был поддержан грантами Министерства образования Российской Федерации и Роснауки.
Оглавление Лекция 1. Нечеткие множества как способы формализации нечет- кости ............................................... 10 Основные определения.................................. 10 Принцип обобщения..................................... 14 Нечеткие операторы ................................... 16 Лекция 2. Нечеткие отношения............................. 19 Основные определения.................................. 19 Операции над нечеткими отношениями.................... 20 Свойства нечетких отношений........................... 22 Декомпозиция нечетких отношений................. ... 24 Транзитивное замыкание нечетких отношений............. 25 Проекции нечетких отношений........................... 26 Лекция 3. Классы нечетких отношений...................... 28 Отношения сходства и различия......................... 29 Задачи нечеткой классификации......................... 31 Порядки и слабые порядки.............................. 32 Задачи нечеткого упорядочения......................... 36 Лекция 4. Показатель размытости нечетких множеств. Нечеткие ме- ры и интегралы....................................... 39 Аксиоматический подход к определению показателя размыто- сти нечеткого множества............................ 40 Метрический подход к определению показателя размытости нечет- ких множеств....................................... 41 Связь показателя размытости с алгебраическими свойствами ре- шетки нечетких множеств............................ 42 Нечеткие меры......................................... 44 Супераддитивные меры.................................. 46 Субаддитивные меры.................................... 47 Нечеткие интегралы.................................... 49 Применение нечетких мер и интегралов для решения слабо структурированных задач............................ 50 5
Нечеткие множества и нейронные сети Лекция 5. Методы построения функции принадлежности. Класси- фикация ............................................... 52 Типы шкал.............................................. 53 Методы измерений....................................... 55 Методы проведения групповой экспертизы................. 55 Классификация методов построения функции принадлежности 57 Лекция 6. М етоды построения функции принадлежности. Обзор основ- ных методов............................................ 60 Прямые методы для одного эксперта...................... 60 Косвенные методы для одного эксперта................... 62 Прямые методы для группы экспертов..................... 65 Косвенные методы для группы экспертов.................. 66 Методы построения терм-множеств........................ 68 Лекция 7. Нечеткие числа и операции над ними.............. 71 Основные определения................................... 71 Нечеткие треугольные числа............................. 74 Четкие арифметики нечетких треугольных чисел........... 76 Размытые арифметики нечетких треугольных чисел ........ 79 Лекция 8. Нечеткая логика ................................ 82 Операции отрицания..................................... 84 Операции конъюнкции и дизъюнкции....................... 87 Лекция 9. Лингвистическая нечеткая логика.................. 91 Понятие лингвистической переменной...................... 91 Лингвистические переменные истинности.................. 95 Логические связки в нечеткой лингвистической логике.... 96 Значения истинности НЕИЗВЕСТНО и НЕ ОПРЕДЕЛЕНО . . 99 Лекция 10. Теория приближенных рассуждений.................101 Композиционное правило вывода........................... 101 Правило modus ponens как частный случай композиционного правила вывода .....................................103 Нечеткие экспертные системы............................. 104 Лекция 11. Нечеткие алгоритмы..............................112 Формализация понятия нечеткого алгоритма................112 Способы выполнения нечетких алгоритмов..................117 Представление нечеткого алгоритма в виде графа.......... 118 6
Оглавление Лекция 12. Нечеткие алгоритмы обучения....................120 Обучающийся нечеткий автомат.......................... 120 Обучение на основе условной нечеткой меры............. 124 Адаптивный нечеткий логический регулятор ..............126 Алгоритм формирования нечеткого отношения предпочтения 128 Алгоритм уточнения лингвистических критериев.......... 131 Лекция 13. Алгоритмы нечеткой оптимизации ................132 Нечеткие цели, ограничения и решения.................. 132 Задачи нечеткого математического программирования.....135 Модели нечеткой ожидаемой полезности...................140 Лекция 14. Алгоритмы нечеткого контроля и управления .....142 Игры в нечетко определенной обстановке . . ...........142 Многошаговые процессы принятия решений.................144 Особенности контроля и управления в условиях стохастической неопределенности.................................. 146 Контроль и управление динамическими системами в нечетких условиях ......................................... 147 Лекция 15. Основы искусственных нейронных сетей...........152 Биологический прототип.................................152 Искусственный нейрон.................................. 153 Однослойные искусственные нейронные сети...............156 Многослойные искусственные нейронные сети..............157 Обучение искусственных нейронных сетей............... 159 Лекция 16. Персептроны. Представимость и разделимость....162 Персептроны и зарождение искусственных нейронных сетей . . 162 Персептронная представляемость........................ 164 Проблема функции ИСКЛЮЧАЮЩЕГО ИЛИ......................165 Линейная разделимость . ...............................167 Преодоление ограничения линейной разделимости..........168 Эффективность запоминания..............................170 Лекция 17. Персептроны. Обучение персептрона..............172 Обучение персептрона...................................172 Алгоритм обучения однослойного персептрона.............173 Целочисленность весов персептронов ................... 175 Двуслойность персептрона...............................176 Трудности с алгоритмом обучения персептрона............178 7
Нечеткие множества и нейронные сети Лекция 18. Процедура обратного распространения (описание алго- ритма) . 180 Введение в процедуру обратного распространения.........180 Обучающий алгоритм обратного распространения...........181 Дальнейшие алгоритмические разработки..................189 Применение........................................... 190 Лекция 19. Процедура обратного распространения (анализ алгорит- ма) ...................................................191 Переобучение и обобщение ..............................191 Отбор данных.......................................... 193 Как обучается многослойный персептрон................. 194 Предостережения........................................197 Лекция 20. Сети встречного распространения . 200 Введение в сети встречного распространения . . . . ....200 Структура сети.........................................201 Нормальное функционирование ...........................202 Обучение слоя Кохонена . ..............................203 Обучение слоя Гроссберга ..............................210 Сеть встречного распространения полностью ............211 Приложение: сжатие данных .............................212 Лекция 21. Стохастические методы обучения нейронных сетей . . 214 Использование обучения.................................214 Больцмановское обучение................................217 Обучение Коши..........................................219 Метод искусственной теплоемкости .................... 220 Обратное распространение и обучение Коши...............221 Экспериментальные результаты ..........................224 Лекция 22. Нейронные сети Хопфилда и Хэмминга.............226 Конфигурации сетей с обратными связями ................227 Бинарные системы.......................................228 Устойчивость...........................................232 Ассоциативность памяти и задача распознавания образов .... 233 Лекция 23. Обобщения и применения модели Хопфилда.........237 Модификации правила Хэбба..............................237 Алгоритмы разобучения (забывания) ... 238 Непрерывные системы....................................239 Сети Хопфилда и машина Больцмана.......................240 Приложения.............................................242 8
Оглавление Обсуждение ............................................247 Лекция 24. Двунаправленная ассоциативная память ..........250 Структура ДАП .........................................250 Восстановление запомненных ассоциаций..................252 Кодировка ассоциаций...................................254 Емкость памяти.........................................255 Непрерывная ДАП .......................................257 Адаптивная ДАП ........................................258 Конкурирующая ДАП..................................... 258 Лекция 25. Адаптивная резонансная теория. Архитектура.....260 Принцип адаптивного резонанса..........................261 Архитектура APT .......................................263 Функционирование сети APT в процессе классификации .... 267 Лекция 26. Теория адаптивного резонанса. Реализация ......272 Функционирование сетей APT . ..........................272 Пример обучения сети APT ............................. 276 Характеристики APT.....................................278 Дальнейшее развитие APT: архитектуры АРТ-2 и АРТ-3.....282 Лекция 27. Когнитрон......................................284 Структура сети.........................................286 Обучение когнитрона....................................287 Когнитрон как модель зрительной коры мозга.............294 Результаты моделирования...............................295 Лекция 28. Неокогнитрон...................................297 Лекция 29. Алгоритмы обучения.............................305 Обучение с учителем и без учителя......................305 Метод обучения Хэбба...................................306 Входные и выходные звезды............................ 307 Обучение персептрона...................................309 Метод обучения Уидроу—Хоффа............................311 Метод статистического обучения.........................311 Самоорганизация........................................312 9
Нечеткие множества и нейронные сети Лекция 1. Нечеткие множества как способы формализации нечеткости В лекции формулируется определение нечеткого множества, описы- ваются характеристики нечетких множеств. Приводится классификация нечетких множеств по области значений функции принадлежности. Дает- ся аксиоматическое описание операторов для построения алгебры нечетких множеств. Ключевые слова: нечеткое множество; функция принадлежности; принцип обобщения; треугольная норма; треугольная конорма. Основные определения Теория нечетких множеств представляет собой обобщение и пере- осмысление важнейших направлений классической математики. У ее ис- токов лежат идеи и достижения многозначной логики, которая указала на возможности перехода от двух к произвольному числу значений истинно- сти и поставила проблему оперирования понятиями с изменяющимся со- держанием; теории вероятностей, которая, породив большое количество различных способов статистической обработки экспериментальных дан- ных, открыла пути определения и интерпретации функции принадлеж- ности; дискретной математики, которая предложила инструмент для по- строения моделей многомерных и многоуровневых систем, удобный при решении практических задач. Подход к формализации понятия нечеткого множества состоит в обобщении понятия принадлежности. В обычной теории множеств су- ществует несколько способов задания множества. Одним из них является задание с помощью характеристической функции, определяемой следу- ющим образом. Пусть U — так называемое универсальное множество, из элементов которого образованы все остальные множества, рассматрива- емые в данном классе задач, например множество всех целых чисел, мно- жество всех гладких функций и т. д. Характеристическая функция множе- ства А С U — это функция р,а, значения которой указывают, является ли х G U элементом множества А: , . [ 1, если х € А, (х) — < _ если т d л I V, CVJ1J-T X t /1. Особенностью этой функции является бинарный характер ее значе- ний. 10
Лекция 1 Нечеткие множества как способы формализации нечеткости С точки зрения характеристической функции, нечеткие множества есть естественное обобщение обычных множеств, когда мы отказываем- ся от бинарного характера этой функции и предполагаем, что она мо- жет принимать любые значения на отрезке [0,1]. В теории нечетких мно- жеств характеристическая функция называется функцией принадлежно- сти, а ее значение /тд(.т) — степенью принадлежности элемента х нечет- кому множеству А. Более строго, нечетким множеством А называется совокупность пар А = {{х,рА(х)) |ж е С7}, где рА — функция принадлежности, т. е. /м -.U —» [0,1]. Пусть, например, U = {а, Ь. с, d, е} , А = {(а, 0), (fe, 0,1), (с, 0,5), (d, 0,9), (е, 1)} . Будем говорить, что элемент а не принадлежит множеству А, элемент Ь принадлежит ему в малой степени, элемент с более или менее принадле- жит, элемент d принадлежит в значительной степени, е является элемен- том множества А. Пример 1. Пусть универсум U есть мно- жество действительных чисел. Нечеткое множество А, обозначающее множество i чисел, близких к 10 (см. рис. 1.1), можно задать следующей функцией принадлеж- ности: 0 = (1 + |ж - ЮГЕ1, где т е N. Показатель степени т выбирается в зависимости от степени близо- сти к 10. Например, для описания множества чисел, очень близких к 10, можно положить т = 4; для множества чисел, не очень далеких от 10, т = 1. Пример 2. Коротко остановимся на понятии лингвистической перемен- ной (более детальное изучение будет в последующих лекциях). Лингви- стическую переменную можно определить как переменную, значения- ми которой являются не числа, а слова или предложения естественного (или формального) языка. Например, лингвистическая переменная «воз- раст» может принимать следующие значения: «очень молодой», «моло- дой», «среднего возраста», «старый», «очень старый» и др. Ясно, что пере- менная «возраст» будет обычной переменной, если ее значения — точные 11
Нечеткие множества и нейронные сети числа; лингвистической она становится, будучи использованной в нечет- ких рассуждениях человека. Рис. 1.2 Каждому значению лингвистической пере- менной соответствует определенное нечеткое мно- жество со своей функцией принадлежности. Так, лингвистическому значению «молодой» может со- ответствовать функция принадлежности, изобра- женная на рис. 1.2. Над нечеткими множествами можно произ- водить различные операции, при этом необходимо определить их так, чтобы в частном случае, когда множество является четким, операции переходили в обычные операции теории множеств, то есть операции над нечеткими множествами должны обобщать соответствующие операции над обычны- ми множествами. При этом обобщение может быть реализовано различ- ными способами, из-за чего какой-либо операции над обычными мно- жествами может соответствовать несколько операций в теории нечетких множеств. Для определения пересечения и обзединения нечетких множеств наибольшей популярностью пользуются следующие три группы опера- ций: 1. Максиминные: Р-Аив(х) = тах{рл(ж),Рв(ж)} , рдгв(-'г) = min {/м(.т),///>(.?)} 2. Алгебраические: рдив(ж) = /м(ж) + рв(ж) - ^а(ж)/хв(ж), рдпв = рд(ж)рв(ж). 3. Ограниченные: рдив(ж) =тт{1,дгд(я:)4-/1в(ж)}, /Мпв(ж) = тах{0,рд(ж) + MbW “ 1} Дополнение нечеткого множества во всех трех случаях определяется одинаково: = 1 - Пример. Пусть А — нечеткое множество «от 5 до 8» (рис. 1.3 а) и В — нечеткое множество «около 4» (рис. 1.36), заданные своими функциями принадлежности: 12
Лекция 1 Нечеткие множества как способы формализации нечеткости Рис. 1.4 Тогда, используя максиминные операции, мы получим множества, изображенные на рис. 1.4. Заметим, что при максиминном и алгебраическом определении опе- раций не будут выполняться законы противоречия и исключения третье- го АпА^0, А U Л U, а в случае ограниченных операций не будут выполняться свойства идемпотентности Аи А А А, АпА^Ам дистри- бутивности: A U (В П С) ± (X П В) U (А Г) С), А П (В U С) ± (A U В) П (X U С). Можно показать, что при любом построении операций объединения и пересечения в теории нечетких множеств приходится отбрасывать либо законы противоречия и исключения третьего, либо законы идемпотент- ности и дистрибутивности. Носителем нечеткого множества X называется четкое множество X таких точек в U, для которых величина //д(.т) положительна, т. е. X = = {ж|рд(а;) > 0}. Высотой нечеткого множества X называется величина sup рд (х). и Нечеткое множество X называется нормальным, если sup //д(.т) = 1. и В противном случае оно называется субнормальным. Нечеткое множество называется пустым, если \fx 6 U (рд (х) = 0). 13
Нечеткие множества и нейронные сети Очевидно, что в данном универсуме U существует единственное пустое нечеткое множество. Непустое субнормальное нечеткое множество мож- но привести к нормальному (нормализовать) по формуле Мд(Д = Ра(х) SUp Ра(х)' и Множеством уровня а (а-срезом) нечеткого множества А называет- ся четкое подмножество универсального множества U, определяемое по формуле Аа = {ж|^д(ж) а} , где а е [0,1]. Множество строгого уровня определяется в виде Аа = {х^рА (ж) > а}. В частности, носителем нечеткого множества является множество эле- ментов, для которых рА (ж) > 0. Понятие множества уровня является рас- ширением понятия интервала. Оно представляет собой объединение не более чем счетного числа интервалов. Соответственно, алгебра интерва- лов есть частный случай алгебры множеств уровня. Точка перехода нечеткого множества А — это такой элемент х е U, для которого ра (х) = 0,5. Четкое множество А*, ближайшее к нечеткому множеству А, опре- деляется следующим образом: рА. (ж) = < 0, если ид (ж) < 0,5; 1, если ра (ж) > 0,5; 0 или 1, в противном случае. Нечеткое множество А в пространстве U = Rn называется выпук- лым нечетким множеством тогда и только тогда, если его функция при- надлежности выпукла, т. е. для каждой пары точек ж и у из U функция принадлежности удовлетворяет неравенству Ид(Аа? + (1 - Х)у) min {//Дж), //ДД}, Для любого Л G [0,1]. Принцип обобщения Принцип обобщения как одна из основных идей теории нечетких множеств носит эвристический характер и позволяет расширить область определения исходного отображения </? на класс нечетких множеств. Пусть : U —» V — заданное отображение, и А — нечеткое множество, заданное 14
Лекция 1 Нечеткие множества как способы формализации нечеткости в U. Тогда образ нечеткого множества А при отображении есть нечеткое множество В, заданное в У с функцией принадлежности Рв(у) = sup рд (ж). Виды области значений функции принадлежности Все нечеткие объекты можно классифицировать по виду области значений функции принадлежности. Помимо интервала [0,1], функция принадлежности может принимать свои значения в интервале [—1,1], на числовой прямой R, а также в различных множествах, наделенных некой структурой. Исторически первым обобщением понятия нечеткого множества ста- ли L-нечеткие множества, т. е. множества, у которых функции принад- лежности принимают свои значения в конечной или бесконечной дис- трибутивной решетке L. Важным практическим приложением для формулировки качествен- ных представлений и оценок человека в процессе решения задачи служит случай S-нечетких множеств, где S — конечное линейно упорядочен- ное множество. Например, это может быть набор значений лингвистиче- ской переменной «КАЧЕСТВО» = {«плохое», «среднее», «хорошее», «от- личное»}. Гетерогенные нечеткие множества В том случае, когда набор нечетких множеств Ai; г = 1,... ,т в U соответствует т различным свойствам рассматриваемого объекта, каж- дый элемент х е U характеризуется вектором значений принадлежности (pi(a?),... ,рт(ж)), выражающим степень соответствия этим свойствам. Таким образом, строится функция р : С7 —> [0,1]т, где [0,1]т — полная решетка. Дальнейшим обобщением понятия нечеткого множества является понятие гетерогенного нечеткого множества. По признаку однородно- сти / неоднородности области значений функции принадлежности все описанные выше виды нечетких множеств являются гомогенными в том смысле, что одна и та же структура области значений функции принад- лежности берется при оценке всех элементов универсального множе- ства U. Если же допустить, что на различных элементах универсального множества U функция принадлежности может принимать свои значения из различных наиболее подходящих математических структур, то мы при- ходим к понятию гетерогенного нечеткого множества. Гетерогенные нечеткие множества и связанные с ними составные лингвистические переменные высокого порядка позволяют моделиро- 15
Нечеткие множества и нейронные сети вать ситуации многокритериального принятия решения, когда имеются признаки как с количественными, так и с порядковыми шкалами. Нечеткие операторы Важным вопросом использования нечетких множеств в прикладных задачах является построение соответствующих операторов агрегирования нечеткой информации и анализ их семантик. В теории нечетких множеств имеется возможность применять различные операции объединения, пе- ресечения и дополнения множеств в зависимости от контекста и ситу- ации. Основные бинарные операции над нечеткими множествами были описаны выше. Однако можно показать, что для любых нечетких мно- жеств операторы F = min и G — max являются единственно возможны- ми операторами пересечения и объединения при выполнении следующих свойств: 1. Коммутативность: F(pa, рв) = pa), G(pA, рв) = G(p,B, /м). 2. Ассоциативность: F{pa,F(pb,Pc) = F(F(pa-,pb),pc), G(pa,G(pb,Pc) = G(G(ha,Pb),pc) 3. Дистрибутивность: F(pa, С(рв,рс) = G(F(pa,Pb),F(a,Pc)), G(jia, F(pB,pc) = F(G(pA, Рв), GQja, hc))- 4. Монотонность: PA < He, Рв Pd => F(pa , Рв) < F(nc. Vd), G(pA, Pb) $ G(/XC, /w)- Pa < ив => F(/m, /м) < F{pB, рв), G(pA, pa) < G(pb, Рв)- F(l,l) = l, G(0,0) = 0. F(pa-Pb) < тт{ил,ив}- G(pa,Pb) > max {p.A, Рв} С другой стороны, ясно, что жесткие, поточечно однозначные опе- раторы недостаточно полно отражают смысл многозначных лингвисти- ческих преобразований термов лингвистических переменных. Поэтому большой практический интерес представляет построение обобщенных нечетких операторов, т. е. параметризованных операторов пересечения, 16
Лекция 1 Нечеткие множества как способы формализации нечеткости объединения, дополнения и др. Весьма общий и изящный подход к целе- направленному формированию нечетких операторов пересечения и объ- единения заключается в их определении в классе треугольных норм и ко- норм. Определение. Треугольной нормой (сокращенно t-нормой) называется двухместная действительная функция Т : [0,1] х [0,1] —» [0,1], удовле- творяющая следующим условиям: 1. Ограниченность: Т(0,0) — 0, Т(рд, 1) = Т(1, рд) = Ра- 2. Монотонность: рд < pc, рв Pd => Т(рд,рв) T{pc,Pd)- 3. Коммутативность: Т(рд,рв) = Т(рв,рл)- 4. Ассоциативность: Т(рд, Т(рв, рс) = Г(Г(рд, рв), рс)- Треугольная норма Т является архимедовой, если она непрерывна и для любого нечеткого множества рд выполнено неравенство Т(рд, рд) < рд. Она называется строгой, если функция Т строго возрас- тает по обоим аргументам. Примерами треугольных норм являются сле- дующие операторы: 'I'vhpA, Рв) 7пш1п(рд, рв) min {ра, рв}, Тр^рл, рв) = Ра- Рв, Гтах(рд, рв) = max {0, рд + рв - 1} , рд, если рв = 1, рв, если рд = 1, 0 в противном случае. Определение. Треугольной конормой (сокращенно t-конормой) называ- ется двухместная действительная функция ± : [0,1] х [0,1] —> [0,1], удо- влетворяющая следующим условиям: 5. Ограниченность: ±(1,1) = 1, ±(рд,0) — ±(0, рд) = Ра- 6. Монотонность: рд рс, Рв PD => -Ц.рл,рв) -L(pc, Pd)- 7. Коммутативность: -L(pa, рв) = -Ц/'в, рд). 8. Ассоциативность: ±(рд, ±(рв, рс) = -Ц-Црд, рв), рс)- Треугольная конорма ± является архимедовой, если она непрерывна и для любого нечеткого множества рд выполнено неравенство ±(рд, рд) > рд. Она называется строгой, если функция ± строго убывает 17
Нечеткие множества и нейронные сети но обоим аргументам. Примерами треугольных конорм являются следу- ющие операторы: -Lmax(/M, Ив) = ШЙХ {jlA, Ив} , -Lp(pA,^в) — иа + цв — Ра Ив, -1-т1п(ЛА,Лв) = min{l,/M + рв] , ^-w{pa,Pb} — • И А, рв, о если ив = О, если иа = О, в противном случае. В теории нелегких множеств оператор дополнения не является един- ственным. Помимо общеизвестного Va; Д(ж) = 1— и(%), существует целый набор операторов дополнения нечеткого множества. Пусть задано некоторое отображение А : [0,1] —» [0,1]. Это отоб- ражение будет называться оператором отрицания в теории нечетких мно- жеств, если выполняются следующие условия: (1) А(0) = 1, А(1) = О, (2) иа < Ив => А(/гд) > А(^в). Если кроме этого выполняются условия: (3) А — строго убывающая функция, (4) А — непрерывная функция, то она называется строгим отрицанием. Функция А называется сильным отрицанием или инволюцией, если наряду с условиями (1)и(2) для нее справедливо: (5) А(А(д))=д. Приведем примеры функции отрицания: • Классическое отрицание: А(/г) = р(к) = 1 — р(х). • Квадратичное отрицание: А(^) = д/1 - р2. • Отрицание Сугено: А(^л) = где — 1 < к < оо. п х/ \ f 1, если р а, • Дополнение порогового типа: А(н) = •{ ’ Г у 1 ( 0, если и > а- Будем называть любое значение А, для которого Х(р) = и, равновес- ной точкой. Для любого непрерывного отрицания существует единствен- ная равновесная точка. 18
Лекция 2 Нечеткие отношения Лекция 2. Нечеткие отношения В лекции определяется понятие нечеткого отношения, описываются свойства нечетких отношений и операции над ними. Рассматриваются во- просы декомпозиции и транзитивного замыкания нечетких отношений. Да- ется определение проекции нечеткого отношения. Ключевые слова: нечеткое отношение, транзитивное замыкание, проекция нечеткого отношения. Нечеткие отношения играют фундаментальную роль в теории нечет- ких систем. Аппарат теории нечетких отношений используется при по- строении теории нечетких автоматов, при моделировании структуры слож- ных систем, при анализе процессов принятия решений. Основные определения Теория нечетких отношений находит также приложение в задачах, в которых традиционно применяется теория обычных (четких) отноше- ний. Как правило, аппарат теории четких отношений используется при качественном анализе взаимосвязей между объектами исследуемой си- стемы, когда связи носят дихотомический характер и могут быть про- интерпретированы в терминах «связь присутствует», «связь отсутству- ет», либо когда методы количественного анализа взаимосвязей по каким- либо причинам неприменимым взаимосвязи искусственно приводятся к дихотомическому виду. Например, когда величина связи между объекта- ми принимает значения из ранговой шкалы, выбор порога на силу свя- зи позволяет преобразовать связь к требуемому виду. Однако, подобный подход, позволяя проводить качественный анализ систем, приводит к по- тере информации о силе связей между объектами либо требует проведе- ния вычислений при разных порогах на силу связей. Этого недостатка ли- шены методы анализа данных, основанные на теории нечетких отноше- ний, которые позволяют проводить качественный анализ систем с учетом различия в силе связей между объектами системы. Обычное неразмытое n-арное отношение R определяется как под- множество декартова произведения п множеств R С Xi х Х2 х ... х Хп. Подобно нечеткому множеству, нечеткое отношение можно задать с помощью его функции принадлежности /з/г : Xi х ... х Хп -> L, 19
Нечеткие множества и нейронные сети где в общем случае будем считать, что L — это полная дистрибутивная решетка. Таким образом, L — это частично упорядоченное множество, в котором любое непустое подмножество имеет наибольшую нижнюю и наименьшую верхнюю грани и операции пересечения и объединения в L удовлетворяют законам дистрибутивности. Все операции над нечеткими отношениями определяются с помощью этих операций из L. Например, если в качестве L взять ограниченное множество вещественных чисел, то операциями пересечения и объединения в L будут, соответственно, опе- рации min и max, и эти операции будут определять и операции над нечет- кими отношениями. Далее мы ограничимся рассмотрением лишь бинарных нечетких от- ношений, являющихся отображением на отрезок [0,1], т. е. рд: X х Y —> [0,1]- Если множества X и Y конечны, нечеткое отношение R между X и Y можно представить с помощью его матрицы отношения, первой строке и первому столбцу которой ставятся в соответствие элементы множеств X и У, а на пересечении строки х и столбца у помещается элемент у) (см. табл. 2.1). Таблица 2.1 У1 У2 Уз У4 Xi 0 1 0,5 0,8 •T2 0,7 0 0,6 0,3 X3 o 0,7 1 0,4 В случае, когда множества X и У совпадают, нечеткое отношение R называют нечетким отношением на множестве X. В случае конечных или счетных универсальных множеств очевидна интерпретация нечеткого отношения в виде взвешенного графа, в котором каждая пара вершин (х, у) из X х У соединяется ребром с весом R(x, у). Пример. Пусть X = ад, х^ и У = щ, у2, уз, тогда нечеткий граф, изобра- женный на рис 2.1, задает некоторое нечеткое отношение R с X х У. Операции над нечеткими отношениями Объединение и пересечение нечетких отношений определяется сле- дующим образом: V.t 6 X Ху G У V.t G X Xy G У R U S (t, y) = R(x, у) V S(x, y), RnS (x,y) = R(x, у) Л S(x,y) 20
Лекция 2 Нечеткие отношения Рис. 2.1. Отношение включения R С S для нечетких отношений определяется с помощью отношения частичного порядка на L; VxtXVyeY RQS &.R(x,y)^S(x,y). Множество р (X х Y) всех нечетких отношений между X и Y образу- ет дистрибутивную решетку по отношению к операциям объединения и пересечения и удовлетворяет следующим тождествам: ]. Идемпотентность: R(~]R = R, 2. Коммутативность- R П S = S О R, 3. Ассоциативность: Rn(SQT) = (RKS)riT, 4. Дистрибутивность: Rn(SUT) = (RAS)U(RnT), R U R = R. RUS = SUR. RU(SUT) = (RUJS)UT. R U (S П T) = (R U S) П (R U T) Выполнение этих тождеств для р (X xY) следует из выполнения со- ответствующих тождеств для решетки L. В р (X х Y) выполняется также следующее соотношение: SCT => RuSQRuT. RQS = RnT. Из полноты решетки L следует, что она обладает наименьшим 0 и наибольшим I элементами. Эти элементы определяют, соответственно, пустое и универсальное нечеткие отношения: V.t \/у ©(х, у) — 0, V.tV?/ U(х, у) = I. 21
Нечеткие множества и нейронные сети Следующее соотношение определяет композицию Ro S нечетких от- ношений R и S: УхеХХ/zeZ RoS(x,z) = V (R(x,y) R S(y,z)). yEY Здесь V обозначает наименьшую верхнюю грань множества эле- ysY ментов (R(x, у) A S(y, z)), где у пробегает все значения из Y. В силу пол- ноты L эта операция всегда определена. Существуют и другие варианты операции композиции, которые определяются с помощью дополнительных операций, выводимых в L. В зависимости от того, является ли L множеством векторов, множеством лингвистических переменных или множеством чисел, эти дополнитель- ные операции будут иметь соответствующий вид. Например, если L яв- ляется множеством действительных чисел, то операция А может быть за- менена на операцию взятия среднего арифметического, что дает другое определение операции композиции: VxeXVzeZ R о S(x,y) = у (0,5(R(x,y) + S(y,z))). y<=Y В случае L = [0,1] мы имеем Vx G X Vz е Z /zhos(t,z) = У (1лк(х,у) /\p.s(x,y)). ееУ Замена операции А на операцию умножения дает следующее опре- деление композиции: Vt € XVz 6 Z рдод(я;, z) = V (jj.r(x, у)-[1з(х,уУ)- ее И Нечеткое отношение Е такое, что I, если х = у, О, в противном случае. играет по отношению к операции композиции роль единицы: Е о R = = R о Е = R. В теории четких отношений отношение Е называется отно- шением равенства. Для любого нечет кого отношения R определяется также обратное от- ношение Я-1: Ух,у е X Е~г(х,у) = R(x,y). Свойства нечетких отношений Различные типы нечетких отношений определяются с помощью свойств, аналогичных свойствам обычных отношений, причем для нечетких отно- шений можно указать различные способы обобщения этих свойств. Е(х,у) — 22
Лекция 2 Нечеткие отношения 1. Рефлексивность'. Е С R, УхеХ R(x, я?) = I. 2. Слабая рефлексивность'. Ух,у € X R(x,y) С R(x,x). 3. Сильная рефлексивность: Ух, у € X R(x,y) < I. 4. Антирефлексивность: RrE — 0 Ух Е X R(x,х) = 0. 5. Слабая антирефлексивность: Ух, у € X R(x,x) С R(x,y). 6. Сильная антирефлексивность: Ух, у е X 0 < R(x, у). 7. Симметричность: R=R~\ Ух, у 6 X R(x, у) = R(y,x). 8. Антисимметричность: RCRC^QE, Ух,у € Х(х ф у) R(x,y) A R(y,x) = 0. 9. Асимметричность: RC\R~i = 0, Ух, у £ X R(x,y) A R(y,x) = 0. 10. Сильная линейность: RUR~1=U, Ух,уеХ R(x,y)y R(y,x) = I. 11. Слабая линейность: Ух, у е X R(x, у) V R(y, х) > 0. 12. Транзитивность: R^RoR, Ух,у,гЕХ R(x,z) R(x,y) A R(y,z). 23
Нечеткие множества и нейронные сети Декомпозиция нечетких отношений Одно из важнейших свойств нечетких отношений заключается в том, что они могут быть представлены в виде совокупности обычных отноше- ний, причем могут быть упорядочены по включению, представляя собой иерархическую совокупность отношений. Разложение нечеткого отноше- ния на совокупность обыкновенных отношений основано на понятии а- уровня нечеткого отношения. Здесь для простоты будем полагать, что L линейно упорядочено. a-уровнем нечеткого отношения R называется обычное отношение Ra, определяемое для всех а > 0 следующим образом: Ra = {{х,у) е Х2|й(я:,у) о} . Очевидно, что «-уровни нечетких отношений удовлетворяют соотно- шению: « ^ /3 => Ra Q R/з, представляя собой совокупность вложенных друг в друга отношений. Теорема. Нечеткое отношение R обладает каким-либо свойством из пе- речисленных (кроме сильной рефлексивности, сильной антирефлексивности, слабой линейности) тогда и только тогда, если этим свойством обладают все его а-уровни. Эта теорема играет важную роль в теории нечетких отношений. Во- первых, она показывает, что основные типы обычных отношений и их свойства могут быть обобщены и на случай нечетких отношений, и приво- дит ясный способ такого обобщения. Во-вторых, оказывается, что основ- ные типы нечетких отношений могут быть представлены как совокуп- ность, иерархия обычных отношений того же типа. И если решени- ем практической задачи является получение на множестве X некоторо- го отношения заданного типа, например эквивалентности или порядка, то построение на X соответствующего нечеткого отношения позволяет получать сразу ансамбль необходимых обычных отношений, а это дает возможность учитывать неоднозначность решений, присущих практиче- ским ситуациям, и предоставляет лицу, принимающему решение, неко- торую свободу выбора. В-третьих, теория нечетких множеств, допуская подобную неоднозначность возможных решений, ограничений и целей, дает возможность оперировать сразу всей совокупностью таких объектов как единым целым. Нечеткое отношение R может быть представлено в следующем виде: R = U aRa, а 24
Лекция 2 Нечеткие отношения aRa(x,y') = где отношения aRa определяются следующим образом: а, если Ra(x, у) = 1, О в противном случае. Кроме всех вышеописанных свойств, выполняющихся для всех си- уровней, могут быть определены аналогичные свойства, выполняющиеся только для одного или нескольких ct-уровней. Приведем примеры таких «-свойств, предполагая, что элемент а фиксированный: а-симметричность Чх,у G X R(x,y) а => R(y,x)^a; а -транзитивност ь \/x,y,zeX R(x,y) a, R(y, z) а => R(x, z) R(x, у) Л R(y, х). Аналогично могут быть определены и другие a-свойства. Они мо- гут рассматриваться в задачах, в которых вводит ся порог на силу отноше- ния R либо ищется такое а, при котором Ra обладает требуемым свой- ством. Транзитивное замыкание нечетких отношений Большое значение в приложениях теории нечетких отношений игра- ют транзитивные отношения. Они обладают многими удобными свой- ствами и определяют некоторую правильную структуру множества X. Например, если отношение R в X характеризует сходство между объекта- ми, то транзитивность такого отношения обеспечивает возможность раз- биения множества X на непересекающиеся классы сходства. Если же от- ношению в X придать смысл «предпочтения» или «доминирования», то транзитивность такого отношения обеспечивает возможность естествен- ного упорядочения объектов множества X, существование «наилучших», «недоминируемых» объектов и т. п. Поэтому представляет большой инте- рес возможность преобразования исходного нетранзитивного отношения в транзитивное. Такое преобразование обеспечивает операция транзитив- ного замыкания нечеткого отношения. Транзитивным замыканием отношения R называется отношение R, определяемое следующим образом: R = R1 U R2 U... U Rk U ..., 25
Нечеткие множества и нейронные сети где отношения Rk определяются рекурсивно: R1 = R, Rk = R1*-1 oR, fc= 2,3,4,.... Теорема. Транзитивное замыкание R любого нечеткого отношения R тран- зитивно и является наименьшим транзитивным отношением, включаю- щим R, т.е. R С R, и для любого транзитивного отношения Т, такого, что RCT, следует RCT. Как следствие из данной теоремы получаем, что R транзитивно то- гда и только тогда, если R= R. Если множество X содержит п элементов, то имеем Я = Я1 U Я2 U . . U Я". В случае, когда R рефлексивно, имеем Я С Я1 С ... С Я"'1 = Я" = Я”+1 = ... Весьма полезным фак тором является то, что «-уровень транзитивно- го замыкания нечеткого отношения Я совпадает с транзитивным замыкани- ем соответствующего «-уровня: (Я)а = (Яа), для всех а^О. Заметим, что при транзитивном замыкании нечеткого отношения Я в общем случае сохраняются лишь некоторые свойства отношения Я. Такими свойствами являются рефлексивность, симметричность, линей- ность и транзитивность. Проекции нечетких отношений Важную роль в теории нечетких множеств играет понятие проекции нечеткого отношения. Дадим определение проекции бинарного нечеткого отношения. Пусть muQ(x, у) — функция принадлежности нечеткого отношения в U х V. Проекции Qu и Qv отношения Q на U и V — есть множества в U и V с функцией принадлежности вида UQu(^) = sup pQ(x,y), V PQv(x) = sup PQ(x,y). и 26
Лекция 2 Нечеткие отношения Условной проекцией нечеткого отношения Q на U, при произвольном фиксированном у0 е V, называется множество Ри с функцией принад- лежности вида уРи (ж|уо) — Hq(x, уо)- Аналогично определяется условная проекция на V при заданном хо € U: РрЛу^о) =HQ(x0,y). Из данного определения видно, что проекции Qu и Qy не влияют на условные проекции Ри и Ру, соответственно. Дадим далее определение, которое учитывает их взаимосвязь. Условные проекции второго типа определяются следующим образом: МРс, (^lz/o) = , PQv Ш > О, pqvW) PPu (уМ = yQ (т0) > о. Если p.Qv (у0) = 0 или yQv (то) = 0, то полагаем, соответственно, что УРи (Фо) = о или уРи (г/|а?о) = 0. Заметим, что условные проекции первого типа содержатся в соот- ветствующих проекциях второго типа. Пусть U и V — базовые множества, Q — нечеткое отношение в U х V и Qu и Qy — его проекции на U и V, соответственно. Нечеткие множества Qu и Qy называются независимыми, если Q = Qu х Qv Следовательно, они независимы по первому типу, если ^о(^У) = l*Qu(x) ^/J.Qv(y), и независимы по второму типу, если PQ(x,y)=fiQv(х) • HQV(у). В противном случае проекции Qu и Qy являются зависимыми (со- ответствующего типа). Независимость второго типа можно интерпретировать следующим образом. Данные соотношения с учетом произвольности х0 и и0 перепи- шем в виде Л<э(я,у) = ypv(x\y')nQv(y'), Р<э(х,у) = ypv(,y\x)nQcr(x). 27
Нечеткие множества и нейронные сети Лекция 3. Классы нечетких отношений В лекции приводится классификация нечетких отношений, рассмат- риваются классы нечетких отношений сходства и различия, а также класс нечетких порядков. В качестве примеров применения теории нечетких отно- шений рассматриваются задачи нечеткой классификации и нечеткого упоря- дочения. Ключевые слова: отношение сходства, отношение различия, нестро- гие порядки, строгие порядки, слабые порядки. Все типы нечетких отношений в зависимости от свойств, которы- ми они обладают, могут быть разделены на три больших класса. В первый класс входят симметричные отношения, которые обычно характеризуют сходство или различие между объектами множества X. Второй класс об- разуют антисимметричные отношения; они задают на множестве X отно- шения упорядоченности, доминирования, подчиненности и т. п. Третий класс состоит из всех остальных отношений. Отношения каждого класса, в свою очередь, могут быть разделены на подклассы в зависимости от выполнения условий рефлексивности и антирефлексивности. Рефлексивные и симметричные отношения обычно называют отноше- ниями сходства, толерантности, безразличия или неразличимости. В даль- нейшем эти отношения будем называть отношениями сходства и обозна- чать буквой S. Антирефлексивные и симметричные отношения называют- ся отношениями различия и обозначаются буквой D. Отношения сходства и от ношения различия двойственны друг другу. Антисимметричные отношения, называемые предпорядками и обо- значаемые буквой Р, в зависимости от выполнения условия рефлексив- ности или антирефлексивности делятся на нестрогие и строгие порядки. Из отношений третьего класса, обозначаемых буквой R, обычно вы- деляют лишь рефлексивные отношения, которые будут называться сла- быми порядками. На следующем уровне классификации из каждого класса отноше- ний могут быть выделены отношения специального вида. Определяю- щим условием для них является условие транзитивности. Оно устанавли- вает связь между силой отношения для различных пар объектов из X. Эта связь может быть очень слабой, а может накладывать достаточно сильные ограничения на возможные значения силы отношения между объектами 28
Лекция 3 Классы нечетких отношений из X. Число отличающихся друг от друга условий транзитивности зависит от типа отношения, для которого они формулируются. Условия транзитивности зависят от вида операций, с помощью ко- торых они определяются. Наиболее общими условиями транзитивно- сти являются условия, определяемые с помощью решеточных операций V и А в L. Более частыми являются условия, определяемые с помо- щью дополнительных операций в L и зависящих от конкретного вида L. В этих случаях указывается вид соответствующего множества L. Далее мы будем рассматривать нечеткие отношения, определенные на множе- стве L = [0,1]. Отношения сходства и различия Симметричное и рефлексивное нечеткое отношение сходства явля- ется аналогом обычного отношения толерантности. Нечеткие отношения сходства обычно задаются с помощью матриц сходства, связи между объ- ектами, либо с помощью неориентированных взвешенных графов. Мат- рицы сходства могут быть получены как в результате измерения некото- рого физического параметра, так и в результате опроса экспертов, ко- торые для каждой пары объектов из X указывают их степень сходства в некоторой шкале сравнений. Условие транзитивности для нечетких отношений сходства обычно формулируются в виде S D S о S, которое при различных определениях операции композиции приводит к различным условиям транзитивности. Наиболее распространенными условиями транзитивности являются следующие: • (А)-транзитивность Vx,y,z е X ns(x,z) y.s(x,y) Ays(y,z). • (-)-транзитивность Vx,y,z е X ys(x, z) ys(x,y) • ys(y,z). • (Д)-транзитивность Vrr, у, z G X /dS(x, z) Vs(x, y) + Ps(y, z) - 1. Наиболее интересными свойствами обладает (А)-транзитивное от- ношение сходства S, которое является обобщением обычного отноше- ния эквивалентности. Это отношение называется нечетким отношением 29
Нечеткие множества и нейронные сети эквивалентности или отношением подобия. Нетрудно показать, что лю- бой a-уровень нечеткого отношения эквивалентности является обычным отношением эквивалентности и, следовательно, определяет разбиение множества объектов X на непересекающиеся классы эквивалентности. Из вложенности «-уровней нечеткого отношения следует и вложенность разбиений множества X, соответствующих различным «-уровням, при- чем с уменьшением а происходит укрупнение классов эквивалентности «-уровней. Таким образом, нечеткое отношение эквивалентности задает иерархическую совокупность разбиений множества X на непересекаю- щиеся классы эквивалентности. Нечеткое отношение эквивалентности, в отличие от произвольного отношения сходства, определяет совокупность разбиений множества X на классы эквивалентности, благодаря тому, что условие транзитивности на- кладывает дополнительно сильные ограничения на возможные значения степени принадлежности. В случае, когда L = [0,1], отношение сходства S транзитивно тогда и только тогда, если для любых x,y,z е X из трех чисел ys(.y, z),ys(x-, z), по крайней мере, два числа равны друг другу и по величине не превышают третье. Таким образом, нечеткое отно- шение эквивалентности обладает многими полезными свойствами из-за своего довольно специфического вида. Отношением различия D называется симметричное и антирефлек- сивное нечеткое отношение. Отношение различия двойственно отношению сходства. В случае, когда L = [0,1], эти отношения могут быть получены друг из друга с помощью соотношения: = 1 - ps(x,y), что можно записать в алгебраической форме как D = S. Ультраметрикой называется отношение различия, удовлетворяющее следующему неравенству: Vx,y,z е X pD(x,z} < pD(x,y} V pD(y, z). Очевидно, что это условие двойственно условию (Л)-транзитивности. Понятие ультраметрики первоначально возникло и изучалось в кластер- ном анализе при исследовании свойств меры различия между объекта- ми, определяющих естественное представление множества обьектов в виде дерева разбиений. Представление ультраметрики с помощью систе- мы вложенных друг в друга отношений эквивалентности было также из- вестно в кластерном анализе, однако лишь в рамках теории нечетких от- ношений это представление получило естественное объяснение. Метрикой называется отношение различия, удовлетворяющее нера- 30
Лекция 3 Классы нечетких отношений иенству треугольника: Vs, у, z е X z) pp(s, у) + рт>(у, z). От метрики обычно требуют выполнения условия сильной антире- флексивности. Метрика, удовлетворяющая лишь простому условию ан- тирефлексивности, называется псевдометрикой. Двойственным по отно- шению к метрике является (Д)-транзитивное отношение сходства. Двойственным условию (-)-транзитивности является следующее усло- вие: \/x,y,zE X pd(x,z) < pD(x,y') + pD(y,z) - pD(x,y)pD(y,z). Задачи нечеткой классификации Пусть имеется набор X фотографических портретов всех членов нескольких семей. Требуется разделить этот набор на группы так, чтобы в каждой оказались портреты членов только одной семьи. Пусть /i(s, у) — функция принадлежности нечеткого бинарного отношения сходства на заданном наборе фотографий. Для каждой пары фотографий х и у значе- ние /i (s, у) есть субъективная оценка человеком степени сходства х и у. Это нечеткое отношение можно рассматривать как своего рода «экспери- ментальные данные», отражающие понимание человеком понятия «сход- ства» в данной задаче. Следующий этап — использование этих «данных» для требующейся классификации фотографий. Заметим, что нечеткое отношение /i(s, у) обладает естественными свойствами рефлексивности и симметричности. Оно называется одно- шаговым отношением, в том смысле, что описывает результаты лишь попарного сравнения портретов друг с другом. Для /i (s, у) вводится п- шаговое отношение fn(x, у) следующим образом: fn(x,y)= sup min{/i(s,si),.. ,/i(s„-i,?/)}. IE1.. .Xn— 1 Это отношение является n-арной композицией исходного «эксперимен- тального» отношения fi (s, у) и представляет собой в некотором смысле его уточнение. Нетрудно показать, что для любых х, у Е X выполняется цепочка неравенств О /1(^,2/) < /2(2:,?/) ^ ... < /n(s.y) < ... < 1. из которой следует, в частности, что для любых х, у Е X последователь- ность {fk(x, '</)} имеет предел при к —* оо. Таким образом, существует 31
Нечеткие множества и нейронные сети предельное отношение сходства, определяемое равенством /(ж, у) = lim fa(х, у), для всех х, у е X. к—>оо Это предельное отношение является конечным результатом обра- ботки результатов нечетких измерений fa (х, у) и следующим образом ис- пользуется для классификации. Для произвольного числа А (0 < А < 1) вводится обычное (не нечет- кое) отношение R\: Rx(x,y) fax,y)^X. Нетрудно показать, что для любого А (0 < А < 1) R\ есть отноше- ние эквивалентности в X, т. е. для любых х, у е X выполняются обычные аксиомы эквивалентности (1) Яд (ж, ж) — рефлексивность, (2) R\(x, у) => R\(у, х) — симметричность, (3) Rx(x,y)&R\(y, z) => Rx(x, z) — транзитивность. Заметим, что (3) есть следствие того, что предельное нечеткое отно- шение fax, у) обладает свойством нечеткой транзитивности fax, z) min{fax, у), fay, z)}, для всех х, у, z е X. Окончательный этап алгоритма классификации — разбиение мно- жества X на классы эквивалентности по полученному отношению Яд. Выбор величины порога А в этом алгоритме осуществляется, исхо- дя из условий начальной задачи. В приведенном выше примере с фото- графиями этот выбор осуществляли следующим образом. Пусть имеется набор из 20 фотографий представителей 3 семей. Тогда величину А выби- рают так, чтобы в результате реализации алгоритма классификации полу- чилось 3 класса эквивалентности по отношению Яд. Порядки и слабые порядки Антисимметричное, транзитивное нечеткое отношение Р называет- ся отношением упорядочения или порядком. Мы будем рассматривать толь- ко строгие порядки, т. е. порядки, для которых выполняется свойство ан- тирефлексивности. Свойства нестрогих (рефлексивных) порядков во мно- гом совпадают со свойствами строгих порядков. Различные порядки отличаются друг от друга требованиями, предъ- являемыми к условию транзитивности. Слабейшее из этих требований — условие ацикличности отношения строгого порядка Р, наиболее жесткие 32
Лекция 3 Классы нечетких отношений требования — условия линейной транзитивности и условие квазисерий- ности. Если для отношения сходства условие транзитивности обычно за- писывают в виде S D S о S и различные способы определения опера- ции композиции позволяют задавать разные типы транзитивности, при- чем оказывается, что таких типов существует не так уж и много, то для отношения порядка условие транзитивности нечеткого отношения удобно записывать в виде, аналогичном условию транзитивности обычных по- рядков: Р(х, у) > 0, Р(у, z) > 0 P(x,z) Р(х,у) * P(y,z), где * — некоторая операция в L. Оказывается, что из множества всех от- ношений порядка можно выделить значительное количество отличаю- щихся друг от друга классов порядков специального вида, определяемых как способом задания операции * в L, так и способом записи условия транзитивности. Далее перечислим некоторые условия транзитивности, определяющие эти классы нечетких строгих порядков. Учитывая асиммет- ричность отношения строгого порядка Р, будем полагать у) 0, ес- ли Р(у, х) = 0. • Ацикличность'. Ух0,Х1,. .. ,хп, Р(х0,х1)>0, Р(Х!,Х2) >0,...,Р(хп-1,Хп) >0 => Р(хо,хп)^О- • Слабая транзитивность: Vx,y,z Р(х,у) > 0, P(y,z) > 0 => Р(х, z) > 0. • Отрицательная транзитивность: \/x,y,z P(x,y)^0, P(y,z)^0 => Р(х, z)^0. • (-)-транзитивность: \fx,y,z Р(х,у) > 0, Р(у, z) > 0 => Р(х, z) Р(х,у) Р(у, z). • (Л)-транзитивность: Vx,y,z Р(х,у) > G, P(y,z) > 0 => Р(х, z) Р(х, у) Л P(y,z). • (1/2, +)-транзитивность: Vx, у, Z Р(х, у) > 0, Р(у, z) > 0 => Р(х, z) p(^y)+P(y^z) 33
Нечеткие множества и нейронные сети • Сильная транзитивность'. \/x,y,z Р(ж, у)>0, Р(у, z) О => Р(х, z) Р(х, у) VP(y, z). • Сверхсильная транзитивность'. \/x,y,z Р(х,у) > 0. P(y,z)>0 => Р(х, z) > Р(х, у) V Р(У, z). • Метрическая транзитивность'. \/x,y,z Р(х,у) 0, P(y,z) 0 => => Р(х, у) + Р(у, z) Р(х, z) Р(х, у) V Р(у, z). • Квазисерийность'. Vx,y,z P(x,y)^0, P(y,z)~^0 => Р(х, z) = Р(х, у) V Р(у, z). • Ультраметрическая транзитивность'. \/x,y,z Р(х,у) > 0, P(y,z) > 0 => => Р(х, у) V Р(у, z) Р(х, z) Р(х, у) Л Р(у, z). В общем случае предполагается, что рассмотренные условия транзи- тивности определены для L = [0,1], хотя некоторые условия могут быть обобщены и на случай, когда L является решеткой. Условия ацикличности, слабой транзитивности и отрицательной транзитивности нечеткого отношения Р равносильны соответственно условиям ацикличности, транзитивности и отрицательной транзитивно- сти обычного отношения Ро, определяемого следующим образом: 1, если Р(х, у) > 0, 0 в противном случае. Аналогичные свойства могут быть определены как a-свойства для различных «-уровней Ра отношения Р. В отличие от первых трех свойств, остальные свойства более спе- цифичны для нечетких отношений и в большей мере учитывают согла- сованность силы отношения между элементами множества X. этих свойств также могут быть сформулированы «-свойства. Частным случаем сильного порядка (порядка, удовлетворяющего усло- вию сильной транзитивности) является метрический порядок. Для асим- метричных отношений условие метрической транзитивности эквивалент- но неравенству треугольника. Ро(х,у) = 34
Лекция 3 Классы нечетких отношений Условие квазисерийности определяет нечеткую квазисерию. Каж- дый a-уровень нечеткой квазисерии является обыкновенной квазисери- сй, т. е. удовлетворяет условиям Pa(x,y),Pa(y,z) => Pa(x,z); Pa(x,y),-,Pa(z,y) => Pa(x,z); ->Pa(y,x),Pa(y,z) =Ф Pa(x,z). Поскольку обычная квазисерия определяет разбиение множества X на упорядоченные классы эквивалентности, нечеткая квазисерия опре- деляет разбиение множества X на упорядоченные классы эквивалентно- сти на каждом «-уровне. Эти разбиения вложены друг в друга; таким об- разом, нечеткая квазисерия определяет иерархию разбиений множества X на упорядоченные классы эквивалентности. Частным случаем метрических порядков, помимо квазисерии, явля- ется линейный порядок, определяемый условием линейной транзитивно- сти. Линейный порядок при интерпретации Р(х, у) как силы предпочте- ния альтернативы х над альтернативой у задает на множестве альтерна- тив X некоторую аддитивную функцию полезности, которая может быть определена наХ, например, с помощью соотношения/(а?) = sup Р(х, у). уЕХ Ультраметрическая транзитивность построена по аналогии с метри- ческой транзитивностью, однако для антисимметричных отношений она не эквивалентна ультраметрическому неравенству P(x,z) Р(х,у) V р(у,х)- Между строгими порядками (асимметричными отношениями) и сла- быми порядками (рефлексивными отношениями) существует тесная связь. Эти порядки могут быть получены друг из друга с помощью ряда преоб- разований. Если на L задана операция дополнения, т. е. такая унарная опера- ция -1, что на L выполняются тождества —(—!«) = «, -(« Л (3) = -та V ->/?, -(« V (3) = Л то на множестве нечетких отношений может быть задана операция до- полнения следующим образом: Рц(х,у) = ТйСг,?/), и на множестве нечетких отношений будут выполняться тождества 7? = R, BAJT = R ПТ, ЙПТ = R U Т. Если на множестве нечетких отношений задана операция дополне- ния, то из отношения строгого порядка Р могут быть получены: 35
Нечеткие множества и нейронные сети • Отношение сходства S = Р U Р~ • Отношение различия D = Р U Р-1; • Отношение слабого порядка R = Р-1. Транзитивностью отношения Р определяется тот или иной уровень транзитивности отношений S и R. В частности, если Р является нечет- кой квазисерией, то определяемое им отношение S является нечетким отношением эквивалентности, а отношение R будет нечетким квазипо- рядком. Нечеткие отношения порядка могут быть получены многими спосо- бами и допускают различную интерпретацию. Они могут выражать либо значение какого-либо физического параметра, характеризующего интен- сивность доминирования х над у, либо усредненную по множеству крите- риев или индивидуумов силу предпочтения между объектами. Они могут быть получены с помощью шкалы сравнений, которой эксперты измеря- ют интенсивность предпочтений при попарных сравнениях альтернатив, могут выражать уверенность, возможность, вероятность доминирования и т.п. Задачи нечеткого упорядочения Любую задачу принятия решений можно сформулировать как задачу отыскания максимального элемента в множестве альтернатив с заданным в нем отношением предпочтения. Однако во многих реальных ситуациях в множестве альтернатив можно определить лишь нечеткое отношение предпочтения, т. е. указать для каждой пары альтернатив х и у лишь сте- пени, с которыми выполняются предпочтениях У у ну у х. В таких случаях задача принятия решения становится неопределенной, посколь- ку неясно, что такое максимальный элемент для нечеткого отношения предпочтения. Для двух типов нечетких отношений можно предложить способы упорядочения элементов конечного множества, в котором зада- но нечеткое отношение. Способы эти сводятся к тому, что для каждого из рассматриваемых типов нечетких отношений строится некоторая функ- ция (напоминающая функцию полезности), и элементы множества упо- рядочиваются по соответствующим им значениям этой функции. Пусть f(x,y) — функция принадлежности бинарного нечеткого от- ношения в множестве X (например, отношения нестрого предпочтения). Допустим, что рассматривается задача упорядочения элементов конечно- го множества Т = {.t'i, ... ,хп). Упорядочение можно осуществлять по 36
Лекция 3 Классы нечетких отношений значениям следующей функции: /(a;i|T) = min f(xi\xj), 3 где Xj еТ,а функция f(x.\x.) =_______f^xi)_________ 3 max{f(xi,xj),f(xj,xi)} Для вычисления значений функции f(Xi |Т) удобно пользоваться следую- щим равенством: ,/ • Г/(^,Ж1) f(Xi,Xn)\ [/(жцЖг) f(xn,Xi) J По отношению к этому упорядочению максимальным в множестве Т яв- ляется элемент х® такой, что f(xi |Л = max f(xk\T). Рассмотрим еще одну задачу упорядочения, иллюстрируемую следу- ющим примером. Требуется решить, кто из детей: старший сын xlt младший сын а?2 или дочь хз больше всего похож на отца z. Заданы «результаты измере- ний»: xi и Х2 взятые отдельно, похожи на отца со степенями 0,8 и 0,5 соответственно; х-2 и хз, взятые отдельно, похожи на отца со степенями 0,4 и 0,7; наконец, Xi и х3, взятые отдельно, похожи на отца со степенями 0,5и0,3. Таким образом, в этой задаче, в отличие от предыдущей, имеет- ся стандартный элемент (шаблон) для упорядочиваемого множества Т, т. е. элемент, обладающий свойствами, общими для всех элементов этого множества. Иначе говоря, если f(x, у) — нечеткое отношение в X D Т (например, отношение сходства), то /(z, Xi) = 1, ДЛЯ любого Xi е Т. При наличии стандартного элемента для каждой пары элементов х и у множества Т задаются величины f(x, у : z), f(y, х : z), т. е. степени от- ношения (например, сходства) х и у, взятых отдельно, к z. Упорядочение элементов множества Т с заданным таким способом нечетким отноше- нием предлагается осуществлять в соответствии со значениями функции , . ff(xj,xi : z) f(xj, xn:z)] . (,zj . z) . zy-’ f(Xn,Xj : z) J ’ 37
Нечеткие множества и нейронные сети Максимальным в смысле этого упорядочения является элемент х® такой,что : z) = max f(xk\T ; z). Xk^T Для задачи о сходстве отца и детей значения этой функции таковы: f(x1\T:z) = l, f(x2[T : z) = 4/7, /Ы7 : z) = 3/5. Отсюда вытекает, что наиболее похож на отца старший сын, затем следуют дочь и младший сын. 38
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы Лекция 4. Показатель размытости нечетких множеств. Нечеткие меры и интегралы В лекции вводится понятие показателя размытости нечеткого множе- ства, рассматриваются аксиоматические и метрические способы задания по- казателя размытости. Изучаются понятия нечеткой меры и нечеткого инте- грала. Описываются основные классы нечетких мер. В конце лекции приво- дятся два примера применения теории нечетких мер для решения практиче- ских задач. Ключевые слова: показатель размытости, нечеткая мера, нечеткий интеграл. Как уже говорилось в прошлых лекциях, нечеткие множества ис- пользуются для описания плохо определенных, неоднозначно понимае- мых ситуаций, объектов, понятий. Де Лука предложил ввести в рассмот- рение показатель этой неопределенности, который можно было бы ис- пользовать для оценки, классификации объектов, описываемых нечет- кими множествами. Он же сформулировал основные свойства, которым должен удовлетворять такой показатель, называемый показателем размы- тости (или мерой энтропии) нечетких множеств, и в качестве этого по- казателя был предложен функционал, аналогичный шенноновской эн- тропии в теории информации. В настоящее время рассматриваются раз- личные альтернативные подходы к определению показателя размытости нечеткого множества, обсуждаются его свойства и возможные приложе- ния. Можно выделить несколько аспектов, связанных с понятием пока- зателя размытости нечеткого множества. Прежде всего, это — интерпре- тация показателя размытости как показателя внутренней неопределенно- сти, двусмысленности, противоречивости, обусловленных неполной, ча- стичной принадлежностью объектов множеству. Второй аспект связан с интерпретацией показателя размытости как меры отличия нечеткого мно- жества от обычного множества. И наконец, само существование нетриви- ального показателя размытости, удовлетворяюшего определенным свой- ствам, напрямую зависит от свойств алгебры нечетких множеств и харак- теризует ее как алгебраическую структуру. В соответствии с этими тремя аспектами и будут рассмотрены основные результаты, связанные с поня- тием показателя размытости. 39
Нечеткие множества и нейронные сети Аксиоматический подход к определению показателя размытости нечеткого множества Показатель размытости нечеткого множества можно определить как меру внутренней неопределенности, двусмысленности объектов множе- ства X по отношению к некоторому свойству А, характеризующему эти объекты и определяющему в X нечеткое множество объектов А. Если некоторый объект х е X обладает свойством А, но лишь в частичной мере: 0 < р,д(х) < 1, то внутренняя неопределенность, двусмысленность объекта х по отношению к свойству А проявляется в том, что он, хотя и в разной степени, принадлежит сразу двум противоположным классам: классу объектов, «обладающих свойством А», и классу объектов, «не об- ладающих свойством А». Эта двусмысленность объекта х по отношению к свойству А максимальна, когда степени принадлежности объекта х к обоим классам равны, т. е. Дд(х) = Рл(.х) = 0,5. И наоборот, двусмыс- ленность объекта минимальна, когда объект принадлежит только к одно- му из этих классов, т. е. либо дд(ж) = 1, дл(ж) = 0, либо дд(ж) = О, Мл(а:) = 1- Таким образом, глобальный показатель размытости нечеткого множества А можно определить в виде функционала d, удовлетворяюще- го следующим условиям: Pl. d(A) < d(B), если А является заострением В, т. е. р,д(ж) /а в (ж) при Дв(^) < 0,5, Дд(ж) Дв(ж) при дв(ж) > 0,5и дд(ж) — любое при дв(ж) = 0,5; Р2. d(A) = d(A); РЗ. Если А П В = 0, то d(A U В) = d(A) + d(B). Итак, показатель размытости можно рассматривать как аддитив- ный, симметричный и строго возрастающий с увеличением размытости нечеткого множества функционал, определенный на множестве S(X) всех нечетких подмножеств множества X. Можно доказать, что вещественный, определенный на А(Х) функ- ционал является показателем размытости тогда и только тогда, если он до- пускает представление N = ^тз^а{х5)), 3=1 где Tj(y) — вещественнозначные функции от у е [0,1] такие, что Т7 (0) = = 0, Tj{y) = Tj(l — у), Tj(y) — строго возрастает на интервале [0,0,5] и N — число элементов множества X = {.Г],..., .гЛ?}. 40
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы Примером коэффициента размытости может служить логарифмиче- ская энтропия нечетких множеств: N j=i где S — функция Шеннона S{y) = ~У In?/ - (1 - у) 1п(1 - у). Выбор конкретного показателя зависит от условий задачи. Далее мы покажем, что показатель размытости нечетких множеств может быть за- дан с помощью метрики. Необходимо обратить внимание на связь между показателем размытости нечетких множеств и неопределенностью, возни- кающей при принятии решения, к какому из двух классов, «А» или «не А» , отнести объекты множества X. На практике человеку часто приходится принимать подобные решения, когда необходимо отнести объект к одно- му из двух классов, характеризующихся противоположными свойствами типа: «белый—черный», «пригоден—не пригоден», «нравится—не нравит- ся», «хороший—плохой» и т. п. Такая альтернатива вызывает у лица, при- нимающего решения, неопределенность, обусловленную тем, что объек- ты часто обладают сразу обоими противоположными свойствами, хотя и в разной мере. Можно предположить, что показатель этой неопределен- ности зависит от размытости ситуации, в которой принимается решение. Допускается, что показатель неопределенности решений может удовле- творять тем же свойствам, что и показатель размытости нечетких мно- жеств. Метрический подход к определению показателя размытости нечетких множеств Показатель размытости нечетких множеств можно определить с помощью метрики как меру отличия нечеткого множества от ближайше- го к нему обычного множества. Другой способ задания показателя размы- тости с помощью метрики — это определение его с помощью расстояния до максимального размытого множества Aq^ -. Ух е X /м0 5(ж) = 0,5 и расстояния между нечетким множеством и его дополнением. Оказыва- ется, эти подходы имеют много общего между собой, и определяемый с помощью метрики показатель размытости обладает многими свойствами, сформулированными выше. 41
Нечеткие множества и нейронные сети Множеством, ближайшим к нечеткому множеству А, называется неразмытое множество А такое, что Да(я) = 1, если/м (ж) > 0,5 О, если дд(ж) 0,5. Показателем размытости называется функционал 2 N cf(A) = — 52 iMAfe) - Ма(^)|, j=i который может быть представлен также в виде 2 у Ч J=1 Если вместо расстояния Хэмминга использовать евклидово расстояние, то получим 2 <ЦА) = ~ЙГг N 52 (VA&j) - 3=1 Показатель размытости можно задать с помощью расстояния между нечетким множеством и его дополнением: d(A) = к [р(0, U) - р(А, А)] . В случае метрики Хэмминга р(А, А) имеет вид N N р(А,А) = 52 |Да(ж5) - PA^j)\ = 52 12Ма(ж3) - 1|- 3=1 3 = 1 Такой показатель размытости удовлетворяет свойствам Р1 и Р2. Далее выясним, что между показателями размытости, удовлетворя- ющими условиям Pl, Р2, РЗ, и метриками определенного класса может быть установлено взаимно однозначное соответствие. Связь показателя размытости с алгебраическими свойствами решетки нечетких множеств Существование показателя размытости нечетких множеств оказы- вается тесно связанным со свойствами алгебры нечетких множеств За- де. Для алгебры обычных множеств показатель размытости со свойствами 42
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы Pl, Р2, РЗ вырождается в тривиальный показатель, всюду равный нулю. Для более общих алгебр такого показателя просто не существует. Ука- жем соотношения, существующие между произвольными положитель- ными оценками и показателями размытости. Положительной оценкой на решетке нечетких множеств А (X) назы- вается функция v : Q (X) —> Д+, удовлетворяющая свойству i/(A U В) + и(А П В) = i/(A) + i/(B) и условию А с В => и(А) < и(В). Положительная оценка и определяет на Sr (X) метрику pv(A, В) = v{A U В) — и{А П В). Решетка Sr (X) с положительной оценкой и и метрикой pv называет- ся метрической решеткой нечетких множеств. Метрика называется сим- метричной, если она удовлетворяет условию рр(А,В) = pv{A,B). Так как в алгебре нечетких множеств выполняются законы де Моргана, то метрика является симметричной тогда и только тогда, если она определя- ется симметричной оценкой, т. е. такой оценкой, которая удовлетворяет условию v(A) + v(A) = i/(0) + и(1Г). Теорема. В метрической решетке нечетких множеств функционалы d(A) = 2k [i/(H) - i/(A U A)], d(A) = 2k [i/(A nA) - i/(0)] , d(A) = k[p„(0,U) - p„(A,A)] удовлетворяют свойствам Pl, P2, РЗ. Они попарно тождественны тогда и только тогда, если положительная оценка v симметрична. Примером симметричной оценки на решетке нечетких множеств может служить энергия нечеткого множества '. N з=1 которая определяет симметричную метрику N pv(A, В) = ^2 ^1Дл(жд) - Дв(ж,)|. 3=1 43
Нечеткие множества и нейронные сети Нечеткие меры При решении многих задач анализа сложных систем в условиях неопределенности широко используются методы теории вероятностей и математической статистики. Эти методы предполагают вероятностную интерпретацию обрабатываемых данных и полученных статистических выводов. В последнее время возрастает потребность в новых подходах к математическому описанию информации, характеризующейся высоким уровнем неопределенности. Один из возможных подходов может осно- вываться на обобщении понятия меры и построении нечетких мер, сво- бодных от ряда ограничений вероятностной меры. Существуют различные интерпретации понятия вероятности. Это — классическая частотная интерпретация Лапласа, субъективная вероят- ность по Байесу и т. д. Наиболее содержательной с математической точки зрения является аксиоматическая трактовка вероятности А. Н. Колмогорова с помощью теории меры. Мерой называется функция множества т: р(Х) —* R, удовлетворя- ющая следующим аксиомам: 1. А С X <=> т(А) 0; 2. т(0) = 0; 3. А, В е р(Х) => m(AU В) = т(А) + т(В) — т(АГ\В). Здесь р(Х) — множество всех подмножеств X, a R — множество дей- ствительных чисел. При R = [0,1] эти аксиомы определяют вероятност- ную меру. Под субъективной вероятностной мерой понимается степень уве- ренности в данном событии, возникающая у человека на основе извест- ных ему данных. Она всегда зависит от индивидуального опыта и поэтому различна для разных людей. Неясность суждений, основанных на субъ- ективном анализе, обусловливает многие трудности, которые возникают при использовании субъективной вероятности. Субъективную вероятность можно рассматривать как индивидуаль- ный способ обработки тех аспектов субъективных данных, которые до- ступны индивидуальному суждению. Однако чаще всего такие суждения неаддитивны. Реальное поведение человека, как правило, противоречит предположению об аддитивности мер, которые он использует при оценке событий. В отличие от субъективной вероятности, нечеткая мера свобод- на от весьма ограничивающего требования аддитивности, что делает ее особенно привлекательной для решения ряда задач при наличии неопре- деленности типа нечеткости. 44
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы В настоящее время существует тенденция вероятностной трактовки нечетких множеств. Следует отметить, что, с точки зрения теории меры, такой подход видится неоправданным, поскольку понятие вероятност- ной меры является сужением понятия нечеткой меры. Для сравнения рас- смотрим обе теоретико-мерные трактовки вероятности и нечеткости. Пусть (X, р, р) — вероятностное пространство. Здесь р — минималь- ная <7-алгебра, содержащая все открытые подмножества множества X, ар — вероятностная мера, т. е. функция множества р: (р —» [0,1], удо- влетворяющая аксиомам (1)—(3). С другой стороны, нечеткое множество описывается функцией принадлежности //, принимающей свои значения в интервале [0,1]. С точки зрения теории отображений р: (р —> [0,1] и р: X —» [0,1] — совершенно разные объекты. Вероятность р определя- ется в (7-алгебре р и является функцией множества, а р(х) есть обычная функция, областью определения которой является множество X. Поэто- му понятия вероятности и нечеткого множества не имеет смысла сравни- вать на одном уровне абстрагирования. Определение. Функция д, определяемая в виде д-. р —» [0,1], называется нечеткой мерой, если она удовлетворяет следующим условиям: 1. р(0) = О; 2. д(Х) = 1; 3. А,Вер&АсВ => 5(A) С 9(В); 4. {F„} — монотонная последовательность => Jim g(Fn)=g ( lim Fn) п—>oo \n—>oo / Тройка (X, p, 5) называется пространством с нечеткой мерой. Для нечеткой меры в общем случае не должно выполняться условие ад дитив- ности: д(А UB) д(А) + д(В). Таким образом, нечеткая мера является однопараметрическим расширением вероятностной меры. Выражение 5(A) представляет собой меру, характеризующую сте- пень нечеткости А, т. е. оценку нечеткости суждения «X е А» или степень субъективной совместимости X с А. Нетрудно увидеть, что монотонность меры 5 влечет за собой VA, Вер д(А U В) max{5(A), 5(B)}; VA, Вер 5(А П В) < min{5(A), 5(B)}. Для построения нечетких мер используют следующее А-правило. Пусть А,В е р, Ап В = 0. Тогда 5а(А U В) - д\(А) + дх(В) + А • 5а(А) • 5д(В), -1 < А < оо. 45
Нечеткие множества и нейронные сети В случае А и В = X данное выражение называют условием нормиров- ки для (jy-мер. Очевидно, что gx(X) = 1, <д(0) = 0. Параметр А называет- ся параметром нормировки дд-меры. ПриА > 0, gx(AUB) > gx(A)+gx(B) имеем класс супераддитивных мер, а при—1 < А < 0, дх(АиВ) < <7д(Д) + + дх(В) получаем класс субалдитивныхмер. Супераддитивные меры Функция доверия. Определение функции доверия предполагает, что степень доверия высказыванию А, которое является истинным, не обяза- тельно равна 1. Эго означает, что сумма степеней доверия высказыванию А и его отрицанию А также не обязательно равна 1, а может быть либо равной, либо меньшей 1. Другими словами, когда высказывание А явля- ется истинным с определенной степенью s € [0,1], его мера неопределен- ности выражается с помощью функции Ь(В) = если если если В = Х- ВзА, В^Х- В^А- которая называется простой функцией носителя, сосредоточенной на А. Если s = 1, то получаем меру, которая называется мерой определен- ности, сосредоточенной на А. Если s = 0 или А = X, то тогда Ь(В) называется пустой функцией доверия (полное незнание). Итак, функция доверия — это мера, удовлетворяющая следующим свойствам: 1. Ь(0) = 0; 2. Ь{Х) = 1; 3. VA е р 0 Ь 1; 4. VA1;..., Ап € р Ь(А U ... U 52 Ь( А) - 52 ь( А п А) + - • + (-1)п+1Ь(А п. • • Ап). Согласованная функция доверия. Понятие согласованной функции доверия базируется на определении ядра С = {В с Х|т(В) > 0}, полно- стью упорядоченного по вложению. Согласованная функция доверия определяется с помощью следую- щих аксиом: 46
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы 1. Ь(0) = О; 2. Ь(Х) = 1; 3. Ь(АпВ) = min{6(A), Ь(В)}. Субаддитивные меры Мера правдоподобия Мера правдоподобия множества А из X определяется как FZ(A) = 1 - Ь(А), где Ъ —- функция уверенности. Мера правдоподобия удовлетворяет следующим аксиомам: 1. FZ(0) = 0; 2. Pl(X) = 1; 3. VA,..., Ап С X Pl(Ai П ... П А) С < £ FZ(AJ - 52 FZ(A, и Ay) +... + (-1)"+1FZ(A! U... U А„). i=l i<j Пусть р, и v — две меры — такие, что VA € р д(А)+t/( А) = 1. В этом случае д является функцией доверия тогда и только тогда, если v — мера правдоподобия. Мера возможности Мерой возможности называется функция П : р —> [0,1], удовлетво- ряющая следующим аксиомам: 1. П(0) = 0; 2. П(Х) = 1; 3. Vi е N, Аг с X, П U Aj Ve7V натуральных чисел. = sup П(Аг). где N — множество i£N Пусть дин — две меры — такие, что VA € р д(А) + н(А) = 1. Нечеткая мера д является согласованной функцией доверия тогда и только тогда, если и является мерой возможности. 47
Нечеткие множества и нейронные сети 1—нечеткие меры 2—д -меры 3—функции доверия 4—меры правдоподобия 6—согласованные функции доверия 7—мера возможности Рис. 4.1 Мера вероятности Вероятностная мера (Л = 0) является частным случаем функции до- верия или меры правдоподобия (см. рис. 4.1). Нечеткая мера р является вероятностной мерой тогда и только тогда, если выполняются следующие условия: 1. р(0) = 0; 2. р(Х) = 1; 3. Vi е N, Аг с X,Vi с j A -iO Aj = 0 => р (,6и„Л)=^-р(Л>) «/„-мера Нечеткая мера gv называется «/„-мерой, если она удовлетворяет сле- дующим аксиомам: 1. = 0; 2. gv(X) = 1; 3. Vi G N, At G p, Vi j AiDAj—0=>gv( U Aj)=(l-v) V </„(Л) + г> </„(Д), v 0; \ieN ) L' ' ' ien 4. VAB e p (AC В => gv(A) gv(B)). Очевидно, что при v = 0, «/„-мера является мерой возможности, а при v = 1 — вероятностной мерой. Если v > 1, то «/„-мера описыва- ет неопределенность, отличающуюся по своим свойствам от вероятности или возможности. 48
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы Нечеткие интегралы Определение. Нечеткий интеграл от функции h: X —> [0,1] на множестве А С X по нечеткой мере д определяется как /h(x) о д = sup (а Л д(А Г) /?а)), Д «е{о,1] где На = о}. Нечеткий интеграл принято также называть нечетким ожиданием. Определение. Нечеткий интеграл от функции h : X —> [0,1] на нечетком множестве цл по нечеткой мере д определяется как У h{x)og = [ (jiA(x) Ah(x))o д. НА X Для описания различных видов неопределенности в теории нечет- ких мер используется общее понятие «степень нечеткости». В общем слу- чае оно включает в себя «степень важности», «степень уверенности» и как отдельный случай — «степень принадлежности» в теории нечетких мно- жеств. Нечеткая мера, таким образом, может интерпретироваться различ- ными способами в зависимости от конкретного применения. Пусть необ- ходимо оценить степень принадлежности некоторого элемента х е X множеству Е с X. Очевидно, что для пустого множества эта степень при- надлежности равна 0, а для х е F (F э Е) равна 1, т. е. степень принад- лежности для х G F будет больше, чем для х G Е, если Е с F. Если степень принадлежности х0 € Е равна д(х0, Е), а вместо Е задано нечет- кое подмножество д.А, то д(х0,А) = у цА(х) Од(х0) = Мл(ж0). X Это говорит о том, что степень нечеткости суждения «хО G А» рав- на степени принадлежности хо нечеткому подмножеству р.А. Таким обра- зом, понятие степени нечеткости в теории нечетких мер включает в себя понятие степени принадлежности теории нечетких множеств. 49
Нечеткие множества и нейронные сети Применение нечетких мер и интегралов для решения слабо структурированных задач Процесс субъективного оценивания Рассмотрим задачу субъективного оценивания некоторым индиви- дом нечетко описываемых объектов, таких как дом, лицо и т. п. Предпо- ложим, что объект характеризуется п показателями. Пусть К = {si,..., — множество показателей. При оценивании дома такими показателями могут быть: sy — площадь, s2 — удобства и т. д. В общем случае множество К не обязательно должно быть множеством физических показателей, оно может быть множеством мнений, критери- ев и т.п. Пусть h: К —» [0,1] — частная оценка объекта, т. е. h(s) — оценка элемента s. Если речь идет о распознавании образов, то h(s) может рас- сматриваться как характеристическая функция образа. На практике h(s) может быть легко определена объективно или субъективно. Например, когда объект — дом, объективно имеем оценку /z(si) = /1(площадь) = = 800 т2, которая может быть нормализована числом из интервала [0,1]. Предположим, что нечеткая мера для (К, 2А) является субъектив- ной мерой, выражающей степень важности подмножества из К. Напри- мер, </({вг}) выражает степень важности элемента si при оценке объек- та, g({si, s2}) — аналогично обозначает степень важности показателей si и s2. Необходимо отметить, что степень важности всего множества К рав- на единице. Вычисляя нечеткий интеграл от h до д, получаем е = у h(s) о д, к где е — обобщенная оценка объекта. Данное уравнение представляет собой свертку п частных оценок. Линейный обобщенный критерий используется обычно в том случае, ко- гда отдельные показатели взаимно независимы. Свертка же может быть очень полезной, когда существует взаимозависимость показателей, что характерно для большинства задач выбора в нечеткой среде. Экспериментальное определение нечеткой меры Рассмотрим метод приближенного экспериментального определе- ния нечеткой меры. Предположим, что существует т объектов. Пусть /ij; : К —» [0,1] — частная оценка j-ro объекта, а е7 — общая оценка. 50
Лекция 4 Показатель размытости нечетких множеств. Нечеткие меры и интегралы Предъявляя индивиду объекты и их частные оценки, можно получить его субъективные оценки dj из интервала [0,1] для всех объектов. Обозначим ё = max{ej}, е = min{e7} и анологично d и d. Произ- водя нормализацию е7, мы имеем Wj = d — d de — de -----e, + —--------• e — e e — e Субъективная нечеткая мера может быть получена при условии ми- нимума критерия Впервые нечеткие меры применялись для оценки сходства одномер- ных образов. Например, рассматривалось решение задачи оценки домов. При этом дома оценивались по следующим пяти показателям: площадь, удобства и обстановка, окружающая среда, стоимость, время, требуемое на дорогу до места работы. Известны применения нечетких мер для оцен- ки привлекательности экскурсионных районов, которые оценивались по таким показателям, как красота природы, архитектурные памятники и т. п. Результаты оценок использовались для прогнозирования числа экс- курсий в ближайшие десять лет. 51
Нечеткие множества и нейронные сети Лекция 5. Методы построения функции принадлежности. Классификация В лекции даются основные понятия теории измерений. Далее рассмат- ривается классификация различных методов построения функции принад- лежности, основанная на классической теории измерений. Ключевые слова: шкала измерений, прямой метод построения функ- ции принадлежности, косвенный метод построения функции при- надлежности. С древних времен и до наших дней измерения как один из способов познания играют важную роль в жизни человека. Сначала человек в сво- ей повседневной деятельности довольствовался информацией, доставля- емой лишь его органами чувств, а затем привлек им в помощь средства измерительной техники. Целью измерения является получение количественной информации о величине исследуемых объектов, под которыми понимаются реально существующие объекты (предметы, процессы, поля, явления и т.д.) ма- териального мира, а также взаимодействия между ними. Задачи измере- ния могут быть как познавательными (изучение элементарных частиц, организма человека и т. д.), так и прикладными (управление конкретным технологическим процессом, контроль качества продукции). Получение и использование информации — характерное свойство кибернетических систем. Поэтому измерение можно рассматривать как ту часть киберне- тики, которая принимает в качестве объекта исследования предметы и явления окружающего мира, в качестве метода — эксперимент, а в каче- стве средства — измерительную технику. Существует тесная взаимосвязь между научно-техническим про- грессом и достижениями в области измерений и измерительной техники. Серьезной составной частью большинства научно-исследовательских ра- бот являются измерения, позволяющие установить количественные со- отношения и закономерности изучаемых явлений. Важность измерений в достижении научных результатов неоднократно отмечалась известны- ми учеными: «Надо измерять все измеримое и делать измеримым то, что пока не поддается измерению» (Галилео Галилей); «Наука начинает- ся с тех пор, как начинают измерять; точная наука немыслима без ме- ры» (Д. И. Менделеев); «Искусство измерения является могущественным орудием, созданным человеческим разумом для проникновения в зако- ны природы» (Б. С. Якоби). Прогресс в области измерений способствовал 52
Лекция 5 Методы построения функции принадлежности. Классификация и способствует многим новым открытиям, а достижения науки, в свою очередь, — совершенствованию методов и средств измерений (например, благодаря использованию лазеров, микроэлектрон ики и т. п.). При проведении экспертиз важным условием успеха является воз- можность формализовать информацию, не поддающуюся количествен- ному измерению, так, чтобы помочь принимающему решение выбрать из множества действий одно. Поэтому в вопросах, связанных с теорией измерений, основное место отводится понятию шкалы измерения. В за- висимости от того, по какой шкале идет измерение, экспертные оценки содержат больший или меньший объем информации и обладают различ- ной способностью к математической формализации. Типы шкал Шкалы наименований или классификации используются для описа- ния принадлежности объектов к определенным классам. Всем объектам одного и того же класса присваивается одно и то же число, объектам раз- ных классов — разные. Здесь наблюдаются только два отношения: «равно» и «не равно». Следовательно, допустимы любые преобразования лишь бы одинаковые объекты были поименованы одинаковыми символами (числами, буква- ми, словами), а разные объекты имели бы разные имена. Этим способом фиксируются такие характеристики, как собственные имена людей, их национальность, названия населенных пунктов и т. п. Шкала порядка применяется для измерения упорядочения объектов по единичному или совокупности признаков. Числа в шкале порядка от- ражают только порядок следования объектов и не дают возможности ска- зать, на сколько или во сколько один объект предпочтительнее другого. Допустимыми преобразованиями для данного типа шкалы являются все монотонные преобразования, т. е. такие, которые не нарушают поря- док следования значений измеряемых величин. Такие шкалы появляют- ся, например, в результате сравнения тел по твердости. Записи «1; 2; 3» и «5,3; 12,5; 109,2» содержат одинаковую информацию о том, что первое тело самое твердое, второе менее твердое, а третье — самое мягкое. И ни- какой информации о том, во сколько раз одно тверже другого, на сколько единиц оно тверже и т. д., в этих записях нет, и полагаться на конкретные значения чисел, на их отношения или разности нельзя. Разновидностью шкалы порядка является шкала рангов, где исполь- зуются только числа, идущие подряд от 1 вверх по возрастанию. Если сре- ди т измеряемых объектов одинаковых нет, то ранговое место каждого объекта в протоколе будет указано одним из целых чисел от 1 до т. При одинаковом значении измеряемого свойства у к объектов, занимающих 53
Нечеткие множества и нейронные сети порядковые места с t-ro по (t + fc)-e, их ранги будут обозначены одина- ковым числом, равным их «среднему» рангу х, где х = (1 : k)S(i +1 — 1), i = 1 — к. Такая разновидность шкалы порядка называется «нормированной шкалой рангов». К типу шкал порядка относится и широко используемая шкала бал- лов. При этом используются целые числа в ограниченном диапозоне их значений: от 1 до 5 в системе образования, от 0 до 6 или до 10 в спорте и т.д. В любом из этих случаев протокол содержит информацию только о трех эмпирических отношениях: «<», «>» и «=». Шкала интервалов применяется для отображения величины разли- чия между свойствами объектов (измерение температуры по Фаренгейту и Цельсию). Шкала может иметь произвольные масштаб и точки отсчета. Здесь между протоколами у и х допустимы линейные преобразова- ния: у = ах + Ь, где а — любое положительное число, а Ь может быть как положительным, так и отрицательным. Это значит, что в разных прото- колах может использоваться разный масштаб единиц (а) и разные начала отсчета (Ь). Примером шкал этого типа могут быть шкалы для измерения температуры. Если в протоколе указаны градусы, но не говорится, в ка- кой шкале (Цельсия, Кельвина и т.д.), то во избежание недоразумений при описании закономерностей можно использовать только отношения интервалов, так как при любых значениях а и b сохраняется равенство (У1 - Уг) : (Уз - Ш) = [(азд + Ь) - (ах2 + 6)] : [(«.т3 + Ь) - («ж4 + &)]• Если записи в протоколе сопровождаются информацией о том, какие именно градусы имеются в виду (например, «18 °C»), то мы имеем дело с протоколом в абсолютной шкале. Шкала отношений используется, например, для измерения массы, длины, веса. В этой шкале числа отражают отношения свойств объектов, т. е. во сколько раз свойство одного объекта превосходит свойство друго- го. Между разными протоколами, фиксирующими один и тот же эмпи- рический факт на разных языках, при этом типе шкалы должно выпол- няться соотношение: у = ах, где а — любое положительное число. Один и тот же эмпирический смысл имеют протоколы «16кг», «16000 г», <0,016 т» и т. д. От любой записи можно перейти к любой другой, подобрав соот- ветствующий множитель «а». Этот тип шкалы удобен для измерения ве- сов, длин и т. д. Если нам неизвестно, в каких именно единицах записаны веса тел в разных протоколах, то мы можем полагаться только на отноше- ние весов двух тел: например, тело с весом 10 единиц в два раза тяжелее 54
Лекция 5 Методы построения функции принадлежности. Классификация тела с весом 5 единиц вне зависимости от того, что было взято за едини- цу — тонна или грамм. Инвариантность отношений отражена в названии шкалы данного типа. Если же в протоколе указана единица веса, то такой протокол отражает свойства тел в абсолютной шкале. Шкала разностей используется для измерения свойств объектов при необходимости указания, на сколько один объект превосходит другой по одному или нескольким признакам. Является частным случаем шкалы интервалов при выборе единицы масштаба. Абсолютная шкала — частный случай шкалы интервалов. В ней обо- значается нулевая точка отсчета и единичный масштаб. Применяется для измерения количества объектов. Допустимое преобразование для шкал данного типа представляет собой тождество, т. е. если на одном языке в протоколе записано «у», а на другом языке «х», то между ними должно выполняться простое соотно- шение: у = х. Этот тип шкалы удобен для записи количества элементов в некотором конечном множестве. Если, пересчитав количество яблок, один эксперт запишет в протоколе «6», а другой — «VI», то нам доста- точно знать, что «6» и «VI» означают одно и то же, т. е., что между этими записями существует тождественное отношение: 6 = V7. Методы измерений Ранжирование. При ранжировании эксперт располагает объекты в порядке предпочтения, руководствуясь одним или несколькими показа- телями сравнения. Парная оценка или метод парных сравнений представ- ляет собой процедуру установления предпочтений объектов при сравне- нии всех возможных пар. Непосредственная оценка представляет собой процедуру приписывания объектам числовых значений по шкале интер- валов. Эквивалентным объектам приписывается одно и то же число. Этот метод может быть осуществлен только при полной информированности экспертов о свойствах объектов. Вместо числовой оси может использо- ваться балльная оценка. Последовательное сравнение включает в себя ран- жирование и непосредственную оценку. Методы проведения групповой экспертизы Методы проведения групповых экспертиз делятся на: • очные и заочные; • индивидуальные и коллективные; • с обратной связью и без обратной связи. 55
Нечеткие множества и нейронные сети При очном методе проведения экспертизы эксперт работает в при- сутствии организатора исследования. Эта необходимость может возник- нуть, если задача поставлена недостаточно четко и нуждается в уточне- нии, а также если задача очень сложна. Эксперт может обратиться к ор- ганизатору за разъяснениями. При коллективном методе проведения экспертизы поставленная проблема решается сообща, «за круглым столом». При индивидуаль- ном — каждый эксперт оценивает проблему, исходя из личного опыта и убеждений. Экспертиза с обратной связью (метод Дельфы) предусматри- вает проведение нескольких туров опроса и анонимное анкетирование. После каждого тура экспертные оценки обрабатываются, и результаты обработки сообщаются экспертам. Метод без обратной связи предусмат- ривает один тур опроса при получении удовлетворительных результатов. Каждый метод имеет ряд достоинств и недостатков, и при выборе определенного метода необходимо хорошо взвесить все его положитель- ные и отрицательные стороны. Коротко о достоинствах и недостатках каждого метода. Для проведения очного опроса требуется больше времени, т. к. орга- низатор экспертизы работает с каждым участником лично, но при слож- ности поставленной задачи это компенсируется большей точностью по- лученных результатов. При проведении экспертизы методом экспертных комиссий груп- па специалистов коллективно оценивает исследуемую проблему. В этих условиях на группу может быть оказано давление одним из авторитетных ее членов, который способен лучше, чем другие, отстаивать свое мнение. Но в этом случае вероятность получения решения поставленной задачи больше. Этот метод рекомендуется при необходимости найти решение в кратчайшие сроки. Проведение экспертизы методом Дельфы связано с большими за- тратами времени, т. к. в этом случае необходимо провести несколько ту- ров. Но оглашение результатов предыдущего тура и последующий опрос позволяет добиться уменьшения диапазона разброса в индивидуальных ответах и сблизить точки зрения. Работа заканчивается, когда достигнута желаемая сходимость ответов экспертов. Опыт показывает, что чаще все- го достаточно бывает провести четыре тура. Метод применяется обычно в прогнозировании, когда имеется большая степень неопределенности. Экспертиза без обратной связи может проводиться при хорошей ин- формированности экспертов в области поставленной задачи. 56
Лекция 5 Методы построения функции принадлежности. Классификация Классификация методов построения функции принадлежности В основании всякой теории из любой области естествознания ле- жит очень важное, основополагающее для ее построения понятие эле- ментарного объекта. Например, для механики — это материальная точка, для электродинамики — вектор напряженности поля. Для теории нечет- ких множеств основополагающим понятием является понятие нечетко- го множества, которое характеризуется функцией принадлежности. По- средством нечеткого множества можно строго описывать присущие язы- ку человека расплывчатые элементы, без формализации которых нет на- дежды существенно продвинуться вперед в моделировании интеллекту- альных процессов. Но основной трудностью, мешающей интенсивному применению теории нечетких множеств при решении практических за- дач, является то, что функция принадлежности должна быть задана вне самой теории и, следовательно, ее адекватность не может быть проверена средствами теории. В каждом существующем в настоящее время методе построения функции принадлежности формулируются свои требования и обоснования к выбору именно такого построения. Л. Заде предложил оценивать степень принадлежности числами из отрезка [0,1]. Фиксирование конкретных значений при этом носит субъ- ективный характер. С одной стороны, для экспертных методов важным является характер измерений (первичный или производный) и тип шка- лы, в которой получают информацию от эксперта и которая определяет допустимый вид операций, принимаемых к экспертной оценке. С другой стороны, имеются два типа свойств: те, которые можно непосредственно измерить, и те, которые являются качественными и требуют попарного сравнения объектов, обладающих оцениваемым свойством, чтобы опре- делить их место по отношению к рассматриваемому понятию. Существует ряд методов построения по экспертным оценкам функ- ции принадлежности нечеткого множества. Можно выделить две группы методов: прямые и косвенные методы. Прямые методы определяются тем, что эксперт непосредственно за- дает правила определения значений функции принадлежности, характери- зующей данное понятие. Эти значения согласуются с его предпочтениями на множестве объектов U следующим образом: 1. для любых iii,u2 е U, Дд(и1) < дДиг) тогда и только тогда, ес- ли и2 предпочтительнее иг, т.е. в большей степени характеризуется понятием А; 2. для любых hi, и2 G U, рд (щ ) — рд (w2) тогда и только тогда, если щ и и2 безразличны относительно понятия А. 57
Нечеткие множества и нейронные сети Примеры прямых методов: непосредственное задание функции при- надлежности таблицей, формулой, перечислением. Заде обосновывает назначение прямого метода следующим образом: «По своей природе оцен- ка является приближением. Во многих случаях достаточна весьма при- близительная характеризация набора данных, поскольку в большинстве основных задач, решаемых человеком, не требуется высокая точность. Человеческий мозг использует допустимость такой неточности, кодируя информацию, достаточную для решения задачи, элементами нечетких множеств, которые приближенно описывают исходные данные. Поток информации, поступающий в мозг через органы зрения, слуха, осязания и др., суживается таким образом в тонкую струйку информации, необхо- димой для решения поставленной задачи с минимальной степенью точ- ности». В косвенных методах значения функции принадлежности выбира- ются таким образом, чтобы удовлетворять заранее сформулированным условиям. Экспертная информация является только исходными данны- ми для дальнейшей обработки. Дополнительные условия могут налагать- ся как на вид получаемой информации, так и на процедуру обработки. Примерами дополнительных условий могут служить следующие: функ- ция принадлежности должна отражать близость к заранее выделенно- му эталону, объекты множества U являются точками в параметрическом пространстве; результатом процедуры обработки должна быть функция принадлежности, удовлетворяющая условиям интервальной шкалы; при попарном сравнении объектов, если один объект оценивается в о раз сильнее, чем другой, то второй объект оценивается только в l/о раз силь- нее, чем первый, и т. д. Как правило, прямые методы используются для описания понятий, которые характеризуются измеримыми свойствами, такими как высота, рост, вес, объем. В этом случае удобно непосредственное задание значе- ний степени принадлежности. К прямым методам можно отнести методы, основанные на вероятностной трактовке функции принадлежности ц.А = = Р(А|д), т.е. вероятности того, что объект и € U будет отнесен к мно- жеству, которое характеризует понятие А. Если гарантируется, что люди далеки от случайных ошибок и ра- ботают как «надежные и правильные приборы», то можно спрашивать их непосредственно о значениях принадлежности. Однако имеются ис- кажения, например, субъективная тенденция сдвигать оценки объектов в направлении концов оценочной шкалы. Следовательно, прямые изме- рения, основанные на непосредственном определении принадлежности, должны использоваться только в том случае, когда такие ошибки незна- чительны или маловероятны. 58
Лекция 5 Методы построения функции принадлежности. Классификация Косвенные методы основаны на более пессемистических представ- лениях о людях как об «измерительных приборах». Рассмотрим, напри- мер, понятие «КРАСОТА», которое, в отличие от понятий «ДЛИНА» или «ВЫСОТА», — сложное и трудно формализуемое. Практически не суще- ствует универсальных элементарных измеримых свойств, через которые определяется красота. В таких случаях используются только ранговые из- мерения при попарном сравнении объектов. Косвенные методы более тру- доемки, чем прямые, но их преимущество — в стойкости по отношению к искажениям в ответе. Для косвенных методов можно выдвинуть условие «безоговорочного экстремума»: при определении степени принадлежно- сти множество исследуемых объектов должно содержать, по крайней ме- ре, два объекта, численные представления которых на интервале [0,1] принимают значения 0 и 1, соответственно. Итак, нами выделены две основные группы методов построения функции принадлежности: прямые и косвенные. Однако, функция при- надлежности может отражать как мнение группы экспертов, так и мне- ние одного эксперта. Следовательно, возможны, по крайней мере, четы- ре группы методов: прямые и косвенные для одного эксперта, прямые и косвенные для группы экспертов. Кроме этого, необходимо рассмотреть методы построения функции принадлежности терм-множеств. 59
Нечеткие множества и нейронные сети Лекция 6. Методы построения функции принадлежности. Обзор основных методов В лекции рассматриваются наиболее распространенные методы по- строения функции принадлежности. Ключевые слова: прямой метод, косвенный метод, метод построения терм-множества. Прямые методы для одного эксперта Прямые методы для одного эксперта состоят в непосредственном задании функции, позволяющей вычислять значения. Например, пусть переменная «ВОЗРАСТ» принимает значения из интервала U = [0,100]. Слово «МОЛОДОЙ» можно интерпретировать как имя нечеткого под- множества U, которое характеризуется функцией совместимости. Таким образом, степень, с которой численное значение возраста, скажем и = 28, совместимо с понятием «МОЛОДОЙ», есть 0,7, в то время как совмести- мость и = 30 и и = 35 с тем же понятием есть 0,5 и 0,2 соответственно. Рассмотрим предложенный Осгудом метод семантических диффе- ренциалов. Практически в любой области можно получить множество шкал оценок, используя следующую процедуру: 1) определить список свойств, по которым оценивается понятие (объ- ект); 2) найти в этом списке полярные свойства и сформировать полярную шкалу; 3) для каждой пары полюсов оценить, в какой степени введенное по- нятие обладает положительным свойством. Совокупность оценок по шкалам была названа профилем понятия. Следовательно, вектор с координатами, изменяющимися от 0 до 1, так- же называется профилем. Профиль есть нечеткое подмножество положи- тельного списка свойств или шкал. Пример. В задаче распознавания лиц можно выделить следующие шкалы: 60
Лекция 6 Методы построения функции принадлежности. Обзор основных методов Ж1 Высота лба Низкий-широкий Х2 Профиль носа Горбатый - курносый хз Длина носа Короткий-длинный х± Разрез глаз Узкие-широкие Х5 Цвет глаз Темные-светлые Хв Форма подбородка Остроконечный-квадратный х- Толщина губ Тонкие-толстые Х8 Цвет лица Смуглое-светлое Хд Очертание лица Овальное-квадратное Светлое квадратное лицо, у которого чрезвычайно широкий лоб, курносый длинный ное, широкие светлые глаза, остроконечный подбо- родок, может быть определено как нечеткое множество {(дц, 1), (агг, 1), -. - ---,<®9,1>}. Способ вычисления частичной принадлежности друг другу строгих мно- жеств. Пусть покрытием К обычного множества U является любая со- вокупность обычных подмножеств {Ai,..., А&} множества U таких, что Ai А 0, Ат U ... U Ak = U. В крайнем случае, когда для любых i, j (г j), Ai П Aj = 0, имеет место разбиение U. Предположим, что имеет- ся В С U, тогда В может рассматриваться как нечеткое подмножество К с функцией принадлежности , Л , IAi ПВ| Мв(А) ~ |АгиВ| ’ где | А| — мощность множества А. Пример. Пусть U = {1,2,..., 9}, К = {{1,2,3,5}, {3,6,9}, {2,4,8}, {1,3,7}, {2,3,8}} = {А1,А2,Аз,А4,А5}, В = {2,3,5,8,9}. Тогда, рас- сматривая В как нечеткое подмножество К, можно написать М2Л/3), ИзМ (А5,%)}. Любое решение задачи многоцелевой оптимизации можно рассмат- ривать как нечеткое подмножество значений целевой функции следую- щим образом. Пусть Д,..., fa — целевые функции, где fa : Rn R, и пусть требуется решить задачу fa —> max для всех г. Пусть f* < сю — максимальное значение функции fa и С = {fa,..., fa} — множество це- левых функций, тогда любое значение х в области определения fa можно рассматривать как нечеткое множество на С* с вектором значений при- надлежности у* _ fa(x) Рх = (pi) • • - ; Рк}> где Pi = - — . 61
Нечеткие множества и нейронные сети Косвенные методы для одного эксперта В обыденной жизни мы часто сталкиваемся со случаями, когда не существует элементарных измеримых свойств и признаков, которые определяют интересующие нас понятия, например, красоту, интеллекту- альность. Бывает трудно проранжировать степень проявления свойства у рассматриваемых элементов. Так как степени принадлежности рассмат- риваются на данном реальном множестве, а не в абсолютном смысле, то интенсивность принадлежности можно определять, исходя из попарных сравнений рассматриваемых элементов. Среди косвенных методов определения функции принадлежности наибольшее распространение получил метод парных сравнений Саати. Сложность использования этого метода заключается в необходимости нахождения собственного вектора матрицы парных сравнений, кото- рая задается с помощью специально предложенной шкалы. Причем эти сложности увеличиваются с ростом размерности универсального множе- ства, на которой задается лингвистический терм. Мы рассмотрим метод, также использующий матрицу парных срав- нений элементов универсального множества. Но, в отличие от метода Са- ати, он не требует нахождения собственного вектора матрицы, т. е. осво- бождает исследователя от трудоемких процедур решения характеристи- ческих уравнений. Пусть А — некоторое свойство, которое рассматривается как лин- гвистический терм. Нечеткое множество, с помощью которого формали- зуется терм А, представляет собой совокупность пар: А = {< >, < и2, р.А(и2) > ,..., <Un,pA(.un) >}, где U = {-<11, н,2,..., Un} — универсальное множество, на котором зада- ется нечеткое множество А. Задача состоит в том, чтобы определить зна- чения /м(-щ) для всех i = 1,..., п. Совокупность этих значений и будет составлять неизвестную функцию принадлежности. Метод, который предлагается для решения поставленной пробле- мы, базируется на идее распределения степеней принадлежности элемен- тов универсального множества согласно с их рангами. Эта идея раньше использовалась в теории структурного анализа систем, где рассмотрены различные способы определения рангов элементов. В нашем случае под рангом элемента щ С U будем понимать число тд(гц), которое характеризует значимость этого элемента в формирова- нии свойства, описываемого нечетким термом. Допускаем, что выполня- ется правило: чем больший ранг элемента, тем больше степень принадлеж- ности. 62
Лекция 6 Методы построения функции принадлежности. Обзор основных методов Для последующих построений введем такие обозначения: га{щ) = — fi, pa(ui) = I1,-- Тогда правило распределения степеней принадлежно- сти можно задать в виде системы соотношений: » 1 <2 » Mi +№ + •• + Мп = 1- Используя данные соотношения, легко определить степени принад- лежности всех элементов универсального множества через степень при- надлежности опорного элемента. Если опорным является элемент щ € U с принадлежностью м?, то ri • , [ij = —Цг, для всех j А г- Учитывая условие нормирования, находим: Полученные формулы дают возможность вычислять степени при- надлежности элементов иг G U к нечеткому терму А двумя независимыми путями: 1. по абсолютным оценкам уровней г.г, которые определяются со- гласно методикам, предложенным в теории структурного анализа систем; 2. по относительным оценкам рангов = s^, которые образуют матрицу S = (sij). Эта матрица обладает следующими свойствами: а) она диагональная, т. е. вц = 1, i = 1,..., п; б) ее элементы, которые симметричны относительно главной диаго- нали, связаны зависимостью вц = J sji в) она транзитивна, т. е. Sjfc • s^j = s^. Наличие этих свойств приводит к тому, что при известных элементах одной строки матрицы S легко определить элементы всех других строк. 63
Нечеткие множества и нейронные сети Если известна r-я строка, т. е. элементы srj,j = 1,..., п, то произвольный элемент s^- находится так: &ki Поскольку матрица S может быть интерпретирована как матрица парных сравнений рангов, то для экспертных оценок элементов этой мат- рицы можно использовать 9 балльную шкалу Саати. В нашем случае шка- ла формируется так: Числовая оценка (s^) Качественная оценка (сравнение ту и rj) 1 отсутствие преимущества над rj 3 слабое преимущество п над rj 5 существенное преимущество п над г3 7 явное преимущество п над rj 9 абсолютное преимущество п над rj 2,4, 6, 8 промежуточные сравнительные оценки Таким образом, с помощью полученных формул экспертные знания о рангах элементов или их парные сравнения преобразуются в функцию принадлежности нечеткого терма. Скала предлагает общий метод варьирования прототипов получения численного значения функции принадлежности. Пусть имеется прототип (или идеальный объект) Р, описание которого можно деформировать из- мене нием параметров /ч, р2, .., рп. Если дан некоторый объект А, то, ва- рьируя параметры, можно добиться наибольшего соответствия прототи- па и объекта. Вводится мера сходства между объектом А и прототипом Р: р(А,р1,р2,-.-,Рп). Для более точного измерения сходства объекта с разными прототи- пами вводится штрафная функция d. Далее строится функция: sim(A) = min {p(A,pb... ,pn) + d(pr,... ,pT,)} Pl-Pn Так как прототип полностью соответствует самому себе, то sim(F) = 0. Численные значения функции принадлежности вычисляют- ся по формуле , .. , sim(A) P-P (A) = 1-----;—7—. max sim( A) 64
Лекция 6 Методы построения функции принадлежности. Обзор основных методов Прямые методы для группы экспертов При интерпретации степени принадлежности как вероятности было предложено получать функции принадлежности для нескольких классов понятий Sj расчетным путем, используя равенство pSj (щ) = где условная вероятность определяется по формуле Байеса: p(s.|„() = _ Е PuASj) p(ui\Sj) j=i причем P-u-ASj) =, j = l, г = 1,...,п, Уэ — число случаев при значении параметра иг, когда верной оказалась j-я гипотеза. Я. Я. Осис предложил следующую методику оценки функции при- надлежности. Первоначально определяется то максимальное количество классов, которое может быть описано данным набором параметров. Для каждого элемента и значение функции принадлежности класса Si допол- няет до единицы значения функции принадлежности класса S2 (в слу- чае двух классов). Таким образом, система должна состоять из классов, представляющих противоположные события. Сумма значений функции принадлежности произвольного элемента и к системе таких классов бу- дет равна единице. Если число классов и их состав четко не определены, то необходимо вводить условный класс, включающий те классы, которые не выявлены. Далее эксперты оценивают в процентах при данном состо- янии и степень проявления каждого класса из названного перечня. Однако в некоторых случаях мнение эксперта очень трудно выра- зить в процентах, поэтому более приемлемым способом оценки функ- ции принадлежности будет метод опроса, который состоит в следую- щем. Оцениваемое состояние предъявляется большому числу экспертов, и каждый имеет один голос. Он должен однозначно отдать предпочте- ние одному из классов заранее известного перечня. Значение функции принадлежности вычисляется по формуле цд(ы) = ns/n, где п — число экспертов, участвовавших в эксперименте, и ns — число экспертов, про- голосовавших за класс S. Пример. Пусть в результате переписи населения в некоторой области с численностью жителей р получено множество значений возраста U = = [0,100]. Пусть у(и) — число людей, имеющих возраст и и утверждаю- щих, что являются молодыми. Пусть п(ч) — действительное число лю- 65
Нечеткие множества и нейронные сети дей, имеющих возраст и\ тогда р = dn(u). Можно считать, что поня- тие «МОЛОДОЙ» описывается нечетким множеством на U с функцией принадлежности р.(и) = y(yi)/n(y). Очевидно, что для малых значений возраста у (и) = п(и), следовательно, /<(ы) = 1. Однако, не все п(35) счи- тают себя молодыми, следовательно, ?;(35) < н(35). Для и > 80 число у(и) должно быть очень маленьким. Косвенные методы для группы экспертов А. П. Шер предлагает способ определения функции принадлежно- сти на основе интервальных оценок. Пусть интервал [xr, x'J отража- ет мнение г-го эксперта, i > 1 (? = 1...m), о значении j-го (j = = 1,...,п) признака оцениваемого понятия S. Тогда полным описа- нием этого понятия г-м экспертом является гиперпараллелепипед О., = = [хц, х'и] х . х [xni, x'ni]. Приводится процедура, позволяющая вычис- лять коэффициенты компетентности экспертов, а также сводить исход- ную «размытую» функцию (усредненные экспертные оценки) к характе- ристической функции неразмытого, четкого множества. Алгоритм следу- ющий: 1. Рассматривая для каждого признака j все интервалы, предложен- ные экспертами, находим связанное покрытие их объединения, со- стоящее из непересекающихся интервалов, концами которых явля- ются только концы исходных интервалов: [xjk, ж'/.], j = к — 1,... ,rrij — 1. 2. Образуем на основе полученных покрытий непересекающиеся ги- перпараллелепипеды: Тк = [xik, x'ik] х . х [®nfc, х'пк], к = 1.m'. 3. Вычисляем для х е Тк. , , _ J 1, если Тк П 0г 0, если Тк П 6i = 0. 4. Полагаем номер итерации 1 = 1. 5. Вводим коэффициенты компетентности {А'}™, = {!/«}£,. 66
Лекция 6 Методы построения функции принадлежности. Обзор основных методов 6. Вычисляем приближение функции принадлежности при нормиро- ванных Aj, т.е. А* = 1: /(а) = У^Уг(т)А-, хеТк, к = 1,...,т'. i=i 7. Вычисляем функционал рассогласования мнения г-го эксперта с мнением экспертного совета на l-м итерации: Si= 22 [/(ж) - Vi(^)]2, i = хетк 8. Вычисляем Д = 52 1/^- г=1 9. Присваиваем 1 = 1 + 1. 10. Вычисляем А* = Д/<5*-1. 11. Если величина max | Х1~1 — А- | близка к нулю, то вычисления прекра- щаем и приближением функции принадлежности считаем f(x) = = fis(x), в противном случае возвращаемся к шагу 6. Опишем кратко косвенный метод, предложенный 3. А. Киквидзе. Пусть U — универсальное множество, S — понятие, общее название эле- ментов. Задача определения нечеткого подмножества U, описывающего понятие S, решается путем опроса экспертов. Каждый эксперт At (г = = 1,..., тп) выделяет из U множество элементов Qi, по его мнению, соот- ветствующих понятию S. Ранжируя все элементы множества Q = U Qi по предпочтению в смысле соответствия понятию S, каждый эксперт упорядочивает Q, используя отношение порядка >- или Отношение ~ указывает на одинаковую степень предпочтения между любыми элемен- тами qa,qe G Q. Предполагается, что эксперты могут поставить коэф- фициенты степени предпочтения 7 перед элементами в упорядоченной последовательности, усиливая или ослабляя отношение предпочтения. Вводится расстояние между элементами указанной последовательности q^.q^eQ: р(Цга,Цр) = ~- Здесь а,(3 — порядковые номера элементов в упорядочении. Рассто- яние вычисляется через первый в упорядочении элемент: Р(9«> 9д) = P(Q1, Яр) - P(Qi, Qa) = Ргр~ Pa- 67
Нечеткие множества и нейронные сети Эта разность показывает, насколько предпочтительнее qla по сравне- нию с qlp. При решении задачи взвешивания предпочтительности элемен- тов множества Q предполагается, что разность между весами —‘/’(Зд) пропорциональна разности ргр - р\: ip{qp+v) - = с(рр+и ~ Рр)- Когда v = 1, формула превращается в рекуррентную формулу, и задача сводится к определению веса первого элемента. При использовании рекуррентных формул вес последнего элемента должен отличаться от нуля. Например, в качестве <p(q\) можно выбрать max рга+ро- На основании всех <д(гД) (г = Ct т = 1,..., т) для qa определяется значение ip(qa) = ~ 52 ф(Яа)’ это и есть т 4=1 степень принадлежности элемента и е U некоторому нечеткому множе- ству с общим названием S. Зиммерман предлагает метод, сочетающий преимущества косвенных методов в их простоте и стойкости к искажениям ответов экспертов и преимущества прямых методов, позволяющих получить непосредственно значения степени принадлежности. Выборку объектов необходимо про- водить так, чтобы достаточно равномерно представить степень принад- лежности от 0 до 1 по отношению к рассматриваемому нечеткому множе- ству. Эта выборка должна удовлетворять условию безоговорочного экс- тремума, т. е. должна содержать, по крайней мере, два объекта, значения функции принадлежности на которых имеют определенность 0 и 1 (все эксперты приписывают эти числа экстремумам). Далее, когда множество подходящих объектов отобрано, эксперты опрашиваются о степенях при- надлежности в процентной шкале. Оценка позиции по шкале каждого объекта определяется посредством медианы из распределений значений принадлежности. В качестве процедуры шкалирования используется ме- тод, основанный на законе Терстона об измерении категорий. Процеду- ра, требующая отсортировки п объектов в (к +1) категории на некотором континууме свойств N экспертами, дает распределение частоты для каж- дого объекта по категориям. Средние значения границ категорий, полу- ченные методом наименьших квадратов, позволяют определить значения оценок объектов на шкале. Методы построения терм-множеств Считается, что для практических задач достаточно наличия нечетко- го языка с фиксированным конечным словарем — ограничение не слиш- ком сильное с точки зрения практического использования. Лингвисти- ческая переменная L, используемая при формализации задач принятия решения, на практике, как правило, имеет базовое терм-множество Т = 68
Лекция 6 Методы построения функции принадлежности. Обзор основных методов = {Тг}, состоящее из 2—10 термов. Каждый терм описывается нечетким подмножеством множества значений U некоторой базовой переменной и и рассматривается как лингвистическое значение L. Предполагается, что объединение всех этих элементов терм-множества покрывает полно- стью U. Это гарантирует, что любой элемент и е U описывается некото- рым Ti е т. Существует способ построения частотных оценок S ={«редко», «час- то», «иногда»,...}, который основан на предположении о том, что слово Si употребляется человеком не для обозначения зарегистрированной ча- стоты появления факта, а для обозначения относительного числа собы- тий в прошлой деятельности человека, когда рассматривалась такая же частота. Каждому s, ставится в соответствие нечеткое подмножество ин- тервала [0,1]. Функции принадлежности /js, получаются на основании психологического эксперимента следующим образом: группе испытуе- мых предъявляется набор стимулов (оценок частоты) и шкала из к катего- рий, упорядоченных по степени интенсивности частоты от наименьшей (1) до наибольшей (fc); испытуемым предлагается разбить стимулы на к классов согласно интенсивности частоты, независимо оценивая каждый стимул и помещая в любую категорию любое число стимулов. Каждому числу Uj из [0,1], Uj = (j — l)/(fc — 1), ставятся в соответствие степени употребления группой испытуемых слова Si для обозначения категории. Значения функции принадлежности определяются в результате норми- рования: //,<?,.('«) : [0,1] —> [0,1]. Предложенная методика оправдана следующим: выбор обозначения категории не отражается сколь-нибудь значительно на проведении ис- пытания. Во-первых, число категорий (деление шкалы) не влияет карди- нально на результаты эксперимента, в котором производится шкалирова- ние субъективных ощущений. Во-вторых, шкала из к категорий является шкалой равно кажущихся интервалов, поскольку предполагается, что ее деления отстоят на психологическом континууме на равных интервалах. Естественным шагом при построении функций принадлежности элементов терм-множества лингвистической переменной является по- строение одновременно всех функций принадлежности этого терм-мно- жества, сгруппированных в так называемое отношение моделирования R. Процесс построения состоит в заполнении таблицы, где, например, для лингвистической переменной «РАССТОЯНИЕ» столбцы индексиро- ваны расстояниями в метрах, а строки — элементами терм-множества «ОЧЕНЬ БЛИЗКО», «БЛИЗКО»,..., «ДАЛЕКО», «ОЧЕНЬ ДАЛЕКО». На пересечении соответствующей строки и столбца стоит степень сход- ства для испытуемого данных понятий в определенной семантической ситуации, например, насколько сходны понятия «БЛИЗКО» и «5 метров» 69
Нечеткие множества и нейронные сети в ситуации перебегания улицы перед быстро идущим транспортом. Рас- стояние берется от пешехода до машины и в данном случае является си- нонимом опасности. Вообще говоря, каждую клеточку таблицы можно заполнять отдельно, а потом, переставляя строки и столбцы, постарать- ся сделать строки и столбцы унимодальными. Если это удается, то ис- ходное терм-множество может быть использовано для построения нечет- кой шкалы измерений, точками отсчета которой являются сами элемен- ты терм-множества. Перевод в эту шкалу будет осуществляться с помо- щью минимаксного умножения строки, задающей исходную лингвисти- ческую переменную в шкале метров, на отношение моделирования. От- ношение сходства между элементами терм-множества R о RT, получен- ное с помощью умножения матрицы R на транспонированную, задает на- бор функций принадлежности элементов лингвистической шкалы в са- мой шкале, а отношение RT о R задает набор функций принадлежности расстояний в метрах в метрической шкале. 70
Лекция 7 Нечеткие числа и операции над ними Лекция 7. Нечеткие числа и операции над ними В лекции дается определение нечеткого числа, рассматриваются его свойства, описываются операции над нечеткими числами. Подробно рас- сматриваются нечеткие треугольные числа, а также различные арифметики нечетких треугольных чисел. Ключевые слова: нечеткое число, нечеткое число (L — Д)-типа, нечеткое трапезоидное число, нечеткое треугольное число. Основные определения Нечеткое число — это нечеткое подмножество универсального мно- жества действ тельных чисел, имеющее нормальную и выпуклую функцию принадлежности, то есть такую, что: а) существует значение носителя, в котором функция принадлежности равна единице, а также Ь) при отступ- лении от своего максимума влево или вправо функция принадлежности не возрастает. Нечеткое число А унимодально, если условие ^д(.т) = 1 справедливо только для одной точки действительной оси. Выпуклое нечеткое число А называется нечетким нулем, если Мл(0) = sup (^д(ж)). X Подмножество Sa Q R называется носителем нечеткого числа А, ес- ли S = {а?|/м(ж) > 0}. Нечеткое число А положительно, если V.r е Sa х > 0, и отрицатель- но, если V® G Sa х < 0. Согласно принципу обобщения Заде было введено понятие ариф- метических операций на множестве нечетких чисел. Для произвольных нечетких чисел А. В, С и для любых чисел х, у, z е R справедливо С = А*В <4- sup (рА(х) Л р,в{у)). z=x*y Расширенные бинарные арифметические операции (сложение, ум- ножение и пр.) для нечетких чисел определяются через соответствующие 71
Нечеткие множества и нейронные сети операции для четких чисел с использованием принципа обобщения сле- дующим образом: С = А+В С = А—В С = А~В С = А^В sup (цА(х) Ацв(у)) z=x+y sup (рд(ж) Л (?/)) z=x-y sup (цд(ж) А/гв(у)). 2=Ху sup (ма(ж) Лмв(у)). z=x/j/ Анализ свойств арифметических операций над нечеткими числами показал, что нечеткое число не имеет противоположного и обратного чи- сел, сложение и умножение коммутативны, ассоциативны и в общем слу- чае недистрибутивны. При решении задач математического моделирования нечетких си- стем можно использовать нечеткие числа (£ — Я)-типа, которые предпо- лагают более простую интерпретацию расширенных бинарных отноше- ний. Нечеткие числа (Z — Я)-типа — это разновидность нечетких чисел специального вида, т. е. задаваемых по определенным правилам с целью снижения объема вычислений при операциях над ними. Функции принадлежности нечетких чисел (L — й)-типа задаются с помощью невозрастающих на множестве неотрицательных действитель- ных чисел функций действительного переменного L(x) и R(x), удовле- творяющих свойствам: а) Ц—х) = L(x), R(—x) = Д(я); б) L(0) = Л(0). Очевидно, что к классу (L — Я)-функций относятся функции, гра- фики которых имеют следующий вид (см. рис. 7.1). Пусть L{y) и R(y) — функции (L — Я)-типа. Унимодальное нечет- кое число А с модой а (т. е. тДа) = 1) задается с помощью L(y) и R{y) следующим образом: У А (Х) = L R если х а, если х а. где а — мода; а > 0, (3 > 0 — левый и правый коэффициенты нечеткости. Таким образом, при заданных L(y) и R(y) нечеткое число (унимо- дальное) задается тройкой А = (а; а, (3). 72
Лекция 7 Нечеткие числа и операции над ними Толерантное нечеткое число задается, соответственно, четверкой па- раметров А = (щ, а2; а, (3), где «ц и а2 — границы толерантности, т. е. в промежутке [«ц, а2] значение функции принадлежности равно 1. Примеры графиков функций принадлежности нечетких чисел (L — — 7?)-типа приведены на рис. 7.2. Рис. 7.2 Толерантные нечеткие числа (L — R)-muna называют трапезоидны- ми числами. Если мы оцениваем параметр качественно, например, го- воря: «Это значение параметра является средним», необходимо ввести уточняющее высказывание типа «Среднее значение — это примерно от а до Ъ», которое есть предмет экспертной оценки (нечеткой классифика- ции), и тогда можно использовать для моделирования нечетких класси- фикаций трапезоидные числа. На самом деле, это самый естественной способ неуверенной классификации. Унимодальные нечеткие числа (L — R) -типа называют треугольными 73
Нечеткие множества и нейронные сети числами. Треугольные числа формализуют высказывания типа «приблизи- тельно равно а». Ясно, что а ± ё « а, причем по мере убывания ё до нуля степень уверенности в оценке растет до единицы. Нечеткие треугольные числа — это наиболее часто используемый тип нечетких чисел, причем чаще всего — в качестве прогнозных значений па- раметра. Нечеткие треугольные числа На практике часто используется альтернативное определение нечет- кого треугольного числа. Определение. Треугольным нечетким числом А называется тройка {а, Ь, с) (а b с) действительных чисел, через которые его функция принад- лежности ps определяется следующим образом: Мл (®) = < если .т G [а, Ь], если х G [Ь. с], в противном случае. Второе число Ь тройки (а, Ь, с} обычно называют модой или четким значением нечеткого треугольного числа. Числа а и с характеризуют сте- пень размытости четкого числа. Например, на рис. 7.3 изображено нечеткое треугольное число А = = (1,5.7), которое лингвистически можно проинтерпретировать как «около 5» или «приблизительно 5». 1 2 3 4 5 6 7 Рис. 7.3. В общем случае при определении нечеткого треугольного числа не обязательно использовать линейные функции. Часто в различных прило- жениях используются две функции, из которых одна монотонно возрас- тает на интервале [а, Ь], а другая монотонно убывает на интервале [6, с]. Однако Купер предложил так называемый landmark-based метод для си- стем управления, в соответствие с которым монотонности и дифферен- цируемости данных функций на соответствующих отрезках достаточно 74
Лекция 7 Нечеткие числа и операции над ними для того, чтобы система сходилась и имела единственное решение. Таким образом, без потери общности, каждое нечеткое треугольное число может быть представлено упорядоченной тройкой действительных чисел. Если А = (ад,Ьд,са) и В = (ав,Ьв,сь) — треугольные нечеткие числа, то, согласно принципу обобщения Заде, нечеткое треугольное чис- ло С = А * В также является треугольным и характеризуется тройкой (ас,Ьс,сс), где at? = min {ад * ав, ад * св. сд * ав, сд * св} . се = max {ад * ав, ад * св, сд * ав, сА * св} , Ьс = Ьд * Ьв. К сожалению, даже при ограничении нашего виденья нечетких чи- сел до понятия треугольных чисел, проблемы противоположного, обрат- ного элементов и дистрибутивности остаются нерешенными. Было предложено ввести некоторые ограничения на вычисление частных случаев вида А * А. Ограничения эти позволяют получить проти- воположный и обратный элементы. Однако проблема дистрибутивности таким способом не решается. Более того, ограничения кажутся довольно искусственными: чем, к примеру, можно объяснить различие в алгорит- мах вычисления А — А и А — В? Есть еще один существенный недостаток такого подхода. Размы- тость произведения зависит не только от размытости сомножителей, но и от того, какое место данные нечеткие числа занимают на числовой оси. Например, пусть Аг = (1,2,3), В] = (2,3,4) и А2 = (99,100,101), В2 = (100,101,102). Тогда В( = (2,6,12) и А2 • В2 = (9 900,10100,10 302). Число А2 В2 получается гораздо более размытое, чем А^ Вг. Позднее было предложено другое определение нечеткого числа. Определение. Нечетким числом и называется пара (а, и) функций и, й : [0,1] —> R, удовлетворяющих следующим условиям: • й(г) — монотонно возрастающая непрерывная функция; • й(г) — монотонно убывающая непрерывная функция; • Vr п(г) й(г). Это позволило авторам ввести понятие меры и превратить множе- ство нечетких чисел в топологическое пространство. Далее была предложена следующая модификация определения нечет- кого числа. 75
Нечеткие множества и нейронные сети Определение. Для любого нечеткого числа и = (и, и) число u0 = |(м(1) + + u(l)) называется локальным и, = uq - и индексом числа и, две неубы- вающие непрерывные функции г/* = и0 — и и и* = й — и0 называются левым и правым индексами нечеткости, соответственно. Согласно данному определению, каждое нечеткое число может быть представлено следующим образом: (ч<о, Далее вводится понятие арифметических операций над нечеткими числами такого вида. Для любых нечетких чисел и = (и^, и*, и*) и v = = (v0, v„, v*) они определяются следующим образом: и * v = (и0 * г?0, и* V V*). Этот подход позволяет решить проблему дистрибутивности, так как размытость числа и * v для всех четырех операций вычисляется при помо- щи единственного оператора, который дистрибутивен относительно са- мого себя (т. е. коммутативен, ассоциативен и идемпотентен). Несмотря на это преимущество, проблемы противоположного и обратного элементов и при таком подходе остаются нерешенными. Четкие арифметики нечетких треугольных чисел Вернемся к рассмотрению нечетких треугольных чисел как частного случая нечетких чисел (L — /?)-типа, т. е. имеющих вид (а; а, /3). Мы будем строить арифметику +,~), где +, ~ — операции сложе- ния и умножения, определенные на нечетких треугольных числах. В по- строенной арифметике для каждого элемента будут существовать проти- воположные и обратные элементы. Поэтому нет никакой необходимости в определении операций вычитания и деления. Определяя операции сложения и умножения, мы можем вычислять размытость суммы и произведения нечетких треугольных чисел либо по одному алгоритму, либо по разным. Сперва рассмотрим случай, когда размытость суммы и произведения нечетких треугольных чисел вычисля- ется по одному алгоритму. Определим операции сложения и умножения нечетких треугольных чисел следующим образом: (ai; а1,/31)*(а2; а2,/32) = («И * а2; с^Оац, 0]О/32)- где * — либо сложение, либо умножение, О — некоторая бинарная опе- рация, определенная на множестве неотрицательных действительных чи- сел. 76
Лекция 7 Нечеткие числа и операции над ними Опишем, какими свойствами должна обладать операция О для того, чтобы сложение и умножение были коммутативны, ассоциативны, дис- трибутивны, а также существовали противоположные и обратные эле- менты. Очевидно, что для того, чтобы операция * была коммутативной и ассоциативной, О также должна быть коммутативной и ассоциативной, т. е. удовлетворять следующим условиям: а 0(3 = (3 Оа, (о 0(3) О7 = а О {(3 О7). Пусть 0 = (а0; а0, (Зо) — нечеткий ноль. Очевидно, что его мода а0 равна нулю, а коэффициенты размытости ао, и Д() фиксированные зна- чения. Тогда для любого a G R+ имеем а Осед = «о Оа = а О(3о = /Зо Оа. Для того, чтобы каждое нечеткое число обладало противоположным, необходимо, чтобы для любого а е R+ существовали а', (3' G R+, такие, что а Оа' = а' Оа = ао и а 0/3' = (3' Оа = (Зо- Аналогично, если 1 = (ад; ai, Д1) — нечеткая единица, то для любого a G R+ имеем a Oai = ai Oa = a ОД1 = (3i Oa. И для любого a G R+ существуют a". (3" G R+, такие, что a Oa" = a" Oa = ai и a 0(3" = (3" Oa = (3\. Легко заметить, что алгебраическая система (R+, О) образует абеле- ву группу. Следовательно, ао = (Зо — «i = (31 = е и для любого a G R+ имеем а' = (3' = а" = (3" = а-1. Для того, чтобы операции +, ~ удовлетворяли условию дистрибутив- ности, необходимо и достаточно, чтобы для любых а, (3,7 G R+ операция О удовлетворяла следующему условию: (а 0/3) О (а 07) = а О (Д 07). (2) Если О коммутативна и ассоциативна, то получим (а 0/3) О (а О7) = (а Оа) О (Д О7). Следовательно, для того, чтобы условие (2) выполнялось, достаточ- но, чтобы О была коммутативна, ассоциативна и идемпотентна, т. е. удо- влетворяла условиям (1) и для любого a G R+ a Oa = a. 77
Нечеткие множества и нейронные сети Нетрудно показать, что никакая группа не обладает свойством идем- потентности. Вывод Невозможно построить арифметику нечетких треугольных чисел, изоморфную арифметике действительных (четких) чисел, если размы- тость суммы и произведения нечетких треугольных чисел вычисляется по одному алгоритму. Теперь рассмотрим случай, когда размытость суммы и произведения определяются по разным алгоритмам. Пусть (ЯГ. «1, /?l) + (ci2; 012,= (<21 + 02; Од Ф «2, Д1 ф /32), (ai; ai,/3i)7(a2; az, Д2) = (сц • a2; од ® о2, Д1 ® Дг)- Очевидно, что если алгебраическая система {R+, ф, ®) удовлетворя- ет свойствам коммутативности, ассоциативности, дистрибутивности, су- ществования нейтрального и единичного элементов, существования про- тивоположного и обратного элементов, то она образует ассоциативное, коммутативное кольцо с единицей и с делением (т. е. почти поле). Пример. Рассмотрим поле (/?,+,-) действительных чисел. Функция f(x) = ех является взаимно однозначным отображением R на R+. Опре- делим операции фи® таким образом, чтобы f являлось изоморфизмом соответствующих систем. Очевидно, что должны выполняться следую- щие равенства: афД = Г(Г1(а)+Г,(Д)), a0(3 = f(f-\ayr\/3)). Таким образом, мы получим о Ф /3 = elnQ+lnf3 = а/3, а®/3 = е1па1п(). Нетрудно убедиться, что при таком задании операций размытости арифметика 93 будет коммутативной, ассоциативной и дистрибутивной. Роль нулевого элемента будет выполнять нечеткое треугольное число О = — (0; 1,1); роль единичного элемента — нечеткое треугольное число 1 = = (1; е, е). Для произвольного нечеткого треугольного числа А = (а; а, (3) противоположным числом будет —А = (—а; А, Т) и обратным элементом будет А 1 =< >. 78
Лекция 7 Нечеткие числа и операции над ними Недостатком этой арифметики является то, что в нее не входят чет- кие и «получеткие» числа, т. е. числа, у которых хотя бы один из коэффи- циентов размытости равен нулю. Но этого легко избежать, если доопре- делить ее, например, следующим образом: а = 0&/3 = 0 => а® [3 — а® (3 = G. Заметим, что, варьируя мощность изоморфного поля, мы тем самым варьируем и мощность множества коэффициентов размытости, исполь- зуемых в данной арифметике. Размытые арифметики нечетких треугольных чисел В предыдущем параграфе мы доказали, что возможно построить арифметику нечетких треугольных чисел, аналогичную арифметике чет- ких чисел. Однако, на наш взгляд, каждая такая арифметика будет обла- дать одним существенным недостатком. Рассмотрим арифметику 9Я, описанную в примере. Пусть Nj = = (0; ai,(3i), где аг V Д, 7^ 1. Для произвольного числа А = (а; а,/3) вы- полняется Д+М = (а; аоц,[3(3^. Если А имеет некоторое лингвистическое значение (например, «при- близительно а»), то нечеткое число Д+М является некоторым модифика- тором числа А (например, «более или менее приблизительно а»). Таким образом, нечеткое число Nt является «приблизительно нулевым элемен- том». Более того, при а —> 1 и (3 —> 1 эта «приблизительность» возрастает. Однако при формальном описании арифметики 9Я это свойство нигде не отражается. Рассмотрим новый подход к арифметике нечетких чисел, который успешно формализует описанное выше свойство без потери свойств, ана- логичных свойствам четкой арифметики. При этом подходе нечеткость рассуждений увеличивается, но это не всегда является минусом. Основная идея данного подхода заключается в том, что понятие нечеткости накладывается на арифметические операции. То есть резуль- татом произведения (или сложения) двух нечетких треугольных чисел яв- ляется не одно конкретное нечеткое треугольное число, а нечеткое мно- жество, определенное на множестве нечетких треугольных чисел. Такие операции названы размытыми операциями. Следовательно, и арифмети- ку нечетких чисел с размытыми операциями мы будем называть размы- той (сокращенно РА-НТЧ). Рассмотренные выше арифметики мы будем называть четкими (сокращенно ЧА-НТЧ}. 79
Нечеткие множества и нейронные сети Пусть нам задана некоторая ЧА-НТЧ = (3?, На базе этой арифметики будем строить PA-HT41R = (3?, ~+, Пусть нам даны нечеткие числа А = (а;аА,рА) и В = (Ь;ав,рв). Множество А* В является нечетким подмножеством множества 3J с функ- цией приоритета /iAsrB, которая для любого нечеткого треугольного числа С = {с; ас, Рс} удовлетворяет условию О, если с 7^ а * Ь, п^ьЬч+1’ в противном случае. где а* = \ас — аА* ав\, Р* = \Рс - Ра * Рв\- Введем новое обозначение. Пусть рА*В (С) = 7. Тогда, если 7 > О, то будем записывать А* В = 7С. Если же 7 = 0, то будем записывать А* В ф С. Число С = AZB =< а * Ь; аА * ав, Ра * Рь > назовем каноническим представителем произве,дения А* В. Очевидно, что A*B = iC С = Ск. Для всех остальных нечетких чисел, чья мода равна а * Ь, значение функ- ции принадлежности уменьшается с увеличением «удаленности» данного числа от канонического представителя. Независимо от задания арифметики 5R, размытая арифметика1ft бу- дет обладать слабым свойством коммутативности, т. е. для любых А, В G 3? будет выполнено следующее равенство множеств А* В = LT* А. На самом деле, если найдется такое число 71 > 0, что/Г* В = 71С,то, согласно (3), имеем с = а * Ь. Так как на множестве действительных чисел и сложение, и умножение коммутативны, то с = b * а, и, следовательно, найдется такое число 72 > 0, что ЕГ* А = 72С. Заметим, что в общем случае 71 72. Именно поэтому свойство названо «слабым». Если ЧА-НТЧ К обладает свойством коммутативности, то РА-НТЧ "3? будет обладать сильным свойством коммутативности, т. е. для любых А, В, С € 3? выполняется А* В = 7С <=> ВАА = 7С. Прежде чем говорить об ассоциативности и дистрибутивности, необ- ходимо рассмотреть алгоритм вычисления арифметических выражений, содержащих более двух нечетких треугольных чисел. Пусть F(Ai, А3,..., Ап) — некоторое арифметическое выражение, содержащие нечеткие числа А1,А2,..., Ап. Сперва найдем канонический 80
Лекция 7 Нечеткие числа и операции над ними Mf(C) = представитель Ск =< с;ак,рк > этого выражения, т. е. значение выраже- ния в ЧА-НТЧ SR. Тогда для любого С € Si имеем О, если с F(ai,... ,ап), гпах{<Лн+1> В противном случае. гдеа* = |ас - <**1, /3* = \рс - Рк\- Нетрудно убедиться, что полученная арифметика будет обладать свойствами слабой ассоциативности и слабой дистрибутивности, т. е. для любых А, В, С е Э? выполнены следующие равенства множеств: A* (ВА С) = (A* Bf* С, А- (ВА С) = (А+ В}- (А + С). Необходимым и достаточным условием для выполнения сильных свойств ассоциативности и дистрибутивности является условие выпол- нения этих свойств в арифметике Si. В построенной нами арифметике следующим образом определим понятия нулевого и единичного элементов. Элемент N G Э? называется нулевым, если для любого A G Si найдутся такие числа 71,72 € (0,1], что А I- 7V = А и А + А — 72 А. И, аналогично, элемент Е е Si называется единичным, если для лю- бого A G Si найдутся такие числа 71,72 € (0,1], что А-Е = -11А и КА = 12А. Нетрудно убедиться, что все нечеткие треугольные числа, мода кото- рых равна нулю, являются нулевыми, и нечеткие треугольные числа, мода которых равна единице, являются единичными. Вернемся теперь к рассмотрению проблемы, описанной в начале данного параграфа. Пусть число No =< 0; о0, /% > — нулевой элемент в арифметике JR. Тогда для любого A G Si имеем А+ No = i А и No + А = = 1А. Если Ni =< 0; сцД > (of а0> или Pi /30)- Тогда найдутся такие числа 71,72 G (0,1], что А+ N. = 71А и Ny+ А — 72 А. Более того, —+ ао => 71 1, А —♦ Ро 72 —> 1- Проблема противоположного и обратного элементов решается по аналогии с проблемой коммутативности; в слабом варианте проблема ре- шается автоматически, а усиленный вариант зависит от того, существуют ли противоположный и обратный элементы в арифметике й. 81
Нечеткие множества и нейронные сети Лекция 8. Нечеткая логика В лекции дается определение нечеткой переменной и рассматриваются различные логики данной нечеткой переменной. Ключевые слова: нечеткая переменная, нечеткая логика, нечеткая операция отрицания, нечеткая операция конъюнкции, нечеткая операция дизъюнкции. В сочетании слов «нечеткий» и «логика» есть что-то необычное. Ло- гика в обычном смысле слова есть представление механизмов мышления, то, что никогда не может быть нечетким, но всегда строгим и формаль- ным. Однако математики, исследовавшие эти механизмы мышления, за- метили, что в действительности существует не одна логика (например, булева), а столько, сколько мы пожелаем, потому что все определяется выбором соответствующей системы аксиом. Конечно, как только аксио- мы выбраны, все утверждения, построенные на их основе, должны быть строго, без противоречий увязаны друг с другом согласно правилам, уста- новленным в этой системе аксиом. Человеческое мышление — это совмещение интуиции и строгости, которое, с одной стороны, рассматривает мир в целом или по аналогии, а с другой стороны — логически и последовательно и, значит, представ- ляет собой нечеткий механизм. Законы мышления, которые мы захотели бы включить в программы компьютеров, должны быть обязательно фор- мальными; законы мышления, проявляемые в диалоге человека с чело- веком — нечеткие. Можем ли мы поэтому утверждать, что нечеткая ло- гика может быть хорошо приспособлена к человеческому диалогу? Да — если математическое обеспечение, разработанное с учетом нечеткой ло- гики, станет операционным и сможет быть технически реализовано, то человеко-машинное общение станет намного более удобным, быстрым и лучше приспособленным к решению проблем. Термин «нечеткая логика» используется обычно в двух различных значениях. В узком смысле, нечеткая логика — это логическое исчис- ление, являющееся расширением многозначной логики. В ее широком смысле, который сегодня является преобладающим в использовании, нечеткая логика равнозначна теории нечетких множеств. С этой точки зрения, нечеткая логика в узком смысле является разделом нечеткой ло- гики в широком смысле. 82
Лекция 8 Нечеткая логика Определение. Любая нечеткая переменная характеризуется тройкой {x,U,X), где х — название переменной, U — универсальное множество, X — нечеткое подмножество множества U, представляющее собой нечеткое ограничение на значение переменной и € U, обусловленное х. Используя аналогию с саквояжем, нечеткую переменную можно упо- добить саквояжу с ярлыком, имеющим «мягкие» стенки. Тогда х — над- пись на ярлыке (название саквояжа), U — список предметов, которые в принципе можно поместить в саквояж, а X — часть этого списка, где для каждого предмета и указано число //д- (и), характеризующее степень лег- кости, с которой предмет можно поместить в саквояж х. Рассмотрим теперь различные подходы к определению основных операций над нечеткими переменными, а именно конъюнкции, дизъюнк- ции и отрицания. Данные операции являются основными для нечеткой логики в том смысле, что все ее конструкции основываются на этих опе- рациях. В настоящее время в нечеткой логике в качестве операций конъ- юнкции и дизъюнкции широко используют i-нормы и i-конормы, при- шедшие в нечеткую логику из теории вероятностных метрических про- странств. Они достаточно хорошо изучены и лежат в основе многих фор- мальных построений нечеткой логики. В то же время расширение обла- сти приложений нечеткой логики и возможностей нечеткого моделирова- ния вызывает необходимость обобщения этих операций. Одно направ- ление связано с ослаблением их аксиоматики с целью расширения ин- струментария нечеткого моделирования. Другое направление обобщения операций конъюнкции и дизъюнкции нечеткой логики связано с заме- ной множества значений принадлежности [0,1] на линейно или частично упорядоченное множество лингвистических оценок правдоподобности. Эти обобщения основных операций нечеткой логики, с одной стороны, вызываются необходимостью разработки экспертных систем, в которых значения истинности фактов и правил описываются экспертом или поль- зователем непосредственно в лингвистической шкале и носят качествен- ный характер. С другой стороны, такие обобщения вызываются смеще- нием направления активного развития нечеткой логики от моделирования количественных процессов, поддающихся измерению, к моделированию процессов мышления человека, где восприятие мира и принятие реше- ний происходит на основе гранулирования информации и вычисления словами. Естественным обобщением иволютивных операций отрицания нечет- кой логики являются неиволютивные отрицания. Они представляют са- мостоятельный интерес и рассматриваются в нечеткой и других неклас- 83
Нечеткие множества и нейронные сети сических логиках. Необходимость исследования подобных операций от- рицания вызывается также введением в рассмотрение обобщенных опе- раций конъюнкции и дизъюнкции, связанных друг с другом с помощью операции отрицания. Операции отрицания Пусть множество значений функций принадлежности L является линейно упорядоченным множеством с наименьшим О и наибольшим 1 элементами. Примером L может служить интервал вещественных чисел [0,1], шкала лингвистических оценок (например, L ={«неправдоподобно», «малоправдоподобно», «средняя правдоподобность», «большая правдо- подобность», «наверняка»}, шкала балльных оценок и др. Определение. Операцией отрицания на L называется функция п : L —» L, удовлетворяющая следующим условиям: (01) n(0) = 1. п(1) = 0; (02) х у => п(у) п(х). В зависимости от выполнения на L дополнительных условий, рас- сматриваются следующие типы отрицаний: • Строгое отрицание: х < у => п(у) < п(х); • Квазистрогое отрицание: [ж < у&п(х) — п(у)] => п(х), п(у) е {0,1}; • Инволюция: тг(п(х)') = х; • Обычное отрицание: п(п(х)) < ж; • Слабое отрицание: х < п(п(ж)). Слабое отрицание называется также интуиционистским отрицани- ем. Элемент х из L будет называться иволютивным элементом, если п(п(х)) = х, в противном случае он будет называться неиволютивным. Отрицание будет называться неиволютивным, если L содержит неиволю- тивные по этому отрицанию элементы. Элемент s G L, удовлетворяющий условию n(s) = s, называет- ся фиксированной точкой. Этот элемент будет центральным элементом (фокусом) L. Очевидно, что если фиксированная точка существует, то она единственна. Отрицание п называется сжимающим в точке х е L, если выполне- но условие х А п(х) < п(п(х)) х V п(х). 84
Лекция 8 Нечеткая логика Отрицание называется сжимающим на L, если оно сжимающее в каждой точке множества L. Отрицание п называется разжимающим в точке х е L, если выпол- нено условие п(х) Л п(п(х)) < х < п(х)х V п(п(х)). Отрицание называется разжимающим на L, если оно является раз- жимающим в каждой точке множества L. Теорема. Для любого отрицания п любая точка х е L является либо сжи- мающей, либо разжимающей. Доказательство. Пусть х п(х), тогда из условия (02) получим п(п(х)) < п(х), откуда следует либо х < п(п(х)) < п(х), либо п(п(х)) < х п(х). Аналогично, из п(х') х получаем п(х) < п(п(х)), и, следовательно, либо п(х) < п(п(х)) < х, либо п(х) х п(п(х)). □ Следствие. Элемент х является иволютивным тогда и только тогда, если он одновременно сжимающий и разжимающий. Используя математические методы, можно доказать, что элементы, порождаемые сжимающими и разжимающими отрицаниями в точках, представляют собой спирали, соответственно «закручиваемые внутрь» или «раскручиваемые наружу». Эти спирали либо бесконечные, либо в конечном случае имеют петлю на конце, состоящую из двух элементов, которые для сжимающих отрицаний могут совпадать, образуя неподвиж- ную точку отрицания. Спирали, порождаемые разными элементами, ли- бо вложены друг в друга, либо совпадают, начиная с некоторого элемента. На рис. 8.1 даны примеры сжимающего и разжимающего в точке х отрицания. Элементы L представлены вершинами соответствующего графа и упорядочены снизу вверх, в частности, у < х. Элементы у по- рождаются элементами х так, что у = п(х) для рис. 8.1 (А) и у = п(п(х)) для рис. 8.1 (Б). Рассмотрим простейшие примеры отрицаний. Во всех примерах предполагается, что L содержит элементы, отличные от 0 и 1. Пример 1. «Все, что не истина и не ложь, является неопре- деленностью». 1, если х = 0; п(х) = < с, если х £ {0,1} 0, если х = 1. где с — некоторый элемент из L такой, что с {0,1}. Это отрицание является сжимающим, ни обычным, ни слабым, с фиксированной точкой. Рис. 8.2 85
Нечеткие множества и нейронные сети Рис. 8.3 Рис. 8.4 Рис. 8.1 Пример 2. «Все, что не истина, есть ложь». , . fl, если х 7^ 1; П(х) — 5 гх ' [0, если х — 1. Это отрицание является обычным, разжимающим, квазистро- гим, без фиксированной точки. Пример 3. «Все, что не ложь, есть истина». п(х) = 1, если х = 0; 0, если х 0. Это отрицание является слабым, разжимающим, квазистро- гим, без фиксированной точки. Рис. 8.5 Пример 4. «Все или истина, или ложь». п(х} = 1, если х < с; 0. в противном случае. где с — некоторый элемент из L такой, что с 0 {0,1}. Это отрицание является разжимающим, ни обычным, ни слабым, без фиксированной точки. Некоторые подходы к формализации нечеткой логики, основанные на подобной интерпретации, сводят ее к двузначной, используя с = 0,5. 86
Лекция 8 Нечеткая логика Пример 5. Пусть L = {ai, а2, - - -, ато}, где аг < ai+1. Это отрицание является иволютивным. При нечетном т = = 2р + 1 фиксированной точкой отрицания является эле- мент s = аР+1- Мера нечеткости на этом элементе принимает максимальное значение. При четном т = 2р фиксирован- ная точка отрицания отсутствует, фокус состоит из множества {ap, ap p i}, имеющих максимальную нечеткость. Рис. 8.6 Операции конъюнкции и дизъюнкции Как отмечалось на предыдущих лекциях, операции конъюнкции Л = min и V = max, введенные Заде, обладают почти всеми свойства- ми соответствующих булевых операций. Это позволяет легко обобщать для нечеткого случая многие понятия «четкой» логики. Однако с других точек зрения эти операции являются ограничительными Возможность рассмотрения более «мягких» операций конъюнкции и дизъюнкции об- суждал еще Заде в своих первых работах. Целесообразность применения тех или иных операций конъюнкции и дизъюнкции в нечеткой логике может рассматриваться с разных пози- ций в зависимости от области приложения нечеткой логики. Во-первых, эти операции интересны с точки зрения моделирования лингвистических связок «и» и «или», используемых человеком. С одной стороны, операции min и max являются адекватными в порядковых шка- лах, в которых обычно измеряются лингвистические оценки. Это обу- словливает их широкое применение в нечетких лингвистических моде- лях. Однако, недостатком этих операций является то, что их результат равен значению одного операнда и не меняется при изменении значе- ний второго операнда в определенном диапазоне величин Например, 0,2 Л у = 0,2 для всех значений у 0,2. Кроме того, в ряде экспе- риментальных работ было установлено, что операции mm и max не яв- ляются достаточно удовлетворительными с точки зрения моделирования лингвистических связок. Это привело к появлению работ по разработке строго монотонных операций в порядковых шкалах, по настраиваемым на эксперта табличным операциям, а также стимулировало исследования по поиску новых операций конъюнкции и дизъюнкции. Во-вторых, расширение класса операций конъюнкции и дизъюнк- ции было вызвано необходимостью построения достаточно общих ма- 87
Нечеткие множества и нейронные сети тематических моделей, которые могли бы с единых позиций рассматри- вать, например, вероятностные и многозначные логики, различные ме- тоды принятия решений, обработки данных и т. д. Подобное расширение произошло в результате введения в рассмотрение недистрибутивных опе- раций конъюнкции и дизъюнкции, известных под названием /-норм и t- конорм. Докажем, что условие дистрибутивности совместно с условиями мо- нотонности и граничными условиями однозначно определяет операции Заде. Итак, пусть нам даны две операции Л и V, удовлетворяющие следу- ющим условиям: 1. Дистрибутивность: х Л (у V z) — (х Л у) V (ж Л z), х V (у Л z) = (ж V у) Л (ж V z). 2. Монотонность: X Z, у и X Г\у Z f\U, xVy^zVu. 3. Граничные условия: ж Л 1 = 1 Аж = ж, ж\/0 = 0\/ж = ж. Из монотонности и граничных условий следует выполнение усло- вий: 0Лж = 0, 1 V ж = 1. Далее выводится условие идемпотентности дизъюнкции: ж = ж Л 1 = ж Л (I V 1) = (ж Л 1) V (ж Л 1) = ж V ж. И из тах(ж, у) = тах(ж, у) V тах(ж, у) ж V у тах(ж V О, О V у) = тах(ж, у) следует ж V у = тах(ж, у). Аналогично выводится ж Л у = тт(ж, у). Установлено, что именно условие дистрибутивности является наи- более жестким ограничением на возможную форму операций конъюнк- ции и дизъюнкции. Удаление этого свойства из множества аксиом устра- няет единственность операций min и max и дает возможность совершать построения широкого спектра нечетких связок. Свойство дистрибутив- ности очень важно в логике, так как оно дает возможность совершать эквивалентные преобразования логических форм из дизъюнктивной в 88
Лекция 8 Нечеткая логика конъюнктивную форму и обратно. Оно активно используется в процеду- рах минимизации логических функций, в процедурах логического выво- да на основе принципа резолюции и т. п. Однако, во многих задачах такие преобразования логических форм не являются необходимыми, и поэтому оказалось, что свойство дистрибутивности может быть «довольно безбо- лезненно» удалено из системы аксиом, определяющих нечеткие операции конъюнкции и дизъюнкции. Основной аксиомой для них является ассоци- ативность, и свойства этих операций во многом определяются общими свойствами ассоциативных функций и операций, активно изучающихся в математике. Простейшими примерами недистрибутивных операций являются следующие t-нормы и t-конормы: Тм(х, у) = min {х, у} (минимум), lM(z, у) = шах {ж, у} (максимум), Тр(х, у) = х • у (произведение), -Lp(x, у) = х + у — х • у (вероятностная сумма), 7д(ж, у} = max {0, х + у — 1} (t-норма Лукасевича), ±д(гг, у) = min {1, х + у} (t-конорма Лукасевича), m / \ Г 0, если (х,у) G [0,1) х [0,1); . TD(x, у) = < . , ’ k 1 ' (сильное про- 4 7 [ тт(я:,г/), в противном случае. изведение), , , Г 1, если (х,у) е (0,1] х (0,1]; . ±п(ж,л) = < ' 4 1 (сильная сум- ' ' ( тах(ж, у), в противном случае. ма). Для любых t-норм Т и t-конорм ± выполняются следующие нера- венства: TD(x,y) < Т(х,у) < Тм(х,у) < ±м(ж,г/) < -Цх,у) ±о(ж, у). Таким образом, t-нормы 7р и Тм являются минимальной и макси- мальной границами для всех t-норм. Аналогично, t-конормы и ±р являются минимальной и максимальной границами для всех t-конорм. Эти неравенства очень важны для практического применения, так как они устанавливают границы возможного варьирования операций недис- трибутивных конъюнкции и дизъюнкции. В-третьих, рассмотрение логических операций конъюнкции и дизъ- юнкции как вещественных функций, являющихся компонентами нечет- ких моделей процессов и систем, естественно вызывает необходимость рассмотрения широкого класса таких функций, увеличивающих гибкость 89
Нечеткие множества и нейронные сети моделирования. По этим причинам, в ряде приложений нечеткой логи- ки некоторые аксиомы t-норм и t-конорм также оказались ограничи- тельными. В частности, параметрические классы данных операций име- ют достаточно сложный вид, затрудняющий их аппаратную реализацию и оптимизацию нечетких моделей по параметрам этих операций. Слож- ность параметрических классов конъюнкций и дизъюнкций определяет- ся способом генерации этих операций, который фактически определя- ется условием ассоциативности. С этой точки зрения свойство ассоци- ативности может рассматриваться как ограничительное. В то же время, свойство коммутативности операций конъюнкции и дизъюнкции может рассматриваться как необязательное ограничение на эти операции, так как в общем случае в нечетких моделях операнды данных операций могут характеризовать переменные, по-разному влияющие на результат. Свой- ства ассоциативности и коммутативности являются важными, например, в нечетких моделях многокритериального принятия решений, поскольку одним из разумных требований, накладываемых на процедуры принятия решений, является их независимость от порядка рассмотрения альтерна- тив и критериев. Но для систем нечеткого вывода эти свойства не всегда являются необходимыми, особенно когда позиции переменных в нечет- ких правилах и процедуры обработки правил фиксированы, а также когда число входных переменных не превышает двух, что бывает во многих ре- альных приложениях нечетких моделей. По этой причине из определения нечетких операций конъюнкции и дизъюнкции могут быть удалены свойства коммутативности и ассоциативности так же, как это было ранее сделано со свойствами дистрибутивности. В качестве примера некоммутативных, неассоциативных операций дизъюнкции и конъюнкции можно привести следующие: шт(ж, у), если р х или q у; О, в противном случае. тах(ж, у), если р х или у > у; 1, в противном случае. Т(ж,у) = ±(ж, у) = 90
Лекция 9 Лингвистическая нечеткая логика Лекция 9. Лингвистическая нечеткая логика В данной лекции дается формальное определение лингвистической пе- ременной, описываются основные ее свойства. Рассматривается понятие лингвистической переменной истинности, на базе которой строится нечет- кая лингвистическая логика. Ключевые слова: лингвистическая переменная, нечеткая лингвисти- ческая логика, лингвистическая переменная истинности. Понятие лингвистической переменной Лингвистическая переменная отличается от числовой переменной тем, что ее значениями являются не числа, а слова или предложения в естественном или формальном языке. Поскольку слова в общем менее точны, чем числа, понятие лингвистической переменной дает возможность приближенно описывать явления, которые настолько сложны, что не поддаются описанию в общепринятых количественных терминах. В част- ности, нечеткое множество, которое представляет собой ограничение, связанное со значениями лингвистической переменной, можно рассмат- ривать как совокупную характеристику различных подклассов элементов универсального множества. В этом смысле роль нечетких множеств ана- логична той роли, которую играют слова и предложения в естественном языке. Например, прилагательное «КРАСИВЫЙ» отражает комплекс ха- рактеристик внешности индивидуума. Это прилагательное можно также рассматривать как название нечеткого множества, которое является огра- ничением, обусловленным нечеткой переменной «КРАСИВЫЙ». С этой точки зрения термины «ОЧЕНЬ КРАСИВЫЙ», «НЕКРАСИВЫЙ», «ЧЕ- РЕЗВЫЧАЙНО КРАСИВЫЙ», «ВПОЛНЕ КРАСИВЫЙ» и т. п. - назва- ния нечетких множеств, образованных путем действия модификаторов «ОЧЕНЬ, НЕ, ЧЕРЕЗВЫЧАЙНО, ВПОЛНЕ» и т. п. на нечеткое множе- ство «КРАСИВЫЙ». В сущности, эти нечеткие множества вместе с нечет- ким множеством «КРАСИВЫЙ» играют роль значений лингвистической переменной «ВНЕШНОСТЬ». Важный аспект понятия лингвистической переменной состоит в том, что эта переменная более высокого порядка, чем нечеткая переменная, в том смысле, что значениями лингвистической переменной являют- ся нечеткие переменные. Например, значениями лингвистической пе- ременной «ВОЗРАСТ» могут быть: «МОЛОДОЙ, НЕМОЛОДОЙ, СТА- 91
Нечеткие множества и нейронные сети РЫЙ, ОЧЕНЬ СТАРЫЙ, НЕ МОЛОДОЙ И НЕ СТАРЫЙ» и т. п. Каж- дое из этих значений является названием нечеткой переменной. Если х — название нечеткой переменной, то ограничение, обусловленное этим на- званием, можно интерпретировать как смысл нечеткой переменной х. Другой важный аспект понятия лингвистической переменной состоит в том, что лингвистической переменной присущи два правила: 1. Синтаксическое, которое может быть задано в форме грамматики, порождающей название значений переменной; 2. Семантическое, которое определяет алгоритмическую процедуру для вычисления смысла каждого значения. Определение. Лингвистическая переменная характеризуется набором свойств (X, Т(Х), U, G, М), в котором: X — название переменной; Т(Х) обозначает терм-множество переменной X, т. е. множество названий лингвистических значений переменной X, причем каждое из таких значений является нечеткой переменной х со значениями из уни- версального множества U с базовой переменной w, G — синтаксическое правило, порождающее названия х значений переменной X; М — семантическое правило, которое ставит в соответствие каждой нечеткой переменной х ее смысл М(х), т. е. нечеткое подмножество М(ж) универсального множества U. Конкретное название х, порожденное синтаксическим правилом G, называется термом. Терм, который состоит из одного слова или из нескольких слов, всегда фигурирующих вместе друг с другом, называется атомарным термом. Терм, который состоит из более чем одного атомар- ного терма, называется составным термом. Пример. Рассмотрим лингвистическую переменную с именем X =«ТЕМПЕРАТУРА В КОМНАТЕ». Тогда оставшуюся четверку (Т, [7, G, М), можно определить так: 1) универсальное множество U = [5,35]; 2) терм-множество Т={«ХОЛОДНО», «КОМФОРТНО», «ЖАРКО»} с такими функциями принадлежностями: /^холодно" (^) /^холодно' (и) 1 1 + (^)12’ 1 i+m6’ А*жарко"(^) / „-ЗВ \Ю> 1 + (^) 92
Лекция 9 Лингвистическая нечеткая логика 3) синтаксическое правило G, порождающее новые термы с исполь- зованием квантификаторов «и», «или», «не», «очень», «более-менее» и других; 4) М будет являться процедурой, ставящей каждому новому терму в соответствие нечеткое множество из X по правилам: если термы А и В имели функции принадлежности /м(ц) и /1в(и) соответственно, то но- вые термы будут иметь следующие функции принадлежности, заданные в таблице: Квантификатор Функция принадлежности (u € U) не t 1 - очень t (йМГ более-менее t Ли В шах(//л (»'),//«(ж)) А или В тт(/м(я:),/гв(ж)) Графики функций принадлежности термов «холодно», «не очень хо- лодно» и т. п. к лингвистической переменной «температура в комнате» показаны на рис. 9.1: Рис. 9.1 В рассмотренном примере терм-множество состояло лишь из неболь- шого числа термов, так что целесообразно было просто перечислить эле- 93
Нечеткие множества и нейронные сети менты терм-множества Т(Х) и установить прямое соответствие между каждым элементом и его смыслом. В более общем случае, число элемен- тов в Т(А) может быть бесконечным, и тогда как для порождения эле- ментов множества Т(Х), так и для вычисления их смысла необходимо применять алгоритм, а не просто процедуру перечисления. Будем говорить, что лингвистическая переменная X структурирова- на, если ее терм-множество Т(Х) и функцию М, которая ставит в соот- ветствие каждому элементу терм-множества его смысл, можно задать ал- горитмически. Пример. В качестве очень простой иллюстрации той роли, которую иг- рают синтаксическое и семантическое правила в случае структурирован- ной лингвистической переменной, рассмотрим переменную РОСТ, терм- множество которой можно записать в виде: Т(РОСТ)={ВЫСОКИЙ, ОЧЕНЬ ВЫСОКИЙ, ОЧЕНЬ-ОЧЕНЬ ВЫСОКИЙ,...}. М(ВЫСОКИЙ)=| (1+(3£^2) 2) ' если и ^60, [ 0, в противном случае. М(ОЧЕНЬ ВЫСОКИЙ)=(М(ВЫСОКИЙ))2, и т. д. Лингвистическую переменную будем называть булевой, если ее термы являются булевыми комбинациями переменных вида Хр и hX, где h — лингвистическая неопределенность, Хр — атомарный терм. Пример. Пусть «ВОЗРАСТ» — булева лингвистическая переменная с терм-множеством вида Т(ВОЗРАСТ)={МОЛОДОЙ, НЕМОЛОДОЙ, СТАРЫЙ, НЕСТАРЫЙ, ОЧЕНЬ МОЛОДОЙ, НЕ МОЛОДОЙ И НЕ СТАРЫЙ, МОЛОДОЙ ИЛИ НЕ ОЧЕНЬ СТАРЫЙ,...}. В этом примере имеется два атомарных терма — МОЛОДОЙ и СТА- РЫЙ и одна неопределенность — ОЧЕНЬ. Если отождествлять союз И с операцией пересечения нечетких мно- жеств, ИЛИ — с операцией объединения нечетких множеств, отрицание НЕ — с операцией взятия дополнения и модификатор ОЧЕНЬ — с опера- цией концентрирования, то данная переменная будет полностью струк- турирована. 94
Лекция 9 Лингвистическая нечеткая логика Лингвистические переменные истинности В каждодневных разговорах мы часто характеризуем степень ис- тинности утверждения посредством таких выражений, как «очень вер- но», «совершенно верно», «более или менее верно», «ложно», «абсолютно ложно» и т.д. Сходство между этими выражениями и значениями лин- гвистической переменной наводит на мысль о том, что в ситуациях, когда истинность или ложность утверждения определены недостаточно четко, может оказаться целесообразным трактовать ИСТИННОСТЬ как лин- гвистическую переменную, для которой ИСТИНО и ЛОЖНО — лишь два атомарных терма в терм-множестве этой переменной. Такую переменную будем называть лингвистической переменной истинности, а ее значения — лингвистическими значениями истинности. Трактовка истинности как лингвистической переменной приводит к нечеткой лингвистической логике, которая совершенно отлична от обыч- ной двузначной или даже многозначной логики. Такая нечеткая логика является основой того, что можно было бы назвать приближенными рас- суждениями, т. е. видом рассуждений, в которых значения истинности и правила их вывода являются нечеткими, а не точными. Приближенные рассуждения во многом сродни тем, которыми пользуются люди в некор- ректно определенных или не поддающихся количественному описанию ситуациях. В самом деле, вполне возможно, что многие, если не боль- шинство человеческих рассуждений по своей природе приближенны, а не точны. В дальнейшем будем пользоваться термином «нечеткое высказыва- ние» для обозначения утверждения вида «и есть А», где и — название предмета, а А — название нечеткого подмножества универсального мно- жества U, например, «Джон — молодой», «X — малый», «яблоко — крас- ное» и т. п. Если интерпретировать А как нечеткий предикат, то утвержде- ние «и есть А» можно перефразировать как «и имеет свойство Л». Будем полагать, что высказыванию типа «и есть А» соответствуют два нечетких подмножества: 1. М(Л) — смысл Л, т. е. нечеткое подмножество с названием Л уни- версального множества U; 2. Значение истинности утверждения «и есть Л», которое будем обо- значать п(Л) и определять как возможно нечеткое подмножество универсального множества значений истинности V. Будем предпо- лагать, что V = [0,1]. Значение истинности, являющееся числом в [0,1], например п(Л) = = 0,8, будем называть числовым значением истинности. Числовые зна- 95
Нечеткие множества и нейронные сети чения истинности играют роль значений базовой переменной для лин- гвистической переменной ИСТИННОСТЬ. Лингвистические значения пе- ременной ИСТИННОСТЬ будем называть лингвистическими значениями истинности. Более точно будем предполагать, что ИСТИННОСТЬ — на- звание булевой лингвистической переменной, для которой атомарным является терм ИСТИННЫЙ, а терм ЛОЖНЫЙ определяется не как от- рицание терма ИСТИННЫЙ, а как его зеркальное отображение отно- сительно точки 0,5. Далее мы покажем, что такое определение значения ЛОЖНЫЙ является следствием его определения как значения истинно- сти высказывания «и есть не А» при предположении, что значение истин- ности высказывания «и есть А» является ИСТИННЫМ. Предполагается, что смысл первичного терма ИСТИННЫЙ являет- ся нечетким подмножеством интервала V = [0,1] с функцией принадлеж- ности типа /'истинный (и) — * О, если если если О и < а-, а и < и $ 1, показанной на рис. 9.2. Здесь точка и = является точкой перехода. Соответственно, для терма ЛОЖНЫЙ имеем /'ложный (и) — /'истинный (1 — '") Логические связки в нечеткой лингвистической логике Чтобы заложить основу для нечеткой лингвистической логики, необ- ходимо расширить содержание таких логических операций, как отрица- ние, дизъюнкция, конъюнкция и импликация, применительно к выска- зываниям, которые имеют не числовые, а лингвистические значения ис- тинности. При рассмотрении этой проблемы полезно иметь в виду, что если А — нечеткое подмножество универсального множества U и и е U, то два следующих утверждения эквивалентны: 1. Степень принадлежности элемента и нечеткому множеству А есть /М")- 2. Значение истинности нечеткого предиката «и есть Л» также равно /м(и). 96
Лекция 9 Лингвистическая нечеткая логика Рис. 9.2 Таким образом, вопрос «Что является значением истинности выска- зывания «и есть А» И «и есть В», если заданы лингвистические значения истинности высказываний «и есть А» и «и есть В»?» аналогичен вопро- су «Какова степень принадлежности элемента и множеству А П В, если заданы степени принадлежности элемента и множествам А и В?». В частности, если т>(Л) — точка в V = [0,1], представляющая значе- ние истинности высказывания «и есть А» (или просто Л), где и — элемент универсального множества U, то значение истинности высказывания «и есть не А» (или Л) определяется выражением = 1 — т(А). Предположим теперь, что •и(Л) — не точка в [0,1], нечеткое подмно- жество интервала [0,1], представленное в виде v(A) = f(x), ft [0,1] — [0,1]. Тогда получим В частности, если значение истинности А есть ИСТИННО, т. е. г>(А) =ИСТИННО, то значение истинности ЛОЖНО является значени- ем истинности для высказывания ->А. 97
Нечеткие множества и нейронные сети Замечание. Следует отметить, что если ИСТИННЫЙ = f(x), то функ- ция 1-/(ж) будет интерпретироваться термом НЕ ИСТИННЫЙ, а функ- ция /(1 — х) — термом ЛОЖНЫЙ, что в принципе не одно и то же (см. рис. 9.2). То же самое относится к лингвистическим неопределенностям. На- пример, если ИСТИННЫЙ^ /(ж), то значение терма ОЧЕНЬ ИСТИН- НЫЙ равно /2(гс) (см. рис. 9.3). С другой стороны, если значение истинности высказывания А есть то функция /(ж2) будет выражать значение истинности высказыва- ния «очень А». Рис. 9.3 Перейдем к бинарным связкам. Пусть v;(A) и v(B) — лингвистиче- ские значения истинности высказываний А и В соответственно. В слу- чае, когда г(А) и г(£>) — точечные оценки, имеем: v(A) Л v(B) = v(A И В), v(A) V v(B) = v(A ИЛИ В), где операции Л и V сводятся к операциям нечеткой логики (см. предыду- щую лекцию). Если г>(А) и v(B) — лингвистические значения истинности, задан- ные функциями v(A) = f(x), v(B) = д(х), f, д : [0,1] -> [0,1], то, согласно принципу обобщения, конъюнкция и дизъюнкция будут вы- числяться по следующим формулам: v(A)/\v(B) sup (цЛ (ж) Л цв (?/)), х=яЛу v(A)Vv(B) sup (ца (ж) Л Мв (?/))• z—xVy 98
Лекция 9 Лингвистическая нечеткая логика Замечание. Важно четко понимать разницу между связкой И (ИЛИ) в терме, например, ИСТИННЫЙ И (ИЛИ) НЕ ИСТИННЫЙ и символом Л (V) в высказывании ИСТИННЫЙ Л (V) НЕ ИСТИННЫЙ. В первом случае, нас интересует смысл терма ИСТИННЫЙ И (ИЛИ) НЕ ИСТИН- НЫЙ, и связка И (ИЛИ) определяется отношением М (ИСТИННЫЙ И (ИЛИ) НЕ ИСТИННЫЙ)= =М (ИСТИННЫЙ) П (и) М (НЕ ИСТИННЫЙ), где М(А) — смысл терма А. Напротив, в случае терма ИСТИННЫЙ л (V) НЕ ИСТИННЫЙ нас в основном интересует значение истинности высказывания ИСТИННЫЙ [л (V)] НЕ ИСТИННЫЙ, которое получа- ется из равенства и(А И (ИЛИ) В) = v(A) л (V>(B). Значения истинности НЕИЗВЕСТНО и НЕ ОПРЕДЕЛЕНО Среди возможных значений истинности лингвистической перемен- ной ИСТИННОСТЬ два значения привлекают особое внимание, а имен- но пустое множество 0 и единичный интервал 'S = [0.1], которые со- ответствуют наименьшему и наибольшему элементам (по отношению включения) решетки нечетких подмножеств интервала [0,1]. Важность именно этих значений истинности обусловлена тем, что их можно ин- терпретировать как значения истинности НЕ ОПРЕДЕЛЕНО и НЕИЗ- ВЕСТНО соответственно. Важно четко понимать разницу между 0 и 0. Когда мы говорим, что степень принадлежности точки и множеству А есть 0, мы имеем в ви- ду, что функция принадлежности рд : U —> [0,1] не определена в точ- ке и. Предположим, например, что U — множество действительных чи- сел, а рд — функция, определенная на множестве целых чисел, причем рд(и) = 1, если и четное, и рд(и) = 0, если и нечетное. Тогда степень принадлежности числа и = 1,5 множеству А есть 0, а не 0. С другой стороны, если бы рд была определена на множестве дей- ствительных чисел и рд(и) = 1 тогда и только тогда, если и — четное число, то степень принадлежности числа 1,5 множеству А была бы рав- на 0. Понятие значения истинности НЕИЗВЕСТНО в сочетании с прин- ципом обобщения помогает уяснить некоторые понятия и соотношения 99
Нечеткие множества и нейронные сети обычных двухзначных и трехзначных логик. Эти логики можно рассмат- ривать как вырожденные случаи нечеткой логики, в которой значени- ем истинности НЕИЗВЕСТНО является весь единичный интервал, а не множество {0,1}. 100
Лекция 10 Теория приближенных рассуждений Лекция 10. Теория приближенных рассуждений В лекции рассматривается композиционное правило вывода — главное понятие теории приближенных рассуждений. Описывается работа нечеткой экспертной системы, основанной на принципах теории приближенных вы- числений. Ключевые слова: композиционное правило вывода, нечеткая экс- пертная система. Под приближенными рассуждениями понимается процесс, при ко- тором из нечетких посылок получают некоторые следствия, возможно, тоже нечеткие. Приближенные рассуждения лежат в основе способности человека понимать естественный язык, разбирать почерк, играть в игры, требующие умственных усилий, в общем, принимать решения в сложной и не полностью определенной среде. Эта способность рассуждений в ка- чественных, неточных терминах отличает интеллект человека от интел- лекта вычислительной машины. Основным правилом вывода в традиционной логике является пра- вило modus ponens, согласно которому мы судим об истинности выска- зывания В по истинности высказываний А и А —» В. Например, если А — высказывание «Джон в больнице», В — высказывание «Джон бо- лен», то если истинны высказывания «Джон в больнице» и «Если Джон в больнице, то он болен», то истинно и высказывание «Джон болен». Во многих привычных рассуждениях, однако, правило modus ponens используется не в точной, а в приближенной форме. Так, обычно мы зна- ем, что А истинно и что А* —> В, где А* есть, в некотором смысле, при- ближение А. Тогда из А* —► В мы можем сделать вывод о том, что В при- ближенно истинно. Далее мы обсудим способ формализации приближенных рассужде- ний, основанный на понятиях, введенных нами на предыдущей лекции. Однако, в отличие от традиционной логики, нашим главным инструмен- том будет не правило modus ponens, а так называемое композиционное пра- вило вывода, весьма частным случаем которого является правило modus ponens. Композиционное правило вывода Композиционное правило вывода — это всего лишь обобщение следу- ющей знакомой процедуры. Предположим, что имеется кривая у — f(x) 101
Нечеткие множества и нейронные сети (см. рис. 10.1 (А)) и задано значение х = а. Тогда из того, что у = f(x) и х - а, мы можем заключить, что у = b = /(а). Обобщим теперь этот процесс, предположив, что а — интервал, а /(ж) — функция, значения которой суть интервалы, как на рисун- ке 10.1 (Б). В этом случае, чтобы найти интервал у = Ь, соответствующий интервалу а, мы сначала построим цилиндрическое множество а с осно- ванием а и найдем его пересечение I с кривой, значения которой суть интервалы. Затем спроектируем это пересечение на ось OY и получим желаемое значение у в виде интервала Ь. Рис. 10.1 Чтобы продвинуться еще на один шаг по пути обобщения, предпо- ложим, что А — нечеткое подмножество оси OX, a F — нечеткое отноше- ние в ОХ х OY (см. рис. 10.1 (В)). Вновь образуя цилиндрическое нечет- кое множество А с основанием А и его пересечение с нечетким отноше- нием F, мы получим нечеткое множество А Р F, которое является ана- логом точки пересечения I на рис. 10.1(A). Таким образом, из того, что у = /(ж) и ж — А — нечеткое подмножество оси ОХ, мы получаем значе- ние у в виде нечеткого подмножества В оси OY. Правило. Пусть U и V — два универсальных множества с базовыми переменными и и v, соответственно. Пусть А и F — нечеткие подмно- жества множеств U и U х V. Тогда композиционное правило вывода утвер- ждает, что из нечетких множеств А и F следует нечеткое множество В = AoF. Согласно определению композиции нечетких множеств, получим Vb(v) = V (ра(«) Л Pf(u, v)) . u€U Пример. Пусть U = V = {1,2,3,4}, А=МАЛЫЙ= {<111>, (0,6|2>, (0,2|3>, <0|4>}, 102
Лекция 10 Теория приближенных рассуждений что можно проинтерпретировать следующим образом: В = БОЛЕЕ ИЛИ МЕНЕЕ МАЛЫЙ, если терм БОЛЕЕ ИЛИ МЕНЕЕ определяется как оператор увеличения нечеткости. Словами этот приближенный вывод можно записать в виде и - МАЛЫЙ u,v - ПРИМЕРНО РАВНЫ v - БОЛЕЕ ИЛИ МЕНЕЕ МАЛЫЙ предпосылка предпосылка приближенный вывод Правило modus ponens как частный случай композиционного правила вывода Как мы увидим ниже, правило modus ponens можно рассматривать как частный случай композиционного правила вывода. Чтобы установить эту связь, мы сперва обобщим понятие материальной импликации с про- позициональными переменными на нечеткие множества. Пусть А и В — нечеткие высказывания и ца , 1<в — соответствующие им функции принадлежности. Тогда импликации А —> В будет соответ- ствовать некоторая функция принадлежности /м—в- По аналогии с тра- диционной логикой, можно предположить, что А В = ->А V В. Тогда р.А^в{х,у) = тах{1 - цА(ж), р.в(?/)}. ЮЗ
Нечеткие множества и нейронные сети Однако, это не единственное обобщение оператора импликации. В следующей таблице показаны различные интерпретации этого поня- тия. Larsen рА-,в(х,у) = pA(x)pB(.y} Lukasiewicz pA^B(x,y) = min{l, 1 - дА(ж) + рв(у)} Mamdani рА^в(х,у) = тш{/м(ж),рв(?/)} Standard Strict 1, если рА(х) < рв(у); 0, в противном случае. Godel рА^в(х,у) = - 1, если мДж) < рв(у); 0, в противном случае. Gaines р.А^в(х,У) = | 1, еслидДя) < Цв(у); в противном случае. Kleene-Dienes р.А^в(х,у) = тах{1 - рА(х), рв(у)} Kleene-Dienes-Lu Ра^в(х,у) = = 1- рА(х) + рА(х)рв(у) Определим теперь обобщенное правило modus ponens (generalized modus ponens). Предпосылка А->В Событие А* Вывод А * о(А —> В) Приведенная формулировка имеет два отличия от традиционной формулировки правила modus ponens : во-первых, здесь допускается, что А,А*,В — нечеткие множества, и, во-вторых, А* необязательно идентич- но А. Нечеткие экспертные системы Логико-лингвистические методы описания систем основаны на том, что поведение исследуемой системы описывается в естественном (или близком к естественному) языке в терминах лингвистических перемен- ных. Входные и выходные параметры системы рассматриваются как лин- гвистические переменные, а качественное описание процесса задается совокупностью высказываний следующего вида: Li: если Ли и/или Аг и/или ... и/или Aim, то Ви и/или... и/или В1п, Ь2: если Л21 и/или А22 и/или ... и/или Л2т, то В22 и/или... и/или В2п, Lk: если Ак1 и/или Ак2 и/или ... и/или Акт, то Bki и/или ... и/или Вкп, где Aij, i — 1,2... ,к j = 1,2, ...,т — нечеткие высказывания, опреде- ленные на значениях входных лингвистических переменных, а В^, i = = 1,2,..., к j = 1,2,..., п — нечеткие высказывания, определенные 104
Лекция 10 Теория приближенных рассуждений на значениях выходных лингвистических переменных. Эта совокупность правил носит название нечеткой базы знаний. Подобные вычисления составляют основу нечетких экспертных си- стем. Каждая нечеткая экспертная система использует нечеткие утвержде- ния и правила. Затем с помощью операторов вычисления дизъюнкции и конъюнк- ции описание системы можно привести к виду Lr'. если Л1, то Bi, L2: если А2, то В3, Lk: если Ак, то Вк, где , А2,..., Ак — нечеткие множества, заданные на декартовом про- изведении X универсальных множеств входных лингвистических пере- менных, a Bi, В2,..., В к — нечеткие множества, заданные на декарто- вом произведении Y универсальных множеств выходных лингвистиче- ских переменных. В основе построения логико-лингвистических систем лежит рас- смотренное выше композиционное правило вывода Заде. Преимущество данной модели - в ее универсальности. Нам неваж- но, что именно на входе — конкретные числовые значения или некоторая неопределенность, описываемая нечетким множеством. Но за данную универсальность приходится расплачиваться сложностью системы — нам приходится работать в пространстве размерности т х п. Поэтому этой общей моделью на практике пользуются довольно редко. Обычно же ис- пользуют ее упрощенный вариант, называемый нечетким выводом. Он основывается на предположении, что все входные лингвистические пере- менные имеют известные нам числовые значения (как и бывает довольно часто на практике). Также обычно не используют более одной выходной лингвистической переменной. Нечетким логическим выводом (fuzzy logic inference) называется ап- проксимация зависимости Y = f(Xi, Х2,..., Хп) каждой выходной лин- гвистической переменной от входных лингвистических переменных и получение заключения в виде нечеткого множества, соответствующе- го текущим значениям входов, с использованием нечеткой базы знаний и нечетких операций. Основу нечеткого логического вывода составляет композиционное правило Заде. В общем случае нечеткий вывод решения происходит за три (или че- тыре) шага: 1) этап фаззификации. С помощью функций принадлежности всех термов входных лингвистических переменных и на основании задавае- 105
Нечеткие множества и нейронные сети мых четких значений из универсумов входных лингвистических перемен- ных определяются степени уверенности в том, что выходная лингвисти- ческая переменная принимает конкретное значение. Эта степень уверен- ности есть ордината точки пересечения графика функции принадлежно- сти терма и прямой х = четкое значение ЛП. 2) этап непосредственного нечеткого вывода. На основании набора правил — нечеткой базы знаний — вычисляется значение истинности для предпосылки каждого правила на основании конкретных нечетких опе- раций, соответствующих конъюнкции или дизъюнкции термов в левой части правил. В большинстве случаев это либо максимум, либо мини- мум из степеней уверенности термов, вычисленных на этапе фаззифи- кации, который применяется к заключению каждого правила. Исполь- зуя один из способов построения нечеткой импликации, мы получим нечеткую переменную, соответствующую вычисленному значению сте- пени уверенности в левой части i щавила и нечеткому множеству в правой части правила. Обычно в качестве вывода используется минимизация или правила продукции. При минимизирующем логическом выводе выходная функ- ция принадлежности ограничена сверху в соответствии с вычисленной степенью истинности посылки правила (нечеткое логическое И). В логи- ческом выводе с использованием продукции выходная функция принад- лежности масштабируется с помощью вычисленной степени истинности предпосылки правила. 3) этап композиции (агрегации, аккумуляции). Все нечеткие множе- ства, назначенные для каждого терма каждой выходной лингвистической переменной, объединяются вместе, и формируется единственное нечет- кое множество — значение для каждой выводимой лингвистической пе- ременной. Обычно используются функции МАХ или SUM. 4) этап дефаззификации (необязательный). Используется тогда, когда полезно преобразовать нечеткий набор значений выводимых лингвисти- ческих переменных к точным. Имеется достаточно большое количество методов перехода к точным значениям (по крайней мере, 30). Два приме- ра общих методов — «методы полной интерпретации» и «по максимуму». В методе полной интерпретации точное значение выводимой перемен- ной вычисляется как значение «центра тяжести» функции принадлеж- ности для нечеткого значения. В методе максимума в качестве точного значения выводимой переменной принимается максимальное значение функции принадлежности. В теории нечетких множеств процедура дефаззификации аналогич- на нахождению характеристик положения (математического ожидания, 106
Лекция 10 Теория приближенных рассуждений моды, медианы) случайных величин в теории вероятности. Простейшим способом выполнения процедуры дефаззификации является выбор чет- кого числа, соответствующего максимуму функции принадлежности. Од- нако пригодность этого способа распространяется лишь на одноэкстре- мальные функции принадлежности. Для многоэкстремальных функций принадлежности часто используются следующие методы дефаззифика- ции: 1) COG (Center Of Gravity) — «центр тяжести». Физическим анало- гом этой формулы является нахождение центра тяжести плоской фигу- ры, ограниченной осями координат и графиком функции принадлежно- сти нечеткого множества. 2) MOM (Mean Of Maximums) — «центр максимумов». При исполь- зовании метода центра максимумов требуется найти среднее арифмети- ческое элементов универсального множества, имеющих максимальные степени принадлежностей. 3) First Maximum — «первый максимум» — максимум функции при- надлежности с наименьшей абсциссой. Функциональная схема процесса нечеткого вывода в упрощенном виде представлена на рис. 10.2. На этой схеме выполнение первого эта- па нечеткого вывода — фаззификации — осуществляет фаззификатор. За процедуру непосредственно нечеткого вывода ответственна машина нечеткого логического вывода, которая производит второй этап процес- са вывода на основании задаваемой нечеткой базы знаний (набора пра- вил), а также этап композиции. Дефаззификатор выполняет последний этап нечеткого вывода — дефаззификацию. Рассмотрим алгоритм нечеткого вывода на конкретном примере. Пусть у нас есть некоторая система, например, реактор, описывае- мая тремя параметрами: температура, давление и расход рабочего веще- ства. Все показатели измеримы, и множество возможных значений из- вестно. Также из опыта работы с системой известны некоторые прави- ла, связывающие значения этих параметров. Предположим, что сломался датчик, измеряющий значение одного из параметров системы, но знать его показания необходимо хотя бы приблизительно. Тогда встает зада- ча об отыскании этого неизвестного значения (пусть это будет давление) при известных показателях двух других параметров (температуры и рас- хода) и связи этих величин в виде следующих правил: если Температура низкая и Расход малый, то Давление низкое; если Температура средняя, то Давление среднее; если Температура высокая или Расход большой, то Давление вы- сокое. 107
Нечеткие множества и нейронные сети Рис. 10.2 В нашем случае Температура, Давление и Расход — лингвистические переменные. Опишем каждую из них. Температура. Универсум (множество возможных значений) — отре- зок [0,150]. Начальное множество термов {Высокая, Средняя, Низкая}. Функции принадлежности термов имеют следующий вид: Высокая Рис. 10.3 Низкая 150 Давление. Универсум — отрезок [0.100]. Начальное множество тер- мов {Высокое, Среднее, Низкое}. Функции принадлежности термов име- ют следующий вид: Расход. Универсум — отрезок [0,8]. Начальное множество термов {Большой, Средний, Малый}. Функции принадлежности термов имеют следующий вид: 108
Лекция 10 Теория приближенных рассуждений Рис. 10.5 Пусть известны значения Температура 85 и Расход 3,5 . Произведем расчет значения давления. Последовательно рассмотрим этапы нечеткого вывода: Сначала по заданным значениям входных параметров найдем сте- пени уверенности простейших утверждений вида «Лингв, переменная А есть Терм Лингв, переменной А». Этот этап называется фаззификацией, т. е. переходом от заданных четких значений к степеням уверенности. По- лучаем следующие степени уверенности: Температура Высокая — 0,7; Температура Средняя — 1; Температура Низкая — 0,3; Расход Большой — 0; Расход Средний — 0,75; Расход Малый — 0,25. Затем вычислим степени уверенности посылок правил: Температура низкая и Расход малый: min (Темп. Низкая, Расход Малый) = min(0.3,0.25) = 0.25; Температура Средняя: 1; Температура Высокая или Расход Большой: max (Темп. Высокая, Расход Большой) = тах(0.7,0) = 0,7. 109
Нечеткие множества и нейронные сети Следует отметить также тот факт, что с помощью преобразований нечетких множеств любое правило, содержащее в левой части как конъ- юнкции, так и дизъюнкции, можно привести к системе правил, в левой части каждого будут либо только конъюнкции, либо только дизъюнкции. Таким образом, не уменьшая общности, можно рассматривать правила, содержащие в левой части либо только конъюнкции, либо только дизъ- юнкции. Каждое из правил представляет из себя нечеткую импликацию. Сте- пень уверенности посылки мы вычислили, а степень уверенности за- ключения задается функцией принадлежности соответствующего терма. Поэтому, используя один из способов построения нечеткой имплика- ции, мы получим новую нечеткую переменную, соответствующую степе- ни уверенности в значении выходных данных при применении к задан- ным входным соответствующего правила. Используя определение нечет- кой импликации как минимума левой и правой частей (определение Mamdani), имеем: Правило 1 О 50 100 Рис. 10.6 Теперь необходимо объединить результаты применения всех правил. Этот этап называется аккумуляцией. Один из основных способов аккумуляции — построение максимума полученных функций принад- лежности. Получаем: Полученную функцию принадлежности уже можно считать резуль- татом. Это новый терм выходной переменной Давление. Его функция принадлежности говорит о степени уверенности в значении давления при заданных значениях входных параметров и использовании правил, опре- деляющих соотношение входных и выходных переменных. Но обычно все-таки необходимо какое-то конкретное числовое значение. Для его получения используется этап дефаззификации, т. е. получения конкрет- ного значения из универса по заданной на нем функции принадлежно- сти. Существует множество методов дефаззификации, но в нашем слу- чае достаточно метода первого максимума. Применяя его к полученной функции принадлежности, получаем, что значение давления — 50. Та- 110
Лекция 1о Теория приближенных рассуждений 1 0.8 Результат 0.6- Правило 3 Правило 2 0.4 0.2 100 Правило 1 Рис. 10.7 ким образом, если мы знаем, что температура равна 85, а расход рабочего вещества — 3,5, то можем сделать вывод, что давление в реакторе равно примерно 50. in
Нечеткие множества и нейронные сети Лекция 11. Нечеткие алгоритмы В лекции дается строгое, формальное определение нечеткого алгорит- ма, рассматриваются способы его выполнения, описывается метод представ- ления нечеткого алгоритма в виде ориентированного графа. Ключевые слова: нечеткий алгоритм, нечеткая программа, нечеткая инструкция. Формализация понятия нечеткого алгоритма Различные понятия, нечеткие по своей природе, могут быть фор- мально описаны посредством нечетких множеств. Нечеткая логика, на- пример, позволяет формализовать простые логические связки нечетких переменных с помощью нечетких высказываний. Для описания же слож- ных соотношений между переменными удобно использовать нечеткие ал- горитмы. Под алгоритмом понимается точно определенное правило действий (программа), для которого задано указание, как и в какой последователь- ности это правило необходимо применять к исходным данным задачи, чтобы получить ее решение. Характеристиками алгоритма являются: а) детерминированность — однозначность результата процесса при неизменных исходных данных; б) дискретность определяемого алгоритмом процесса — расчленен- ность его на отдельные элементарные акты, возможность выполнения которых человеком или машиной не вызывает сомнения; в) массовость — исходные данные для алгоритма можно выбрать из некоторого множества данных, т. е. алгоритм должен обеспечить решение любой задачи из класса однотипных задач. Нечеткий же алгоритм, упрощенно говоря, определяется упорядочен- ным множеством нечетких инструкций (нечетких высказываний), кото- рые содержат понятия, формализуемые нечеткими множествами. Под нечеткими инструкциями понимаются инструкции, содержащие нечеткое понятие, например, «пройти около 100 метров», а под машинными — ин- струкции, не содержащие никаких нечетких понятий: «пройти 100 мет- ров». Здесь и далее четкие инструкции мы будем называть машинными, чтобы подчеркнуть возможность моделирования нечетких алгоритмов на ЭВМ, воспринимающих только чтение инструкций. 112
Лекция 11 Нечеткие алгоритмы 'I ~ ~ ---- ~ Приведем точное определение нечеткого алгоритма. Для формули- ровки необходимо ввести ряд первоначальных определений и обозначе- ний. Во-первых, вместо интервала [0,1], общепринятого множества зна- чений функции принадлежности, рассматривается непустое множество W с отношением частичного порядка >- и операциями ®, ф, удовлетво- ряющими свойствам коммутативности, ассоциативности и дистрибутив- ности, а также содержащие нулевой (0) и единичный (1) элементы. Во-вторых, рассматриваются инструкции следующего вида: Start: go to L (инструкция начала); L: do F, go to Li (инструкция операции); L: if P then go to (L i,..., Ln) (инструкция условия); L: halt (инструкция окончания), где Li,..., Ln & L — множество символов меток инструкций, f & F — символ оператора или функции, Р 6 Р — символ предикатов или усло- вий. Введение понятия инструкции позволяет определить понятие про- граммы. Под программой понимается конечное множество инструкций тг, содержащее единственную инструкцию начала. Никакие инструкции из тг не имеют одинаковых меток. В-третьих, определяется понятие W -машины. W-машина есть функ- ция М, определенная на множестве символов {О} U {/} U F U Р, для ко- торых существуют множество входов X, множество состояний памяти М и множество выходов У, а также выполнены следующие условия: 1. М(Г): X х М —> W (функция входов); 2. VF е F M(F): М х М —> W (функция операции); 3. VP G Р, п > 0 М(Р): М х {1,..., п} —> W (функция условий); 4. М(О): М х Y —> W (функция выхода). Символы I и О обозначают вход и выход. Наконец, в-четвертых, программа к вместе с И'-машиной, которая допускает тг (т. е. машина определена на всех операциях F и условиях Р, содержащихся в инструк- циях операции и условия программы тг), называется нечеткой программой. Следовательно, последовательностью инструкций, составляющих нечет- кую программу, определяется нечеткий алгоритм. Конкретные типы алгоритмов могут быть получены посредством выбора множеств {W, М, X, У}, функций (входов, действий, условий, вы- ходов), операций {®, ф}, отношения >-. Рассмотрим некоторые случаи выбора множеств, функций, опера- ций, отношений. Пусть W, U, V — непустые множества, тогда функцию f 113
Нечеткие множества и нейронные сети из [7 х V в W будем называть W-функцией/ из U в V; f(v\u) есть степень, с которой значение функции в точке и есть v. W-функция является вероятностной, если для любого и & U суще- ствует /(г>|и) и 52 /(4U) — 1- vev W-функция является детерминированной, если для любого и & U существует г>0 € V: f(yo\u) = 1 и для любого v w F(v\u) = 0. Если множество W с определенными на нем операциями и отноше- ниями записать в виде четверки (W, ® , ф , >- ), то: • Wx = {[0,1], max, min, — определяет максиминную машину; • Wn = {Э?+, +, •, < } — определяет взвешенную машину; • Н7 = {[0,1], min, max, <} — минимаксную машину; • Wp = {[0. l],max, •, ^} — максимально взвешенную машину; • Wn = {{0,1}, max, min, <} — недетерминированную машину. Взвешенная машина является вероятностной, если функции входа, действий, условий, выхода являются вероятностными. Любая же маши- на, в которой перечисленные функции являются детерминированными, называется детерминированной. Рассмотрим программу л, которую допускает W-машина М. Для каждой пары меток L',L" е 1м пары состояний mi,m2 е М будем пи- сать -^> (L",m2), если в программе л либо имеется инструкция вида L': doF; до to L", где w = Л/р(т2|т1) есть степень, с которой осу- ществляется переход из состояния mi в состояние т2, либо имеется ин- струкция вида L': if Р then до to (Li,...,Ln), где mi = т2, L" — Lk для некоторого к: l^k^nnw — Mp(k\mi) есть степень, с которой осуществляется переход на метку Lk. Выполнением программы тг на W-машине М, допускающей тг, на- зывается конечная последовательность xLomo ... Lnmny- Выполнение возможно тогда и только тогда, если w = wo <8> wi ® .... ® wn+i / 0, где w0 = Mi(mo\x), wn+i = Мо(у\тп), чщ-. (Li-^mt-i) {1л,т^. Таким образом, возможное выполнение определяет последователь- ность инструкций программы л, которая может быть реализована на W- машине. Таких последовательностей может быть несколько. Приведем другую формулировку нечеткой программы, которая явля- ется частным случаем данного выше определения нечеткой программы, так как здесь рассматриваются машины с конечным множеством состоя- ний, которые моделируются конечными автоматами. 114
Лекция 11 Нечеткие алгоритмы 4>(s,l, s') = Для определения нечеткого алгоритма первоначально вводится по- нятие обобщенной машины, на основе которого формулируется понятие обобщенной нечеткой машины, которое позволяет формализовать поня- тие нечеткого алгоритма. Обобщенная машина есть шестерка А = (К, S, Ф, so, Т, W), где К и S — конечные непустые множества машинных инструкций и внутренних состояний соответственно, W — непустое множество с отношением ча- стичного порядка >- и операциями 0, ф, удовлетворяющими свойствам коммутативности, ассоциативности и дистрибутивности, а также содер- жащие нулевой и единичный элементы; Ф — W-функция переходов из состояния в состояние; У: KxS -> S; so и Т — начальное состояние и множество финальных состояний. Для цепочки инструкций к* — клк.2 .. .кп Е К* (К* — множество всевозможных цепочек инструкций) переходов из состояния so в s опре- деляется степенью Ф(а0, kr. вг) 0 Ф(515 к2, S2) 0 -.. 0 Ф(вп_1, кп, sn). Если I — пустая цепочка инструкций, то задается расширенная W- функция Ф следующим образом: О, если s s', 1, если s = s'. Обобщенная нечеткая машина определяется парой (Л,Е), где А — обобщенная машина, £ — конечное множество нечетких инструкций и каждая нечеткая инструкция а из Е есть W-функция из S в К. Пусть задана некоторая обобщенная нечеткая машина (Л, гт). Вы- полнение последовательности а = а±а2 ап на обобщенной машине А есть последовательность sqA:iSi/c2 ... k^sn, где (Е S, kt CE sn € T. Весом, соответствующим выполнению, является элемент w е W : W = Wi 0 w{ 0 W2 0 и>2 .. . wn 0 w'n, где Wi = w' — ^(Si\ki, Sj-i). Выполнение возможно тогда и только тогда, если w 0. Если и W принимают значения из различных множеств W и V, то вес, соответству- ющий выполнению, будет определяться парой (w,v) = (w, 0 ... 0 wn, vi 0 ... 0 vn). В этом случае говорят, что программа о вьуюлнима с весом (w, v), если (w, v) > (0,0). 115
Нечеткие множества и нейронные сети Пример. Пусть имеется последовательность инструкций для водителя ав- томобиля и карта местности. Водителю предлагается найти место назна- чения, используя карту и последовательность нечетких инструкций, опи- сывающих маршрут. Для простоты изложения предположим, что все точ- ки на плоскости имеют только целочисленные координаты. Типичные инструкции для водителя: «двигаться прямо около L метров», «повернуть налево», «повернуть направо», «двигаться прямо до тех пор, пока не уви- дишь. ..». Сконструируем соответствующую ГУ-машинуМ. ГУ-машина имеет множество состояний памяти М в виде упорядоченных троек (a, b. v), где (а, Ь) — точка на плоскости, соответствующая местонахождению автомо- биля, v — единичный вектор направления движения автомобиля. Мно- жество входов X = М и множество выходов Y состоят из упорядоченных пар (a, b); Mj — функция входов, соответствует тождественной функции; Мо — функция выходов, соответствует функции, отображающей каждую тройку (a, b, v) в (а, Ь). Машина М не имеет ни одной функции условия. Каждой инструк- ции, приведенной выше, соответствует функция операции. При этом г-я инструкция в последовательности инструкций может быть преобразова- на в инструкцию операции вида do Р; go to Li. Совокупность таких ин- струкций и инструкций start: go to Lo и L„: halt, где n — длина последо- вательности, составляет программу тг. Процесс выполнения программы тг на машине М определяется последовательностью инструкций и картой местности. Краткости ради приведем только функцию операции дтя ин- струкции типа «двигаться прямо около L метров»: mfl = ((«2, b2, v2)|(ai, bx, vi)) = = fb (х/(аг - сц)2 + (b2 - bl)2) X G((a2, b2, v2)|(fli, bi, ^i)) , где fi^d) — степень (вес), соответствующая расстоянию d, G((a2,b2,iJ2)| (ai,bi,wi)) — вес, соответствующий утверждению: «точка (a2,b2) и на- правление d2 достижимы при движении прямо из точки (ai,bx) по на- правлению тт I». Примеры функций fL и G :: /д(<Д = [1 + ((£ - d)/c)2]-1, где с — параметр: G((a2,b2,«2)|(ai,bi,i?i)) = 1 тогда и только тогда, если Vi = = V2 вектор из (ai, bi) в (a2, b2) параллелен vi и каждая точка на отрезке линии, проходящей через (ai,bi) и (a2, b2), имеющая целые координаты, есть точка на карте. Очевидно, что Д зависит только от L, a G зависит только от карты. Другие функции операций могут быть построены анало- гично. Нечеткий алгоритм, описывающий движение автомобиля к месту назначения, определяется конкретной последовательностью инструкций приведенного вида, которая реализуется на рассмотренной ГУ-машине. 116
Лекция 11 Нечеткие алгоритмы Приведем другие примеры применения нечетких алгоритмов. • Алгоритмы определения сложного нечеткого понятия А через более простые понятия, которые легко описать нечеткими множествами; результатом применения таких алгоритмов к некоторому элементу и области рассуждений U будет степень принадлежности и поня- тию А (степень, с которой элемент и может характеризоваться по- нятием А); • Алгоритмы порождения, в результате выполнения которых поро- ждается один из элементов нечеткого множества, которое описы- вает интересующее нас понятие (например, алгоритм порождения образцов почерка, рецептов приготовления пищи, сочинения му- зыки, предложений в естественном языке); • Алгоритмы описания отношений между нечеткими переменными, например, в виде последовательности нечетких инструкций типа: «если х мало и х увеличить слегка, то у увеличится слабо»; такие алгоритмы позволяют приближенно описывать поведение систем, входные и выходные сигналы которых являются нечеткими под- множествами; • Алгоритмы принятия решения, позволяющие приближенно описы- вать стратегию или важнейшее правило, например, алгоритм про- езда перекрестка, содержащий последовательность действий, кото- рые необходимо выполнить, при этом описания этих действий со- стоят из нечетких понятий типа: нормальная скорость, несколько секунд, медленно приближаться. Способы выполнения нечетких алгоритмов Для реализации поиска какого-либо выполнения нечеткого алгорит- ма cr = ci <72 - - <7П необходимо определить правила выбора машинной ин- струкции на каждом шаге. Правила выбора машинной инструкции и пе- реходов из состояния в состояние зависят от типа нечеткой машины. Выбор машинной инструкции: а. Нечеткий выбор. Машина выбирает машинную инструкцию кг е K(i, Sj-i) с наивысшей степенью на каждом шаге <7,: <7,(s,_i, fc) > <7i(si-i, к') для любой инструкции к' £ К. Ь. Вероятностный выбор. Машина на каждом шаге нечеткой инструк- ции сгг выбирает инструкцию к £ А'(г, s,-i) с вероятностью р, про- 117
Нечеткие множества и нейронные сети порциональной нечеткой степени <тг(л^_1, fc) к' с. Недетерминированный выбор. Машинная инструкция к е К(i, s,_i) выбирается недетерминированным образом. Определение перехода из состояния в состояние: а. Нечеткий переход. Машина переходит из состояния s7 в состояние S: ^>(Si,ki,s) Ф(вг,^, s') ДЛЯ ЛЮбоГО СОСТОЯНИЯ е K(i,Si-i,ki). b. Вероятностный переход. Машина переходит из состояния s, в состо- яние s с вероятностью ______Ф(^-1,&ЬЗ)_____________ ^2 Ф(«»-1,&4,з') s'Е К (г, si~ ijki) с. В случае детерминированного перехода состояние, пригодное для машины, единственным образом определяется функцией перехо- дов Ф. Процедура возврата: а. Вернуться на предыдущую нечеткую инструкцию. Ь. Вернуться на нечеткую инструкцию, соответствующую машинной инструкции с наивысшей функцией принадлежности в ряде таких инструкций, просмотренных последовательно до выбранной нечет- кой инструкции. с. Осуществить возврат так же, как описано в пункте (Ь), но при этом машинная инструкция выбирается со степенью более высокой, чем выбранная перед этим. Представление нечеткого алгоритма в виде графа Во многих случаях нечеткий алгоритм удобно представлять в виде ориентированного графа. Каждой дуге ставят в соответствие инструкцию 118
Лекция 11 Нечеткие алгоритмы условия или инструкцию операции. Входные, выходные, внутренние пе- ременные в нечетком алгоритме представляются нечеткими множествами. Выполнение алгоритма эквивалентно поиску в графе путей, связываю- щих помеченные вершины: начальные и конечные. Приведем необходи- мые для дальнейшего изложения известные определения графа и путей в графе. Определение. Графом G называется тройка (V, U, <р), где V = {с} — мно- жество элементов, называемых вершинами графа; U — {«} множество элементов, называемых ребрами графа, причем V П U = 0; — функ- ция, ставящая в соответствие каждому ребру и е U упорядоченную или неупорядоченную пару вершин (щ.г^г), щ и г>2 называются концами ре- бра и. Если множество U U V конечно, то граф называется конечным. Если </?(«) = (щ, г'г) — упорядоченная пара (т. е. (гц, г?2) ± (г>2, гц)), то ре- бро и называется ориентированным ребром или дугой, исходящей из вер- шины V! и входящей в вершину г>2; щ называется началом, f2 — концом дуги и. Граф, все ребра которого ориентированные, называется ориенти- рованным графом. Определение. Последовательность вершин и ребер графа G vicuivi2U2 Vin ^lunvin называется путем , vin] из вершины vio в вершину Vin, если ip(uk} = (vik_1, Vik) для к = 1,2,..., п. Вершина называется началом, a Vin — концом пути; число п называется длиной пути. Определение. Нечеткая программа есть четверка (X, У, Z, G), где X = — (Ж1,..., rcj) — вектор входа, Y = (щ,..., уп) — вектор программы (вну- тренние переменные), Z = (zi,..., zrn) — вектор выхода, G — ориенти- рованный граф: • Xi, yi, Zi — нечеткие переменные, определяющие нечеткие множе- ства на U, V, W; • В графе G существует точно одна вершина, называемая начальной (стартовой), которая не является конечной вершиной никакой ду- ги, и существует точно одна вершина, называемая конечной (фи- нальной), которая не является начальной вершиной никакой дуги: любая вершина графа находится на некотором пути из стартовой вершины S в финальную вершину Н; • В графе G любая дуга а, не ведущая в Н, связана с нечетким отно- шением Ra(X, У) и нечеткой инструкцией У = fa(X, У); каждая ду- га а, ведущая в Н, связана с нечетким отношением Ra(X, У) и ин- струкцией z = fa(z, х, у), где R — нечеткое отношение, и f — нечет- кая операция типа пересечения, объединения, отрицания нечеткой арифметики, оператор размывания, оператор типа модификаторов ит.д. 119
Нечеткие множества и нейронные сети Лекция 12. Нечеткие алгоритмы обучения В лекции рассматриваются следующие нечеткие алгоритмы обучения: обучающийся нечеткий автомат, обучение на основе условной нечеткой ме- ры, адаптивный нечеткий логический регулятор, обучение при лингвистиче- ском описании предпочтения. Ключевые слова: нечеткий алгоритм обучения. Известно, что обучающиеся системы улучшают функционирование в процессе работы, модифицируя свою структуру или значение парамет- ров. Предложено большое число способов описания и построения обуча- ющихся систем. Все они предполагают решение следующих задач: выбор измерений (свойств, рецепторов); поиск отображения пространства ре- цепторов в пространство признаков, которые осуществляю! вырожден- ное отображение объектов; поиск критерия отбора признаков. Причем в различных задачах для получения хороших признаков могут понадобить- ся разные критерии отбора. При обучении необходимо отвлечься от раз- личий внутри класса, сосредоточить внимание на отличии одного класса от другого и на сходстве внутри классов. Необходим достаточный уровень начальной организации обучающейся системы. Для сложной структур- ной информации необходима многоуровневая обучающаяся система. Следует выделить следующие группы нечетких алгоритмов обучения: обучающийся нечеткий автомат, обучение на основе условной нечеткой меры, адаптивный нечеткий логический регулятор, обучение при лин- гвистическом описании предпочтения. Рекуррентные соотношения в алгоритмах первых двух групп позво- ляют получать функцию принадлежности исследуемого понятия на мно- жестве заранее известных элементов. В третьей группе нечеткий алгоритм обучения осуществляет модификацию нечетких логических правил для удержания управляемого процесса в допустимых границах. В четвертой группе нечеткий алгоритм обучения осуществляет поиск вырожденного отображения пространства свойств в пространство полезных признаков и модификацию на их основе описания предпочтения. Обучающийся нечеткий автомат Рассмотрим автомат с четким входом i(t) и зависимым от време- ни нечетким отношением перехода 6(f). Пусть s(t) — нечеткое состоя- 120
Лекция 12 Нечеткие алгоритмы обучения ние автомата в момент времени t на конечном множестве состояний S = = {si,..., sn} и й — оценка значения i(t).Состояние автомата в момент времени (t + 1) определяется min-max композицией: Ms(t+I)(sfe) = sup min (jUs(t)(sj), H6(t)(sx,it, sj)), з или аналогично ей. Обучение направлено на изменение нечеткой матри- цы переходов: j ± k, 8к) — O!fc/A5(t-l)(sk>^,Sk) + (1 — Olfc)Afc(t), где 0 < Ofc < 1, 0 < Afe(t) < 1, к = Константа At опреде- ляет скорость обучения. Начало работы автомата возможно без априор- ной информации )Us(o) (sfc) = 0 или 1, а также с априорной информаци- ей ^g(o)(sfc) = АДО). Величина АДг) зависит от оценки функционирова- ния автомата. Доказано, что имеет место сходимость матрицы переходов, независимо от того, есть ли априорная информация, т. е. jug(o)(sj) может быть любым значением из интервала [0,1]. Пример. На рис. 12.1 изображена модель классификации образов. Роль входа и выхода можно кратко объяснить следующим образом. Во время каждого интервала времени классификатор образов получает новый об- разец х' из неизвестной внешней среды. Далее а/ обрабат ывается в ре- цепторе, из которого поступает как в блок «обучаемый», так и в блок «учитель» для оценки. Критерий оценки должен быть выбран так, что- бы его минимизация или максимизация отражала свойства классифи- кации (классов образов). Поэтому, благодаря естественному распределе- нию образов, критерий может быть включен в систему, чтобы служить в качестве учителя для классификатора. Модель обучения формируется следующим образом. Предполагается, что классификатор имеет в рас- поряжении множество дискриминантных функций нескольких перемен- ных. Система адаптируется к лучшему решению. Лучшее решение вы- деляет множество дискриминантных функций, которые дают минимум нераспознавания среди множества дискриминантных функций для дан- ного множества образцов. Моделируется поиск глобального экстремума функции следующим образом: • область определения целевой функции делится на некоторое число подобластей (форма подобластей постоянно меняется) и описыва- ется некоторым множеством точек; 121
Нечеткие множества и нейронные сети Обучающая система Рис. 12.1 • каждой точке приписывается состояние автомата, причем функция принадлежности в каждом состоянии указывает степень близости к оптимуму; • выбирается состояние с максимальным значением функции при- надлежности (эта точка называется кандидатом); • формируется новая подобласть из точек, окружающих кандидата (размер подобласти растет, когда значение целевой функции в точке кандидата меньше, чем в других точках подобласти, и уменьшается в противоположном случае); • когда подобласть пересекается с некоторой другой, или две точки- кандидаты находятся в одной подобласти, то подобласти разделя- ются, если степень разделения большая, или объединяются, если степень разделения малая; • точки-кандидаты выбираются на этапе локального поиска в по- добласти, затем во всей области среди точек-кандидатов ищется глобальная оптимальная точка; • глобальный и локальный поиск осуществляется поочередно. 122
Лекция 12 Нечеткие алгоритмы обучения Алгоритм поиска глобального экстремума приведен на рис. 12.2. Рис. 12.2 Пусть S — множество состояний, V — выходной универсум, о — функция выхода (функция принадлежности, указывающая степень оп- тимума в состоянии s), /(t) — текущее значение целевой функции, 10 — среднее значение 2(t). Используется следующий алгоритм изменения функций перехода и выхода в случае глобального поиска: если /(£) > /0, то попытка успешна и -sj) = O!k/A5(t)(sfe, Sj) + (1 — если I(t) C Io, то попытка неудачна и где a = l — |(I(t) — /n)//n|; о < 1 — гарантируемая сходимость. В случае локального поиска: если 2(t) > 10, то Sj) = annt)(ui, Sj) + (1 - о), если 2(t) С Iq, то sj) аЦб(1)(.иг1 sj)- 123
Нечеткие множества и нейронные сети Обучение на основе условной нечеткой меры Пусть X — {a;i,..., хп} — множество причин (входов) и Y — = {yi, ,Ут} — множество результатов. Если h — функция из X в ин- тервал [0,1], Лг(а?1) ^ ... ^ h(xn) идх — нечеткая мера на X, то / h(x)gx(-) = max min(7i(a;i), дх(Яг)), J г=1,...,п X где Hi == {xi,..., хп}. Задача состоит в оценке (уточнении) причин по нечеткой информа- ции. Пусть ду — нечеткая мера на Y, ду связана с дх условной нечеткой мерой ov('k): 9y = У ау(-\х)дх- х Предполагается следующая интерпретация вводимых мер: дх оце- нивает степень нечеткости утверждения «один из элементов X был при- чиной», сгу(Л|а;), А с Y оценивает степень нечеткости утверждения «один из элементов Л является результатом благодаря причине х»; ду({у}) характеризует степень нечеткости утверждения: «у — действительный ре- зультат». Пусть дд (у) описывает точность информации А, тогда по определе- нию ду (Л) = J у л(у)дх- х Метод обучения должен соответствовать обязательному условию: при получении информации А нечеткая мера дх меняется таким обра- зом, чтобы ду(А) возрастала. Предположим, что дх(-) и сгу(-|я) удовле- творяют A-правилу. Пусть <ту (Л|а,'г) является убывающей, тогда ду(Л) = V [о-у(Л|Ж{) Лдх(^)], г=1 где Fi = {a;i,... ,Xi}. При этих условиях существует Г. ду(А) = oy(A[xi) Agx(Fi), (Ty(Alxi) Agx(Fi') о-у(Л|жг_1) A j?x(E}_i), <ту(Л|а;г) Agx(Fi) > cry(A|a?i+1) A gx(Fi+1'). Обучение может быть осуществлено увеличением тех значений gi {г = 1,..., п) нечеткой меры дх, которые увеличивают ду(А), и умень- шением тех значений (г = 1,..., тг) меры дх, которые не увеличива- 124 Лекция 12 Нечеткие алгоритмы обучения юг ду(А). Можно показать, что на величину ду(А) влияют только та- кие gi, что 1 < т < Z. Следовательно, нечеткий алгоритм обучения сле- дующий: дг = адг + (1 — о)(ту(Л|а,'г); г = 1,. -., I; дг = адг; i = I + 1,..., тг. Параметр а е [0,1] регулирует скорость обучения, т. е. скорость схо- димости дг. Чем меньше а, тем сильнее изменяется дг. В приведенном алгоритме нет необходимости увеличивать дг больше, чем на <ту(Л|я;), так как большое увеличение дг не влияет на ду(Л). Приведем некоторые свойства модели обучения. Свойство 1. Если повторно поступает одна и та же информация, то про- исходит следующее: а. новое дг больше старого дг (г = 1,..., I) и новое дг меньше старого дг (т = 1+1,..., тг), следовательно, новая мера ду (Л) не меньше старой меры ду (Л), и новая мера ду(Л) = сгу(Л|жА;) A gx(Ffc), к С Z; Ь. при предположении <ту(Л|я1) > <ту(Л|а,'2), к < I, д1 сходится к cry (Л|ац) и дг сходится к 0 для г = 2,..., тг. Свойство 2. Если поступает одна и та же информация повторно: 7ia(?/) = = с для всех у, то <ту (Л |ж) — f с(Ту(-|ж) = с, <ту(Л) = с А дх(Х). X Следовательно, I = тг и д1 сходится к с для всех г. Свойство 3. Предельное значение дг не зависит от начального значения тогда, когда на вход повторно поступает одна и та же информация. Пример. Рассмотрим модель глобального поиска экстремума неизвест- ной функции с несколькими локальными экстремумами. Для поиска гло- бального экстремума формируются критерии в виде некоторых функций: Xi — оценивает число точек, проанализированных на предыдущих шагах; Х2 — оценивает среднее значение функции по результатам предыду- щих шагов; жз — оценивает число точек, значение функции в которых принад- лежит десятке лучших в своей области; я4 — оценивает максимум по прошлым попыткам; — оценивает градиент функции. 125
Нечеткие множества и нейронные сети В описанном случае дх показывает степень важности подмножеств критериев и aY({?<>} 1^) оценивает предположение о нахождении экстре- мума в блоке yj в соответствии с критерием ж,. Например, <ту({у.;}|ж,) мо- жет зависеть от числа ранее проанализированных точек в блоке ад. Пусть входная информация А определяется формулой Pj - min рк РаМ =------------:---, max pk — mm pk к к где pk — максимум анализируемой функции, найденный к рассматрива- емому моменту в блоке yj. Очевидно, что А сходится к максимизирую- щему множеству функции. На каждой итерации осуществляется следу- ющее: проверяется заданное число новых точек; число этих точек вы- бирается пропорционально <7и({ад}); в каждой точке у? вычисляется и нормализуется мера ovнормализуется дх', по aY и ох вычисляется <7г({ад}), а затем gY(A); посредством правил подкрепления корректиру- ется gY({хг}). Затем выполняется новая итерация, и так до тех пор, пока не сойдется gY. Адаптивный нечеткий логический регулятор В настоящее время наиболее широкое применение при решении практических задач получили нечеткие логические регуляторы, которые позволяют на основании лингвистической информации, полученной от опытного оператора, управлять сложными, плохо формализованными процессами. Рис. 12.3 Структура нечеткого логического регулятора, в котором использу- ются эвристические правила принятия решений, показана на рис. 12.3. Такие регуляторы применяются аналогично традиционным регуляторам 126
Лекция 12 Нечеткие алгоритмы обучения с обратной связью. Определение управляющих воздействий состоит из четырех основных этапов: 1. Получение отклика; 2. Преобразование значения отклонения к нечеткому виду, такому, как «большой», «средний»; 3. Оценка входного значения по заранее сформулированным прави- лам принятия решения с помощью композиционного правила вы- вода; 4. Вычисление детерминированного выхода, необходимого для регу- лирования процесса. Опишем способ уточнения правил управления, используемых в адап- тивном нечетком логическом регуляторе (АНЛР). Соответствующая схе- ма регулятора приведена на рис. 12.4. АНЛР состоит из двух частей: нечеткого логического регулятора управляемого процесса (НЛРУП) и нечеткого логического регулятора управления (НЛРУ). На рис. 12.4 ис- пользуются следующие обозначения: U(t) —управление, генерируемое НЛРУП; E(t) — ошибка (отклонение от устанавливаемого выходного значе- ния процесса ,s); S — желаемое значение выхода управляемого процесса, C(t) = E(t) - E(t - 1); F(t) — модификация управления. 127
Нечеткие множества и нейронные сети Правила НЛРУП имеют форму: if Е = Ei then if С = Ci then U = Ui. Правила НЛРУ имеют форму: if E = Ej then if C — Cj then P = Pj. Здесь Ei, Ej, Ci, Cj, Ui, Pj — предварительно описанные нечет- кие множества. Символ P(t) используется для модификации стратегии управления следующим образом: в нечетком правиле г, которое ухудшает течение процесса, заменяется значение управления U на U- — Ui® Pi(t). Правило i в НЛРУП заменяется на правило if Е = Ei then if С = Ci then U = U'. Рассмотрим далее два нечетких алгоритма обучения при лингвистиче- ском описании предпочтений: алгоритм формирования нечеткого отно- шения предпочтений на множестве альтернатив, описываемых наборами лингвистических значений признаков, и алгоритм уточнения лингвисти- ческих критериев. Алгоритм формирования нечеткого отношения предпочтения Пусть R — множество таких альтернатив, что каждое S е R характе- ризуется набором оценок по п признакам: S = {Н,... ,tn}, и пусть В — семейство всех непустых конечных подмножеств множества R. Для неко- торого R' е В известно подмножество выбранных альтернатив R" с R', т.е. для любых S" е R" и S' е R'\R" имеет место доминирование S" >- S'. Предварительно, при анализе исходного множества альтерна- тив, сформирован эталонный набор нечетких оценок А0 = (t°,..., ). Значения функции принадлежности нечеткой оценки указывают на степень близости значений г-го признака к значениям, определяющим идеальную альтернативу. Используя множество предпочтений Е = {(<?", S') : S" е R", S' G R'\R"} , требуется найти обобщенные правила предпочтения на множестве R. Пример. Рассмотрим задачу выбора для рыболовецкого судна рациональ- ного района промысла с учетом следующих показателей: wj — время пе- рехода в район лова, и2 — прогноз вылова, и3 — стоимостная характери- стика прогнозируемого объекта лова, и4 — гидрометеоусловия. Показате- ли, в сущности, играют роль лингвистических переменных. Лицу, принимающему решение, предложены альтернативы Si—Se (см. табл. 12.1). Пусть выбрана альтернатива Si. Для обучения формиру- ются две таблицы: Ki - {(Sx, S2), (Si,S3), (Si, S4), (Sr,S5), (Si, S6)}, K2 - {(S2, Sx), (S3,Sr), (S4, S4), (S5, Si), (S6, Sx)}, 128
Лекция 12 Нечеткие алгоритмы обучения Таблица 12.1 t/i u2 и3 с4 Ui и2 и3 и4 Sj xop. хор. хор. УД- S7 плох. хор. плох. УД- s2 04. xop. плох. хор. УД- s8 уд- хор. хор. неуд S3 04. xop. хор. хор. неуд. s9 плох. хор. хор. УД- S4 уд- хор. хор. УД- S10 УД- хор. норм. уд- S5 оч. плох. хор. хор. уд- Sn УД- норм норм. УД- s6 хор. норм. плох. уд- Для каждой пары наборов (S,.Sj) вычисляются оценки сравнения i-го элемента первого набора с г-м элементом второго набора: (t" ”•’?) } " £“(«)), где а определяет конкретный оператор, например, нечеткую меру сход- ства. В результате получаются две таблицы наборов нечетких оценок по- элементного сравнения. На основе полученных таблиц, используя логи- ческие операторы и логические функции двух переменных, выделяют- ся полезные признаки и минимальный базис. Содержательное значение утверждения, соответствующего минимальному базису, следующее: = (х\ (Х1 -< х^), где ж™ — лингвистическое значение fc-ro показателя, Ф — логический признак. Физический смысл приведенного утверждения: район Si пред- почтительнее района Sj, если утверждение [(время перехода до S, «мень- ше», чем до Sj), и (прогноз вылова в S, «больше», чем в Sj), и (погодные условия в S, «лучше», чем в Sj)] более истинно, чем обратное утвержде- ние [(время перехода до S, «больше», чем до Sj), и (прогноз вылова в Si «меньше», чем в Sj), и (погодныеусловия в Si «хуже», чем в Sj)]. Далее предположим, что среди неизвестных ситуаций S7—Sn (табл. 12.1) необходимо выбрать лучшую альтернативу, используя мини- мальный базис. В табл. 12.2 изображена матрица предпочтений М — = элементы которой вычислялись посредством гаран- тированной оценки max 129
Нечеткие множества и нейронные сети Таблица 12.2 S7 s8 s9 Д10 S11 д7 0,880,38 1 0,38 0,880,38 0,880,38 S8 0,75 1 0,75 1 0,75 1 0,75 1 s9 1 0,38 0,880, 38 0,880,38 0,880,38 Sio 1 0,38 1 0,38 1 0,38 1 0,38 Ян 0,880,38 0,880,38 0,880,38 0,880,38 где Дг) = Р (Q Р Cj(Si, Д2)), Cj(Si, S2) — значение j-ro призна- з ка на паре альтернатив (Д1, Д2), — значение ./-го признака на парах альтернатив г-го класса (г = 1,2). Каждый элемент матрицы содержит два значения. Левое значение указывает степень, с которой Si домини- рует над Sj. Правое значение указывает степень, с которой Sj домини- рует над Si. Для построения нечеткого графа предпочтений альтернатив (рис. 12.5) используется следующее правило определения отношения до- минирования D\ D{Sl,S3') = S, >- Sj, Sj >- Si если /Т1 Д2; если /Л = /TiJ(fci) V /ззг{к2), р.2 = tf3(k2) V ). Согласно рис. 12.5, Дю является недоминируемой альтернативой, т. е. не существует альтернативы, которая с ненулевой степенью домини- рует над Дю- 130
Лекция 12 Нечеткие алгоритмы обучения Алгоритм уточнения лингвистических критериев Глобальные представления ЛПР о выборе альтернатив формулиру- ются в виде глобального критерия, и решение многокритериальной зада- чи сводится к построению композиции Mi о М2 = М, где ЛЛ: G(C7n)^9((2m), Un =Ui х ... х Un, Qm - Qi х ... х Qm, М2:9(<Г)-ЭД, Q,, Q — множества значений признаков, локальных и глобального кри- териев, соответственно. М± и Л/2 формируются на основе высказываний типа: «если значения признаков щ,..., ип, характеризующие альтерна- тиву оцениваются термами tu, .., tni, то альтернатива удовлетворяет 7-му критерию с оценкой Mi и Л/2 описываются наборами Л/j — {(Hi, • • • j tnii Сг+7,?) 71 -f- к, i — 1, 'ГЛ.|ф . Л-Tl — {(^n+Ю • > I 1....П?2}' . Степень удовлетворения глобальному критерию для альтернативы и1 е Un вычисляется следующим образом: otp. В процессе обучения уточняются оценки глобального и локальных критериев на основе сравнения выбранных ЛПР альтернатив В" из мно- жества предъявленных В' Э В”. М заменяется некоторым М, подтвер- ждающим соответствующий выбор: w(ul) -< w(u3) для и1 G В', и3 G В'\В" Обучение осуществляется в два этапа: формирование обобщенных описаний предпочтения ЛПР; модификация М при несовпадении пред- почтений ЛПР с порядком оценок w(u). На втором этапе выполняется следующее: генерация допустимых наборов оценок показателей; опреде- ление отношения предпочтения на парах сгенерированных альтернатив; выделение из Л/ = MiUM2 наборов, не подлежащих корректировке; кор- ректировка оценок по критериям. 131
Нечеткие множества и нейронные сети Лекция 13. Алгоритмы нечеткой оптимизации В лекции рассматриваются основные понятия, используемые в зада- чах нечеткой оптимизации. Разбираются модели нечеткого математического программирования и нечеткой ожидаемой полезности. Ключевые слова: нечеткая цель, нечеткое ограничение, нечеткое ма- тематическое программирование, нечеткая ожидаемая полезность. Нечеткие цели, ограничения и решения Непрерывно возрастающая сложность технологии контролируемых объектов настоятельно нуждалась в централизованном управлении и по- этому вызвала к жизни иерархическую структуру принятия решений. По- этому появилась необходимость разделения всего процесса принятия ре- шений управления на такое число уровней, чтобы решение задачи опти- мизации на каждом из них было не сложным. Но с возникновением мно- гоуровневых иерархических систем управления появилась и новая задача согласования и координации решений, принимаемых на всех уровнях. Общая схема координации в двухуровневой системе сводится к сле- дующему. Элементы передают в центр набор вариантов своей работы. Каждый вариант представляет собой векторный показатель элемента, до- пустимый с точки зрения его локальных ограничений. На основании по- лучаемых вариантов центр формирует план, оптимальный с точки зрения всей системы. Этот план передается элементам и далее детализируется ими. Однако при моделировании сложных систем невозможно учесть до- статочно большое число реальных факторов, поскольку это привело бы к чрезмерному усложнению модели. Поэтому в модель приходится вводить лишь ограниченное число таких факторов, которые по тем или иным со- ображениям считаются наиболее существенными. При этом возможны два подхода. Неучтенные в описании модели факторы можно считать аб- солютно несущественными и полностью их игнорировать при принятии решений с использованием этой модели. С другой стороны, при втором подходе можно явно не вводить «несущественные факторы» в математи- ческую модель, но учитывать их влияние, допуская, что отклик модели на то или иное воздействие (выбор альтернативы) может быть известен лишь приближенно или нечетко. 132
Лекция 13 Алгоритмы нечеткой оптимизации В традиционном подходе главными элементами процесса принятия решения являются: 1. Множество альтернатив. 2. Множество ограничений, которые необходимо учитывать при вы- боре между различными альтернативами. 3. Функция предпочтительности, определяющая переход из простран- ства альтернатив в некоторое другое пространство и ставяшая каж- дой альтернативе в соответствие выигрыш (или проигрыш), кото- рый получают в результате выбора этой альтернативы. При рассмотрении этого процесса с более общих позиций принятия решений в нечетких условиях естественной представляется другая логи- ческая схема, отличительной чертой которой является симметрия по от- ношению к целям и ограничениям. Этот подход устраняет различия меж- ду целями и ограничениями и позволяет достаточно просто принять на их основе решение. Под нечеткой целью подразумевается цель, которую можно описать как нечеткое множество в соответствующем пространстве. Пусть X — заданное множество альтернатив. Тогда нечеткая цель, или просто цель, G будет определяться фиксированным нечетким множеством G в X. При обычном подходе функция предпочтительности, используемая в процессе принятия решения, служит для установления линейной упо- рядоченности на множестве альтернатив. Очевидно, что функция при- надлежности дг;(ж) нечеткой цели выполняет ту же задачу и может быть получена из функции предпочтительности с помощью нормализации, со- храняюшей установленную линейную упорядоченность. Подобным же образом нечеткое ограничение С в пространстве X определяется как некоторое нечеткое множество в X. Важным моментом здесь является то, что и нечеткая цель, и нечеткое ограничение рассмат- риваются как нечеткие множества в пространстве альтернатив; это дает возможность не делать между ними различия при формировании реше- ния. Решение — это по существу выбор одной или нескольких из име- ющихся альтернатив. Проблема принятия решения в нечетких услови- ях интерпретируется тогда как комплексное влияние нечеткой цели G и нечеткого ограничения С на выбор альтернатив и характеризуется пересе- чением G П С, которое и образует нечеткое множество решений D, т. е. D = G П С. 133
Нечеткие множества и нейронные сети Функция принадлежности для множества решений задается соотно- шением HD (ж) = Mg(z) Л дс(ж). В общем случае, если имеется п нечетких целей и т нечетких ограни- чений, то результирующее решение определяется пересечением всех за- данных целей и ограничений, т. е. D = Gi П... П Gn П Ci П ... П Ст и, соответственно, др (ж) = дсх(ж) Л ... Л дс„(а:) Л дС1(ж) Л ... Л дст(а:). В приведенном определении нечеткие цели и нечеткие ограничения входят в выражение D совершенно одинаковым образом. Такое опреде- ление решения как нечеткого множества в пространстве альтернатив мо- жет показаться несколько искусственным. На самом деле оно совершен- но естественно, поскольку нечеткое решение может рассматриваться как некоторая «инструкция», неформальность которой является следствием неточности формулировки поставленных целей и ограничений. Во многих случаях все же разумно выбирать те альтернативы, кото- рые имеют максимальную степень принадлежности к D. Если таких эле- ментов несколько, то они образуют обычное множество, которое называ- ется оптимальным решением, а каждый элемент этого множества — мак- симизирующим решением. Для практики интересен более общий случай, когда нечеткие цели и нечеткие ограничения — нечеткие множества в разных пространствах. Пусть / — отображение из X в Y, причем переменная .г обозначает входное воздействие, а у — соответствующий выход. Предположим, что нечеткая цель задана как нечеткое множество G в У, в то время как нечеткое ограничение — нечеткое множество С в про- странстве X. Имея нечеткое множество G в У, можно найти нечеткое множество G в X, которое индуцирует G в У. Функция принадлежности G в У задается равенством де(ж) = Дс(/(ж)). После этого решение D может быть выражено пересечением мно- жеств G и С. Используя предыдущее соотношение, можно записать Л рс(х)- Таким образом, случай, когда нечеткие цели и нечеткие ограничения задаются как нечеткие множества в разных пространствах, может быть сведен к случаю, когда они задаются в одном и том же пространстве. 134
Лекция 13 Алгоритмы нечеткой оптимизации Задачи нечеткого математического программирования Главная цель нечеткого математического программирования — помочь лицу, принимающему решение, разобраться в выдвинутых им допущени- ях. Нечеткий подход не подменяет собой простейшего анализа в поисках разумной точности. Он облегчает задачу лица, принимающего решения, позволяя не формулировать явно точные ограничения. Вот почему пло- дотворный обмен идеями между теорией нечетких множеств и классиче- ским программированием может явиться значительным шагом к созда- нию новых методов. Стандартная задача нечеткого математического программирования фор- мулируется обычно как задача максимизации (или минимизации) задан- ной функции на заданном множестве допустимых альтернатив, которое описывается системой равенств или неравенств. Например: /(j ) —> max, при С 0, г = 1,..., тп, х G X, где X — заданное множество альтернатив, /: X —> R — заданная функ- ция, которую нужно максимизировать, и : X —> R — заданные функ- ции ограничений. При моделировании в нечеткой форме реальных задач принятия ре- шений в распоряжении исследователя-математика могут оказаться лишь нечеткие описания функции f и параметров, от которых зависят эти функции, и самого множества X. Таким образом, задача стандартного ма- тематического программирования превратится в задачу нечеткого мате- матического программирования. Формы нечеткого описания исходной информации в задачах при- нятия решений могут быть различными; отсюда и различия в математи- ческих формулировках соответствующих задач нечеткого математического программирования. Перечислим некоторые из таких формулировок. Задача 1. Максимизация заданной обычной функции f: X —» У? на за- данном нечетком множестве допустимых альтернатив д: X —> R. Задача 2. Нечеткий вариант стандартной задачи математического про- граммирования. Пусть определена следующая задача: f(x) шах, при ipi(х) О, i = 1,..., тп, х G X. Нечеткий вариант этой задачи получается, если «смягчить» ограни- чения, т. е. допустить возможность их нарушения с той или иной степе- нью. Кроме того, вместо максимизации функции f(x') можно стремить- ся к достижению некоторого заданного значения этой функции, причем 135
Нечеткие множества и нейронные сети различным отклонениям значения функции от этой величины приписы- вать разные степени допустимости. Задача 3. Нечетко описана «максимизируемая» функция, т. е. задано отображение X х R [0,1], где X — универсальное множество аль- тернатив, R — числовая ось. В этом случае функция gv (ж0, г) при каждом фиксированном х0 е X представляет собой нечеткое описание оценки результата выбора альтер- нативы хо (нечеткую оценку альтернативы х0) или нечетко известную ре- акцию управляемой системы на управление з?о- Задано также нечеткое множество допустимых альтернатив цс',Х [0,1]. Задача 4. Заданы обычная максимизируемая функция f: X —> R и си- стема ограничений вида (ж) < i — 1.......т, причем параметры в описаниях функций <д,(я) заданы в форме нечетких множеств. Задача 5. Нечетко описаны как параметры функций, определяющих ограничения задачи, так и самой максимизируемой функции. Рассмотрим, например, подробнее задачу линейного программи- рования с нечёткими коэффициентами. Нечеткость в постановке зада- чи нечеткого математического программирования может содержаться как в описании множества альтернатив, так и в описании целевой функции. /(ж) —> max, gfx) С 0, х Е X. (1) На практике часто сталкиваются с применением точной теории оп- тимизации к неточным моделям, где нет оснований приводить точно определенные числа и где слишком часто появляются трудности вычис- лительного характера при описании больших систем. Нечеткую обстановку можно рассматривать как множество X аль- тернатив вместе с его нечеткими подмножествами, представляющими собой нечетко сформулированные критерии (цели и ограничения), т. е. как систему (X, /о, /ь • > А)- Принять во внимание по возможности все критерии в такой задаче означает построить функцию D = /0П/1П...П/п, (2) в которую цели и ограничения входят одинаковым образом. Решение можно определить как нечеткое подмножество универ- сального множества альтернатив. Оптимум соответствует той области X, элементы которой максимизируют D. Это и есть случай нечеткого мате- матического программирования. 136
Лекция 13 Алгоритмы нечеткой оптимизации Очевидно, что в реальных ситуациях неразумно проводить резкую границу для множества допустимых альтернатив. Может случится так, что распределения, попадающие за эту границу, дадут эффект, более же- лательный для лица, принимающего решения. Например, ясно, что при несовместных распределениях эта область пустая. В таком случае налицо необходимость модификации ограниче- ний. Желательно выяснить, как изменить ограничения задачи, чтобы по- явились допустимые решения и задача стала разрешимой. В таких случаях представляется целесообразным вводить нечеткое множество допустимых элементов и, следовательно, рассматривать про- блему как задачу нечеткого математического программирования с приме- нением подхода, дающего человеку больше свободы в использовании его субъективных представлений о ситуации. Формы нечеткого описания исходной информации в задачах при- нятия решений могут быть различными; отсюда и различия в математи- ческих формулировках соответствующих задач нечеткого математического программирования. Нечеткий вариант стандартной задачи математического программи- рования получается, если «смягчить» ограничения, т. е. допустить воз- можность их нарушения с той или иной степенью. Кроме того, вместо максимизации целевой функции /(ж) можно стремиться к достижению некоторого заданного ее значения, причем различным отклонениям зна- чения /(ж) от этой величины приписывать различные степени допусти- мости (например, чем больше отклонение, тем меньше степень его допу- стимости). Пусть а — заданная величина функции цели /(ж), достижение кото- рой считается достаточным для выполнения цели принятия решений, и пусть имеется пороговый уровень Ь, такой, что неравенство f(x) < а — Ь означает сильное нарушение неравенства /(ж) > а. Тогда функцию при- надлежности для нечеткой функции цели можно определить следующим образом: 0. ^а(т), 1, если если если /(ж) < а - Ь, а — Ь < fix) < а, f(x) а, (3) = < где ца — функция принадлежности, описывающая степени выполнения соответствующего неравенства с точки зрения лица, принимающего ре- шения. Аналогично определяется функция принадлежности цс(х) для нечет- ких ограничений. В результате исходная задача оказывается сформулиро- ванной в форме задачи выполнения нечетко определенной цели, к кото- рой применим подход Веллмана-Заде (2). 137
Нечеткие множества и нейронные сети При моделировании ситуации в форме задачи линейного програм- мирования тт{сж | Ах ^Ь, х 0} (4) о коэффициентах Ьг и сг известно лишь то, что они находятся в неко- тором множестве, отражающем все реальные возможности. В отдельных случаях точное описанное множество ограничений (до- пустимых альтернатив) может оказаться лишь приближением реальности в том смысле, что в реальной задаче альтернативы вне множества ограни- чений могут быть не допустимыми, а лишь в той или иной степени ме- нее желательными для лица, принимающего решения, чем альтернативы внутри этого множества. Рассмотрим задачу нахождения минимума на заданной области. Пусть задана область вида Р = {ж е R+n | ацХ! + . + ainxn С bj, i = 1,... ,т} , (5) где aij, bi — нечеткие подмножества множества R, а бинарная операция + + обозначает сложение нечетких множеств. Требуется найти min {с, а?} на заданной области. Коэффициент при каждой переменной в ограничениях можно счи- тать функцией полезности, определенной на числовой оси. Можно пола- гать, что эти коэффициенты дают субъективную оценку различных воз- можностей, включая, таким образом, другие не определенные ограниче- ния. Сведем решение исходной задачи к решению ряда задач линейного программирования. Для этого введем дискретные о-уровни. В результате нечеткие ограничения принимают следующий интервальный вид: р ( Щу (оц )з?1 + . • Т (Oin)'En, ? 1, . . . , ТП, О 1, - - - , Р, (6) — | Xj0, j = 1,... ,п. Таким образом, мы перешли от нечетких множеств к четко опреде- ленным и теперь, зная, что а — обычный интервал, можем записать нашу задачу в следующем виде: (011,012)^1 + (сц,С12)Ж2 С (611,612), (021,022)3?! + (с21,С22)а?2 £ (621,622)- Теперь, чтобы привести задачу к виду обычной задачи линейного программирования, нам достаточно записать неравенства отдельно по левому и правому краям интервалов, с учетом знаков неравенства. Те., 138
Лекция 13 Алгоритмы нечеткой оптимизации мы приведем систему к следующему виду: ацХ1 +спх2 6ц, 012^1 + С12Х2 < 612, „ . - , (°) «21Ж1 + С21Т2 > о21, a2xi +c22x2 < 622- С помощью несложных преобразований мы перешли от задачи с нечеткими коэффициентами к задаче линейного программирования с четкими коэффициентами; при этом количество ограничений увеличи- лось в два раза и полученную задачу мы можем решить симплексным ме- тодом. Таким образом, из рассмотренного примера явно просматривает- ся алгоритм решения задачи с нечеткими коэффициентами. Следуя хо- ду рассуждений в данном примере, составим такой алгоритм. Он имеет следующий вид: 1. Исходная задача. 2. Вводим дискретные о-уровни. 3. Ограничения принимают интервальный вид. 4. Записываем неравенства отдельно по левому и правому краям с уче- том знаков неравенства (при этом размерность увеличивается). 5. Получаем задачу ЛП с четкими коэффициентами. 6. Решаем полученную задачу симплекс-методом. Как видим, исходная задача нечеткого математического програм- мирования представляется в виде совокупности обычных задач линей- ного программирования на всевозможных множествах уровня множе- ства допустимых альтернатив. Если альтернатива х0 есть решение зада- чи min {с, ж] на множестве уровня а, то можно считать, что число а есть хер степень принадлежности альтернативы х^ нечеткому множеству решений исходной задачи. Перебрав, таким образом, всевозможные значения а, получаем функ- цию принадлежности нечеткого решения. Если же и компоненты целевой функции с$ являются нечеткими, то необходимо выбирать для каждого уровня о соответствующие границы множеств <tq(cj), J = 1,..., п в соответствии с правилами интервальной арифметики, минимизируя предварительно таким образом: {с, ж}. 139
Нечеткие множества и нейронные сети Из данного примера видно, что за гибкость приходится платить це- ной увеличения размерности задачи. Фактически, исходная задача с огра- ничениями по включению преобразуется в задачу с ограничениями в виде неравенств, с которыми легко обращаться; при этом такая цена не слиш- ком высока, поскольку сохраняется возможность использования хорошо разработанных классических методов. Модели нечеткой ожидаемой полезности При описании индивидуального принятия решения в рамках клас- сического подхода, наряду с моделями математического программиро- вания, широко применяются теория статистических решений и теория ожидаемой полезности. Последняя предназначена для анализа решений, когда неопределенность обусловлена отсутствием объективной физиче- ской шкалы для оценки предпочтительности альтернатив. В этих случаях используется субъективная шкала полезности лица, принимающего ре- шение (ЛПР). В реальных ситуациях исходы, соответствующие приня- тым решениям (состояниям системы), являются подчас неточными, что влечет за собой размытость соответствующих им оценок функции полез- ности. Размытый вариант ожидаемой полезности формулируется, напри- мер, в модели, где выделяются и одновременно учитываются как случай- ные, таки нечеткие составляющие неопределенности. Выбор происходит на основе максимизации нечеткой ожидаемой полезности п RRj — 1 i=l где pi — размытая вероятность состояния st из множества состояний мира S, F : S х Ах В р(й), А — {а} — множество альтернатив, В = {Ь} — множество критериев, R — множество оценок, а р(й) = {рд I Mr : Я —» [0,1]} — класс всех нечетких подмножеств на множестве оценок R. Существуют модели, в которых описываются нечеткие лотереи, нечет- кие деревья предпочтения, нечеткие байесовские оценки и т. п., где непол- нота информации о законе распределения вероятности моделируется с использованием нечетких чисел и лингвистических вероятностей. Например, задача анализа решений формулируется следующим об- разом. Пусть имеются две обычные вероятности лотереи: А = = [рилу, (1 — р)ил2], где р — вероятность исхода с ожидаемой полезно- стью ид1 и (1 — р) — вероятность исхода с ожидаемой полезностью «д2, а В = [qiiBi, (1 — q)ub2\, где q — вероятность исхода с ожидаемой полез- ностью uby , (1 — q) — вероятность исхода с ожидаемой полезностью ив2 140
Лекция 13 Алгоритмы нечеткой оптимизации Из теории ожидаемой полезности следует, что А >- В, если ptiAi, +(1 - р)ил2 > quBr + (1 - Ч)ив2- Будем считать, что вероятности р и q и ожидаемые полезности uAi, и-л2 > uBi, ив2 точно не известны, т. е. введем Р-р : Р [0,1], pq : Q —> [0,1], ри : U —> [0,1]. Тогда, в соответствии с принципом обобщения, степени принадлеж- ности альтернатив а и b множествам нечетких ожидаемых полезностей в нечетких лотереях А и В соответственно вычисляются Ра(о) = max [min{pP(p), pA1(uA1), Pa2(ua2)}] , Рв(Ь) = max [min{pP(p). Pb2(ub2)}] qUBl + (l — q)uB2=b В случае лотереи с п исходами также для каждого ребра дерева реше- ний подсчитывается значение нечеткой ожидаемой полезности. 141
Нечеткие множества и нейронные сети Лекция 14. Алгоритмы нечеткого контроля и управления В лекции рассматриваются применения метода нечетких множеств в различных задачах контроля и управления Ключевые слова: нечеткая цель, нечеткое ограничение. Игры в нечетко определенной обстановке Во многих прикладных областях часто встречаются ситуации, в ко- торых выполнение цели или результаты принятия решений одним лицом зависят не только от его действий, но и от действий другого лица или группы лиц, преследующих свои собственные цели. Рассмотренный под- ход к задачам принятия решений можно применять и для анализа подоб- ных игровых ситуаций в нечетко определенной обстановке. Формулиру- ется такая игра следующим образом. Пусть X и У — множества элементов, которые могут выбирать иг- роки 1 и 2 соответственно. Допустимые выборы (стратегии) игроков 1 и 2, описываются нечеткими множествами С] и С2 в X и У соответ- ственно с функциями принадлежности ус\ и цс2 • Заданы также функ- ции fi, f2 : X х У —» R, причем значение fi(x,y) есть оценка игро- ком i ситуации (ж, у) без учета допустимости выборов хну. Цель игрока г описывается нечетким множеством Gi в R с функцией принадлежности //<•;, : 7? —»• [0,1]. Следует заметить, что цель, поставленная игроком, мо- жет оказаться плохо совместимой или вообще несовместимой с его воз- можностями, т. е. с множеством его стратегий. Целью игрока i можно считать нечеткое множество в X х У с функ- цией принадлежности V(x,у) & X х У. Образом этого нечеткого множества при отображении fi является заданное нечеткое множество цели игрока г. Введем нечеткие множества и D2 в X х У, определив их функции принадлежности следующим образом: № (Ж, У) = УСг (ж) Л Цб1 (Ж, у), m (х, у) = УС2 (ж) Л ц<52 (ж, у). 142
Лекция 14 Алгоритмы нечеткого контроля и управления Смысл нечетких множеств Г)А и можно пояснить так. Если, на- пример, игроку 1, известен конкретный выбор у* игроком 2, то перед ним стоит задача достижения нечеткой цели /ц-;,2 (ж, у*) при множестве до- пустимых альтернатив рс, (х). В соответствии с описанным на прошлой лекции подходом Беллмана-Заде, решение Di такой задачи определяется как пересечение нечетких множеств цели и ограничения: m (х, у*) = (х) A pG1 (ж, у*). Таким образом, нечеткое множество Di можно рассматривать как семейство (по параметру у) решений задач достижения нечетких целей цС1 (J:’ у*). Аналогичный смысл придается и множеству Т>2. Далее будем считать, что при каждом фиксированном выборе одно- го игрока второй выбирает стратегию, которая максимизирует соответ- ствующую ему функцию у Di • Если игрок полагается целиком лишь на свои возможности, то есте- ственна его ориентация на получение наибольшего гарантированного вы- игрыша, т. е. рациональным считается такой способ оценки игроком 1 своих выборов, при котором он рассчитывает на наихудшую для него ре- акцию игрока 2 из множества возможных реакций последнего. При этом важную роль играет имеющаяся в его распоряжении ин- формация об интересах и ограничениях игрока 2. Если, например, игрок 1 имеет возможность первым выбрать свою стратегию, а игроку 2 стано- вится известным этот выбор, то наибольший гарантированный выигрыш игрока 1 равен 2?! = max min цг>. (ж, у). хех ycY(x) Присутствующее в этом выражении множество У (ж), зависящее от ж, есть множество возможных реакций (ответов) игрока 2 на выбор ж игрока 1. В этом смысле зависимость Y(ж) отражает степень информиро- ванности игрока 1 об интересах и ограничениях игрока 2. Если величина Hi слишком мала, это означает, что цель, к выпол- нению которой стремится игрок 1, слишком завышена (с учетом его воз- можностей). Поэтому естественным образом возникает следующая зада- ча. Каково должно быть нечеткое множество стратегий игрока 1, кото- рое гарантировало бы ему (при заданной информированности об игро- ке 2) достижение цели со степенью, не меньшей некоторого заданного числа а? Для решения этой задачи введем множество = < ж | min yg (ж, у) > а > С X. I J 143
Нечеткие множества и нейронные сети Если Ха = 0, то < а, и, следовательно, игрок 1 не может га- рантировать достижение своей цели со степенью большей или равной о, независимо от того, какое множество стратегий находится в его распоря- жении. Пусть Ха 0, тогда можно заключить, что достижение цели со сте- пенью не менее а можно гарантировать только тогда, когда pc'i (ж) > о при некотором х 6 Ха. Многошаговые процессы принятия решений Для простоты будем полагать, что управляемая система А являет- ся инвариантной по времени детерминированной системой с конечным числом состояний. Именно каждое состояние xt, в котором система А находится в момент времени t, t = 0,1,2,..., принадлежит заданному ко- нечному множеству возможных состояний X = {од,.... сгп}; при этом входной сигнал в момент времени t является элементом множества U = = {од...., ат}. Динамика системы во времени описывается уравнением состояния a'f+i = t = 0,1,2,... в котором / — заданная функция, отображающая X х U в X. Таким об- разом, y(a?t,ut) представляет собой последующее состояние для xt при входном сигнале ut. Считается также, что заданы начальное состояние а?о и фиксированное время окончания процесса N. Предполагается, что в каждый момент времени t на входную пере- менную наложено нечеткое ограничение Ct, являющееся нечетким мно- жеством в U с функцией принадлежности //ДиД. Кроме того, считается, что цель — нечеткое множество G,y в А", определяемое функцией принад- лежности (un). Задача заключается в нахождении максимизирующе- го решения. Можно записать решение как нечеткое множество в U х ... х U в виде D = Сд Р Ci П ... П Сдг_1 П G/v. где Сд — нечеткое множество в U х ... {7, индуцируемое Сд- в X. Для функции принадлежности имеем Pr>(u0, ... , U,V-1) = Л . . . Л JU/V-ifUjV—l) Л (J.Gn(xn), где хк может быть выражено как функция от ui... , u^-i и х0 путем последовательного применения уравнения ж#+1 = Для многошаговых процессов целесообразно представить решение в виде: щ = тгД.тД, t = 0.1,..., N — 1, 144
Лекция 14 Алгоритмы нечеткого контроля и управления где тг# — принятая «стратегия», или правило выбора входного воздействия щ в зависимости от состояния системы xt. Таким образом, задача сводится к нахождению оптимальных стра- тегий тг/ и соответствующей последовательности входных воздействий ui,..., ujv-i, максимизирующих цр Для решения применяется метод динамического программирования: MoCuo^-^w-i) = = max max (/zo(i'o) А ... Л Цд-1(ид-1) A(/(тд-i, кд-i))) = Uo,...,Utv-2 UN-1 = max (ро(ио)л...Л^_2(а/у_2) АрСк-1(жл’-1)), Uq,...,UN-2 где цСл,_1(жд-1) = max(рЛ’-1(^-1) Л «д-i))) может рас- UN-1 сматриваться как функция принадлежности нечеткой цели в момент t = = N — 1, индуцированной заданной целью бд в момент t = N. Повторяя процесс обратных итераций, получаем систему рекур- рентных уравнений (xn—v) — max (//д—г(г<д_7)) A //Gn-v-h (-Гл7—v+i)), UK где тд ,Н1 = f(xN-v-«д-Д1 v — 1 .. Лг, которая дает решение за- дачи. Таким образом, максимизирующее решение достигается последо- вательной максимизацией величин «д_г,, причем Цд_„ определяется как функция ОТ Тд-г,, U = 1, . . . , В качестве простого примера рассмотрим систему с тремя состоя- ниями <71, <72 и <т3 и двумя входными сигналами от и а2. Пусть N = 2 и нечеткая цель в момент времени t = 2 определяется функцией принад- лежности. принимающей значения т(от)=0,3; цс2(°’2) = 1; рсз(<гз) = 0.8. Пусть далее, нечеткие ограничения в моменты / = 0 и t = 1 задаются функциями Po(oi) = 0,7; Ро(о2) = 1; щ(О1) = 1; pi(o2) = 0,6. Допустим, что таблица изменения состояний, задающая функцию /, имеет следующий вид: ОД <72 <73 от 1 3 1 02 2 1 3 145
Нечеткие множества и нейронные сети Находим функцию принадлежности нечеткой цели в момент t — 1: /А?! (от) = 0,6; MG2 (<?2) = 0,8; Мс3(<тз) — 0,6. Соответствующее максимизирующее решение имеет вил: 7Г1(ст1) = а2; 7ri(eT2) = оц; лт (оз) = о2. Аналогично, для t — 0 имеем МсДот) = 0,8; /гс2(о2) = 0,6; рс3(оз) = 0,6, 7Го(о1) — о2; тго(сг2) = оц V о2; тго(<тз) = oj V о2. Итак, если начальное состояние в момент времени t — 0 есть <ti, то максимизирующим решением будет о2, причем соответствующее значе- ние функции принадлежности равно 0,8. Особенности контроля и управления в условиях стохастической неопределенности При составлении проекта его авторы редко располагают полной априорной информацией об объекте и окружающей его среде, необхо- димой для синтеза корректной системы управления. Даже если известны системы уравнения, описывающие поведение системы, то часто оказы- вается, что нет данных о величине отдельных параметров, и к тому же нередко имеющиеся модели слишком сложны. В дальнейшем выясняет- ся, что принятая при проектировании модель существенно отличается от реального объекта, а это значительно уменьшает эффективность разрабо- танной системы управления. В связи с этим, актуальной становится воз- можность уточнения модели на основе наблюдений, полученных в усло- виях нормального функционирования объекта. Таким образом, задача идентификации формулируется следующим образом: по результатам наблюдений над входными и выходными пе- ременными системы должна быть построена оптимальная в некотором смысле модель, т. е. формализованное представление этой системы. В зависимости от априорной информации об объекте управления различают задачи идентификации в узком и широком смысле. Для вто- рых приходится предварительно решать большое число дополнительных проблем. К ним относятся: выбор структуры системы и задание класса моделей, оценка степени стационарности и линейности объекта, а также степеней и форм влияния входных воздействий на состояние, выбор ин- формативных переменных и др. Задача идентификации в узком смысле 146
Лекция 14 Алгоритмы нечеткого контроля и управления состоит в оценке параметров и состояния системы по результатам наблю- дений над входными и выходными переменными, полученными в усло- виях функционирования объекта. Для решения отмеченных проблем в современной теории управления обычно используют модели в простран- стве состояний. Проблеме построения алгоритмов управления объектами с непол- ной информацией в настоящее время уделяется большое внимание. Это объясняется прежде всего тем, что при создании систем управления сложными технологическими процессами обычно не располагают досто- верными моделями объектов. Ни одна из существующих теорий не мо- жет претендовать на то, что единственно она дает правильное описание работы систем. Скорее, имеется целый спектр теорий, трактующих эти проблемы. При имеющемся сейчас узком рассмотрении лишь отдельных процессов и только на определенных уровнях описания получается одно- стороннее представление о сис теме, не позволяющее иметь достоверные оценки обо всех процессах. Поведение реальной системы характеризуется некоторой неопреде- ленностью, и при достаточно большом объеме информации об объекте некоторое внешнее возмущение, действующее на управляемый объект, можно представить как случайный процесс. Стохастическое оптимальное управление в значительной степени базируется на основных положениях динамического программирования. Для линейных систем с квадратичным критерием решение исходит из так называемой теоремы разделения, которая позволяет составлять наилучшую стратегию из двух частей: оптимального фильтра, который вычисляет оценки состояния в виде условного среднего при заданных на- блюдениях выходных сигналов, и линейной обратной связи. Оказывает- ся, что линейная обратная связь может быть найдена путем решения за- дачи детерминированного управления. Оценка состояния характеризует выходную переменную фильтра Калмана, который, по существу, пред- ставляет собой математическую модель системы, когда управление осу- ществляется по наблюдениям. Таким образом, теорема разделения обес- печивает связь между теориями фильтрации и стохастического оптималь- ного управления. Контроль и управление динамическими системами в нечетких условиях Применение стохастических методов для контроля и управления процессом в некоторых ситуациях оказывается затруднительным из-за отсутствия вероятностных распределений параметров. Сложность полу- чения численных результатов при работе со случайными величинами так- 147
Нечеткие множества и нейронные сети же снижает практическую ценность стохастических алгоритмов. В случае неполной информации о сложном процессе удобнее представлять неточ- но заданные параметры в виде нечетких величин. Коэффициенты целого ряда моделей фактически зависят от мно- гих неучтенных факторов реального процесса. При описании процессов двухмерными моделями мы заменяем трехмерную модель однородным по третьему измерению слоем и значения коэффициентов для него опре- деляем как среднее, средневзвешенное и т. д. Попытка внесения в модель ряда не учтенных ранее факторов и введение третьего измерения приво- дят к значительному усложнению модели и резкому повышению размер- ности задачи. К тому же, в такой усложненной модели появляются пара- метры, которые невозможно или крайне трудно измерить. При их зада- нии опять вводятся некоторые допущения, которые только затрудняют и ухудшают точность решения задачи. Как показывает практика, использование детерминированных мо- делей с четкими значениями параметров (даже при наличии адаптаци- онного процесса их уточнения путем решения обратных задач) приводит к тому, что модель оказывается излишне грубой. Методы интервального анализа дают возможность построить модель для случая, когда для каж- дого из этих коэффициентов задан интервал допустимых значений. Од- нако на практике, когда имеется информация, что некие значения коэф- фициентов более допустимы, чем другие, описание этих коэффициентов в виде нечетких множеств является более удачным. В этом случае на ин- тервале дополнительно задается функция принадлежности, причем, если информация о различии допустимости имеет статистический характер, то эта функция может быть определена объективно, если нет — то субъек- тивно, на основе приближенного отражения экспертом в агрегированном виде имеющегося у него неформализованного представления о величине этого коэффициента. Естественно, что введение нечетких коэффициентов усложняет про- цесс моделирования, однако в этом случае решение адекватно принятым упрощениям, например, при исключении третьей координаты z понятие в точке (а?, у) становится размытым, нечетким, так как относится не к точ- ке, а к интервалу. В общем случае динамику дискретных систем можно представить уравнением состояния: Xk+i = F(xk,Uk) k = 0,...,N, Хк € X, ик е U, где X — пространство состояний, U — множество допустимых управле- ний, F — переходная функция состояния, в общем случае нелинейная F: X х U-+X. 148
Лекция 14 Алгоритмы нечеткого контроля и управления Эта система является детерминированной, если в любой момент времени к можно однозначно определить ее новое состояние для момен- та времени (fc 4-1) по текущему состоянию 1 и управлению ик- Для стохастических систем переходная функция записывается в ви- де Ft X xU -» ХР, где ХР — множество распределений вероятности на X. Для учета неопре- деленностей в модель могут вводиться случайные величины или коэффи- циенты. Однако для подобных моделей необходимо иметь информацию для построения вероятностных распределений. Не полностью определенные процессы можно моделировать с по- мощью аппарата нечетких множеств. Коэффициенты и некоторые вели- чины могут быть заданы в ваде функций принадлежности. Тогда динами- ка системы описывается нечетким отношением F. X х U х X -> [0,1], представляющим собой нечеткое подмножество декартова произведения X х U х X. Величина F(xk, ик, хк+1) рассматривается как интенсивность пере- хода или, точнее, как степень принадлежности элемента хк+1 образу па- ры (orfe, при отображении F, т. е. основной характеристикой системы является функция принадлежности р(хь+1 |ж*, wr). Используя понятие нечеткого отношения, можно ввести следующие пути определения функции F: 1. Когда отсутствует модель процесса и имеется лишь лингвистиче- ское описание желаемого поведения системы вида «если давление газа очень большое, то значительно увеличить расход». Подобные выражения дают информацию о том, что должно произойти в системе при поступ- лении на ее вход управляющих воздействий в форме нечетких множеств, определенных на универсальных множествах «давление газа» и «расход». Тогда нечеткое условное высказывание есть нечеткое отношение, кото- рое определяется как F(x,n) =mm(/z(x),A(x)); р:Х^[0.1]; А;Х->[0.1]. Если F будет являться нечеткой функцией, то состояние нечеткой системы в момент времени {к 4-1) есть условное по хк и ик нечеткое мно- жество, характеризуемое функцией принадлежности (хч н ик). 2. Возможно использование имеющейся модели системы для зада- ния функции F. Рассмотрим вначале случай свободной динамики систе- мы и построим рекуррентную процедуру оценки состояния динамиче- ской системы в нечетких условиях. 149
Нечеткие множества и нейронные сети На практике ситуация усложняется частичным или полным отсут- ствием информации о статистических характеристиках шумов. Поэтому предлагается для решения задачи оценивания применять теорию нечет- ких множеств. Рассмотрим нелинейную динамическую систему с дискретным вре- менем: %к+1 — Fk(xk, w — к), к = 1,2,..., для которой измерение и состояние системы связаны соотношением Zk ~ Hk(Xk,Vk)- В этих уравнениях: • индекс к соответствует /с-му моменту времени; • Fk, Hk — нелинейные функции соответствующих аргументов; • Хк — состояние динамической системы, • wk — нечеткая помеха, заданная для каждого момента времени к- функцией принадлежности ц(ш); • Vk — ошибка измерения с известной функцией принадлежности M(t’fc). Предполагается известной и функция принадлежности для началь- ного состояния ц(хо). В процессе функционирования системы в общем случае носитель начального нечеткого состояния расширяется. Чтобы уменьшить неопре- деленность ситуаций при принятии решений, необходимо использовать дополнительную информацию о замерах и исследованиях в системе. Будем предполагать независимость ошибок измерения, помех и со- стояния в смысле определения независимости нечетких величин. При за- данной условной функции принадлежности ц(хк | Zk) состояния Хк и при наличии последовательности измерений Zk = {zq, zi,..., Zk}, наилучшая четкая оценка состояния в момент времени к может быть найдена из со- отношения р(^) = max р(хк | zk). При наличии известной условной функции принадлежности p,(xk+i | Zk) оптимальная точечная оценка состояния системы в момент (fc + 1) может быть определена аналогично: V(xk+i) = max P-(xk+i | zk). ®fc+l 150
Лекция 14 Алгоритмы нечеткого контроля и управления Поскольку для реальных процессов функции р(а> | Zk)vip.(xk+i | Zk) являются унимодальными, то процедура нахождения максимума доволь- но проста. Чтобы оценить состояния, выведем рекуррентную процедуру для функции принадлежности p.(xk+i | zk+i). На основании определения условной функции принадлежности можно записать, что P(*£fc-Tl ~ т Zk-i-1) — [J'fak+l , Zk, Zk-j-1), где вектор Zk+i представлен в виде zfc+i — {zk, zk+1}. Используя определение p(a:fc+i | zk+i) и уравнение для ошибки из- мерения, получаем: p(zfe+i, zk, zk+i) = sup A*(vfc+i,Xfc+i,Zfc). ^k—f/^'k H ,^k — h) Окончательно рекуррентные соотношения для нахождения апосте- риорной функции принадлежности для нечеткого состояния системы на любом шаге (к + 1) можно записать следующим образом: ц(хк+1\ zk+i) = ц(хк+1\ Zk) A sup M(vfc+1); Vk-H = Hk_н(Хк -Н,Хк-н) хк //(rrfcril Zfc].i) = max р(жь+1| zk) A sup fj,(wk, xk, zk) 4^k=F^ H(Xk^H,Xk) Рассмотрим теперь принципы управления нечеткой динамической системой для функции F. Допустим, что на управляющее воздействие ик в каждый момент времени к наложены нечеткие ограничения Ск С U, характеризующиеся функцией принадлежности рсДшД, и также задано начальное состояние ж0- Пусть Gn X — нечеткая цель, которую необ- ходимо достигнуть в момент времени N. Эта цель характеризуется функ- цией принадлежности ^lgn{x). Оптимальные четкие управляющие воздействия и®, и%,... ,un-i могут быть определены следующим образом: ро(гго,...,г«дГ_1) = max {рс0(г,())Л A//ca_2(?/A’-2)Л/>сл. , (тдг i)} U0,...,UN-2 Функция (j.gn_i(xn-i) может рассматриваться как функция при- надлежности для нечеткой цели в момент времени N — 1, индуцирован- ной конечной целью Gn для момента N. Зная текущее нечеткое состо- яние fi(xk), нечеткое ограничение р.ск(иь) и индуцированную нечеткую цель p,ck(uk), на момент времени к можно найти эффективное четкое управление и%. 151
Нечеткие множества и нейронные сети Лекция 15. Основы искусственных нейронных сетей В лекции рассматриваются общие положения теории искусственных нейронных сетей. Описана структура однослойных и многослойных нейрон- ных сетей, введено понятие обучения нейронной сети и дана классификация алгоритмов обучения. Ключевые слова: нейрон, искусственные нейронные сети, однослой- ная нейронная сеть, многослойная нейронная сеть, обучение с учи- телем, обучение без учителя. Биологический прототип Развитие искусственных нейронных сетей вдохновляется биологией. То есть, рассматривая сетевые конфигурации и алгоритмы, исследова- тели применяют термины, заимствованные из принципов организации мозговой деятельности. Но на этом аналогия заканчивается. Наши зна- ния о работе мозга столь ограничены, что мало бы нашлось точно до- казанных закономерностей для тех, кто пожелал бы руководствоваться ими. Поэтому разработчикам сетей приходится выходить за пределы со- временных биологических знаний в поисках структур, способных выпол- нять полезные функции. Во многих случаях это приводит к необходимо- сти отказа от биологического правдоподобия, мозг становится просто ме- тафорой, и создаются сети, невозможные в живой материи или требую- щие неправдоподобно больших допущений об анатомии и функциони- ровании мозга. Несмотря на то, что связь с биологией слаба и зачастую несуще- ственна, искусственные нейронные сети продолжают сравнивать с мозгом. Их функционирование часто имеет внешнее сходство с человеческим по- знанием, поэтому трудно избежать этой аналогии. К сожалению, такие сравнения неплодотворны и создают неоправданные ожидания, неиз- бежно ведущие к разочарованию. Нервная система человека, построенная из элементов, называемых нейронами, имеет ошеломляющую сложность. Около 1011 нейронов участ- вуют в примерно 1015 передающих связях, имеющих длину метр и более. Каждый нейрон обладает многими свойствами, общими с другими орга- нами тела, но ему присущи абсолютно уникальные способности: прини- мать, обрабатывать и передавать электрохимические сигналы по нерв- ным путям, которые образуют коммуникационную систему мозга. На рис. 15.1 показана структура пары типичных биологических ней- 152
Лекция 15 Основы искусственных нейронных сетей Рис. 15.1 ронов. Дендриты идут от тела нервной клетки к другим нейронам, где они принимают сигналы в точках соединения, называемых синапсами. При- нятые синапсом входные сигналы передаются к телу нейрона. Здесь они суммируются, причем одни входы стремятся возбудить нейрон, другие — воспрепятствовать его возбуждению. Когда суммарное возбуждение в теле нейрона превышает некоторый порог, нейрон возбуждается, посылая по аксону сигнал другим нейронам. У этой основной функциональной схемы много усложнений и исключе- ний, тем не менее, большинство искусственных нейронных сетей модели- руют лишь эти простые свойства. Искусственный нейрон Искусственный нейрон имитирует в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает неко- торое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уро- вень активации нейрона. На рис. 15.2 представлена модель, реализующая эту идею. Множество входных сигналов, обозначенных xi, а?2, •.., хп, по- 153
Нечеткие множества и нейронные сети Рис. 15.2 ступает на искусственный нейрон. Эти входные сигналы, в совокупно- сти обозначаемые вектором X, соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соот- ветствующий вес Wi, W2,..., wn, и поступает на суммирующий блок, обо- значенный Е. Каждый вес соответствует «силе» одной биологической си- наптической связи. (Множество весов в совокупности обозначается век- тором Ж.) Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход, который мы будем называть NET. В векторных обозначениях это может быть компактно записано следующим образом: NET = XW. Сигнал NET далее, как правило, преобразуется активационной функци- ей F и дает выходной нейронный сигнал OUT. Активационная функция может быть обычной линейной функцией OUT = F(NET), где F — константа, пороговой функцией out = 1; 1 если NET > Т; если NET Т где Т — некоторая постоянная пороговая величина, или же функцией, более точно моделирующей нелинейную передаточную характеристику биологического нейрона и предоставляющей нейронной сети большие воз- можности. На рис. 15.2 блок, обозначенный F, принимает сигнал NET и вы- дает сигнал OUT. Если блок F сужает диапазон изменения величины NET так, что при любых значениях NET значения OUT принадлежат некоторому конечному интервалу, то F называется «сжимающей» функци- ей. В качестве «сжимающей» функции часто используется логистическая 154
Лекция 15 Основы искусственных нейронных сетей или «сигмоидальная» (S-образная) функция, показанная на рис. 15.3. Эта функция математически выражается как F(x) = 1/(1 + е~х). Таким обра- зом, OUT \_^e—NET' По аналогии с электронными си- стемами активационную функцию мож- q у? но считать нелинейной усилительной —— характеристикой искусственного ней- рона. Коэффициент усиления вычис- / ляется как отношение приращения У' величины OUT к вызвавшему его неболь--- шому приращению величины NET. О УУЕУ Он выражается наклоном кривой при определенном уровне возбуждения и рис 15 3 изменяется от малых значений при больших отрицательных возбуждениях (кривая почти горизонтальна) до максимального значения при нулевом возбуждении и снова уменьшает- ся, когда возбуждение становится большим положительным. С. Гроссберг (1973) обнаружил, что подобная нелинейная характеристика решает по- ставленную им дилемму шумового насыщения. Каким образом одна и та же сеть может обрабатывать как слабые, так и сильные сигналы? Сла- бые сигналы нуждаются в большом сетевом усилении, чтобы дать пригод- ный к использованию выходной сигнал. Однако усилительные каскады с большими коэффициентами усиления могут привести к насыщению вы- хода шумами усилителей (случайными флуктуациями), которые присут- ствуют в любой физически реализованной сети. Сильные входные сигна- лы, в свою очередь, также будут приводить к насыщению усилительных каскадов, исключая возможность полезного использования выхода. Цен- тральная область логистической функции, имеющая большой коэффи- циент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим усилением на положительном и отрицательном концах подходят для больших возбуждений. Таким образом, нейрон функ- ционирует с большим усилением в широком диапазоне уровня входного сигнала оит = 1 ./т = F(NET~I- “Г С- Другой широко используемой активационной функцией является гипер- болический тангенс. По форме она сходна с логистической функцией и часто используется биологами в качестве математической модели актива- ции нервной клетки. В качестве активационной функции искусственной 155
Нечеткие множества и нейронные сети нейронной сети она записывается следующим образом: OUT = th(x). Подобно логистической функции гипер- болический тангенс является S-образной функцией, но он симметричен относитель- но начала координат, и в точке NET = = 0 значение выходного сигнала OUT рав- но нулю (см. рис. 15.4). В отличие от логи- стической функции, гиперболический тан- генс принимает значения различных зна- ков, и это его свойство применяется для целого ряда сетей. Рассмотренная простая модель ис- кусственного нейрона игнорирует многие свойства своего биологического двойника. Например, она не принимает во внимание задержки во времени, которые воздействуют на динамику системы. Входные сигналы сразу же порождают выходной сигнал. И, что более важно, она не учитывает воздействий функции частотной модуля- ции или синхронизирующей функции биологического нейрона, которые ряд исследователей считают решающими в нервной деятельности есте- ственного мозга. Несмотря на эти ограничения, сети, построенные из таких нейро- нов, обнаруживают свойства, сильно напоминающие биологическую си- стему. Только время и исследования смогут ответить на вопрос, являются ли подобные совпадения случайными или же они есть следствие того, что в модели верно схвачены важнейшие черты биологического нейрона. Однослойные искусственные нейронные сети Хотя один нейрон и способен выполнять простейшие процедуры распознавания, но для серьезных нейронных вычислений необходимо соединять нейроны в сети. Простейшая сеть состоит из группы нейронов, образующих слой, как показано в правой части рис. 15.5. Отметим, что вершины-круги слева служат лишь для распределения входных сигналов. Они не выполняют каких-либо вычислений и поэтому не будут считаться слоем. Для большей наглядности обозначим их кругами, чтобы отличать их от вычисляющих нейронов, обозначенных квадратами. Каждый эле- мент из множества входов X отдельным весом соединен с каждым искус- ственным нейроном. А каждый нейрон выдает взвешенную сумму входов в сеть. В искусственных и биологических сетях многие соединения могут 156
Лекция 15 Основы искусственных нейронных сетей отсутствовать, но здесь они показаны все для демонстрации общей кар- тины. Могут существовать также соединения между выходами и входами элементов в слое Рис. 15.5 Удобно считать веса элементами матрицы W. Матрица имеет т строк и п столбцов, где т — число входов, а п — число нейронов. Напри- мер, w2,3 — это вес, связывающий третий вход со вторым нейроном. Таким образом, вычисление выходного вектора N, компонентами которого яв- ляются выходы OUT нейронов, сводится к матричному умножению N = = XW, где N и X — векторы-строки. Многослойные искусственные нейронные сети Более крупные и сложные нейронные сети обладают, как правило, и большими вычислительными возможностями. Хотя созданы сети всех конфигураций, какие только можно себе представить, послойная орга- низация нейронов копирует слоистые структуры определенных отделов мозга. Оказалось, что такие многослойные сети обладают большими воз- можностями, чем однослойные, и в последние годы были разработаны алгоритмы для их обучения. Многослойные сети могут строиться из кас- кадов слоев. Выход одного слоя является входом для последующего слоя. Подобная сеть показана на рис. 15.6 и снова изображена со всеми со- единениями. Многослойные сети не могут привести к увеличению вы- 157
Нечеткие множества и нейронные сети числительной мощности по сравнению с однослойной сетью, если акти- вационная функция между слоями линейна. Вычисление выхода слоя за- ключается в умножении входного вектора на первую весовую матрицу с последующим умножением (если отсутствует нелинейная активационная функция) результирующего вектора на вторую весовую матрицу OUT = (XWi)W2. Так как умножение матриц ассоциативно, то = X(Will 2)- Рис. 15.6 Это показывает, что двухслойная линейная сеть эквивалентна одно- му слою с весовой матрицей, равной произведению двух весовых матриц. Следовательно, любая многослойная линейная сеть может быть замене- на эквивалентной однослойной сетью. Однако однослойные сети весьма ограниченны по своим вычислительным возможностям. Таким образом, для расширения возможностей сетей по сравнению с однослойной сетью необходима нелинейная активационная функция. У сетей, рассмотренных до сих пор, не было обратных связей, т. е. соединений, идущих от выходов некоторого слоя к входам этого же слоя или предшествующих слоев. Этот специальный класс сетей, называемых сетями без обратных связей или сетями прямого распространения, пред- ставляет большой интерес и широко используется. Сети более общего 158
Лекция 15 Основы искусственных нейронных сетей вида, имеющие соединения от выходов к входам, называются сетями с обратными связями У сетей без обратных связей нет памяти, их выход полностью определяется текущими входами и значениями весов. В неко- торых конфигурациях сетей с обратными связями предыдущие значения выходов возвращаются на входы; выход, следовательно, определяется как текущим входом, так и предыдущими выходами. Поэтому сети с обрат- ными связями могут обладать свойствами, сходными с кратковременной человеческой памятью, где сетевые выходы тоже частично зависят от пре- дыдущих входов. К сожалению, нет общепринятого способа подсчета числа слоев в сети. Многослойная сеть состоит, как показано на рис. 15.6, из чередую- щихся множеств нейронов и весов. Ранее, в связи с рис. 15.5, уже говори- лось, что входной слой не выполняет суммирования. Эти нейроны служат лишь в качестве разветвлений для первого множества весов и не влияют на вычислительные возможности сети. По этой причине первый слой не принимается во внимание при подсчете слоев, и сеть, подобная изобра- женной на рисунке 15.6, считается двуслойной, так как только два слоя выполняют вычисления. Далее, веса слоя считаются связанными со сле- дующими за ними нейронами. Следовательно, слой состоит из множества весов со следующими за ними нейронами, суммирующими взвешенные сигналы. Обучение искусственных нейронных сетей Среди всех интересных свойств искусственных нейронных сетей ни одно не захватывает так воображения, как их способность к обучению. Их обучение до такой степени напоминает процесс интеллектуального раз- вития человеческой личности, что может показаться, будто нами достиг- нуто глубокое понимание этого процесса. Но, проявляя осторожность, следует сдерживать эйфорию. Возможности обучения искусственных ней- ронных сетей ограниченны, и нужно решить много сложных задач, чтобы определить, находимся ли мы на правильном пути. Цель обучения Сеть обучается, чтобы для некоторого множества входов давать же- лаемое (или, по крайней мере, сообразное с ним) множество выходов. Каждое такое входное (или выходное) множество рассматривается как вектор. Обучение осущесззляется путем последовательного предъявле- ния входных векторов с одновременной подстройкой весов в соответ- ствии с определенной процедурой. В процессе обучения веса сети по- степенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор. 159
Нечеткие множества и нейронные сети Обучение с учителем Различают алгоритмы обучения с учителем и без учителя. Обучение с учителем предполагает, что для каждого входного вектора существует це- левой вектор, представляющий собой требуемый выход. Вместе они на- зываются обучающей парой. Обычно сеть обучается на некотором числе таких обучающих пар. Предъявляется выходной вектор, вычисляется вы- ход сети и сравнивается с соответствующим целевым вектором, разность (ошибка) с помощью обратной связи подается в сеть, и веса изменяют- ся в соответствии с алгоритмом, стремящимся минимизировать ошибку. Векторы обучающего множества предъявляются последовательно, ошиб- ки вычисляются и веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемо низ- кого уровня. Обучение без учителя Несмотря на многочисленные прикладные достижения, обучение с учителем критиковалось за свою биологическую неправдоподобность. Трудно вообразить обучающий механизм в мозге, который бы сравнивал желаемые и действительные значения выходов, выполняя коррекцию с помощью обратной связи. Обучение без учителя является намного более правдоподобной моделью обучения для биологической системы. Разви- тая Кохоненом и многими другими, она не нуждается в целевом векторе для выходов и, следовательно, не требует сравнения с предопределенны- ми идеальными ответами. Обучающее множество состоит лишь из вход- ных векторов. Обучающий алгоритм подстраивает веса сети так, чтобы получались согласованные выходные векторы, т. е. чтобы предъявление достаточно близких входных векторов давало одинаковые выходы. Про- цесс обучения, следовательно, выделяет статистические свойства обуча- ющего множества и группирует сходные векторы в классы. Предъявле- ние на вход вектора из данного класса даст определенный выходной век- тор, но до обучения невозможно предсказать, какой выход будет произ- водиться данным классом входных векторов. Следовательно, выходы по- добной сети должны трансформироваться в некоторую понятную форму, обусловленную процессом обучения. Это не является серьезной пробле- мой. Обычно не сложно идентифицировать связь между входом и выхо- дом, установленную сетью. Алгоритмы обучения Большинство современных алгоритмов обучения выросло из кон- цепций Д.О. Хэбба. Он предложил модель обучения без учителя, в которой синаптическая сила (вес) возрастает, если активированы оба нейрона, ис- 160
Лекция 15 Основы искусственных нейронных сетей точник и приемник. Таким образом, часто используемые пути в сети уси- ливаются и феномены привычки и обучения через повторение получают объяснение. В искусственной нейронной сети, использующей обучение по Хэббу, наращивание весов определяется произведением уровней возбуждения передающего и принимающего нейронов. Это можно записать как + 1) = w(n) + aOUTjOUTj, где Wij (ri) — значение веса от нейрона г к нейрону j до подстройки, Wij (п+ + 1) — значение веса от нейрона г к нейрону j после подстройки, а — ко- эффициент скорости обучения, OUTj — выход нейрона i и вход нейрона j, OUTj — выход нейрона j. Сети, использующие обучение по Хэббу, конструктивно развива- лись, однако за последние 20 лет появились и разрабатывались более эф- фективные алгоритмы обучения. В частности, были развиты алгоритмы обучения с учителем, приводящие к сетям с более широким диапазоном характеристик обучающих входных образов и большими скоростями обу- чения, чем использующие простое обучение по Хэббу. 161
Нечеткие множества и нейронные сети Лекция 16. Персептроны. Представимость и раздел и мость В лекции дается определение персептрона, рассматривается его архи- тектура. Описывается класс задач, решаемых с помощью персептрона, до- казывается, какие задачи невозможно решить с его помощью. Ключевые слова: персептрон, персептронная представимость, ли- нейная разделимость. Персептроны и зарождение искусственных нейронных сетей В качестве предмета исследования искусственные нейронные сети впервые заявили о себе в 1940-е годы. Стремясь воспроизвести функ- ции человеческого мозга, исследователи создали простые аппаратные (а позже программные) модели биологического нейрона и системы его со- единений. Когда нейрофизиологи достигли более глубокого понимания нервной системы человека, эти ранние попытки стали восприниматься как весьма грубые аппроксимации. Тем не менее, на этом пути были до- стигнуты впечатляющие результаты, стимулировавшие дальнейшие ис- следования, которые привели к созданию более изощренных сетей. Рис. 16.1 Первое систематическое изучение искусственных нейронных сетей было предпринято Маккалокком и Питтсом в 1943 г. Позднее они ис- следовали сетевые парадигмы для распознавания изображений, подвер- гаемых сдвигам и поворотам. Простая нейронная модель, показанная на рис. 16.1, использовалась в большей части их работ. Элемент Е умножает 162
Лекция 16 Персептроны. Представимость и разделимость каждый вход х на вес w и суммирует взвешенные входы. Если получен- ная сумма больше заданного порогового значения, выход равен единице, в противном случае — нулю. Эти системы (и множество им подобных) получили название персептронов. Они состоят из одного слоя искусствен- ных нейронов, соединенных с помощью весовых коэффициентов с мно- жеством входов (см. рис. 16.2), хотя, в принципе, описываются и более сложные системы. В 60-е годы персептроны вызвали большой интерес и оптимизм. Одной из первых искусственных сетей, способных к перцеп- ции (восприятию) и формированию реакции на воспринятый раздражи- тель, явился PERCEPTRON Розенблатта (F.Rosenblatt, 1957). Персептрон рассматривался его автором не как конкретное техническое (вычисли- тельное) устройство, а как модель работы мозга. Розенблатт называл та- кую нейронную сеть трехслойной, однако, по современной терминоло- гии, представленная сеть обычно называется однослойной, так как имеет только один слой нейропроцессорных элементов. ouri\ оит3 оит2 Рис. 16.2 В Корнеллской авиационной лаборатории была разработана элек- тротехническая модель персептрона MARK-1, которая содержала 8 вы- ходных элементов. На этом персептроне была проведена серия экспери- ментов по распознаванию букв алфавита и геометрических образов. Ф. Розенблатт доказал замечательную теорему об обучении персеп- тронов (которую мы рассмотрим на следующей лекции). Д. Уидроу дал ряд убедительных демонстраций систем персептронного типа, и исследо- ватели во всем мире стремились изучить возможности этих систем. Пер- воначальная эйфория сменилась разочарованием, когда оказалось, что 163
Нечеткие множества и нейронные сети персептроны не способны обучаться решению ряда простых задач. Мин- ский строго проанализировал эту проблему и показал, что имеются жест- кие ограничения того, что могут выполнять однослойные персептроны, и, следовательно, того, чему они могут обучаться. Так как в то время мето- ды обучения многослойных сетей не были известны, исследователи за- нялись более многообещающими проектами, и исследования в области нейронных сетей пришли в упадок. Недавнее открытие методов обучения многослойных сетей привело к возрождению интереса и возобновлению исследований. Работа М. Л. Минского, возможно, и охладила пыл энтузиастов пер- септрона, но обеспечила время для необходимой консолидации и раз- вития лежащей в основе теории. Важно отметить, что анализ Минского не был опровергнут. Он остается актуальным исследованием и должен непременно учитываться как часть базовых знаний, чтобы ошибки 60-х годов не повторились. Несмотря на свои ограничения, персептроны ши- роко изучались. Теория персептронов является основой для многих других типов искусственных нейронных сетей, персептроны иллюстрируют важ- ные принципы. В силу этих причин они являются логической исходной точкой для изучения искусственных нейронных сетей. Персептронная представляемость Доказательство теоремы обучения персептрона показало, что пер- септрон способен научиться всему, что он способен представлять. Важ- но при этом уметь различать представляемость и обучаемость. Понятие представляемости относится к способности персептрона (или другой се- ти) моделировать определенную функцию. Обучаемость же требует на- личия систематической процедуры настройки весов сети для реализации этой функции. Для иллюстрации проблемы представляемости допустим, что у нас есть множество карт, помеченных цифрами от 0 до 9. Допустим также, что мы обладаем гипотетической машиной, способной отличать карты с нечетным номером от карт с четным номером и зажигающей индикатор на своей панели при предъявлении карты с нечетным номером. Предста- вима ли такая машина персептроном? То есть возможно ли сконструиро- вать персептрон и настроить его веса (неважно, каким образом) так, чтобы он обладал такой же разделяющей способностью? Если это достижимо, то говорят, что персептрон способен представлять желаемую машину. Мы увидим, что возможности представления однослойными персептронами весьма ограниченны. Имеется много простых машин, которые не могут быть представлены персептроном, независимо от того, как настраиваются его веса. 164
Лекция 16 Персептроны. Представимость и разделимость Проблема функции ИСКЛЮЧАЮЩЕГО ИЛИ Один из самых пессимистических результатов М.Л. Минского гла- сит, что однослойный персептрон не может воспроизвести такую простую функцию, как ИСКЛЮЧАЮЩЕЕ ИЛИ. Это функция от двух аргумен- тов, каждый из которых может быть нулем или единицей. Она принимает значение единицы, когда один из аргументов равен единице (но не оба). Проблему можно проиллюстрировать с помощью однослойной одноней- ронной системы с двумя входами, показанной на рис. 16.3. Обозначим OUT Рис. 16.3 один вход через х, а другой через у, тогда все их возможные комбина- ции будут состоять из четырех точек на плоскости XOY, как показано на рис. 16.4. Например, точка х — 0 и у = 0 обозначена на рисунке как точ- ка Ао. Табл. 16.1 показывает требуемую связь между входами и выходом, где входные комбинации, которые должны давать нулевой выход, поме- чены Ао и Ai, единичный выход — Во и Bi. Таблица 16.1 Точки Значения х Значения у Требуемый выход Ао 0 0 0 Во 1 4 0 1 Bj 0 1 1 Ai 1 1 0 В сети на рис. 16.3 функция F является обычным порогом, так что OUT принимает значение 0, когда NET меньше 0,5, и 1 в случае, когда NET больше или равно 0,5. Нейрон выполняет следующее вычисление: NET = xwi + yw2- (1) Никакая комбинация значений двух весов не может дать соотноше- ния между входом и выходом, задаваемого табл. 16.1. Чтобы понять это 165
Нечеткие множества и нейронные сети ограничение, зафиксируем NET на величине порога 0,5. Сеть в этом слу- чае описывается уравнением (2). Это уравнение линейно по х и у, т. е. все значения по а; и у, удовлетворяющие этому уравнению, будут лежать на некоторой прямой в плоскости х — у. xwi + уи>2 = 0,5. (2) Любые входные значения для а; и у на этой линии будут давать порого- вое значение 0,5 для NET. Входные значения с одной стороны прямой обеспечат значения NET больше порога, следовательно, OUT = 1. Вход- ные значения по другую сторону прямой обеспечат значения NET мень- ше порога, делая OUT равным 0. Изменения значений wi, W2 и порога будут менять наклон и положение прямой. Для того чтобы сеть реали- зовала функцию ИСКЛЮЧАЮЩЕЕ ИЛИ, заданную табл. 16.1, нужно расположить прямую так, чтобы точки Ао, Ai были с одной стороны пря- мой, а точки Во, Bi — с другой. Попытавшись нарисовать такую прямую на рис. 16.4, убеждаемся, что это невозможно. Это означает, что какие бы значения ни приписывались весам и порогу, сеть неспособна воспроизве- сти соотношение между входом и выходом, требуемое для представления функции ИСКЛЮЧАЮЩЕЕ ИЛИ. Взглянув на задачу с другой точки зрения, рассмотрим NЕТ как поверхность над плоскостью XOY. Каждая точка этой поверхности находится над соответствующей точкой плоско- сти XOY на расстоянии, равном значению NET в этой точке. Можно показать, что наклон этой АВТ-поверхности одинаков для всей поверх- ности XOY. Все точки, в которых значение NET равно величине порога, проектируются на линию уровня плоскости NET (см. рис. 16.5). Ясно, что все точки по одну сторону пороговой прямой проециру- ются в значения NET большие порога, а точки по другую сторону да- дут меньшие значения NET. Таким образом, пороговая прямая разбивает 166
Лекция 16 Персептроны. Представимость и разделимость плоскость х — у на две области. Во всех точках по одну сторону пороговой прямой значение OUT равно единице, по другую сторону — нулю. Линейная разделимость Как мы убедились, невозможно нарисовать прямую линию, разде- ляющую плоскость х — у так, чтобы реализовывалась функция ИСКЛЮ- ЧАЮЩЕЕ ИЛИ. К сожалению, этот пример не единственный. Имеется обширный класс функций, не реализуемых однослойной сетью. Об этих функциях говорят, что они являются линейно неразделимыми: они-то и накладывают определенные ограничения на возможности однослойных сетей. Линейная разделимость ограничивает однослойные сети задачами классификации, в которых множества точек (соответствующих входным значениям) мохуг быть разделены геометрически. Для нашего случая с двумя входами разделитель является прямой линией. В случае трех входов разделение осуществляется плоскостью, рассекающей трехмерное про- странство. Для четырех или более входов визуализация невозможна, и необходимо мысленно представить n-мерное пространство, рассекаемое «гиперплоскостью» — геометрическим объектом, который делит про- странство четырех или большего числа измерений. Так как линейная разделимость ограничивает возможности персеп- тронного представления, то важно знать, является ли данная функция раз- делимой. К сожалению, не существует простого способа определить это, если число переменных велико. 167
Нечеткие множества и нейронные сети Нейрон с п двоичными входами может иметь 2" различных входных образов, состоящих из нулей и единиц. Так как каждый входной образ может соответствовать двум различным бинарным выходам (единица и ноль), то всего имеется 22” функций от п переменных. Как следует из Таблица 16.2 N 22" Число линейно разделимых функций 1 4 Г 4 2 16 14 3 256 104 4 65536 1882 5 4,3 х 109 94572 6 1,8 х 10у 15028134 табл. 16.2, вероятность того, что случайно выбранная функция окажется линейно разделимой, весьма мала даже для умеренного числа перемен- ных. По этой причине однослойные персептроны на практике ограниче- ны простыми задачами. Преодоление ограничения линейной разделимости К концу 1960-х годов проблема линейной разделимости была хорошо понята. К тому же, было известно, что это серьезное ограничение пред- ставляемости однослойными сетями можно преодолеть, добавив допол- нительные слои. Например, двухслойные сети можно получить каскад- ным соединением двух однослойных сетей. Они способны выполнять бо- лее общие классификации, отделяя те точки, которые содержатся в вы- пуклых ограниченных или неограниченных областях. Область называет- ся выпуклой, если для любых двух ее точек соединяющий их отрезок це- ликом лежит в области. Область называется ограниченной, если ее мож- но заключить в некоторый круг. Неограниченную область невозможно заключить внутрь круга (например, область между двумя параллельны- ми линиями). Примеры выпуклых ограниченных и неограниченных об- ластей представлены на рис. 16.6. Чтобы уточнить требование выпуклости, рассмотрим простую дву- слойную сеть с двумя входами, которые подведены к двум нейронам первого слоя, соединенными с единственным нейроном в слое 2 (см. рис. 16.7а). Пусть порог выходного нейрона равен 0,75, а оба его веса равны 0,5. В этом случае для того, чтобы порог был превышен и на вы- ходе появилась единица, требуется, чтобы оба нейрона первого уровня 168
Лекция 16 Персептроны Представимость и разделимость Выпуклые области Рис. 16.7 на выходе имели единицу. Таким образом, выходной нейрон реализует логическую функцию И. На рис. 16.7а каждый нейрон слоя 1 разбива- ет плоскость XOY на две полуплоскости, один обеспечивает единичный выход для входов ниже верхней линии, другой — для входов выше ниж- ней линии. На рис. 16.76 показан результат такого двойного разбиения, где выходной сигнал нейрона второго слоя равен единице только внутри V-образной области. Аналогично, во втором слое может быть использо- вано три нейрона с дальнейшим разбиением плоскости и созданием об- ласти треугольной формы. Включением достаточного числа нейронов во входной слой может быть образован выпуклый многоугольник любой же- лаемой формы. Все такие многогранники выпуклы, так как они образо- ваны с помощью операции И над областями, задаваемыми линиями: сле- довательно, только выпуклые области и возникают. Точки, не составляю- щие выпуклой области, не могут быть отделены от других точек плоско- сти двухслойной сетью. 169
Нечеткие множества и нейронные сети Нейрон второго слоя не ограничен функцией И. Он может реализо- вывать многие другие функции при подходящем выборе весов и порога. Например, можно сделать так, чтобы единичный выход любого из ней- ронов первого слоя приводил к появлению единицы на выходе нейрона второго слоя, реализовав тем самым логическое ИЛИ. Например, имеет- ся 16 двоичных функций от двух переменных. Если выбирать подходя- щим образом веса и порог, то можно воспроизвести 14 из них (все, кроме ИСКЛЮЧАЮЩЕЕ ИЛИ и ИСКЛЮЧАЮЩЕЕ НЕТ). Входы не обязательно должны быть двоичными. Вектор непрерыв- ных входов может представлять собой произвольную точку на плоско- сти XOY. В этом случае мы имеем дело со способностью сети разбивать плоскость на непрерывные области, а не с разделением дискретных мно- жеств точек. Для всех этих функций, однако, линейная разделимость по- казывает, что выход нейрона второго слоя равен единице только в части плоскости XOY, ограниченной многоугольной областью. Поэтому для разделения плоскостей Р и Q необходимо, чтобы все Р лежали внутри выпуклой многоугольной области, не содержащей точек Q (или наобо- рот). Трехслойная сеть, впрочем, есть более общий случай. Ее классифи- цирующие возможности ограничены лишь числом искусственных ней- ронов и весов. Ограничения на выпуклость отсутствуют. Теперь нейрон третьего слоя принимает в качестве входа набор выпуклых многоуголь- ников, и их логическая комбинация может быть невыпуклой. На рис. 16.86 иллюстрируется ситуация, когда два треугольника А и В, скомбини- рованные с помощью функций «А и не В», задают невыпуклую область. При добавлении нейронов и весов число сторон многоугольников может неограниченно возрастать. Это позволяет аппроксимировать область лю- бой формы с любой точностью. Вдобавок, не все выходные области вто- рого слоя должны пересекаться. Возможно, следовательно, объединять различные области, выпуклые и невыпуклые, выдавая на выходе едини- цу всякий раз, когда входной вектор принадлежит одной из них. Несмотря на то, что возможности многослойных сетей были извест- ны давно, в течение многих лет не было теоретически обоснованного ал- горитма для настройки их весов. В последующих главах мы детально изу- чим многослойные обучающие алгоритмы, но сейчас достаточно пони- мать суть проблемы и знать, что исследования привели к определенным результатам. Эффективность запоминания Серьезные вопросы существуют относительно эффективности запо- минания информации в персептроне (или любых других нейронных се- 170
Лекция 16 Персептроны Представимость и разделимость Рис. 16.8 тях) по сравнению с обычной компьютерной памятью и методами поиска информации в ней. Например, в компьютерной памяти можно хранить все входные образы вместе с классифицирующими битами. Компьютер должен найти требуемый образ и дать его классификацию. Многочислен- ные и хорошо известные методы могли бы применяться для ускорения поиска. Если точное соответствие не найдено, то для ответа может быть использовано правило ближайшего соседа. Число битов, необходимое для хранения этой же информации в ве- сах персептрона, может быть значительно меньшим по сравнению с мето- дом обычной компьютерной памяти, если образы допускают экономич- ную запись. Однако М. Л. Минский построил патологические примеры, в которых число битов, требуемых для представления весов, растет в за- висимости от размерности задачи быстрее, чем экспоненциально. В этих случаях требования к памяти быстро становятся невыполнимыми. Если, как он предположил, эта ситуация не является исключением, то персеп- троны часто могут быть ограничены только малыми задачами. Насколько общими являются такие неподатливые множества образов? Вопрос оста- ется открытым и относится ко всем нейронным сетям. Поиски ответа чрезвычайно важны для дальнейших исследований в этой области. 171
Нечеткие множества и нейронные сети Лекция 17. Персептроны. Обучение персептрона В лекции рассматриваются алгоритм обучения персептрона, вопросы сходимости алгоритма обучения и подбора количественных характеристик весовых коэффициентов. Исследуются многослойные персептроны и воз- можности их обучения. Ключевые слова: персептрон, алгоритм обучения персептрона. Обучение персептрона Способность искусственных нейронных сетей к обучению являет- ся их наиболее интригующим свойством. Подобно биологическим систе- мам, которые они моделируют, эти нейронные сети сами совершенствуют себя в результате попыток создать лучшую модель поведения. Используя критерий линейной разделимости, можно решить, спо- собна ли однослойная нейронная сеть реализовывать требуемую функ- цию. Даже в том случае, когда ответ положительный, это принесет мало пользы, если у нас нет способа найти нужные значения для весов и по- рогов. Чтобы сеть представляла практическую ценность, нужен система- тический метод (алгоритм) для вычисления этих значений. Ф. Розенблагг создал такой метод в своем алгоритме обучения персептрона и доказал: пер- септрон может быть обучен всему, что он может реализовывать. Обучение может быть с учителем или без него. Для обучения с учите- лем нужен «внешний» учитель, который оценивал бы поведение системы и управлял ее последующими модификациями. При обучении без учите- ля, которое будет рассмотрено на последующих лекциях, сеть путем са- моорганизации делает требуемые изменения. Обучение персептрона яв- ляется обучением с учителем. Алгоритм обучения персептрона может быть реализован на цифро- вом компьютере или другом электронном устройстве, и сеть становится в определенном смысле самоподстраивающейся. По этой причине проце- дуру подстройки весов обычно называют «обучением» и говорят, что сеть «обучается». Доказательство Розенблатта стало основной вехой и дало мощный импульс исследованиям в этой области. Сегодня в той или иной форме элементы алгоритма обучения персептрона встречаются во многих сетевых парадигмах. 172
Лекция 17 Персептроны. Обучение персептрона Алгоритм обучения однослойного персептрона Персептрон должен решать задачу классификации по бинарным входным сигналам. Набор входных сигналов будем обозначать п-мерным вектором х. Все элементы вектора являются булевыми переменными (пе- ременными, принимающими значения «Истина» или «Ложь»). Однако иногда полезно оперировать числовыми значениями. Будем считать, что значению «ложь» соответствует числовое значение 0, а значению «Исти- на» соответствует 1. Персептроном будем называть устройство, вычисляющее следую- щую систему функций: т j = i,...,n, (1) г=1 где ич — веса персептрона, О — порог, xj — значения входных сигналов, скобки [] означают переход от булевых (логических) значений к числовым значениям по правилам, изложенным выше. Обучение персептрона состоит в подстройке весовых коэффициен- тов. Пусть имеется набор пар векторов (zQ, уа), а = 1,... ,р, называемый обучающей выборкой. Будем называть нейронную сеть обученной на дан- ной обучающей выборке, если при подаче на входы сети каждого векто- ра ха на выходах всякий раз получается соответствующий вектор уа . Предложенный Ф. Розенблаттом метод обучения состоит в итераци- онной подстройке матрицы весов, последовательно уменьшающей ошиб- ку в выходных векторах. Алгоритм включает несколько шагов: ШагО Начальные значения весов всех нейронов W(t = 0) полагаются случайными Шаг 1 Сети предъявляется входной образ ха, в результате формируется выходной образ уа / уа. Шаг 2 Вычисляется вектор ошибки За = (уа — уа), делаемой сетью на выходе. Дальнейшая идея состоит в том, что изменение вектора ве- совых коэффициентов в области малых ошибок должно быть про- порционально ошибке на выходе и равно нулю, если ошибка равна нулю. ШагЗ Вектор весов модифицируется по следующей формуле: W(t + + АТ) = W(t) + уха (<5“)т. Здесь 0 < у < 1 — темп обучения. Шаг 4 Шаги 1—3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпо- хой. Обучение завершается по истечении нескольких эпох: а) ко- гда итерации сойдутся, т. е. вектор весов перестает изменяться, или б) когда полная, просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения. 173
Нечеткие множества и нейронные сети Объясним данный алгоритм более подробно. Подаем на вход пер- септрона такой вектор х, для которого уже известен правильный ответ. Если выходной сигнал персептрона совпадает с правильным ответом, то никаких действий предпринимать не надо. В случае ошибки, необходи- мо обучить персептрон правильно решать данный пример. Ошибки могут быть двух типов. Рассмотрим каждый из них. Первый тип ошибки: на выходе персептрона — 0, а правильный от- вет — 1. Для того чтобы персептрон выдавал правильный ответ, необходи- мо, чтобы сумма в правой части (1) стала больше. Поскольку переменные принимают значения 0 или 1, увеличение суммы может быть достигну- то за счет увеличения весов Wi . Однако нет смысла увеличивать веса при переменных хг, которые равны нулю. Таким образом, следует увеличить веса Wi при тех переменных xi, которые равны 1. Первое правило. Если на выходе персептрона получен 0, а правиль- ный ответ равен 1, то необходимо увеличить веса связей между одновре- менно активными нейронами. При этом выходной персептрон считается активным. Второй тип ошибки: на выходе персептрона — 1, а правильный ответ равен нулю. Для обучения правильному решению данного примера следует уменьшить сумму в правой части (1). Следовательно, необходи- мо уменьшить веса связей w, при тех переменных, которые равны 1 (по- скольку нет смысла уменьшать веса связей при равных нулю перемен- ных х^. Необходимо также провести эту процедуру для всех активных нейронов предыдущих слоев. В результате получаем второе правило. Второе правило. Если на выходе персептрона получена единица, а правильный ответ равен нулю, то необходимо уменьшить веса связей между одновременно активными нейронами. Таким образом, процедура обучения сводится к последовательно- му перебору всех примеров обучающего множества с применением пра- вил обучения для ошибочно решенных примеров. Если после очередного цикла предъявления всех примеров окажется, что все они решены пра- вильно, то процедура обучения завершается. Нерассмотренными остались два вопроса. Первый — о сходимости процедуры обучения. Второй — на сколько нужно увеличивать (умень- шать) веса связей при применении правил обучения. Ответ на первый вопрос дают следующие теоремы. Теорема о сходимости персептрона. Если существует вектор парамет- ров w, при котором персептрон правильно решает все примеры обучаю- щей выборки, то при обучении персептрона по вышеописанному алгорит- му решение будет найдено за конечное число шагов. Теорема о «зацикливании» персептрона. Если не существует вектора параметров w, при котором персептрон правильно решает все примеры 174
Лекций 17 Персептроны. Обучение персептрона обучающей выборки, то при обучении персептрона по данному правилу через конечное число шагов вектор весов начнет повторяться. Таким образом, данные теоремы утверждают, что, запустив проце- дуру обучения персептрона, через конечное время мы либо получим обу- чившийся персептрон, либо ответ, что данный персептрон поставленной задаче обучится не может. Доказательства этих теорем в данное учебное пособие не включены. Целочисленность весов персептронов Для ответа на вопрос о количественных характеристиках вектора w рассмотрим следующую теорему. Теорема. Любой персептрон можно заменить другим персептроном того же вида с целыми весами связей. Доказательство. Обозначим множество примеров одного класса (пра- вильный ответ равен 0) через Хо, а другого (правильный ответ равен 1) — через Xi. Вычислим максимальное и минимальное значения суммы в правой части (1): Sn = min у u>iXi, Si = min у xexo xeXi i г Определим допуск e как минимум из s0 и si. Положим 6 = s/(m + 1), где т — число слагаемых в (1). Поскольку персептрон (1) решает поставлен- ную задачу классификации и множество примеров в обучающей выборке конечно, то ё > 0. Из теории чисел известна теорема о том, что любое действительное число можно сколь угодно точно приблизить рациональ- ными числами. Заменим веса Wi на рациональные числа так, чтобы вы- полнялись следующие неравенства: Wi — w\ | < ё. Из этих неравенств следует, что при использовании весов ш' персеп- трон будет работать с теми же результатами, что и первоначальный пер- септрон. Действительно, если правильным ответом примера является 0, имеем WiXi — s. Подставив новые веса, получим: w'iXi = - wi)Xi + У2 WiXi < У2 Н ~ wi\xi ~ s < г г i г 52 — ~ s < (m + 1)^ s = 0- Откуда следует необходимое неравенство (2) г 175
Нечеткие множества и нейронные сети Аналогично, в случае правильного ответа равного 1, имеем WiXt < s, откуда, подставив новые веса и порог, получим: ^W-rCi = - Wi)Xi + '£w.ixi s - |w' - Wi\Xi it i i s — \wi ~ wil > s — (m + 1)5 = 0. Отсюда следует выполнение неравенства 52 w-Xi > 0. г (3) Неравенства (2) и (3) доказывают возможность замены всех весов и поро- га любого персептрона рациональными числами. Очевидно также, что при умножении всех весов и порога на одно и то же ненулевое число персеп- трон не изменится. Поскольку любое рациональное число можно пред- ставить в виде отношения целого числа к натуральному числу, получим т ф = [52 WiXi г=1 > °] = [52^>* г=1 (4) где ш" — целые числа. Обозначим через г произведение всех знаменате- лей: г = П" о ri- Умножим все веса и порог на т. Получим веса целочис- ленные w"' = rw". Из (2), (3) и (4) получаем т тп т ц т ф = [52 WiXi > °] = [52 w'iXi > °] = [52 >~Хг > °] = [52 v^'Xi > °] * i=l г=1 i=l Тг i=l что и завершает доказательство теоремы. Поскольку из доказанной теоремы следует, что веса персептрона яв- ляются целыми числами, то вопрос о выборе шага при применении пра- вил обучения решается просто: веса и порог следует увеличивать (умень- шать) на единицу. Двуслойность персептрона Как уже упоминалось в начале лекции, алгоритм обучения персептро- на возможно использовать и для многослойных персептронов. Однако те- оремы о сходимости и зацикливании персептрона, приведенные выше, верны только при обучении однослойного персептрона — или многослой- ного персептрона при условии, что обучаются только веса персептрона, стоящего в последнем слое сети. В случае произвольного многослойного 176
\ ЛекцИя 17 Персептроны. Обучение персептрона ь персептрона они не работают. Следующий пример демонстрирует основ- ную проблему, возникающую при обучении многослойных персептронов. Пусть веса всех слоев персептрона в ходе обучения сформировались так, что все примеры обучающего множества, кроме первого, решаются правильно. При этом правильным ответом первого примера является 1. Все входные сигналы персептрона последнего слоя равны нулю. В этом случае первое правило нс дает результата, поскольку все нейроны пред- последнего слоя не активны. Существует множество способов решать эту проблему. Однако все эти методы не являются регулярными и не гаранти- руют сходимость многослойного персептрона к решению, даже при усло- вии, что такое решение существует. В действительности, проблема настройки (обучения) многослойно- го персептрона решается следующей теоремой. Теорема о двуслойности персептрона. Любой многослойный персеп- трон может быть представлен в виде двуслойного персептрона с необуча- емыми весами первого слоя. Для доказательства этой теоремы потребуется одна теорема из мате- матической логики. Теорема о дизъюнктивной нормальной форме. Любая булева функция булевых аргументов может быть представлена в виде дизъюнкции конъ- юнкций элементарных высказываний и отрицаний элементарных выска- зываний: f = V(& Xi & Напомним некоторые свойства дизъюнктивной нормальной формы. Свойство 1. В каждый конъюнктивный член (слагаемое) входят все элементарные высказывания либо в виде самого высказывания, либо в виде его отрицания. Свойство 2. При любых значениях элементарных высказываний в дизъюнктивной нормальной форме может быть истинным не более од- ного конъюнктивного члена (слагаемого). Доказательство теоремы о двуслойности персептрона. Из теоремы о дизъюнктивной нормальной форме следует, что любой многослойный персептрон может быть представлен в следующем виде: V' = | V (& Xi >37^)]. (5) В силу второго свойства дизъюнктивной нормальной формы, равенство (5) можно переписать в виде ф = [V(& х, & = ^y^[(fc Xi & -«j)] > oj . (6) 177
Нечеткие множества и нейронные сети Переведем в арифметическую форму все слагаемые в выражении (6). Конъюнкцию заменяем на умножение, а отрицание на разность: ->Xj = = 1 — Xj. Произведя эту замену и приведя подобные члены, получим: ф = ог ГТ>0 _ I iEli (7) где Ii — множество индексов сомножителей в Z-м слагаемом, сц — число, указывающее, сколько раз такое слагаемое встретилось в выражении (6) после замены и раскрытия скобок (число подобных слагаемых). Заменим г-е слагаемое в формуле (7) персептроном следующего вида: — Пxi = leii (8) JGIl Подставив выражение (8) в формулу (7), получим равенство (1), то есть произвольный многослойный персептрон представлен в виде (1) с це- лочисленными коэффициентами. В качестве персептронов первого слоя используются персептроны ввда (8) с необучаемыми весами. Теорема до- казана. Подводя итоги данной лекции, следует отметить следующие основ- ные свойства персептронов: 1. Любой персептрон может содержать один или два слоя. В случае двухслойного персептрона веса первого слоя не обучаются. 2. Веса любого персептрона можно заменить на целочисленные. 3. При обучении после конечного числа итераций возможны два ис- хода: персептрон обучится или вектор весов персептрона будет повторять- ся (персептрон зациклится). Знание этих свойств позволяет избежать «усовершенствований» ти- па модификации скорости обучения и других, столь же «эффективных» модернизаций. Трудности с алгоритмом обучения персептрона Иногда бывает сложно определить, выполнено ли условие раздели- мости для конкретного обучающего множества. Кроме того, во многих встречающихся на практике ситуациях входы часто меняются во времени и могут быть разделимы в один момент времени и неразделимы — в дру- гой. В доказательстве алгоритма обучения персептрона ничего не говорит- ся также о том, сколько шагов требуется для обучения сети. Мало уте- шительного знать, что обучение закончится за конечное число шагов, ес- ли необходимое для этого время сравнимо с геологической эпохой. Кро- ме того, не доказано, что персептронный алгоритм обучения более быстр 178
Лекция 17 Персептроны. Обучение персептрона по сравнению с простым перебором всех возможных значений весов, и в некоторых случаях этот примитивный подход может оказаться лучше. На эти вопросы никогда не находилось удовлетворительного отве- та, они относятся к природе обучающего материала. В различной форме они возникнут на последующих лекциях, где рассматриваются другие се- тевые парадигмы. Ответы для современных сетей, как правило, не более удовлетворительны, чем для персептрона. Эти проблемы являются важ- ной областью современных исследований. 179
Нечеткие множества и нейронные сети Лекция 18. Процедура обратного распространения (описание алгоритма) В лекции рассматривается архитектура многослойного обобщенного персептрона, описывается процедура обратного распространения - алгоритм обучения многослойного персептрона с учителем. Ключевые слова: процедура обратного распространения, алгоритм обратного распространения, сеть обратного распространения. Введение в процедуру обратного распространения Среди различных структур нейронных сетей (НС) одной из наибо- лее известных является многослойная структура, в которой каждый ней- рон произвольного слоя связан со всеми аксонами нейронов предыду- щего слоя или, в случае первого слоя, со всеми входами НС. Такие НС называются полносвязными. Когда в сети только один слой, алгоритм ее обучения с учителем довольно очевиден, так как правильные выходные состояния нейронов единственного слоя заведомо известны и подстрой- ка синаптических связей идет в направлении, минимизирующем ошибку на выходе сети. По этому принципу строится, например, алгоритм обуче- ния однослойного персептрона. В многослойных же сетях оптимальные выходные значения нейронов всех слоев, кроме последнего, как прави- ло, не известны, и двух- или более слойный персептрон уже невозможно обучить, руководствуясь только величинами ошибок на выходах НС. Один из вариантов решения этой проблемы — разработка наборов выходных сигналов, соответствующих входным, для каждого слоя НС, что, конечно, является очень трудоемкой операцией и не всегда осуще- ствимо. Второй вариант — динамическая подстройка весовых коэффи- циентов синапсов, в ходе которой выбираются, как правило, наиболее слабые связи и изменяются на малую величину в ту или иную сторону, а сохраняются только те изменения, которые повлекли уменьшение ошиб- ки на выходе всей сети. Очевидно, что данный «метод тыка», несмот- ря на свою кажущуюся простоту, требует громоздких рутинных вычисле- ний. И, наконец, третий, более приемлемый вариант — распространение сигналов ошибки от выходов НС к ее входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Этот ал- горитм обучения НС получил название процедуры обратного распростра- нения. Разработка алгоритма обратного распространения сыграла важную 180
Лекция 18 Процедура обратного распространения (описание алгоритма) роль в возрождении интереса к искусственным нейронным сетям. Обрат- ное распространение — это систематический метод для обучения мно- гослойных искусственных нейронных сетей. Он имеет солидное матема- тическое обоснование. Несмотря на некоторые ограничения, процедура обратного распространения сильно расширила область проблем, в которых могут быть использованы искусственные нейронные сети, и убедительно продемонстрировала богатые возможности этой методики. Обучающий алгоритм обратного распространения Сетевые конфигурации: Нейрон. На рис. 18.1 показан нейрон, используемый в качестве основного строительного блока в сетях обратного распространения. По- дается множество входов, идущих либо извне, либо от предшествующего слоя. Каждый из них умножается на вес, и произведения суммируются: NET = oiw-t + 02W2 + - • • + onwn. Рис. 18.1 Эта сумма, обозначаемая NET, должна быть вычислена для каждо- го нейрона сети. После того, как величина NET вычислена, она модифи- цируется с помощью активационной функции, и получается сигнал OUT. Для алгоритмов обратного распространения обычно используется функция OUT = J + e~NET ‘ (1) Как показывает уравнение (1), эта функция, называемая сигмоидом, весь- ма удобна, так как имеет простую производную, что используется при ре- ализации алгоритма обратного распространения: dOUT 8NET = OUT(1 - OUT). (2) 181
Нечеткие множества и нейронные сети Сигмоид, который иногда называется также логистической или сжимаю- щей функцией, сужает диапазон изменения NET так, что значение OUT лежит между нулем и единицей. Как указывалось выше, многослойные нейронные сети обладают большей представляющей мощностью, чем однослойные, лишь в случае присутствия нелинейности. Сжимающая функция обеспечивает требуемую нелинейность. В действительности имеется множество функций, которые могли бы быть использованы. Для алгоритма обратного распространения требуется только, чтобы функция была всюду дифференцируема. Сигмоид удовле- творяет этому требованию. Его дополнительное преимущество состоит в автоматическом контроле усиления. Для слабых сигналов (величина NET близка к нулю) кривая вход-выход имеет сильный наклон, дающий боль- шое усиление. Когда величина сигнала становится больше, усиление па- дает. Таким образом, большие сигналы воспринимаются сетью без насы- щения, а слабые сигналы проходят по сети без чрезмерного ослабления. Многослойная сеть. Рассмотрим иерархическую сетевую структуру, в ко- торой связанные между собой нейроны объединены в несколько слоев (см. рис. 18.2). На возможность построения таких архитектур указал еще Ф.Розенблатт, однако им не была решена проблема обучения. Межней- ронные синаптические связи сети устроены таким образом, что каждый нейрон на данном уровне иерархии принимает и обрабатывает сигналы от каждого нейрона более низкого уровня. Таким образом, в данной сети имеется выделенное направление распространения нейроимпульсов — от входного слоя через один (или несколько) скрытых слоев к выходному слою нейронов. Нейросеть такой топологии мы будем называть обобщен- ным многослойным персептроном или, если это не будет вызывать недора- зумений, просто персептроном. Персептрон представляет собой сеть, состоящую из нескольких по- следовательно соединенных слоев нейронов. На низшем уровне иерар- хии находится входной слой сенсорных элементов, задачей которого яв- ляется только прием и распространение по сети входной информации. Далее имеются один или, реже, несколько скрытых слоев. Каждый ней- рон на скрытом слое имеет несколько входов, соединенных с выходами нейронов предыдущего слоя или непосредственно со входными сенсо- рами хг,..., хп, и один выход. Выходы нейронов последнего, выходного, слоя описывают результат классификации Y = У(Х). Особенности ра- боты персептрона состоят в следующем. Каждый нейрон суммирует по- ступающие к нему сигналы от нейронов предыдущего уровня иерархии с весами, определяемыми состояниями синапсов, и формирует ответный сигнал (переходит в возбужденное состояние), если полученная сумма выше порогового значения. Персептрон переводит входной образ, опре- деляющий степени возбуждения нейронов самого нижнего уровня иерар- 182
Лекция 18 Процедура обратного распространения (описание алгоритма) Рис. 18.2 хии, в выходной образ, определяемый нейронами самого верхнего уров- ня. Число последних обычно сравнительно невелико. Состояние возбу- ждения нейрона на верхнем уровне говорит о принадлежности входного образа к той или иной категории. Традиционно рассматривается аналоговая логика, при которой до- пустимые состояния синаптических связей определяются произвольны- ми действительными числами, а степени активности нейронов — дей- ствительными числами между 0 и 1. Иногда исследуются также моде- ли с дискретной арифметикой, в которой синапс характеризуется дву- мя булевыми переменными: активностью (0 или 1) и полярностью (—1 или +1). Состояния нейронов могут при этом описываться одной буле- вой переменной. Данный дискретный подход делает конфигурационное пространство состояний нейронной сети конечным (не говоря уже о пре- имуществах при аппаратной реализации). Мы рассмотрим классический вариант многослойной сети с анало- говыми синапсами и сигмоидальной передаточной функцией нейронов, определяемой формулой (1). В литературе нет единого мнения относительно того, что именно считать числом слоев в таких сетях. Одни авторы используют число слоев нейронов (включая несуммирующий входной слой), другие — число сло- ев весов. Так как последнее определение — функционально описатель- ное, то оно будет использовано и нами. Согласно этому определению, сеть на рис. 18.2 рассматривается как двухслойная. Нейрон объединен с множеством весов, присоединенных к его входу. Таким образом, веса 183
Нечеткие множества и нейронные сети первого слоя оканчиваются на нейронах первого слоя. Вход распредели- тельного слоя считается нулевым слоем. Процедура обратного распространения применима к сетям с любым числом слоев. Однако для того, чтобы продемонстрировать алгоритм, до- статочно двух слоев. Сейчас будут рассматриваться лишь сети прямого действия, хотя обратное распространение применимо и к сетям с обрат- ными связями. Эти случаи будут рассмотрены в данной главе позднее. Обзор обучения. Целью обучения сети является такая подстройка ее весов, чтобы приложение некоторого множества входов приводило к тре- буемому множеству выходов. Для краткости эти множества входов и вы- ходов будут называться векторами. При обучении предполагается, что для каждого входного вектора существует парный ему целевой вектор, за- дающий требуемый выход. Вместе они называются обучающей парой. Как правило, сеть обучается на многих парах. Например, входная часть обу- чающей пары может состоять из набора нулей и единиц, представляю- щего двоичный образ некоторой буквы алфавита. На рис. 18.3 показано множество входов для буквы «А», нанесенной на сетке. Если через квад- рат проходит линия, то соответствующий нейронный вход равен едини- це, в противном случае он равен нулю. Выход может быть числом, пред- ставляющим букву «А», или другим набором из нулей и единиц, который может быть использован для получения выходного образа. При необхо- димости распознавать с помощью сети все буквы латинского алфавита, потребовалось бы 26 обучающих пар. Такая группа обучающих пар назы- вается обучающим множеством. Перед началом обучения всем весам должны быть присвоены неболь- шие начальные значения, выбранные случайным образом. Это гаранти- рует, что в сети не произойдет насыщения большими значениями весов, и предотвращает ряд других некорректных случаев. Например, если всем весам придать одинаковые начальные значения, а для требуемого функ- ционирования нужны неравные значения, то сеть не сможет обучиться. Обучение сети обратного распространения требует выполнения сле- дующих операций: 1. Выбрать очередную обучающую пару из обучающего множества; подать входной вектор на вход сети. 2. Вычислить выход сети. 3. Вычислить разность между выходом сети и требуемым выходом (целевым вектором обучающей пары). 4. Подкорректировать веса сети так, чтобы минимизировать ошибку. 5. Повторять шаги с 1 по 4 для каждого вектора обучающего множе- ства до тех пор, пока ошибка на всем множестве не достигнет приемле- мого уровня. 184
Лекция 18 Процедура обратного распространения (описание алгоритма) Операции, выполняемые ша- гами 1 и 2, сходны с теми, кото- рые выполняются при функцио- нировании уже обученной сети, — подается входной вектор и вычис- ляется получающийся выход. Вы- числения выполняются послойно. На рис. 18.2 сначала вычисляют- ся выходы нейронов слоя j, затем они используются в качестве вхо- дов слоя к, после чего вычисляют- ся выходы нейронов слоя к, кото- рые и образуют выходной вектор сети. На шаге 3 каждый из выхо- дов сети, которые на рис. 18.2 обо- значены OUT, вычитается из со- 0 Рис. 18.3 отвстствующей компоненты целе- вого вектора, чтобы получить значение ошибки. Эта ошибка использует- ся на шаге 4 для коррекции весов сети, причем знак и величина измене- ний весов определяются алгоритмом обучения (см. ниже). После достаточного числа повторений этих четырех шагов разность между действительными и целевыми выходами должна уменьшиться до приемлемой величины: при этом говорят, что сеть обучилась. Теперь сеть используется для распознавания, и веса не изменяются. На шаги 1 и 2 можно смотреть как на «проход вперед», так как сиг- нал распространяется по сети от входа к выходу. Шаги 3, 4 составляют «обратный проход», здесь вычисляемый сигнал ошибки распространяет- ся обратно по сети и используется для подстройки весов. Эти два прохо- да теперь будут детализированы и записаны как математические выраже- ния. Проход вперед. Шаги 1 и 2 могут быть выражены в векторной форме следующим образом: подастся входной вектор X и на выходе получается вектор Y. Векторная пара вход—цель X и Т берется из обучающего мно- жества. Вычисления проводятся над вектором X, чтобы получить выход- ной вектор Y. Как мы видели, вычисления в многослойных сетях выполняются слой за слоем, начиная с ближайшего к входу. Величина NET каждого нейрона первого слоя вычисляется как взвешенная сумма входов нейро- на. Затем активационная функция F «сжимает» NET и дает величину OUT для каждого нейрона в этом слое. Когда множество выходов слоя 185
Нечеткие множества и нейронные сети получено, оно является входным множеством для следующего слоя. Про- цесс повторяется слой за слоем, пока не будет получено заключительное множество выходов сети. Этот процесс может быть выражен в сжатой форме с помощью век- торной нотации. Веса между нейронами будем рассматривать как матри- цу W. Например, вес от нейрона 8 в слое 2 к нейрону 5 слоя 3 обозна- чается w8i5. Тогда NET-вектор слоя N может быть выражен не как сум- ма произведений, а как произведение X и W. В векторном обозначении N = XW. Покомпонентным применением функции F к УУКТ-вектору N получаем выходной вектор . Таким образом, для данного слоя вычис- лительный процесс описывается следующим выражением: О = F(XW). (3) Выходной вектор одного слоя является входным вектором для следую- щего, поэтому вычисление выходов последнего слоя требует применения уравнения (3) к каждому слою от входа сети к ее выходу. Обратный проход. Подстройка весов выходного слоя. Так как для каж- дого нейрона выходного слоя задано целевое значение, то подстройка ве- сов легко осуществляется с использованием дельта-правила. Внутренние слои называют «скрытыми слоями», для их выходов не имеется целевых значений для сравнения, поэтому обучение усложняется. Рассмотрим процесс обучения для одного веса от нейрона р в скры- том слое j к нейрону q в выходном слое к. Выход нейрона слоя к, вычита- емый из целевого значения (Target), даст сигнал ошибки. Он умножается на производную сжимающей функции [OUT(1 — OUT)], вычисленную для этого нейрона слоя к, давая, таким образом, величину 5. б = OUT(1 - OUT)(Target - OUT). (3.4) Затем 5 умножается на величину OUT нейрона j, из которого выхо- дит рассматриваемый вес. Это произведение, в свою очередь, умножается на коэффициент скорости обучения?? (обычно от 0,01 до 1,0), и результат прибавляется к весу. Такая же процедура выполняется для каждого веса от нейрона скрытого слоя к нейрону в выходном слое. Следующие уравнения иллюстрируют это вычисление: AWpg,k ~ pdq.kOUTpj , (5) Wpq,k(n + 1) = w)pq, к(п) + (6) где Wpqjc (n) — величина веса от нейрона р в скрытом слое к к нейрону q в выходном слое на шаге п (до коррекции); отметим, что индекс к относит- ся к слою, в котором заканчивается данный вес (т. е. к слою, с которым он 186
Лекция 18 Процедура обратного распространения (описание алгоритма) объединен); wp<lik (n+1) — величина веса на шаге п+1 (после коррекции); ёд^ — величина ё для нейрона q, в выходном слое к; OUTpj — величина OUT для нейрона р в скрытом слое j. Подстройка весов скрытого слоя. Рассмотрим один нейрон в скры- том слое, предшествующем выходному слою. При проходе вперед этот нейрон передает свой выходной сигнал нейронам в выходном слое че- рез соединяющие их веса. Во время обучения эти веса функционируют в обратном порядке, пропуская величину ё от выходного слоя назад к скрытому слою. Каждый из этих весов умножается на величину ё ней- рона, к которому он присоединен в выходном слое. Величина ё, необхо- димая для нейрона скрытого слоя, получается суммированием всех таких произведений и умножением на производную сжимающей функции (см. рис. 18.4): ёд,к = OUTpJ(1 - OUTPij) (7) . Q Когда значение ё получено, веса, питающие первый скрытый уровень, могут быть подкорректированы с помощью уравнений (5) и (6), где ин- дексы модифицируются в соответствии со слоем. Рис. 18.4 Для каждого нейрона в данном скрытом слое должно быть вычисле- но ё и подстроены все веса, ассоциированные с этим слоем. Этот процесс повторяется слой за слоем по направлению к входу, пока все веса не будут подкорректированы. 187
Нечеткие множества и нейронные сети С помощью векторных обозначений операция обратного распро- странения ошибки может быть записана значительно компактнее. Обо- значим множество величин 6 выходного слоя через Dk и множество ве- сов выходного слоя как массив Wk. Чтобы получить Dg, й-всктор выход- ного слоя, достаточно следующих двух операций: 1. Умножить о-вектор выходного слоя Dk на транспонированную матрицу весов Wk, соединяю- щую скрытый уровень с выходным уровнем. 2. Умножить каждую компоненту полученного произведения на про- изводную сжимающей функции соответствующего нейрона в скрытом слое. Добавление нейронного смещения. Во многих случаях желательно на- делять каждый нейрон обучаемым смещением. Это позволяет сдвигать начало отсчета логистической функции, давая эффект, аналогичный под- стройке порога персептронного нейрона, и приводит к ускорению про- цесса обучения. Такая возможность может быть легко введена в обучаю- щий алгоритм с помощью добавляемого к каждому нейрону веса, кото- рый присоединен к +1. Этот вес обучается так же, как и все остальные веса, за исключением того, что подаваемый на него сигнал всегда равен +1, а не выходу нейрона предыдущего слоя. Импульс. Существует метод ускорения обучения для алгоритма обрат- ного распространения, увеличивающий также устойчивость процесса. Этот метод, названный импульсом, заключается в добавлении к коррекции веса члена, пропорционального величине предыдущего изменения веса. Как только происходит коррекция, она «запоминается» и служит для мо- дификации всех последующих коррекций. Уравнения коррекции моди- фицируются следующим образом: + 1) — 7]6q,kOUTp,j -|- О A , wPq,k(n + 1) = wPQ1fc(n) + Awpg,fc(»i + 1), где а — коэффициент импульса, который обычно устанавливается око- ло 0,9. Используя метод импульса, сеть стремится идти по дну «узких овра- гов» поверхности ошибки (если таковые имеются), а не двигаться «от склона к склону». Этот метод, по-видимому, хорошо работает на некото- рых задачах, но дает слабый или даже отрицательный эффект на других. Существует сходный метод, основанный на экспоненциальном сгла- живании, который может иметь преимущество в ряде приложений. -|- 1) — Tp j Ч- oZkpQ /c(?z). Затем вычисляется изменение веса Wpq,k(n + 1) = Wpg,fc(n) + TjkWpqjSn + 1), 188
Лекция 18 Процедура обратного распространения (описание алгоритма) где а — коэффициент сглаживания, варьируемый в диапазоне от 0,0 до 1,0. Если а равен 1,0, то новая коррекция игнорируется и повторяется предыдущая. В области между 0 и 1 коррекция веса сглаживается вели- чиной, пропорциональной а. По-прежнему, т) является коэффициентом скорости обучения, служащим для управления средней величиной изме- нения веса. Дальнейшие алгоритмические разработки Многими исследователями были предложены методы улучшения и обобщения описанного выше основного алгоритма обратного распростра- нения. Литература в этой области слишком обширна, чтобы ее можно бы- ло здесь охватить. Кроме того, сейчас еще слишком рано давать окон- чательные оценки. Некоторые из этих подходов могут оказаться действи- тельно фундаментальными, другие же со временем исчезнут. Перечислим некоторые из наиболее многообещающих разработок. Метод ускорения сходимости алгоритма обратного распространения. Названный обратным распространением второго порядка, он использует вторые производные для более точной оценки требуемой коррекции ве- сов. Показано, что этот алгоритм оптимален в том смысле, что невозмож- но улучшить оценку, даже используя производные более высокого поряд- ка. Метод требует дополнительных вычислений по сравнению с обрат- ным распространением первого порядка, и необходимы дальнейшие экс- перименты для доказательства оправданности этих затрат. Метод улучшения характеристик обучения сетей обратного распро- странения. Указывается, что общепринятый от 0 до 1 динамический диа- пазон входов и выходов скрытых нейронов неоптимален. Так как величи- на коррекции веса AwPQifc пропорциональна выходному уровню нейрона, порождающего OUTpj, то нулевой уровень ведет к тому, что вес не меня- ется. При двоичных входных векторах половина входов в среднем будет равна нулю, и веса, с которыми они связаны, нс будут обучаться! Реше- ние состоит в приведении входов к значениям ±1/2 и добавлении смеще- ния к сжимающей функции, чтобы она также принимала значения ±1/2. Новая сжимающая функция выглядит следующим образом: 1 = —1/2+ । e-NET' С помощью таких простых средств время сходимости сокращается в сред- нем от 30 до 50%. Это один из примеров практической модификации, су- щественно улучшающей характеристику алгоритма. Методика обратного распространения применима и к сетям с обрат- ными связями, т. е. к таким сетям, у которых выходы подаются через 189
Нечеткие множества и нейронные сети обратную связь на входы. Как показано, обучение в подобных системах может быть очень быстрым и критерии устойчивости легко удовлетворя- ются. Применение Обратное распространение было применено в широкой сфере при- кладных исследований. Некоторые из них описываются здесь, чтобы продемонстрировать богатые возможности этого метода. Фирма NEC в Японии объявила недавно, что обратное распростра- нение было ею использовано для визуального распознавания букв, при- чем точность превысила 99%. Это улучшение было достигнуто с помо- щью комбинации обычных алгоритмов с сетью обратного распростране- ния, обеспечивающей дополнительную проверку. Достигнут впечатляющий успех с Net-Talk системой, которая пре- вращает печатный английский текст в высококачественную речь. Маг- нитофонная запись процесса обучения сильно напоминает звуки голоса ребенка на разных этапах обучения речи. Обратное распространение также использовалось в машинном рас- познавании рукописных английских слов. Буквы, нормализованные по размеру, наносились на сетку, и брались проекции линий, пересекающих квадраты сетки. Эти проекции служили затем входами для сети обратного распространения. Сообщалось о точности 99,7% при использовании сло- варного фильтра. Обратное распространение успешно применяется при сжатии изоб- ражений, когда образы представляются одним битом на пиксель, что яви- лось восьмикратным улучшением по сравнению с входными данными. 190
Лекция 19 _______Процедура обратного распространения (анализ алгоритма) Лекция 19. Процедура обратного распространения (анализ алгоритма) В лекции анализируются слабые места алгоритма обратного распро- странения и предлагаются методы решения некоторых связанных с этим проблем. Ключевые слова: алгоритм обратного распространения, переобу- чение, паралич, локальные минимумы, размер шага, временная неустойчивость. Переобучение и обобщение Одна из наиболее серьезных трудностей алгоритма обратного распре- деления заключается в том, что таким образом мы минимизируем не ту ошибку, которую на самом деле нужно минимизировать, — ошибку, кото- рую можно ожидать от сети, когда ей будут подаваться совершенно новые наблюдения. Иначе говоря, мы хотели бы, чтобы нейронная сеть облада- ла способностью обобщать результат на новые наблюдения. В действи- тельности, сеть обучается минимизировать ошибку на обучающем мно- жестве, и в отсутствие идеального и бесконечно большого обучающего множества это совсем не то же самое, что минимизировать «настоящую» ошибку на поверхности ошибок в заранее неизвестной модели явления. Сильнее всего это различие проявляется в проблеме переобучения, или слишком близкой подгонки. Это явление проще будет продемонстри- ровать не для нейронной сети, а на примере аппроксимации посредством полиномов, — при этом суть явления абсолютно та же. Полином (или многочлен) — это выражение, содержащее только константы и целые степени независимой переменной. Графики полино- мов могут иметь различную форму, причем чем выше степень многочлена (и, тем самым, чем больше членов в него входит), тем более сложной мо- жет быть эта форма. Если у нас есть некоторые данные, мы можем попро- бовать подогнать к ним полиномиальную кривую (модель) и получить, таким образом, объяснение для имеющейся зависимости. Наши данные могут быть зашумлены, поэтому нельзя считать, что самая лучшая мо- дель задается кривой, которая в точности проходит через все имеющи- еся точки. Полином низкого порядка может быть недостаточно гибким средством для аппроксимации данных, в то время как полином высокого порядка может оказаться чересчур гибким и будет точно следовать дан- ным, принимая при этом форму замысловатую и не имеющую никакого отношения к реальной зависимости. 191
Нечеткие множества и нейронные сети У нейронной сети проблема точно такая же. Сети с большим чис- лом весов моделируют более сложные функции и, следовательно, склон- ны к переобучению. Сеть же с небольшим числом весов может оказаться недостаточно гибкой для того, чтобы смоделировать имеющуюся зави- симость. Например, сеть без промежуточных слоев моделирует обычную линейную функцию. Как же выбрать «правильную» степень сложности для сети? Почти всегда более сложная сеть дает меньшую ошибку, но это может свидетель- ствовать не о хорошем качестве модели, а о переобучении. Выход состоит в том, чтобы использовать механизм контрольной кросс-проверки. Мы ре- зервируем часть обучающих наблюдений и не используем их в обучении по алгоритму обратного распространения. Вместо этого, по мере работы ал- горитма, они используются для независимого контроля результата. В са- мом начале работы ошибка сети на обучающем и контрольном множестве будет одинаковой (если они существенно отличаются, то, вероятно, раз- биение всех наблюдений на два множества было неоднородно). По мере того как сеть обучается, ошибка обучения, естественно, убывает, и, пока обучение уменьшает действительную функцию ошибок, ошибка на кон- трольном множестве также будет убывать. Если же контрольная ошиб- ка перестала убывать или даже стала расти, значит, сеть начала слишком близко аппроксимировать данные и обучение следует остановить. Это яв- ление чересчур точной аппроксимации в процессе обучения и называет- ся переобучением. Если такое случилось, то обычно советуют уменьшить число скрытых элементов и/или слоев, ибо сеть является слишком мощ- ной для данной задачи. Если же сеть, наоборот, была взята недостаточно богатой для того, чтобы моделировать имеющуюся зависимость, то пере- обучения, скорее всего, не произойдет и обе ошибки — обучения и про- верки — не достигнут достаточного уровня малости. Описанные проблемы с локальными минимумами и выбором разме- ра сети приводят к тому, что при практической работе с нейронными се- тями, как правило, приходится экспериментировать с большим числом различных сетей, порой обучая каждую из них несколько раз (чтобы не быть введенным в заблуждение локальными минимумами) и сравнивая по- лученные результаты. Главным показателем качества результата являет- ся здесь контрольная ошибка. В соответствии с общенаучным принци- пом, согласно которому при прочих равных следует предпочесть более простую модель, имеет смысл из двух сетей с приблизительно равными ошибками контроля выбрать ту, которая меньше. Необходимость многократных экспериментов ведет к тому, что кон- трольное множество начинает играть ключевую роль в выборе модели, то есть становится частью процесса обучения. Тем самым ослабляется его 192
Лекция 19 Процедура обратного распространения (анализ алгоритма) роль как независимого критерия качества модели — при большом числе экспериментов есть риск выбрать «удачную» сеть, дающую хороший ре- зультат на контрольном множестве. Для того чтобы придать окончатель- ной модели должную надежность, часто (по крайней мерс, когда объем обучающих данных это позволяет) поступают так: резервируют еще одно, тестовое множество наблюдений. Итоговая модель тестируется на дан- ных из этого множества, чтобы убедиться, что результаты, достигнутые на обучающем и контрольном множествах, реальны, а не являются арте- фактами процесса обучения. Разумеется, для того чтобы соответствовать своей роли, тестовое множество должно быть использовано только один раз: если его использовать повторно для корректировки процесса обуче- ния, то оно фактически превратится в контрольное множество. Отбор данных На всех предыдущих этапах мы постоянно опирались на одно пред- положение, а именно: обучающее, контрольное и тестовое множества должны быть репрезентативными (представительными) с точки зрения существа задачи (более того, эти множества должны быть репрезентатив- ны каждое в отдельности). Известное изречение программистов «garbage in, garbage out» («мусор на входе — мусор на выходе») нигде не справед- ливо в такой степени, как при нейросетевом моделировании. Если обу- чающие данные нс репрезентативны, то модель, как минимум, будет не очень хорошей, а в худшем случае — бесполезной. Имеет смысл перечис- лить ряд причин, которые ухудшают качество обучающего множества. Будущее непохоже на прошлое. Обычно в качестве обучающих берут- ся исторические данные. Если обстоятельства изменились, то закономер- ности, имевшие место в прошлом, могут больше не действовать. Следует учесть все возможности. Нейронная сеть может обучаться только на тех данных, которыми она располагает. Предположим, что лица с годовым доходом более $ 100000 имеют высокий кредитный риск, а обу- чающее множество не содержало лиц с доходом более $40000 в год. Тогда едва ли можно ожидать от сети правильного решения в совершенно но- вой для нее ситуации. Сеть обучается тому, чему проще всего обучиться. Классическим (воз- можно, вымышленным) примером является система машинного зрения, предназначенная для автоматического распознавания танков. Сеть обу- чалась на ста картинках, содержащих изображения танков, и на ста дру- гих картинках, где танков не было. Был достигнут стопроцентно «пра- вильный» результат. Но когда на вход сети были поданы новые данные, она безнадежно провалилась. В чем же была причина? Выяснилось, что фотографии с танками были сделаны в пасмурную, дождливую погоду, а 193
Нечеткие множества и нейронные сети фотографии без танков — в солнечный день. Сеть научилась улавливать (очевидную) разницу в общей освещенности. Чтобы сеть могла результа- тивно работать, ее следовало обучать на данных, где присутствовали бы все погодные условия и типы освещения, при которых сеть будут реально использовать, — и это не говоря еще о рельефе местности, угле и дистан- ции съемки и т.д. Несбалансированный набор данных. Коль скоро сеть минимизирует общую погрешность, важное значение приобретают пропорции, в кото- рых представлены данные различных типов. Сеть, обученная на 900 хоро- ших и 100 плохих примерах, будет искажать результат в пользу хороших наблюдений, поскольку это позволит алгоритму уменьшить общую по- грешность (которая определяется в основном хорошими случаями). Если в реальной популяции хорошие и плохие объекты представлены в другой пропорции, то результаты, выдаваемые сетью, могут оказаться неверны- ми. Хорошим примером служит задача выявления заболеваний. Пусть, например, при обычных обследованиях в среднем 90человек оказывают- ся здоровыми. Сеть обучается на имеющихся данных, в которых про- порция здоровые/больные равна 90/10. Затем она применяется для диа- гностики пациентов с определенным жалобами, среди которых это со- отношение уже 50/50. В этом случае сеть будет ставить диагноз чересчур осторожно и не распознает заболевание у некоторых больных. Если же, наоборот, сеть обучить на данных «с жалобами», а затем протестировать на «обычных» данных, то она будет выдавать повышенное число непра- вильных диагнозов о наличии заболевания. В таких ситуациях обучаю- щие данные нужно скорректировать так, чтобы были учтены различия в распределении (например, можно повторять редкие наблюдения или удалить часто встречающиеся), или же видоизменить решения, выдава- емые сетью, посредством матрицы потерь. Как правило, лучше всего по- стараться равномерно представить наблюдения различных типов и соот- ветственно этому интерпретировать результаты, которые выдает сеть. Как обучается многослойный персептрон Мы сможем лучше понять, как устроен и как обучается многослой- ный персептрон, если выясним, какие функции он способен моделиро- вать. Вспомним, что уровнем активации элемента называется взвешен- ная сумма его входов с добавленным к ней пороговым значением. Та- ким образом, уровень активации представляет собой простую линейную функцию входов. Эта активация затем преобразуется с помощью сигмо- идной (имеющей S- образную форму) кривой. Комбинация линейной функции нескольких переменных и скаляр- ной сигмовидной функции приводит к характерному профилю «сигмо- 194
Лекция 19 Процедура обратного распространения (анализ алгоритма) видного склона», который выдает элемент первого промежуточного слоя. На рис. 19.1 соответствующая поверхность изображена в виде функции двух входных переменных. Элемент с большим числом входов выдает многомерный аналог такой поверхности. При изменении весов и порогов меняется и поверхность отклика; может меняться как ориентация всей поверхности, так и крутизна склона — большим значениям весов соот- ветствует более крутой склон. Так, например, если увеличить все веса в два раза, то ориентация не изменится, а наклон будет более крутым. В многослойной сети подобные функции отклика комбинируются друг с другом с помощью последовательного взятия их линейных комбинаций и применения нелинейных функций активации. На рис. 19.2 изображена типичная поверхность отклика для сети с одним промежуточным слоем, состоящим из двух элементов, и одним выходным элементом, для клас- сической задачи «исключающего или». Две разных сигмоидных поверх- ности объединены в одну поверхность, имеющую форму буквы «U». Рис. 19.2 Рис. 19.1 Перед началом обучения сети весам и порогам случайным образом присваиваются небольшие по величине начальные значения. Тем самым, отклики отдельных элементов сети имеют малый наклон и ориентирова- ны хаотично — фактически они не связаны друг с другом. По мере того, как происходит обучение, поверхности отклика элементов сети враща- ются и сдвигаются в нужное положение, а значения весов увеличиваются, поскольку они должны моделировать отдельные участки целевой поверх- ности отклика. В задачах классификации выходной элемент должен выдавать силь- ный сигнал в случае, если данное наблюдение принадлежит к интере- сующему нас классу, и слабый — в противоположном случае. Иначе го- воря, этот элемент должен стремиться смоделировать функцию, равную единице в области пространства объектов, где располагаются объекты из 195
Нечеткие множества и нейронные сети нужного класса, и равную нулю вне этой области. Такая конструкция из- вестна как дискриминантная функция в задачах распознавания. «Идеаль- ная» дискриминантная функция должна иметь плоскую структуру: точ- ки соответствующей поверхности будут располагаться либо на нулевом уровне, либо на высоте «единица». Если сеть не содержит скрытых элементов, то на выходе она может моделировать только одинарный «сигмовидный склон»: точки, находя- щиеся по одну его сторону, располагаются низко, по другую — высоко. При этом всегда будет существовать область между ними (на склоне), где высота принимает промежуточные значения, но по мере увеличения ве- сов эта область будет сужаться. Такой сигмовидный склон фактически работает как линейная дис- криминантная функция. Точки, лежащие по одну сторону склона, клас- сифицируются как принадлежащие нужному классу, а лежащие по дру- гую сторону — как не принадлежащие. Следовательно, сеть без скрытых слоев может служить классификатором только в линейно-отделимых за- дачах: когда можно провести линию (или, в случае более высоких размер- ностей, гиперплоскость), разделяющую точки в пространстве признаков. Сеть, содержащая один промежуточный слой, строит несколько сигмоидных склонов, — по одному для каждого скрытого элемента, — и затем выходной элемент комбинирует из них «возвышенность». Эта возвышенность получается выпуклой, т.е. не содержащей впадин. При этом в некоторых направлениях она может уходить на бесконечность (как длинный полуостров). Подобная сеть может моделировать большинство реальных задач классификации. Сеть с двумя промежуточными слоями строит комбинацию из нес- кольких таких возвышенностей. Их будет столько, сколько элементов во втором слое, и у каждой из них будет столько сторон, сколько элемен- тов было в первом скрытом слое. После несложного размышления делаем вывод, что, используя достаточное число таких возвышенностей, можно воспроизвести поверхность любой формы — в том числе с впадинами и вогнутостями. Как следствие наших рассмотрений мы получаем, что, теоретиче- ски, для моделирования любой задачи достаточно многослойного пер- септрона с двумя промежуточными слоями (в точной формулировке этот результат известен как теорема Колмогорова). При этом может оказать- ся, что для решения некоторой конкретной задачи будет более простой и удобной сеть с еще большим числом слоев. Однако для решения боль- шинства практических задач достаточно всего одного промежуточного слоя, два слоя применяются как резерв в особых случаях, а сети с тремя слоями практически не применяются. 196
Лекция 19 Процедура обратного распространения (анализ алгоритма) В задачах классификации очень важно понять, как следует интер- претировать те точки, которые попали на склон или лежат близко от него. Стандартный подход заключается в том, чтобы для пороговых зна- чений установить некоторые доверительные пределы (принятия или от- вержения), которые должны быть достигнуты, чтобы данный элемент считался «принявшим решение». Например, если установлены пороги принятия/отвержения 0,95/0.05, то при уровне выходного сигнала выше 0,95 элемент считается активным, при уровне ниже 0,05 — неактивным, а в промежутке — «неопределенным». Имеется и более тонкий (и, веро- ятно, более полезный) способ интерпретировать уровни выходного сиг- нала: считать их вероятностями. В этом случае сеть выдает несколько большую информацию, чем просто «да/нет»: она сообщает нам, насколь- ко (в некотором формальном смысле) мы можем доверять ее решению. При этом, однако, вероятностная интерпретация обоснована только в том случае, если выполняются определенные предположения о распре- делении исходных данных (конкретно, что данные являются выборкой из некоторого распределения, принадлежащего к семейству экспоненци- альных распределений). Здесь, как и ранее, может быть принято решение по классификации, но, кроме того, вероятностная интерпретация позво- ляет ввести концепцию «решения с минимальными затратами». Предостережения Несмотря на многочисленные успешные применения обратного рас- пространения, оно не является панацеей. Больше всего неприятностей доставляет неопределенно долгий процесс обучения. В сложных задачах для обучения сети могут потребоваться дни или даже недели, она может и вообще не обучиться. Длительное время обучения может быть резуль- татом неоптимального выбора длины шага. Неудачи в обучении обычно возникают по двум причинам: паралича сети и попадания в локальный ми- нимум. Паралич сети В процессе обучения сети значения весов могут в результате коррек- ции стать очень большими величинами. Это может привести к тому, что все или большинство нейронов будут функционировать при очень боль- ших значениях OUT, в области, где производная сжимающей функции очень мала. Так как посылаемая обратно в процессе обучения ошибка пропорциональна этой производной, то процесс обучения может практи- чески замереть. Теоретически эта проблема изучена плохо. Обычно пыта- ются уменьшать размера шага т], но это увеличивает время обучения. Раз- 197
Нечеткие множества и нейронные сети личные эвристики использовались для предохранения от паралича или для восстановления после него, но пока что они могут рассматриваться лишь как экспериментальные. Локальные минимумы В прошлой лекции было описано, как с помощью алгоритма обрат- ного распространения осуществляется градиентный спуск по поверхности ошибок. Короче говоря, происходит следующее: в данной точке поверх- ности находится направление скорейшего спуска, затем делается прыжок вниз на расстояние, пропорциональное коэффициенту скорости обуче- ния и крутизне склона, при этом учитывается инерция, те есть стремле- ние сохранить прежнее направление движения. Можно сказать, что ме- тод ведет себя как слепой кенгуру — каждый раз прыгает в направлении, которое кажется ему наилучшим. На самом деле, шаг спуска вычисляется отдельно для всех обучающих наблюдений, взятых в случайном поряд- ке, но в результате получается достаточно хорошая аппроксимация спус- ка по совокупной поверхности ошибок. Существуют и другие алгоритмы обучения, однако все они используют ту или иную стратегию скорейшего продвижения к точке минимума. Обратное распространение использует разновидность градиентно- го спуска, т. е. осуществляет спуск вниз по поверхности ошибки, непре- рывно подстраивая веса в направлении к минимуму. Поверхность ошиб- ки сложной сети сильно изрезана и состоит из холмов, долин, складок и оврагов в пространстве высокой размерности. Сеть может попасть в локальный минимум (неглубокую долину), когда рядом имеется гораздо более глубокий минимум. В точке локального минимума все направления ведут вверх и сеть неспособна из него выбраться. Статистические мето- ды обучения могут помочь избежать этой ловушки, но они медленны. П.Д.Вассерман предложил метод, объединяющий статистические мето- ды машины Коши с градиентным спуском обратного распространения и приводящий к системе, которая находит глобальный минимум, сохраняя высокую скорость обратного распространения. Это будет обсуждаться в следующих лекциях. Размер шага Внимательный разбор доказательства сходимости показывает, что коррекции весов предполагаются бесконечно малыми. Ясно, что это неосуществимо на практике, так как ведет к бесконечному времени обу- чения. Размер шага должен браться конечным, и при определении его приходится полагаться только на опыт. Если размер шага очень мал, то сходимость слишком медленная, если же очень велик, то может воз- никнуть паралич или постоянная неустойчивость. П.Д.Вассерман описал 198
Лекция 19 Процедура обратного распространения (анализ алгоритма) адаптивный алгоритм выбора шага, автоматически корректирующий раз- мер шага в процессе обучения. Временная неустойчивость Если сеть учится распознавать буквы, то нет смысла учить «Б», если при этом забывается «А». Процесс обучения должен быть таким, чтобы сеть обучалась на всем обучающем множестве без пропусков того, что уже выучено. В доказательстве сходимости это условие выполнено, но требу- ется также, чтобы сети предъявлялись все векторы обучающего множе- ства, прежде чем выполняется коррекция весов. Необходимые измене- ния весов должны вычисляться на всем множестве, что требует дополни- тельной памяти; после ряда таких обучающих циклов веса сойдутся к ми- нимальной ошибке. Этот метод может оказаться бесполезным, если сеть находится в постоянно меняющейся внешней среде, так что второй раз один и тот же вектор может уже не повториться. В этом случае процесс обучения может никогда не сойтись, бесцельно блуждая или сильно ос- циллируя. В этом смысле обратное распространение не похоже на биоло- гические системы. Как будет указано на следующих лекциях, это несоот- ветствие (среди прочих) привело к системе ART, принадлежащей Гросс - бергу. 199
Нечеткие множества и нейронные сети Лекция 20. Сети встречного распространения В лекции изложены архитектура, функционирование и методы обуче- ния сетей встречного распространения. В качестве примера использования данной сети рассматриваются методы сжатия данных. Ключевые слова: сеть встречного распространения, слой Кохонена, нейрон Кохонена, слой Гроссберга, нейрон Гроссберга. Введение в сети встречного распространения По своим возможностям сети встречного распространения превосхо- дят возможности однослойных сетей. Время же их обучения, по срав- нению с обратным распространением, может уменьшаться в сто раз. Встречное распространение не настолько общее, как обратное распростра- нение, но оно может давать решение в тех приложениях, где долгая обуча- ющая процедура невозможна. Будет показано, что, помимо преодоления ограничений других сетей, встречное распространение обладает собствен- ными интересными и полезными свойствами. Во встречном распространении объединены два хорошо известных алгоритма: самоорганизующаяся карта Кохонена и звезда Гроссберга. При этом появляются свойства, которых нет ни у одного из них в отдель- ности. Методы, которые, подобно встречному распространению, объединя- ют различные сетевые парадигмы как строительные блоки, могут приве- сти к сетям, более близким по архитектуре к мозгу, чем любые другие од- нородные структуры. Похоже, что в естественном мозге именно каскад- ные соединения модулей различной специализации позволяют выпол- нять требуемые вычисления. Сеть встречного распространения функционирует подобно столу спра- вок, способному к обобщению. В процессе обучения входные векторы ассоциируются с соответствующими выходными векторами; они могут быть двоичными, состоящими из нулей и единиц, или непрерывными. Когда сеть обучена, приложение входного вектора приводит к требуемо- му выходному вектору. Обобщающая способность сети позволяет полу- чать правильный выход даже при приложении входного вектора, который является неполным или слегка неверным. Таким образом, возможно ис- пользовать данную сеть для распознавания образов, восстановления об- разов и усиления сигналов. 200
Лекция 20 Сети встречного распространения Структура сети На рис. 20.1 показана упрощенная версия прямого действия се- ти встречного распространения. Здесь иллюстрируются функциональные свойства этой парадигмы. Полная двунаправленная сеть основана на тех же принципах, она обсуждается в этой лекции позднее. Рис. 20.1 Нейроны слоя 0 (показанные кружками) служат лишь точками раз- ветвления и не выполняют вычислений. Каждый нейрон слоя 0 соединен с каждым нейроном слоя 1 (называемого слоем Кохонена) отдельным ве- сом wmn. Эти веса в целом рассматриваются как матрица весов W. Анало- гично, каждый нейрон в слое Кохонена (слое 1) соединен с каждым ней- роном в слое Гроссберга (слое 2) весом vnp. Эти веса образуют матрицу весов V. Все это весьма напоминает другие сети, встречавшиеся в преды- дущих лекциях; различие, однако, в операциях, выполняемых нейронами Кохонена и Гроссберга. Как и многие другие сети, встречное распространение функциони- рует в двух режимах: в нормальном режиме, при котором принимается входной вектор X и выдается выходной вектор У, и в режиме обучения, при котором подается входной вектор и веса корректируются, чтобы дать требуемый выходной вектор. 201
Нечеткие множества и нейронные сети Нормальное функционирование Слои Кохонена В своей простейшей форме слой Кохонена функционирует в духе «победитель забирает все», т. е. для данного входного вектора один и толь- ко один нейрон Кохонена выдает на выходе логическую единицу, а все остальные выдают ноль. Нейроны Кохонена можно воспринимать как на- бор электрических лампочек, и для любого входного вектора «загорается» одна из них. Ассоциированное с нейронами Кохонена множество весов связы- вает каждый нейрон с каждым входом. Например, на рис. 20.1 нейрон Кохонена К± имеет веса wn, w2i,..., wml, составляющие весовой век- тор Wj. Они соединяются через входной слой с входными сигналами xi,X2, ,хт, составляющими входной вектор X. Подобно нейронам большинства сетей, выход NET каждого нейрона Кохонена является про- сто суммой взвешенных входов. Это может быть выражено следующим образом: NETj = х^ i где NETj — это выход NET нейрона Кохонена j, или, в векторной записи, N = XW, где N — вектор выходов NET слоя Кохонена. Нейрон Кохонена с максимальным значением NET является «побе- дителем». Его выход равен единице, у остальных он равен нулю. Слой Гроссберга Слой Гроссберга функционирует в сходной манере. Его выход NET является взвешенной суммой выходов ki, k2, ..., kn слоя Кохонена, об- разующих вектор К. Вектор соединяющих весов, обозначенный через V, состоит из весов «ц, г?21, -, t'np- Тогда выход NET каждого нейрона Гросс- берга есть NETj = kiWij, i где NETj — выход ;/-го нейрона Гроссберга, или, в векторной форме, Y = KV, где Y — выходной вектор слоя Гроссберга, К — выходной вектор слоя Ко- хонена, V — матрица весов слоя [россберга. 202
Лекция 20 Сети встречного распространения Если слой Кохонена функционирует таким образом, что лишь у од- ного нейрона величина NET равна единице, а у остальных равна нулю, то всего один элемент вектора К отличен от нуля и вычисления очень просты. Фактически каждый нейрон слоя Гроссберга лишь выдает вели- чину веса, который связывает этот нейрон с единственным ненулевым нейроном Кохонена. Обучение слоя Кохонена Слой Кохонена классифицирует входные векторы в группы схожих. Это достигается с помощью такой подстройки весов слоя Кохонена, что близкие входные векторы активируют один и тот же нейрон данного слоя. Затем задачей слоя Гроссберга является получение требуемых выходов. Обучение Кохонена является самообучением, протекающим без учи- теля. Поэтому трудно (и не нужно) предсказывать, какой именно нейрон Кохонена будет активироваться для заданного входного вектора. Необхо- димо лишь гарантированно добиться, чтобы в результате обучения разде- лялись несхожие входные векторы. Предварительная обработка входных векторов Весьма желательно (хотя и не обязательно) нормализовать входные векторы перед тем, как предъявлять их сети. Операция выполняется с по- мощью деления каждой компоненты входного вектора на длину вектора. Эта дайна находится извлечением квадратного корня из суммы квадратов компонент вектора. В алгебраической записи ° г 2 ", 2~i------, 7' ' ' y/xj + + . . . + Х'2 Таким образом, входной вектор превращается в единичный вектор с тем же самым направлением, т. е. в вектор единичной длины в п-мерном пространстве. Уравнение (1) обобщает хорошо известный случай двух измерений, когда длина вектора равна гипотенузе прямоугольного треугольника, об- разованного его х и у компонентами, как это следует из известной тео- ремы Пифагора. На рис. 20.2 такой двумерный вектор V представлен в координатах х — у, причем координата х равна четырем, а координата у — трем. Квадратный корень из суммы квадратов этих компонент равен пяти. Деление каждой компоненты V на пять дает вектор V с компонен- тами 4/5 и 3/5, где V' указывает в том же направлении, что и V, но имеет единичную длину. 203
Нечеткие множества и нейронные сети Рис. 20.2 На рис. 20.3 показано нес- колько единичных векторов. Они оканчиваются в точках единичной окружности (окружности единич- ного радиуса), а это происходит, ко- гда у сети лишь два входа. В слу- чае трех входов векторы представ- лялись бы стрелками, оканчиваю- щимися на поверхности единичной сферы. Такие представления могут быть перенесены на сети, имею- щие произвольное число входов, где каждый входной вектор является стрелкой, оканчивающейся на поверхности единичной гиперсферы (по- лезной абстракцией, хотя и не допускающей непосредственной визуали- зации). Рис. 20.3 При обучении слоя Кохонена на вход пода- ется входной вектор и вычисляются его скаляр- ные произведения с векторами весов, связанны- ми со всеми нейронами Кохонена. Нейрон с мак- симальным значением скалярного произведения объявляется «победителем», и его веса подстра- иваются. Так как скалярное произведение, ис- пользуемое для вычисления величин NET, яв- ляется мерой сходства между входным вектором и вектором весов, то процесс обучения состоит в выборе нейрона Кохонена с весовым вектором, наиболее близким к входному вектору, и дальнейшем приближении весо- вого вектора к входному. Снова отмстим, что процесс является самообу- чением, выполняемым без учителя. Сеть самоорганизуется таким обра- зом, что данный нейрон Кохонена имеет максимальный выход для данно- го входного вектора. Уравнение, описывающее процесс обучения, имеет следующий вид: wH = wc + а(х — wr), где wH — новое значение веса, соединяющего входную компоненту х с выигравшим нейроном; шс — предыдущее значение этого веса; а — ко- эффициент скорости обучения, который может варьироваться в процессе обучения. Каждый вес, связанный с выигравшим нейроном Кохонена, изменя- ется пропорционально разности между его величиной и величиной вхо- да, к которому он присоединен. Направление изменения минимизирует разность между весом и его входом. 204
Лекция 20 Сети встречного распространения На рис. 20.4 этот процесс показан геометрически в двумерном виде. Сначала ищем вектор X — Wc, для этого проводится отрезок из конца W в конец X. Затем этот вектор укорачиваем умножением его на скалярную величину а, меньшую Единицы, в результате чего получаем вектор изме- нения б. Окончательно новый весовой вектор WH является отрезком, на- правленным из начала координат в конец вектора 6. Отсюда можно ви- деть, что эффект обучения состоит во вращении весового вектора в на- правлении входного вектора без существенного изменения его длины. Переменная к является коэффициентом скорости обучения, кото- рый вначале обычно равен ~ 0,7 и может постепенно уменьшаться в про- цессе обучения. Это позволяет делать большие начальные шаги для бы- строго грубого обучения и меньшие шаги при подходе к окончательной величине. Если бы с каждым нейроном Кохонена ассоциировался один входной вектор, то слой Кохонена мог бы быть обучен с помощью одного вычисле- ния на вес. Веса нейрона-победителя приравнивались бы к компонентам обучающего вектора (а = 1). Как правило, обучающее множество вклю- чает много сходных между собой входных векторов, и сеть должна быть обучена активировать один и тот же нейрон Кохонена для каждого из них. В этом случае веса этого нейрона должны вычисляться усреднением вход- ных векторов, которые его активируют. Постепенное уменьшение вели- чины а уменьшает воздействие каждого обучающего шага, и окончатель- ное значение будет средней величиной от входных векторов, на которых происходит обучение. Таким образом, веса, ассоциированные с нейро- ном, примут значение вблизи «центра» входных векторов, для которых данный нейрон является «победителем». 205
Нечеткие множества и нейронные сети Выбор начальных значений весовых векторов Всем весам сети перед началом обучения следует придать началь- ные значения. Общепринятой практикой при работе с нейронными се- тями является присваивание весам небольших случайных значений. При обучении слоя Кохонена случайно выбранные весовые векторы следует нормализовать. Окончательные значения весовых векторов после обу- чения совпадают с нормализованными входными векторами. Поэтому нормализация перед началом обучения приближает весовые векторы к их окончательным значениям, сокращая, таким образом, продолжитель- ность обучающего процесса. Рандомизация весов слоя Кохонена может породить серьезные про- блемы при обучении, так как в результате весовые векторы распределя- ются равномерно по поверхности гиперсферы. Из-за того, что входные векторы, как правило, распределены неравномерно и имеют тенденцию группироваться на относительно малой части поверхности гиперсферы, большинство весовых векторов будут так удалены от любого входного вектора, что они никогда не смогут дать наилучшее соответствие. Эти нейроны Кохонена будут всегда иметь нулевой выход и окажутся бесполез- ными. Более того, оставшихся весов, дающих наилучшие соответствия, может оказаться слишком мало, чтобы разделить входные векторы на классы, которые расположены близко друг к другу на поверхности гипер- сферы. Допустим, что имеется несколько множеств входных векторов, все эти множества сходные, но необходимо разделить их на различные клас- сы. Сеть должна быть обучена активировать отдельный нейрон Кохоне- на для каждого класса. Если начальная плотность весовых векторов в окрестности обучающих векторов слишком мала, то, возможно, не удаст- ся разделить сходные классы из-за того, что весовых векторов в интере- сующей нас окрестности не хватит, чтобы приписать по одному из них каждому классу входных векторов. Наоборот, если несколько входных векторов получены незначитель- ными изменениями из одного и того же образца и должны быть объеди- нены в один класс, то они должны включать один и тот же нейрон Ко- хонена. Если же плотность весовых векторов очень высока вблизи груп- пы слегка различных входных векторов, то каждый входной вектор может активировать отдельный нейрон Кохонена. Это не является катастрофой, так как слой Цюссберга может отобразить различные нейроны Кохонена в один и тот же выход, но это расточительная трата нейронов Кохонена. Наиболее желательное решение будет таким: распределить весовые векторы в соответствии с плотностью входных векторов, подлежащих разделению, и для этого поместить больше весовых векторов в окрестно- 206
Лекция 20 Сети встречного распространения сти большого числа входных векторов. Конечно, на практике это невы- полнимо, но существует несколько методов приближенного достижения тех же целей. Одно из решений, известное под названием метода выпуклой комби- нации (convex combination method), состоит в том, что все веса приравни- ваются к одной и той же величине 1 w, = —=, у/П где п — число входов и, следовательно, число компонент каждого весо- вого вектора. Благодаря этому все весовые векторы совпадают и имеют единичную длину. Каждой же компоненте входа X придается значение 1 — а Xi — axi -I- у/П где п — число входов. В начале а очень мало, вследствие чего все входные векторы имеют длину, близкую к 1/у/п, и почти совпадают с векторами весов. В процессе обучения сети а постепенно возрастает, приближаясь к единице. Это позволяет разделять входные векторы и окончательно при- писывать им их истинные значения. Весовые векторы отслеживают один или небольшую группу входных векторов и в конце обучения дают требу- емую картину выходов. Примеры обучения Рассмотрим примеры обучения сети Кохонена обычным методом и методом выпуклой комбинации. В первом методе будем выбирать равно- мерно распределенные случайные векторы весов (ядер классов). На ри- сунке 20 5 представлен пример обучения. Точками обозначены векторы хр обучающего множества, кружками — векторы весовых коэффициен- тов. Вектор весов нейрона а не обучается, т.к. ни для одного из векторов обучающего множества этот нейрон не получает максимального выхода. Кроме того, в области из шести обучающих векторов (справа внизу) ока- зывается всею один вектор весов нейрона е, что не соответствует высокой плотности обучающих векторов в этой области. Эти недостатки присущи обычному методу обучения сети Кохонена. Разберем работу метода выпуклой комбинации. Последовательное изменение картины векторов и весов показано на рис. 20.6. На первой схеме все векторы весов и обучающего множества имеют одно и то же значение. По мере обучения обучающие векторы расходятся к своим истинным значениям, а векторы весов следуют за ними. В ито- ге в сети не остается необученных нейронов и плотность векторов весов 207
Нечеткие множества и нейронные сети Рис. 20.5 соответствует плотности векторов обучающего множества. Однако метод выпуклой комбинации хорошо работает, но замедляет процесс обучения, 208
Лекция 20 Сети встречного распространения так как весовые векторы подстраиваются к изменяющейся цели. Другой подход состоит в добавлении шума к входным векторам. Тем самым они подвергаются случайным изменениям, схватывая в конце концов весо- вой вектор. Этот метод также работоспособен, но еще более медленней, чем метод выпуклой комбинации. Третий метод начинает работу со случайных весов, но на начальной стадии обучающего процесса подстраивает все веса, а не только связан- ные с выигравшим нейроном Кохонена. Тем самым весовые векторы пере- мещаются ближе к области входных векторов. В процессе обучения кор- рекция весов начинает производиться лишь для ближайших к победите- лю нейронов Кохонена. Этот радиус коррекции постепенно уменьшается, так что в конце корректируются только веса, связанные с выигравшим нейроном Кохонена. Еще один метод наделяет каждый нейрон Кохонена «чувством спра- ведливости». Если он становится победителем чаще своей «законной до- ли» (примерно 1/fc, где к — число нейронов Кохонена), он временно уве- личивает свой порог, что уменьшает его шансы на выигрыш, давая тем самым возможность обучаться и другим нейронам. Во многих приложениях точность результата существенно зависит от распределения весов. К сожалению, эффективность различных реше- ний исчерпывающим образом не оценена и остается проблемой, ожида- ющей своего решения. Модификации алгоритма обучения Чувство справедливости', чтобы не допустить отсутствие обучения по любому из нейронов, вводится «чувство справедливости». Если нейрон чаще других выигрывает «состязание», т.е. получает максимальный выход чаще, чем в 1 из М случаев, то его значение выхода искусственно умень- шается, чтобы дать возможность выиграть другим нейронам. Это вклю- чает все нейроны сети в процесс обучения. Коррекция весов пропорционально выходу, в этой модификации кор- ректируются веса не только выигравшего нейрона, но и всех остальных, пропорционально их нормированному выходу. Нормировка выполняется по максимальному значению выхода слоя или по его среднему значению. Этот метод также исключает «мертвые» нейроны и улучшает распределе- ние плотности весов. Режим интерполяции До сих пор мы обсуждали алгоритм обучения, в котором для каж- дого входного вектора активировался только один нейрон Кохонена. Это называется методом аккредитации. Его точность ограничена, так как вы- ход полностью является функцией лишь одного нейрона Кохонена. 209
Нечеткие множества и нейронные сети В методе интерполяции целая группа нейронов Кохонена, имеющих максимальные выходы, может передавать свои выходные сигналы в слой Гроссберга. Число нейронов в такой группе должно выбираться в зави- симости от задачи, и убедительных данных относительно оптимального размера группы не имеется. Как только группа определена, ее множество выходов NET рассматривается как вектор, длина которого нормализует- ся на единицу делением каждого значения NET на корень квадратный из суммы квадратов значений NET в группе. Все нейроны вне группы имеют нулевые выходы. Метод интерполяции способен устанавливать более сложные соот- ветствия и может давать более точные результаты. По-прежнему, однако, нет убедительных данных, позволяющих сравнить достоинства и недо- статки режимов интерполяции и аккредитации. Статистические свойства обученной сети Метод обучения Кохонена обладает полезной и интересной способ- ностью извлекать статистические свойства из множества входных дан- ных. Как показано Кохоненом, для полностью обученной сети вероят- ность того, что случайно выбранный входной вектор (в соответствии с функцией плотности вероятности входного множества) будет ближай- шим к любому заданному весовому вектору, равна 1/к, где к — число ней- ронов Кохонена Это является оптимальным распределением весов на ги- персфере. (Предполагается, что используются все весовые векторы, а это возможно лишь в том случае, если используется один из вышеупомяну- тых методов распределения весов.) Обучение слоя Гроссберга Слой Гроссберга обучается относительно просто. Входной вектор, являющийся выходом слоя Кохонена, подается на слой нейронов Гроссбер- га, и выходы слоя Гроссберга вычисляются как при нормальном функцио- нировании. Далее, каждый вес корректируется только в том случае, если он соединен с нейроном Кохонена, имеющим ненулевой выход. Величи- на коррекции веса пропорциональна разности между весом и требуемым выходом нейрона Гроссберга, с которым этот вес соединен. В символьной записи где кг — выход г-го нейрона Кохонена (только для одного нейрона Кохонена он отличен от нуля); yj — j-я компонента вектора желаемых выходов. Первоначально /3 берется равным приблизительно 0,1 и затем посте- пенно уменьшается в процессе обучения. 210
Лекция 20 Сети встречного распространения - --------- — .......... Отсюда видно, что веса слоя Гроссберга будут сходиться к средним величинам от желаемых выходов, тогда как веса слоя Кохонена обучаются на средних значениях входов. Обучение слоя Гроссберга — это обучение с учителем, алгоритм располагает желаемым выходом, по которому он обу- чается. Обучающийся без учителя, самоорганизующийся слой Кохонена дает выходы в недетерминированных позициях. Они отображаются в же- лаемые выходы слоем Гроссберга. Сеть встречного распространения полностью На рис. 20.7 показана сеть встречного распространения целиком. В режиме нормального функционирования предъявляются входные век- торы X и Y, и обученная сеть дает на выходе векторы X' и Y', являющие- ся аппроксимациями соответственно для X и Y. Векторы X и Y предпо- лагаются здесь нормализованными единичными векторами, следователь- но, порождаемые на выходе векторы также будут иметь тенденцию быть нормализованными. Рис. 20.7 В процессе обучения векторы X и Y подаются одновременно и как входные векторы сети, и как желаемые выходные сигналы. Вектор X ис- 211
Нечеткие множества и нейронные сети пользуется для обучения выходов X', а вектор Y — для обучения выходов Y' слоя Гроссберга. Сеть встречного распространения целиком обучается с использованием того же самого метода, который описывался для сети прямого действия. Нейроны Кохонена принимают входные сигналы как от векторов X, так и от векторов Y. Но эта ситуация неотличима от той, когда имеется один большой вектор, составленный из векторов X и Y, и тем самым не влияет на алгоритм обучения. В качестве результирующего получается единичное отображение, при котором предъявление пары входных векторов порождает их копии на выходе. Этот вывод не представляется особенно интересным, если не заметить, что предъявление только вектора X (с вектором Y, равным ну- лю) порождает как выходы X', таки выходы Y'. Если F — функция, отоб- ражающая X в Y', то сеть аппроксимирует ее. Также, если F обратима, то предъявление только вектора Y (приравнивая X нулю) порождает X'. Уникальная способность сети встречного распространения — порождать функцию и обратную к ней — делает эту сеть полезной в ряде приложе- ний. Рис. 20.7, в отличие от первоначальной конфигурации, не демон- стрирует противоток в сети, по которому она получила свое название. Та- кая форма выбрана потому, что она также иллюстрирует сеть без обрат- ных связей и позволяет обобщить понятия, развитые в предыдущих лек- циях. Приложение: сжатие данных В дополнение к обычным функциям отображения векторов, встреч- ное распространение оказывается полезным и в некоторых менее очевид- ных прикладных областях. Одним из наиболее интересных примеров яв- ляется сжатие данных. Сеть встречного распространения может быть использована для сжа- тия данных перед их передачей, уменьшая тем самым число битов, кото- рые должны быть переданы. Допустим, что требуется передать некоторое изображение. Оно может быть разбито на подизображения S, как показа- но на рис. 20.8. Каждое подизображение разбито на пиксели (мельчайшие элементы изображения). Тогда каждое подизображение является векто- ром, элементами которого являются пиксели, из которых состоит поди- зображение. Допустим для простоты, что каждый пиксель — это единица (свет) или нуль (чернота). Если в подизображении имеется п пикселей, то для его передачи потребуется п бит. Если допустимы некоторые ис- кажения, то для передачи типичного изображения требуется существен- но меньшее число битов, что позволяет передавать изображение быстрее. 212
Лекция 20 Сети встречного распространения Рис. 20.8 Это возможно из-за статистического распределения векторов подизобра- жений. Некоторые из них встречаются часто, тогда как другие встречают- ся так редко, что могут быть грубо аппроксимированы. Метод, называе- мый векторным квантованием, находит более короткие последовательно- сти битов, наилучшим образом представляющие эти подизображения. Сеть встречного распространения может быть использована для вы- полнения векторного квантования. Множество векторов подизображе- ний используется в качестве входа для обучения слоя Кохонена по мето- ду аккредитации, когда выход единственного нейрона равен 1. Веса слоя Гроссберга обучаются выдавать бинарный код номера того нейрона Кохо- нена, выход которого равен 1. Например, если выходной сигнал нейрона 7 равен 1 (а все остальные равны 0), то слой Гроссберга будет обучаться выдавать 00... 000111 (двоичный код числа 7). Это и будет являться более короткой битовой последовательностью передаваемых символов. На приемном конце идентичным образом обученная сеть встречно- го распространения принимает двоичный код и реализует обратную функ- цию, аппроксимирующую первоначальное подизображение. Этот метод применялся на практике как к речи, так и к изображени- ям, с коэффициентом сжатия данных от 10 : 1 до 100 : 1. Качество бы- ло приемлемым, хотя некоторые искажения данных на приемном конце признаются неизбежными. 213
Нечеткие множества и нейронные сети Лекция 21. Стохастические методы обучения нейронных сетей В лекции дается обзор основных стохастических методов, используе- мых для обучения нейронных сетей: метод отжига металла, больцмановское обучение, обучение Коши, метод искусственной теплоемкости. Ключевые слова: стохастические методы обучения, больцмановское обучение, обучение Коши, распределение Коши, искусственная теплоемкость, отжиг металла. Стохастические методы полезны как для обучения искусственных нейронных сетей, так и для получения выхода от уже обученной сети. Стохастические методы обучения приносят большую пользу, позволяя исключать локальные минимумы в процессе обучения. Но с ними также связан ряд проблем. Использование обучения Искусственная нейронная сеть обучается с помощью некоторого процесса, модифицирующего ее веса. Если обучение успешно, то предъ- явление сети множества входных сигналов приводит к появлению желае- мого множества выходных сигналов. Имеется два класса обучающих ме- тодов: детерминистский и стохастический. Детерминистский метод обучения шаг за шагом осуществляет про- цедуру коррекции весов сети, основанную на использовании их теку- щих значений, а также величин входов, фактических выходов и желаемых выходов. Обучение персептрона является примером подобного детерми- нистского метода. Стохастические методы обучения выполняют псевдослучайные из- менения величин весов, сохраняя те изменения, которые ведут к улуч- шениям. Чтобы показать это наглядно, рассмотрим рис. 21.1, на котором изображена типичная сеть, где нейроны соединены с помощью весов. Выход нейрона является здесь взвешенной суммой его входов, которая преобразована с помощью нелинейной функции. Для обучения сети мо- гут быть использованы следующие процедуры: 1. Выбрать вес случайным образом и подкорректировать его на небольшое случайное число. Предъ- явить множество входов и вычислить получающиеся выходы. 2. Сравнить эти выходы с желаемыми выходами и вычислить вели- чину разности между ними. Общепринятый метод состоит в нахождении 214
Лекция 21 Стохастические методы обучения нейронных сетей разности между фактическим и желаемым выходами для каждого элемен- та обучаемой пары, возведение разностей в квадрат и нахождение суммы этих квадратов. Целью обучения является минимизация этой разности, часто называемой целевой функцией. 3. Выбрать вес случайным образом и подкорректировать его на небольшое случайное значение. Если коррекция помогает (уменьшает целевую функцию), то сохранить ее, в противном случае вернуться к пер- воначальному значению веса. 4. Повторять шаги с 1 по 3 до тех пор, пока сеть не будет обучена в достаточной степени. Рис. 21.1 Этот процесс стремится минимизировать целевую функцию, но мо- жет попасть, как в ловушку, в неудачное решение. На рис. 21.2 показано, как это может происходить в системе с единственным весом. Допустим, что первоначально вес взят равным значению в точке А. Если случайные шаги по весу малы, то любые отклонения от точки А увеличивают целе- вую функцию и будут отвергнуты. Лучшее значение веса, принимаемое в точке В, никогда не будет найдено, и система будет поймана в ловушку локальным минимумом вместо глобального минимума в точке В. Если же случайные коррекции веса очень велики, то как точка А, так и точка В будут часто посещаться, но то же самое будет верно и для каждой дру- 215
Нечеткие множества и нейронные сети гой точки. Вес будет меняться так резко, что он никогда не установится в желаемом минимуме. Рис. 21.2 Полезная стратегия для избежания подобных проблем состоит в больших начальных шагах и постепенном уменьшении размера среднего случайного шага. Это позволяет сети вырываться из локальных миниму- мов и в то же время гарантирует окончательную стабилизацию сети. Ловушки локальных минимумов досаждают всем алгоритмам обу- чения, основанным на поиске минимума (включая персептрон и сети обратного распространения), и представляют серьезную и широко рас- пространенную трудность, которую почему-то часто игнорируют. Стоха- стические методы позволяют решить эту проблему. Стратегия коррекции весов, вынуждающая веса принимать значение глобального оптимума в точке В, вполне возможна. В качестве объясняющей аналогии предположим, что на рис. 21.2 изображен шарик на поверхности внутри коробки. Если коробку сильно потрясти в горизонтальном направлении, то шарик будет быстро пере- катываться от одного края к другому. Нигде не задерживаясь, в каждый момент времени шарик будет с равной вероятностью находиться в любой точке поверхности. Если постепенно уменьшать силу встряхивания, то будет достигну- то условие, при котором шарик будет на короткое время «застревать» в точке В. При еще более слабом встряхивании шарик будет на короткое время останавливаться как в точке А, так и в точке В. При непрерывном уменьшении силы встряхивания будет достигнута критическая точка, ко- гда сила встряхивания достаточна для перемещения шарика из точки А в точку В, но недостаточна для того, чтобы шарик мог «вскарабкаться» из В в А. Таким образом, окончательно шарик остановится в точке глобаль- ного минимума, когда амплитуда встряхивания уменьшится до нуля. 216
Лекция 21 Стохастические методы обучения нейронных сетей Искусственные нейронные сети могут обучаться, по существу, тем же способом при помощи случайной коррекции весов. Вначале делаются большие случайные коррекции с сохранением только тех изменений ве- сов, которые уменьшают целевую функцию. Затем средний размер шага постепенно уменьшается, и глобальный минимум в конце концов дости- гается. Эта процедура весьма напоминает отжиг металла, поэтому для ее описания часто используют термин «имитация отжига». В металле, ко- торый нагрет до температуры, превышающей его точку плавления, ато- мы находятся в сильном беспорядочном движении. Как и во всех физи- ческих системах, атомы стремятся к состоянию минимума энергии (еди- ному кристаллу, в данном случае), но при высоких температурах энергия атомных движений препятствует этому В процессе постепенного охла- ждения металла возникают все более низкоэнергетические состояния, пока, в конце концов, не будет достигнуто самое малое из возможных со- стояний, глобальный минимум. В процессе отжига распределение энер- гетических уровней описывается следующим соотношением: F(e) = ехр(—е/кТ), где F(e) — вероятность того, что система находится в состоянии с энер- гией е; к — постоянная Больцмана; Т — температура по шкале Кельвина. При высоких температурах F(e) приближается к единице для всех энергетических состояний. Таким образом, высокоэнергетическое со- стояние почти столь же вероятно, как и низкоэнергетическое. По мере уменьшения температуры вероятность высокоэнергетических состояний уменьшается по отношению к низкоэнергстическим. При приближении температуры к нулю становится весьма маловероятным, чтобы система находилась в высокоэнергетическом состоянии. Больцмановское обучение Этот стохастический метод непосредственно применим к обучению искусственных нейронных сетей: 1. Определить переменную Т, представляющую искусственную тем- пературу. Придать Т большое начальное значение. 2. Предъявить сети множество входов и вычислить выходы и целе- вую функцию. 3. Дать случайное изменение весу и пересчитать выход сети и изме- нение целевой функции в соответствии со сделанным изменением веса. 4. Если целевая функция уменьшилась (улучшилась), то сохранить изменение веса. 217
Нечеткие множества и нейронные сети Если изменение веса приводит к увеличению целевой функции, то вероятность сохранения этого изменения вычисляется с помощью рас- пределения Больцмана: Р(с) = ехр(—с/кТ), где Р(с) — вероятность изменения с в целевой функции; к — константа, аналогичная константе Больцмана, выбираемая в зависимости от задачи; Т — искусственная температура. Выбирается случайное число г из равномерного распределения от нуля до единицы. Если Р(с) больше, чем г, то изменение сохраняется, в противном случае величина веса возвращается к предыдущему значению. Это позволяет системе делать случайный шаг в направлении, портящем целевую функцию, и дает ей тем самым возможность вырываться из ло- кальных минимумов, где любой малый шаг увеличивает целевую функ- цию. Для завершения больцмановского обучения повторяют шаги 3 и 4 для каждого из весов сети, постепенно уменьшая температуру Т, пока не бу- дет достигнуто допустимо низкое значение целевой функции. В этот мо- мент предъявляется другой входной вектор, и процесс обучения повторя- ется. Сеть обучается на всех векторах обучающего множества, с возмож- ным повторением, пока целевая функция не станет допустимой для всех них. Величина случайного изменения веса на шаге 3 может определяться различными способами. Например, подобно тепловой системе, весовое изменение w может выбираться в соответствии с гауссовским распреде- лением: P(w) = exp(-w2 /Т2), где P(w) — вероятность изменения веса на величину w, — искусственная температура. Так как требуется величина изменения веса Aw, а не вероятность из- менения веса, имеющего величину w, то метод Монте-Карло может быть использован следующим образом: 1. Найти кумулятивную вероятность, соответствующую P(w). Это есть интеграл от P(w) в пределах от 0 до w. Поскольку в данном случае P(w) не может быть проинтегрирована аналитически, она должна инте- грироваться численно, а результат необходимо затабулировать. 2. Выбрать случайное число из равномерного распределения на ин- тервале (0,1). Используя эту величину в качестве значения P(w), найти в таблице соответствующее значение для величины изменения веса. Свойства машины Больцмана широко изучены. Скорость уменьше- ния температуры должна быть обратно пропорциональна логарифму вре- 218
Лекция 21 Стохастические методы обучения нейронных сетей мени, чтобы была достигнута сходимость к глобальному минимуму. Ско- рость охлаждения в такой системе выражается следующим образом: T(t) =___—___- () log(l + t)’ где T(t) — искусственная температура как функция времени; То — на- чальная искусственная температура; t — искусственное время. Этот разочаровывающий результат предсказывает очень медленную скорость охлаждения (и вычислений). Вывод подтвержден и эксперимен- тально. Машины Больцмана часто требуют для обучения очень большого ресурса времени. Обучение Коши Рис. 21.3 В этом методе при вычислении величины шага распределение Больц- мана заменяется на распределение Коши. Распределение Коши имеет, как показано на рис. 21.3, более длинные «хвосты», увеличивая тем сам ым ве- роятность больших шагов. В действительности, распределение Коши име- ет бесконечную (неопределенную) дисперсию. С помощью такого про- стого изменения максимальная скорость уменьшения температуры ста- новится обратно пропорциональной линейной величине, а не логариф- му, как дтя алгоритма обучения Больцмана. Это резко уменьшает время обучения. Зависимость может быть выражена следующим образом: То 1 + 1 Распределение Коши имеет вид Р(Х) = [ ' T(t)2 + х2 ’ где Р(х) есть вероятность шага величины х. 219
Нечеткие множества и нейронные сети В данном уравнении Р(х) может быть проинтегрирована стандарт- ными методами. Решая относительно х, получаем хс = pT(t)tg(P(x)), где р — коэффициент скорости обучения; хс — изменение веса. Теперь применение метода Монте-Карло становится очень про- стым. Для нахождения х в этом случае выбирается случайное число из равномерного распределения на открытом интервале (-тг/2, тг/2) (необ- ходимо ограничить функцию тангенса). Оно подставляется в формулу (5.7) в качестве Р(х), и с помощью текущей температуры вычисляется ве- личина шага. Метод искусственной теплоемкости Несмотря на улучшение, достигаемое с помощью метода Коши, вре- мя обучения может оказаться все еще слишком большим. Для дальней- шего ускорения этого процесса может быть использован способ, уходя- щий своими корнями в термодинамику. В этом методе скорость умень- шения температуры изменяется в соответствии с искусственной «тепло- емкостью», вычисляемой в процессе обучения. Во время отжига металла происходят фазовые переходы, связанные с дискретными изменениями уровней энергии. При каждом фазовом пе- реходе может происходить резкое изменение величины, называемой теп- лоемкостью. Теплоемкость определяется как скорость изменения темпера- туры в зависимости от изменения энергии. Изменения теплоемкости про- исходят из-за попадания системы в локальные энергетические минимумы. Искусственные нейронные сети проходят аналогичные фазы в про- цессе обучения. На границе фазового перехода искусственная теплоем- кость может скачкообразно измениться. Эта псевдотеплоемкость опреде- ляется как средняя скорость изменения температуры с целевой функци- ей. В примере шарика в коробке, приведенном выше, сильная начальная встряска делает среднюю величину целевой функции фактически не за- висящей от малых изменений температуры, т. е. теплоемкость близка к константе. Аналогично, при очень низких температурах система замер- зает в точке минимума, так что теплоемкость снова близка к константе. Ясно, что в каждой из этих областей допустимы сильные изменения тем- пературы, так как не происходит улучшения целевой функции. При критической температуре небольшое уменьшение ее значения приводит к большому изменению средней величины целевой функции. Возвращаясь к аналогии с шариком, при «температуре», когда шарик об- ладает достаточной средней энергией, чтобы перейти из Ав В, но не до- 220
Лекция 21 Стохастические методы обучения нейронных сетей статочной для перехода из В в Л, средняя величина целевой функции испытывает скачкообразное изменение. В этих критических точках ал- горитм должен изменять температуру очень медленно, чтобы гарантиро- вать, что система не «замерзнет» случайно в точке А, оказавшись пой- манной в локальный минимум. Критическая температура может быть об- наружена по резкому уменьшению искусственной теплоемкости, т. е. сред- ней скорости изменения температуры с целевой функцией. При достиже- нии критической температуры скорость изменения температуры должна замедляться, чтобы гарантировать сходимость к глобальному минимуму. При всех остальных температурах может без риска использоваться более высокая скорость снижения температуры, что приводит к значительному снижению времени обучения. Обратное распространение и обучение Коши Обратное распространение обладает преимуществом прямого по- иска, т. е. веса всегда корректируются в направлении, минимизирую- щем функцию ошибки. Хотя время обучения и велико, оно существенно меньше, чем при случайном поиске, выполняемом машиной Коши, ко- гда отыскивается глобальный минимум, но многие шаги выполняются в неверном направлении и «съедают» много времени. Соединение этих двух методов дало хорошие результаты. Коррекция весов, равная сумме, вычисленной алгоритмом обратного распростране- ния, и случайный шаг, задаваемый алгоритмом Коши, приводят к систе- ме, которая сходится и находит глобальный минимум быстрее, чем систе- ма, обучаемая каждым из методов в отдельности. Простая эвристика ис- пользуется для избежания паралича сети, который может возникнуть как при обратном распространении, так и при обучении по методу Коши. Трудности, связанные с обратным распространением Несмотря на богатые возможности, продемонстрированные мето- дом обратного распространения, при его применении возникает ряд трудностей, часть из которых, однако, облегчается благодаря использо- ванию нового алгоритма. Сходимость. Д.Е.Румелхарт доказал сходимость на языке дифферен- циальных уравнений в частных производных. Таким образом, доказа- тельство справедливо лишь в том случае, когда коррекция весов выпол- няется с помощью бесконечно малых шагов. Это условие ведет к беско- нечному времени сходимости, и тем самым метод теряет силу в практиче- ских применениях. В действительности нет доказательства, что обратное распространение будет сходиться при конечном размере шага. Экспери- 221
Нечеткие множества и нейронные сети менты показывают, что сети обычно обучаются, но время обучения вели- ко и непредсказуемо. Локальные минимумы. В обратном распространении для коррекции весов сети используется градиентный спуск, продвигающийся к миниму- му в соответствии с локальным наклоном поверхности ошибки. Он хоро- шо работает в случае сильно изрезанных невыпуклых поверхностей, ко- торые встречаются в практических задачах. В одних случаях локальный минимум является приемлемым решением, в других случаях он непри- емлем. Даже после того как сеть обучена, невозможно сказать, найден ли с помощью обратного распространения глобальный минимум. Если ре- шение неудовлетворительно, приходится давать весам новые начальные случайные значения и повторно обучать сеть без гарантии, что обучение закончится на этой попытке или что глобальный минимум вообще будет когда-либо найден. Паралич. При некоторых условиях сеть может при обучении попасть в такое состояние, когда модификация весов не ведет к действительным изменениям сети. Такой "паралич сети"является серьезной проблемой: один раз возникнув, он может увеличить время обучения на несколько порядков. Паралич возникает, когда значительная часть нейронов получает ве- са достаточно большие, чтобы дать большие значения NET. В результате величина OUT приближается к своему предельному значению, а произ- водная от сжимающей функции приближается к нулю. Как мы видели, алгоритм обратного распространения при вычислении величины изме- нения веса использует эту производную в формуле в качестве коэффи- циента. Для пораженных параличом нейронов близость производной к нулю приводит к тому, что изменение веса становится близким к нулю. Если подобные условия возникают во многих нейронах сети, то обу- чение может замедлиться до почти полной остановки. Е1ет теории, способной предсказывать, будет ли сеть парализована во время обучения или нет. Экспериментально установлено, что малые размеры шага реже приводят к параличу, но шаг, малый для одной задачи, может оказаться большим для другой. Цена же паралича может быть вы- сокой. При моделировании многие часы машинного времени могут уйти на то, чтобы выйти из паралича. Трудности с алгоритмом обучения Коши Несмотря на улучшение скорости обучения, даваемое машиной Ко- ши по сравнению с машиной Больцмана, время сходимости все еще мо- жет в 100 раз превышать время для алгоритма обратного распростране- 222
Лекция 21 Стохастические методы обучения нейронных сетей ния. Отметим, что сетевой паралич особенно опасен для алгоритма обу- чения Коши, в особенности для сети с нелинейностью типа логистиче- ской функции. Бесконечная дисперсия распределения Коши приводит к изменениям весов до неограниченных величин. Далее, большие измене- ния весов будут иногда приниматься даже в тех случаях, когда они небла- гоприятны, часто приводя к сильному насыщению сетевых нейронов с вытекающим отсюда риском паралича. Комбинирование обратного распространения с обучением Коши. Кор- рекция весов в комбинированном алгоритме, использующем обратное распространение и обучение Коши, состоит из двух компонент: (1) на- правленной компоненты, вычисляемой с использованием алгоритма обрат- ного распространения, и (2) случайной компоненты, определяемой рас- пределением Коши. Эти компоненты вычисляются для каждого веса, и их сумма является величиной, на которую изменяется вес. Как и в алгоритме Коши, после вычисления изменения веса вычисляется целевая функция. Если происходит улучшение, изменение сохраняется безусловно. В про- тивном случае, оно сохраняется с вероятностью, определяемой распреде- лением Больцмана. Коррекция веса вычисляется с использованием пред- ставленных ранее уравнений для каждого из алгоритмов: wmn,k(n +1) = wmn,k (n) + T][a/\wmn,k(n) + (1 - a)6n,kOUTmtj] + (1 - T])xc, где t) — коэффициент, управляющий относительными величинами Ко- ши и обратного распространения в компонентах весового шага. Если ? приравнивается нулю, система становится полностью машиной Коши. Если ? приравнивается единице, система становится машиной обратного распространения. Изменение лишь одного весового коэффициента меж- ду вычислениями весовой функции неэффективно. Оказалось, что луч- ше сразу изменять все веса целого слоя, хотя для некоторых задач может стать выгоднее иная стратегия. Преодоление сетевого паралича комбини- рованным методом обучения. Как и в машине Коши, если изменение веса ухудшает целевую функцию, — с помощью распределения Больцмана ре- шается, сохранить ли новое значение веса или восстановить предыдущее значение. Таким образом, имеется конечная вероятность того, что ухуд- шающее множество приращений весов будет сохранено. Так как распре- деление Коши имеет бесконечную дисперсию (диапазон изменения тан- генса простирается от —схэ до +оо на области определения), то весьма ве- роятно возникновение больших приращений весов, часто приводящих к сетевому параличу. Очевидное решение, состоящее в ограничении диапазона измене- ния весовых шагов, ставит вопрос о математической корректности полу- ченного таким образом алгоритма. На сегодняшний день доказана сходи- мость системы к глобальному минимуму лишь для исходного алгоритма. 223
Нечеткие множества и нейронные сети Подобного доказательства при искусственном ограничении размера шага не существует. В действительности экспериментально выявлены случаи, когда для реализации некоторой функции требуются большие веса и два больших веса, вычитаясь, дают малую разность. Другое решение состоит в рандомизации весов тех нейронов, кото- рые оказались в состоянии насыщения. Его недостаток в том, что оно может серьезно нарушить обучающий процесс, иногда затягивая его до бесконечности. Для решения проблемы паралича был найден метод, не нарушаю- щий достигнутого обучения. Насыщенные нейроны выявляются с помо- щью измерения их сигналов OUT. Когда величина OUT приближается к своему предельному значению, положительному или отрицательному, на веса, питающие этот нейрон, действует сжимающая функция. Она подоб- на используемой для получения нейронного сигнала OUT, за исключе- нием того, что диапазоном ее изменения является интервал (+5, —5) или другое подходящее множество. Тогда модифицированные весовые значе- ния равны _ -5 + 10 Wmn 1 + ехр(—wmn/5) Эта функция заметно уменьшает величину очень больших весов, воздей- ствие на малые веса значительно более слабое. Далее, она поддержива- ет симметрию, сохраняя небольшие различия между большими весами. Экспериментально было показано, что эта функция выводит нейроны из состояния насыщения без нарушения достигнутого в сети обучения. Не было затрачено серьезных усилий для оптимизации используемой функ- ции, и другие значения констант могут оказаться лучшими. Экспериментальные результаты Комбинированный алгоритм, использующий обратное распростра- нение и обучение Коши, применялся для обучения нескольких больших сетей. Например, этим методом была успешно обучена система, распо- знающая рукописные китайские иероглифы. Все же время обучения ока- залось отнюдь не маленьким (было потрачено приблизительно 36 часов машинного времени). В другом эксперименте эта сеть обучалась на задаче ИСКЛЮЧАЮ- ЩЕЕ ИЛИ, которая была использована в качестве теста для сравнения с другими алгоритмами. Для сходимости сети в среднем требовалось око- ло 76 предъявлений обучающего множества. В качестве сравнения мож- но указать, что при использовании обратного распространения в среднем требовалось около 245 предъявлений для решения этой же задачи и 4986 224
Лекция 21 Стохастические методы обучения нейронных сетей итераций при использовании обратного распространения второго поряд- ка. Ни одно из обучений не привело к локальному минимуму. Более то- го, ни одно из 160 обучений не обнаружило неожиданных патологий, сеть всегда правильно обучалась. Эксперименты же с чистой машиной Коши потребовали значитель- но большх времен обучения. Например, при р = 0,002 для обучения сети в среднем требовалось около 2284 предъявлений обучающего множества. Несмотря на такие обнадеживающие результаты, метод еще не ис- следован до конца, особенно на больших задачах. Значительно большая работа потребуется для определения его достоинств и недостатков. 225
Нечеткие множества и нейронные сети Лекция 22. Нейронные сети Хопфилда и Хэмминга В лекции рассматривается архитектура сети Хопфилда и ее модифика- ция - сеть Хэмминга, затрагиваются вопросы устойчивости сети Хопфилда. В заключении лекции рассматриваются понятие ассоциативности памяти и задача распознавания образов. Ключевые слова: обратные связи, сеть Хопфилда, сеть Хэмминга. Сети, рассмотренные на предыдущих лекциях, не имели обратных связей, т. е. связей, идущих от выходов сетей к их входам. Отсутствие обратной связи гарантирует безусловную устойчивость сетей. (Они не мо- гут войти в режим, когда выход беспрерывно блуждает от состояния к со- стоянию и не пригоден для использования.) Но это весьма желательное качество достигается не бесплатно: сети без обратных связей обладают бо- лее ограниченными возможностями по сравнению с сетями с обратными связями. Так как сети с обратными связями имеют пути, передающие сиг- налы от выходов к входам, то отклик таких сетей является динамическим, т. е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычис- ляется, и процесс повторяется снова и снова. Для устойчивой сети по- следовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для многих сетей процесс никогда не заканчивается, такие сети называют неустойчивыми. Неустойчивые сети обладают интересными свойствами и изучались в ка- честве примера хаотических систем. Однако такой большой предмет, как хаос, находится за пределами этого курса. Вместо этого мы сконцентри- руем свое внимание на устойчивых сетях, т. е. на тех, которые в заверше- нии процесса дают постоянный выход. Проблема устойчивости ставила в тупик первых исследователей. Никто не мог предсказать, какие из сетей будут устойчивыми, а какие будут находиться в постоянном изменении. Более того, проблема представлялась столь трудной, что многие исследо- ватели были настроены пессимистически относительно возможности ее решения. К счастью, была получена теорема, описавшая подмножество сетей с обратными связями, выходы которых в конце концов достигают устойчивого состояния. Это замечательное достижение открыло дорогу дальнейшим исследованиям, и сегодня многие ученые занимаются ис- следованием сложного поведения и возможностей этих систем. Дж. Хоп- филд сделал важный вклад как в теорию, так и в применение систем с обратными связями. Поэтому некоторые из конфигураций известны как сети Хопфилда. 226
Лекция 22 Нейронные сети Хопфилда и Хэмминга Конфигурации сетей с обратными связями Рассмотренный нами ранее персептрон относится к классу сетей с направленным потоком распространения информации и не содержит обратных связей. На этапе функционирования каждый нейрон выполняет свою функцию — передачу возбуждения другим нейронам — ровно один раз. Динамика состояний нейронов является неитерационной. Несколько более сложной является динамика в сети Кохонена. Кон- курентное соревнование нейронов достигается путем итераций, в про- цессе которых информация многократно передается между нейронами. В общем случае может быть рассмотрена нейронная сеть, содержа- щая произвольные обратные связи, по которым переданное возбуждение возвращается к данному нейрону, и он повторно выполняет свою функ- цию. Наблюдения за биологическими локальными нейросетями указы- вают на наличие множественных обратных связей. Нейродинамика в та- ких системах становится итерационной. Это свойство существенно рас- ширяет множество типов нейросетевых архитектур, но одновременно приводит к появлению новых проблем. Неитерационная динамика состояний нейронов является, очевид- но, всегда устойчивой. Обратные связи могут приводить к возникновению неустойчивостей, подобных тем, которые возникают в усилительных ра- диотехнических системах при положительной обратной связи. В нейрон- ных сетях неустойчивость проявляется в блуждающей смене состояний нейронов, не приводящей к возникновению стационарных состояний. В общем случае, ответ на вопрос об устойчивости динамики произволь- ной системы с обратными связями крайне сложен и до настоящего време- ни является открытым. Остановимся на важном частном случае нейросетевой архитектуры, для которой свойства устойчивости подробно исследованы. На рис. 22.1 показана сеть с обратными связями, состоящая из двух слоев. Способ представления несколько отличается от использованного в работе Хоп- филда и других сходных, но эквивалентен им с функциональной точки зрения, а также хорошо связан с сетями, рассмотренными на предыду- щих лекциях. Нулевой слой, как и на предыдущих рисунках, не выпол- няет вычислительной функции, а лишь распределяет выходы сети обрат- но на входы. Каждый нейрон первого слоя вычисляет взвешенную сумму своих входов, давая сигнал NET, который затем с помощью нелинейной функции F преобразуется в сигнал OUT. Эти операции сходны с нейро- нами других сетей. 227
Нечеткие множества и нейронные сети Рис. 22.1 Бинарные системы В первой работе Д. Хопфилда функция F была просто пороговой функцией. Выход такого нейрона равен единице, если взвешенная сум- ма выходов с других нейронов больше порога Tj, в противном случае она равна нулю. Порог вычисляется следующим образом: NET, = WijOUTi + INj, i^3 out, = < 0. не меняется. если NETj > Tj, если NETj < Tj, если NETj = Tj. Состояние сети — это просто множество текущих значений сигналов OUT от всех нейронов. В первоначальной сети Хопфилда состояние каж- дого нейрона менялось в дискретные случайные моменты времени, в по- следующей состояния нейронов могли меняться одновременно. Так как выходом бинарного нейрона может быть только ноль или единица (про- межуточных уровней нет), то текущее состояние сети является двоичным числом, каждый бит которого является сигналом OUT некоторого ней- рона. 228
Лекция 22 Нейронные сети Хопфилда и Хэмминга Задачи, решаемые данной сетью, как правило, формулируются сле- дующим образом. Известен некоторый набор двоичных сигналов (изоб- ражений, оцифровок звука, прочих данных, описывающих некие объ- екты или характеристики процессов), которые считаются образцовыми. Сеть должна уметь из произвольного неидеального сигнала, поданного на ее вход, выделить («вспомнить» по частичной информации) соответ- ствующий образец (если такой есть) или «дать заключение» о том, что входные данные не соответствуют ни одному из образцов. В общем слу- чае, любой сигнал может быть описан вектором X = {ж^: г = 0... п — 1}, п — число нейронов в сети и размерность входных и выходных векторов. Каждый элемент ж, равен либо 1, либо 0. Обозначим вектор, описыва- ющий k-й образец, через Хк, а его компоненты, соответственно, — хк, к = 0,... ,тп — 1,т — число образцов. Когда сеть распознает (или «вспо- мнит») какой-либо образец на основе предъявленных ей данных, ее выхо- ды будут содержать именно его, то есть Y = Хк, где Y —вектор выходных значений сети: Y = {у,: i = 0,..., п — 1}. В противном случае, выходной вектор не совпадет ни с одним образцовым. Если, например, сигналы представляют собой некие изображения, то, отобразив в графическом виде данные с выхода сети, можно будет уви- деть картинку, полностью совпадающую с одной из образцовых (в случае успеха) или же «вольную импровизацию» сети (в случае неудачи). На стадии инициализации сети весовые коэффициенты синапсов устанавливаются следующим образом: если г j, 0,если i = j. Здесь inj — индексы, соответственно, предсинаптического и постсинап- тического нейронов; хк, хк — ?'-й и j-й элементы вектора к-то образца. Алгоритм функционирования сети следующий (р — номер итера- ции): 1. На входы сети подается неизвестный сигнал. Фактически его ввод осуществляется непосредственной установкой значений аксонов: Уг(0)=Жг, 1 = 0, . . . ,П — 1, поэтому обозначение на схеме сети входных синапсов в явном виде носит чисто условный характер. Ноль в скобке справа от у, означает нулевую итерацию в цикле работы сети. 229
Нечеткие множества и нейронные сети 2. Рассчитывается новое состояние нейронов: п— 1 Sj(p + 1) = j = 0,...,n-l г—О и новые значения аксонов ад(р + 1) = /Lsj(p+i)J- где / — активационная функция в виде скачка. 3. Проверка, изменились ли выходные значения аксонов за послед- нюю итерацию. Если да — переход к пункту 2, иначе (если выходы ста- билизировались) — конец процедуры. При этом выходной вектор пред- ставляет собой образец, наилучшим образом сочетающийся с входными данными. Как говорилось выше, иногда сеть не может провести распознава- ние и выдает на выходе несуществующий образ. Это связано с пробле- мой ограниченности возможностей сети. Для сети Хопфилда число запо- минаемых образов т не должно превышать величины, примерно равной 0,15п. Кроме того, если два образа А и Б имеют значительное сходство, они, возможно, будут вызывать у сети перекрестные ассоциации, то есть предъявление на входы сети вектора А приведет к появлению на ее выхо- дах вектора Б и наоборот. Когда нет необходимости, чтобы сеть выдавала образец в явном ви- де и достаточно, скажем, получать номер образца, ассоциативную память успешно реализует сеть Хэмминга. Данная сеть характеризуется, по срав- нению с сетью Хопфилда, более экономным использованием памяти и меньшим объемом вычислений, что становится очевидным из ее струк- туры (см. рис. 22.2). Сеть состоит из двух слоев. Первый и второй слои имеют по т ней- ронов, где т — число образцов. Нейроны первого слоя имеют по п синап- сов, соединенных с входами сети (которые образуют фиктивный нулевой слой). Нейроны второго слоя связаны между собой ингибиторными (от- рицательными обратными) синаптическими связями. Единственный си- напс с положительной обратной связью для каждого нейрона соединен с его же аксоном. Идея работы сети состоит в нахождении расстояния Хэмминга от те- стируемого образа до всех образцов. Расстоянием Хэмминга называется число отличающихся битов в двух бинарных векторах. Сеть должна вы- брать образец с минимальным расстоянием Хэмминга до неизвестного входного сигнала, в результате чего будет активизирован только один вы- ход сети, соответствующий именно этому образцу. 230
Лекция 22 Нейронные сети Хопфилда и Хэмминга Рис. 22.2 На стадии инициализации весовым коэффициентам первого слоя и порогу активационной функции присваиваются следующие значения: хк Wik ~ г — 0,..., п — 1, к = 0.....т — 1, Тк — р к = 0,... ,т - 1. Здесь х% - г-й элемент к-го образца. Весовые коэффициенты тормозящих синапсов во втором слое берут равными некоторой величине 0 < е < 1/т. Синапс нейрона, связанный с его же аксоном, имеет вес +1. Алгоритм функционирования сети Хэмминга следующий: 1. На входы сети подается неизвестный вектор X = {ж,|г = 0,..., п}, исходя из которого рассчитываются состояния нейронов первого слоя (верхний индекс в скобках указывает номер слоя): п— 1 + Tj, j = 0,....тп - 1. 1=0 После этого полученными значениями инициализируются значения ак- сонов второго слоя: Z/j2) = j = 0... .,772- 1. 231
Нечеткие множества и нейронные сети 2. Вычисляются новые состояния нейронов второго слоя: тп—1 42)(P+I) = %(p)'e12yfc2)^’ j = k=0 и значения их аксонов: Z/j2)(p + l) = /Lsj2)(p+1)J, J=o, Активационная функция / имеет вид порога, причем величина F должна быть достаточно большой, чтобы любые возможные значения аргумента не приводили к насыщению. 3. Проверить, изменились ли выходы нейронов второго слоя за по- следнюю итерацию. Если да — перейти к шагу 2. Иначе — конец проце- дуры. Из оценки алгоритма видно, что роль первого слоя весьма условна: воспользовавшись один раз на шаге 1 значениями его весовых коэффи- циентов, сеть больше не обращается к нему, поэтому первый слой может быть вообще исключен из сети. Устойчивость Как и в других сетях, веса между слоями в этой сети могут рассмат- риваться в виде матрицы W. Сеть с обратными связями является устойчи- вой, если ее матрица симметрична и имеет нули на главной диагонали, т. е. если щ,- = Wji и w„ = 0 для всех i. Устойчивость такой сети может быть доказана с помощью элегант- ного математического метода. Допустим, что найдена функция, которая всегда убывает при изменении состояния сети. В конце концов, эта функ- ция должна достичь минимума и прекратить изменение, гарантируя тем самым устойчивость сети. Такая функция, называемая функцией Ляпу- нова, для рассматриваемых сетей с обратными связями может быть введе- на следующим образом: Е = ЕЕ^0^0^ - Е^ос/^+'£TjouTj, i 3 3 3 где Е — искусственная энергия сети; шу — вес от выхода нейрона i к вхо- ду нейрона j; OUTi — выход нейрона j; Ij — внешний вход нейрона j; Т., — порог нейрона j. Изменение энергии Е, вызванное изменением состояния j-нейрона, есть 6Е = Y^OUTJ+Ij-Tj i^3 8OUTj = -[NETj - Tj]6OUTj, где 8OUTj — изменение выхода j-го нейрона. 232
Лекция 22 Нейронные сети Хопфилда и Хэмминга Допустим, что величина NET нейрона j больше порога. Тогда выра- жение в скобках будет положительным, а из данных уравнений следует, что выход нейрона j должен измениться в положительную сторону (или остаться без изменения). Это значит, что ёОиТ:1 может быть только поло- жительным или нулем и ёЕ должно быть отрицательным. Следовательно, энергия сети должна либо уменьшиться, либо остаться без изменения. Далее, допустим, что величина NET меньше порога. Тогда величи- на ёОиТг может быть только отрицательной или нулем. Следовательно, опять энергия должна уменьшиться или остаться без изменения. И окончательно, если величина NET равна порогу, ё^ равна нулю и энергия остается без изменения. Мы показали, что любое изменение состояния нейрона либо умень- шит энергию, либо оставит ее без изменения. Благодаря такому непре- рывному стремлению к уменьшению энергия, в конце концов, должна достигнуть минимума и прекратить изменение. По определению такая сеть является устойчивой. Симметрия сети является достаточным, но не необходимым услови- ем для устойчивости системы. Имеется много устойчивых систем (напри- мер, все сети прямого действия), которые ему не удовлетворяют. Можно продемонстрировать примеры, в которых незначительное отклонение от симметрии будет приводить к непрерывным осцилляциям. Однако при- ближенной симметрии обычно достаточно для устойчивости систем. Ассоциативность памяти и задача распознавания образов Динамический процесс последовательной смены состояний ней- ронной сети Хопфилда завершается в некотором стационарном состоя- нии, являющимся локальным минимумом энергетической функции E(S). Невозрастание энергии в процессе динамики приводит к выбору такого локального минимума S, в бассейн притяжения которого попадает на- чальное состояние (исходный, предъявляемый сети образ) So- В этом слу- чае также говорят, что состояние So находится в чаше минимума S. При последовательной динамике в качестве стационарного состоя- ния будет выбран такой образ S, который потребует минимального чис- ла изменений состояний отдельных нейронов. Поскольку для двух дво- ичных векторов минимальное число изменений компонент, переводящее один вектор в другой, является расстоянием Хемминга pn(S, So), то мож- но заключить, что динамика сети заканчивается в ближайшем по Хем- мингу локальном минимуме энергии. Пусть состояние S соответствует некоторому идеальному образу па- мяти. Тогда эволюцию от состояния So к состоянию S можно сравнить 233
Нечеткие множества и нейронные сети с процедурой постепенного восстановления идеального образа S по его искаженной (зашумленной или неполной) копии So. Память с такими свойствами процесса считывания информации является ассоциативной. При поиске искаженные части целого восстанавливаются по имеющим- ся неискаженным частям на основе ассоциативных связей между ними. Ассоциативный характер памяти сети Хопфилда качественно отли- чает ее от обычной, адресной, компьютерной памяти. В последней из- влечение необходимой информации происходит по адресу ее начальной точки (ячейки памяти). Потеря адреса (или даже одного бита адреса) при- водит к потере доступа ко всему информационному фрагменту. При ис- пользовании же ассоциативной памяти доступ к информации произво- дится непосредственно по ее содержанию, т.е. по частично известным ис- каженным фрагментам. Потеря части информации или ее зашумление не приводит к катастрофическому ограничению доступа, если оставшейся информации достаточно для извлечения идеального образа. Поиск идеального образа по имеющейся неполной или зашумлен- ной его версии называется задачей распознавания образов. В нашей лек- ции особенности решения этой задачи нейронной сетью Хопфилда будут продемонстрированы на примерах, которые получены с использованием модели сети на персональной ЭВМ. В рассматриваемой модели сеть содержала 100 нейронов, упорядо- ченных в матрицу 10 х 10. Сеть обучалась по правилу Хебба на трех иде- альных образах — шрифтовых начертаниях латинских букв М, А и G (см. рис. 22.3). После обучения нейросети в качестве начальных состояний нейронов предъявлялись различные искаженные версии образов, кото- рые в дальнейшем эволюционировали с последовательной динамикой к стационарным состояниям. Рис. 22.3 Для каждой пары изображений на рисунке 22.4, левый образ являет- ся начальным состоянием, а правый — результатом работы сети, достиг- нутым стационарным состоянием. Образ на рис. 22.4(A) был выбран для тестирования адекватности поведения на идеальной задаче, когда предъявленное изображение точ- 234
Лекция 22 Нейронные сети Хопфилда и Хэмминга но соответствует информации в памяти. В этом случае за один шаг бы- ло достигнуто стационарное состояние. Образ на рис. 22.4(E) характерен для задач распознавания текста независимо от типа шрифта. Начальное и конечное изображения безусловно похожи, но попробуйте это объяснить машине! Рис. 22.4 Задания на рис. 22.4(В, Г) характерны для практических при- ложений. Нейросетевая система способна распознавать практически полностью зашумленные образы. Задачи, соответствующие рисун- кам 22.4 (Д, Е), демонстрируют замечательное свойство сети Хопфилда: она способна ассоциативно узнавать образ по его небольшому фрагменту. Важнейшей особенностью работы сети является генерация ложных об- разов. Пример ассоциации к ложному образу показан на рис. 22.4(Ж). Ложный образ является устойчивым локальным экстремумом энергии, но не соответствует никакому идеальному образу. Он является в некото- ром смысле собирательным образом, наследующим черты идеальных со- братьев. Ситуация с ложным образом эквивалентна нашему «Где-то я уже это видел». 235
Нечеткие множества и нейронные сети В данной простейшей задаче ложный образ является «неверным» ре- шением и поэтому вреден. Однако можно надеяться, что такая склон- ность сети к обобщениям может быть как-то использована. Характерно, что при увеличении объема полезной информации (сравните рис. 22.4 (Е) и (Ж)) исходное состояние попадает в область притяжения требуемого стационарного состояния, и образ распознается. 236
Лекция 23 Обобщения и применения модели Хопфилда Лекция 23. Обобщения и применения модели Хопфилда В лекции рассматриваются вероятностные обобщения модели Хопфил- да и статистическая машина. Описывается аналого-цифровой преобразова- тель — как модель сети с обратным распределением. В качестве примера приводится представление информации в сети Хопфидда, решающей зада- чу коммивояжера. Ключевые слова: сеть Хопфилда, машины Больцмана. Модификации правила Хэбба Ограничения емкости синаптической памяти, а также проблема ложной памяти классической нейронной сети в модели Хопфилда, обу- ченной по правилу Хебба, привели к появлению целого ряда исследова- ний, целью которых было снятие этих ограничений. При этом главный упор делался на модификацию правил обучения. Матрица Хебба с ортогонализацией образов На предыдущей лекции было установлено, что ортогональность об- разов обучающей выборки является весьма благоприятным обстоятель- ством, так как в этом случае можно показать их устойчивое сохранение в памяти. При точной ортогональности достигается максимальная емкость памяти, равная N — максимально возможному числу ортогональных об- разов из N компонент. На этом свойстве ортогональных образов и основан один из наибо- лее часто используемых способов улучшения правила Хебба: перед запо- минанием в нейронной сети исходные образы следует ортогонализовать. Процедура ортогонализации приводит к новому виду матрицы памяти: где В-1 — матрица, обратная к матрице В: 237
Нечеткие множества и нейронные сети Такая форма матрицы памяти обеспечивает воспроизведение любого на- бора из р < N образов. Однако существенным недостатком этого ме- тода является его нелокальность'. обучение связи между двумя нейрона- ми требует знания состояний всех других нейронов. Кроме того, прежде чем начать обучение, необходимо заранее знать все обучающие образы. Добавление нового образа требует полного переобучения сети. Поэтому данный подход весьма далек от исходных биологических оснований сети Хопфилда—Хебба, хотя на практике приводит к заметным улучшениям ее функционирования. Отказ от симметрии синапсов Другим подходом для улучшения правила Хебба является отказ от симметрии синаптических соединений. Матрица памяти может выби- раться в следующей форме: Элементы матрицы р3 из множества {0,1} управляют наличием или от- сутствием связи от нейрона г к нейрону j. Увеличение емкости памяти в этой модели в принципе может быть достигнуто за счет появления новых степеней свободы, связанных с мат- рицей Р. В общем случае, однако, трудно предложить алгоритм выбо- ра этой матрицы. Следует также отметить, что динамическая система с несимметричной матрицей не обязана быть устойчивой. Алгоритмы разобучения (забывания) Возможность забывания ненужной, лишней информации является одним из замечательных свойств биологической памяти. Идея приложе- ния этого свойства к искусственной нейросети Хопфилда «удивительно» проста: при запоминании образов обучающей выборки вместе с ними за- поминаются и ложные образы. Их-то и следует «забыть». Соответствующие алгоритмы получили название алгоритмов разо- бучения. Суть их сводится к следующему. На первой фазе происходит обучение сети по стандартному правилу Хебба. Память наполняется истинными образами и множеством ложной информации. На следующей фазе (фазе разобучения) сети предъявляет- ся некоторый (случайный) образ Д(°\ Сеть эволюционирует от состоя- ния Д(°) к некоторому состоянию Х^, которое при большом объеме обу- чающей выборки чаще всего оказывается ложным. Теперь матрица связей может быть поправлена, с целью уменьшить глубину минимума энергии, 238
Лекция 23 Обобщения и применения модели Хопфилда отвечающего этому ложному состоянию: Wij(t + 1) = - е • Х^Х^. В качестве степени забывания е выбирается некоторое малое число, что гарантирует незначительное ухудшение полезной памяти, если состояние А<^ не окажется ложным. После нескольких «сеансов забывания» свой- ства сети улучшаются. Данная процедура пока не имеет формального теоретического об- основания, однако на практике приводит к более регулярной энергети- ческой поверхности нейронной сети и к увеличению объема бассейнов притяжения полезных образов. Непрерывные системы На предыдущей лекции была рассмотрена классическая модель Хоп- филда с двоичными нейронами. Изменение состояний нейронов во вре- мени описывалось детерминированными правилами, которые в задан- ный момент времени однозначно определяли степень возбуждения всех нейронов сети. Хопфилд рассматривал модели с непрерывной активационной функ- цией F, точнее моделирующей биологический нейрон. В общем случае это S-образная или логистическая функция 1 + ехр(-А2УКГ)’ где А — коэффициент, определяющий крутизну сигмоидальной функции. Если А велико, F приближается к описанной ранее пороговой функции. Небольшие значения А дают более пологий наклон. Как и для бинарных систем, устойчивость гарантируется, если веса симметричны, т. е. = Wji и wn = 0 при всех i. Функция энергии, до- казывающая устойчивость подобных систем, сконструирована, но она не рассматривается здесь из-за своего концептуального сходства с дискрет- ным случаем. Если А велико, непрерывные системы функционируют подобно дискретным бинарным системам, окончательно стабилизируясь со всеми выходами, близкими нулю или единице, т. е. в вершине единичного ги- перкуба. С уменьшением А устойчивые точки удаляются от вершин, по- следовательно исчезая по мере приближения А к нулю. На рис. 23.1 пока- заны линии энергетических уровней непрерывной системы с двумя ней- ронами. 239
Нечеткие множества и нейронные сети Рис. 23.1 Сети Хопфилда и машина Больцмана Недостатком сетей Хопфилда является их тенденция стабилизиро- ваться в локальном, а не в глобальном минимуме функции энергии. Эта трудность преодолевается в основном с помощью класса сетей, извест- ных под названием машин Больцмана, в которых изменения состояний нейронов обусловлены статистическими, а не детерминированными за- кономерностями. Существует тесная аналогия между этими методами и отжигом металла, поэтому и сами методы часто называют имитацией от- жига. Термодинамические системы Металл отжигают, нагревая его до температуры, превышающей точ- ку его плавления, а затем давая ему медленно остыть. При высоких темпе- ратурах атомы, обладая высокими энергиями и свободой перемещения, случайным образом принимают все возможные конфигурации. При по- степенном снижении температуры энергии атомов уменьшаются, и си- стема в целом стремится принять конфигурацию с минимальной энер- гией. Когда охлаждение завершено, достигается состояние глобального минимума энергии. 240
Лекция 23 Обобщения и применения модели Хопфилда При фиксированной температуре распределение энергий системы определяется вероятностным фактором Больцмана ехр(—Е/кТ), где Е — энергия системы; к — постоянная Больцмана; Т — температура. Отсюда очевидно: имеется конечная вероятность того, что система обладает высокой энергией даже при низких температурах. Сходным об- разом имеется небольшая, но вычисляемая вероятность, что чайник с во- дой на огне замерзнет, прежде чем закипеть. Статистическое распределение энергий позволяет системе выходить из локальных минимумов энергии. В то же время, вероятность высоко- энергетических состояний быстро уменьшается со снижением темпера- туры. Следовательно, при низких температурах имеется сильная тенден- ция занять низкоэнергетическое состояние. Статистические сети Хопфилда Если правила изменения состояний для бинарной сети Хопфилда за- даны статистически, а не детерминированно, то возникает система, ими- тирующая отжиг. Для ее реализации вводится вероятность изменения ве- са как функция от величины, на которую выход нейрона OUT превышает его порог. Пусть Ек = NETk - 0к, где NETk — выход NET нейрона к;0 — порог нейрона к, и _ 1 Рк 1 + ехр(-5Ек/Т)' (отметим вероятностную функцию Больцмана в знаменателе), где Т — искусственная температура. В стадии функционирования искусственной температуре Т припи- сывается большое значение, нейроны устанавливаются в начальном со- стоянии, определяемом входным вектором, и сеть имеет возможность ис- кать минимум энергии в соответствии с нижеследующей процедурой: 1. Приписать состоянию каждого нейрона с вероятностью рк значе- ние единица, а с вероятностью 1 — рк — нуль. 2. Постепенно уменьшать искусственную температуру и повторять шаг 1, пока не будет достигнуто равновесие. Обобщенные сети Принцип машины Больцмана может быть перенесен на сети практи- чески любой конфигурации, но без гарантированной устойчивости. До- статочно выбрать одно множество нейронов в качестве входов и другое 241
Нечеткие множества и нейронные сети множество в качестве выходов, затем придать входному множеству зна- чения входного вектора и предоставить сети возможность релаксировать в соответствии с описанными выше правилами I и 2. Процедура обучения для такой сети состоит из следующих шагов: 1. Вычислить закрепленные вероятности: а) придать входным и выходным нейронам значения обучающего вектора; б) предоставить сети возможность искать равновесие; в) записать выходные значения для всех нейронов; г) повторить шаги от а до в для всех обучающих векторов; д) вычислить вероятность Р^, т. е. по всему множеству обучающих векторов вычислить вероятность того, что значения обоих нейронов рав- ны единице. 2. Вычислить незакрепленные вероятности: а) предоставить сети возможность «свободного движения» без за- крепления входов или выходов, начав со случайного состояния; б) повторить шаг 2а много раз, регистрируя значения всех нейронов; в) вычислить вероятность Р^, т. е. вероятность того, что значения обоих нейронов равны единице. 3. Скорректировать веса сети следую- щим образом: = т)(Р£ -Р^), где 6wij — изменение веса , т) — коэффициент скорости обучения. Приложения Аналого-цифровой преобразователь Рассмотрим электрическую схему, которая основана на сети с обрат- ной связью и реализует четырехбитовый аналого-цифровой преобразова- тель. На рис. 23.2 показана блок-схема этого устройства с усилителями, выполняющими роль искусственных нейронов. Сопротивления, выпол- няющие роль весов, соединяют выход каждого нейрона с входами всех остальных. Чтобы удовлетворить условию устойчивости, выход нейрона не соединялся сопротивлением с его собственным входом, а веса брались симметричными, т. е. сопротивление от выхода нейрона г к входу нейрона j имело ту же величину, что и сопротивление от выхода нейрона j к входу нейрона г. Заметим, что усилители имеют прямой и инвертированный выходы Это позволяет с помощью обычных положительных сопротивлений ре- ализовывать и те случаи, когда веса должны быть отрицательными. На рис. 23.2 показаны все возможные сопротивления, при этом никогда не 242
Лекция 23 Обобщения и применения модели Хопфилда возникает необходимости присоединять как прямой, так и инвертиро- ванный выходы нейрона к входу другого нейрона. ouTt оит2 оит3 В реальной системе каждый усилитель обладает конечным входным сопротивлением и входной емкостью, что должно учитываться при расче- те динамических характеристик. Для устойчивости сети не требуется ра- венства этих параметров для всех усилителей и их симметричности. Так как эти параметры влияют лишь на затраченное для получения решения время, а не на само решение, для упрощения анализа они исключены. Предполагается, что используется пороговая функция (предел сиг- моидальной функции при А, стремящемся к бесконечности). Далее, все выходы изменяются в начале дискретных интервалов времени, называе- мых эпохами. В начале каждой эпохи исследуется сумма входов каждого нейрона. Если она больше порога, выход принимает единичное значе- ние, если меньше — нулевое. На протяжении эпохи выходы нейронов не изменяются. Целью является такой выбор сопротивлений (весов), чтобы непре- рывно растущее напряжение X, приложенное к одновходовому терми- налу, порождало множество из четырех выходов, представляющих двоич- ную запись числа, величина которого приближенно равна входному на- пряжению (см. рис. 23.3). Определим сначала функцию энергии следую- 243
Нечеткие множества и нейронные сети щим образом: (\ 2 X - ^2 2jOUTj I + ^2 22j~1OUTj (1 - OUTj), з / з где X — входное напряжение. Когда Е минимизировано, то получаются нужные выходы. Первое выражение в скобках минимизируется, когда двоичное число, образован- ное выходами, наиболее близко (в среднеквадратичном смысле) к анало- говой величине входа X. Второе выражение в скобках обращается в нуль, когда все выходы равны 1 или 0, тем самым накладывая ограничение, что выходы принимают только двоичные значения. Если данное уравнение перегруппировать, то получим следующее выражение для весов: Wij = -‘li+\ Vi = T, где Wij — проводимость (величина, обратная сопротивлению) от выхода нейрона г к входу нейрона j (равная также проводимости от выхода ней- рона j к входу нейрона г); уг — проводимость от входа X к входу нейро- на г. Чтобы получить схему с приемлемыми значениями сопротивлений и потребляемой мощности, все веса должны быть промасштабированы. Идеальная выходная характеристика, изображенная на рис. 23.3, бу- дет реализована лишь в том случае, если входы устанавливаются в нуль перед выполнением преобразования. Если этого не делать, сеть может попасть в локальный минимум энергии и дать неверный выход. Задача коммивояжера Задача коммивояжера является оптимизационной задачей, часто возникающей на практике. Она может быть сформулирована следующим образом: для некоторой группы городов с заданными расстояниями меж- ду ними требуется найти кратчайший маршрут с посещением каждого го- рода один раз и с возвращением в исходную точку. Было доказано, что эта задача принадлежит большому множеству задач, называемых «NP- полными» (недетерминистски полиномиальными). Для NP-полных за- дач не известно лучшего метода решения, чем полный перебор всех воз- можных вариантов, и, по мнению большинства математиков, маловеро- ятно, чтобы лучший метод был когда-либо найден. Так как такой пол- ный поиск практически неосуществим для большого числа городов, то эвристические методы используются для нахождения приемлемых, хотя и неоптимальных решений. 244
Лекция 23 Обобщения и применения модели Хопфилда Вход, В Рис. 23.3 Существует решение этой задачи, основанное на сетях с обратными связями. Допустим, что города, которые необходимо посетить, помечены буквами А, В, С и D, а расстояния между парами городов есть dab, dbc и т.д. Решением является упорядоченное множество из п городов. Зада- ча состоит в отображении его в вычислительную сеть с использованием нейронов в режиме с большой крутизной характеристики (Л приближа- ется к бесконечности). Каждый город представлен строкой из п нейро- нов. Выход одного и только одного нейрона из них равен единице (все остальные равны нулю). Этот равный единице выход нейрона показы- вает порядковый номер, в котором данный город посещается при обхо- де. В табл. 23.1 приведен случай, когда город С посещается первым, го- род А — вторым, город D — третьим и город В — четвертым. Для такого представления требуется ?г2 нейронов — число, которое быстро растет с увеличением числа городов. Длина полученного маршрута была бы рав- на dca + dad + ddb + dbc. Так как каждый город посещается только один раз, и в каждый момент посещается лишь один город, то в каждой строке и в каждом столбце имеется по одной единице. Для задачи с п городами 245
Нечеткие множества и нейронные сети всего имеется п! различных маршрутов обхода. Если п = 60, то имеется 6934155 х 1078 возможных маршрутов. Если принять во внимание, что в нашей галактике (Млечном Пути) имеется лишь 1011 звезд, то станет яс- ным, что полный перебор всех возможных маршрутов для 1000 городов даже на самом быстром в мире компьютере займет время, сравнимое с геологической эпохой. Таблица 23.1 город Порядок следования 1 2 3 4 А 0 1 0 0 В 0 0 0 1 С 1 0 0 0 D 0 0 1 0 Продемонстрируем теперь, как сконструировать сеть для решения этой NP-полной проблемы. Каждый нейрон снабжен двумя индексами, которые соответствуют городу и порядковому номеру его посещения в маршруте. Например, OUTxj = 1 показывает, что город х был j-m по по- рядку городом маршрута. Функция энергии должна удовлетворять двум требованиям: во-пер- вых, должна быть малой только для тех решений, которые имеют по од- ной единице в каждой строке и в каждом столбце; во-вторых, должна ока- зывать предпочтение решениям с короткой длиной маршрута. Первое требование удовлетворяется введением следующей, состоя- щей из трех сумм, функции энергии: где А, В и С — некоторые константы. Этим достигается выполнение сле- дующих условий: 1. Первая тройная сумма равна нулю в том и только в том случае, если каждая строка (город) содержит не более одной единицы. 2. Вторая тройная сумма равна нулю в том и только в том случае, если каждый столбец (порядковый номер посещения) содержит не более одной единицы. 246
Лекция 23 Обобщения и применения модели Хопфилда 3. Третья сумма равна нулю в том и только в том случае, если матрица содержит ровно п единиц. Второе требование — предпочтение коротких маршрутов — удовлетворяется с помощью добавления следующего члена к функции энергии: Е = у £ 52 ^dxyOUT„(OUTy,l+1 + OUTy^), х у^х г Заметим, что этот член представляет собой длину любого допусти- мого маршрута. Для удобства индексы определяются по модулю п, т. е. OUTn+j = OUT3, aD — некоторая константа. При достаточно больших значениях А, В и С низкоэнергетические состояния будут представлять допустимые маршруты, а большие значе- ния D гарантируют, что будет найден короткий маршрут. Теперь зададим значения весов, т. е. установим соответствие между членами в функции энергии и членами общей формы (см. уравнение 6.2). Получаем wxi,yi = — АФ,,/1 — <5и) (не допускает более одной единицы в строке) —В6г](1 — 8ху) (не допускает более одной единицы в столбце) —С (глобальное ограничение) -Ddxy(djti+1 + (член, отвечающий за длину цикла), где = 1, если г = j, в противном случае 8^ — 0. Кроме того, каж- дый нейрон имеет смещающий вес х^, соединенный с +1 и равный Сп. Был проведен эксперимент, в котором задача коммивояжера была решена для 10 городов. В этом случае возбуждающая функция была равна OUT = |[1 + th(AT£T/i7o)]. Как показали результаты, 16 из 20 прогонов сошлись к допустимому маршруту и около 50% решений оказались кратчайшими маршрутами, что было установлено с помощью полного перебора. Наш результат ста- нет более впечатляющим, если осознать, что имеется 181440 допустимых маршрутов. Обсуждение Локальные минимумы Сеть, выполняющая аналого-цифровое преобразование, всегда на- ходит единственное оптимальное решение. Это обусловлено простой природой поверхности энергии в такой задаче. В задаче коммивояже- ра поверхность энергии сильно изрезана, изобилует склонами, долинами 247
Нечеткие множества и нейронные сети и локальными минимумами и нет гарантии, что будет найдено глобаль- ное оптимальное решение и что полученное решение будет допустимым. При этом возникают серьезные сомнения относительно надежности сети и доверия к ее решениям. Эти недостатки сети смягчаются тем обстоя- тельством, что нахождение глобальных минимумов для NP-полных задач является очень трудной задачей, которая не может быть решена в прием- лемое время никаким иным методом. Другие методы значительно более медленны и дают не лучшие результаты. Скорость Главное достоинство сети — ее способность быстро производить вы- числения. Причина этого — высокая степень распараллеливания вычис- лительного процесса. Если сеть реализована на аналоговой электронике, то решение редко занимает промежуток времени, больший нескольких постоянных времени сети. Более того, время сходимости слабо зависит от размерности задачи. Для сравнения: при использовании обычных под- ходов время, необходимое для решения, возрастает более чем экспонен- циально. Функция энергии Определение функции энергии сети в зависимости от задачи не яв- ляется тривиальным. Существующие решения были получены с помо- щью изобретательности, математического опыта и таланта, которые не родятся в изобилии. Емкость сети Актуальным предметом изучения остается максимальное количе- ство запоминаемой информации, которое может храниться в сети Хоп- филда. Так как сеть из п двоичных нейронов может иметь 2П состояний, то исследователи были удивлены, обнаружив, что максимальная емкость памяти оказалась значительно меньшей. Если бы удалось закрепить в памяти большое количество информа- ционных единиц, то сеть не стабилизировалась бы на некоторых из них. Более того, она могла бы помнить то, чему ее не учили, т. е. могла ста- билизироваться на решении, не являющемся требуемым вектором. Эти свойства ставили в тупик первых исследователей, которые не имели ма- тематических методов для предварительной оценки емкости памяти сети. Последние результаты пролили свет на эту проблему. Например, предполагалось, что максимальное количество запоминаемой информа- ции, которое может храниться в сети из N нейронов и безошибочно из- влекаться, меньше чем с№, где с — положительная константа, большая 248
Лекция 23 Обобщения и применения модели Хопфилда единицы. Хотя этот предел и достигается в некоторых случаях, в общем случае он оказался слишком оптимистическим. Было эксперименталь- но показано, что предельное значение емкости обычно ближе к 0,157V. Также, по новейшим данным, число таких состояний не может превы- шать N, что согласуется с наблюдениями над реальными системами и яв- ляется наилучшей на сегодняшний день оценкой. 249
Нечеткие множества и нейронные сети Лекция 24. Двунаправленная ассоциативная память В лекции рассматриваются архитектура и принципы работы нейронной сети ДАП. Затронуты вопросы емкости данной сети. Дается обзор некото- рых модификаций этой сети. Ключевые слова: двунаправленная ассоциативная память, ассоциа- ция, память. Память человека часто является ассоциативной; один предмет напо- минает нам о другом, а другой — о третьем. Если выпустить наши мысли из-под контроля, они будут перемещаться от предмета к предмету по це- почке умственных ассоциаций. Кроме того, возможно использование ас- социативного мышления для восстановления забытых образов. Если мы забыли, где оставили свои очки, то пытаемся вспомнить, где видели их в последний раз, с кем в это время разговаривали и что делали. Так уста- навливается конец цепочки ассоциаций, и это позволяет нашей памяти соединять ассоциации для получения требуемого образа. Ассоциативная память, рассмотренная в предыдущих лекциях, яв- ляется, строго говоря, автоассоциативной: это означает, что образ может быть завершен или исправлен, но не может быть ассоциирован с другим образом. Данный факт является результатом одноуровневой структуры ассоциативной памяти, в ней вектор появляется на выходе тех же ней- ронов, на которые поступает входной вектор. Двунаправленная ассоциативная память (ДАП) является гетсроассо- циативной; входной вектор поступает на один набор нейронов, а соответ- ствующий выходной вектор появляется на другом наборе нейронов. Как и сеть Хопфилда, ДАП способна к обобщению, вырабатывая правильные реакции, несмотря на искаженные входы. Кроме того, могут быть реа- лизованы адаптивные версии ДАП, выделяющие эталонный образ из за- шумленных экземпляров. Эти возможности сильно напоминают процесс мышления человека и позволяют искусственным нейронным сетям при- близиться к моделированию естественного мозга. Структура ДАП На рис. 24.1 приведена базовая конфигурация ДАП. Она выбрана та- ким образом, чтобы подчеркнуть сходство с сетями Хопфилда и преду- смотреть увеличения количества слоев. На рис. 24 1 входной вектор А об- рабатывается матрицей весов W сети, в результате чего вырабатывается 250
Лекция 24 Двунаправленная ассоциативная память вектор выходных сигналов нейронов В. Вектор В затем обрабатывается транспонированной матрицей W* весов сети, которая вырабатывает но- вые выходные сигналы, представляющие собой новый входной вектор А. Процесс повторяется до тех пор, пока сеть не достигнет стабильного со- стояния, в котором ни вектор А, ни вектор В не изменяются. Заметим, что нейроны в слоях 1 и 2 функционируют, как и в других парадигмах, вы- числяя сумму взвешенных входов и вычисляя по ней значение функции активации F. Этот процесс может быть выражен следующим образом: или в векторной форме: bi — 3 В = F(AW), где В — вектор выходных сигналов нейронов слоя 2, Л — вектор выход- ных сигналов нейронов слоя 1, W — матрица весов связей между слоями 1 и 2, F — функция активации. Рис. 24.1 Аналогично, A = F(BW*), где W* является транспозицией матрицы И7. 251
Нечеткие множества и нейронные сети Как отмечено нами ранее, Гроссберг показал преимущества исполь- зования сигмоидальной (логистической) функции активации г l+exp^-XNET^ где OUTi — выход нейрона г, NET} — взвешенная сумма входных сигна- лов нейрона г, Л — константа, определяющая степень кривизны. В простейших версиях ДАП значение константы А выбирается боль- шим, в результате чего функция активации приближается к простой по- роговой функции. В дальнейшем будем предполагать, что используется пороговая функция активации. Примем также, что существует память внутри каждого нейрона в слоях 1 и 2 и что выходные сигналы нейронов изменяются одновременно с каждым тактом синхронизации, оставаясь постоянными в паузах между этими тактами. Таким образом, поведение нейронов может быть описано следующими правилами: Оитг(п + 1) = 1, если NET^n) > О, OUTi(n + Z) = 0, если NET^n) < О, ОиТг(п + Z) = OUT(n), если NET^n) = О, где OUTi(ri) представляет собой величину выходного сигнала нейрона г в момент времени п. Заметим, что, как и в описанных ранее сетях, слой 0 не производит вычислений и не имеет памяти; он является только средством распреде- ления выходных сигналов слоя 2 к элементам матрицы Wf. Восстановление запомненных ассоциаций Долговременная память (или ассоциации) реализуется в весовых мас- сивах W и W1. Каждый образ состоит из двух векторов: вектора А, явля- ющегося выходом слоя 1, и вектора В, ассоциированного образа, явля- ющегося выходом слоя 2. Для восстановления ассоциированного обра- за вектор А или его часть кратковременно устанавливаются на выходах слоя 1. Затем вектор А удаляется, и сеть приводится в стабильное состо- яние, вырабатывая ассоциированный вектор В на выходе слоя 2. Далее вектор В воздействует через транспонированную матрицу W*, воспроиз- водя воздействие исходного входного вектора А на выходе слоя 1. Каж- дый такой цикл вызывает уточнение выходных векторов слоя 1 и 2 до тех пор, пока не будет достигнута точка стабильности в сети. Эта точка может быть определена как резонансная, поскольку вектор передается обратно 252
Лекция 24 Двунаправленная ассоциативная память и вперед между слоями сети, всегда обрабатывая текущие выходные сиг- налы, но больше не изменяя их. Состояние нейронов представляет собой кратковременную память (КП), так как оно может быстро изменяться при появлении другого входного вектора. Значения коэффициентов весовой матрицы образуют долговременную память и могут изменяться только на более длительном отрезке времени с помощью методов, представленных ниже в данной лекции. Сеть функционирует в направлении минимизации функции энер- гии Ляпунова в основном таким же образом, как и сети Хопфилда в про- цессе сходимости. Следовательно, каждый цикл модифицирует систему в направлении энергетического минимума, расположение которого опре- деляется значениями весов. Этот процесс может быть визуально представлен в форме направ- ленного движения мяча по резиновой ленте, вытянутой над столом, при- чем каждому запомненному образу соответствует точка, "вдавленная''в направлении поверхности стола. Рис. 24.2 иллюстрирует данную анало- гию, на нем отмечен один запомненный образ. Данный процесс форми- рует минимум гравитационной энергии в каждой точке, соответствую- щей запомненному образу, с соответствующим искривлением поля при- тяжения в направлении к данной точке. Свободно движущийся мяч по- падает в поле притяжения и в результате будет двигаться в направлении энергетического минимума, где и остановится. Резиновый лист Положение мяча Рис. 24.2 253
Нечеткие множества и нейронные сети Кодировка ассоциаций Обычно сеть обучается распознаванию множества образов. Обуче- ние производится с использованием обучающего набора, состоящего из пар векторов А и В. Процесс обучения реализуется в форме вычислений; это означает, что весовая матрица вычисляется как сумма произведений всех векторных пар обучающего набора. В символьной форме запишем w=EArB- Предположим, что все запомненные образы представляют собой двоичные векторы. Это ограничение будет выглядеть менее строгим, ес- ли вспомнить, что все содержимое Библиотеки Университета может быть закодировано в один очень длинный двоичный вектор. Показано, что бо- лее высокая производительность достигается при использовании бипо- лярных векторов. При этом векторная компонента, большая чем 0, ста- новится +1, а компонента, меньшая или равная 0, становится —1. Предположим, что требуется обучить сеть с целью запоминания трех пар двоичных векторов, причем векторы А, имеют размерность такую же, как и векторы Bi. Надо отметить, что это не является необходимым усло- вием для работы алгоритма; ассоциации могут быть сформированы и меж- ду векторами различной размерности. Исходный вектор Ai = (1,0,0) Ассоциированный вектор Bi = (0,0,1) Бинарна А{ = (1, -1, -1) я версия В( = (—1,—1,1) А2 = (0,1,0) в2 = (0,1,0) А^ = (-1,1,-1) В'=(-1,1,-1) Аз =(0,0,1) Вз = (1,0,0) Аз = (—1,—1,1) В( = (1,—1,—1) Вычисляем весовую матрицу: Далее, прикладывая входной вектор А = (1,0,0), вычисляем выход- ной вектор О: О = А'^Т = (1,0,0)ж (-1,-1,3) 254
Лекция 24 Двунаправленная ассоциативная память Используя пороговое правило, bi = 1, если Oi > О, bi = 0, если Oi < О, Ы = 0, не изменяется, если ог = О, вычисляем SJ = (0,0,1), что является требуемой ассоциацией. Затем, подавая вектор В[ через обратную связь на вход первого слоя к Wf, получаем О = B[WT = (1,0,0)ж что дает значение (1,0,0) после применения пороговой функции и обра- зует величину вектора Аг. Этот пример показывает, как входной вектор А с использованием матрицы W производит выходной вектор В. В свою очередь, вектор В с использованием матрицы W* производит вектор А, и таким образом в системе формируется устойчивое состояние и резонанс. ДАП обладает способностью к обобщению. Например, если неза- вершенный или частично искаженный вектор подается в качестве А, сеть имеет тенденцию к выработке запомненного вектора В, который, в свою очередь, стремится исправить ошибки в А. Возможно, для этого потребу- ется несколько проходов, но сеть сходится к воспроизведению ближай- шего запомненного образа. Системы с обратной связью могут иметь тенденцию к колебаниям; это означает, что они могут переходить от состояния к состоянию, ни- когда не достигая стабильности. Доказано, что все ДАП безусловно ста- бильны при любых значениях весов сети. Это важное свойство возника- ет из отношения транспонирования между двумя весовыми матрицами и означает, что любой набор ассоциаций может быть использован без риска возникновения нестабильности. Существует взаимосвязь между ДАП и рассмотренными на предыду- щих лекциях сетями Хопфилда. Если весовая матрица W является квад- ратной и симметричной, то W = W*. В этом случае, если слои 1 и 2 явля- ются одним и тем же набором нейронов, ДАП превращается в автоассо- циативную сеть Хопфилда. Емкость памяти Как и сети Хопфилда, ДАП имеет ограничения на максимальное количество ассоциаций, которые она может точно воспроизвести. Если 255
Нечеткие множества и нейронные сети этот лимит превышен, сеть может выработать неверный выходной сиг- нал, воспроизводя ассоциации, которым не обучена. Б. Коско получил оценки, в соответствии с которыми количество запомненных ассоциаций не может превышать количества нейронов в меньшем слое. Для этого емкость памяти должна быть максимизирована посредством специального кодирования, при котором количество ком- понент со значениями 4-1 равно количеству компонент со значениями —1 в каждом биполярном векторе. Эта оценка оказалась слишком опти- мистичной. Е.Г. Рознер показал, что оценка емкости сетей Хопфилда мо- жет быть легко обобщена для ДАП. Можно показать, что если L векто- ров выбраны случайно и представлены в указанной выше форме, и если L меньше чем n/(21og2n), где п — количество нейронов в наименьшем слое, тогда все запомненные образы, за исключением «малой части», мо- гут быть восстановлены. Например, если п = 1024, тогда L должно быть меньше 51. Если должны восстанавливаться все образы, то L должно быть меньше re/(41og2n), то есть меньше 25. Эти несколько озадачивающие результаты показывают, что большие системы могут запоминать только умеренное количество ассоциаций. Известно, что ДАП может иметь до 2П стабильных состояний, если пороговое значение Т выбирается для каждого нейрона. Такая конфигу- рация, которую авторы назвали негомогенной ДАП, является расшире- нием исходной гомогенной ДАП, где все пороги были нулевыми. Моди- фицированная передаточная функция нейрона принимает в этом случае следующий вид: OUTifn + 1) = 1, если NETi(ri) > 7}, OUTi(n 4- 0 = I, если NETi(n') < Tiy OUTi(n +I) = OUTi (n), если NETi (n) = T,, где OUTi(t) — выход нейрона i в момент времени t. С помощью выбора соответствующего порога для каждого нейрона, количество стабильных состояний может быть сделано любым в диапа- зоне от 1 до п, где п — количество нейронов в меньшем слое. К сожале- нию, эти состояния не могут быть выбраны случайно; они определяют- ся жесткой геометрической процедурой. Если пользователь выбирает L состояний случайным образом, причем L меньше (0,68)?t2/[log2(n)] 4- 42, и если каждый вектор имеет 4 4- 1од2П компонент, равных 4-1, и осталь- ные, равные —1, то можно сконструировать негомогенную ДАП, имею- щую 98% этих векторов в качестве стабильных состояний. Например, ес- ли п = 1024, то L должно быть меньше 3637, а это является существенным улучшением по сравнению с гомогенными ДАП, но намного меньше, чем 21024 возможных состояний. 256
Лекция 24 Двунаправленная ассоциативная память Ограничение количества единиц во входных векторах представляет серьезную проблему, тем более, что теория, которая позволяет перекоди- ровать произвольный набор векторов в такой "разреженный"набор, от- сутствует. Возможно, однако, что еще более серьезной является проблема некорректной сходимости. Суть этой проблемы заключается в том, что сеть может не производить точных ассоциаций вследствие природы по- ля притяжения; об ее форме известно очень немногое. Это означает, что ДАП не является ассоциатором по отношению к ближайшему соседнему образу. В действительности она может производить ассоциации, имеющие слабое отношение ко входному вектору. Как и в случае гомогенных ДАП, могут встречаться ложные стабильные состояния, а об их количестве и природе известно крайне мало. Несмотря на эти проблемы, ДАП остается объектом интенсивных исследований. Основная привлекательность ДАП заключается в ее про- стоте. Кроме того, она может быть реализована в виде СБИС (либо ана- логовых, либо цифровых), что делает ее потенциально недорогой. Так как наши знания постоянно растут, ограничения ДАП могут быть сня- ты. В этом случае как в экспериментальных, так и в практических прило- жениях ДАП будет являться весьма перспективным и полезным классом искусственных нейронных сетей. Непрерывная ДАП В предшествующем обсуждении нейроны в слоях 1 и 2 рассматри- вались как синхронные; каждый нейрон обладает памятью, причем все нейроны изменяют состояния одновременно под воздействием импуль- са от центральных часов. В асинхронной системе любой нейрон свободен изменять состояние в любое время, когда его вход предписывает это сде- лать. Кроме того, при определении функции активации нейрона исполь- зовался простой порог, образуя разрывность передаточной функции ней- ронов. Как синхронность функционирования, так и разрывность функ- ций являются биологически неправдоподобными и совсем необязатель- ными; непрерывные асинхронные ДАП отвергают синхронность и раз- рывность, но функционируют в основном аналогично дискретным вер- сиям. Может показаться, что такие системы должны быть нестабильны- ми. Показано, что непрерывные ДАП являются стабильными (однако для них справедливы ограничения емкости, указанные ранее). С. Гроссберг показал, что сигмоида является оптимальной функцией активации бла- годаря ее способности усиливать низкоуровневые сигналы и в то же вре- мя сжимать динамический диапазон нейронов. Непрерывная ДАП может иметь сигмоидальную функцию с величиной Л, близкой к единице, и со- 257
Нечеткие множества и нейронные сети здавать тем самым нейроны с плавной и непрерывной реакцией, во мно- гом аналогичной реакции их биологических прототипов. Адаптивная ДАП В версиях ДАП, рассматриваемых до сих пор, весовая матрица вы- числяется в виде суммы произведений пар векторов. Такие вычисления полезны, поскольку они демонстрируют функции, которые может вы- полнять ДАП. Однако это определенно не тот способ, посредством ко- торого производится определение весов нейронов мозга. Адаптивная ДАП изменяет свои веса в процессе функционирования. Это означает, что подача на вход сети обучающего набора входных векто- ров заставляет ее изменять энергетическое состояние до получения ре- зонанса. Постепенно кратковременная память превращается в долговре- менную память, настраивая сеть в ходе ее функционирования. В процес- се обучения векторы подаются на слой А, а ассоциированные векторы — на слой В. Один из них или оба вектора могут быть зашумленными вер- сиями эталона; сеть обучается исходным векторам, свободным от шума. В этом случае она извлекает сущность ассоциаций, обучаясь эталонам, хо- тя «видела» только зашумленные аппроксимации. Так как доказано, что непрерывная ДАП является стабильной неза- висимо от значения весов, ожидается, что медленное изменение ее весов не должно нарушить этой стабильности. Простейший обучающий алгоритм использует правило Хэбба, в ко- тором изменение веса пропорционально уровню активации его нейрона- источника и уровню активации нейрона-приемника. В символьной запи- си это выглядит следующим образом: Swij = ^(OUTiOUTj), где 6ij — изменение веса связи нейрона i с нейроном j в матрицах W или Wl, OUTi — выход нейрона i слоя 1 или 2, г/ — положительный нор- мирующий коэффициент обучения, меньший 1. Конкурирующая ДАП Во многих конкурирующих нейронных системах наблюдаются неко- торые виды конкуренции между нейронами. В нейронах, обрабатываю- щих сигналы от сетчатки, латеральное торможение приводит к увеличе- нию выхода наиболее высокоактивных нейронов за счет соседних. Та- кие системы увеличивают контрастность, поднимая уровень активности нейронов, подсоединенных к яркой области сетчатки, и в то же время еще более ослабляя выходы нейронов, подсоединенных к темным обла- 258
Лекция 24 Двунаправленная ассоциативная память стям. В ДАП конкуренция реализуется с помощью взаимного соединения нейронов внутри каждого слоя посредством дополнительных связей. Ве- са этих связей формируют другую весовую матрицу с положительными значениями элементов главной диагонали и отрицательными значения- ми остальных элементов. Теорема Кохонена-Гроссберга показывает, что такая сеть является безусловно стабильной, если весовые матрицы сим- метричны. На практике сети обычно стабильны даже в случае отсутствия симметрии весовых матриц. Однако неизвестно, какие особенности ве- совых матриц могут привести к неустойчивости функционирования се- ти. 259
Нечеткие множества и нейронные сети Лекция 25. Адаптивная резонансная теория. Архитектура В лекции рассматривается проблема стабильности—пластичности при распознавании образов. Изучаются нейросетевые архитектуры APT. Ключевые слова: стабильность, пластичность, адаптивная резонанс- ная теория, APT. Мозг человека выполняет трудную задачу обработки непрерывного потока сенсорной информации, получаемой из окружающего мира. Из моря тривиальной информации он должен выделить жизненно важную, обработать ее и, возможно, зарегистрировать в "долговременном реги- стре". Однако новые образы запоминаются в такой форме, что ранее за- помненные не модифицируются и не забываются. Понимание сути этого процесса представляет собой серьезную задачу для исследователей: ка- ким образом память остается пластичной, способной к восприятию но- вых образов, и в то же время сохраняет стабильность, гарантирующую, что образы не уничтожатся и не разрушатся в процессе функционирования? Проблема стабильности-пластичности является одной из самых сложных и трудно решаемых задач при построении искусственных си- стем, моделирующих восприятие. Способ восприятия внешнего мира живыми организмами (и, прежде всего, человеком) состоит в постоянной оценке: является ли некоторый образ «новой» информацией и, следова- тельно, реакция на него должна быть поисково-познавательной, с сохра- нением этого образа в памяти, либо этот образ является вариантом «ста- рой», уже знакомой картины и в этом случае реакция организма должна соответствовать ранее накопленному опыту, а специальное запоминание образа в последнем случае не требуется. Таким образом, восприятие од- новременно пластично, адаптировано к новой информации, и при этом оно стабильно, то есть не разрушает память о старых образах. Традиционные искусственные нейронные сети оказались не в состо- янии решить проблему стабильности-пластичности. Очень часто обучение новому образу уничтожает или изменяет результаты предшествующего обучения. В некоторых случаях это не существенно. Если имеется толь- ко фиксированный набор обучающих векторов, они могут предъявляться при обучении циклически. Рассмотренные на предыдущих лекциях ней- ронные системы не адаптированы к решению этой задачи. Так, напри- мер, многослойный персептрон, обучающийся по методу обратного рас- пространения, запоминает весь пакет обучающей информации, при этом 260
Лекция 25 Адаптивная резонансная теория. Архитектура образы обучающей выборки предъявляются в процессе обучения мно- гократно. Попытки затем обучить персептрон новому образу приведут к модификации синаптических связей с неконтролируемым разрушением структуры памяти о предыдущих образах. Таким образом, персептрон не способен к запоминанию новой информации, и необходимо полное пе- реобучение сети. Аналогичная ситуация имеет место и в сетях Кохонена и Хеммин- га, обучающихся на основе самоорганизации. Данные сети всегда выдают положительный результат при классификации. Тем самым, эти нейрон- ные сети не в состоянии отделить новые образы от искаженных или за- шумленных версий старых образов. В реальной ситуации сеть будет под- вергаться постоянно изменяющимся воздействиям; она может никогда не увидеть один и тот же обучающий вектор дважды. При таких обсто- ятельствах сеть, скорее всего, не будет обучаться; она будет непрерывно изменять свои веса, не достигая удовлетворительных результатов. Более того, приведены примеры сети, в которой только четыре обу- чающих вектора, предъявляемых циклически, заставляют веса сети из- меняться непрерывно, никогда не сходясь. Такая временная нестабиль- ность явилась одним из главных факторов, заставивших Гроссберга и его сотрудников исследовать радикально отличные конфигурации. Адаптив- ная резонансная теория (APT) является одним из результатов исследова- ния этой проблемы. Сети и алгоритмы APT сохраняют пластичность, необходимую для изучения новых образов и предотвращения изменений ранее запомнен- ных образов. Открытие этой способности А'г вызвало большой интерес к APT, но многие исследователи нашли теорию трудной для понимания. Математическое описание APT является сложным, но основные идеи и принципы реализации достаточно просты для понимания. Мы сконцен- трируемся далее на общем описании APT. Нашей целью является изло- жение конкретной информации, чтобы слушатель мог понять основные идеи и возможности этого важного вида сетей. Принцип адаптивного резонанса Привлекательной особенностью нейронных сетей с адаптивным ре- зонансом является то, что они сохраняют пластичность при запоминании новых образов, и, в то же время, предотвращают модификацию старой памяти. Нейросеть имеет внутренний детектор новизны - тест на срав- нение предъявленного образа с содержимым памяти. При удачном по- иске в памяти предъявленный образ классифицируется с одновременной уточняющей модификацией синаптических весов нейрона, выполнив- шего классификацию. Такую ситуацию называют возникновением адап- 261
Нечеткие множества и нейронные сети тивного резонанса в сети в ответ на предъявление образа. Если резонанс не возникает в пределах некоторого заданного порогового уровня, то тест новизны считается успешным и образ воспринимается сетью как новый. Модификация весов нейронов, не испытавших резонанса, при этом не производится. Важным понятием в теории адаптивного резонанса является так на- зываемый шаблон критических черт (critical feature pattern) информации. Этот термин показывает, что не все черты (детали), представленные в некотором образе, являются существенными для системы восприятия. Результат распознавания определяется присутствием специфичных кри- тических особенностей в образе. Рассмотрим это на примере. Рис. 25.1 Обе пары картинок на рис. 25.1 имеют общее свойство: в каждой из пар черная точка в правом нижнем углу заменена на белую, а белая точка в левом нижнем углу — на черную. Такое изменение для правой пары кар- тинок (на рисунке — пара (Ь)), очевидно, является не более чем шумом, и оба образа (Ь) есть искаженные версии одного и того же изображения. Тем самым, измененные точки не являются для этого образа критически- ми. Совершенно иная ситуация изображена на левой паре картинок (а). Здесь такое же изменение точек оказывается слишком существенным для образа, так что правая и левая картинки являются различными образа- ми. Следовательно, одна и та же черта образа может быть не существен- ной в одном случае и критической — в другом. Задачей нейронной сети будет формирование правильной реакции в обоих случаях: «пластичное» решение о появлении нового образа для пары (а) и «стабильное» реше- ние о совпадении картинок (Ь). При этом выделение критической части информации должно получаться автоматически в процессе работы и обу- чения сети, на основе ее индивидуального опыта. Отметим, что, в общем случае, одного лишь перечисления черт (да- же если его предварительно выполнит человек, предполагая определен- 262
Лекция 25 Адаптивная резонансная теория. Архитектура ные условия дальнейшей работы сети) может оказаться недостаточно для успешного функционирования искусственной нейронной системы: кри- тическими могут оказаться специфические связи между несколькими от- дельными чертами. Второй значительный вывод теории — необходимость самоадапта- ции алгоритма поиска образов в памяти. Нейронная сеть работает в по- стоянно изменяющихся условиях, так что предопределенная схема по- иска, отвечающая некоторой структуре информации, может в дальней- шем оказаться неэффективной при изменении этой структуры. В теории адаптивного резонанса адекватность достигается введением специализи- рованной ориентирующей системы, которая самосогласованно прекра- щает дальнейший поиск резонанса в памяти и принимает решение о но- визне информации. Ориентирующая система также обучается в процессе работы. При наличии резонанса теория APT предполагает возможность пря- мого доступа к образу памяти, откликнувшемуся на резонанс. В этом слу- чает шаблон критических черт выступает ключем-прототипом для пря- мого доступа. Эти и другие особенности теории адаптивного резонанса нашли свое отражение в нейросетевых архитектурах, которые получили такое же название — APT. Архитектура APT Адаптивная резонансная теория включает две парадигмы, каждая из которых определяется формой входных данных и способом их обработ- ки. APT-1 создана для обработки двоичных входных векторов, в то время как АРТ-2, более позднее обобщение АРТ-1, может классифицировать как двоичные, так и непрерывные векторы. В данном курсе рассматрива- ется только APT-1. Для краткости АРТ-1 в дальнейшем будем обозначать как APT. Описание APT Сеть APT представляет собой векторный классификатор. Входной вектор классифицируется в зависимости от того, на какой из множества ранее запомненных образов он похож. Свое классификационное реше- ние сеть APT выражает в форме возбуждения одного из нейронов распо- знающего слоя. Если входной вектор не соответствует ни одному из за- помненных образов, создается новая категория путем запоминания об- раза, идентичного новому входному вектору. Если определено, что вход- ной вектор похож на один из ранее запомненных с точки зрения опреде- ленного критерия сходства, запомненный вектор будет изменяться (обу- 263
Нечеткие множества и нейронные сети чаться) под воздействием нового входного вектора таким образом, чтобы стать более похожим на этот входной вектор. Запомненный образ не будет изменяться, если текущий входной вектор не окажется достаточно похожим на него. Таким образом, реша- ется дилемма стабильности-пластичности. Новый образ может создавать дополнительные классификационные категории, однако он не может за- ставить измениться существующую память. Упрощенная архитектура APT На рис. 25.2 показана упрощенная конфигурация сети APT, пред- ставленная в виде пяти функциональных модулей. Она включает два слоя нейронов — так называемые «слой сравнения» и «слой распознавания». Приемник 1, Приемник 2 и Сброс обеспечивают управляющие функции, необходимые для обучения и классификации. Перед рассмотрением во- просов функционирования сети в целом необходимо рассмотреть отдель- но назначения модулей; далее обсуждаются функции каждого из них. X Рис. 25.2 Слой сравнения. Слой сравнения получает двоичный входной век- тор X и первоначально пропускает его неизмененным для формирования выходного вектора С. На более поздней фазе в распознающем слое выра- батывается двоичный вектор R, модифицирующий вектор С, как описа- но ниже. 264
Лекция 25 Адаптивная резонансная теория. Архитектура Каждый нейрон в слое сравнения (см. рис. 25.3) получает три дво- ичных входа (0 или 1): (1) компонента х> входного вектора X; (2) сигнал обратной связи Rt — взвешенная сумма выходов распознающего слоя; (3) вход от Приемника 1 (один и тот же сигнал подается на все нейроны этого слоя). Рис. 25.3 Чтобы получить на выходе нейрона единичное значение, как ми- нимум два из трех его входов должны равняться единице; в противном случае его выход будет нулевым. Таким образом, реализуется правило двух третей. Первоначально выходной сигнал G1 Приемника 1 установ- лен в единицу, обеспечивая один из входов, необходимых для возбужде- ния нейронов, а все компоненты вектора R установлены в 0; следователь- но, в этот момент вектор С идентичен двоичному входному вектору X. Слой распознавания. Слой распознавания осуществляет классифи- кацию входных векторов. Каждый нейрон в слое распознавания имеет соответствующий вектор весов Bj. Только один нейрон с весовым век- тором, наиболее соответствующим входному вектору, возбуждается; все остальные заторможены. 265
Нечеткие множества и нейронные сети Как показано на рис. 25.4, нейрон в распознающем слое имеет мак- симальную реакцию, если вектор С, являющийся выходом слоя сравне- ния, соответствует набору его весов; следовательно, веса представляют запомненный образ или экземпляр для категории входных векторов. Та- кие веса являются действительными числами, а не двоичными величи- нами. Двоичная версия этого образа также запоминается в соответствую- щем наборе весов слоя сравнения (рис. 25.3); этот набор состоит из весов связей, соединяющих определенные нейроны слоя распознавания, по од- ному весу на каждый нейрон слоя сравнения. Рис. 25.4 В процессе функционирования каждый нейрон слоя распознава- ния вычисляет свертку вектора собственных весов и входного вектора С. Нейрон, веса которого наиболее близки вектору С, будет иметь самый большой выход, тем самым выигрывая соревнование и одновременно за- тормаживая все остальные нейроны в слое. Как показано на рис. 25.5, нейроны внутри слоя распознавания взаимно соединены в латерально- тормозящую сеть. В простейшем случае (единственном, рассмотренном в данной работе) предусматривается, что только один нейрон в слое воз- 266
Лекция 25 Адаптивная резонансная теория. Архитектура буждается в каждый момент времени (т. е. только нейрон с наивысшим уровнем активации будет иметь единичный выход; все остальные нейро- ны будут иметь нулевой выход). Эта конкуренция реализуется введением связей с отрицательными весами с выхода каждого нейрона т, на входы остальных нейронов. Таким образом, если нейрон имеет большой выход, он тормозит все остальные нейроны в слое. Кроме того, каждый нейрон имеет связь с положительным весом со своего выхода на свой вход. Если нейрон имеет единичный выходной уровень, эта обратная связь стремит- ся усилить и поддержать его. Приемник 2. G2, выход Приемника 2, равен единице, если входной вектор X имеет хотя бы одну единичную компоненту. Более точно, G2 является логическим ИЛИ от компонента вектора X. Приемник 1. Как и сигнал G2, выходной сигнал G1 Приемника 1 равен 1, если хотя бы одна компонента двоичного входного вектора X равна единице; однако, если хотя бы одна компонента вектора R равна единице, G1 устанавливается в нуль. Таблица, определяющая эти соотношения: Таблица 25.1 ИЛИ от компонента вектора X ИЛИ от компонента вектора R G1 0 0 0 1 0 1 1 1 0 0 1 0 Сброс. Модуль сброса измеряет сходство между векторами X и С. Если они отличаются сильнее, чем требует параметр сходства, вырабаты- вается сигнал сброса возбужденного нейрона в слое распознавания. В процессе функционирования модуль сброса вычисляет сходство как отношение количества единиц в векторе X к их количеству в векто- ре G. Если это отношение ниже значения параметра сходства, вырабаты- вается сигнал сброса. Функционирование сети APT в процессе классификации Процесс классификации в APT состоит из трех основных фаз: рас- познавание, сравнение и поиск. 267
Нечеткие множества и нейронные сети Фаза распознавания. В начальный момент времени входной вектор отсутствует на входе сети; следовательно, все компоненты входного век- тора X можно рассматривать как нулевые. Тем самым сигнал G2 уста- навливается в 0 и, следовательно, в нуль устанавливаются выходы всех нейронов слоя распознавания. Поскольку все нейроны слоя распознава- ния начинают работу в одинаковом состоянии, они имеют равные шан- сы выиграть в последующей конкуренции. Затем на вход сети подается входной вектор X, который должен быть классифицирован. Этот вектор должен иметь одну или более компонент, отличных от нуля, в результате чего и G1, и G2 становятся равными единице. Это «подкачивает» нейро- ны слоя сравнения, обеспечивая один из двух единичных входов, необ- ходимых для возбуждения нейронов в соответствии с правилом двух тре- тей, и тем самым позволяя нейрону возбуждаться, если соответствующая компонента входного вектора X равна единице. Таким образом, в тече- ние данной фазы вектор G в точности дублирует вектор X. Далее, для каждого нейрона в слое распознавания вычисляется сверт- ка вектора его весов Bj и вектора G (см. рис. 25.5). Нейрон с максималь- ным значением свертки имеет веса, наилучшим образом соответствую- щие входному вектору. Он выигрывает конкуренцию и возбуждается, од- новременно затормаживая все остальные нейроны этого слоя. Таким об- разом, единственная компонента вектора R (см. рис. 25.3) становится равной единице, а все остальные компоненты становятся равными нулю. Рис. 25.5 В результате сеть APT запоминает образы в весах нейронов слоя рас- познавания — один нейрон для каждой категории классификации. Ней- 268
Лекция 25 Адаптивная резонансная теория. Архитектура рон слоя распознавания, веса которого наилучшим образом соответству- ют входному вектору, возбуждается, его выход устанавливается в единич- ное значение, а выходы остальных нейронов этого слоя устанавливаются в нуль. Фаза сравнения. Единственный возбужденный нейрон в слое рас- познавания возвращает единицу обратно в слой сравнения в виде свое- го выходного сигнала rj. Эта единственная единица может быть визуаль- но представлена в виде «веерного» выхода, подающегося через отдельную связь с весом ttj на каждый нейрон в слое сравнения, обеспечивая каж- дый нейрон сигналом pj, равным величине (нулю или единице) (см. рис. 25.6). Упрощенный слой сравнения Рис. 25.6 Алгоритмы инициализации и обучения построены таким образом, что каждый весовой вектор 7) имеет двоичные значения весов; кроме того, каждый весовой вектор Bj представляет собой масштабированную версию соответствующего вектора Tj. Это означает, что все компонен- ты Р (вектора возбуждения слоя сравнения) также являются двоичными величинами. Так как вектор R не является больше нулевым, сигнал G1 устанав- ливается в нуль. Таким образом, в соответствии с правилом двух третей, возбудиться могут только нейроны, получающие на входе одновременно единицы от входного вектора X и вектора Р. 269
Нечеткие множества и нейронные сети Другими словами, обратная связь от распознающего слоя действует так, чтобы установить компоненты С в нуль в случае, если входной вектор не соответствует входному образу (т. е. если X и Р не имеют совпадающих компонент). Если имеются существенные различия между X и Р (малое коли- чество совпадающих компонент векторов), несколько нейронов на фа- зе сравнения будут возбуждаться и С будет содержать много нулей, в то время как X содержит единицы. Эго означает, что возвращенный век- тор Р не является искомым и возбужденные нейроны в слое распознава- ния должны быть заторможены. Такое торможение производится блоком сброса (см. рис. 25.2), который сравнивает входной вектор X и вектор С и вырабатывает сигнал сброса, если степень сходства этих векторов мень- ше некоторого уровня. Влияние сигнала сброса заключается в установке выхода возбужденного нейрона в нуль, отключая его на время текущей классификации. Фаза поиска. Если не выработан сигнал сброса, сходство является адекватным и процесс классификации завершается. В противном случае, другие запомненные образы должны быть исследованы с целью поиска лучшего соответствия. При этом торможение возбужденного нейрона в распознающем слое приводит к установке всех компонент вектора R в О, G1 устанавливается в 1 и входной вектор X опять прикладывается в ка- честве С. В результате другой нейрон выигрывает соревнование в слое распознавания и другой запомненный образ Р возвращается в слой срав- нения. Если Р не соответствует X, возбужденный нейрон в слое распо- знавания снова тормозится. Этот процесс повторяется до тех пор, пока не встретится одно из двух событий: 1. Найден запомненный образ, сходство которого с вектором X вы- ше уровня параметра сходства, т. е. S > р. Если это происходит, проводит- ся обучающий цикл, в процессе которого модифицируются веса векторов Tj и Bj, связанных с возбужденным нейроном в слое распознавания. 2. Все запомненные образы проверены, определено, что они не со- ответствуют входному вектору, и все нейроны слоя распознавания затор- можены. В этом случае предварительно не распределенный нейрон в рас- познающем слое выделяется этому образу и его весовые векторы Bj и Tj устанавливаются соответствующими новому входному образу. Проблема производительности. Описанная сеть должна производить последовательный поиск среди всех запомненных образов. В аналоговых реализациях это будет происходить очень быстро; однако, при модели- ровании на обычных цифровых компьютерах процесс может оказаться очень длительным. Если же сеть APT реализуется на параллельных про- цессорах, все свертки на распознающем уровне могут вычисляться одно- временно. В этом случае поиск может стать очень быстрым. 270
Лекция 25 Адаптивная резонансная теория. Архитектура Время, необходимое для стабилизации сети с латеральным тормо- жением, может быть длительным при моделировании на последователь- ных цифровых компьютерах. Чтобы выбрать победи теля в процессе ла- терального торможения, все нейроны в слое должны быть вовлечены в одновременные вычисления и передачу. Этот процесс может потребовать проведения большого объема вычислений перед достижением сходимо- сти. 271
Нечеткие множества и нейронные сети Лекция 26. Теория адаптивного резонанса. Реализация В лекции рассматривается процесс функционирования APT. Приводит- ся пример обучения сети APT. Обсуждаются основные характеристики APT. Дается обзор модификаций сети APT. Ключевые слова: теория адаптивного резонанса, APT, APT-1, APT-2, APT-3. APT представляет собой нечто большее, чем философия, но намно- го менее конкретное, чем программа для компьютера. Поэтому возник широкий круг реализаций, сохраняющих идеи APT, но сильно отличаю- щихся в деталях. Описываемая далее реализация может рассматриваться в качестве типовой, но необходимо иметь в виду, что другие успешные реализации имеют большие отличия от нее. Функционирование сетей APT Рассмотрим более детально пять фаз процесса функционирования APT: инициализацию, распознавание, сравнение, поиск и обучение. Инициализация. Перед началом процесса обучения сети все весовые векторы Bj nTj,a также параметр сходства р, должны быть установлены в начальные значения. Веса векторов В3 все инициализируются в одинаковые малые значе- ния. Эти значения должны удовлетворять условию , L Ьц < -------, для всех г, ?, L — 1 4- т где т — количество компонент входного вектора, L — константа, боль- шая 1 (обычно L = 2). Эта величина является критической; если она слишком большая, сеть может распределить все нейроны распознающего слоя одному вход- ному вектору. Веса векторов Tj все инициализируются в единичные значения, так что tij; — 1, для всех j, i. Эти значения также являются критическими; показано, что слишком ма- ленькие веса приводят к отсутствию соответствия в слое сравнения и от- сутствию обучения 272
Лекция 26 Теория адаптивного резонанса. Реализация Параметр сходства р устанавливается в диапазоне от 0 до 1 в за- висимости от требуемой степени сходства между запомненным образом и входным вектором. При высоких значениях р сеть относит к одному классу только очень слабо отличающиеся образы. С другой стороны, ма- лое значение р заставляет сеть группировать образы, которые имеют сла- бое сходство между собой. Для выработки точной классификации полез- на возможность изменять коэффициент сходства на протяжении процес- са обучения, обеспечивая только грубую классификацию в начале про- цесса обучения и затем постепенно увеличивая коэффициент сходства. Распознавание. Появление на входе сети входного вектора X инициали- зирует фазу распознавания. Так как вначале выходной вектор слоя рас- познавания отсутствует, сигнал G1 устанавливается в 1 функцией ИЛИ вектора X, обеспечивая все нейроны слоя сравнения одним из двух вхо- дов, необходимых для их возбуждения (как требует правило двух третей). В результате любая компонента вектора X, равная единице, обеспечивает второй единичный вход, заставляя соответствующий нейрон слоя срав- нения возбуждаться и устанавливая его выход в единицу. Таким образом, в этот момент времени вектор С идентичен вектору X. Как обсуждалось ранее, распознавание реализуется вычислением свертки для каждого нейрона слоя распознавания, определяемой следу- ющим выражением: NETj = (Bj С), где Bj — весовой вектор, соответствующий нейрону j в слое распозна- вания, С — выходной вектор нейронов слоя сравнения (в этот момент С равно X), NETj — возбуждение нейрона j в слое распознавания. F является пороговой функцией, определяемой следующим обра- зом: OUTj = < 1, О, если NETj > Т, в противном случае, где Т представляет собой порог. Принято, что латеральное торможение существует, но игнорируется здесь для сохранения простоты выражения. Торможение является причи- ной того, что только нейрон с максимальным значением NET будет иметь выход, равный единице; все остальные нейроны будут иметь нулевой вы- ход. Можно рассмотреть системы, в которых в распознающем слое воз- буждаются несколько нейронов в каждый момент времени, однако это выходит за рамки данной работы. Сравнение. На этой фазе сигнал обратной связи от слоя распознава- ния устанавливает G1 в нуль; правило двух третей позволяет возбуждать- ся только тем нейронам, которые имеют соответствующие компоненты векторов Р и X, равные единице. 273
Нечеткие множества и нейронные сети Блок сброса сравнивает вектор С и входной вектор X, вырабаты- вая сигнал сброса, когда их сходство S ниже порога сходства. Вычисле- ние этого сходства упрощается тем, что оба вектора являются двоичными (все элементы либо 0, либо 1). Следующая процедура проводит требуемое вычисление сходства: 1. Вычислить D — количество единиц в векторе X. 2. Вычислить N — количество единиц в векторе С. Затем вычислить сходство S следующим образом: S = N/D. Например, примем, что = 1011101 D = 5 = 0011101 Л' =4 S = N/D = 0,8. S может изменяться от 1 (наилучшее соответствие) до 0 (наихудшее соот- ветствие). Заметим, что правило двух третей делает С логическим произведе- нием входного вектора и вектора Р. Однако Р равен Tj, весовому век- тору выигравшего соревнование нейрона. Таким образом, D может быть определено как количество единиц в логическом произведении векторов 7) и X. Поиск. Если сходство S выигравшего нейрона превышает пара- метр сходства, поиск не требуется. Однако если сеть предварительно бы- ла обучена, появление на входе вектора, не идентичного ни одному из предъявленных ранее, может возбудить в слое распознавания нейрон со сходством ниже требуемого уровня. В соответствии с алгоритмом обуче- ния возможно, что другой нейрон в слое распознавания будет обеспечи- вать более хорошее соответствие, превышая требуемый уровень сходства, несмотря на то, что свертка между его весовым вектором и входным век- тором может иметь меньшее значение. Пример такой ситуации показан ниже. Если сходство ниже требуемого уровня, запомненные образы могут быть просмотрены, чтобы найти образ, наиболее соответствующий вход- ному вектору. Если такой образ отсутствует, вводится новый несвязанный нейрон, который в дальнейшем будет обучен. Чтобы инициализировать поиск, сигнал сброса тормозит возбужденный нейрон в слое распознава- ния на время проведения поиска, сигнал G1 устанавливается в единицу и другой нейрон в слое распознавания выигрывает соревнование. Его за- помненный образ затем проверяется на сходство, и процесс повторяется до тех пор, пока конкуренцию не выиграет нейрон из слоя распознавания со сходством, большим требуемого уровня (успешный поиск), либо пока 274
Лекция 26 Теория адаптивного резонанса. Реализация все связанные нейроны не будут проверены и заторможены (неудачный поиск). Неудачный поиск будет автоматически завершаться на несвязанном нейроне, так как его веса все равны единице, своему начальному значе- нию. Поэтому правило двух третей приведет к идентичности вектора С входному вектору X, сходство S примет значение единицы и критерий сходства будет удовлетворен. Обучение. Обучение представляет собой процесс, в котором набор входных векторов подается последовательно на вход сети, а веса сети из- меняются при этом таким образом, чтобы сходные векторы активизиро- вали соответствующие им нейроны. Заметим, что это - неуправляемое обучение, здесь нет учителя и нет целевого вектора, определяющего тре- буемый ответ. Различают два вида обучения: медленное и быстрое. При медлен- ном обучении входной вектор предъявляется настолько кратковременно, что веса сети не успевают достигнуть своих ассимптотических значений при единичном предъявлении. В этом случае значения весов будут опре- деляться, скорее, статистическими характеристиками входных векторов, чем характеристиками какого-то одного входного вектора. Динамика се- ти в процессе медленного обучения описывается дифференциальными уравнениями. Быстрое обучение является специальным случаем медленного обу- чения, когда входной вектор прикладывается на достаточно длительный срок, чтобы позволить весам приблизиться к их окончательным значени- ям. В этом случае процесс обучения описывается только алгебраически- ми выражениями. Кроме того, компоненты весовых векторов Tj прини- мают двоичные значения, в отличие от непрерывного диапазона значе- ний, требуемого в случае быстрого обучения. В данной лекции мы опи- шем только быстрое обучение. Рассмотренный далее обучающий алгоритм используется как в слу- чае успешного, так и в случае неуспешного поиска. Пусть вектор весов Bj (связанный с возбужденным нейроном j рас- познающего слоя) равен нормализованной величине вектора С. Эти веса вычисляются следующим образом: г Lci L-I + ^kc^ где ci — i-я компонента выходного вектора слоя сравнения, j — номер выигравшего нейрона в слое распознавания, bij — вес связи, соединяю- щей нейрон i в слое сравнения с нейроном j в слое распознавания, L — константа > 1 (обычно 2). 275
Нечеткие множества и нейронные сети Компоненты вектора весов Tj, связанного с новым запомненным вектором, изменяются таким образом, что становятся равны соответству- ющим двоичным величинам вектора С: tij = Ci, Для всех г, где tij является весом связи между выигравшим нейроном j в слое распо- знавания и нейроном i в слое сравнения. Пример обучения сети APT В общих чертах сеть обучается при помощи изменения весов таким образом, что предъявление входного вектора заставляет сеть активизи- ровать нейроны в слое распознавания, связанные со сходным запомнен- ным вектором. Кроме этого, обучение проводится в форме, не разруша- ющей запомненные ранее образы, и предотвращает тем самым времен- ную нестабильность. Эта задача управляется на уровне выбора критерия сходства. Новый входной образ (который сеть раньше не видела) не будет соответствовать запомненным образам с точки зрения параметра сход- ства, тем самым формируя новый запоминаемый образ. Входной образ, в достаточной степени соответствующий одному из запомненных образов, не будет формировать нового экземпляра, он просто будет модифициро- вать тот, на который он похож. В результате при соответствующем выборе критерия сходства предотвращается запоминание ранее изученных обра- зов и временная нестабильность. На рис. 26.1 показан типичный сеанс обучения сети APT. Буквы изображены состоящими из маленьких квадратов, каждая буква размер- ностью 8x8. Каждый квадрат в левой части представляет компоненту вектора X с единичным значением, не показанные квадраты являются компонентами с нулевыми значениями. Буквы справа представляют за- помненные образы, каждый является набором величин компонент век- тора Tj. Вначале на вход заново проинициированной системы подается бук- ва «С». Так как отсутствуют запомненные образы, фаза поиска заканчи- вается неуспешно; новый нейрон выделяется в слое распознавания, и ве- са Tj устанавливаются равными соответствующим компонентам входно- го вектора, при этом веса Bj представляют масштабированную версию входного вектора. Далее предъявляется буква «В». Она также вызывает неуспешное окончание фазы поиска и выделение нового нейрона. Аналогичный про- цесс повторяется для буквы «Е». Затем слабо искаженная версия буквы «Е» подается на вход сети. Она достаточно точно соответствует запомнен- ной букве «Е», чтобы выдержать проверку на сходство, поэтому исполь- 276
Лекция 26 Теория адаптивного резонанса Реализация ШИП Рис. 26.1 зуется для обучения сети. Отсутствующий пиксель в нижней ножке бук- вы «Е» устанавливает в 0 соответствующую компоненту вектора С, за- ставляя обучающий алгоритм установить этот вес запомненного образа в нуль, тем самым воспроизводя искажения в запомненном образе. До- полнительный изолированный квадрат не изменяет запомненного обра- за, так как не соответствует единице в запомненном образе. Четвертым символом является буква «Е» с двумя различными иска- жениями. Она не соответствует ранее запомненному образу (S меньше чем р), поэтому для ее запоминания выделяется новый нейрон. Этот пример иллюстрирует важность выбора корректного значения критерия сходства. Если значение критерия слишком велико, большин- ство образов не будут подтверждать сходство с ранее запомненными и сеть будет выделять новый нейрон для каждого из них. Такой процесс приводит к плохому обобщению в сети, в результате даже незначительные изменения одного образа будут создавать отдельные новые категории; да- лее количество категорий увеличивается, все доступные нейроны распре- деляются, и способность системы к восприятию новых данных теряется. 277
Нечеткие множества и нейронные сети Наоборот, если критерий сходства слишком мал, сильно различающиеся образы будут группироваться вместе, искажая запомненный образ, до тех пор, пока в результате не получится очень малое сходство с одним из них. К сожалению, отсутствует теоретическое обоснование выбора кри- терия сходства, и в каждом конкретном случае необходимо решить «воле- вым усилием», какая степень сходства должна быть принята для отнесе- ния образов к одной категории. Границы между категориями часто неяс- ны, и решение задачи для большого набора входных векторов может быть чрезмерно трудным. Гроссберг предложил процедуру с использованием обратной связи для настройки коэффициента сходства, вносящую, однако, некоторые искажения в результаты классификации как "наказание"за внешнее вме- шательство с целью увеличения коэффициента сходства. Такие системы требуют правил оценки корректности для производимой ими классифи- кации. Характеристики APT Системы APT имеют ряд важных характеристик, не являющихся очевидными. Формулы и алгоритмы могут казаться произвольными, в то время как в действительности они были тщательно отобраны и соот- ветствуют требованиям теорем относительно производительности систем APT. В данном разделе описываются некоторые алгоритмы APT, раскры- вающие отдельные вопросы инициализации и обучения. Инициализация весовых векторов Т В ранее рассмотренном примере обучения сети можно было видеть, что правило двух третей приводит к вычислению вектора С как функции И между входным вектором X и выигравшим соревнование запомнен- ным вектором Tj. Следовательно, любая компонента вектора С будет рав- на единице в том случае, если соответствующие компоненты обоих век- торов равны единице. После обучения эти компоненты вектора Tj оста- ются единичными; все остальные устанавливаются в нуль. Это объясняет, почему веса должны инициализироваться единич- ными значениями. Если бы они были проинициализированы нулевыми значениями, все компоненты вектора С были бы нулевыми независимо от значений компонент входного вектора, и обучающий алгоритм предо- хранял бы веса от изменения их нулевых значений. Обучение может рассматриваться как процесс «сокращения» ком- понент запомненных векторов, которые не соответствуют входным век- торам. Процесс необратим, если вес однажды установлен в нуль, — обу- чающий алгоритм никогда не восстановит его единичное значение. 278
Лекция 26 Теория адаптивного резонанса. Реализация Это свойство имеет важное отношение к процессу обучения. Пред- положим, что группа точно соответствующих векторов должна быть клас- сифицирована как одна категория, определяемая возбуждением одного нейрона в слое распознавания. Если эти векторы последовательно предъ- являются сети, то при предъявлении первого будет распределяться ней- рон распознающего слоя и его веса будут обучены с целью соответствия входному вектору. Обучение при предъявлении остальных векторов будет приводить к обнулению весов в тех позициях, которые имеют нулевые значения в любом из входных векторов. Таким образом, запомненный вектор представляет собой логическое пересечение всех обучающих век- торов и может включать существенные характеристики данной категории весов. Новый вектор, включающий только существенные характеристи- ки, будет соответствовать этой категории. Таким образом, сеть корректно распознает образ, никогда не виденный ранее, т. е. реализуется возмож- ность, напоминающая процесс восприятия в мозге человека. Настройка весовых векторов Bj Выражение, описывающее процесс настройки весов, является цен- тральным для описания процесса функционирования сетей APT: Вс^ 13 = L-1+J2kck- Сумма в знаменателе представляет собой количество единиц на выходе слоя сравнения. Заданная величина может быть рассмотрена как «раз- мер» этого вектора. В такой интерпретации «большие» векторы С про- изводят более маленькие величины весов 6.,7, чем «маленькие» вектора С. Это свойство самомасштабирования делает возможным разделение двух векторов в случае, когда один вектор является поднабором другого, т. е. когда набор единичных компонент одного вектора составляет подмно- жество единичных компонент другого. Чтобы проиллюстрировать проблему, которая возникает при отсут- ствии масштабирования, используемого в данном выражении, предполо- жим, что сеть обучена двум приведенным ниже входным векторам, при этом каждому распределен нейрон в слое распознавания. Заметим, что Xi является поднабором Хг- В отсутствие свойства масштабирования веса bij и ty получат значения, идентичные значени- ям входных векторов. Если начальные значения выбраны равными 1,0, веса образов будут иметь следующие значения: если X прикладывается повторно, оба нейрона в слое распознавания получают одинаковые акти- вации; следовательно, нейрон 2 — ошибочный нейрон — выиграет конку- ренцию. 279
Нечеткие множества и нейронные сети Кроме выполнения некорректной классификации, может быть на- рушен процесс обучения. Так какТ2 равно 11100, только первая единица соответствует единице входного вектора, и С устанавливается в 1 0 0 0 0; критерий сходства удовлетворяется и алгоритм обучения устанавливает вторую и третью единицы векторов 72 и В2 в нуль, разрушая запомнен- ный образ. Масштабирование весов bij позволяет избежать такого нежелатель- ного течения событий. Предположим, что используется значение L = 2, тем самым определяя следующую формулу: и 17 + Подавая на вход сети вектор Xi, получим возбуждающее воздействие 1,0 для нейрона 1 в слое распознавания и 1/2 для нейрона 2; таким образом, нейрон 1 (правильный) выиграет соревнование. Аналогично, предъявле- ние вектора Х2 вызовет уровень возбуждения 1,0 для нейрона 1 и 3/2 для нейрона 2, тем самым снова правильно выбирая победителя. Инициализация весов bjj Инициализация весов bi3 малыми значениями является существен- ной для корректного функционирования систем APT. Если они слишком большие, входной вес вектора, который уже был запомнен, станет скорее активизировать несвязанный нейрон, чем ранее обученный. Установка этих весов в малые величины гарантирует, что несвязан- ные нейроны не будут получать возбуждения большего, чем обученные нейроны в слое распознавания. Используя предыдущий пример с L = 2, т = 5 и Ь^ < 1/3, произвольно установим = 1/6. С такими веса- ми предъявление вектора, которому сеть была ранее обучена, приведет к более высокому уровню активации для правильно обученного нейро- на в слое распознавания, чем для несвязанного нейрона. Например, для несвязанного нейрона Xj будет производить возбуждение 1/6, в то время как Х2 будет производить возбуждение 1/2; и то, и другое ниже возбужде- ния для обученных нейронов. Поиск. Может показаться, что в описанных алгоритмах отсутствует необходимость фазы поиска, за исключением случая, когда для входно- го вектора должен быть распределен новый несвязанный нейрон. Это не совсем так: предъявление входного вектора, сходного, но не абсолютно идентичного одному из запомненных образов, может при первом испы- тании не обеспечить выбор нейрона слоя распознавания с уровнем сход- ства, большим р, хотя такой нейрон будет существовать; и, тем самым, без поиска не обойтись. 280
Лекция 26 Теория адаптивного резонанса. Реализация Как и в предыдущем примере, предположим, что сеть обучается сле- дующим двум векторам: ХА = 1 0 0; 0 0 Х2 = 1 1 1; 0 0 с векторами весов В;, обученными следующим образом: Bi = 1 0 0 0 0 62 = 1/2 1/2 1/2 0 0 Теперь приложим входной вектор Х3 = 1 1 0 0 0. В этом случае возбу- ждение нейрона 1 в слое распознавания будет 1,0, а нейрона 2 только 2/3. Нейрон 1 выйдет победителем (хотя он не лучшим образом соответству- ет входному вектору), вектор С получит значение 1 1 0 0 0, S будет рав- но 1 /2. Если уровень сходства установлен в 3/4, нейрон 1 будет затормо- жен и нейрон 2 выиграет состязание. С станет равным 1 1 0 0 0, S' станет равным 1, критерий сходства будет удовлетворен, и поиск закончится. Теоремы APT Гроссберг доказал некоторые теоремы, которые описывают характе- ристики сетей APT. Четыре результата, приведенные ниже, являются од- ними из наиболее важных: 1. После стабилизации процесса обучения предъявление одного из обучающих векторов (или вектора с существенными характеристиками категории) будет активизировать требуемый нейрон слоя распознавания без поиска. Такая характеристика «прямого доступа» обеспечивает бы- стрый доступ к предварительно изученным образам. 2. Процесс поиска является устойчивым. После определения вы- игравшего нейрона в сети не будет возбуждений других нейронов из-за изменения векторов выхода слоя сравнения С; только сигнал сброса мо- жет вызвать такие изменения. 3. Процесс обучения является устойчивым. Обучение не будет вызы- вать переключения с одного возбужденного нейрона слоя распознавания на другой. 4. Процесс обучения конечен. Любая последовательность произ- вольных входных векторов будет производить стабильный набор весов после конечного количества обучающих серий. Повторяющиеся после- довательности обучающих векторов не будут приводить к циклическому изменению весов. 281
Нечеткие множества и нейронные сети Дальнейшее развитие APT: архитектуры АРТ-2 и АРТ-3 Нерешенные проблемы и недостатки АРТ-1 Нейронные сети APT, при всех их замечательных свойствах, имеют ряд недостатков. Один из них — большое количество синаптических свя- зей в сети, в расчете на единицу запоминаемой информации. При этом многие из весов этих связей (например, вектора Т) оказываются после обучения нулевыми. Эту особенность следует учитывать при аппаратных реализациях. Сеть АРТ-1 приспособлена к работе только с битовыми векторами. Эго неудобство преодолевается в сетях АРТ-2 и АРТ-3. Однако в этих ар- хитектурах, равно как и в АРТ-1, сохраняется главный недостаток APT — локализованность памяти. Память нейросети APT не является рас- пределенной, и некоторой заданной категории отвечает вполне конкрет- ный нейрон слоя распознавания. При его разрушении теряется память обо всей категории. Эта особенность, увы, не позволяет говорить о се- тях адаптивной резонансной теории как о прямых моделях биологических нейронных сетей. Память последних является распределенной. Сети АРТ-2 и АРТ-3 Основной отличительной чертой нейронной сети АРТ-2 является возможность работы с аналоговыми векторами и сигналами. По сравне- нию с АРТ-1 в архитектуре сети сделаны некоторые изменения, позволя- ющие отдельным подсистемам функционировать асинхронно, что явля- ется принципиальной необходимостью для аппаратных реализаций. Важное отличие аналоговых сигналов от битовых — принципиаль- ная возможность аналоговых векторов быть сколь угодно близкими друг к другу (в то время как простанство битовых векторов дискретно). Это на- кладывает дополнительные требования на функционирование нейронов слоя сравнения: требуется более тонкий и чувствительный механизм для выделения областей резонанса. Общим решением здесь является переход к многослойной архитектуре, со все более точной настройкой при пере- ходе от слоя к слою, что и применено в АРТ-2. Функционирование слоя распознавания принципиально не изменяется. Сети АРТ-2 применялись для распознавания движущихся изобра- жений. Успешные эксперименты проведены в Массачусетском Техно- логическом Институте (MIT). Поскольку нейросистемы APT не содер- жат механизма инвариантного распознавания (в отличие от неокогни- трона, см. следующие лекции), то в сочетании с ними применяются спе- циализированные (часто не нейросетевые) системы инвариантного пред- 282
Лекция 26 Теория адаптивного резонанса. Реализация ставления образов, например, двумерное преобразование Фурье или бо- лее сложные алгоритмы. Более подробное рассмотрение особенностей и применений АРТ-2 требует профессионального изучения и не входит в наши цели. Следующим шагом в развитии APT явилась сеть АРТ-3. Особенно- сти обучения нейронов сетей АРТ-1 и АРТ-2 не позволяют использо- вать эти сети в качестве элементов более крупных иерархических ней- росистем, в частности, компоновать из них многослойные сети. Поэто- му представление в APT иерархически организованной информации за- труднительно, и это весьма отдаляет ее от систем восприятия человека и животных. Изложенные проблемы решены в сети АРТ-3, которая выступает как многослойная архитектура. При переходе от слоя к слою происходит кон- трастирование входных образов и запоминание их в виде все более общих категорий. При этом основной задачей каждого отдельного слоя являет- ся сжатие входящей информации. Образ входит в адаптирующийся резо- нанс между некоторой парой слоев, в дальнейшем этот резонанс распро- страняется на следующие слои иерархии. В АРТ-1 и АРТ-2 недостаточ- ный уровень резонанса приводил к генерации сигнала сброса, что приво- дило к полному торможению слоя распознавания. В случае многослой- ной сети АРТ-3 подобное недопустимо, так как при этом разрывается по- ток информации. Поэтому в АРТ-3 введен специальный механизм — за- висимость активности синапсов обратных связей от времени, — анало- гичный рефрактерному торможению биологического нейрона после пе- редачи возбуждения. Поэтому вместо полного сброса сигнала происходит торможение синаптических сигналов обратной связи, и слой сравнения получает исходное состояние возбуждения для выполнения фазы поиска нового резонанса. Интересным предложением является также использование в много- слойной иерархии слоев, которые не являются слоями APT, а принадле- жат некоторой другой архитектуре. В этом случае система получается ги- бридной, что может привести к возникновению новых полезных свойств. Развитие теоретических исследований APT продолжается. По вы- сказыванию авторов теории, APT представляет собой нечто существен- но более конкретное, чем философское построение, но намного менее конкретное, чем законченная программа для компьютера. Однако уже в современном виде, опираясь на свою более чем 20-летнюю историю, се- ти APT с успехом применяются в различных областях. APT сделала так- же важный шаг вперед в общей проблеме моделирования пластично- стабильного восприятия. 283
Нечеткие множества и нейронные сети Лекция 27. Когнитрон В лекции рассматривается архитектура, процедура обучения и функци- онирование когнитрона. Описан пример функционирования четырехслойно- го когнитрона распознавания образов. Ключевые слова: когнитрон, распознавание образов. Люди решают сложные задачи распознавания образов с обескуражи- вающей легкостью. Двухлетний ребенок без видимых усилий различает тысячи лиц и других объектов, составляющих его окружение, несмотря на изменение расстояния, ракурса, перспективы и освещения. Может показаться, что изучение этих врожденных способностей должно упростить задачу разработки компьютера, повторяющего способ- ности человека к распознаванию. Ничто не может быть более далеким от истины. Сходство и различия образов, являющиеся очевидными для че- ловека, пока ставят в тупик даже наиболее сложные компьютерные систе- мы распознавания. А значит, бесчисленное количество важных приложе- ний, в которых компьютеры могут заменить людей в опасных, скучных или неприятных работах, по-прежнему остаются за пределами текущих возможностей вычислительной техники. Компьютерное распознавание образов пока больше напоминает ис- кусство; научная составляющая ограничена наличием нескольких мето- дик, имеющих относительно небольшое практическое применение. Ин- женер, конструирующий типовую систему распознавания образов, обыч- но начинает с распознавания печатного текста. Такой метод часто явля- ется неадекватным проблеме, и старания разработчиков быстро сводятся к разработке алгоритмов, узкоспецифичных для их личной задачи. Обычно целью конструирования систем распознавания образов яв- ляется оптимизация ее функционирования над выборочным набором об- разов. Очень часто разработчик завершает эту задачу нахождением ново- го, приблизительно похожего образа, что приводит к неудачному завер- шению алгоритмов. Процесс может продолжаться неопределенно долго и никогда не приводить к устойчивому решению, достаточному для по- вторения процесса восприятия реального мозга. К счастью, мы имеем существующее доказательство, что задача мо- жет быть решена: это система восприятия человека. Учитывая ограни- ченность успехов, достигнутых в результате стремления к механистиче- ским изобретениям, кажется вполне логичным вернуться к биологиче- 284
Лекция 27 Когнитрон ским моделям и попытаться определить, каким образом они функцио- нируют так хорошо. Очевидно, что это трудно сделать по нескольким причинам. Во-первых, сверхвысокая сложность человеческого мозга за- трудняет понимание принципов его устройства: нелегко понять общие принципы функционирования и взаимодействия приблизительно 1011 нейронов и 1014 синаптических связей. Кроме того, существует множе- ство проблем при проведении экспериментальных исследований. Ми- кроскопические исследования требуют тщательно подготовленных об- разцов (заморозка, срезы, окраска) для получения маленького двумерно- го взгляда на большую трехмерную структуру. Техника микропроб поз- воляет провести анализы внутренней электрохимии узлов, однако труд- но контролировать одновременно большое количество узлов и наблю- дать их взаимодействие. Наконец, этические соображения запрещают многие важные исследования, которые могут быть выполнены только на живых людях. Большое значение имели эксперименты над животными, однако животные не обладают способностями человека описывать свои впечатления. Несмотря на эти ограничения, многое было изучено благодаря бле- стяще поставленным экспериментам. Например, С.Блекмор описал опыт, когда котята выращивались в визуальном окружении, состоящем только из горизонтальных черных и белых полос. Известно, что определенные области коры мозга чувствительны к углу ориентации, поэтому у этих ко- тов не развились нейроны, распознающие вертикальные полосы. Резуль- тат наводит на мысль, что мозг млекопитающих не является полностью «предустановленным» даже на примитивном уровне распознавания ори- ентации линий. Напротив, он постоянно самоорганизуется, основываясь на опыте. На микроскопическом уровне обнаружено, что нейроны обладают как возбуждающими, так и тормозящими синапсами. Первые стремят- ся к возбуждению нейрона, вторые подавляют возбуждение. Это наво- дит на мысль, что мозг адаптируется либо изменением воздействия си- напсов, либо созданием или разрушением синапсов в результате воздей- ствия окружающей среды. Данное предположение остается пока гипоте- зой с ограниченным физиологическим подтверждением. Однако иссле- дования, проведенные в рамках этой гипотезы, привели к созданию циф- ровых моделей, некоторые из которых показывают замечательные спо- собности к адаптивному распознаванию образов. Основываясь на текущих знаниях анатомии и физиологии мозга, разработан когнитрон, гипотетическая модель системы восприятия че- ловека. Компьютерные модели продемонстрировали впечатляющие спо- собности адаптивного распознавания образов, побуждая физиологов ис- 285
Нечеткие множества и нейронные сети следовать соответствующие механизмы мозга. Это взаимно усиливающее взаимодействие между искусственными нейронными сетями, физиоло- гией и психологией может оказаться средством, которое со временем поз- волит понять механизмы деятельности мозга. Структура сети Когнитрон состоит из иерархически связанных слоев нейронов двух типов — тормозящих и возбуждающих. Состояние возбуждения каждого нейрона определяется суммой его тормозящих и возбуждающих входов. Синаптические связи идут от нейронов одного слоя (далее слоя 1) к сле- дующему (слою 2). Относительно данной синаптической связи соответ- ствующий нейрон слоя 1 является пресинаптическим, а нейрон второго слоя — постсинаптическим. Постсинаптические нейроны связаны не со всеми нейронами 1-го слоя, а лишь с теми, которые принадлежат их ло- кальной области связей. Области связей близких друг к другу постсинап- тических нейронов перекрываются, поэтому активность данного преси- наптического нейрона будет сказываться на все более расширяющейся области постсинаптических нейронов следующих слоев иерархии. Рис. 27.1 286
Лекция 27 Когнитрон Вход возбуждающего постсинаптического нейрона (на рис. 27. L — нейрон г) определяется отношением суммы Е его возбуждающих входов (ai, аг и аз) к сумме I тормозящих входов (Ьг и вход от нейрона X): E = ^a3uh I = 'n,bivi' j з где и — возбуждающие входы с весами a, v — тормозящие входы с ве- сами Ь. Все веса имеют положительные значения. По значениям Е и I вычисляется суммарное воздействие на г-й нейрон: NETi = ((1 + Е)/(И- + 7)) — 1. Его выходная активность OUT, затем устанавливается равной NETi, если NETi > 0. В противном случае выход устанавливается рав- ным нулю. Анализ формулы для суммарного воздействия показывает, что при малом торможении I оно равно разности возбуждающего и тормозя- щего сигналов. В случае же, когда оба эти сигнала велики, воздейс твие ограничивается отношением. Такие особенности реакции соответствуют реакциям биологических нейронов, способных работать в широком диа- пазоне воздействий. Пресинаптические тормозящие нейроны имеют ту же область свя- зей, что и рассматриваемый возбуждающий постсинаптический нейрон i. Веса таких тормозящих нейронов (ci, сг и сз) являются заданными и не изменяются при обучении. Их сумма равна единице, и таким образом, выход тормозного пресинаптического нейрона равен средней активности возбуждающих пресинаптических нейронов в области связей: Vi = ' CjUj. 3 Обучение когнитрона Так как когнитрон реализован в виде многослойной сети, возника- ют сложные проблемы обучения, связанные с выбранной структурой. Получая обучающий набор входных образов, сеть самоорганизуется по- средством изменения силы синаптических связей. При этом отсутствуют предварительно определенные выходные образы, представляющие тре- буемую реакцию сети, однако сеть самонастраивается с целью распозна- вания входных образов с замечательной точностью. Алгоритм обучения когнитрона является концептуально привлека- тельным. В заданной области слоя обучается только наиболее сильно воз- бужденный нейрон. Автор сравнивает это с «элитным обучением», при котором обучаются только «умные» элементы. Те нейроны, которые уже 287
Нечеткие множества и нейронные сети хорошо обучены, что выражается силой их возбуждения, получат прира- щение силы своих синапсов с целью дальнейшего усиления своего возбу- ждения. На рис. 27.2 показано, что области связи соседних узлов значитель- но перекрываются. Такое расточительное дублирование функций оправ- дывается взаимной конкуренцией между ближайшими узлами. Даже если узлы в начальный момент имеют абсолютно идентичный выход, неболь- шие отклонения всегда случаются; один из узлов всегда будет иметь более сильную реакцию на входной образ, чем соседние. Его сильное возбужде- ние будет оказывать сдерживающее воздействие на возбуждение сосед- них узлов, и усиливаться будут только его синапсы — синапсы соседних узлов останутся неизменными. — Область конку- ренции узла А — Область конку- ренции узла В -— Область конку- ренции узла С Рис. 27.2 Возбуждающий нейрон. Можно сказать, что выход возбуждающего нейрона в когнитроне определяется отношением его возбуждающих вхо- 288
Лекция 27 Когнитрон дов к тормозящим входам. Эта необычная функция имеет важные пре- имущества, как практические, так и теоретические. Суммарный возбу- ждающий вход в нейрон является взвешенной суммой входов от воз- буждающих входов в предшествующем слое. Аналогично суммарный вход является взвешенной суммой входов от всех тормозящих нейронов. В символьном виде Е = I = bjVj, г 3 где аг — вес г-го возбуждающего синапса, щ — выход г-го возбуждающего нейрона, bj — вес ./-го торозящего синапса, Vj — выход у-го торозящего нейрона. Заметим, что веса имеют только положительные значения. Выход нейрона затем вычисляется следующим образом: NET = - 1, 1+1 OUT = NET, О, если NET О, если NET < 0. Предполагая, что NET имеет положительное значение, можно запи- сать: OUT= 1 + 1 Когда тормозящий вход мал (I <+ У), OUT может быть аппроксимирова- но как OUT = Е — 1, что соответствует выражению для обычного линейного порогового эле- мента (с нулевым порогом). Алгоритм обучения когнитрона позволяет весам синапсов возрас- тать без ограничений. Благодаря отсутствию механизма уменьшения, ве- са просто возрастают в процессе обучения. В обычных линейных порого- вых элементах это привело бы к произвольно большому выходу элемента. В когнитроне большие возбуждающие и тормозящие входы дают в резуль- тате выход, который вычисляется по ограничивающей формуле вида Е OUT = — - 1, если Е » 1 и I » 1. В данном случае OUT определяется отношением возбуждающих входов к тормозящим входам, а не их разностью. Следовательно, величина OUT 289
Нечеткие множества и нейронные сети ограничивается, если оба входа возрастают в одном и том же диапа- зоне X. Тогда Е и I можно выразить следующим образом: Е = рХ, I = qX, p,q — константы, и после некоторых преобразований оит=-— 2е 1 + th iog(pq) 2 Эта функция возрастает по закону Вебера—Фехнера, который часто применяется в нейрофизиологии для аппроксимации нелинейных соот- ношений входа/выхода сенсорных нейронов. При использовании этого соотношения нейрон когнитрона в точности эмулирует реакцию биоло- гических нейронов — и становится как мощным вычислительным эле- ментом, так и точной моделью физиологического моделирования. О=возбужденные нейроны • =загорможенные нейроны _» =возбуждающий вход —о =тормозящий вход Рис. 27.3 Тормозящие нейроны. В когнитроне слой состоит из возбуждающих и тормозящих узлов. Как показано на рис. 27.3, нейрону слоя 2 присуща об- ласть связи, для которой он имеет синаптические соединения с набором выходов нейронов в слое 1. Аналогично, в слое 1 существует тормозящий нейрон, имеющий ту же область связи. Синаптические веса тормозящих 290
Лекция 27 Когнитрон О=возбужденные нейроны _» =возбуждающий вход —о =тормозящий вход Рис. 27.4 узлов не изменяются в процессе обучения; их веса заранее установлены таким образом, что сумма весов в любом из тормозящих нейронов рав- на единице. В соответствии с этими ограничениями, выход тормозящего узла INHIB является взвешенной суммой его входов, которые в данном случае представляют собой среднее арифметическое выходов возбужда- ющих нейронов, к которым подсоединен данный выход. Таким образом, INHIB= ^CiOUTi. i где а = 1, Ci — возбуждающий вес г. Процедура обучения. Как объяснялось ранее, веса возбуждающих нейронов изменяются только тогда, когда нейрон возбужден сильнее, чем любой из узлов в области конкуренции. Если это так, изменение в про- цессе обучения любого из его весов может быть определено следующим образом: ёщ = Qcjuji где cj — тормозящий вес связи нейрона j в слое 1 с тормозящим ней- роном i, Uj — выход нейрона j в слое 1, а-; — возбуждающий вес i, q — нормирующий коэффициент обучения. 291
Нечеткие множества и нейронные сети Изменение тормозящих весов нейрона г в слое 2 пропорционально отношению взвешенной суммы возбуждающих входов к удвоенному тор- мозящему входу. Вычислен ия проводятся по формуле * 2 • INHIBi ’ Когда возбужденных нейронов в области конкуренции нет, для из- менения весов используются другие выражения. Это необходимо, по- скольку процесс обучения начинается с нулевыми значениями весов; по- этому первоначально нет возбужденных нейронов ни в одной области конкуренции, и обучение производиться не может. Во всех случаях, когда победителя в области конкуренции нейронов нет, изменение весов ней- ронов вычисляется следующим образом: Sat = q'cjUj, Sbi = q'lNHIB, где q' — положительный обучающий коэффициент, меньший, чем q. Приведенная стратегия настройки гарантирует, что узлы с большой реакцией заставляют возбуждающие синапсы, которыми они управляют, увеличиваться сильнее, чем тормозящие синапсы. Верна и обратная за- висимость: узлы, имеющие малую реакцию, вызывают малое возрастание возбуждающих синапсов, но большее возрастание тормозящих синапсов. Таким образом, если узел ] в слое 1 имеет больший выход, синапс воз- растет больше, чем синапс bi. И наоборот, узлы, имеющие малый выход, обеспечат малую величину для приращения щ. Однако другие узлы в об- ласти связи будут возбуждаться, тем самым увеличивая сигнал INHIB и значения bi. В процессе обучения веса каждого узла в слое 2 настраиваются таким образом, что вместе они составляют шаблон, соответствующий образам, которые часто предъявляются в процессе обучения. При предъявлении сходного образа шаблон соответствует ему и узел вырабатывает большой выходной сигнал. Сильно отличающийся образ вызывает малый выход и обычно подавляется конкуренцией. Латеральное торможение. На рис. 27.3 показано, что каждый нейрон слоя 2 получает латеральное торможение от нейронов, расположенных в его области конкуренции. Тормозящий нейрон суммирует входы от всех нейронов в области конкуренции и вырабатывает сигнал, стремящийся к торможению целевого нейрона. Этот метод является эффектным, но с вычислительной точки зрения медленным. Он охватывает большую си- стему с обратной связью, включающую каждый нейрон в слое; для его стабилизации может потребоваться большое количество вычислитель- ных итераций. 292
Лекция 27 Когнитрон Для ускорения вычислений используется остроумный метод уско- ренного латерального торможения (см. рис. 27.4). Здесь дополнительный узел латерального торможения обрабатывает выход каждого возбуждаю- щего узла для моделирования требуемого латерального торможения. Сна- чала он определяет сигнал, равный суммарному тормозящему влиянию в области конкуренции: LATINHIB = ^giOUTi, где OUTi — выход г-го нейрона в области конкуренции, — вес связи от этого нейрона к латерально-тормозящему нейрону; выбраны таким образом, что gi = 1. Рис. 27.5 Выход тормозящего нейрона OUT' затем вычисляется следующим образом: оит'= 1 + OUTi_________1. 1 + LAT_INHIB Благодаря тому что все вычисления, связанные с таким типом лате- рального торможения, являются нерекурсивными, они могут быть про- ведены за один проход для слоя. Такой подход позволяет весьма эффек- тивно экономить вычисления. 293
Нечеткие множества и нейронные сети Метод ускоренного латерального торможения решает и другую слож- ную проблему. Предположим, что узел в слое 2 возбуждается сильно, но возбуждение соседних узлов уменьшается постепенно с увеличением рас- стояния. При использовании обычного латерального торможения будет обучаться только центральный узел: другие узлы определят, что централь- ный узел в их области конкуренции имеет более высокий выход. С пред- лагаемой системой латерального торможения такой ситуации случиться не может. Множество узлов может обучаться одновременно, и процесс обучения становится более достоверным. Когнитрон как модель зрительной коры мозга Анализ, проводимый до этого момента, был упрощен рассмотрени- ем только одномерных слоев. В действительности когнитрон конструиро- вался как каскад двумерных слоев, причем в любом слое каждый нейрон получает входы от набора нейронов на части двумерного плана, состав- ляющей его область связи в предыдущем слое. С этой точки зрения когнитрон организован подобно зрительной ко- ре человеческого мозга, которая представляет собой трехмерную струк- туру, состоящую из нескольких различных слоев. Оказывается, что каж- дый слой коры головного мозга реализует различные уровни обобщения; входной слой чувствителен к простым образам, таким как линии и их ориентации в определенных областях «поля зрения», в то время как ре- акция других слоев является более сложной, абстрактной и независимой от позиции образа. Аналогичные функции реализованы в когнитроне путем моделиро- вания организации зрительной коры. На рис. 27.5 показано, что нейроны когнитрона в слое 2 реагируют на определенную небольшую область вход- ного слоя 1. Нейрон в слое 3 связан с набором нейронов слоя 2, тем са- мым реагируя косвенно на более широкий набор нейронов слоя 1. Далее, нейроны в последующих слоях чувствительны к более широким областям входного образа до тех пор, пока в выходном слое каждый нейрон не ста- нет реагировать на все входное поле. Если область связи нейронов имеет постоянный размер во всех сло- ях, требуется большое количество слоев для перекрытия всего входного поля выходными нейронами. Количество слоев может быть уменьшено, если расширить область связи в последующих слоях. К сожалению, в ре- зультате может произойти настолько большое перекрытие областей свя- зи, что нейроны выходного слоя будут иметь одинаковую реакцию. Для решения этой проблемы может быть использовано расширение области конкуренции. Так как в данной области конкуренции может возбудиться 294
Лекция 27 Когнитрон Рис. 27.6 только один узел, влияние малой разницы в реакциях нейронов выходно- го слоя усиливается. В альтернативном варианте связи с предыдущим слоем могут быть распределены вероятностно с большинством синаптических связей в ограниченной области и с более длинными соединениями, встречающи- мися намного реже. Здесь смоделировано вероятностное распределение нейронов, обнаруженное в мозге. В когнитроне это позволяет каждому нейрону выходного слоя реагировать на полное входное поле при нали- чии ограниченного количества слоев. Результаты моделирования В качестве примера рассмотрим компьютерное моделирование че- тырехслойного когнитрона, предназначенного для целей распознавания образов. Каждый слой состоит из массива 12 х 12 возбуждающих нейро- нов и такого же количества тормозящих нейронов. Область связи пред- ставляет собой квадрат, включающий 5x5 нейронов. Область конкурен- ции имеет форму ромба высотой и шириной в 5 нейронов. Латеральное торможение охватывает область 7x7 нейронов. Нормирующие парамет- ры обучения установлены таким образом, что q = 16,0 и q' = 2,0. Веса синапсов проинициализированы в 0. Сеть обучалась путем предъявления на входном слое пяти стимули- рующих образов, представляющих собой изображения арабских цифр от 0 до 4. Веса сети настраивались после предъявления каждой цифры, вход- ной набор подавался на вход сети циклически до тех пор, пока каждый образ не был предъявлен суммарно 20 раз. Эффективность процесса обучения оценивалась путем запуска се- ти в реверсивном режиме; выходные образы, являющиеся реакцией сети, подавались на выходные нейроны и распространялись обратно к вход- ному слою. Образы, полученные во входном слое, затем сравнивались с исходным входным образом. Чтобы сделать это, обычные однонаправ- 295
Нечеткие множества и нейронные сети и0 Рис. 27.7 ленные связи принимались проводящими в обратном направлении и ла- теральное торможение отключалось. На рис. 27.6 приведены типичные результаты тестирования. В столбце 2 показаны образы, произведенные каждой цифрой на выходе сети; они возвращались обратно, вырабатывая на входе сети образ, близкий к точной копии исходного входного образа. Для столбца 4 на выход сети подавался только выход нейрона, имеюще- го максимальное возбуждение. Результирующие образы в точности те же, что и в случае подачи полного выходного образа, за исключением цифры О, для которой узел с максимальным выходом располагался на периферии и не покрывал полностью входного поля. 296
Лекция 28 Неокогнитрон Лекция 28. Неокогнитрон В лекции рассматривается архитектура, процедура обучения и функци- онирования неокогнитрона. Отмечается его сходство и отличие от когнитро- на. Ключевые слова: неокогнитрон. В попытках улучшить когнитрон была разработана мощная парадиг- ма, названная неокогнитрон. Когнитрон и неокогнитрон имеют определен- ное сходство, но между ними также существуют фундаментальные разли- чия, связанные с эволюцией исследований авторов и новыми результа- тами. Оба образца являются многоуровневыми иерархическими сетями, организованными аналогично зрительной коре головного мозга. В то же время неокогнитрон более соответствует модели зрительной системы и яв- ляется намного более мощной парадигмой с точки зрения способности распознавать образы независимо от их преобразований, вращений, иска- жений и изменений масштаба. Как и когнитрон, неокогнитрон использует самоорганизацию в процессе обучения. Неокогнитрон ориентирован на моделирование зрительной системы человека. Он получает на входе двумерные образы, аналогичные изобра- жениям на сетчатой оболочке глаза, и обрабатывает их в последующих слоях аналогично тому, как это было обнаружено в зрительной коре чело- века. Конечно, в неокогнитроне нет ничего ограничивающего его исполь- зование только для обработки визуальных данных, он достаточно уни- версален и может найти широкое применение как обобщенная система распознавания образов. В зрительной коре были обнаружены нервные узлы, реагирующие на такие элементы, как линии и углы определенной ориентации. На бо- лее высоких уровнях узлы реагируют на более сложные и абстрактные образы, такие как окружности, треугольники и прямоугольники. На еще более высоких уровнях степень абстракции возрастает до тех пор, пока не определятся узлы, реагирующие на лица и сложные формы. В общем случае узлы на более высоких уровнях получают вход от группы низко- уровневых узлов и, следовательно, реагируют на более широкую область визуального поля. Реакции узлов более высокого уровня меньше зависят от позиции и более устойчивы к искажениям. Структура Неокогнитрон имеет иерархическую структуру, ориентированную на моделирование зрительной системы человека. Он состоит из последо- 297
Нечеткие множества и нейронные сети вательности обрабатывающих слоев, организованных в иерархическую структуру (см. рис. 28.1). Входной образ подается на первый слой и пе- редается через плоскости, соответствующие последующим слоям, до тех пор, пока не достигнет выходного слоя, в котором идентифицируется распознаваемый образ. Входной Слой 2 Рис. 28.1 Структура неокогнитрона трудна для представления в виде диаграм- мы, но концептуально проста. Чтобы подчеркнуть его многоуровневость (с целью упрощения графического представления), используется анализ верхнего уровня. Неокогнитрон показан состоящим из слоев, слои состо- ят из набора плоскостей и плоскости состоят из узлов. Слои. Каждый слой неокогнитрона состоит из двух массивов плоско- стей (см. рис. 28.2). Массив плоскостей, содержащих простые узлы, по- лучает выходы предыдущего слоя, выделяет определенные образы и за- тем передает их в массив плоскостей, содержащих комплексные узлы, где образы обрабатываются так, чтобы их позиционная зависимость была уменьшена. Плоскости. Плоскости простых и комплексных узлов внутри слоя существуют парами, т. е. для плоскости простых узлов существует од- на плоскость комплексных узлов, обрабатывающая ее выходы. Каждая плоскость может быть визуально представлена как двумерный массив уз- лов. Простые узлы. Все узлы в данной плоскости простых узлов реагиру- ют на один и тот же образ. Как показано на рис. 28.3, плоскость простых узлов представляет массив узлов, каждый из которых «настраивается» на один специфический входной образ. Каждый простой узел чувствителен к ограниченной области входного образа, называемой его рецептивной областью. Например, все узлы в верхней плоскости простых узлов на рис. 28.3 реагируют на «С». Узел реагирует, если «С» встречается во входном образе и если «С» обнаружено в его рецептивной области. На рис. 28.3 показано, что одни плоскости простых узлов в этом слое могут реагировать на поворот «С» на 90°, другие — на поворот на 180° и 298
Лекция 28 Неокогнитрон Слой N Простая плоскость 1 Простая плоскость 2 Простаяплосдость К Плоскости сложных клеток Плоскости простых клеток Рис. 28.2 т. д. Если должны быть выделены иные буквы (и их искаженные версии), дополнительные плоскости требуются для каждой из них. Рецептивные области узлов в каждой плоскости простых узлов пе- рекрываются так, чтобы покрыть весь входной образ этого слоя. Каждый узел получает входы от соответствующих областей всех плоскостей ком- плексных узлов в предыдущем слое. Следовательно, простой узел реаги- рует на появление своего образа в любой сложной плоскости предыдуще- го слоя, если он окажется внутри его рецептивной области. Комплексные узлы. Задача комплексных узлов — уменьшить зави- симость реакции системы от позиции образов во входном поле. Для до- стижения этого каждый комплексный узел получает в качестве входного образа выходы набора простых узлов из соответствующей плоскости то- го же слоя. Эти простые узлы покрывают непрерывную область простой плоскости, называемую рецептивной областью комплексного узла. Воз- буждение любого простого узла в этой области является достаточным для возбуждения данного комплексного узла. Таким образом, комплексный узел реагирует на тот же образ, что и простые узлы в соответствующей ему плоскости, но он менее чувствителен к позиции образа, чем любой из них. 299
Нечеткие множества и нейронные сети Следовательно, каждый слой комплексных узлов реагирует на более широкую область входного образа, чем это происходило в предшествую- щих слоях. Эта прогрессия возрастает линейно от слоя к слою, приводя к требуемому уменьшению позиционной чувствительности системы в це- лом. Обобщение Каждый нейрон в слое, близком к входному, реагирует на опреде- ленные образы в определенном месте, такие как угол с заданной ориен- тацией в заданной позиции. Каждый слой в результате имеет более аб- страктную и менее специфичную реакцию по сравнению с предшеству- ющим; выходной слой реагирует на полные образы с высокой степенью независимости от их положения, размера и ориентации во входном поле. При использовании в качестве классификатора, комплексный узел вы- ходного слоя с наибольшей реакцией реализует выделение соответствую- щего образа во входном поле. В идеальном случае это выделение нечув- ствительно к позиции, ориентации, размерам или другим искажениям. зоо
Лекция 28 Неокогнитрон Вычисления Прортые узлы в неокогнитроне имеют точно такие же характеристи- ки, что и описанные для когнитрона, и используют те же формулы для определения их выхода. Здесь мы не будем их повторять. Тормозящий узел вырабатывает выход, пропорциональный квадрат- ному корню из взвешенной суммы квадратов его входов. Заметим, что входы в тормозящий узел идентичны входам соответствующего простого узла и область включает область ответа во всех комплексных плоскостях В символьном виде можем записать где v — выход тормозящего узла, 1 — область над всеми комплексными узлами, с которыми связан тормозящий узел, bi — вес г-й синаптической связи от комплексного узла к тормозящему узлу, щ — выход г-го ком- плексного узла. Веса bi выбираются монотонно уменьшающимися с увеличением расстояния от центра области реакции, при этом сумма их значений должна быть равна единице. Обучение Только простые узлы имеют настраиваемые веса. Это веса связей, соединяющих узел с комплексными узлами в предыдущем слое и имею- щих изменяемую силу синапсов, которая настраивается таким образом, чтобы выработать максимальную реакцию на определенные стимулиру- ющие свойства. Некоторые из этих синапсов являются возбуждающими и стремятся увеличить выход узлов, в то время как другие являются тор- мозящими и уменьшают выход узла. На рис. 28.4 показана полная структура синаптических связей между простым узлом и комплексными узлами в предшествующем слое. Каж- дый простой узел реагирует только на набор комплексных узлов внутри своей рецептивной области. Кроме того, существует тормозящий узел, реагирующий на те же самые комплексные узлы. Веса синапсов тормо- зящего узла не обучаются — они выбираются таким образом, чтобы узел реагировал на среднюю величину выходов всех узлов, к которым он под- ключен. Единственный тормозящий синапс от тормозящего узла к про- стому узлу обучается, как и другие синапсы. Обучение без учителя. Для обучения неокогнитрона на вход сети пода- ется образ, который необходимо распознать, и веса синапсов настраива- ются слой за слоем, начиная с набора простых узлов, ближайших ко входу. 301
Нечеткие множества и нейронные сети Клетки: Связи: —- модифицируемые возбуждающие —о модифицирующие тормозящие —> немодифицируемые возбуждающие - возбужденный Величина синаптической связи от каждого комплексного узла к данному простому узлу увеличивается тогда и только тогда, если удовлетворяются следующие два условия: 1) комплексный узел реагирует; 2) простой узел реагирует более сильно, чем любой из его соседних (внутри его области конкуренции). Таким образом, простой узел обучается реагировать более сильно на образы, появляющиеся наиболее часто в его рецептивной области; это соответствует результатам опытов с котятами. Если распознаваемый об- раз отсутствует на входе, тормозящий узел предохраняет от случайного возбуждения. Математическое описание процесса обучения и метод реализации латерального торможения аналогичны описанным для когнитрона, по- этому здесь они не повторяются. Необходимо отметить, что выходы про- стых и комплексных узлов являются аналоговыми, непрерывными и ли- нейными и что алгоритм обучения предполагает их неотрицательность. Когда выбирается простой узел, веса синапсов которого должны быть увеличены, он рассматривается как представитель всех узлов в плос- кости, вызывая увеличение их синаптических связей на том же самом об- разе. Следовательно, все узлы в плоскости обучаются распознавать одни 302
Лекция ?8 Неокогнитрон —-------------------=------------------------------------— и те же Двойства и после обучения будут делать это независимо от пози- ции образа в поле комплексных узлов в предшествующем слое. Эта система имеет ценную способность к самовосстановлению. Ес- ли один Узел выйдет из строя, будет найден другой, реагирующий более сильно, и э ют узел будет обучен распознаванию входного образа, тем са- мым перекрывая действия своего «отказавшего товарища». Обучение с учителем. Здесь требуемая реакция каждого слоя заранее определяется экспериментатором. Затем веса настраиваются с использо- ванием обычных методов для выработки требуемой реакции. Например, входной слой настраивался для распознавания отрезков линий в различ- ных ориентациях во многом аналогично первому слою обработки изобра- жения в зрительной коре головного мозга. Последующие слои обучались реагировать на более сложные и абстрактные свойства до тех пор, пока в выходном слое не был выделен требуемый образ. При обработке сети, превосходно распознающей рукописные арабские цифры, эксперимен- таторы отказались от попыток достичь биологического правдоподобия, обращая внимание только на максимальную точности результатов систе- мы. Реализация обучения. В обычных конфигурациях рецептивное поле каждого нейрона возрастает при переходе к следующему слою. Однако количество нейронов в слое будет уменьшаться при переходе от входных к выходным слоям. Наконец, выходной слой имеет только один нейрон в плоскости сложных узлов. Каждый такой нейрон представляет опре- деленный входной образ, которому сеть была обучена. В процессе клас- сификации входной образ подается на вход неокогнитрона и вычисляют- ся выходы слой за слоем, начиная с входного. Так как только небольшая часть входного образа подается на вход каждого простого узла входно- го слоя, некоторые простые узлы регистрируют наличие характеристик, которым они обучены, и возбуждаются. В следующем слое выделяются более сложные характеристики как определенные комбинации выходов комплексных узлов. Слой за слоем свойства комбинируются во все воз- растающем диапазоне; выделяются более общие характеристики и умень- шается позиционная чувствительность. В идеальном случае только один нейрон выходного слоя должен воз- будиться. В действительности обычно будут возбуждаться несколько ней- ронов с различной силой, и входной образ должен быть определен с уче- том соотношения их выходов. Если используется сила латерального тор- можения, возбуждаться будет только нейрон с максимальным выходом. Однако это часто является не лучшим вариантом. На практике простая функция от небольшой группы наиболее сильно возбужденных нейронов будет удачно улучшать точность классификации. 303
/ Нечеткие множества и нейронные сети Заключение Как когнитрон, так и неокогнитрон производят большое впечатле- ние той точностью, с которой они моделируют биологическую нервную систему. Тот факт, что эти системы показывают результаты, имитирую- щие некоторые аспекты способностей человека к обучению и Познанию, наводит на мысль, что наше понимание функций мозга приближается к уровню, способному принести практическую пользу. Неокогнитрон является сложной системой и требует существенных вычислительных ресурсов. По этим причинам кажется маловероятным, что такие системы реализуют оптимальное инженерное решение сего- дняшних проблем распознавания образов. Однако с 1960 г. стоимость вы- числений уменьшалась в два раза каждые два-три года — тенденция, ко- торая, по всей вероятности, сохранится в течение как минимум ближай- ших десяти лет. Несмотря на то, что многие подходы, казавшиеся нере- ализуемыми несколько лет назад, являются общепринятыми сегодня и могут оказаться тривиальными через несколько лет, реализация моде- лей неокогнитрона на универсальных компьютерах является бесперспек- тивной. Необходимо достигнуть тысячекратных улучшений стоимости и производительности компьютеров за счет специализации архитектуры и внедрения технологии СБИС, чтобы сделать неокогнитрон практической системой для решения сложных проблем распознавания образов; одна- ко, ни эта, ни какая-либо другая модель искусственных нейронных сетей не должны отвергаться только на основании их высоких вычислительных требований. 304
Лекция 29 Алгоритмы обучения Лекция 29. Алгоритмы обучения В данной лекции рассматриваются различные методы обучения ней- ронных сетей. Некоторые из этих методов частично приводились на преды- дущих лекциях, но отмечены снова для создания у слушателей целостного представления об изучаемой области. Ключевые слова: учитель, обучение с учителем, обучение без учите- ля. Искусственные нейронные сети обучаются самыми разнообразны- ми методами. К счастью, большинство методов обучения исходят из об- щих предпосылок и имеют много идентичных характеристик. Целью дан- ного приложения является обзор некоторых фундаментальных алгорит- мов с точки зрения их текущей применимости и исторической важно- сти. После ознакомления с этими фундаментальными алгоритмами дру- гие основанные на них алгоритмы будут достаточно легки для понима- ния, и новые разработки также могут быть лучше поняты и развиты. Обучение с учителем и без учителя Обучающие алгоритмы могут быть классифицированы как алгорит- мы обучения с учителем и обучения без учителя. В первом случае суще- ствует учитель, который предъявляет входные образы сети, сравнивает ре- зультирующие выходы с требуемыми, а затем настраивает веса сети таким образом, чтобы уменьшить различия. Трудно представить такой обуча- ющий механизм в биологических системах; следовательно, хотя данный подход привел к большим успехам при решении прикладных задач, он отвергается теми исследователями, кто полагает, что искусственные ней- ронные сети обязательно должны использовать те же механизмы, что и человеческий мозг. Во втором случае обучение проводится без учителя: при предъявле- нии входных образов сеть самоорганизуется, настраивая свои веса соглас- но определенному алгоритму. Требуемый выход в процессе обучения не указан, поэтому результаты определения возбуждающих образов для кон- кретных нейронов непредсказуемы. При этом, однако, сеть организуется в форме, отражающей существенные характеристики обучающего набо- ра. Например, входные образы могут быть классифицированы согласно степени их сходства так, что образы одного класса активизируют один и тот же выходной нейрон. 305
Нечеткие множества и нейронные сети — ------- с — Метод обучения Хэбба / Работы Д.О. Хэбба обеспечили основу для большинства алгоритмов обучения, которые были разработаны позже. Хэбб определял, что обуче- ние в биологических системах происходит посредством некоторых фи- зических изменений в нейронах, однако не определил, как это осуще- ствляется в действительности. Основываясь на физиологических и пси- хологических исследованиях, Хэбб интуитивно выдвинул гипотезу о том, каким образом может обучаться набор биологических нейронов. Его те- ория предполагает только локальное взаимодействие между нейронами при отсутствии глобального учителя; следовательно, обучение является неуправляемым. Несмотря на то, что его работа не включает математиче- ского анализа, идеи, изложенные в ней, настолько ясны и изящны, что получили статус универсальных допущений. Его книга стала классиче- ской и широко изучается специалистами, которых серьезно интересует эта область. Алгоритм обучения Хэбба По существу, Хэбб предположил, что синаптическое соединение двух нейронов усиливается, если оба эти нейрона возбуждены. Это можно представить как усиление синапса в соответствии с корреляцией уровней возбужденных нейронов, соединяемых данным синапсом. Поэтому алго- ритм обучения Хэбба иногда называется корреляционным алгоритмом. Идея алгоритма выражается следующим равенством: Wij(t + 1) = + NETiNETj, где шц (£) — сила синапса от нейрона i к нейрону j в момент времени NETi — уровень возбуждения пресинаптического нейрона; NETj — уро- вень возбуждения постсинаптического нейрона. Концепция Хэбба отвечает на сложный вопрос: каким образом обу- чение может проводиться без учителя? В методе Хэбба обучение является исключительно локальным явлением, охватывающим только два нейро- на и соединяющий их синапс; не требуется глобальной системы обратной связи для развития нейронных образований. Последующее использование метода Хэбба для обучения нейрон- ных сетей привело к большим успехам, но наряду с этим показало огра- ниченность метода; некоторые образы просто не могут использоваться для обучения этим методом. В результате появилось большое количество расширений и нововведений, большинство из которых в значительной степени основано на работе Хэбба. 306
Лекция 29 Алгоритмы обучения Метод сигнального обучения Хэбба Как мы видели, выход NET простого искусственного нейрона явля- ется взвешенной суммой его входов. Это может быть выражено следую- щим образом: NETj = ^OUTiWij, г где NETj — выход NET нейрона j, OUTi — выход нейрона г, — вес связи нейрона г с нейроном j. Можно показать, что в этом случае линейная многослойная сеть не является более мощной, чем однослойная сеть; рассматриваемые воз- можности сети могут быть улучшены только введением нелинейности в передаточную функцию нейрона. Говорят, что сеть, использующая сиг- моидальную функцию активации и метод обучения Хэбба, обучается по сигнальному методу Хэбба. В этом случае уравнение Хэбба модифициру- ется следующим образом: OUTi = ТТ----/ wr\ = F(NET^Wij(t +1) = Wij(t) + OUTPUT), 1 + ехр( — £j 1г) где (t) — сила синапса от нейрона г к нейрону j в момент време- ни t, OUTi — выходной уровень пресинаптического нейрона равный F(NETi), OUTj — выходной уровень постсинаптического нейрона, рав- ный F(NET). Метод дифференциального обучения Хэбба Метод сигнального обучения Хэбба предполагает вычисление сверт- ки предыдущих изменений выходов для определения изменения весов. Данный же метод, называемый методом дифференциального обучения Хэбба, использует следующее равенство: + 1) = wtj(t) + [OUTift) - OUTi(t - l)][OUTj(t) - OUTj(t - 1)], где Wij(t) — сила синапса от нейрона г к нейрону j в момент времени t, OUTift) — выходной уровень пресинаптического нейрона в момент вре- мени t, OUTj(t) — выходной уровень постсинаптического нейрона в мо- мент времени t. Входные и выходные звезды Много общих идей, используемых в искусственных нейронных се- тях, прослеживаются в работах С. Гроссберга; в качестве примера можно 307
Нечеткие множества и нейронные сети указать конфигурации входных и выходных звезд, используемые во мно- гих сетевых парадигмах. Входная звезда, как показано на рис. 29.1, со- стоит из нейрона, на который подается группа входов через синапсиче- ские веса. Выходная звезда, показанная на рис. 29.2, является нейроном, управляющим группой весов. Входные и выходные звезды могут быть взаимно соединены в сети любой сложности; Гроссбсрг рассматривает их как модель определенных биологических функций. Вид звезды опреде- ляет ее название, однако, звезды обычно изображаются в сети несколько иначе. Рис. 29.2 Обучение входной звезды Входная звезда выполняет распознавание образов, т. е. она обучает- ся реагировать на определенный входной вектор X и ни на какой другой. Это обучение реализуется, настраивая веса таким образом, чтобы они со- ответствовали входному вектору. Выход входной звезды определяется как взвешенная сумма ее входов, это описано в предыдущих разделах. С дру- гой точки зрения, выход можно рассматривать как свертку входного век- тора с весовым вектором или меру сходства нормализованных векторов. Следовательно, нейрон должен реагировать наиболее сильно на входной образ, которому был обучен. Процесс обучения выражается следующим образом: wi(t + 1) — Wi(t) + - w»(t)], где Wi — вес входа ж,, ж» — i-й вход, а — нормирующий коэффициент обу- чения, который имеет начальное значение 0,1 и постепенно уменьшается в процессе обучения. 308
Лекция 29 Алгоритмы обучения После завершения обучения предъявление входного вектора X будет активизировать обученный входной нейрон. Это можно рассматривать как единый обучающий цикл, если а установлен в 1, однако в этом случае исключается способность входной звезды к обобщению. Хорошо обучен- ная входная звезда будет реагировать не только на определенный единич- ный вектор, но также и на незначительные изменения этого вектора. Это достигается постепенной настройкой нейронных весов при предъявле- нии в процессе обучения векторов, представляющих нормальные вариа- ции входного вектора. Веса настраиваются таким образом, чтобы усред- нить величины обучающих векторов, и нейроны получают способност ь реагировать на любой вектор этого класса. Обучение выходной звезды В то время как входная звезда возбуждается всякий раз при появ- лении определенного входного вектора, выходная звезда имеет дополни- тельную функцию: она вырабатывает требуемый возбуждающий сигнал для других нейронов всякий раз, когда возбуждается. Для того чтобы обучить нейрон выходной звезды, его веса настраи- ваются в соответствии с требуемым целевым вектором. Алгоритм обуче- ния может быть представлен символически следующим образом: Wi(t +1) = Wi(f) + /3[yi - Wi(t)], где (3 представляет собой нормирующий коэффициент обучения, кото- рый вначале приблизительно равен единице и постепенно уменьшается до нуля в процессе обучения. Как и для входной звезды, веса выходной звезды постепенно на- страиваются над множеством векторов, представляющих собой обычные вариации идеального вектора. В этом случае выходной сигнал нейронов является стат истической характеристикой обучающего набора и может в действительности сходиться в процессе обучения к идеальному вектору при предъявлении только искаженных версий вектора. Обучение персептрона В 1957 г. Р. Розенблатт разработал модель, которая вызвала большой интерес у исследователей. Несмотря на некоторые ограничения ее исход- ной формы, она стала основой для многих современных, наиболее слож- ных алгоритмов обучения с учителем. Персептрон является двухуровневой нерекуррентной сетью, вид ко- торой показан на рис. 29.3. Она использует алгоритм обучения с учите- лем; другими словами, обучающая выборка состоит из множества вход- 309
Нечеткие множества и нейронные сети них векторов, для каждого из которых указан свой требуемый вектор це- ли. Компоненты входного вектора представлены непрерывным диапазо- ном значений; компоненты вектора цели являются двоичными величи- нами (0 или 1). После обучения сеть получает на входе набор непрерыв- ных входов и вырабатывает требуемый выход в виде вектора с бинарными компонентами. Рис. 29.3 Обучение осуществляется следующим образом: 1. Рандомизируются все веса сети в малые величины. 2. На вход сети подается входной обучающий вектор X и вычисля- ется сигнал NET от каждого нейрона, используя стандартное выражение NETj = XiWij г 3. Вычисляется значение пороговой функции активации для сигнала NET от каждого нейрона следующим образом: OUTj = < 1, О, если NETj > Oj, в противном случае. Здесь Oj представляет собой порог, соответствующий нейрону j (в про- стейшем случае все нейроны имеют один и тот же порог). 4. Вычисляется ошибка для каждого нейрона посредством вычита- ния полученного выхода из требуемого выхода: errorj = tar getj — OUTj. 310
Лекция 29 Алгоритмы обучения 5. Каждый вес модифицируется следующим образом: = Wij (i) + axierrorj. 6. Повторяются шаги со второго по пятый до тех пор, пока ошибка не станет достаточно малой. Метод обучения Уидроу-Хоффа Как мы видели, персептрон ограничивается бинарными выхода- ми. Б. Уидроу вместе со студентом университета М. Хоффом расширили алгоритм обучения персептрона для случая непрерывных выходов, ис- пользуя сигмоидальную функцию. Второй их впечатляющий результат — разработка математического доказательства, что сеть при определенных условиях будет сходиться к любой функции, которую она может предста- вить. Их первая модель — Адалин — имеет один выходной нейрон, более поздняя модель — Мадалин — расширяет ее для случая с многими выход- ными нейронами. Выражения, описывающие процесс обучения Адалина, очень схо- жи с персептронными. Существенные отличия имеются в четвертом ша- ге, где используются непрерывные сигналы NET вместо бинарных OUT. Модифицированный шаг 4 в этом случае реализуется следующим обра- зом: 4. Вычисляется ошибка для каждого нейрона посредством вычита- ния полученного выхода из требуемого выхода: errorj = tar get j — NETj. Метод статистического обучения Однослойные сети несколько ограниченны с точки зрения задач, которые они могут решать; однако, в течение многих лет отсутствовали методы обучения многослойных сетей. Статистическое обучение являет- ся как раз таким методом и обеспечивает путь решения этих проблем. По аналогии, обучение сети статистическими способами подобно процессу отжига металла. В процессе отжига температура металла внача- ле повышается, пока атомы не начнут перемешаться почти свободно. За- тем температура постепенно уменьшается и атомы непрерывно стремятся к минимальной энергетической конфигурации. При некоторой низкой температуре атомы переходят на низший энергетический уровень. В искусственных нейронных сетях полная величина энергии сети определяется как функция определенного множества сетевых перемен- ных. Искусственная переменная температуры инициируется в большую 311
Нечеткие множества и нейронные сети величину, тем самым позволяя сетевым переменным претерпевать боль- шие случайные изменения. Изменения, приводящие к уменьшению пол- ной энергии сети, сохраняются; изменения, приводящие к увеличению энергии, сохраняются в соответствии с вероятностной функцией. Искус- ственная температура постепенно уменьшается с течением времени, и сеть конвергирует в состояние минимума полной энергии. Существует много вариаций на тему статистического обучения. На- пример, глобальная энергия может быть определена как средняя квадра- тичная ошибка между полученным и желаемым выходным вектором из обучаемого множества, а переменными могут быть веса сети. В этом слу- чае сеть может быть обучена, начиная с высокой искусственной темпера- туры, путем выполнения следующих шагов: 1. Подать обучающий вектор на вход сети и вычислить выход соглас- но соответствующим сетевым правилам. 2. Вычислить значение средней квадратичной ошибки между жела- емым и полученным выходными векторами. 3. Изменить сетевые веса случайным образом, затем вычислить но- вый выход и результирующую ошибку. Если ошибка уменьшилась, оста- вить измененный вес; если ошибка увеличилась, оставить измененный вес с вероятностью, определяемой распределением Больцмана. Если из- менения весов не производится, то вернуть вес к его предыдущему значе- нию. 4. Повторить шаги с 1 по 3, постепенно уменьшая искусственную температуру. Если величина случайного изменения весов определяется в соответ- ствии с распределением Больцмана, сходимость к глобальному миниму- му будет осуществляться только в том случае, когда температура изменя- ется обратно пропорционально логарифму прошедшего времени обуче- ния. Это может привести к невероятной длительности процесса обуче- ния, поэтому большое внимание уделялось поиску более быстрых мето- дов. Выбором размера шага в соответствии с распределением Коши мо- жет быть достигнуто уменьшение температуры, обратно пропорциональ- ное обучающему времени, что существенно уменьшает время, требуемое для сходимости. Заметим, что существует класс статистических методов для нейрон- ных сетей, в которых переменными сети являются выходы нейронов, а не веса. Самоорганизация Самоорганизующихся структуры классифицируют образы, представ- ленные векторными величинами, в которых каждая компонента вектора 312
Лекция 29 Алгоритмы обучения соответствует элементу образа. Алгоритмы Кохонена основываются на технике обучения без учителя. После обучения подача входного вектора из данного класса будет приводить к выработке возбуждающего уровня в каждом выходном нейроне; нейрон с максимальным возбуждением пред- ставляет классификацию. Так как обучение проводится без указания це- левого вектора, то нет возможности определять заранее, какой нейрон будет соответствовать данному классу входных векторов. Тем не менее, это планирование легко проводится путем тестирования сети после обу- чения. Алгоритм трактует набор из п входных весов нейрона как вектор в п-мерном пространстве. Перед обучением каждый компонент этого век- тора весов инициализируется в случайную величину. Затем каждый век- тор нормализуется в вектор с единичной длиной в пространстве весов - для этого выполняется деление каждого случайного веса на квадратный корень из суммы квадратов компонент этого весового вектора. Вес входные векторы обучающего набора также нормализуются и сеть обучается согласно следующему алгоритму: 1. Вектор X подается на вход сети. 2. Определяются расстояния Dj (в тг-мерном пространстве) между X и весовыми векторами Wj каждого нейрона. В евклидовом пространстве это расстояние вычисляется по следующей формуле: где Xi — компонента i входного вектора X, w^j — вес входа г нейрона j. 3. Нейрон, который имеет весовой вектор, самый близкий к X, объ- является победителем. Этот вектор, называемый Wc, становится основ- ным в группе весовых векторов, которые лежат в пределах расстояния D от Wc. 4. Группа весовых векторов настраивается в соответствии со следую- щим выражением: для всех весовых векторов в пределах расстояния D от Wc. 5. Повторяются шаги с 1 по 4 для каждого входного вектора. В процессе обучения нейронной сети значения D и а постепенно уменьшаются. Рекомендуется, чтобы коэффициент а в начале обучения устанавливался приблизительно равным единице и уменьшался в про- цессе обучения до нуля, в то время как D может в начале обучения рав- няться максимальному расстоянию между весовыми векторами и в кон- 313
Нечеткие множества и нейронные сети це обучения стать настолько маленьким, что будет обучаться тол ько один нейрон. В соответствии с существующей точкой зрения, точность классифи- кации будет улучшаться при дополнительном обучении. Согласно реко- мендации Кохонена, для получения хорошей статистической точности количество обучающих циклов должно быть, по крайней мере, в 500 раз больше количества выходных нейронов. Обучающий алгоритм настраивает весовые векторы в окрестности возбужденного нейрона таким образом, чтобы они были более схожи- ми с входным вектором. Так как все векторы нормализуются в векторы с единичной длиной, они могут рассматриваться как точки на поверхно- сти единичной гиперсферы. В процессе обучения группа соседних весо- вых точек перемещается ближе к точке входного вектора. Предполагает- ся, что входные векторы фактически группируются в классы в соответ- ствии с их положением в векторном пространстве. Определенный класс будет ассоциироваться с определенным нейроном, перемещая его весо- вой вектор в направлении центра класса и способствуя его возбуждению при появлении на входе любого вектора данного класса. После обучения классификация выполняется в два шага: подачей на вход сети испытуемого вектора и вычисления возбуждения для каждого нейрона, с последующим выбором нейрона с наивысшим возбуждением как индикатора правильной классификации. 314
Литература 1. Аверкин А.Н. Нечеткие множества в моделях управления и искусст- венного интеллекта. Под ред. Д.А.Поспелова. Из-во: Наука, 1986, 312 стр. 2. Батыршин И.З. Основные операции нечеткой логики и их обобще- ния, Казань: Отечество, 2001, 100 стр. 3. Головко В.А. Нейронные сети: обучение, организация и примене- ние. Из-во: ИПРЖР, 2002, 256 стр. 4. Заенцев И.В. Нейронные сети: основные модели. Воронеж, 1999, 76 стр. 5. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. Из-во: Мир, 1976, 100 стр. 6. Кофман А. Введение в теорию нечетких множеств / Пер.с фр.- М.:Радио и связь, 1982.-432с. 7. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. Из-во: Горячая Линия - Телеком, 2001, 382 стр. 8. Круглов В.В., Дли М.И., Годунов РЮ. Нечеткая логика и искусст- венные нейронные сети. Из-во: ФИЗМАТЛИТ, 2001, 224 стр. 9. Оссовский С. Нейронные сети для обработки информации. Из-во: Финансы и статистика, 2002, 344 стр. 10. Радченко А. Н. Ассоциативная память. Нейронные сети. Оп тимиза- ция нейропроцессоров. Из-во: Наука, 1998, 261 стр.
Учебное издание Яхъяева Гульнара Эркиновна НЕЧЕТКИЕ МНОЖЕСТВА И НЕЙРОННЫЕ СЕТИ Учебное пособие Литературный редактор С. Перепелкина Корректор Ю. Голомазова Компьютерная верстка Л. Широбоков Обложка М. Автономова Подписано в печать 25.04.2006. Формат 60x90 '/jg. Гарнитура Таймс. Бумага офсетная. Печать офсетная. Уел. печ. л. 20,0. Тираж 1000 экз. Заказ № 2342 ООО «ИНТУИТ.РУ» Интернет-Университет Информационных Технологий, www.intuit.ru Москва, Электрический пер., 8, стр.З. E-mail: admin@intuit.ru, http://www.intuit.ru ООО «БИНОМ. Лаборатория знаний» Москва, проезд Аэропорта, д. 3 Телефон: (495) 157-1902, 157-5272 E-mail: Lbz@aha.ru, http://www.Lbz.ru При участии ООО «ПФ «Сашко» Отпечатано в ОАО «ИПК «Ульяновский Дом печати» 432980, г. Ульяновск, ул. Гончарова, 14
Список книг Интернет-Университета Информационных Технологий Алгоритмы, структуры данных, вычисления 1. Введение в вычислительную математику, А.И. Лобанов и др., 2006, 480 с. 2. Графы и алгоритмы. Структуры данных. Модели вычислений, В.Е. Алексеев, В.А. Таланов, 2006, 320 с. 3. Нейрокомпьютерные системы, М.С. Тарков, 2006, 320 с. 4. Нечеткие множества и нейронные сети, Г.Э. Яхъяева, 2006, 320 с. Архитектура ЭВМ 5. Архитектура и технологии IBM eServer zSeries, Э.К. Лекцкий и др., 2005,640 с. 6. Архитектуры и топологии многопроцессорных вычислительных систем, А.В. Богданов и др., 2004, 176 с. 7. Основы микропроцессорной техники, 3-е изд., Ю.В. Новиков и др., 2006, 360 с. 8. Основы теории и организации ЭВМ, В.В. Гуров и др , 2006, 272 с. Безопасность информационных технологий 9. Основы информационной безопасности, 3-е изд., В.А. Галатенко, 2006, 208 с. 10. Основы сетевой безопасности: криптографические алгоритмы и протоколы взаимодействия, О.Р. Лапонина, 2005, 608 с. 11. Стандарты информационной безопасности, В.А. Галатенко, 2006, 264 с. Интернет-технологии 12. Flash MX для профессиональных программистов, М.А. Капустин и др., 2006, 512 с. 13. Основы web-технологий, П.Б. Храмцов и др., 2003, 512 с. История и социальные вопросы 14. Основы права интеллектуальной собственности, А.Г. Серго и др. 2005, 344 с. Операционные системы 15. Операционная система Linux, Г.В. Курячий и др., 2005, 392 с. 16. Операционная система Solaris, Ф.И. Торчинский, 2005, 472 с. 17. Операционная система Unix, Г.В. Курячий, 2004, 320 с. 18. Основы операционных систем, 2-е изд., В.Е. Карпов и др. 2006, 536 с. Разработка приложений 19. Введение в анализ, синтез и моделирование систем, В.М. Казиев, 2006,248 с. 20. Введение в теорию программирования, С.В. Зыков, 2004, 400 с. 21. Интеграция приложений на основе WebSphere MQ, В.А Макушкин и др., 2005,336 с. 22. Компонентный подход в программировании, В.В. Кулямин, 2006, 320 с. 23. Объектно-ориентированный анализ и проектирование с использованием UML и IBM Rational Rose, А.В. Леонснков, 2006,320 с. 24. Основы менеджмента программных проектов, И.Н. Скопин, 2004, 336 с. 25. Основы тестирования программного обеспечения, В.П. Котляров, 2006, 360 с. 26. Программирование в стандарте POSIX, В.А. Галатенко, 2004, 560 с. 27. Проектирование информационных систем, В.И. Грекул и др., 2005, 296 с. 28. Стили и методы программирования, Н.Н. Непейвода, 2005, 320 с. Сетевые технологии 29. Основы локальных сетей, Ю.В. Новиков и др., 2005, 360 с. 30. Основы сетей передачи данных, 2-е изд., В.Г. Олифер и др., 2005, 176 с