Текст
                    6 ФОЛ
А 36
УДК 62-50
Метод потенциальных функций в теории обучения машин, А й-
зерман М. А., Браверман Э. М., Розоноэр Л. И.,
Главная редакция физико-математической литературы изд-ва
«Наука», М., 1970, 384 стр.
Книга посвящена одному из современных направлений киберне-
тики, связанному с моделированием на вычислительных машинах
процесса обучения.
Монография подытоживает работы авторов по развитию метода
потенциальных функций и его использованию в задачах распозна-
вания образов, идентификации и автоматической классификации.
Особое внимание обращено на математические задачи, связанные
со сходимостью случайных процессов, возникающих при применении
метода, и на его связь с другими методами теории обучения (в част-
ности, с методами стохастической аппроксимации). От читателя тре-
буется знание математики в объеме втузовского курса; необходимые
дополнительные сведения излагаются авторами.
Книга рассчитана на инженеров и математиков, работающих в
области кибернетики, а также на студентов и аспирантов, специа-
лизирующихся в этой области.
Табл. 3. Илл. 25. Библ. 13 назв.
Марк Аронович Айзерман, Эммануил Маркович Браверман,
Лев Ильич Розоноэр
Метод потенциальных функций в теории обучения машин
М., 1970 г., 384 стр. с илл.
Редактор С. М. Меерков
Техн, редактор А. А. Благовещенская	Корректор Л. Я. Резенталь
Сдано в набор 30/1II 1970 г. Подписано к печати 30/Х 1970 г. Бумага 84Х1087з2.
Физ. печ. л. 12. Условн. печ. л. 20,16. Уч.-изд. л. 18,27. Тираж 7000 экз. Т-15470.
Цена 1 р. 35 к. Заказ № 551.
Издательство «Наука»
Главная редакция физико-математической литературы.
Москва, В-71, Ленинский проспект, 15.
Ордена Трудового Красного Знамени Ленинградская типография № 2
имени Евгении Соколовой Главполиграфпрома Комитета по печати
при Совете Министров СССР. Измайловский проспект, 29.
3-°-14
104-70

ОГЛАВЛЕНИЕ От авторов.....................................................6 Глава I. Проблема обучения машин распознаванию образов (содержательная постановка задачи)...........................9 §1.0 задаче обучения машин распознаванию образов . . 9 § 2. Геометрическая интерпретация задачи..................18 § 3. Разделение сложных образов. Признаки. Лингвистиче- ский подход к задачам распознавания.....................24 1. Упрощение задачи разделения путем преобразования пространства ....................................... 24 2. Лингвистический подход к задаче распознавания образов .............................................26 3. Выработка словаря..................................27 Глава II. Метод потенциальных функций.........................30 § 1. Идея метода потенциальных функций...................30 § 2. Общая рекуррентная процедура.........................35 § 3. Машинная и персептронная реализация процедуры ме- тода потенциальных функций......................... .... 45 1. Машинная реализация................................45 2. Персептронная реализация...........................46 § 4. Функционалы, экстремизируемые процедурами метода потенциальных функций...................................52 § 5. Процедура Роббинса — Монро метода стохастической аппроксимации и процедура метода потенциальных функций ................................................60 § 6. Некоторые замечания о методе потенциальных функций 64 Глава III. О выборе системы функций ф/(л:) и потенциаль- ной функции у) ..............................................67 § 1. О выборе системы функций фг(х)..................67 1. Общие соображения..............................67 2. Пространство Сит...............................73 3. Пространство вершин m-мерного куба.............79 § 2. О выборе вида потенциальной функции /С(х, #) . . . 81 1. Общие соображения о выборе функции К(х,у) . . 81 2. Выбор потенциальной функции в евклидовом про- странстве . .........................................85
4 ОГЛАВЛЕНИЕ 3. Выбор потенциальной функции в случае, когда про- странство X — множество вершин m-мерного куба . 90 § 3. О выборе потенциальной функции в симметрических пространствах...........................................93 1. Симметрическое пространство.......................93 2. Квадратичные функционалы качества на симметриче- ских пространствах..................................95 3. Выделение классов функций одинакового качества . 99 4. Разложение функций расстояния в ряд............111 5. Вид потенциальной функции в симметрическом про- странстве .........................................119 6. О выборе потенциальной функции в пространстве вершин /и-мерного куба.............................128 Глава IV. Сходимость основной процедуры метода потенци- альных функций.............................................137 § 1. Понятия о сходимости случайных процессов . . . 137 § 2. Особенности исследования случайных процессов, по- рождаемых методом потенциальных функций .... 147 " § 3. Основные теоремы о сходимости......................151 § 4. Условия сходимости процедуры Роббинса — Монро ме- тода стохастической аппроксимации ................183 § 5. Условия сходимости процедур метода потенциальных функций ............................................195 § 6. Оценка скорости сходимости.........................226 Глава V. Применение метода потенциальных функций к за- даче об обучении машин распознаванию образов (детерминистская постановка задачи) . . . , . 241 § 1. Постановка задачи..................................241 § 2. Алгоритм, решающий задачу..........................244 § 3. Два метода реализации алгоритма....................252 § 4. Экстремизируемый функционал........................254 § 5. Сходимость процедуры...............................257 § 6. Условия остановки алгоритма........................267 Глава VI. Применение метода потенциальных функций к за- даче аппроксимации функции по ее значениям в случайно выбранных точках.................................272 § 1. Аппроксимация функции при отсутствии помех . . . 273 1. Постановка задачи ...............................273 2. Алгоритмы аппроксимации функции при отсутствии помех .............................................274 § 2. Аппроксимация функции при наличии помех .... 278 § 3. Сходимость алгоритмов............................279 § 4. Оценка скорости сходимости алгоритмов..........285 Глава VII. Вероятностная задача об обучении машин распо- знаванию образов .... . . . 299 § 1. Постановка задачи..................................299 § 2. Аппроксимация плотности вероятности р(х) .... 303
ОГЛАВЛЕНИЕ 5 § 3. Описание алгоритмов непосредственной аппроксимации степени достоверности...............................308 § 4. Минимизируемые функционалы и сходимость второго и третьего алгоритмов................................313 § 5. Сравнение второго и третьего алгоритмов с другими алгоритмами метода потенциальных функций . . . .318 1. Сравнение первого алгоритма со вторым и третьим 318 2. Сравнение второго и третьего алгоритмов с алго- ритмом главы V.......................................320 § 6. Оценка скорости сходимости.....................323 Глава VIII. Обучение без учителя......................328 § 1. Постановка задачи..............................328 § 2. Связь между видом экстремизирующей разделяющей функции и видом функционала.........................335 § 3. Применение метода потенциальных функций к задаче обучения машины без учителя.........................350 1. Общие соображения............................350 2. Описание алгоритма метода потенциальных функ- ций для восстановления экстремизирующей разде- ляющей поверхности..............................356 § 4. Условия сходимости алгоритма...................359 Литература ........................................... 384
ОТ АВТОРОВ Метод потенциальных функций, которому посвящена эта книга, был первоначально предложен для решения задач обучения машин распознаванию образов. Метод был разработан применительно к ставшей теперь обыч- ной геометрической постановке задачи, когда обучение сводится к построению в некотором пространстве поверх- ности, разделяющей два множества, соответствующие двум образам. Вскоре выяснилось, что рекуррентные про- цедуры метода потенциальных функций тесно связаны с принципом действия персептрона, и дальнейшая раз- работка этого метода позволила обобщить персептрон- ные схемы. Задача распознавания образов,' помимо детермини- стской, имеет и вероятностную постановку, которая свя- зана не с построением разделяющей поверхности, а с восстановлением некоторой функции, характеризующей вероятность принадлежности объекта тому или иному образу. Для решения этой задачи была предложена ре- куррентная процедура, которая по существу дела совер- шенно аналогична той процедуре, которая использова- лась для решения задачи распознавания образов в обыч- ной, невероятностной постановке. Это, естественно, привело к мысли, что аналогичные процедуры могут быть успешно использованы для восстановления функций боль- шого числа переменных, не обязательно связанных с за- дачей распознавания образов. Так постепенно был выде- лен специфический класс рекуррентных процедур, при-, способленный для решения достаточно широкого класса аппроксимационных задач. Эти процедуры оказались применимы также и в задачах обучения «без учителя» (к задачам автоматической классификации)»
ОТ АВТОРОВ 7 Рассмотрение этого класса процедур привело к по- становке нескольких математических задач. Применение рекуррентной процедуры оправдано лишь в том случае, если она сходится к решению рас- сматриваемой задачи. Это повлекло за собой разработку методов доказательства сходимости, учитывающих спе- цифику процедур рассматриваемого класса. С другой стороны, особенность процедур метода по- тенциальных функций состоит в том, что при их приме- нении к конкретным задачам приходится каждый раз выбирать вид некоторой функции, содержащейся в этой процедуре (такая функция называется «потенциаль- ной»), либо выбирать систему функций, по которой мо- гут раскладываться в ряды как потенциальная функция, так и выстраиваемые процедурой последовательные ап- проксимации. Для того чтобы выбрать вид потенциаль- ной функции (или системы функций, по которой ведется разложение), устанавливаются некоторые математиче- ские факты, позволяющие осмысленно сделать этот выбор. Дальнейшее развитие метода потенциальных функ- ций было связано с идеей о том, что алгоритмы этого метода могут быть поняты как процедуры Роббинса— Монро метода стохастической аппроксимации. Оказа- лось, что процедуры метода потенциальных функций вы- деляют класс процедур Роббинса—Монро, которые яв- ляются в стохастическом смысле градиентными, миними- зирующими некоторые функционалы. Использование этого обстоятельства привело к установлению теорем о сходимости процедуры в смысле минимизации соответ- ствующего функционала. Методу потенциальных функций и различным его приложениям посвящена эта книга. В книге восемь глав. Первые четыре главы посвя- щены описанию метода, и, в частности, связанным с ним математическим задачам, а последующие четыре главы — конкретным аппроксимационным задачам, которые ре- шаются этим методом. Знание математического аппа- рата, которое предполагается у читателя, в разных гла- вах различно.
8 ОТ АВТОРОВ Книга написана как бы в расчете «на два математи- ческих уровня» читателей. Глава IV, посвященная схо- димости процедур метода, последний параграф главы Ш, посвященный оценке сложности функций, заданных на симметричных пространствах, а также доказательства некоторых теорем последующих глав (в особенности гл. VIII) рассчитаны на хорошо подготовленного чита- теля. Весь остальной текст книги, наоборот, рассчитан на читателя, имеющего математическую подготовку, обычную для современного инженера, работающего в об- ласти автоматики или технической кибернетики. Такому читателю авторы рекомендуют, по крайней мере при пер- вом чтении книги, полностью опустить последний параг- раф главы III, в главе IV — доказательства теорем, а при чтении глав V—VIII «принимать на веру» теоремы в тех случаях, когда разбор их доказательства вызовет затруднения. Первая глава написана предельно элементарно. Цель ее —пояснить читателю, впервые знакомящемуся с зада- чами обучения машин распознаванию образов, исходные идеи этих задач и пояснить цели и общую идею разви- ваемых методов. Необходимые по тексту ссылки на литературу выне- сены в сноски. Библиографический список, помещенный в конце книги, очень короток — он содержит лишь пере- чень публикаций, непосредственно связанных с методом потенциальных функций, а также литературу, часто ци- тируемую в книге.
Глава 1 ПРОБЛЕМА ОБУЧЕНИЯ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ (СОДЕРЖАТЕЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ) §1.0 задаче обучения машин распознаванию образов В этой книге рассматривается задача о машинной имитации свойственного человеку умения классифициро- вать воспринимаемые ощущения. Человек, воспринимая явления внешнего мира, клас- сифицирует их, т. е. разбивает на классы «похожих», но не тождественных явлений, наделяя каждый класс спе- циальным наименованием. Если иметь в виду зритель- ные ощущения, то примерами такого рода классов мо- гут служить классы: «мужской портрет», «пейзаж», «ру- кописная буква а», «кружок», «печатный текст» и т. д. Аналогично, для слуховых ощущений примерами таких классов являются: «звук приближающегося корабля», # «свист», «мажорная музыка», «вкрадчивый голос», «жен- ский голос» и т. д. Термины: «запах розы», «запах жилья» — примеры классов ощущения обоняния, а «мяг- кое», «жесткое», «шершавое», «гладкое» — примеры клас- сов осязательных ощущений. Рассматривая далее некоторые задачи имитации на машинах подобной способности человека разделять внеш- ние воздействия на классы, мы будем иметь в виду воз- действия в весьма широком смысле этого слова: в каче- стве воздействий будут рассматриваться абстрактные входные возбуждения, заданные, например, наборами * чисел или иных символов. Предположим теперь, что некоторая классификация | зрительных восприятий произведена; например, прос- матривая изображения, человек может выделить среди них «портреты» и «пейзажи». Это значит, что такое вы- деление этот человек может производить не только по отношению к.ранее виденным объектам (в данном при- мере— изображениям), но и по отношению к объектам,
10 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ ранее не виденным. Именно благодаря этому мы умеем читать текст, написанный разными почерками или напе- I чатанный не встречавшимся ранее шрифтом. Разумеется, не всякое множество объектов человек может воспринимать как класс в указанном выше смыс- ле. Так, например, множество читателей этой книги — вполне определенное множество, но, наблюдая визуально отдельного человека, нельзя сказать, относится ли он к этому множеству. В таких случаях различить, относится ли объект к некоторому классу, можно было бы лишь $ перечислив все элементы, входящие в класс, и запомнив их. При конечном и небольшом числе элементов в классе это можно сделать (множество «телефоны знакомых, со- ] держащиеся в моей записной книжке» — прекрасный пример такого рода). Тогда при появлении нового объек- та для отнесения или неотнесения его к классу можно j было бы просто обратиться к памяти и перебрать ее со- держимое. ! Исключив из рассмотрения этот тривиальный случай, условимся в остальных случаях классификаций подраз- j делять их в зависимости от того, каким способом один человек, выработавший классификацию («учитель»), мо- жет передать другому человеку, не знакомому с ней («ученику»), свое умение классифицировать объекты так, чтобы в дальнейшем, наблюдая новые, ранее не виден- ные объекты, ученик классифицировал их так же, как это сделал бы учитель. Типичный пример передачи такого умения — обучение неграмотного различению букв или цифр. Можно указать два пути, каким образом умение клас- сифицировать объекты может быть передано от одного человека другому. Первый путь связан с тем, что учитель не только умеет классифицировать наблюдаемые объекты, нои продумал, как это надо делать применительно к каждому конкрет- ному частному случаю. Зная, какие зрительные восприя- тия должен будет классифицировать ученик, учитель объясняет ему, как это надо делать, т. е. как бы задает алгоритм классификации. Ученик запоминает этот алго- ритм и производит в соответствии с ним распознавание показываемых затем ему зрительных объектов.
§1.0 ЗАДАЧЕ ОБУЧЕНИЯ МАШИН РАСПОЗНАВАНИЮ 11 Второй путь реализует другой процесс обучения, дру- гую, не понятную нам пока способность живого мозга. Если взять много букв «а» и «б», написанных разными почерками, и ученику, который не знает букв, показы- вать различные их начертания и говорить лишь «это бук- ва а» и «это буква б», не сообщая какой-либо информа- ции о том, как надо различать эти буквы друг от друга, то через некоторое время ученик сможет отличать буквы «а» от букв «б», и притом не только те, которые ему по- казывали ранее, но и все остальные начертания этих букв. Аналогично обстоит дело и в иных случаях: учи- тель может передать ученику свое умение классифициро- вать не объяснением правил, а только показом примеров. Рассмотрим теперь несколько подробнее первый путь обучения классификации. Для того чтобы учитель мог составить и передать ученику алгоритм классификации, предварительно дол- жен быть выработан язык, одинаково понимаемый уче- ником и учителем, в терминах которого этот алгоритм может быть записан. Этот язык неизбежно должен со- держать набор исходных классификаций, о которых пред- полагается, что они очевидны, т. е. уже выработаны и притом одинаково у учителя и ученика. Например, способ различения рукописных букв «а» и «о» можно задать так: эти изображения содержат «кру- жок» и справа от него «крючок», если «крючок» по длине примерно такой же, как «кружок», то это буква «а», если же «крючок» заметно короче «кружка» и распола- гается в его верхней части, то это буква «о». На первый взгляд кажется, что это описание просто и понятно. Но это лишь кажущаяся простота — она возникла потому, что у авторов и читателей выработано ранее одинаковое представление о том, что такое «кружок», «крючок», «справа», «заметно короче», «верхняя часть». Если бы потребовалось эту же простую инструкцию передать ма- шине или не обученному ранее человеку, например, ре- бенку, то возникли бы новые трудности. Можно было бы, например, объяснить, что «кружок» — это замкнутая, несамопересекающаяся кривая, но тогда возникла бы не- обходимость найти способ объяснить, что такое «кривая», «самопересечение» и т, д. В конечном итоге все равно
12 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ оказалось бы необходимым выработать и передать уче- нику некоторую исходную классификацию, используя для этого второй способ обучения (показом примеров), и лишь после этого для передачи ученику более сложных классификаций оказалось бы возможным пользоваться первым способом обучения. Инструкция (алгоритм, про- грамма), которую учитель при этом составил бы для ученика, содержала бы некоторые логические высказы- вания в терминах выработанных ранее более простых классификаций. Так, в приведенном выше примере та- кими высказываниями являются: «есть кружок», «справа от кружка есть крючок», «кружок заметно длиннее крючка», «крючок расположен в верхней части кружка» и т. д. Каждое из утверждений подобного рода — их назы- вают признаками *) — может быть верным или ложным, и инструкция распознавания указывает, при каких соче- таниях правильности или ложности таких утверждений верно, что «это буква а» или «это буква о». В этом смысле инструкция распознавания есть логическая функ- ция, а признаки играют роль логических переменных. Таким образом, первый способ обучения (передачей правил) не исключает второго способа обучения (демон- страцией примеров), а дополняет его, используя некото- рый язык, «слова» которого «вырабатываются» с по- мощью демонстрации примеров. Вопросы формирования такого языка и реализации его в машинах — самостоя- тельная и сложная задача (см. § 3). Если же такой язык уже каким-либо способом выработан, и слова этого язы- ка хорошо понятны и учителю, и ученику, то реализация первого способа обучения является принципиально про- стой формально-логической задачей, легко «усваивае- мой» вычислительной машиной. Поэтому первый способ обучения не рассматривается в настоящей книге, и про- блемой, которая обсуждается в книге, является про- блема обучения по второму методу — показом примеров. *) О понятии «признак» подробнее речь будет идти далее, в § 3 этой главы.
§ 1. О ЗАДАЧЕ ОБУЧЕНИЯ МАШИН РАСПОЗНАВАНИЮ 13 Классы объектов, которые можно научиться разли- чать по второму методу, т. е. наблюдая лишь примеры объектов, принадлежащих классу, условно называются далее образами; объекты, множество которых составляет образ — элементами, а задачи классификаций в таких случаях — задачей распознавания образов. Теперь можно подробнее пояснить постановку про- блемы обучения машины распознаванию образов, ис- пользуя в качестве примера случай классификации изо- бражений. Рассмотрим множество изображений, которые чело- век («учитель») может разделить на два класса, напри- мер, бесконечное множество написанных разными почер- ками букв апо. Представим себе, что имеется фотополе, составлен- ное из большого количества фотоэлементов (рис. 1). На фотополе проецируются изо- бражения — элементы обра- зов «буква а» и «буква о». При каждой проекции с вы- хода каждого фотоэлемента снимается ток определенной силы. От каждого фотоэле- мента подведены провода к устройству, которое мы на- JO зываем машиной. В процессе обучения из всего бесчисленного количе- / у; Л ства начертаний букв «а» и / «о» случайно отбираются не- // сколько и показываются ма- шине проецированием на фо- тополе. При каждом показе Рис. 1. машине сообщается, пока- зали ли букву «а» или «о». После того как будут пока- заны все отобранные буквы, процесс обучения машины заканчивается и начинается процесс, который условно на- зывают экзаменом. Во время экзамена на фотополе прое- цируют различные иные, ранее не использовавшиеся на- чертания букв «а» и «о». Машина каким-либо условным сигналом, например, включением соответствующего
14 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ табло, дает ответ на вопрос: «Что это такое?» Будем го- ворить, что мы воспроизвели процесс обучения, если ма- шина в подавляющем большинстве случаев дает правиль- ные ответы. Требуется, чтобы, ничего не меняя в схеме машины или в ее программе, можно было повторить этот же опыт с новыми образами. Например, чтобы можно было машину, обученную распознаванию букв «а» и «о», этим же процессом, ничего не меняя в ее программе, пере- учить распознаванию кружков и треугольников либо научить ее различать мужские и женские портреты и т. д. Это последнее условие наиболее существенно — оно кос- венно предполагает, в частности, что в программу не за- ложены в какой-либо форме набор признаков и построен- ная на них логика распознавания, т. е. что программа обучения достаточно универсальна. Всюду ранее мы предполагали, что учитель умеет точно классифицировать показанные объекты, т. е. что если один и тот же элемент будет показан ему несколько раз, то он каждый раз безошибочно отнесет его к одному и тому же образу. На прак- S") ГУ Гу тике часто возникает иная СЛ Сх L/ ситуация. Например, про- сматривая начертания букв, Рис. 2. показанных на рис. 2, мы некоторые из них безоши- бочно отнесем к «а», некоторые — к «о», а в отношении ряда других начертаний столь четкий ответ невозможен — одно и то же начертание -может быть отнесено один раз к «а», а другой раз к «о». В таких ситуациях во всяком случае можно предположить, что для каждого изображе- ния объективно существует вероятность того, что оно яв- ляется элементом некоторого образа — в нашем примере степень достоверности того, что показанные буквы «есть а» или «есть о». В таких случаях в ходе обучения учитель относит по- казанное изображение к тому или иному образу с этой объективно существующей вероятностью. Если, напри- мер, вероятность того, что буква, подчеркнутая на рис. 2, есть «я», равна 0,7, а того, что она «о» — 0,3, и если в ходе обучения среди показанных начертаний букв «а»
§ 1. О ЗАДАЧЕ ОБУЧЕНИЯ МАШИН РАСПОЗНАВАНИЮ 15 и «о» это начертание встретится 100 раз, то примерно 70 раз учитель сообщит машине, что это «а» и примерно 30 раз, что это «о». В результате обучения машины в этом случае должна быть восстановлена вероятность для лю- бого начертания быть буквой «а» или буквой «о». В про- цессе экзамена при показе какого-либо начертания бук- вы, все равно, использовалось оно в ходе обучения или нет, машина определяет вероятность того, что это буква «а» или «о», и эта определенная машиной вероятность должна быть близка той, с которой учитель относил бы к «а» или «о» это же начертание. Такую постановку задачи обучения машины распознаванию образов назы- вают вероятностной, в отличие от детерминистской по- становки, о которой речь шла ранее. Как при детерминистской, так и при вероятностной постановке задачи предполагается, что в процессе обу- чения машины активно участвует учитель, который сооб- щает машине свое решение об отнесении показанных эле- ментов к тому или иному образу, и эта информация ис- пользуется программой. Рассмотрим теперь имитацию иного процесса позна- ния, свойственного человеку — умение обнаруживать «схожесть» без активного участия учителя. Если, напри- мер, ребенку, не умеющему читать, показать много раз- личных изображений букв «а» и «о» примерно одинако- вого размера и попросить его разделить эти изображения на две «кучки» так, чтобы в каждой кучке оказались по- хожие изображения, то ребенок разделит их. Эта способ- ность мозга без информации учителя обнаруживать и классифицировать объекты по «схожести» широко ис- пользуется в психологических тестах. Рассмотрим теперь следующий эксперимент. На фо- тополе машины (см. рис. I) проецируются отобранные некоторым случайным образом изображения, которые че- ловек отнес бы к двум разным образам, например, раз- личные начертания букв «а» и «о». Никакой информации о том, к каким образам относятся показанные точки, ни даже о том, сколько различных образов представлено в показываемых изображениях, машине не сообщается. В программе машины не содержится в какой-либо форме список ранее установленных более простых образов
16 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ (исходный словарь или признаки), способы обнаружи- вать их и логика действия с ними. Машина реагирует на показ каждого изображения выдачей на выходе различ- ных символов. Если по мере увеличения числа показанных изобра- жений машина с все увеличивающейся достоверностью выдает одинаковые символы при появлении изображе- ний, которые человек отнес бы к одному и тому же об- разу, то мы будем говорить, что в машине реализуется процесс самообучения или обучения без учителя*). Выше разъяснялся содержательный смысл задачи об обучении машин классификации входных ситуаций, но вопрос о том, почему важна и интересна задача такого рода, не обсуждался. Теперь, когда смысл задачи выяс- нен, естественно затронуть вопрос и о ее значимости. Задача об обучении или самообучении машины раз- делению объектов на классы интересна как с приклад- ной, так и принципиальной точки зрения. С прикладной точки зрения решение этой задачи важно прежде всего потому, что оно позволяет автомати- зировать многие процессы, которые до сих пор мы свя- зывали лишь с деятельностью живого мозга. Так, напри- мер, медицинская диагностика, т. е. установление болезни по информации о ходе болезни и данным обсле- дования — типичный пример такого рода. Другие приме- ры — классификация данных сейсмической разведки или электрокаротажа, предсказание погоды по метеорологи- ческим данным, установление неисправностей машин по внешним, нечетким, «размытым» наблюдениям за их ра- ботой и т. д. Более того, задача о классификации ситуа- ций неизбежно возникает всегда, когда количество дей- ствий, которые может производить автомат, значительно меньше числа ситуаций, которые могут возникнуть на его входе (например, если число действий автомата конечно, а число входных ситуаций бесконечно). В таких случаях автомат должен прежде всего классифицировать ситуа- *) Информацию, которую сообщает учитель машине в процессе обучения о том, к какому образу он относит показанное изображе- ние, называют иногда поощрением, имея в виду аналогию с процес- сом выработки условного рефлекса. В таком случае обучение без учителя называют обучением без поощрения.
§ I. О ЗАДАЧЕ ОБУЧЕНИЯ МАШИН РАСПОЗНАВАНИЮ 17 ции так, чтобы каждое выходное действие автомата яв- лялось .реакцией на появление на входе ситуации из оп- ределенного класса. В этом смысле задача классифика- ции— одна из центральных задач автоматики в целом. Принципиальное значение задачи распознавания об- разов тесно связано с вопросом, который все более на- стойчиво возникает в связи с развитием идей киберне- тики: что «может» и что принципиально «не может» де- лать машина? В какой мере возможности машин могут быть приближены к возможностям живого мозга? Ответы на эти вопросы возможны лишь в том случае, если они будут поставлены в точных терминах, и харак- тер ответов зависит прежде всего от того, каким образом ^классифицировать возможности мозга. Можно, в частно- сти, все, что может «делать» мозг, подразделять в зави- симости от того, каким образом один человек может пе- редать это «умение» другому. Если оставить в стороне те «умения», которые вообще не могут быть переданы от одного человека к другому*), то все остальные «умения» можно подразделить на два класса: 1) «умения», которыми человек не только владеет, но и понимает, как он это делает, и поэтому может соста- вить алгоритм (программу) и передать ее другому; 2) «умения», в отношении которых человек не пони- мает, как он это делает, и поэтому не может составить алгоритма, а может лишь демонстрировать примеры. При передаче «умений» первого класса от человека к машине принципиальных трудностей не возникает. По- этому решение задачи о передаче от человека к машине умений второго класса имело бы принципиальное значе- ние в отношении приближения возможностей машин к возможностям мозга. Разумеется, частная задача об обу- чении классификации не решает этой задачи в целом — ведь ко второму классу относятся «умения», связь кото- рых с классификацией внешних ситуаций неочевидна**). *) Если такие «умения» существуют, то они не распростра- няются среди людей, и их можно поэтому назвать «исключительны- ми способностями», «гениальностью» и т. д. **) Например, умение находить правильную стратегию в слож- ных игровых ситуациях, когда приходится учитывать и возможные реакции противника. 2 М. А. Айзерман и др. ЙЙ г й- ( т. :-.) _ми - - — _ '• _/
18 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ Но решение задачи об обучении машин классификации объектов — важный шаг вперед в решении всей задачи о передаче от человека к машине «умений» второго класса. Выше, разъясняя содержательную постановку задачи и ее значимость, мы позволили себе с легкостью опери- ровать физиологическими и психологическими терми- нами, такими как «мозг», «восприятие», «умение» и т. д. Далее нас будут интересовать лишь методы решения на вычислительных машинах указанных задач и происте- кающие отсюда математические вопросы. Разумеется, мы не ставим себе целью понять, как в действительности происходят подобные процессы в живых организмах, а значит, и смоделировать их. Поэтому авторы предостере- гают читателя от попыток придать физиологическую или психологическую значимость методам, излагаемым далее в этой книге. § 2. Геометрическая интерпретация задачи Введем теперь в рассмотрение геометрическую интер- претацию задачи об обучении машины распознаванию образов, которая будет далее широко использоваться в этой книге. Поставим в соответствие каждому изображению, ко- торое может быть «показано» машине в ходе обучения или экзамена, точку некоторого пространства. Это со- ответствие может быть установлено различным образом. Можно, например, ввести в рассмотрение n-мерное про- странство, если считать, что фотополе машины состоит из п фотоэлементов и что состояние фотополя полностью определяется п числами — состояниями каждого из фото- элементов. Проецирование какого-либо изображения на фотополе приводит все его элементы (а значит, и фото- поле в целом) в некоторое состояние, т. е. определяет точку в так введенном пространстве. Если каждый фотоэлемент может быть лишь в одном из двух возможных состояний (возбужденном или невоз- бужденном), то пространством, о котором выше шла речь, служат вершины n-мерного куба, а каждому изо- бражению соответствует одна из этих вершин.
$ 2. ГЕОМЕТРИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ ЗАДАЧИ 19 Пространство, точкам которого соответствуют различ- ные объекты, подлежащие классификации, назовем ре- цепторным пространством и обозначим через X. Образ — множество таких объектов (изображений). Поэтому об- разу в пространстве X соответствует множество точек (область). Если утверждается, что при показе изображе- ний человек может однозначно отнести их к одному из двух (или нескольких) образов, то тем самым утвер- ждается, что в пространстве X существуют две (или не- сколько) области, не имеющие общих точек, и что пока- зываемые изображения — точки из этих областей. Ка- ждой такой области можно приписать наименование, которое придано соответствующему образу. Так, напри- мер, всему бесконечному разнообразию начертаний бук- вы «а» соответствует в пространстве X область «рукопис- ная буква а», а каждому конкретному начертанию этой буквы — точка из этой области. Аналогично обстоит дело с точками, соответствующими различным буквам «о» и областью «рукописная буква о». Области «рукописная буква а» и «рукописная буква о» не имеют общих точек друг с другом так же, как и нет у них общих точек с областями «мужской портрет», «пейзаж» или «цифра 5», но область «рукописная буква а» является частью обла- сти «рукописные буквы». В этом смысле области, соот- ветствующие образам, не обязательно «связные», так, на- пример, область «рукописные буквы» состоит из сово- купности ряда областей, не имеющих между собой об- щих точек. Проинтерпретируем теперь в терминах этой геометри- ческой картины процесс обучения распознаванию обра- зов с учителем, ограничившись пока, как это делалось и в § 1, случаем распознавания двух образов, например, образов «буква а» и «буква о». Заранее считается известным лишь, что требуется разделить две области в пространстве X и что показы- ваются точки только из этих областей. Сами эти области заранее не определены, т. е. нет каких-либо сведений о расположении их границ или правил определения при- надлежности точки к той или иной области. В ходе обу- чения предъявляются точки, случайно выбранные из этих 2*
20 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ областей, и сообщается информация о том, к какой об- ласти предъявленные точки принадлежат. Никакой до- полнительной информации об этих областях, т. е. о рас- положении их границ, в ходе обучения не сообщается. Цель обучения — построить поверхность, которая разде- ляет не только показанные точки, но и все остальные точки, принадлежащие этим областям. Иначе говоря, цель обучения — построить функцию f(x) над точками х пространства X такую, которая, например, положительна не только на показанных, но и на всех точках из области «буква а» и отрицательна на всех точках из области «буква о». В связи с тем, что эти области не имеют об- щих точек, всегда существует множество таких разде- ляющих функций. В результате обучения должна быть построена какая-либо одна из них. В ходе экзамена ма- шина относит предъявляемые точки к областям «буква а» или «буква о», в зависимости от того, по какую сто- рону от разделяющей поверхности они лежат, т. е. в за- висимости от знака функции f(x) в этой точке. Если предъявляемые изображения принадлежат не двум, а большему числу образов, то задача состоит в по- строении по показанным в ходе обучения точкам поверх- ности, разделяющей все области, соответствующие этим образам, друг от друга. Задача эта может быть решена, например, дихотомией: сначала строится поверхность, отделяющая первую область от всех остальных, затем строится поверхность, отделяющая вторую область от всех остальных и т. д., т. е. строится не одна, а несколько разделяющих функций fi(x), f2(x), .и каждой обла- сти соответствует вполне определенное сочетание знаков этих функций. При показе в ходе экзамена новой точки определяются знаки функций fi(x), fz(x), ... в этой точ- ке, и она относится к той или иной области в зависи- мости от сочетания этих знаков. На первый взгляд кажется, что знания некоторого количества точек из области недостаточно, чтобы отде- лить всю область. Действительно, можно указать бесчис- ленное количество различных областей, которые содер- жат $ти точки, и как бы ни была построена по ним по- верхность, которая должна отделить искомую область, всегда можно указать другую область, которая Пересе-
§ 2. ГЕОМЕТРИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ ЗАДАЧИ 21 кает эту поверхность и вместе с тем содержит все пока- занные точки. Напомним, однако, что задача о прибли- жении функции по информации о ней в ограниченном множестве точек, существенно более узком, чем все мно- жество, на котором функция задана, является обычной математической задачей об аппроксимации функций. Ра- зумеется, решение таких задач требует введения изве- стных ограничений на класс рассматриваемых функций; выбор этих ограничений зависит от характера информа- ции, которая может быть использована при аппроксима- ции. Так, например, если заранее известно, что подлежа- щая аппроксимации функция представима разложением в ряд по какой-либо системе функций срДх), то задача сводится к определению коэффициентов этого ряда, т. е. для аппроксимации функции, заданной на континуаль- ном множестве, надо определить лишь счетное множе- ство чисел, а, значит, для этого достаточно информации о функции в счетном множестве точек. Если можно зара- нее предположить, что искомая функция представима ко- нечным рядом, то для ее аппроксимации надо определить конечное число коэффициентов разложения, и принци- пиально достаточно информации, касающейся конечного числа точек. Эти простые примеры показывают, что за- дача аппроксимации разделяющей поверхности по ин- формации об ограниченном числе точек из подлежащих разделению областей может быть решена, если ввести разумные ограничения на класс функций, которому при- надлежит подлежащая аппроксимации разделяющая функция. Интуитивно ясно, что аппроксимация разделяющей функции будет задачей тем более легкой, чем более «ком- пактны» и чем более «разнесены» в пространстве обла- сти, подлежащие разделению. Так, например, в случае, показанном на рис. 3, разделение заведомо более просто, чем в случае рис. 4. Действительно, в случае рис. 3 об- ласти могут быть разделены плоскостью, и даже при значительных отклонениях в определении коэффициентов ее уравнения эта плоскость продолжает разделять обла- сти; в случае же рис. 4 разделение осуществляется «вы- чурной» поверхностью, и даже незначительные отклоне- ния в ее форме приводят к ошибкам разделения. Имея
22 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ в виду это интуитивное представление о сравнительно легко разделимых областях мы будем говорить о ком- пактности, т. е. будем говорить, что разделяемые области компактны, в тех случаях, когда существует разделяю- щая их функция, не очень «вычурная» (например, не слишком «рваная», не имеющая очень большого числа экстремумов в ограниченной области и т. д.) и не пере- стающая быть разделяющей даже при «не очень малых деформациях». Этим интуитивным представлениям в сле- дующих главах будет придан точный смысл. Ограничиваясь пока указанным выше интуитивным пониманием компактности, можно перейти к геометриче- ской трактовке не только детерминистской, но также и вероятностной задачи обучения. ‘В этом случае уже не утверждается наличие в пространстве областей, подле- жащих разделению. С каждой точкой пространства свя- зывают два числа: вероятность (степень достоверности) того, что эта точка есть «а», и того, что она есть «о». Предполагается, что две функции Da(x) и Do(x) —ука- занные степени достоверности — существуют во всех точ- ках пространства X, но что они не известны заранее. Далее в процессе обучения появляются случайно точки х, и учитель относит их к «а» или «о» именно с этой ве- роятностью. Задача состоит в восстановлении функций Da(x) и Do(x) во всем X, т, е. вновь ставится аппрокси- мационная задача.
§ 2. ГЕОМЕТРИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ ЗАДАЧИ 23 Компактность в этом случае означает, что функции Da(x) и Do(x) в интуитивном смысле достаточно про- сты, не «вычурны», «грубы». Геометрическая интерпретация задачи обучения при- вела нас к постановке двух различных экстраполяцион- ных задач об аппроксимации функции, заданной на всем пространстве, по информации о значениях этой функции в отдельных, случайно выбранных точках. К этим двум задачам естественно примыкает обычная аппроксимационная задача: в пространстве X определена функция f(x); случайно показываются точки из X и со- общаются значения функции f(x) в этих точках (быть может, с помехой); требуется восстановить функцию f(x) во всем пространстве X. Так поставленная экстраполя- ционная задача не имеет непосредственного отношения к задаче обучения машины распознаванию образов, од- нако, с одной стороны, развиваемые далее методы при- годны для решения и этой задачи, а, с другой стороны, эта задача имеет важные приложения в технике — к ней сводится, например, задача об аппроксимации статиче- ской характеристики объекта по случайным наблюде- ниям. В связи с этим в этой книге наряду с задачами обучения машины распознаванию образов будет рассмат- риваться и задача аппроксимации функции. Вернемся опять к задачам распознавания образов. Интуитивные представления о компактности позволяют дать геометрическую интерпретацию и процессу обуче- ния без учителя. В этом случае мы предполагаем лишь, что в пространстве X объективно существуют несколько компактных областей. Число областей либо известно, либо заранее не известно, и при появлении случайных точек из этих областей нет информации о том, к какой области показываемые точки принадлежат. В силу того, что точки принадлежат компактным областям, они будут «ложиться» в пространстве X «кучно», и процесс обуче- ния без учителя может быть понят так: в пространстве X расположено несколько «кучных» множеств точек; тре- буется, наблюдая лишь расположение точек в простран- стве, установить этот факт, определить число таких «скоплений» (если оно заранее не известно) и построить поверхность, которая разделяет их таким образом, чтобы
24 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ с достаточно высокой вероятностью она разделяла и по- следующие точки из этих же «скоплений». Уже сама эта геометрическая интерпретация показывает, что обучение машин без учителя возможно. § 3. Разделение сложных образов. Признаки. Лингвистический подход к задачам распознавания Геометрическая интерпретация задачи распознавания образов, описанная в конце предыдущего параграфа, сво- дит задачу обучения распознаванию к аппроксимации разделяющей поверхности. Такое сведение удобно и ис- черпывает задачу в тех случаях, когда речь идет о про- стых образах, т. е. когда подлежащие разделению обла- сти достаточно «разнесены» в пространстве, а сами обла- сти компактны, т. е. их границы не чересчур «вычурны». В более сложных случаях требуется либо предварительно упростить задачу, либо же искать иные пути ее решения, не связанные с аппроксимацией разделяющих по- верхностей. 1. Упрощение задачи разделения путем преобразо- вания пространства. Наряду с пространством X, о кото- ром выше шла речь, рассмотрим пространство Y и пред- положим, что каждой точке хе X соответствует вполне определенная точка у е У, а обратное соответствие мо- жет быть и неоднозначным. Это значит, что существует преобразование y=f(x). (1) Области, соответствующие различным образам и оп- ределенные в пространстве X, переводятся преобразова- нием (1) в области пространства У. Использование пре- образования (1) для упрощения задачи связано с таким выбором функции f(x), при котором расстояние между областями увеличивается, а сами области становятся бо- лее компактными, границы их более простыми, «менее вычурными». В связи с тем, что преобразование (1) может не иметь однозначного обратного преобразования, переход в про- странство У может быть использован для уменьшения
§ 3. РАЗДЕЛЕНИЕ СЛОЖНЫХ ОБРАЗОВ 25 размерности пространства, в котором должна решаться какая-либо из упомянутых выше аппроксимационных задач. В качестве примера представим себе, что простран- ство X — n-мерное евклидово пространство, а У — про- странство Хэмминга, т. е. пространство, состоящее из вершин m-мерного куба (при этом т может не совпадать с п, в частности, быть значительно меньше п). В этом случае переменные yt(i=l, ..., т) принимают одно из двух значений, например, —1 или +1, а преобразование (1) задается, например, системой уравнений вида г/,-= sign/Дхь хп), 1=1,..., т. (2) Функции У1 могут пониматься тогда как признаки, как ответ на вопрос «имеется ли в предъявленном изо- бражении признак fi?» Поэтому пространство У удобно называть пространством признаков. Естественно, и в об- щем случае преобразование (1) также можно рассмат- ривать как переход к пространству признаков, считая, что относительно признаков можно не только отвечать на вопрос, есть они или нет, но и оценивать значением функции fi(x) «степень присутствия» признака в предъ- явленном изображении. Характер областей, подлежащих разделению в про- странстве X, ограничен лишь самыми общими сообра- жениями о компактности и может варьироваться в широ- ких пределах. Как бы ни было выбрано преобразование (1), всегда можно указать в пространстве X обла- сти, которые переводятся этим преобразованием в более «разнесенные» и более компактные, а значит, и легче разделимые области пространства У; но можно всегда указать и такие области, разделимость которых лишь ухудшается в результате этого преобразования. Поэтому не существует универсального преобразования, пригод- ного для всех образов, которое можно было бы заранее заложить в программу машины. Если иметь в виду не машину, предназначенную для распознавания образов из какого-либо специального класса образов, а для решения общей задачи, то машина в процессе обучения должна сама, располагая лишь той информацией, о которой
26 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ в предыдущем параграфе шла речь, найти преобразова- ние (1), упрощающее каждую конкретную задачу, т. е. выработать для этой задачи свои признаки. В том случае, когда пространство У есть простран- ство вершин m-мерного куба (пространство Хэмминга), задача разделения областей в пространстве У может по- ниматься как задача построения логической функции при известных ее значениях в некоторых вершинах куба. 2. Лингвистический подход к задаче распознавания образов. Наряду с подходом, которому посвящена эта книга и который связан с описанными выше аппроксима- ционными задачами, существует иной подход к задачам обучения — его называют лингвистическим. Поясним лингвистический подход, вновь используя в качестве при- мера распознавание зрительных образов. Учитель предъявляет машине изображения, принад- лежащие разным образам В машину заложен набор ис- ходных понятий — типичных фрагментов, встречающихся на изображениях, и характеристик взаимного располо- жения фрагментов (например, таких как «слева», «свер- ху», «внутри» и т. д.) Эти исходные понятия образуют словарь машины, позволяющий строить различные логи- ческие высказывания. Задача машины состоит в том, чтобы из большого количества высказываний, которые могли бы быть построены с использованием этих поня- тий, отобрать наиболее существенные для данного кон- кретного случая. Далее, просматривая конечное и, по возможности, небольшое число объектов из каждого класса, машина должна построить описания этих клас- сов. Построенные описания классов должны быть столь полными, чтобы машина для каждого показанного изо- бражения, построив его описание и сравнив это опи- сание с описанием классов, могла решить вопрос о том, к какому классу данное изображение относится. При реализации лингвистического подхода возникают две проблемы: проблема построения исходного словаря и проблема построения описания из элементов данного словаря. Проблема построения описаний является уже не аппроксимационной, а лингвистической проблемой, и она не рассматривается в этой книге.
§ 3. РАЗДЕЛЕНИЕ СЛОЖНЫХ ОБРАЗОВ 27 Отметим только, что трудности, которые возникают при решении этой проблемы, еще далеко не преодолены и, несмотря на большое число работ*), эти методы не нашли еще широкого применения. Проблема выработки словаря распадается на две под- задачи. Первая подзадача состоит в выработке «имен суще- ствительных» для этого словаря, т. е. в отборе типичных фрагментов, встречающихся на изображениях и удоб- ных для составления описания; эта подзадача может быть понята как аппроксимационная (см. следующий пункт этого параграфа), и для ее решения могут быть использованы методы, развиваемые в этой книге. Вторая подзадача связана с выработкой «имен прилагательных» и «наречий», т. е. понятий, определяющих взаимоотноше- ние выделенных фрагментов изображений. Эта подза- дача оказалась чрезвычайно сложной и до сих пор даже в принципе не решена. 3. Выработка словаря. Представим себе, что машина просматривает какое-либо изображение, но «глаз» ма- шины устроен так, что он «видит» одновременно не все изображения, а некоторую его часть — фрагмент. То, что «видит» в данный момент машина, зависит от того, в какую точку нацелен «центр глаза». Если теперь случай- ным образом разбросать по изображению точки, куда последовательно нацеливается «глаз машины», то в результате будет отобрано несколько фрагментов. Посту- пим так не с одним, а с рядом изображений, принад- лежащих тем классам, которые в конце концов подле- жат разделению. В результате будет получено множе- ство фрагментов. Среди этих фрагментов имеются похожие между собой. Задача заключается в том, чтобы определить, сколько классов «похожих» между собой фрагментов образуют отобранные фрагменты и каковы эти классы. Тогда каждый из этих классов может быть *) См., например, М. М. Б о н г а р д, Проблема узнавания. Изд-во «Наука», 1967; Мучник И. Б., Алгоритмы формирования локальных признаков для зрительных изображений. Автоматика и телемеханика, № 10, 1966; Автоматический анализ сложных изображений, сб. статей под ред. Э. М. Бравермана, изд-во «Мирэ, 1969.
28 ГЛ. I. ОБУЧЕНИЕ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ принят за одно «имя существительное». Для штрихо- вых рисунков такими классами могут быть либо совокупность различных «перекрестий», либо «дужек», либо «концов линий», либо «кружков» и т. д. «Похожие» фрагменты в рецепторном пространстве «глаза» машины (например, в пространстве, соответствующем ее фото- полю) образуют скопления точек, «кучки». Задача составления «имен существительных» в сло- варе сводится, таким образом, к задаче обучения распо- знаванию образов без учителя. Эта последняя задача по- нимается далее как аппроксимационная, и ей посвящена глава VIII. До сих пор, простоты ради, мы считали, что точки, куда «прицеливается глаз машины», выбираются слу- чайно. Отбор фрагментов может быть значительно целенаправленнее, если отбирать их не случайно, а организовать поиск особо важных, «информативных» фрагментов. Но для этого понятие «информативный фрагмент» должно быть каким-либо образом формали- зовано. Имея в виду описать пример формализации этого по- нятия, введем в рассмотрение стандартное изображение. Это изображение полностью укладывается в поле зрения «глаза» машины и представляет собой пятно, макси- мально темное в центре и равномерно светлеющее к краям. Этому стандартному изображению в простран- стве рецепторов соответствует некоторая фиксированная точка. При осмотре изображения каждому просматривае- мому фрагменту в пространстве рецепторов соответ- ствует своя точка, а значит, и свое расстояние до ука- занной выше фиксированной точки, соответствующей стандартному изображению. Таким образом, это расстояние является функцией той точки, куда нацелен «глаз» машины, т. е. откуда вырезается фрагмент. Эта функция в некоторых местах просматриваемого изображения достигает экстремума — максимума или минимума. Фрагменты, соответствующие экстремальным точкам, т. е. наиболее «близкие» и наи- более «удаленные» от стандартного изображения прини-
• § 3. РАЗДЕЛЕНИЕ СЛОЖНЫХ ОБРАЗОВ 29 маются за информативные*). Опыт показал, что так выбираемые фрагменты являются содержательными, ин- тересными. Таким образом, такая или какая-либо иная разумная формализация понятия «информативный фраг- мент» в сочетании с методами обучения распознаванию образов без учителя позволяет автоматизировать один из наиболее трудных этапов лингвистического подхода — выработку словаря. *) Опыты Н. В. Завалишина, результаты которых изложены в статье «Гипотеза о распределении точек фиксации взора при осмотре изображений» (Автоматика и телемеханика, № 12, 1968), показали, что сходные методы использует мозг, определяя точки фиксации глаз при просмотре простых изображений.
Глава II МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ § 1. Идея метода потенциальных функций Имея в виду далее сформулировать в точных терми- нах то, что мы называем здесь методом потенциальных функций, изложим в этом параграфе наглядную интер- претацию основной идеи этого метода^ Начнем с рассмотрения того случая, когда имити- руется процесс обучения разделению объектов на клас- сы с учителем в детерминированном случае, т. е. в том случае, когда показываются примеры объектов и сооб- щается точная информация о том, к какому классу они принадлежат. В § 2 главы 1 этой задаче была дана следующая гео- метрическая интерпретация: в некотором пространстве X каждому объекту соответствует точка; классам объектов в этом пространстве соответствуют непересекающиеся области; задача сводится к построению по показывае- мым точкам и по сообщаемой о них информации такой поверхности, которая разделяет эти области, т. е. функ- ции, принимающей положительные значения на точках из одной области и отрицательные — на точках из вто- рой области. Введем в рассмотрение функцию двух переменных К(х,у), где х и у — точки из пространства X. Если за- фиксировать точку у, положив ее у = %*, то функция К(х,х*) станет функцией точки пространства X и будет зависеть от того, как выбрана точка х*. Примером по- добной функции в физике является потенциал, опреде- ленный для любой точки пространства, но зависящий от того, где расположен источник потенциала. Имея в виду эту аналогию, назовем функцию /<(х,у) потенциальной функцией. В этом па раграфе, чтобы упростить нагляд- ную интерпретацию задачи, будем представлять себе, что в пространстве X как-либо введено расстояние ме-
$ 1. ИДЕЯ МЕТОДА ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ 31 жду точками и что в качестве потенциальной функции К(х,у) выбрана некоторая функция, удовлетворяющая следующим условиям *): а) функция К(х, у) всюду положительна, б) она убывает при удалении точки х от точки у=х\ т. е., в частности, при фиксированном х* достигает мак- симума при X = X*. Удобно представить себе, что К есть функция расстояния р(х, у) между точками х и у, т. е. К => = Л1р(х, у)]. Например, можно положить К = = е~ар2 или /С = тт—2 > 1 + ар2 ’ где а > 0 — постоянная и т. д. Выбранная функция К (х, у) при у = х* опре- деляет поверхность над точками пространства X. Эта поверхность может быть уподоблена холму с вершиной над точкой х = х* (на рис. 5, а для примера показан слу- чай, когда простран- ство X одномерное, а на рис. 5, б — когда оно дву- Рис 5 мерное). Рассмотрим теперь следующую процедуру, которая сама по себе дает решение задачи лишь в простейших случаях и не пригодна для случаев сколь-либо сложных, но удобна для иллюстраций излагаемых далее идей. Пусть надо научиться относить точки к одному из двух классов, которые условно назовем А и В. Предпо- ложим, что учителем показана точка х = х1 и сообщено, *) Эти условия нужны здесь лишь для того, чтобы облегчить геометрическую интерпретацию метода и его интуитивное понима- ние. Эти условия не будут использоваться при точной формули- ровке метода.
32 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ что она принадлежит к классу А. Примем точку х = х1 за «источник потенциала», положив х* = х1, т. е. по- строим «холм» с вершиной в этой точке и запомним, что этот холм относится к точке из А. При предъявлении следующих точек Xs из А или из В, каждый раз строятся подобные же «холмы» с вершинами в показанных точках и запоминается, к какому классу, А или В, этот холм принадлежит. Когда учитель закончит процесс обучения, сложим отдельно потенциалы, которые были построены над точ- ками, принадлежащими классу А, и над точками, при- надлежащими В, т. е. построим функции К A W = 5 К (%, X*) И Кв W = 5 К (х, Х-). Xs €= A Xs е= В Используя нашу геометрическую иллюстрацию, можно сказать, что холмы, построенные над показанными точ- ками из А, «складываются» и образуют «гору» над об- ластью, где расположены эти точки. Аналогично вы- страивается «гора» над областью, где расположены точки В. Таким образом, в результате процедуры оказались построенными две функции, и которые можно назвать потенциалами образов А и В. Теперь, после окончания процесса обучения, начи- нается «экзамен», т. е. предъявляются новые точки и тре- буется дать ответ на вопрос «к какому классу они отно- сятся?». В методе потенциальных функций предлагается относить показанную при экзамене точку х = х к А, если Ка(х)>Кв(х), и к В при обратном знаке неравенства. Естественность такой процедуры оправдывается сле- дующими интуитивными соображениями. Если области А и В компактны в том пока лишь интуитивном смысле, I. который придавался этому термину в предыдущей главе, > и если потенциальные функции достаточно быстро убы- вают с расстоянием, то можно ожидать, что значения Ка(х) и будут большими для точек «своего» об-
§ 1. ИДЕЯ МЕТОДА ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ 33 раза, отмеченного индексом, и меньшими для другого образа. ; Вводя функцию [ Ф(х) = КА(х) —7<в(х), замечаем, что она положительна над точками из А и от- < рицательна над точками из В, т. е. разделяет знаком множества А и В. Если надо разделить объекты не на два, а на боль- шее число классов, то можно было бы организовывать ' дихотомию (см. гл. 1) или можно совершенно анало- гично построить потенциалы для всех образов порознь и при появлении в процессе экзамена новой точки отно- > сить ее к тому образу, чей потенциал в этой точке наи- больший. Представим себе теперь, что учителя нет, и что по- этому нет информации о том, к какому классу относятся показываемые в ходе обучения точки, но что эти точки берутся из непересекающихся областей А, В и т. д. В этом случае уже невозможно отдельно выстраивать ; потенциал областей множеств Л, В и т. д., но если по- прежнему предполагать, что эти области компактны (в интуитивном понимании этого термина, о котором вы- ше шла речь), то можно по-прежнему «выпускать» потен- циалы 7<(х, х*) из всех показанных точек и построить их общий потенциал .Ф(х)= sK(x, Xs). все Xs Тогда те же основания позволяют предполагать, что эта функция будет представлять собой «горный ландшафт» с вершинами над областями Д, В и т. д. и «ущельями» между ними. Если теперь каким-либо методом найти «ущелья», т. е. поверхности минимума функции Ф(х), разделяющие вершины, то они будут отделять области, относящиеся к различным классам. Если подобную про- | ;; цедуру окажется возможным реализовать, то тем самым методом потенциальных функций будет решена задача г обучения без учителя. До сих пор мы старались лишь выяснить основную идею метода потенциальных функций, опираясь не на 3 М. А. Айзерман и др. f
34 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ точные определения, а на интуицию читателя. Нам пред- стоит далее перейти к точному изложению метода. В связи с этим подчеркнем еще раз, что буквальное при- менение процедуры в той форме, в какой она была выше описана, далеко не всегда привело бы к успеху, даже в случае обучения с учителем. Одна из причин того, что эта процедура недостаточна, связана с тем, что среди точек пространства X, показываемых учителем, области А, В и т. д. могут быть представлены неравномерно. Если, например, число точек из А заметно больше числа точек из В, то даже интуитивно ясно, что это может при- вести к неправильно построенной разделяющей поверх- ности. Алгоритм метода потенциальных функций, кото- рый предлагается далее в этой книге (гл. V), отли- чается от описанной выше «упрощенной процедуры» и, в частности, обходит это затруднение. В предыдущих рассуждениях мы не накладывали ка- ких-либо условий на то, каким образом выбираются точки, показываемые учителем. Между тем ясно, что если все или даже почти все показываемые точки принад- лежат подобластям A*czA и В* с: В, то в результате будут разделены эти подобласти А* и В*, а не области А и В. Если далее в процессе экзамена будут предъяв- ляться точки из А и В, не принадлежащие этим подобла- стям А* и В*, то они могут классифицироваться неверно. Чтобы устранить такую возможность, надо, переходя к точным постановкам задачи, ввести разумные условия на выбор показываемых учителем точек, например, на статистику их выбора (на «статистику показа»). До сих пор, говоря о методе потенциальных функций, мы имели в виду лишь детерминистскую задачу: области А и В мы считали разделенными, а информацию учи- теля о том, к какой области принадлежит показываемая точка — точной. Далее нас будет интересовать также и вероятностная постановка задачи, когда существуют и подлежат аппроксимации лишь условные вероятности — степени достоверности того, что точка принадлежит мно- жеству А или В. Поэтому методу потенциальных функ- ций должна быть придана более универсальная форма, позволяющая использовать метод при решении как де- терминистских, так и вероятностных задач.
§ 2. ОБЩАЯ РЕКУРРЕНТНАЯ ПРОЦЕДУРА 85 § 2. Общая рекуррентная процедура Из предварительного описания рассматриваемых в этой книге задач видно, что все они сводятся к построе- нию некоторой функции по показываемым точкам и ин- формации учителя о них (в тех случаях, когда предпола- гается наличие учителя). В этом смысле задачи такого рода являются аппроксимационными. Так, например, в детерминистской задаче распознавания образов подле- жит определению какая-либо из разделяющих функций, и она строится по показываемым точкам и информации о знаке разделяющей функции в этих точках. В вероят- ностной задаче распознавания образов определению под- лежат степени достоверности, а информацией при показе точек служит суждение учителя о принадлежности точек. Функция — столь широкий математический объект, что всякая попытка построить методы аппроксимации для произвольных функций, без ограничений, лишена смысла. С другой стороны, всякое ограничение на классы рассматриваемых функций предопределяет одновременно и допустимый класс множеств, которые понимаются нами как образы. Поэтому, вводя ограничения на класс аппро- ксимируемых функций, надо иметь в виду два обстоя- тельства: с одной стороны, эти ограничения должны быть достаточно жесткими, чтобы задачу аппроксимации можно было решить; с другой стороны, ограничения не должны быть чересчур стеснительными, чтобы сохранить достаточную универсальность и естественность понятия «образ». Так, например, предположение о компактности обла- стей пространства X, соответствующих различным обра- зам, подразумевает, что разделяющая эти области по- верхность достаточно гладкая, не слишком «вычурная» и т. д. Это предопределяет аналогичные требования к разделяющей функции. Аналогично, в других интере- сующих нас задачах на первый план выступает требова- ние гладкости функций, которые должны быть построены. Подобные требования вообще обычны для аппроксима- ционных задач, но если в иных задачах иногда ограни- чиваются требованиями локального характера (напри- мер, непрерывность, дифференцируемость и т. д.), то для з*
86 ГЛ. И. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ нас более удобно формулировать требования достаточ- ной гладкости в терминах представимости функции неко- торым разложением в ряд. В этой главе при изучении аппарата метода потен- циальных функций нас не будет интересовать содержа- тельный смысл аппроксимируемых функций, т. е. аппа- рат будет излагаться единообразно для самых различ- ных интересующих нас в этой книге задач. Множество рассматриваемых объектов («точек») об- разует пространство X. Мы не будем пока вводить рас- стояние в X. Всюду далее, оперируя с функциями, задан- ными на X, мы будем иметь в виду только функции, при- нимающие действительные числовые значения. Далее особое значение будет иметь случай, когда на множестве X существует некоторая конечная или беско- нечная система функций*) фДх), такая, что любая из подлежащих восстановлению функций /*(х) представима разложением по системе фг(х) в ряд* **) Г (х) = S (х) (с‘, <Р (х)). (1) Если ряд (1) бесконечен, то он должен сходиться***), и при том коэффициенты с* должны достаточно быстро убывать с ростом L Условия, которые накладываются на убывание с], будут далее уточнены. Алгоритмы метода потенциальных функций, исполь- зуя показываемые точки и сообщаемую о них информа- цию, выстраивают последовательность функций fn(x), которая при п->оо должна аппроксимировать (в том ♦) Обратим внимание читателя, что здесь и далее, кроме слу- чаев особо оговоренных, не делается предположений о полноте в каком-либо смысле системы фг (х), о ее ортонормированности и даже о ее линейной независимости. **) В формуле (1) и всюду далее выражение (а, Ь) означает скалярное произведение векторов а и b с компонентами и bi. ***) Смысл, в котором должен сходиться ряд (1), будет уточ- нен в сноске на стр. 54. Пока же можно считать, что имеет место поточечная сходимость ряда (1), т. е. для каждого х N Г (х) = lim 2 Wi W- А->00
§ 2. ОБЩАЯ РЕКУРРЕНТНАЯ ПРОЦЕДУРА 37 или ином смысле) функцию f*(x). Любая из функций fn(x), п = 1, 2, ... по самой структуре алгоритмов заве- домо представима конечным или бесконечным рядом по выбранной системе функций фДх). Если справедливо предположение о том, что аппроксимируемая функция f*(x) представима рядом (1) и, кроме того, в алгоритмах метода потенциальных функций используется эта же са- мая система функций ф2-(х), то эти алгоритмы при п->оо восстанавливают f*(x), и притом тем быстрее, чем быстрее убывают коэффициенты с* в разложении (1) с ростом номера L Поэтому важно выбрать систему функций фг(^), фигурирующую в алгоритме, так, чтобы искомая функция /*(%) «хорошо» разлагалась в ряд (1). Вопрос о том, как целесообразно выбирать систему Фг (%) в каждой конкретной задаче, здесь не рассматри- вается— этому вопросу будет посвящена глава III. В частности, в главе III будет рассмотрен детально во- прос о том, каким образом требование достаточной гладкости функций f*(x) связано с выбором системы фг (х) и с разложимостью f*(x) в ряд (1). Здесь же заме- тим лишь, что если «степень негладкости» функций (х) нарастает с ростом г, как это имеет место, например, у «гармоник» тригонометрических функций, полиномов Лежандра и других систем функций, используемых в фи- зике, то условие конечности ряда (1) или для бесконеч- ного ряда условие достаточно быстрого убывания с\ га- рантирует достаточную гладкость функций f*(x). В связи с тем, что функция /*(х) заранее не извест- на (иначе не возникала бы задача о ее аппроксимации) соображения о выборе системы фг(х) позволяют, опи- раясь лишь на интуицию и некоторые представления об особенностях решаемых задач, «отгадать» разумную си- стему функций фг(х). Разумеется, при этом не гаранти- руется, что конкретная аппроксимируемая функция в действительности хорошо разлагается в ряд (1). Осо- бенность метода потенциальных функций состоит в том, что в ряде задач в тех случаях, когда система функций фДх) выбрана недостаточно удачно и f*(x) не может быть представлена рядом (1), удается доказать, что ал- горитмы метода потенциальных функций строят разумные
38 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ приближения функции f*(x). Именно, выстраиваемая этими алгоритмами последовательность функций fn(x) при и—>оо стремится к функции, представимой рядом (1) и в то же время в некотором смысле наиболее близкой к /*(х). Имея это в виду, условимся в дальнейшем различать задачи о восстановлении функции f*(x) и о приближе- нии функции Далее, в § 4 этой главы, эти понятия будут уточнены. Приступим теперь к описанию общей процедуры ме- тода потенциальных функций. В качестве потенциальной функции /С(х, у) рассмо- трим функцию вида К(Х, у) = 2 (х) Фг- (у), (2) где коэффициенты удовлетворяют условиям: 1°. 2«<оо; (3) /=1 2°. все =#0, f=l, 2, ... (4) Если ввести в рассмотрение функции ф;(х) = М>,(х). (5) то выражение (2) можно записать так: К (х, у) = 2 ф« (х) фг (у) = (ф (х), ф (у)). (6) /=1 Далее везде будет предполагаться, что оо К (х, х) = 2 Ф/ (х) фг (х) (ф (х), ф (х) X М, (7) где М — не зависящая от х константа. Из условия (7) следует, что функция К(х,у) огра- ничена той же константой М, так как К (X, у) = (Ф (х), ф (у)) < < У(Ф (х), ф (х)) У(ФО/), ф(г/)) < М,
§ 2. ОБЩАЯ РЕКУРРЕНТНАЯ ПРОЦЕДУРА 39 Метод потенциальных функций может быть описан теперь следующим образом: в процессе показа точек х1, хп из пространства X при каждом n-м показе строится n-е приближение fn(x) функции f*(x), подле- жащей аппроксимации. При этом способ построения по- следовательных приближений fn(x) характеризуется сле- дующей основной рекуррентной процедурой*): (х) = qnfn (х) + гпК (хп+!, х), (!) где q™ и гп — некоторые числовые последовательности. В качестве нулевого приближения, как будет да- лее показано, можно принимать любую функцию с произвольными коэффициентами ь«, удовлетворяющими условию 2 (с?/\)2< °°-В частности, этому условию заведомо удовлетворяет функция f°(x) = O. Применение формулы (!) к разным задачам отли- чается тем, каким образом выбираются числовые после- довательности qn и гп. В одних случаях эти последова- тельности могут быть заранее фиксированными функция- ми номера п. В других случаях при выборе qn и гп на каждом шаге используется та информация о значении аппроксимируемой функции /*(х) в показанной точке хп, о которой выше шла речь. В таких случаях qn и (или) гп выбираются в зависимости от некоторой или всех из следующих трех величин: п, fn(xn+1), f*(xn+1). Разумеется, для того чтобы алгоритм можно было реализовать, величины qn и гп должны быть такими, чтобы их значения могли бы быть вычислены по той информации, которая поступает извне вместе с появле- нием точек хп. Так, например, в детерминистской поста- новке задачи обучения распознаванию образов с учителем *) Всюду далее в этой книге нижние индексы означают номер компоненты вектора или места в последовательности функций или чисел (например, Хг-, фг(х) и т. д.), а верхние индексы — момент времени, номер шага рекуррентной процедуры (например, ф(хп) — вектор-функция <р(х) на n-м шаге, дд(хл)—компоненты фг(х) на, n-м шаге и т. д.).
40 ГЛ. И. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИИ qn и гп могут зависеть только от знака f*(xn+l), а не от величины f*(xn+t). Процедуре (!) может быть придана иная форма, ко- торая иногда более удобна. Заметим, что если, как это предполагается, функция f°(x) разложима в ряд по системе функций <р,(х), то в силу процедуры (!) и функция fn(x) разложима по этой же системе функций. Если обозначить теперь через с" коэффициенты раз- ложения fn(x) в ряд по системе*) <р<(х), то функция fn(x) однозначно определяется заданием этих коэффи- циентов, и в силу процедуры (!) они могут быть опреде- лены рекуррентной процедурой ci+1 = Qnci + гП^Ф/ (xn+1). Используя обозначение (5) и обозначая, кроме того, с" = с«/Хр 4=1,2................... (8) можно выражение для fn(x) записать в виде Г (х) = 2 (х) = 2 % (х), (9) а рекуррентную процедуру (!) в виде qncnt+ rtlr^i (xn+1), (11) где предполагается, что qn и гп, зависящие, как уже го- ворилось, от fn(xn), выражены через с? с помощью фор- мулы (9). Процедуры (!) и (!!) являются рекуррентными в том смысле, что для вычисления (п+1)-го приближения надо знать лишь предыдущее n-е приближение и появ- ляющуюся на (п + 1)-м шаге точку хп+1, и нет необходи- мости помнить все предыдущие точки х1,..., хп. При выборе способа задания qn и гп надо обеспечить сходимость в том или ином смысле последовательности *) Поскольку не предполагается линейная независимость функ- ций срг(х), коэффициенты Ci определяются по fп (х) и <р< (х), вооб- ще говоря, неоднозначно.
§ 2. ОБЩАЯ РЕКУРРЕНТНАЯ ПРОЦЕДУРА 41 функций fn(x) к /*(х) при п->оо. В каком именно смыс- ле должна быть обеспечена сходимость, определяется каждый раз особенностями конкретной задачи. Так, на- пример, в детерминистской постановке задачи об обуче- нии распознаванию образов необходимо обеспечить лишь совпадение знаков fn(x) и /*(%) при>г->оо. При вероят- ностной постановке этой же задачи аппроксимируется функция — степень достоверности, и функция fn (%) при и->оо должна аппроксимировать не только знаки, но и значения функции /*(х). Разумеется, процедуры (!) и (!!) сходятся далеко не всегда. В каждой конкретной задаче, после того как вы- бран способ вычисления чисел qn и гп, надо доказывать сходимость процедуры при таком выборе. При построе- нии доказательств приходится делать дополнительные предположения как о характере последовательностей qn и гп, так и об особенностях появления точек хп при их показе. Рассмотрим далее эти два вопроса порознь. 1.0 характере последовательностей qn и гп. Укажем некоторые особенности последовательно- стей qn и гп, которые относятся ко всем алгоритмам, рас- смотренным в настоящей книге, за исключением алгорит- ма главы VIII и одного алгоритма главы VII. Во всех этих случаях qn = 1, а рассматриваемые алгоритмы от- личаются друг от друга лишь видом последователь- ности гп. Что касается последовательности гп, то она прини- мается равной гп = V» [г (f"(x«+,)> Г (х"+')) + Гн], (10) так что процедуры (!) и (И) приобретают вид Г' («) = Г W + V. [г (Г(х"+'), г(х"+')) + Г'] К (х, Xя (11) И с„+1 = сп + уп [г ((с«, ф (x«+1)), f (x"+1) )+r+1] ф (Xn+I). (12) В этих выражениях r(fn,f*)— некоторая функция двух переменных, а уп— неотрицательная числовая
42 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ последовательность, зависящая только от номера п, удо- влетворяющая условию оо 5 Y„ = 00. /1=1 (13) и, кроме того, какому-либо одному из следующих трех условий: а) уп = const, б) lim уп = О, в) 5 Y* <°°- /1-1 п (14) В выражениях (10) — (12) — некоторая числовая последовательность, играющая роль «помехи», возни- кающей при вычислении функции r(fn,f*) за счет «оши- бок измерения» функции f*(x). В ряде случаев помехи не учитываются, и поэтому = 0. В других случаях по- меха считается случайной, и характер случайной по- следовательности специально оговаривается. Функция как функция двух переменных f и f* в выражении (10) в рассматриваемых алгоритмах яв- ляется невозрастающей функцией переменной f, причем так что f <0, r(f’ п1>0, если если f f. Благодаря такому свойству функции рассма- триваемые алгоритмы метода потенциальных функций обладают следующей особенностью. В силу того, что величина K(xn+1, xn+v) положительна, а в формуле (10) уп >0, знак разности fn+'(xn+l)— fn(xn+1) в силу проце- дуры (!) определяется знаком величины r(fn(xn+I), f*(xn+I)). Поэтому если в показанной точке fn < f*, то fn+l > fn, т. е. при появлении точки хп+1 аппроксими- рующая функция изменяется в сторону аппроксимируе- мой функции f*. Аналогично обстоит дело и в том случае.
§ 2. ОБЩАЯ РЕКУРРЕНТНАЯ ПРОЦЕДУРА 43 когда fn > f*. Для того чтобы в этом процессе не воз- никло большого «перерегулирования», приводящего к «раскачке» процесса, приходится ограничивать рост функции по переменной f. Именно, в дальнейшем будет предполагаться, что при любых значениях и f" функция удовлетворяет условию к(Г, f(x))|<a + &lf'-f"l, (15) где а^О и Ь^О — некоторые константы, не завися- щие от х. При выполнении этих условий, наложенных на функ- цию алгоритмы метода потенциальных функций на каждом шаге улучшают аппроксимацию в показанной на этом шаге точке. Разумеется, при этом аппроксимация в других точках (в том числе и в показанных ранее) может ухудшаться. Однако каждый раз будут доказываться теоремы, гаран- тирующие сходимость процедуры (!). 2.0 характере последовательности хп. В этой книге предполагается, что точки хп появляются случайно и независимо в соответствии с некоторым рас- пределением вероятностей. В случае, если X евклидово пространство, можно предполагать, например, существование плотности ве- роятности р(х) (не исключая, впрочем, возможности того, что р(х) есть сумма 6-функций). Если пространство X есть конечное или счетное множество точек, то предпо- лагается существование вероятности Р(х) появления то- чек х. Используемые в этой книге обозначения выбраны так, чтобы по возможности не было различия между не- прерывным и дискретным случаем. Например, матема- тическое ожидание случайной величины Е(х), равное J F (х)р (х) dx х в непрерывном случае и 2 F(x)P(x) х еХ
44 ГЛ. И. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ в дискретном случае, обозначается в обоих случаях оди- наково*), через MX{F (х)}. Мы не будем предполагать, что распределение веро- ятностей появления точек заранее известно или что за- ранее известен хотя бы характер распределения**). Для нас достаточно предположить, что существует отличная от нуля вероятность (или плотность вероятности) по- явления любой точки из тех областей пространства X, на которых подлежит аппроксимации функция /*(х). В связи со случайным характером показа точек fn(x)—случайная .функция, и поэтому сходимость fn(x) к f*(x) при м—>оо приходится понимать в ве- роятностном плане, как сходимость по вероятности, сходимость почти наверное и т. д. Далее, в главе IV, эти понятия будут точно определены и будут доказаны тео- ремы, позволяющие строить доказательство сходимости процедуры (!) в различных задачах. Выше мы предполагали, что точки х1,..., хп появ- ляются случайно. Однако процедуры (!), (I!) могут быть использованы и в случае, когда показы носят детермини- рованный характер. Рассмотрим, например, следующую задачу. Пусть задан некоторый конечный набор точек в пространстве X, и известна информация об аппроксими- руемой функции /*(х) только в этих точках. Задача со- стоит в том, чтобы построить функцию, которая в ука- *) Говоря о том, что точки хп появляются в пространстве X случайно с некоторым распределением вероятности, мы предполагаем тем самым существование некоторой меры ц(х), так что X — это есть пространство с мерой (см., например, [6]). Математическое ожидание случайной величины F(x) понимается как интеграл по мере J FWdix(x). X ♦♦) В ряде работ, связанных, например, с применением теории статистических решений и иных статистических методов к интере- сующим нас задачам, предполагается, что характер распределения вероятностей показа заранее известен (например, что это нормаль- ный закон). Метод потенциальных функций свободен от таких пред- положений. При построении процедуры (!) вообще не использова- лось распределение вероятностей появления точек х. Предположе- ние о существовании такого распределения используется далее лишь при доказательстве сходимости процедуры.
$ 3. МАШИННАЯ И ПЕРСЕПТРОННАЯ РЕАЛИЗАЦИЯ 45 занных точках аппроксимирует f*(x) в требуемом смыс- ле. Для решения этой задачи также могут быть исполь- зованы процедуры (!) и (!!), если предъявить заданные точки в каком-либо фиксированном порядке, например, циклически. К этому приему часто прибегают при прак- тическом использовании процедур (!) или (!!)• Всюду далее в этой книге рассматривается лишь слу- чай, когда точки появляются случайно. Можно доказать сходимость всех описанных далее алгоритмов и при де- терминированном показе точек, однако мы заниматься этим не будем. § 3. Машинная и персептронная реализация процедуры метода потенциальных функций Реализация процедуры (!) связана с построением и запоминанием на каждом n-м шаге функции fn(x), за- данной на всем пространстве X. Но запомнить функцию на машине — значит запомнить конечное число парамет- ров и указать алгоритм, использующий их для подсчета значения функции при. любых значениях аргумента. При- менительно к процедуре (!) оказывается возможным указать два различных способа введения таких пара- метров. Условимся называть первый из этих способов машинной, а второй — персептронной реализацией про- цедуры*). 1. Машинная реализация. Возвращаясь к форму- ле (I), принимая f0 == 0 и считая для простоты**) qn=l, последовательно выразим f1 через f° = 0, f2 че- рез f1 и т. д.: f°^0, р = Г°К (х1, х), f2 = г°/С (х1, х) + г[К (х2, х), f3 = [г°/С (х1, х) + г1/С(х2, х)] + г2/<(х3, х) и т. д. *) Термин «персептронная реализация» связан с тем, что пер- септрон Розенблатта [1] представляет собой вариант такой реализации. **) В случае qn Ф ! последующие формулы должны быть оче- видным образом изменены.
46 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ Получаем следующую общую формулу: п Г^)=2М,+1,4 (16) 5=0 Напомним, что в каждой конкретной задаче гп — из- вестные функции номера я, значения fn в точке xn+i и зависят, кроме того, от той информации о f*(xn+1), кото- рая сообщается одновременно с показом xn+1. Таким образом, возможна следующая реализация ос- новной процедуры: к каждому (п + 1)-му шагу в памяти машины хранится п чисел г°,..., гп~1 и и точек *) х1,..., хп. При показе (и + 1)-й точки хп+1 машина под- считывает каждый раз значение fn(xn+l) по формуле (16), а затем вычисляется число гп. Это число и точка хп+х заносятся в память машины и используются на сле- дующем шаге. Тем самым при такой реализации основ- ной процедуры «запоминание» функции fn осуществляет- ся путем запоминания все возрастающего с ростом п ко- личества чисел и точек. 2. Персептронная реализация. В тех случаях, когда можно ограничиться поиском аппроксимирующей функ- ции fn(x) в виде конечной суммы N N fn (х) = 2 с?<рг (х) s с"ф/ (х), (17) i=l возможна иная, персептронная реализация процедуры (!). Запоминание функции fn(x) сводится при этом к за- поминанию на каждом n-м шаге N чисел с", ..., с". В случае (17) потенциальная функция К(х, у) также задается конечной суммой**) N N К (х, у) = 2 (х) <рг (у) 2 Ф, (х)Ф,- (</)• (18) Используя процедуру метода потенциальных функций в форме (II), имеем следующие рекуррентные соотноше- ♦) Запоминание точки хп на машине сводится к запоминанию некоторого набора чисел (например, т компонент вектора, если X— m-мерное евклидово пространство). **) Такая запись не противоречит требованию (4), так как в (2) можно положить q>i(x) «= 0 и =£0 при i > N,
§ 3. МАШИННАЯ И ПЕРСЕПТРОННАЯ РЕАЛИЗАЦИЯ 47 ния для определения коэффициентов с" в сумме (17) (при qn = 1): c"+i + гпфДхп+1), /=1, N. (19) Вычислительная процедура (19) реализуется следую- щим образом. К п + 1-му шагу в памяти машины хра- нятся N чисел: с%. При появлении (п + 1)-й точки хп+1 вычисляются сначала фг(хэт+1), затем N fn(xn+v) = 5 сгф/ (*п+1)> потом гп и, наконец, по фор- z=i муле (19) N новых чисел с"+1, с"+1, которые и за- поминаются взамен с". Числа с" могут быть теперь забыты. При такой реализации основной процедуры не тре- буется запоминания показываемых точек, и, таким обра- зом, с ростом числа показов не увеличивается объем потребной памяти машины. Мы говорили до сих пор о вычислениях на цифровой машине. Обратим теперь внимание на то, что основная процедура в форме (19) может быть реализована про- стой схемой (рис. 6), которая содержит N функциональ- ных преобразователей = фДх) = Хгфг(х) (i = 1,..., N), множительные элементы 0, осуществляющие мгновенное перемножение подводимых сигналов сумматор по мно- жеству который мгновенно выдает на выходе сумму
48 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ сигналов, подведенных ко входу, накапливающие сумма- торы 2, имеющие всего один вход и выдающие на вы- t ходе сумму сигналов, подводимых к этому входу с мо- мента начала работы схемы, и простые вычислительные устройства, служащие для подсчета гп*). Рассмотрим теперь частный случай, когда простран- ство X — множество вершин m-мерного куба, а система функций = (Z=1,АО есть система функций вида (т \ + (20) S=1 / Здесь (%1,...,Хт)—набор координат вершин т-мерного куба, —заданная константа, константы pf (s = l,... m) имеют значение 0, либо 1, либо —1, а функция sg z определяется следующим образом: I 1 при 0 оо, I 0 при — оо <г<0. В этом случае схема рис. 6 в точности совпадает с изве- стной схемой персептрона Розенблатта, представленной на рис. 7. В персептроне выход каждой ячейки фотоматрицы, на которую проектируются изображения, подводится ко всем функциональным преобразователям, где вычисляет- ся функция sg от их суммы с весами, равными +1 либо — 1, либо же 0. Эти веса выбираются случайно, но коль скоро они любым образом выбраны, устанавливается конкретная матрица весовых коэффициентов Таким образом, в функциональных преобразователях реали- *) На рис. 6 контур, формирующий коэффициент Ci, условно показан лишь для первого преобразователя zi = ф1(х) (для cj). Аналогичные контуры, содержащие накопители 2, включаются по- t еле каждого функционального преобразователя. На рис. 6 схема приведена для случая qn 1 и поэтому устройство, формирующее qn, на ней не показано.
§ 3. МАШИННАЯ и ПЕРСЕПТРОННАЯ РЕАЛИЗАЦИЯ 49 зуются пороговые функции вида (20), которые отли- чаются друг от друга лишь коэффициентами и, быть может, порогами Функцион альный преобразователь, вычисляющий значение функций фДх) в соответствии с формулой (20), обычно называют ассоциативным эле- ментом (4-элементом). На общей схеме (рис. 6) чгисла гп могут формиро- ваться различным образом. В персептроне Розенблатта Рис. 7. (см. рис. 7) был реализован конкретный способ форми- рования чисел гп, соответствующий той конкретной за- даче распознавания образов, для которой персептрон создавался (подробнее см. гл. V). В остальном схема рис. 6 и схема персептрона '(рис. 7) совпадают. Обобщая принятую терминологию, естественно назы- вать персептронной любую схему, соответствующую рис.» 6 и реализующую процедуру (19) при любом спо- собе формирования чисел гп. Вернемся к частному случа ю, о котором выше шла речь — к персептрону Розенблатта (см. рис. 7), и вы- ясним теперь вид потенциальной функции К(х, у), кото- рая реализуется в персептроне Розенблатта, т. е. в слу- чае, когда в качестве функциональных преобразовате- лей используются пороговые элементы. В связи с тем, что числа в персептроне выбирают- ся случайно, возможно рассмотрение как конкретной реализации персептрона, если эти числа уже выбраны, 4 М. А. Айзерман и др.
50 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ так и рассмотрение статистических свойств ансамбля персептронов. Начнем с конкретной реализации персеп- трона. Рассмотрим потенциальную функцию К(х, у) = s (х) (у). (21) i = l В /п-мерном евклидовом пространстве Ет выделим вер- шины m-мерного куба, образующие пространство X. Ка- ждый Д-элемент определяет плоскость Sh|xs4-(x° = 0, (22) s=l а совокупность этих плоскостей делит на многогран- ники. Вершины куба X разделяются на множества в за- висимости от того, в каком многограннике они располо- жены. Рассмотрим (21) при фиксированном у = у*. Значе- ние функции К(х, у*) не меняется, если х отождествляет- ся с вершинами куба, расположенными в одном и том же многограннике. В этом смысле К (%, у*)—кусочно- постоянная функция, заданная на многогранниках. Рас- смотрим далее значение К(у*, у*). Это число, очевидно, равно числу возбужденных Л-элементов при х = у*. Про- ведем в Ет произвольную прямую, проходящую через точку х = у*, и будем перемещать точку х вдоль этой прямой от точки t/*. При этом значение К(х, у*) не из- меняется и равно К(у*,у*) до тех пор, пока точка, пере- мещающаяся вдоль прямой, впервые не пересечет гра- ницу того многогранника, где расположена точка у у*. При каждом пересечении построенных плоскостей (т. е. границ многогранников) значение /С(х, у*) может только убывать. Действительно, при пересечении прямой i-й из плоскостей (22) возможны два случая: фг(у*) = О (f-й Д-элемент в точке у* не возбужден) или фг-(#*)=! (f-й Д-элемент в точке у* возбужден). При пересечении прямой с f-й плоскостью слагаемые фй(^)'ф^(^*) в (21) при k Ф i не меняются, а может изменяться лишь сла- гаемое фг(^)фг(У*)• Но в случае фг(*/*) = 0 этот член ра- рен нулю, и значение потенциала не меняется. Если же
§ 3. МАШИННАЯ и ПЕРСЕПТРОННАЯ РЕАЛИЗАЦИЯ 61 потенциал Д (х, у*) представ- фг(#*) = 1» то фг(^) при пересечении этой плоскости ме- няет значение с 1 на О, так что член ф<(х)ф<(#), который был равен единице, становится равным нулю, и потен- циал уменьшается на единицу. Из изложенного следует, что при любой конкретной реализации персептрона ляет собой функцию, не возрастающую в любом направлении от «источ- ника» потенциала и до- стигающую максимума при х = г/*. На рис. 8 по- казан вид /С(х, у*) для случая т — 2. Что же касается рас- смотрения статистическо- го ансамбля персептро- нов, то для него функции фг-(х)есть случайные функ- ции, а значит, и потен- циал — также случайная функция. Легко показать, что для любой пары фиксированных точек х и у среднее по ансамблю персеп- тронов значение потенциала /<(х, г/) может быть выра- жено формулой: K(x,f/) = iV(P(x)-P(x,y)), (23) где Р(х)—вероятность того, что случайно выбранный Л-элемент возбужден в точке х, Р(х, у) — вероятность того, что он возбужден в точке х и не возбужден в точ- ке у. Поскольку, вообще говоря, вероятность разделить «случайной» плоскостью две точки х и у растет с уве- личением расстояния между ними, средний потенциал К(х,у) является функцией, убывающей с возрастанием расстояния от источника. В заключение этого параграфа заметим, что при ма- шинной реализации основной процедуры требуется за- даться потенциальной функцией /С(х, у) и нет необхо- димости знать систему функций фг(х); наоборот, при ( 4*
52 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИИ персептронной реализации надо явно задаваться систе- мой функций фг(х) и нет необходимости вычислять по- тенциальные функции. Поэтому решающее значение при- обретает вопрос о том, как следует выбирать функции Л(х, у) и фг(х). Этому вопросу посвящена глава III. § 4. Функционалы, экстремизируемые процедурами метода потенциальных функций Как было указано в § 2, метод потенциальных функ- ций служит для восстановления или приближения функ- ции f*(x) по информации о значениях этой функции в показанных точках. В обеих этих задачах восстановле- ния и приближения функции необходимо каким-либо об- разом оценивать близость функции fn(x), которая строит- ся процедурой (|), к функции f* (х). Естественным спосо- бом оценки близости функции f(x) к f*(x) является за- дание функционала, зависящего от этих функций и имеющего минимум, например, равный нулю при совпа- дении f(x) и f*(x). В конце этого параграфа будет показано, что для процедур метода потенциальных функций (!), (!1) при выборе последовательности гп в соответствии с (10), т. е. в случае процедуры (11), (12), существует функ- ционал Jf* {/}, для которого эта процедура является в не- котором смысле градиентной. В последующих главах книги при анализе конкретных интересующих нас алго- ритмов будет показано, что функционал J^*{f(x)} яв- ляется как раз подходящей мерой близости функций f(x) и f*(x). Именно, функционал удовлетворяет условиям причем содержательный смысл этого функционала ока- зывается таким, что всякая функция f (может быть, и отличная от /*), обращающая функционал в нуль, яв- ляется решением задачи*). k *) За исключением возникающих иногда (см. гл. V) «ложных» тривиальных решений, которые легко могут быть обнаружены и устранены.
§ 4. ФУНКЦИОНАЛЫ, ЭКСТРЕМИЗИРУЕМЫЕ ПРОЦЕДУРАМИ 53 Функционал Jf*{f} играет далее в этой книге фунда- ментальную роль потому, что само определение сходи- мости процедуры потенциальных функций к восстана- вливаемой или приближающей функции использует этот функционал. Когда говорят о сходимости некоторой последователь- ности функций fn(x) к функции в термин «сходи- мость» может быть вложен различный смысл. Можно иметь в виду, например, поточечную сходимость, сходи- мость в среднем квадрате и т. п. Во всяком случае, лю- бое определение сходимости требует определения поня- тия близости функции fn(x) к f*(x). Так, при поточечной сходимости в качестве меры близости принимается ве- личина p(f, n = sup|f(x)-r(x)|, X при сходимости в среднем квадрате — величина р(Л n=f(f(x)-r«)2dx. Сам же факт сходимости последовательности fn к f* по определению означает, что при п->оо P(fn.f*)-*O. В процедурах метода потенциальных функций, как уже говорилось, в качестве меры близости функций f и будет приниматься функционал J Мы будем го- ворить, что процедура сходится к аппроксимируемой функции f*(x), если Jf*{fn} стремится к нулю при п->оо. В связи с тем, что функция fn(x) — случайная функция (она зависит от статистики показа; см. § 2), величина также случайная величина, и стремление Jf*{fn} к нулю понимается в вероятностном смысле (например, в смысле сходимости почти наверное; см. гл. IV). Для того чтобы уточнить постановку задач о при- ближении и восстановлении функции f*(x), нам потре- буется ввести в рассмотрение два функциональных про- странства, обозначенных далее и 2^. Рассмотрим введенные в § 2 системы функций (риф, связанные соотношением (5). Будем говорить, что
54 ГЛ. И. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ функция f(x) принадлежит классу 3?^, если она предста- вима разложением *) со f W = S Ctfi (х) (24) i = l по системе функций фг(х) и если, кроме того, математи- ческое ожидание квадрата функции конечно, M{f2(x)}<oo. (25) Будем говорить также, что функция f(x) принадлежит классу если f W = S Ci<Pi (х) = з сгф, (х), (26) i-1 i = l где (см. § 2) сю ф/(х) = М/(А (27) i=i и если сю сю г’-Хч-Х(х)!<~- (ЭД t = l i = l *) Уточним, в каком смысле функция f(x) представима рядом (24). Предполагая всюду далее, что все упоминаемые в тексте кни- ги функции принадлежат L2(X), т. е. интегрируемы с квадратом по мере ц(х) (см. сноску к стр. 44), мы будем говорить, что функция f(x) представима рядом (24), если Разумеется, это определение не может быть проверено эффективно, поскольку распределение ц(х) считается заранее не известным. Од- нако существуют различные достаточные условия, обеспечивающие существование ряда (24) в указанном выше смысле при любом pi(x). Таким условием является, например, равномерная поточечная сходимость: lim sup N^oo х^Х N f w - 2 см w i = l = 0.
§ 4. ФУНКЦИОНАЛЫ, ЭКСТРЕМИЗИРУЕМЫЕ ПРОЦЕДУРАМИ 55 Покажем, что если функция f принадлежит классу то она заведомо принадлежит*) и <£?ф. Для этого достаточно показать, что математическое ожидание ква- драта функции, удовлетворяющей условиям (26), (28), конечно. Используя неравенство Коши — Буняковского, получаем из (26) /2(х)^(с, ^(x))2<c2(4>(x), -ф(х)). В силу равенства (6) имеем поэтому M{f2(x)}^c2M{K(x, х)}. Тем самым условия (7) и (28) гарантируют конечность M{f2(x)}, т. е. принадлежность классу 2?^ каждой функ- ции из 2? Обратное утверждение неверно, т. е. класс 2£ строго включен в класс Z Покажем, что аппроксимирующая функция fn(x), вы- страиваемая процедурой (!) к любому n-му шагу, при- надлежит классу если только исходная функция f°(x) принадлежит этому классу. Действительно, в силу (9) функция fn(x) разложима в ряд по системе ф, а из процедуры (!!) следует, с учетом (7), что (cn+1)2 = (qn)2 (сп)2 + 2qnrn (сп, ф (xn+1)) + + (И2(ф(х"+1), ф(х“+1)Х < (<7П)2 (с")2 + 21 qnrn | У (cn)2 /(i|)(xn+l), -ф(х"+1)) + + (г”)2 (Ф (xn+1) ф (xn+1)) < (qnY (сп)2 + 21 qnrn | /(ё")2 /лГ + (rn)2 М. Поэтому, если fn е 2’^, и, следовательно, (сп)2 < оо, то и (сп+’)2<оо, а значит, fn+’Предположение (см. *) Обратим внимание на то, что факт принадлежности некото- рой функции f(x) классу 2^ зависит, в частности, от распределения р(х) вероятности показов, так как от этого распределения зависит величина математического ожидания Л1{/?(х)}. В то же время факт принадлежности функции f(x) классу от р,(х) не зависит, и вместе с тем функции, принадлежащие принадлежат 2 ™ при дюбом распределении ц(х). т т
66 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ § 2) о том, что для исходной функции f°(x) выполнено условие 00 / со \ 2 И=Д1т)<00' Z=1 j означает, что f° Отсюда следует в силу инду жкции, ’ что fn(x) при любом п. I Будем говорить, что последовательность фуг^кций fn(x) приближает функцию f*(x), если*) при п—i inf /г{/}. (29) ' Будем говорить, что последовательность фуь^скпий f”(x) восстанавливает функцию f*(x), если**) /гГ}->0. (29а) Очевидно, что если то последовательность fn(x), приближающая функцию f*(x), восстанавл ^твает ее, так как в этом случае правая часть в (29) pz>aBHa нулю: | inf jf.{f} = /f{n = o. Если же функция f* не принадлежит классу <?<р, а при- ’ ближение (29) имеет место, то последовательность fn I в пределе «выделяет» из всех функций класса 2? <±}зунк- 1 ’ цию, наиболе близкую к f*(x) в смысле минимиг^аиии 4 функционала j В главах V—VIII при исследовании конкретных алго- ритмов доказываются теоремы, устанавливающие, в ка- *) Разумеется, в этом случае стремление к пределу пони т^лается в вероятностном смысле (например, в смысле почти наверно *♦) Для рассматриваемых в настоящей книге неотрицатс^лыгых функционалов Jf* {[}, для которых Jf* {f*} — 0, нуль является их аб- солютным минимумом. Тем самым при решении задачи восс^ танов- ления значения Jf* {frt} стремятся к абсолютному минимуму функ- ционала Jf* {/}, а при решении задачи приближения — лишь к от- носительной точной нижней грани при условии
§ 4. ФУНКЦИОНАЛЫ, ЭКСТРЕМИЗИРУЕМЫЕ ПРОЦЕДУРАМИ 57 ких случаях имеет место восстановление, а в каких — приближение функции f*(x). Во всех алгоритмах, рас- смотренных в этих главах, доказывается, что восстанов- ление функции f*(x) имеет место, если только f*(x) при- надлежит классу 2? Более того, для большинства алго- ритмов это оказывается верным и в том случае, если f* (х) принадлежит классу S? Для алгоритмов такого типа удается доказать также и факт приближения fn(x) к функции f*(x), если f* не принадлежит ни классу 2^, ни классу Z Таким образом, оказывается чрезвычайно важным, к какому классу принадлежит функция /*(%): принадлежит ли она S или S7^, или не принадлежит ни 2?Ф, ни 3? Разумеется, это обстоятельство не может быть проверено эффективно, так как функция /*(%) зара- нее не известна. Поэтому предположение о том, к какому классу относится эта функция, может быть сделано лишь на основе интуиции, опыта предшествующего решения аналогичных задач и т. д. Наиболее сильные результаты, конечно, получаются в тех случаях, когда принадле- жит классу Выбирая систему функций фг(х) и по- тенциальную функцию К(х, у) (см. гл. III), мы стре- мимся именно к тому, чтобы обеспечить принадлежность f* классу Предположение /*^2^, т. е. оо / * \2 г(х)=(л ф(х)), <30> мы будем называть в дальнейшем основной гипотезой. Из изложенного выше следует, что если даже мы ошиб- лись, сделав такое предположение, то все же большин- ство алгоритмов, рассмотренных в этой книге, приводят к восстановлению функции f* (%), если f* е 2\р, и к при- ближению этой функции, если f* Обратимся теперь к вопросу о том, какой вид имеет функционал и каким образом он связан с видом функции в процедуре (11), (12). Для того чтобы не усложнять изложения рассмотрением бесконечномер- ного пространства коэффициентов сг-, ограничимся здесь
58 ГЛ. tl. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ конечноМерным случаем этой процедуры: С~"+‘= ~С‘ + Y„ [г (Г (x"+1), f U"+1)) + Г’] Ф, (хп+'), (i=l, .... JV), • (31) (Х). (32) 41 Полное в главе В вед рассмотрение процедуры (11), (12) проведено IV. ^м функцию f(x) QtfW, Г«)=- / r(u,f*(x))du, (33) f* w где f (x) нек0т0рая функция x. В силу того, что (см. § 2) 0, если f Г, >0. если f<f, очевидцу что Q(f j*) —неотрицательная функция, обра- щающа^ся в Нуль При f^f*. Принимая теперь в качестве ФУНКЦИИ цх) ряд N f (х) = 2 C,l|>, (х), получиц функцию G (с, x)sQ[2 ад,(х), Г(х)\ (34) v=i / Обратил^ внимание На то, что с помощью функции G(c, х) процедура (31) может быть записана в виде ё«+1 = сЪ _ Г dG (F, хп+1) <3^ + £«+1ф, (Х«+1) 1= 1, ..., (35) ТожДес>ВенносТь формул (31) и (35) легко проверяется прямым дифференцированием функции G(c, х) по с,, если учесть определения (33) и (34). С,СЛ1^ бы точка xn+1 в (35) оставалась бы одной и той же ПРИ fecex п, а помеха отсутствовала бы (|п = 0), про-
§ 4. ФУНКЦИОНАЛЫ, ЭКСТРЕМИЗИРУЕМЫЕ ПРОЦЕДУРАМИ 59 цедура (35) определяла бы процедуру градиентного спу- ска с переменным шагом уп. Но точки xn+i меняются на каждом шаге и притом случайно, кроме того, в выраже- нии (35) присутствует помеха gn+1. Поэтому, разумеется, нельзя говори ть, что процедура (35) минимизирует функ- цию G, как это обычно имеет место при использовании градиентного спуска. Однако если ввести в рассмотре- ние математическое ожидание ( / N \^| J (с) = Мх {G (с, х)} = Мх Q ( 2 с^{ (х), Г (х) , (36) I \i=T / J и считать, что математическое ожидание помехи при лю- бом фиксированном х равно нулю, то можно показать, что процедур «а (35) минимизирует функцию (36), т. е. J(cn)-> min/( с) при п-> оо, где, как и везде в этой книге, с предел поним ается в вероятностном смысле (например, в смысле почти наверное). Этот факт следует из резуль- татов главы IV, полученных там для более общего случая. Выражение (36) и является как раз функционалом /;♦{/}, о котором выше шла речь. Он был определен нами пока лишь для функций f(x), представимых конеч- ным рядом. Однако его можно определить для любых функций f (х) , в том числе и представимых бесконечным рядом, для которых выражение Г(х))} (37) существует. Именно это выражение при опреде- ленной формулой (33), и служит основным функциона- лом при рассмотрении в главах V—VII конкретных алго- ритмов метода потенциальных функций. Непосредственно видно, что Jf* 0 и Zf* {Г} = 0- Вопрос о том, при каких условиях и в каком смысле функционал (37) миними- зируется процедурой (11), (12), рассматривается в по- следующих главах. Выше было получено выражение для функционала, минимизируемого процедурой (!), (!!) при qn = 1 и при гп, определяемом выражением (10). Точно таким же образом может быть получено выражение для
во ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ минимизируемого функционала в случае*), когда гп по- прежнему определяется соотношением (10), а qn = 1 — ауп, а = const. Формула (35) сохраняется и в этом случае, если только положить в ней , n \ N • G(c, x) = Q Iё/фДх), Г (x) I + j 2 % + const, (34a) \i-l / b=l где функция Q определяется по-прежнему формулой (33). Минимизируемый функционал имеет в этом случае вид J(c) = Mx'G(c, х)}^ ( / N \ N = Мх | QI 2 (х)> f‘W/ + 7 S + const, (36а) [ 4=1 / 1 = 1 где аддитивную константу удобно выбирать так, чтобы N при = функционал J обращался в нуль. § 5. Процедура Роббинса — Монро метода стохастической аппроксимации и процедура метода потенциальных функций Разъясним прежде всего метод стохастической ап- проксимации, используемый в математической статистике для решений так называемых уравнений регрессии. С этой целью введем в рассмотрение N функций фг (с, х), /= 1, ...» М, где х — случайная величина, а r = {ci, cN)—некоторый вектор. Системой уравне- ний регрессии называется система уравнений Мх{ФДс, х)} = 0, г=1, М, (38) в которой неизвестными являются компоненты сг- вектора с. Если функции ФДс, х) и распределение вероятностей случайной величины х известны, то в системе (38) левые части полностью определены. ♦) С подобным случаем мы встретимся далее в гл. VII.
§ 5. ПРОЦЕДУРА РОББИНСА - МОНРО 61 Предположим теперь, что распределение вероятности случайной величины х заранее не известно, и, следова- тельно, левые части уравнений (38) не могут быть явно вычислены. Пусть, однако, в последовательные моменты времени 1, 2, п, ... появляются точки х1, х2, .. в соответствии с этим распределением вероятностей, и при любом с могут быть вычислены величины Фг(с, хп). Дл.я этого случая Г. Роббинс и С. Монро [4] предложили следующую рекуррентную процедуру последовательных приближений, позволяющую шаг за шагом приближаться к р ешению системы уравнений (38): с“+1 = с* + упФ. (сп, хп+!), i~ 1, ..., N. (39) Роббинс и Монро предполагали, что в процедуре (39) уп —- последовательность неотрицательных чисел, удов- летворяющих условию (13) и (14в) 5уп=00, Sy^<°0- (40) Было показано, что при некоторых ограничениях, накла- дываемых на вид функций Фг-, процедура (39), (40) схо- дится, т. е. с" в вероятностном смысле сходятся к кор- ням: системы уравнений (38). Вопрос о сходимости про- цедуры вида (39) будет подробно рассмотрен в главе IV. В настоящем же параграфе мы не будем оговаривать тех ограничений, которым должны удовлетворять функ- ции Фг- и не будем стеснять себя условием*) (40), а об- судим соотношение процедуры (39) и процедуры (!), (!!) метода потенциальных функций. Если сравнивать процедуру (39) Роббинса—Монро с об щей процедурой (!), (I!) метода потенциальных функ- ций, то эти процедуры оказываются существенно различ- ным! и хотя бы потому, что в соотношениях (!), (!!) до- пускается, вообще говоря, любая зависимость qn и гп от явно входящего номера п, в то время как в (39) от п *) В главе IV показано, что при определенных предположениях процеедура (39) сходится и в тех случаях, когда вместо условия (14в) удовлетворены условия (14а) или (146) (соотношение (13) предпо- лагается выполненным).
62 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ зависит (и притом специальным образом) лишь «стяги- вающий множитель» уп. Поэтому далее с процедурой Роббинса—Монро сравнивается не общая процедура (!), (!!), а специальный вид (И), (12) этой процедуры. Если ограничиться случаем, когда размерность век- тора с конечна, то непосредственно видно, что процедура (12) может быть рассмотрена*) как процедура Роб- бинса—Монро (39), приспособленная для решения сле- дующей системы уравнений регрессии МхЛ 1,2, ..., N. (41) Если считать, что математическое ожидание помехи рав- но нулю при каждом фиксированном х, система (41) при- нимает вид Мх । И 2 (%), Г WJip.(x) | = 0, i = 1,2,..., N. (42) Обратим внимание на то, что искомые параметры Ci входят в уравнения регрессии (41) и (42) весьма спе- циальным образом. Тем самым процедура (12) метода потенциальных функций выделяет специфический под- класс (41) и (42) уравнений регрессии и соответствую- щий специфический подкласс процедур Роббинса—Мон- ро. Такие процедуры обладают рядом специальных свойств, благодаря которым они могут быть изучены бо- лее подробно, нежели процедуры Роббинса—Монро об- щего вида. Рассмотрим некоторые из этих свойств. 1. Возможность машинной реализации процедуры. В §2 процедура (12) была получена из (11) в предположении, что выстраиваемые процедурой (11) функции fn(x) могут быть представлены рядом (9). Разумеется, всегда возможен и обратный переход от со- отношения (12) к соотношению (11). В этом смысле можно сказать, что процедуры Роббинса—Монро вида (12) допускают машинную реализацию (см. § 3). Это пб- ♦) Если не обращать внимания на то несущественное для нас здесь обстоятельство, что в (12) не предполагается (в отличие от (39)), что уп удовлетворяет условию (40).
§ 5. ПРОЦЕДУРА РОББИНСА - МОНРО 63 зволяет, в частности, реализовывать процедуры такого вида с помощью вычислительных машин и в тех случаях, когда вектор с — бесконечномерный, т. е. когда функции fn(x) представимы бесконечным рядом. Непосредственно не видно, каким образом для бесконечномерного случая процедура Роббинса—Монро общего вида может быть практически реализ ована. 2. Существование э к с т р емизируемого . ✓ функционала. Как бы- \ / ло указано в § 4, для проце- \ / дур вида (12) может быть 1 / Выписан функционал (37), (33), экстремизируемый этой процедурой. В предположе- а; с нии, что вектор сп — конеч- номерный, процедура (12) может быть представлена в JfcT . виде стохастической гради- \ ентной процедуры (35), а \ уравнение регрессии (42) \ приобретает вид м j о, I dci J dci 6)-----------------с z=l, N, (43) где функция G и функционал Рис- 9- Jf* определяются форму- лами (34) и (36) соответственно. Разумеется, в общем случае уравнения регрессии (38) не имеют градиентного вида (43). Существование экстремизируемого функцио- нала для процедуры (12) позволяет придать точный смысл решаемой экстраполяционной задаче. 3. Возможность использования функцио- нала для определения понятия сходимости процедуры. Наличие экстремизируемого процедурой (12) функционала позволяет определить для нее поня- тие сходимости даже в тех случаях, когда уравнения регрессии (43) вообще не имеют решений. Чтобы разъяс- нить это обстоятельство, рассмотрим случаи, когда в точке минимума функционала производная dJ/дс не
64 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ существует (рис. 9, а) и когда /(с) имеет точную ниж- нюю грань, но не имеет точки минимума (рис. 9, б). В случаях подобного рода уравнения регрессии (43) за- ведомо не имеют решений и поэтому бессмысленно гово- рить о сходимости процесса Роббинса—Монро к реше- нию уравнений регрессии. Вместе с тем для процедур Роббинса — Монро типа (12) само понятие сходимости может быть определено как стремление при п —► оо значе- ния функционала к его точной нижней грани. Условия, при которых сходимость в этом смысле имеет место, устанавливаются в § 5 главы IV. Устанавливаемые там критерии исходят лишь из предположения, что функции ФДс, х) в уравнениях регрессии (38) и в процедуре Роб- бинса— Монро (39) имеют «градиентный вид», т. е. *) Мх{ф4(с, (44) что, вообще говоря, имеет место не только для проце- дуры (12), но и для процедур Роббинса—Монро более общего вида. § 6. Некоторые замечания о методе потенциальных функций Заканчивая главу, посвященную общему описанию метода потенциальных функций, сделаем следующие за- мечания. Понятие «метод» значительно шире понятия «используемая процедура», так как метод, кроме про- цедуры, должен содержать факты и соображения, позво- ляющие сначала разумным образом выбрать процедуру, а затем установить, что она сходится к решению рассмат- риваемой задачи. В частности, в методе потенциальных функций само написание процедуры (!) или (!!) уже предполагает, что проделана предварительная работа по выбору потенциальной функции /С(х, г/) или системы <Pi (х), не говоря уже о выборе последовательностей qn и гп. При этом используются не только точные факты, но и многие интуитивные соображения (см. гл. III), кото- рые в совокупности являются важной составной частью *) Формула (44) выписана для случая, когда с — конечномер- ный вектор. В § 5 гл. IV разъяснено, каким образом аналогичное понятие может быть введено в бесконечномерном случае.
§ 6. ЗАМЕЧАНИЯ О МЕТОДЕ ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ 65 метода. Так, н апример, сама возможность машинной ре- ализации процедур метода потенциальных функций по- зволяет заменить выбор системы функций фг(х) выбором потенциальной функции /С(х, у). Знания системы функ- ций (р^ (%) при этом не нужно, а разумный выбор функ- ции К(х, у) об<легчен наличием ряда рекомендаций, сфор- мулированных: в главе III. Другой составной частью метода является совокуп- ность понятий и теорем, служащих для установления сходимости процедуры (см. гл. IV). Используя те соображения, которые высказаны выше в § 4 и в этом параграфе, можно предварительную ра- боту, о которой только что шла речь, перенести с выбора процедуры на выбор функционала, так как коль скоро функционал написан, может быть сейчас же выписана и «градиентная процедура» типа Роббинса—Монро*). Однако при элом все трудности, с которыми сопряжена эта предварительная работа, сохраняются, так как при написании градиентной процедуры необходимо задать выражение ап проксимируемой функции через параметры с? и, следовательно, выбрать систему функций**) срг(х). Само собой разумеется, что проблема исследования схо- димости остается и в этом случае и не становится более простой. *) Впервые на возможность получения процедуры, исходя из задания функционала, обратил внимание Я. 3. Цыпкин. Он привлек аппарат метода стохастической аппроксимации к решению рассмат- риваемых в этой книге аппроксимационных задач и указал для ряда процедур метода потенциальных функций экстремизируемый функ- ционал, установив тем самым, что эти процедуры могут быть интер- претированы как процедуры Роббинса — Монро. Развивая эти идеи, В. М. Литваков показал, что для процедур метода потенциальных функций вида (12) экстремизируемый функционал всегда суще- ствует, и дал способ его вычисления. Он же нашел условия, при кото- рых процедура (12) сходится к минимуму функционала (см. §5 гл. IV). **) Здесь, как обычно в этой книге, предполагается, что функ- ция f(x) представима в форме ряда так, что коэффициенты в вы- ражение этой функции входят линейно. Конечно, можно было бы представить себе, что f(x) зависит от параметров Сг как-либо ина- че— в этом с-лучае градиентная процедура Роббинса — Монро также может быть написана, как только определен функционал. При этом возникает вопрос о том, как именно зависит функция f(x) от параметров Сг— задача, во всяком случае не более простая, чем выбор системы функций <рг(х). 5 М. А. Айзерман и др.
66 ГЛ. II. МЕТОД ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ Если исходным шагом метода является выбор функ- ционала, надо учитывать, кроме того, то дополнительное обстоятельство, что исходный функционал не может быть задан произвольно. Дело в том, что процедура построения аппроксимирующих функций fn(x) должна содержать лишь величины, которые могут быть факти- чески измерены, т. е. такие величины, значения которых на каждом шаге процедуры могут быть вычислены по имеющейся на этом шаге информации (например, сооб- щаемой учителем). В тех случаях, когда исходным ша- гом метода является составление самой процедуры, это обстоятельство непосредственно принимается во внима- ние. Если же исходить из задания функционала, то его выбор существенно ограничивается этим обстоятель- ством. Часто простым и интуитивно понятным процеду- рам соответствуют сложные, трудно интерпретируемые функционалы (см., например, процедуры и соответствую- щие им функционалы в главах V и VII). Наоборот, попытка исходить из простых хорошо интерпретируемых функционалов может привести к процедурам, непригод- ным из-за того, что они содержат величины, которые не могут быть измерены. Так, например, процедура реше- ния задачи распознавания образов в детерминистской постановке (см. гл. V) экстремизирует функционал Jr Ш = Мх {f (х) [sign f (х) - sign f (х)]}. Если же исходить из, казалось бы, более простого и на- глядного функционала где f*(x)—какая-либо одна из разделяющих функций, то соответствующая градиентная процедура непригодна, так как в данном случае величина г (Г (xn+1), г (xn+l)) Г (*n+1) - f (x"+1) не может считаться заданной на каждом шаге, посколь- ку по самой постановке задачи на каждом шаге счи- тается известной не значение f*(xn+1) разделяющей функции, а только ее знак sign f*(xn+1), соответствующий указанию учителя о том, к какому классу он относит точку xn+1.
Глава III О ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ (х) И ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К(х,у) § 1. О выборе системы функций ф, (х) 1. Общие соображения. В § 4 главы II была введена основная гипотеза о функциях f* (х), подлежащих восста- новлению или приближению. Эта гипотеза предполагает, что функция f*(x) принадлежит классу т. е. предста- вима разложением Г(х)=2сХ(х) г = 1 по некоторой системе функций фг(х) с коэффициентами с], убывающими достаточно быстро с ростом номера L Для того чтобы можно было высказать предположе- ние такого рода, следует позаботиться о подходящем вы- боре системы функций фг(х). Действительно, одна и та же функция /*(х) может принадлежать или не принад- лежать классу в зависимости от того, как выбрана система функций фД*)- Поэтому задача состоит в том, чтобы так выбрать систему функций фДх), чтобы пред- положение о принадлежности функции /*(%) классу было правдоподобным. Однако при решении конкретных задач о функции f*(x), подлежащей восстановлению или приближению, ничего не известно, и системой фДх) приходится зада- ваться, опираясь лишь на интуицию, опыт и некоторые общие соображения. Поэтому естественно выбирать си- стему фДх) так, чтобы с ее помощью можно было бы представить разложением в ряд возможно более широ- кий класс функций /(%), заданных на X. В связи с этим, если из каких-либо соображений правдоподобно предпо- ложение о том, что функция f*(x) принадлежит некото- рому классу «S’, то целесообразно использовать в каче- стве ф< (*) какую-либо полную в S’ систему функций, т. е. 5*
68 ГЛ. Ш. ВЫБОР ФУНКЦИЙ ipz(x) И ФУНКЦИИ К(х, у) такую систему, что любая функция f(x) ^2? могла быть оо в определенном смысле представлена рядом *)2 ОФ/ W- i = l При этом, однако, коэффициенты ряда должны убы- вать достаточно быстро в связи со следующими двумя обстоятельствами. Во-первых, желательно обеспечить оо условие 2 ё* < 00 (т. е. чтобы так как при *) Точный смысл, в котором предполагается сходимость этого ряда, разъяснен сноской на стр. 54 в § 4 гл. II. В соответствии с этим систему функций фДх) будем называть полной на некотором множестве 3? функций, если для любой функции f(x) из 2 найдет- ся такая последовательность чисел с», что (Г N lim Мх Ш (х)- 2 N->oo IL i = l 0. Разумеется, при таком определении полнота системы функций фг(х) не может быть непосредственно проверена, поскольку распределе- ние р(х) не предполагается известным. Однако в ряде случаев мо- гут быть указаны простые и эффективно проверяемые достаточные условия полноты. Например, если для некоторого множества 3? найдена система функций фг(х), полная в том смысле, что для лю- бой функции из 2 N f U) ~ 2 м lim sup JV->oo jgX = 0, то эта система полна в 3? и в указанном выше смысле при лю- бом р(х). В том случае, когда X — область евклидова пространства и из- вестно, что плотность вероятности появления точек существует и ограничена, то полнота системы фг(х) в нашем определении гаран- тируется полнотой системы фг(х) в L2, если только множество 3? принадлежит Ь2 (здесь, как обычно, Ь2 — множество функций, ин- тегрируемых с квадратом). Если X — дискретное, не обязательно конечное множество то- чек xi, ..., Xk и система фг(х) полна в том смысле, что для любой функции из 3? N 12 lim 2 H*fc)-2Wxfe) =0> V-*°° xk^X[ 1 J то полнота этой системы в 3? в нашем определении имеет место при любом распределении вероятностей появления точек Xh. Далее в этой главе рассматривается главным образом евкли- дово пространство и пространство, состоящее из дискретного множе- ства точек. При этом полнота системы фДх) понимается далее, как полнота в £-2.
§ 1. О ВЫБОРЕ СИСТЕМЫ ФУНКЦИИ ipz(x) 69 этом метод потенциальных функций (как об этом уже го- ворилось в § 4 гл. II) обеспечивает восстановление функ- ции /*(х) во всех интересующих нас далее задачах. Во- вторых, персептронная реализация возможна лишь в том случае, когда можно, «обрезав» ряд, приближенно огра- ничиться конечным (и по возможности небольшим), чис- лом его членов. Это подразумевает, что коэффициенты Сг ряда убывают достаточно быстро. Быстрота убывания коэффициентов определяется, с одной стороны, свойствами класса которому при- надлежит функция f*(x), и, с другой стороны, выбором системы фг(х). Если считать, что класс SS известен, можно было бы поставить задачу о нахождении такой системы фг(х), что коэффициенты разложения каждой функции из 3? по такой системе убывают в определен- ном смысле достаточно быстро. Однако вряд ли можно думать, что существует универсальный, пригодный во всех задачах класс функций З’сгЛг, и поэтому вряд ли существует универсальная, пригодная во всех случаях система функций ф?(х). Вместе с тем можно надеяться, что в большинстве сравнительно простых практических задач при разумном выборе пространства X функция f*(x) оказывается достаточно гладкой, не вычурной в ин- туитивном смысле этих слов. Поэтому можно надеяться на то, что, опираясь на подобное предположение о глад- кости можно находить достаточно хорошо приспо- собленные для решения практических задач системы функций фг(х). Имея в виду рассмотреть соображения о выборе си- стемы функции ф?(х), нам удобно будет рассматривать функции <р?(х), отличающиеся от фг(х) лишь постоян- ными множителями X, (см. § 2 гл. II). Для представления функций одной переменной в ма- тематической-физике установлен ряд «стандартных» пол- ных ортогональных систем*). Например, для функций, *) Среди полных систем функций, как известно, особую роль играют полные ортогональные системы. Говорят, что функции g(x) и h(x) ортогональны, если (g, h) — g (х) h (х) dx = 0. Эта формула х выписана для евклидова пространства; для пространства, состоя-
70 Г.Л. III. ВЫБОР ФУНКЦИИ И ФУНКЦИИ К(х, у) заданных на конечном отрезке, используются тригоно- метрическая система функций, функции Лежандра и т. д.; для функций, заданных на всей действительной оси — функции Эрмита и т. д. Все системы такого рода обладают следующей замечательной особенностью: вхо- дящие в них функции могут быть упорядочены (и обыч- но упорядочиваются) так, что с увеличением номера функции растет ее «сложность», «вычурность»*). Так, например, в тригонометрической системе функций с уве- личением номера гармоники растет число нулей и экстре- мумов на заданном отрезке и увеличивается максималь- ное значение производной. Такое упорядочивание ра- зумно потому, что оно позволяет при представлении часто встречающихся функций рядами сохранять в этих рядах тем меньше гармоник, чем «глаже», чем «менее вычурна» представляемая функция. Это является след- ствием того факта, что коэффициенты получающихся в таких случаях рядов убывают с ростом номера гармо- ник тем быстрее, чем «менее вычурна» представляемая функция. В связи с тем, что функции, представляемые разло- жением, заранее не известны, существенно, чтобы можно было «обрезать» ряды для возможно более широкого класса функций. Если бы система фДх) была даже ли- нейной независимой, но не ортогональной, то могло бы оказаться, что некоторые функции хорошо представимы в этой системе, а для иных функций, даже достаточно гладких, коэффициенты разложения медленно убывают с ростом номера, и приходится удерживать в ряду много гармоник. Это обстоятельство можно проиллюстриро- вать известной аналогией между разложением функций в ряды и разложением векторов по заданным направле- щего из дискретных точек, интеграл в предыдущей формуле должен быть заменен суммой. Система функций срДх) называется ортого- нальной, если ортогональна любая пара этой системы: (ф/, <Р/) = 0 =/= /)• *) Иногда несколько функций среди ф<(х) естественно считать в равной мере «вычурными» и называть их гармониками одного и того же порядка. Таковы, например, функции sin^x и cos kx в три- гонометрической системе.
§ 1. О ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ (х) 71 ниям. Если эти направления близки друг к другу, то векторы, расположенные в их «конусе», хорошо разло- жимы, а векторы, примерно перпендикулярные к этим направлениям, плохо разложимы. Если же направления, по которым раскладывается вектор, ортогональны, то нет преимущественных направлений при разложении лю- бых векторов, и все они достаточно хорошо разложимы. Подобно этому и при разложении функций ортогональ- ные системы (или близкие к ним) имеют преимущества по сравнению с неортогональными. Указанные выше «обычные» полные ортогональные системы функций, принятые в математической физике, состоят из функций одной переменной, в то время как нас интересуют функции большого числа переменных. Если задана полная ортогональная система функций одной переменной, то с ее помощью можно построить полную ортогональную систему функций для любого числа переменных с помощью следующего часто исполь- зуемого приема. Пусть X — m-мерное пространство с осями Х>, «^2, • • • , Хтп. (каждая из переменных хг- может прини- мать значения из одного и того же конечного или беско- нечного интервала L) и пусть дана полная и ортогональ- ная система функций 0< (х) от одной переменной х, за- данная на L. Введем в рассмотрение систему функций Х2, ...» xm) = ez (Х1) 0Z (х2) ...6i (Хт), (1) которая получается, если каждый из индексов l\, is,. • • »1тп принимает все возможные целые значения от 0 до оо, т. е. берутся все возможные произведения из 04(х) при подстановке вместо х различных переменных. Система функций (1) ортогональная и полная. Дока- жем ортогональность двух произвольных разных функ- ций <₽/,... im и ... /т. Из того факта, что эти функ- ции разные, следует, что найдется такое k, что ik 4* /л. Для этих ik и /л (Ч> Ч) s J Ч W Ч dx = °* <2)
74 ГЛ. III. ВЫБОР ФУНКЦИЙ ipz(x) И ФУНКЦИИ К(Х, у) Но скалярное произведение (ф/j ... imi <Pj1 ... в I / ... / ф/, ... «ЛЛ - imd^...dxm с учетом формулы (1) может быть представлено в виде т (ф/, ... 1т, Ф/, ... /J=ri(0is, 0/s). s== 1 Это произведение равно нулю в силу (2). Полнота системы (1) может быть установлена сле- дующими рассуждениями*). Рассмотрим произвольную функцию F(xb ..., xm), интегрируемую с квадратом по совокупности переменных (хь ..., хт). В силу полноты системы 0Дх) она предста- вима «одномерным» разложением оо Г =2 Ci,(x2, XtnjGi^Xi) /1 = 1 при любых фиксированных значениях х2, ..., хт. Применяя тот же прием к функциям т. е. рассмат- ривая их как функции х2 при т — 2 параметрах Хз,..., хт, строим ряды для сц и находим аналогично (хз, ..хт). Далее продолжаем процесс последовательного разложе- ния до тех пор, пока не придем к постоянным коэффи- циентам. В результате получим оо F = '2 Сц ... i 0,- (Xi) Oi (х2) • • • 9/ (хт) = Ч’1т оо = .2. ... .....Х^‘ (3) Хр ..., 1т *) Строгое доказательство полноты системы (pz t i требовало бы установления того факта, что функции, которые в процессе до- казательства приходится раскладывать в ряд, интегрируемы с квад- ратом по своим переменным.
§1.0 ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ (х) 73 Тем самым показано, что произвольная функция .... хт) разложима по системе ф^ ... im, т. е. что система ф^ ... tm полная. Нам предстоит теперь упорядочить систему функций Ф/1 ... im аналогично тому, как упорядочены обычные одномерные системы функций. Для дальнейшего удобен следующий метод упорядо- чивания системы ф^ ... Отнесем к «гармоникам» &-го порядка все функции ф/j... для которых *) h + /2 + + ... + im = k. Разумеется, в системе ф^ ... im содер- жится много «гармоник» &-го порядка, но это и не уди- вительно, так как даже для одномерных систем встре- чаются случаи, когда система содержит несколько гар- моник одного и того же порядка. Такое упорядочивание системы ф^ ... tm также связано с тем, что «вычурность» функций ф^ ... tm растет с ростом k=*i\ + i2 + ... + im, т. е. с ростом номера гармоник. Это продемонстрировано далее на примерах. Описанный выше «канонический» прием построения многомерной системы функций из одномерной удобен далеко не всегда. Он приводит к системе, в которой число функций очень быстро растет с ростом k. Еше более важно, что получаемые так функции практически трудно реализовать в функциональных преобразователях для по- строения персептронных схем. Далее, в пункте 2 для специального пространства будет описан другой прием построения многомерной системы функций, в этом отно- шении более удобный. Перейдем теперь к примерам построения систем функ- ций ф(х) в конкретных пространствах, с которыми при- ходится сталкиваться в задачах распознавания образов. 2. Пространство Снт,Начнем с рассмотрения случая, когда пространством X является множество точек, при- надлежащих m-мерному кубу, т. е. часть т-мерного ♦) Такое определение вводится для случая, когда в системе функций 0г (х) от одной переменной содержится лишь по одной функции в качестве гармоники данного порядка. В тех случаях, когда это не так (см. сноску на стр. 70), определение порядка гар- моники от многих переменных должно быть естественным образом модифицировано (см. ниже пример на стр. 74—75).
74 ГЛ. III. ВЫБОР ФУНКЦИИ ipz(x) И ФУНКЦИИ К(х, у) евклидова пространства, удовлетворяющая неравенствам —i==l, ..., m. (4) Иначе говоря, рассматриваются все точки евклидова пространства, расположенные внутри и на поверхности дп-мерного куба со стороной, равной 2. Такое простран- ство обозначается далее Сит. Оно, естественно, возни- кает в задачах распознавания образов как пространство рецепторов, если кодировать состояние каждого f-го ре- цептора числом xi9 считая, что = —1, если рецептор наименее возбужден («не освещен») и хг-= +1 при ма- ксимальном возбуждении («полном освещении») рецеп- тора, а при промежуточном возбуждении может быть любым числом, ограниченным неравенством — 1 < Xi < + 1. Применительно к пространству Си™ мы рассмотрим два способа построения функций <рг-: «канонический», опи- санный ранее, и другой способ, более удобный для прак- тической реализации в схемах и основанный на примене- нии системы пороговых функций. Проиллюстрируем использование канонического ме- тода на двух примерах. Рассмотрим сначала в качестве полной одномерной системы тригонометрическую систему функций 0О == 1, б* = sin kttx, Qk = cos knx, k = 1, 2, ... Гармоники /г-го порядка многомерной «канонической» системы имеют вид <Pfe = II СО> s-1 5 где индексы is выбираются так, что т 5 4 = k, а под 6zs(xs) понимается либо 0; (х) = sin isnxs, либо же 07 (xs) = cos isnxs.
§ 1. О ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ ф;(х) 75 В связи с тем, что в данном случае 60= 1, сопоставляя произведения (1), можно опустить сомножител^ли с ин- дексом 0. Поэтому, например, в случае £ = 2 ооо останется лишь один сомножитель с индексом 2 или парара сомно- жителей с индексом 1 у каждого. Поэтому дляшя любой m-мерной системы тригонометрических функциймй гармо- ники второго порядка имеют вид 62 (х/) = sin2jix;-, 62 (х/) = cos2nx/, 61 (х0 0i (x/) = sin nXi sin nxj, 0i (х/) (xy) = sin nXi cos nxjy 01' (Xj) (Xj) = COS HXi COS ЛХ/, (5) где i=/= j и i, / принимают значения от 1 до т. Легко подсчитать, что система содержит 2гг№т? только гармоник второго порядка. Число гармоник fe-ro порядка быстро растет со с ростом k, но при k < т каждая гармоника является ф:{функцией не более, чем k переменных. Просматривая формулы (5), легко заметить, что для каждой из этих многомерных гармоник с & = 2=2 в про- странстве Сит можно указать «направление», вдвдоль ко- торого они изменяются с частотой 2л. Для перввавых двух гармоник такими направлениями являются самими оси Ху. Для остальных гармоник второго порядка такилними «на- правлениями» являются Xi=Xj, так как при этомюм sin nxi sin лху = sin2 лхг- = — -% cos 2лхь Sin 3TXZ COS ЛХу « Sin nxt COS nXf = -y sin 2jixz, COS HXi COS ЛХу = COS2 nXi = у + § COS 2nxf. (6) Аналогично, если бы мы строили многомерниные гар моники k-ro порядка, то всегда можно было бы ч указать «направления» в пространстве Сит такие, что вдцвдоль та- ких направлений гармоники изменяются с частоготой kn.
76 ГЛ. III. ВЫБОР ФУНКЦИЙ и ФУНКЦИИ К(х. у) Перейдем теперь к построению многомерной системы, когда исходной одномерной служит система ортогонали- зированных на отрезке [—1, + 1J полиномов 61 = Х’ . (7) 02 = X2 ~ J и т. д. Выпишем для этой системы все «гармоники» второго порядка. Вновь, учитывая, что 0o(xj=l и что поэтому в каждой гармонике второго порядка присутствуют не более двух отличных от единицы сомножителей из числа одномерных гармоник, получим следующие гармоники второго порядка: б) xtxh i Ф j, i, j = 1, ..tn. Общее число гармоник второго порядка равно т (т 4- 1) 2 Здесь также можно указать направления, вдоль ко- торых многомерные гармоники второго порядка в такой же мере «сложны», как и одномерные гармоники второго порядка. Для гармоники вида а) таким направлением является просто направление хг-, а для гармоник вида б) направление вдоль х<=х^, так как при этом xi* * * * * * * xi ~ х\~ у + (*? ~ у) • (9) Так же как и в случае тригонометрической системы, здесь для гармоник произвольного &-го порядка можно указать такие направления, вдоль которых эти гармо- ники являются одномерными полиномами /?-го порядка и в этом смысле их «сложность», «вычурность» растет с ростом k. Приведенные два примера хорошо иллюстрируют естественность предложенного выше способа упорядочи- вания гармоник, получаемых «каноническим» способом. Далее в этом же параграфе будут приведены иные при-
§ 1. О ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ ^.(х) 77 меры построения и упорядочивания многомерных гар- моник для других пространств. Выше уже отмечалось, что канонический прием при- водит к слишком сложным для технической реализации функциям. С прикладной точки зрения удобно реализо- вывать гармоники с помощью линейных операций и до- бавления однотипных нелинейных преобразователей от одной переменной. Рассмотрим, например, систему функ- ций (т \ 2fl'xs-oH, (10) S=1 / где als—некоторые константы. Выберем, как это часто делается при построении пер- септронов, в качестве функции х функцию ( +1 при 0^2 <оо, x(z) = sgz= п . (11) 7 (0 при — ОО<2<0, и покажем, что любая функция f(x), интегрируемая с квадратом на Сит, может быть с любой точностью ап- проксимирована конечной линейной комбинацией функ- ций (10). Действительно, известно, что функция многих пере- менных f(x), интегрируемая с квадратом на Cum, может быть приближена тригонометрическими полиномами *) w f(x)~ S [Лр sin jiZp(x) + Bpcosji/p(x)], (12) р —i где lp (х) = S apsxs. S *) Это можно доказать, разложив сначала f(x) в ряд по мно- гомерной тригонометрической системе функций «канонического» вида (см. стр. 75). Каждая одномерная гармоника обычным образом представляется суммой или разностью экспонент с мнимыми пока- зателями. Поэтому и каждая многомерная гармоника представима в виде суммы (с соответствующими коэффициентами) членов вида [т 1л 2 lsxs • s=1 ческие функции, убеждаемся, что каждая многомерная гармоника представима конечной суммой вида (12). Значит, и функция, разло- жимая по многомерной канонической системе, также представима рядом (12). Заменяя теперь экспоненты через тригонометри-
78 ГЛ. Ш. ВЫБОР ФУНКЦИЙ 1]^(Х) И ФУНКЦИИ К(х, у) С другой стороны, функции sin П2 и cos яг как функ- ции одной переменной представимы разложением по од- номерной системе функций sg(z— zh), так как каждая такая функция — ступенчатая, а полнота системы сту- пенчатых функций очевидна. В силу этого г $in Л2 2 А1/г sg (г - zh), h~? (13) COS nz S Afft Sg (z — zft). h~0 Подставляя (13) в (12), получаем аппроксимацию функции f(x) линейной комбинацией функций вида (10), (Н). В отношении системы (10) может быть сделано сле- дующее замечание*). Как известно, «угол» между век- тор-функциями можно определить с помощью формулы, аналогичной обычной формуле для угла между векто- рами х (ф/, Фу) cos(cpz, ф,) = -—_ =, V(фЬ фг) (ф/, фу) где под скалярным произведением (фг-, <pj) понимается интеграл (ф/> Ф/) = / <₽z W ф/ W dx. Если система функций ортогональна, то все такие коси- нусы равны нулю. Для систем функций, близких к орто- гональным, косинусы близки к нулю. Наоборот, если все такие косинусы велики, т. е. все вектор-функции фг(х) лежат в узком конусе, то система фДх) далека от орто- гональной. При некоторых естественных (с точки зрения техни- ческой реализации) предположениях о том, как должны зависеть коэффициенты als от количества переменных т, оказывается, что для функций вида (10) раствор конуса, о котором выше шла речь, неограниченно сужается с ро- стом т, если только функция и(х) непрерывна. Значи- тельно лучше обстоит дело, если функция х(х) разрывна. В частности, если х(х) = sgx, как это обычно делается *) Это замечание принадлежит В. А. Якубовичу [2].
§ 1. О ВЫБОРЕ СИСТЕМЫ ФУНКЦИЙ fy(x) 79 в персептронах, то в известном смысле раствор конуса не зависит от т и поэтому подбором коэффициентов а[ можно предельно расширять угол между векторами <рДх) в пределах конуса. В этом смысле система функ- ций (10), (11) удобна для разного рода реализаций пер- септронных схем, так как она полна (см. выше), легка для технических реализаций и вместе с тем при боль- ших т может быть сделана достаточно близкой к орто- гональной. 3. Пространство вершин m-мерного куба. Рассмот- рим теперь пространство вершин m-мерного куба со стороной, равной 2, и началом координат в центре куба*), так что координаты каждой вершины задаются набором Хь каждое из которых есть число —1 или 4-1. Это пространство состоит из конечного (равного 2т) числа точек, так что полная система функций также должна содержать конечное число элементов. Для по- строения полной системы функций воспользуемся «кано- ническим» приемом, описанным в пункте 1 настоящего параграфа. «Одномерный куб» состоит лишь из двух то- чек, х= + 1 и х=—1. Поэтому в качестве исходной од- номерной полной системы функций для этого случая нужны лишь две функции. Ими могут быть, например, 6oW^y=. 0iW = -p=x. Непосредственно видно, что эти функции ортогональны и нормированы* **). В соответствии с формулой (1) ♦) Такое пространство здесь удобнее, чем куб со стороной, рав- ной единице, и вершиной в начале координат. Разумеется, один куб легко переводится в другой. **) Для пространств, составляющих из конечного числа точек в определении скалярного произведения, интеграл заменяется сум- мой по всем точкам пространства. Поэтому в рассматриваемом случае (00. 61) = 2 00 U) 01 (X) = “0o(-i)0i(-l) + 0o(+i)0i(+i) = p=(-y=' <2 /2 (0о, 0o) = (0i. Oi) = j-l+j.l = l,
80 ГЛ. Ш. ВЫБОР ФУНКЦИЙ -фу(х) И ФУНКЦИИ К(х, у) п каждая из многомерных гармоник имеет вид Ц 6Z (xs), s=l 5 где теперь индексы is могут принимать лишь два значе- ния— 0 или 1. Принимая во внимание вид функций 6о(я) и 01 (х), приходим к выводу, что гармоники &-го порядка с точностью до нормирующего множителя пред- ставляют собой произведения k различных координат II Г=1 Xtr во всех возможных комбинациях. Поскольку каж- дая переменная хг принимает лишь значения ±1, то и каждое такое произведение может принимать лишь те же два значения. Всего существует Ст комбинаций со- множителей из k различных координат, т. е. полная многомерная система содержит Ст гармоник /г-го по- рядка. Выпишем эти гармоники: 1 -^- — нулевого порядка, 1 1 1 ^2хъ ^х2, ^/2-хт-первого порядка, 1 1 1 2m/2 ут/2 • • •> 2^/2 Х1Хт> 1 1 1 _ 2ги/2 X2^3> • • •> 2ш/2 Х2хт> • • •> ^т/2 Хт-\хт второго порядка, 1 1 , 2?п/2 Х1Х2 • • • Xk> • • •> tgnft Xfn-(k-l) . . . Хт /?-ГО порядка, 1 х{х2 ... хт- m-го порядка. т Общее число гармоник в системе есть Sc!, = 2”, т. е. равно, как и следовало ожидать, числу точек про- странства.
§ 2 ВЫБОР ВИДА ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К(х у) 81 Как и подобает «канонической» системе, «вычур- ность» гармоник нарастает с ростом номера гармоники. Действительно, рассмотрим какую-либо вершину т-мер- ного куба и все т вершин, соседних с ней. Тогда легко показать, что в k из этих соседних вершин &-я гармо- ника имеет знак, противоположный ее знаку в выбранной вершине, а для т — k соседних вершин знаки совпа- дают. Число вершин куба, соседних с данной вершиной, переход в которые связан с изменением знака функции, соответствует интуитивному представлению о степени «вычурности» функции, заданной на вершинах куба. Так, например, на рис. 10 (стр. 133) показано распреде- ление знаков для гармоник нулевого, 1-го, 2-го, 3-го по- рядка для трехмерного куба. Гармоники в пространстве вершин m-мерного куба нам будет удобно в дальнейшем обозначать через <р| (х), где верхний индекс s (s = 0,.. ,,m) означает порядок гармоники, а нижний индекс ZS(ZS=1, С^) нумерует гармоники s-ro порядка. § 2. О выборе вида потенциальной функции К(х,у) 1. Общие соображения о выборе функции К(х,у). В предыдущем параграфе при выборе системы функций фг: (*) было существенно, чтобы коэффициенты сг- в раз- п ложении f* (х) = 2 Оф/ (х) убывали столь быстро, чтобы 1 можно было ограничиться конечной и по возможности содержащей небольшое число функций системой фг(х). Это было связано с тем, что при персептронной реализа- ции метода потенциальных функций приходится вклю- чать в схему столько функциональных преобразователей, сколько функций содержат выбранные системы. Этими же практическими соображениями определялось и стрем- ление упростить вид этих функций, например, исполь- зовать систему (10), (11). При машинной реализации метода приходится иметь дело лишь с потенциальной функцией К(х, у). Связь между этой функцией и некоторой выбранной систе- мой функций фг(х), как об этом говорилось в главе II, 0 М. А. Айзерман и др.
82 ГЛ. III. ВЫБОР ФУНКЦИЙ fyU) И ФУНКЦИИ К(х, у) определяется формулой оо оо К (х, у) = S (х) <PZ (у) = 2 -ф* М -ф, (у), (15) где Xj=£O — действительны и, следовательно, Л|>0. Для машинной реализации наиболее удобны такие ряды (15), которые можно аналитически просуммировать и записать К (х, у) в свернутом виде. В этом случае ста- новится безразличным, сколь сложны функции ф<(х) с точки зрения их технической реализации, а также число таких функций. Более того, если имеется в виду машин- ная реализация и «свертываемые» ряды вида (15), iro целесообразно иметь в виду полную систему функций фг(х) с тем, чтобы расширить класс функций ко- торые могут быть аппроксимированы с помощью метода потенциальных функций. Именно это имелось в виду в формуле (15), которая допускает разложение К(х, у) не обязательно в конечный, но и в бесконечный ряд. Практически при использовании метода надо знать лишь свернутое выражение К(х,у) и быть уверен- ным, что функция f*(x) представима разложением f*(x) = 2 <7Ф/(х) по системе функций (х). Фактически знать эту систему и коэффициенты не требуется. Приведем несколько примеров, когда формулы вида (15) могут быть удобно свернуты. Первый пример. В качестве пространства X рас- смотрим отрезок прямой [0,2л]. В качестве системы функций рассмотрим ф'(х) = sinkx, ф" (х) = cos Z?x, k = 0, 1, <₽й (х) = (*)=О, k > приняв , Л , Z,* = 1 при k = 0, 1, .... Тогда N К (х, у) = (sin kx sin ky 4- cos kx cos ky) = k=*0 N / . 22V+1 . .\ VI . / Sin----9---(x-y) \ = ^/|cosfe(x-t/) = jl 1 +------ x_-------|. (16) feZo \ sin 2 ~ /
§ 2. ВЫБОР ВИДА ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К(х, у) 83 Последнее равенство получается суммированием гео- метрической прогрессии, если представить cos Zu с по- мощью формулы Муавра. Второй пример. Пространство X — множество вершин m-мерного куба (см. § 1). Система функций <рг(х) представляет собой гармоники заданные фор- мулой (14). Выберем числа А/ =-4r:aS, где ос, | а | < 1—некото- * 2 рое число. В этом случае cs т т у)=2 se0 cs т т s=o i4=l S S - ( 1 ~«2px’ v) ( 1+a2 jm~p(x’ n где p(x, у) = y (xf — yt)2 — расстояние по Хеммин- /=i гу*). Последнее равенство сразу получается из формулы (100) § 3 этой главы. Третий пример. Пространство X — вся действи- тельная ось (—оо, 4-оо). Функции фДх) составляют ор- тонормированную систему функций Эрмита: ф‘м_(йГЙу‘е~я‘<х)’ где Hi (х) — полиномы Эрмита Ht (х) = (-!)' е*' (4/ Выберем %? = az, где | a | < 1. *) Расстоянием по Хэммингу между двумя вершинами /и-мер- ного куба называется число несовпадений среди соответствующих координат этих вершин. 6*
84 ГЛ. III. ВЫБОР ФУНКЦИЙ фДх) И ФУНКЦИИ К(х, у) % Тогда *) а °° В К (X, у) = 2 -<PZ W Ф< (у) = I i=0 | =_______.....PVn Г 2^а ~ <х.2 + у2!?2 1 /1Яч Ул(1-а2) 6 PL 1—а2 1' <18) Из выражения (18) видно, что чем ближе величина а к 1, т. е. чем медленнее убывают коэффициенты А? = тем ближе функция К(х,у) к 6-функции Дирака. Это замечание носит общий характер для представления (15), f. когда система функций фг(х) ортонормирована. Именно, чем медленнее убывают коэффициенты А/, тем ближе /С(х, г/) к 6-функции. Наоборот, чем быстрее убывают коэффициенты А/, тем «положе» функция /<(х, у). Эти утверждения вытекают из следующих простых сооб- ражений. ! Если представить произвольную функцию f(x) ее J разложением по полной ортонормированной системе | фг(я) ; f(x)= 2 Ci(Pi (х), ! и рассмотреть затем интегральное преобразование К с ядром К(х,у) Kf(x) = J К(х, y)f(y)dy, X то из (15) следует, что Kf (х) = 2 (х) i и поэтому, если А? почти одинаковы, то и функция Kf почти совпадает с функцией f(x), умноженной на кон- станту, а это и означает, что ядро К(х,у) близко к б-функции, умноженной на эту константу. *) Последнее равенство в (18) см., например, в курсе: Е. Титч- м а р ш, Введение в теорию интегралов Фурье, Гостехиздат, 1948, стр. 104.
§ 2. ВЫБОР ВИДА ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К{х, у) 85 Если же коэффициенты X? быстро убывают, то выс- шие гармоники практически не содержатся в разложении функции К(х,у), и так как гармоники упорядочены по их «вычурности» (ранее об этом шла речь), функция К(х,у)—мало вычурная, сравнительно гладкая. Эти соображения приходится учитывать, если непо- средственно задаваться свернутым выражением для функции К(х, у). Именно, если К(х,у) близка к функ- ции б (%— у), т. е. К(х,у) велико при х = у и мало при всех остальных у, то из основной процедуры (!) видно, что при каждом показе функция fn+1(x) исправляется по сравнению с fn(x) лишь в показанной точке и мало отличается от fn(x) в остальных точках (см. § 2 гл. II). Поэтому восстановление неизвестной функции в большой области требует показа большого числа то- чек. С другой стороны, задаваясь чересчур пологой функцией К(х,у), мы, по существу, задаемся рядом (15) с быстро убывающими коэффициентами к2, и поэтому создается угроза невыполнения условия (30) (§ 4 гл. II) основной гипотезы и затрудняются условия схо- димости алгоритма. Следовательно, при выборе функ- ции К(ху у) в свернутом виде приходится балансировать между выбором чересчур пологой или, наоборот, черес- чур резко изменяющейся функции Л’(х, у). При практи- ческом использовании метода компромисс находится с учетом особенностей каждой конкретной задачи, с при- влечением интуиции и опыта, накопленных в ходе реше- ния близких по характеру задач. В связи с этим удобно, имея в виду работать со свернутым выражением для функции /<(%,(/), задаваться не конкретной функцией, а однопараметрическим семей- ством функций*) /<(х, у, а). Далее в каждой конкрет- ной задаче параметр а подбирается экспериментально с тем, чтобы получить хорошее разделение и быстроту сходимости алгоритма. 2. Выбор потенциальной функции в евклидовом про- странстве. До сих пор нас не интересовала метрика про- странства X (в частности, она могла быть и не задана). В тех случаях, когда в X введено каким-либо образом ) См. примеры функций /С(л, у) в § 1 гл. II,
86 ГЛ. 1П. ВЫБОР ФУНКЦИЙ ipz(x) И ФУНКЦИИ К(х, у) расстояние р(х, у) между любыми двумя точками х и у. удобно задавать К как функцию расстояния р /С(х, г/) = /С[р(х, г/)]. (19) Выше были высказаны некоторые соображения о том, как разумно выбирать функцию Л(х, у). Эти соображе- ния, разумеется, относятся и к выбору функции /С(х, у) = = /С(р). Однако если даже эти общие соображения учте- ны и с учетом их выбрана некоторая конкретная функ- ция Л(р), то остается открытым вопрос о том, можно ли представить функцию /С[р(х, у)] в виде ряда оо К [р (х, у)] = 2 A.2(pz (х) ф, (у) (20) ло какой-либо полной системе фг(%) с положительными коэффициентами Л?. Если бы не требовалось, чтобы все коэффициенты Л? этого разложения были положитель- ны, то, как известно, при весьма общих предположениях о функции К(х, г/), симметричной по х и у, в силу тео- ремы Гильберта — Шмидта*) всегда существовало бы разложение /С (х, у) = S pz<pz (%) <pz (у), причем система i фг-(х) и коэффициенты щ определялись бы однозначно по Л(х, у). Именно, щ и <рг(х) являлись бы собственны- ми значениями и соответственно собственными функ- циями следующего интегрального уравнения: J К (х, у) f («/) dy = yf (х). (21) Для произвольной симметричной функции К(х,у) собственные значения всегда действительны, но могут оказаться отрицательными. Требование же существова- ния разложения вида (20) с положительными коэффи- циентами накладывает дополнительные ограни- чения на выбор функции К(х, у). В связи с этим важное значение имеет установление критерия, позволяющего по виду функции Л(р) судить о том, существует ли разложение вида (20). *) См., например, Серия «Справочная математическая библио- тека» «Интегральные уравнения», «Наука», 1968.
$ 2. ВЫБОР ВИДА ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К(х, у) 87 Если ограничиться случаем, когда точка х задается n-кой чисел (%1, ...,хп), а расстояние между двумя точ- ками определяется функцией вида р(х, у)=К то критерий существования разложения (20) устанавли- вается следующей теоремой. Теорема I. Пусть X: а) ограниченная область в m-мерном евклидовом пространстве Ет, либо б) дискрет- ное конечное множество точек в Ет. 'Пусть, далее, К (| z |), z е Ет — непрерывная функция, для которой многомерное преобразование Фурье К(<»1......®m)= J ... J tf(|z|)e Л=1 dz{...dzm —оо — оо положительно в любой точке о = {соi,..., cow} е Em. Тогда потенциальная функция К(jх — у\) расклады- вается в ряд вида (20), где х, у еХ и фДх)—полная система функций в Ь2(Х). Прежде, чем доказать теорему, сделаем два замеча- ния. Замечание 1. Теорема лишь указывает условия, гарантирующие требуемую разложимость потенциальной функции K(|z|), но ничего не говорит о том, какова кон- кретно полная система функций фДх), порождаемая данной потенциальной функцией. Замечание 2. Рассмотренные в предыдущем пара- графе пространства Сит (m-мерный куб) и простран- ство вершин m-мерного куба (как при евклидовой мет- рике, так и при метрике Хэмминга) охватываются теоремой. Доказательство теоремы I. Рассмотрим по- рознь случаи а) и б) из текста теоремы. Случай а). Поскольку К(\х — у\) — симметричная функция переменных х и у, то в силу теоремы Гиль- берта — Шмидта найдется полная ортонормированная
88 ГЛ. Ш. ВЫБОР ФУНКЦИЙ ipz(x) И ФУНКЦИИ К(Х, у) система функций <рг(х) в L2(X) и последовательность действительных чисел ц2 таких, что ряд 2 Hz<Pz М (pt (у) (22) i сходится в среднем к /<(|х — у\). Если все щ > 0, то со- гласно теореме Мерсера*), учитывая, что по условию функция К(\х— у\) непрерывна, этот ряд сходится по- точечно к К(\х—у\). Необходимым и достаточным ус- ловием положительности коэффициентов р2 является положительность интегральной формы J J /Ц |х-у |)f (x)f (у)dxdy> О (23) X X для всех f(x) таких, что J f2(x)dx>0. х Рассмотрим теперь класс функций fc(x), которые сов- падают с f(x) на X и равны нулю вне X Обозначив че- рез К (со) и fc (со) многомерные преобразования Фурье функций К (| z |) и fc(x) соответственно, имеем J J К (IX - у |) f (х) f (у) dx dy = X X = J Jx(lx-f/|)f(x) fc (tj) dx dy — Em Em = J J* J * (®)el (<a’ x~y)fc W fc (У)dx аУ da = Em Em Em = * (“) I fc (®) I2 d^. (24) Em Если выполнено условие теоремы, т. е. положительность ^(со) при всех со, то J к(®)| г (о) М<о>0. Ет *) См., например, С. Г. М и х л и н, Лекции по интегральным уравнениям, Физматгиз, 1959.
§ 2. ВЫБОР ВИДА ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К(х, у) 89 Тогда (23) выполнено, все цг- > 0, и в силу теоремы Мер- сера функция К(\х — у\) представима рядом (22) с по- ложительными коэффициентами. Таким образом, в слу- чае а) теорема доказана. Случай б). В этом случае потенциальная функция является симметричной матрицей /С с элементами = (fe, /=1, N), где N — число точек пространства X. Тогда, как из- вестно, ^/=2pp«^f, (25) где &-я координата р-го собственного вектора ма- трицы К, Цр — соответствующее ему собственное значе- ние. Для положительности всех (аналогично слу- чаю а)) необходимо и .достаточно, чтобы для любого /V-мерного вектора v, |о( > О (Ки, и)>0 (26) или 22 KkiVkVi>0. i k Выражая Км через многомерное преобразование Фурье функции К(| г |), получим S 2 K"vkvi = S S f К (®) °' x^da l к Ik = V I I Em k Поскольку по условию теоремы jff(co) больше нуля при ВСГ' О, ТО (Kv, v) = -7n^ [ К (®) IУ vkei{^' |2 da > 0. Теорема доказана. Пример. Рассмотрим потенциальную функцию т -°2 S (xk-yk)2 К{Х, = е . (27)
90 ГЛ. III. ВЫБОР ФУНКЦИЙ 1|)Z(X) И ФУНКЦИИ К(х, у) Как известно, преобразование Фурье функции, зави- т т сящей от 2 является функцией, зависящей от 2 coL м k~\ Поэтому при вычислении преобразования Фурье такой функции можно вычислить его при = 0 (А » 2,/и), т а затем вместо со1* подставить 5 т Г -224 е e~i<iixZ'dz\ ... dzm = т 9 9 е }е 1 1 24 zk е к~2 dz2 ... dzm «= *1 р Lm — \ т I е~ Таким образом, т Г -«224 I е к~[ е~1 г) dzi Ет m ~ а2 2 “1 I е к-1 . (28) Из (28) в силу теоремы I следует, что потенциальная функция вида (27) раскладывается в ряд (20) на любом множестве указанного в формулировке теоремы I типа. 3. Выбор потенциальной функции в случае, когда пространство X — множество вершин m-мерного куба. Рассмотрим теперь пространство, состоящее из вершин m-мерного куба с центром, расположенным в начале ко- ординат и со стороной, равной двум (так что координа- ты xt вершин равны +1 и —1). Введем в этом пространстве обычное евклидово рас- стояние между точками Ре(х, у) = т 2 (Xi - у
§ 2. ВЫБОР ВИДА ПОТЕНЦИАЛЬНОЙ ФУНКЦИИ К(х, у) 91 или расстояние по Хэммингу т рх(х, = i = l которое, как указывалось выше, равно числу несовпаде- ний знаков одноименных координат вершин х и у. По- этому Рх(*> «/) = 4ре(х» #)> и в связи с тем, что соотношение между расстояниями по Евклиду и Хэммингу столь просто, можно с одинако- вым успехом пользоваться любым из этих расстояний. Для определенности мы будем в дальнейшем использо- вать расстояние по Хэммингу, обозначая его просто че- рез р(х, у). Ясно, что р принимает лишь целочисленные значения 0, 1,...,т. Пространство вершин т-мерного куба с так введенной метрикой называется простран- ством Хэмминга. Пространство Хэмминга подпадает под условия тео- ремы 1 (пункт б)), и поэтому, если выбрать потенциаль- ную функцию в форме К(р(я, #)), то при выполнении условий теоремы 1 будет существовать система функ- ций q\(x), такая, что имеет место разложение (20). Как уже отмечалось, эта теорема не конкретизирует систему функций фДх). Между тем для рассматриваемого здесь частного случая — пространства Хэмминга — можно де- тализировать связь между выбором функции К(р) и ря- дом (20). Ниже приводятся без доказательств некото- рые факты, касающиеся этой связи. Доказательства этих утверждений вытекают из рассмотрения метрических пространств более общего вида — так называемых сим- метрических пространств, частным случаем которых яв- ляется пространство Хэмминга. Симметрическим про- странствам посвящен следующий параграф, где, в част- ности, будут выведены все формулы, использованные в приводимых ниже утверждениях. 1°. Какова бы ни была функция 7С(р), система функ- ций фДх), по которой раскладывается функция К[р(х, у)] в ряд (20), есть каноническая система функций на вер- шинах ^-мерного куба, введенная в § 1 (формула (14)) L
92 ГЛ. III. ВЫБОР ФУНКЦИЙ ^(х) И ФУНКЦИИ К(х, у) Обратим внимание на то, что в иных пространствах си- стема <рг(х) зависит, вообще говоря, от выбора /С(р). В пространстве же Хэмминга (и вообще в симметриче- ских пространствах; см. § 3) система срДх) всегда одна и та же — каноническая, а от выбора К(р) зависят лишь коэффициенты щ разложения (20). 2°. Какова бы ни была функция /<(р), коэффициен- ты при гармониках одного и того же порядка одина- ковы, так что разложение (20) в данном случае имеет вид т ls /С[р(х, ?)] = 2ц, 5<Р- (х)<р| (//), (29) S=O s ls где ls — Csm — число различных гармоник qpj (х) s-го по- рядка, a ps —общий коэффициент при всех гармониках s-ro порядка. 3°. Каждая из внутренних сумм 5<p?s(x)<pfs(z/), входящих в формулу (29), является функцией только расстояния р(х, у), т. е. ls 2 ф/ W (у)= Ks [р (х, г/)]. (30) Отсюда следует, что любая функция АГ[р(х, </)] может быть представлена в виде К [р (х, г/)] = 2 цЛз [р U, у)], (31) 5=0 т. е. система функций Ks(p), s = 0, т является пол- ной системой на дискретном множестве точек р = 0, 1,... Более того, система функций Ks = as/(s(p), где as = 2т/2/(Ст),/г’ ортонормирована с весом Ст, т. е. т ( 1 pc пи с = г 2C^s(p)/<r(p) = 6Sr = {0 ’ р«=о I если 07=/«
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 93 4°. Из пункта 2° следует, что задание потенциальной функции как функции расстояния обеспечивает разложе- ние потенциальной функции К(х,у) в ряд, в котором гармоники одного и того же порядка входят с одинако- вым весом. Наоборот, из пункта 3° следует, что каждая потенциальная функция, в разложении которой гармони- кам одного и того же порядка придан одинаковый вес, есть функция расстояния. Этот факт хорошо согласуется с развивавшимися в § 1 представлениями о том, что гармоники одного и того же порядка в равной мере характеризуют сложность восстанавливаемой функции. В заключение этого параграфа заметим, что опреде- ляемые в силу (30) функции Л8(р) обладают всеми свой- ствами обычных систем гармоник. Именно, с ростом но- мера s растет сложность функций /(s(p) (в частности, число нулей и число экстремумов на отрезке [0, т]). По- этому, работая в пространстве Хэмминга, можно зада- ваться потенциальной функцией в форме ряда (31), при- влекая для выбора коэффициентов ps те общие сообра- жения, о которых шла речь в начале параграфа. § 3. О выборе потенциальной функции в симметрических пространствах 1. Симметрическое пространство. В этом параграфе в качестве основного пространства рассматриваются ме- трические пространства *) специального класса, назы- ваемые далее симметрическими. Пространство вершин m-мерного куба, с которым часто приходится иметь дело в задачах обучения, является важным частным случаем ♦) Метрическим пространством X называется абстрактное мно- жество точек, на котором введено расстояние р(х, у) между двумя точками х, у е X, удовлетворяющее аксиомам: 1) Р (х, //) = Р(#> х); 2) р (х, у) = 0 тогда и только тогда, когда х совпадает с у\ 3) р(х, 4) для любых точек х, у и г выполнено неравенство треуголь- ника . Р (х, УХ Р (x, z) + р (z, у). Для целей настоящей работы важны лишь свойства 1) и 2) функ- ции р(х, у)', аксиомы же 3) и 4) далее нигде не используются.
94 ГЛ. III. ВЫБОР ФУНКЦИЙ 1|)Z(X) И ФУНКЦИИ К(х, у) таких пространств. Для симметрических пространств оказывается возможным высказать более точные сообра- жения о выборе системы функций <рг(х) и потенциальной функции К (%, у), а также обосновать целесообразность выбора потенциальной функции как функции расстояния. Определение симметрического пространства опи- рается на понятие точечного изометрического преобра- ; зования метрического пространства в себя. Преобразование метрического пространства в себя называется изометрическим, если при нем сохраняются * расстояния между любыми парами точек. Если А есть изометрическое преобразование, так что точка х в ре- £ зультате преобразования А переходит в точку Ах, то в | соответствии с определением для любой пары точек х е X, у X имеет место соотношение р(Дх, Лг/) = р(х, у). (32) $ Ясно, что последовательное применение нескольких изо- метрических преобразований есть изометрическое преоб- ! разование и что преобразование, обратное изометриче- ' скому, существует и также является изометрическим. Поэтому множество изометрических преобразований [ образует группу*), где, как обычно, под произведением | двух элементов (преобразований) понимается последо- * 1 вательное выполнение этих преобразований; в качестве единицы группы можно рассматривать тождественное । преобразование, а обратное преобразование играет роль обратного элемента. ‘ Метрическое пространство X назовем симметриче- ским, если для любых двух пар точек х', у' и л", у", на- ходящихся на одинаковом расстоянии р (х', у') = р (х", у"), 1 существует изометрическое преобразование А простран- ства X в себя, при котором эти пары совмещаются, т. е. I в результате преобразования х” = Ах', у" = Ау'. *) Группой называется множество G элементов, над которыми определена операция «умножения» (обозначаемая «•»), так что: 1. Если a f=G и b е G, то и a - G. 2. В G существует элемент е («единица») такой, что для лю- бого а <= G, а - е = е • а == а. 3. Для каждого а из G существует обратный элемент a~l^G такой, что а • а~1 = а-1 • а — е.
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 9b Примером симметрического пространства является уже упоминавшееся выше множество вершин т-мериого куба, содержащее N = 2т точек, если в качестве расстоя- ния принять расстояние по Хэммингу. Изометрическими преобразованиями являются здесь «повороты» и «отра- жения» куба (подробнее далее см. пункт 5). Другим примером симметрического пространства яв- ляется множество, состоящее из N точек, равномерно размещенных по окружности так, что длины кратчайших дуг между любой парой соседних точек одинаковы. В этом пространстве за расстояние между любыми двумя точками можно принять длину кратчайшей дуги, их со- единяющей. Изометрическими преобразованиями яв- ляются здесь повороты и отражения относительно соот- ветствующих диаметров. В дальнейшем, говоря о симметрическом простран- стве, будем предполагать, что оно содержит лишь конеч- ное число точек. 2. Квадратичные функционалы качества на симмет- рических пространствах. Теперь перейдем к заданию вида функционала У{/(х)}, оценивающего «качество» функции f(x), т. е. ее «гладкость», невычурность и т. д. С точки зрения интуитивных представлений о качестве функций естественно потребовать, чтобы функционал обладал следующими свойствами: 1) ZW(x)} = Z{f(x)}; (33) 2) / {f (Ах)} = / {f (х)}, (34) где X — любая отличная от нуля константа, а А — любое изометрическое преобразование симметрического про- странства X, на котором задана f(x), в себя. Действи- тельно, умножение функции на отличную от нуля кон- станту не меняет ее «спектрального состава», который и определяет качество функции. Второе же требование оп- равдывается тем, что функция f(Ax) есть просто «сдви- нутая» функция f(x). В дальнейшем рассматриваются функционалы каче- ства следующего вида: 2 L(x, /#(*)}=*' №---------, (35)
96 ГЛ. III. ВЫБОР ФУНКЦИЙ 1|)Z(X) И ФУНКЦИИ К(х, у) где _________ 11/11=1/ 2 m Г х^Х а ядро £(х, у) можно без ограничения общности считать симметричным: L(x, y) = L(y, х). Конкретный вид функционала определяется выбором ядра L(x,y). Присутствие в знаменателе выражения (35) величины ||f||2 приводит к тому, что требование (33) удовлетворяется автоматически при любом ядре L(x, у). Требование же (34) существенно ограничивает возмож- ный вид ядра L(x, у). Именно, имеет место следующая теорема. Теорема II. Пусть X — симметрическое простран- ство. Тогда для того, чтобы функционал (35) удовлетво- рял условию (34) при любой функции f(x) и любом изо- метрическом преобразовании А, необходимо и доста- точно, чтобы ядро L(x,y) было функцией расстояния ме- жду точками х и у: L(x, y) = L(p(x, у)). Предпошлем доказательству теоремы II следующую лемму. Лемма I. Для того чтобы функция двух переменных ф(х, у), заданная на конечном симметрическом простран- стве X, была функцией расстояния р(х, у), необходимо и достаточно, чтобы для любого изометрического преоб- разования А у). Доказательство леммы I. Необходимость усло- вия леммы сразу следует из определения изометричности преобразования, так как ф(р(Лх, Ау)) =1|>(р(х, у)). Докажем достаточность условий леммы. Пусть имеются две пары точек х, у и х', у'. Надо доказать, что если р(х, У) —р(х'> У'), т0 из условия леммы следует, что
§ 5. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 97 ф(х, у) = ф(л/, у'). В силу симметричности пространства найдется такой оператор Л, что х' = Ах, У' = Ау. Тогда ф(х', у') =г|)(Дх, Ау), но по условию леммы ф(Лх, Ay) = ф(х, у), т. е. ф(х', у') = яр (х, у). Лемма дока- зана. Доказательство теоремы II. Запишем теперь требование (34) в следующей форме: 2 L (х, у) f (Ах) f (Ау) 2 L <*• f М’ f (У) х, у £= X _____________ X, у X / oz?\ 1И(Дх)||2 = Ilf «II2 ’ k ' Знаменатели в обеих частях этого выражения равны, так как в суммах S f2(x) и 2 f2(Ax) аргументы х и Ах хе=Х х^Х пробегают все значения из X по одному разу. Поэтому После замены переменных и=Ах, v — Ay из (36) получаем 2 L{A~'u, A~lv)f(u)f(v) = 2 L(u, v)f(u)f(v). (37) v, v^X и, v^X Это равенство по условию теоремы II верно для любых функций f(x). Отсюда сразу следует, что функции L(A~'u, Л_|ц) и L(u,v) совпадают: Л(Л"’ы, A~lv) = L(u, v). (38) Поскольку (38) должно выполняться по условию тео- ремы при любом изометрическом преобразовании А, можно воспользоваться доказанной выше леммой. Теоре- ма II доказана. Теорема II позволяет переписать выражение (35) в виде 2 y))f(x)f(y) Z tf W) = . (39) Воспользовавшись утверждением теоремы II, можно по- казать, что функционал (39) однозначно связан с функ- ционалом 2 y))ifM-f(y)p 7{f(x)} = ^-^-------rm-------------* (40) 7 М. А. Айзерман и др<
08 ГЛ. III. ВЫБОР ФУНКЦИЙ 1|)Z(X) И ФУНКЦИИ К(Х, у) зависимостью Л/} = 2 (С-/{/}), (41) где С—константа, определяемая ядром L(p(x, у)). Для определения этой константы введем в рассмотрение функ- цию S(p), значение которой равно числу точек простран- ства X, лежащих на сфере *) Сфх(р) радиуса р с цент- ром в произвольной точке х. В силу симметричности про- странства S(p) не зависит от того, какая точка является центром сферы**). Выражение для константы С имеет вид C = 2£(p)S(p). (42) р Действительно, раскрывая скобки в формуле (40) и замечая, что х и у — немые переменные, получаем 2 L(p(x, у))Р(у) /{Щ)} = 2*-^Л ||/||2-----------2/{f(x)}. (43) Выполним в (43) сначала операцию суммирования по х, проводя это суммирование последовательно по сферам с радиусами р = 0, рь р2, ..., с центром в некоторой фик- *) Сферой метрического пространства радиуса р с центром в х называется множество точек у еХ таких, что р(*,£/)=р. **) Действительно, число точек на сферах радиуса р с центрами в точках хил/ соответственно может быть записано в виде (р) = 2 6 (р у> “ рь sx' (р) == S 6 (р «у} - р), у^Х у~Х где [ 1 при р = х, д(р-х) = < ( 0 при р=^=х. Эти две суммы для симметрических пространств равны, так как найдется такое изометрическое преобразование Л, что х' = Лх и Sx-(p) = у, 6 (р (Ах, у) - р) = У б (р (Лх, Аг) - р) = у^Х z^X = 2 6 (р (х, у) - р) = sx (р), У^Х откуда следует, что Sx (р)« Sx, (р) не зависит от х.
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 99 сированной точке у. В силу симметричности пространства число точек S(p) на сфере радиуса р не зависит от вы- бора точки у, в которой расположен центр сферы. По- этому сумма 2 L(p(x, У))=21(р)5(р) = С х^Х р не зависит от у. Проводя теперь в (43) суммирование по у, в силу определения ||f|| получаем формулу (41). Запись функционала качества в форме (40) удобна в том отношении, что она более наглядно отражает интуи- тивные представления о качестве функции, так как в нее непосредственно входит разность значений функции в точках х и у, находящихся на расстоянии р(х, у). В ча- стности, если ядро L(p(x, z/)) неотрицательно, то функ- ционал принимает минимальное (нулевое) значение на функции — константе. При этом в связи с тем, что с «ухудшением» функции f(x) увеличиваются, вообще го- воря, разности [f(x) —f(r/)]2, можно считать, что с ро- стом значения функционала (40) функция «ухудшается», Наоборот, в соответствии с формулой (41) при положи- тельном ядре Л(р (%,#)) «ухудшению» функции соответ- ствует уменьшение функционала (39). 3. Выделение классов функций одинакового качества. В настоящем пункте нам понадобятся некоторые све- дения из теории представления групп. Рассмотрим некоторое множество G элементов, обра- зующее группу, и некоторое линейное пространство 3? *). Представлением группы G называется соответствие Т(Л), которое каждому элементу А группы G сопостав- ляет некоторый линейный оператор Г, определенный над пространством 3 так, что произведению элементов А и В группы G соответствует произведение операторов, т. е. Т(А-В) = Т(А)-Т(В). *) В этом пункте элементарные понятия и факты теории линей- ных пространств используются без дополнительных пояснений. Со- ответствующие сведения содержатся, например, в книге Г. Е. Ш и- лова «Введение в теорию линейных пространств», Гостехиздат, 1952. Элементы теории представлений групп в объеме, достаточном для полного понимания настоящей работы, изложены в книге Г. Я. Любарского «Теория групп и ее применение в физике», Гостехиздат, 1957 7*
100 ГЛ. III. ВЫБОР ФУНКЦИЙ 1|)Z(X) И ФУНКЦИИ К{х, у) При этом не требуется взаимной однозначности соответ- ствия между операторами и элементами группы (т. е. каждому элементу группы оператор сопоставляется од- нозначно, но не обязательно наоборот). Размерностью представления Т(А) группы называется размерность пространства S’. Для целей настоящей работы в качестве простран- ства S рассмотрим линейное пространство действитель- ных функций, заданных на X. Если, как это здесь пред- полагается, пространство X состоит из конечного числа N точек, то размерность пространства S есть /V *). Рассмотрим некоторое изометрическое преобразова- ние А пространства X в себя. Каждой функции f(x)^S поставим в соответствие функцию g (х) — f (Дх) е S. Это соответствие между функциями f(x) и g(x) задает опе- ратор Т(А): g = T(A)f. Оператор Т(Л) зависит, разумеется, от того, какое именно изометрическое преобразование А рассматри- вается, но как бы ни было выбрано Д, соответствующий оператор Т(А) линеен. Действительно, для любых функ- ций fi(x) и f2(x) и чисел Xi, Х2 имеет место 7 (Д) [Xji (х) + K2f2 (%)] = i (Д*) + W2 (Д*)= = W(A)fx + x2T(A)f2. Соответствие Т(А) между изометрическими преобра- зованиями пространства X в себя и линейными опера- торами над пространством S функций, заданных на X, и является как раз интересующим нас далее представле- нием группы G изометрических преобразований. В силу того, что размерность пространства S в дан- ном случае конечна, выбор определенного базиса Ф1(х), ..., фдг(х) в S позволяет изображать оператор Т(А) квадратной матрицей ||7\л(Д) || с такими элемен- тами Tih(A), что /V Г(Л)<рг(х)=2Лй(Л)фй(х). fc==l *) Как известно, в качестве базиса в таком пространстве мо- жет быть выбрана система W функций, каждая из которых равна единице в одной из точек пространства X и нулю в остальных.
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 101 Благодаря этому представление Т(А) задается соот- ветствием между изометрическими преобразованиями и квадратными (N X Af)-матрицами, так что последова- тельному применению изометрических преобразований А и В соответствует произведение матриц ||Л/1(Л)|| и НЛь(В)||, выполненное по обычным правилам. Если базис ф1(х), <pN(x) выбран ортонормиро- ванным, т. е. х^Х ГДе f 1 «А | 1, если z = &ik~ (о, если i=/=k, то матрица ||Т\ь(Л)|| является ортогональной*) при *) Матрица Т называется ортогональной, если ТТ' = Т'Т = £, где «' — штрих» означает транспонирование, а Е— единичная мат- рица. Ортогональность матрицы Т доказывается следующим об разом. Рассмотрим скалярное произведение (Т (Л) фг Т (Л) <pfe) = 2 Ф/ <Ах>) <Pfc (Лх). X Сделав замену переменных у «= Ах и учитывая, что эта за- мена взаимно однозначна (т. е. что у пробегает все значения из X по одному разу, если х пробегает все значения из X по одному разу), получим: 2 ф/ Их) (Рк (Ах) = у <рг (у) <pfe (у) = bik. X у В то же время N N 2 <₽г (Ах) <pfe (Ах) =2 S Tls (Л) <jps (х) • 2 Tkr (Л) фг W - х х s=l r=>l = 2 Tis (Л) Tkr (А) 2 фЦх) фг w = г=1 х N N = 5 ЛИЛ)Гйг(Л)б,г=2^(Л)Г^(Л). S, $я1 Поэтому N 2 Tis И) s=l т. е. Т (А) V (Л) - Г (А) Т (Л) - Ел
102 ГЛ. III. ВЫБОР ФУНКЦИЙ 1I?Z(X) И ФУНКЦИИ К(х, у) любом А. Поэтому Т'(А)Т(А) = Е и следовательно, ^Tst(A)Tsk(A) = i>ik. S Представления групп подразделяются на приводимые и неприводимые. Для того чтобы ввести эти понятия, на- помним обычно используемое в линейной алгебре поня- тие инвариантного подпространства. Подпространство .S’iczj? называется инвариантным или собственным подпространством оператора Т, если TcpeS7] для любого cp^S^i. Очевидно, что для всех линейных операторов собственным подпространством яв- ляется все пространство S и нулевой вектор. Их назы- вают тривиальными подпространствами. Представление Т(Л) называется неприводимым, если не существует нетривиального подпространства прост- ранства S (над которым заданы операторы Г(Л)), яв- ляющегося инвариантным (собственным) для всех опе- раторов Т(А) одновременно. В противном случае пред- ставление Т(А) называется приводимым. В теории представлений групп доказывается, что вся- кое линейное пространство S?, на котором задано при- водимое представление Т(Л) конечной группы, «рас- слаивается» на ортогональные подпространства инвариантные для всех Г(Л), в каждом из которых задается неприводимое представление Ts(Л) группы (s = 0, т). Размерность подпространства 2?s в дальнейшем будем обозначать через Ns. Представление Г5(Л), заданное на 2?s (s = 0, m), определяется с помощью Г(Л) следующим образом: при любых ср е S?s имеет место соотношение Р(Л)ф^Т(Л)Фе^, Из неприводимости представлений TS(A) следует, что в каждом 2?s нельзя выделить подпространство меньшей размерности так, чтобы оно было инвариантным по от- ношению к любым преобразованиям Р(Л), т. е. в любом нетривиальном подпространстве из S?s меньшей размер- ности можно указать такой элемент и такое преобразо- вание, которое выводит этот элемент за пределы этого подпространства,
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 103 Вернемся к рассмотрению того конкретного представ- ления, которому посвящен настоящий пункт — именно, к представлению группы изометрических преобразований пространства X операторами, заданными над линейным пространством Z функций /(х). Это представление все- гда приводимо. В самом деле, функции-константы при любых преобразованиях пространства X (в том числе и изометрических) не меняются. Поэтому подпространство Zo gz Z, состоящее из всех функций-констант, является инвариантным для всех Т(А). Этим устанавливается,что представление Т(А), заданное на Z, приводимо, и по- этому пространство Z «расслаивается» на ортогональ- ные подпространства Z\, Zm («слои»), в каж- дом из которых задается неприводимое представление Т8(А) группы изометрических преобразований простран- ства X в себя. Каждая функция f(x) может быть спроектирована на подпространства Zs- Обозначая через fs(x) эту проек- цию, можно в связи с ортогональностью слоев Z 8 функ- цию f(x) представить «разложением по слоям» m f(x)=2W(x), (44) s=0 где c8 = ||fs|l, a qp5 (x) = и — нормированная проекция функций f(x). Расслоение пространства Z на ортогональные под- пространства Z8 имеет прямое отношение к интересую- щему нас вопросу об оценке качества функций. Действи- тельно, имеет место следующая теорема. Теорема III. Функционал (39) принимает одно и то же значение s на всех функциях из одного и того же слоя Z8. Значение & зависит только от выбранного ядра Цр(х, у)). Для доказательства теоремы III понадобится следую- щая лемма. Лемма II. Представления TS(A) и Т<>(А) при s ¥= q не эквивалентны*). *) Представления Т(А) и Т'(А) называются эквивалентными, если их размерности совпадают и найдется такой неособый опера- тор С, что Г(Л)==С-1Г(Л)С.
104 ГЛг 1П._ ВЫБОР ФУНКЦИЙ -ty(x) И ФУНКЦИИ К(х, у) Доказательство леммы II. Предположим про- тивное, что представления Р(А) и Т^(Л) эквивалентны. Тогда в подпространствах Zs и 2?q найдутся ортонорми- рованные базисы <pi, ср/ и фь ф/ соответственно (Ns = Ng = I), В которых матрицы и ||7’?л(Д)||1 ортогональны и совпадают: Л»(Д)-ТШ)-П*(Л); I, k=l, .... I. (45) Рассмотрим функцию ф (X, у)=^ ф/ W Ф/ («/)• (46) 1 = 1 Для любого изометрического оператора Д имеет место тождество Ф(Дх,Д#) = Ф (%,«/). (47) Действительно, Ф (Ах, Ау)=Ъ 1 Tslk (Д) <pfe (х) 2 Т]. (Д) ф (у) = 1 = 1 А:=1 / = 1 7 7 » k 2 1 (i Tslk (Д) (Д)} <pft (х) фу (у). Учитывая теперь (45) и ортогональность матрицы Tih(A) ^Т{к(А)Т„ (Д) = 6*„ получаем (47). Но из леммы I следует, что функция, удовлетворяющая (47), является функцией расстояния, т. е. / 2 Фг(х)^>1(у) = Ф(р(х, у)). (48) Z = 1 Поскольку Ф(р(х,у)) =Ф(р(у, *)), из (48) следует тождество i i 2 ф< (х) Ф,- («/) = 2 ф, (у) ф< (х). /=1
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 105 Это равенство противоречиво, так как фиксируя та- кое у = г/*, для которого хотя бы одна из величин Ф/(Л W) (/=1...../) отлична от нуля, мы приходим к выводу, что система ортонормированных функций <pi (%), ..., cpz (х); ф1 (х),... .ф/(х) линейно зависима. Полученное противоречие опровергает предположение об эквивалентности пред- ставлений TS(A) и Tq(A). Лемма II доказана. Сопоставим функции £(р(х,у)) линейный оператор L, переводящий любую функцию f е 2? в функцию g е S в соответствии с формулой g(x)^£f= 2 L(p(x,y)W). (49) У е X Важным для дальнейшего является следующее свой- ство оператора L: оператор L коммутирует со всеми опе- раторами представления Т(А), т. е. Т (А) t = LT (А). (50) Это соотношение доказывается следующей цепочкой равенств T(A)Lf = 2 А(р(Лх,у))№) = 2 L(p(Ax, Ay))f (Ау)— У^Х y^X = 2 А(р(х, y))f (Ау) = LT (A)f. у^х На основании леммы II и соотношения (50) дока- жем следующее утверждение, из которого теорема III следует непосредственно. Лемма III. Все функции подпространства S?8 яв- ляются собственными функциями оператора L, соответ- ствующими одному и тому же собственному значению, т. е. — f<=S?s. (51) Доказательство леммы III. Рассмотрим мно- жество 2?s тех и только тех функций f'. которые могут быть представлены в виде
106 ГЛ. III. ВЫБОР ФУНКЦИЙ tpz(x) И ФУНКЦИИ К(х, у) Очевидно, S"s является подпространством пространства S?. Покажем, что это подпространство инвариантно отно- сительно каждого из операторов представления Г(Д), т. е. Т(Д)Г<=<^, (52) Действительно, в силу (50) T(A)f' = T(A)Lf = ТТ(А){, а поскольку T(A)f <= S>s, то LT (Д) f е что доказы- вает (52). Рассмотрим теперь два возможных случая: а) подпространство 2? s — тривиальное подпростран- ство, содержащее лишь нулевой вектор f'(x) == 0; б) в подпространстве 2?'s существует хотя бы один ненулевой вектор. В случае а) утверждение леммы очевидно, так как при этом Zf = O, ’ и все функции из S?3 являются собственными функциями оператора L с нулевым собственным значением р, = 0. Далее рассматривается поэтому лишь случай б). Пока- жем сначала, что Zs не имеет нетривиальных подпро- странств, инвариантных относительно всех операторов Т(Д). Действительно, выберем произвольную функцию 2?'s, f #= 0, и рассмотрим линейную оболочку век- торов Т(Д)/', получаемых из f' при всех возможных А е G. Поскольку fz = Lf (f (= 2S, f =# 0) и Г (Л) f' = = Т (Л) Lf = LT (Л) f, а линейная оболочка векторов Т (Д) f совпадает с S?s из-за неприводимости представления Т8(Д), то и линейная оболочка векторов Т (A)f' совпа- дает с Z's. Это и означает, что в S?'s не содержится не- тривиальных инвариантных относительно Т (Д) подпро- странств. Представление Г(Д) индуцирует на подпространстве 2?'s представление Т' (Д), задаваемое соотношением ,s . . . . Т (A)f =T(A)f, f'e=S?'. Утверждение об отсутствии нетривиальных инва- риантных относительно Т’(Л) подпространств озна-
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 107 чает, что представление T's (А) неприводимо. Но тогда подпространство S£s должно совпадать с одним из подпространств Zq (q = 0, 1, m), так как, по опре- делению, слои S7!, ..., £>т исчерпывают все подпро- странства пространства 3?, на которых заданы неприво- димые представления группы изометрических преобра- зований. Покажем теперь, что S£s совпадает с 9?s. Предположим противное, что 2!'s совпадает с Zq (q =f= s), а следовательно, T's (А) совпадает c 7^(4). Тогда ♦ Т(Л)£Г=Г(Л)Ц, и, с другой стороны, в силу (50) Т (A)Lf = LTS (A)ff • ft=S?Si т. e. имеет место операторное равенство на 3?s Г(Л)£=£Г(Л), s^q, A^G. (53) В соответствии с леммой II неприводимые представ- ления TS(A) и Тч(А) не эквивалентны. Известная лемма Шура теории представления групп утверждает, что при выполнении (53) оператор L должен переводить каждую функцию f е 2? s в нулевой вектор, что противоречит су- ществованию в 2?s ненулевого вектора. Таким образом, доказано, что в рассматриваемом случае б) подпростран- ство S?'s совпадает с 2?s, а следовательно, S?s является собственным подпространством оператора L. Но в этих условиях вместо соотношения (53) справедливо следую- щее соотношение коммутации операторов L и Р(Л): Г(Л)£=£Г(Л), A<=G. (54) Воспользуемся теперь известной леммой теории пред- ставления групп, согласно которой оператор, коммути- рующий с каждым оператором неприводимого представ- ления, может отличаться от единичного оператора лишь мультипликативной константой. Из этой леммы следует, что оператор L, примененный к функциям из отли- чается от единичного оператора на постоянный множи- тель. Это доказывает утверждение леммы III.
108 ГЛ. III. ВЫБОР ФУНКЦИЙ ipz(x) И ФУНПЩИЖЛ AZ(X, у} Доказательство теоремы Г II. Лл^я того, что- бы получить из леммы III утверждение теоремы III, до- статочно заметить, что функционал ь-чожет быть записан в виде (55) где скобки обозначают скалярное промзведхемие, опреде- ляемое обычным образом: (f,g) = 2 f(x)g(x). Из (55) и (51) следует утверждение теоремы ЛИ: Z Ш = Hs= Zs. f е &s- (56) Теорема III доказана полностью. Из теоремы III следует простая фо рму'ла для значе- ния функционала (39), если функция f (х) задана разло- жением (44). Именно, т 2<Х Z{f(x)) = -^---• (57) 2*1 s=0 Доказательство формулы (57) по луч-ает-ся прямой подстановкой разложения т f=^cs4s в (55), если учесть, что Из соотношения (41), связывающего згаач ения функ- ционалов f{f} и f{f}, следует, что теоре тиа III и формула (57) верны также и для функционала ( 41), так что т 2 z^f£/4Al S=0 /КО\
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО Ю9 Из формулы (57) непосредственно видно, что выбор ядра L(p(x,#)) в функционале (39) отражается лишь на значениях s, оценивающих «качество слоя». Поэтому выбор ядра £(р(х,у)) означает, по существу, лишь при- писывание слоям S"s некоторых «весов» f81 оцениваю- щих качество каждого слоя. В связи с этим для оценки качества произвольной функции можно задавать не ядро L(p(x, #)) в функционале (39), а непосредственно число ?s. Более того, зная /$, можно определить ядро L(p(x,У)) (см- далее пункт 4). Теорема III позволяет выделить классы эквивалент- ных (с точки зрения их качества) функций без конкре- тизации вида функционала. К этим же классам эквива- лентных функций можно прийти и из совершенно других соображений, вообще не связанных с введеним каких- либо функционалов качества. Однако, как бы ни фор- мализовывались интуитивные представления о качестве функции, упорядочение функций по их качеству связано с введением отношений порядка *) между двумя функ- циями fug: f<g- Эта запись читается так: «функция f не хуже функ- ции g». Символ удовлетворяет свойству транзитив- ности. Будем говорить: «функция f эквивалентна функции g» и записывать f ~ g, если одновременно f < g и g < f. Постулируем теперь следующие свойства введенных от- ношений порядка: 1. f(Ax)~f(x)- (59) 2. если f (х) < g(x), то Xf (х) +[ig(x) < g(x). (60) Условие (59), по существу, совпадает с условием (34), а условие (60) является более жестким, чем (33). Уси- ление условия (33) позволяет установить эквивалент- ность функций в слоях, не прибегая к введению функ- ционала качества. *) Здесь не предполагается, что отношение порядка может быть установлено между любыми двумя функциями, и поэтому речь идет о введении частичной упорядоченности функций, заданных на
по ГЛ. III. ВЫБОР ФУНКЦИЙ ^(х) И ФУНКЦИИ К(х, у) Теорема IV. Если две функции f(x) и g(x), не рав- ные тождественно нулю, принадлежат одному и тому же слою Zs, то f ~ g. Доказательство теоремы IV. Пусть заданы две произвольные не равные тождественно нулю функ- ции f(x) и g(x) Из определения слоя 2?s как подпространства, не содержащего подпространства мень- шей размерности и инвариантного относительно всех операторов Г (Л), следует, что для любой функции f (х) 0, принадлежащей 3?s, линейная оболочка функ- ций фД*) f (Лгх) = Ts(Ai)f (где А{ — все возможные изометрические преобразования) совпадает с Zs. Иначе говоря, любая функция g из S?s может быть представ- лена разложением ng nq g (х) = 2 Ws (Ai) f (x) = 2 w (Ax), (61) . Z=1 ’ Ы где Ng — число элементов группы G изометрических пре- образований. Из условий (59) и (60) следует, что ка- ковы бы ни были константы Лг-, NG %Ы(А<х)^Г(х), i=l и поэтому из (61) вытекает, что g(x) <f(x). Меняя в предыдущих рассуждениях функции f(x) и g(x) местами (что возможно, так как от f и g требовалось лишь, чтобы они принадлежали одному и тому же слою 2%), устанавливаем обратное соотношение f(x)<g(x), а следовательно, эквивалентность этих функций. Тео* рема IV доказана. Таким образом, «расслоение» пространства S? на под- пространства 2?s, содержащие функции одинакового ка- чества, может быть произведено без введения какого- либо функционала качества. Однако для классификации функций, которые имеют ненулевые проекции хотя бы на два различных «слоя», надо воспользоваться функциона*
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 111 лом (39) или (40), конкретизируя ядро £(р(х, #)). Кон- кретизация же ядра немедленно приводит к установле- нию конкретных «весов» /s, приписываемых слоям, и необходимо, чтобы эти веса соответствовали интуитив- ным представлениям о сложности функций из этих слоев. Эти соображения приходится учитывать в каждом кон- кретном случае при задании ядра £(р(х, #)). Пример выбора ядра, отвечающего этим требованиям, будет при- веден далее в начале пункта 5. 4. Разложение функций расстояния в ряд. Выше было показано, что ядро функционала качества (39) должно быть выбрано в форме функции от расстояния р(х,у). Далее и потенциальная функция К(х,у) в методе потенциальных функций будет задаваться как функция расстояния. В этом пункте рассматриваются свойства функций расстояния в симметрических пространствах, связанные с их разложением в ряды по некоторой си- стеме функций, зависящих также от расстояния. Выбор этой системы тесно связан с «расслоением» линейного пространства S? на подпространства 2? s, изученным в предыдущем пункте. Выберем в каждом из слоев 2?3 произвольный орто- нормированный базис с элементами ф?(х), j = 1, Ns (s = 0, tn), .где Ns — размерность подпространства m S’s*)- Разумеется, 'StNs = N, и совокупность N функ- s=0 ций qpj(я) образует ортонормированный (в силу ортого- нальности слоев) базис в пространстве Введем в рас- смотрение систему функций Ks(x,у), определенную ра- венствами Ks (х, у) = s <pj (х) <Р| (у), s=0, 1, .... т (62) и докажем следующую теорему. Теорема V. Функции Ks(x,y) не зависят от выбора ортонормированного базиса ф* (/=1, ...» N^ в слое *) Поскольку слой «2% содержит лишь функции-константы, его размерность — 1, а единственной базисной функцией этого слоя является нормированная константа ф^ =
112 ГЛ. III. ВЫБОР ФУНКЦИЙ Ifyfx) и ФУНКЦИИ К(х, у) 3? s ($ = 0, ..., т) и являются функциями только рас- стояния р(х,у): Ks(x, y) = Ks(9 (х, у)); система функций Ks(p) (s — 0, является пол- ной системой функций в пространстве функций L (р). Доказательство теоремы V. Докажем, что функция Ks(x, у) не зависит от выбора ортонормирован- ного базиса. В самом деле, если задан ортонормирован- ный базис фр отличный от <pj, и, соответственно, функция Ns Ks (X, у) - 2 (х) ф* (у), (63) то, как известно, существует ортогональная матрица переводящая базис ф^ в фр 4>sj (х) = 2 Qjkq>sk (х). (64) Подставляя (64) в (63) и используя соотношения орто- гональности Ns 5 QikQn = bki, получаем, что Rs (х, у) = Ks (х, у), что и доказывает неза- висимость Ks(x, у) от выбора базиса. Докажем, что Ks (х, у) зависит лишь от р (х, у). С этой целью покажем, что КДЛх, Ау) = К(х, у). (65) Действительно, Ns Ns Ns Ks(Ax, Ay) = ^ ^Ts.k(A)^kM^ Т’ц(А)ч°(у) = Ns fNs \ /=1 xi=l •
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО ИЗ а поскольку матрица ||77fc| ортогональна, то ". 3 ПИЛ) П (Д) = бы 1=1 и ". ". Ks (Ах, Ay) = 2 бы<р® (х) <р« (у) = 2 ф/ (х) <р® (у), kt Z=1 Z=1 что и доказывает (65). Но из (65) в силу леммы I и сле- дует зависимость Ks(x, у) лишь от расстояния р(х, у). Докажем, наконец, полноту функций /Cs(p) в про- странстве функций А(р). Рассмотрим произвольную функцию А(р), соответствующую ей функцию L(p(x, у)) и оператор L (определенный формулой (49)). Анало- гично рассмотрим набор функций /Cs(p(x,у)) и соответ- ствующих операторов Ks (s = 0, m). Оператор К3 является оператором проектирования на подпростран- ство 2?8, так как Ksf = 3 3 ф/ W (у) f (у) 2 f (у) <PS, (у) Ф (х)\ , уех / = 1 11 j = l\y&X ' ’ ) откуда следует, что Ksf если f е S’s, если f е S’g, (66) q Ф s. Рассмотрим произвольную функцию f е S? и представим ее разложением т Г(х)=2Г(х), r^^s. (67) s=0 В силу леммы III т т Lf=^Lfs = 3nZ. s=0 s=0 Введем в рассмотрение оператор т ЗрХ s=0 § М. А. Айзерман и др.
Я4 ГЛ. HI. ВЫБОР ФУНКЦИЙ (х) И ФУНКЦИИ К(х, у) и применим его к функции f. В силу (66) получим т т s=0 5=0 т. е. т (68) s=0 Поскольку в (68) функция f — произвольная функция из 2, имеет место операторное тождество т I - 2 нХ S=0 и тождество функций т Мр(х, «/))=* 2йЛЛр(х, «/)). (69) • s—0 Оно означает, что произвольная функция L(p(x,у)) мо- жет быть представлена суммой (69), а это эквивалентно полноте системы функций Л8(р). Теорема V доказана полностью. В силу полноты системы функций /<8(р), утверждае- мой теоремой V, любая функция расстояния может быть представлена разложением в ряд т Мр)=2МСДр). (70) В частности, если L(p(x,у)) есть ядро функционала (39), то коэффициенты ps совпадают как раз с чис- лами оценивающими качество функций из слоя 2а (см. пункт 3)*). Поэтому формула т L (р (х, у)) = 2 7SKS (р (х, у)) 5=0 ♦) Это легко устанавливается прямой подстановкой разложе- ния ядра L(p(x, у)) в ряд по системе Кв(р(х,у)) в функционал (39), если учесть затем, что в силу определения (62) 2 y))f(y) = fs(x), ll Где, как и ранее, f8 — проекция функции [ на
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 115 может служить для определения ядра функционала (39) по заданным весам Xs- Отметим теперь некоторые полезные свойства и соот- ношения, связанные с функциями Лз(р). Первое свойство. При любых р |К,(р)1</С,(О). (72) причем КЛ0) = -^>0. (73) т Из формулы (73) с учетом того, что 2 Ns = N, еле- s=0 дует, в частности, что 2ЛД0)=1. (74) 5 = 0 Доказательство свойства 1. В связи с тем, что р(х, х) = 0, имеем 2(<P|(x))2 * = ^(p(x, X)) = KS (0). Просуммируем это выражение по х 2 Ks(o)=2 2 (яДО)2. Х(==х i = l х^Х 4 но S Ks (0) = NKs (0) И 2 (ф| (*))2 = 1 в силу ортонор- Х^Х 7 мированности систем <р|. Поэтому ЖДО) = Ns, что и доказывает формулу (73). Формула (72) сразу следует из неравенства Коши—Буняковского: I Ks (p (x. У)) I < у 2 (Ф? (%))2 • у 2 (<₽? «=ks (0). Второе свойство. Функции Ks(р) ортогональны с весом S(p) и 2 Ks (р) (Р) $ (Р) = bsqKs (0), (75) р 8*
116 гл. Ill ВЫБОР ФУНКЦИЙ ф; (х) Й ФУНКЦИИ К(х, у) где dsq — символ Кронекера, a S(p), как и ранее, число точек на сфере радиуса р. Используя это свойство, можно определить коэффи- циенты щ в разложении (70) заданной функции L(p) в ряд по системе К6(р). Именно, из (75) следует сразу, что (р). (76) 5 ’ р Доказательство свойства 2. Чтобы доказать формулу (75), подсчитаем сумму 2 tfs(p(x, y))Kq (р(х, у) ) = У^х Ns Nq = 2 2 2 <pqk(x)^k(y). (77) y^X Ы 1 k^l Обратимся сначала к правой части этого равенства. В силу ортогональности функций ф? (у) и ф? (у) из раз- ных слоев замечаем, что при s ¥= q правая часть этого равенства обращается в нуль. Если же s = q, то в силу ортонормированности функ- ций одного и того же слоя 2 = у^х и поэтому правая часть равенства обращается в Ns 2(<PfW)2 = /cs(0). Поэтому правые части равенств (77) и (75) совпадают. Покажем, что совпадают и их левые части. Для того, чтобы выполнить суммирование по у в левой части фор- мулы (77), разобьем все пространство X на сферы Сфх(0), Сфх(р1), ..., Сфх(рр), где 0, pi, ..., рр —все различные состояния в пространстве X, и будем произ- водить суммирование последовательно, сначала по точ- кам в пределах каждой сферы, а потом по сферам. Так
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 117 как на каждой сфере /Cs(p(x, у)) не зависит от у, а чис- ло точек на каждой сфере Сфх(р/) равно S(pz), получим 2 Ks(p(x, y))Kq(p(x, у)) = у*=Х = 2 2 Ks (р (%, у) ) Kq (р (х, у) ) = г“° »eC*x(Pz) = 2 KS (Р/) Kq (Pz) S (Pz)« S Ks (P) Kq (P) S(p). /-0 p Последнее выражение совпадает с левой частью равен- ства (75), что и завершает доказательство второго свой- ства функций К5(р)— установленной формулой (75) ортогональности с весом S(p) функций Ks(p). Третье свойство. Функции Ks(p) удовлетворяют «второму соотношению ортогональности»: Ё к*Уио;м °w6(p~x>’ <78> s«0 где*) б(р —х) = 0, 1, если р#=х, если р —х. Доказательство свойства 3. Для доказатель- ства этой формулы рассмотрим функцию 6(р — х) как функцию от р (х — параметр) и разложим ее в ряд по /Св(р) (что всегда возможно в силу установленной пол- ноты системы /<s(p)): т б (р - х) = 2 к W ks (р). s=0 (79) *) В случае, когда р и х принимают лигйь целые значения, д(р — х) есть просто символ Кронекера дрх.
118 ГЛ. ill. ВЫБОР ФУНКЦИЙ (х) И ФУНКЦИИ Я(х, у) Здесь коэффициенты Zs разложения зависят, разу- меется, от параметра х. Для вычисления Xs(x) умножим равенство (79) на /(g(p)S(p) и просуммируем по р. В результате, слева получим выражение 2 б (Р - х) Kq (р) S (р) = Kq (х) S (х), р а справа в силу формулы (75)—величину, равную а Отсюда имеем Мх)“ ^(0) • (80) Подставляя это выражение в (79), получаем фор- мулу (78). Из доказанной выше теоремы V и второго свойства функции As(p) вытекает следующее важное утверждение, касающееся свойств симметрических пространств: число слоев т+1 равно числу различных расстояний между точками пространства. В самом деле, перенумеруем все возможные расстоя- ния р в порядке возрастания: 0, 1, 2, р так, что число расстояний равно р + 1. Размерность простран- ства функций, заданных на р + 1 дискретных точках, равна р + 1. Но выше было показано, что система /<s(p) полная (в силу теоремы V) и линейно независимая (в силу второго свойства), т. е. что она составляет базис в пространстве функций, зависящих от р. Следователь- но, функций /<s(p) также р +1; но каждая функция /С(р) построена для s-ro слоя; отсюда вытекает спра- ведливость утверждения, что m + 1 = р + 1. Обратим теперь внимание на то, что «сложность» функций /<5(р) также может быть в некотором смысле оценена функционалами качества (39) или (40). С этой целью зафиксируем некоторую точку %* е X и рассмо- трим функцию gs(y) = Ks(p(x*, у)). Функционалы (39) и (40) принимают на функциях gs(y) значения Xs и Xs соответственно, независимо от выбора
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 119 х*. Действительно, из (62) следует, что gs(y)= 2 <Pj(x’) 4>sj(y), т. е. gs(y) принадлежит слою S?s и в силу теоремы III оценивается значениями Хз и Хз функционалов X и X соответственно. Таким образом, «сложность» функции Лз(р) соответствует в указанном смысле сложности функ- ций, принадлежащих слою S?s. Эти соображения позволяют оценить сложность про- извольной функции /<(р), если известно ее разложение (69) по системе ЛДр). Именно, используя формулу (57), легко получить ЛЯ(р(Л у))} = -^----------, 2рХ(°) з=0 и это выражение может быть принято за оценку слож ности функции /<(р). 5. Вид потенциальной функции в симметрическом пространстве. Для того, чтобы показать, каким образом приведенные выше факты используются при выборе по- тенциальной функции в методе потенциальных функций, нам понадобится конкретизировать ядро Л(р(%,у)) в функционалах (39) и (40). Зададим ядро формулой L (р (х, у)) = 4g jp<) 6 (р (х, у) - рО, (81) где pi — наименьшее из возможных расстояний между 1 двумя несовпадающими точками, а множитель —г (pi) введен в целях нормировки. При таком выборе ядра функционал (40) пропорционален сумме всевозможных квадратов разностей между значениями функций в со- седних точках, и поэтому величина функционала (40) с ядром (81) больше для тех функций, которые мы ин- туитивно считаем «худшими».
120 ГЛ. III. ВЫБОР ФУНКЦИЙ -фх. (х) И ФУНКЦИИ К(х, у, Легко установить' следующие свойства функционала (40) с ядром (81) *): 1) 0<Л/(х)}<1; 2) если f(x)>0, то 0(х)}<у, и, разумеется, как и для любого функционала вида (40), 3) /(const) =0. Для ядра (81) значения весов и /s, оценивающих качество слоев S?s, выражаются через значения функ- ции /<s(p) формулой _ 1 ^(Р.) 4 КДО) (82) (83) (Р.) ) КДО) ) /s — 2 (1 Эти формулы получаются из следующих соображе- ний. Веса /s, как показано в пункте 4, являются просто коэффициентами разложения функции L(p) в ряд по Ks (р). Но для функции L (р) = (р|у 6 (р — Pi) разложе- ние в ряд получается сразу из (78), если положить там х = рь Это приводит к формуле (82), а формула (83) по- *) Для доказательства свойства 1) надо использовать оче- видное неравенство [Hx)-H</)l2<2[f4x) + /2(Z/)]. Применяя это неравенство к формуле (40) с ядром (81), получаем 2 S 6(р(х, y)-Pl)[/4x) + t2(z/)] 2 m <;---!-----х, -- 4S(pi) f2M х&Х 2 2 »(p(m)-piW) 1 х ^Х X______________________ е= 5(Р1) 2 /2(Х) хеХ Но 2 6 (р (Х> #) “ Р1) = 5 (Р1)> и поэтому {f} < 1. у^х Для доказательства свойства 2) надо учесть лишь, что в этом случае [/ (х) — f (у)]2 f2(x) + Щу)- В остальном доказательство двойства 2) ведется так же, как и свойства 1).
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 121 лучается затем из формулы (41), если учесть, что в данном случае в соответствии с (42) c=S«k)-s<p-p-)s(p)=T- р Условимся в дальнейшем нумеровать слои S?s в со- ответствии со значениями s функционала (40) с ядром (81) так, что*) <W0<fi< ... <Х- (84) Обратимся теперь к вопросу о выборе потенциальной функции /<(%,#) в методе потенциальных функций. На практике при использовании этого метода функцию /((%,#) выбирают как функцию расстояния: /<(х, у) = = Л(р(*,//)). Такой выбор функции /((%,#) оправды- вается следующими соображениями. В пункте 4 была введена система функции 7<s(p) и доказана ее полнота. Поэтому, как бы ни выбиралась функция /С(х,#) = 7<(р(х,у)), она может быть представ- лена в виде суммы т К (р (х, У)) = X l^sKs (Р (х, у)), (85) S=0 где pis — коэффициенты. В силу того, что в соответствии с методом потен- циальных функций имеет место разложение (20) с не- отрицательными коэффициентами коэффициенты также должны быть неотрицательны. Действительно, представляя 7<s(p(x,у)) в виде (62) и подставляя это выражение в (85), получаем для Л(р(х,у)) разложение т Ns К (р (х, у)) = 2 2 <Р/ (х) Ф! (у)- (86) s=0 /=1 1 1 Если совокупность функций фу(х) (/=1, . AQ пере- обозначить и представить в виде совокупности функций / т \ Фг(х) г = 1, .N = 2 ATS / > то ряд (86) примет вид ) Предполагается, что среди величин нет равных*
122 ГЛ. III. ВЫБОР ФУНКЦИЙ (х) И ФУНКЦИИ К(х, у) (20), причем коэффициенты X/ для всех функций фДх) из одного слоя 2? s одинаковы и равны ps. В силу этого коэффициенты ps неотрицательны: > 0, s = 0, ..., т. (87) Тот факт, что при выборе потенциальной функции как функции расстояния коэффициенты Л? в формуле (20) (см. § 2) оказались одинаковыми для всех функций фДх), принадлежащих одному и тому же слою, интуи- тивно оправдывает такой выбор функций /С(х, #). Дей- ствительно, выше было показано, что все функции од- ного и того же слоя эквивалентны с точки зрения их i качества, и поэтому нет априорных оснований при ис- пользовании этих функций в разложениях /С(х, у) в ряды приписывать этим функциям разный вес. Из неотрицательности коэффициентов ps следует, что потенциальная функция Л(р) должна удовлетворять условию /С(0)>0, (88) ’ и что при всех значениях р |Я(р)|</<(0). (89) Действительно, т I К(р) К 21 II /Up) I. s=0 а в силу первого свойства функций Ks(p) (см. стр. 115) и неотрицательности ps отсюда следует, что т |/<(p)I<2mU0) = 7<(0). 5 = 0 Для того чтобы установить дальнейшие ограничения, которые разумно учитывать при выборе потенциальной функции /С(р(х,у)), т. е. при задании неотрицательных чисел ps в разложении (86), рассмотрим машинную реа- лизацию метода потенциальных функций (см. § 3 гл. II).
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 123 На каждом n-м шаге машинная реализация сводится к подсчету суммы п-1 Г(х)=^г1к(х, xi+i). (90) Z==0 Если ввести функцию п—1 Лп (х) = 2 (х — Xz+I), 1=0 (91) где 1, если x = xz, О, если х=/=х1, то формулу (90) можно переписать следующим образом: Г(х)= 2 К(р(х, у))лп(у). (92) У^Х Функция лп(х) равна нулю везде, кроме точек х\ по- казанных в процессе обучения. Задача обучения имеет смысл только тогда, когда число точек, показанных в процессе обучения, намного меньше общего числа точек пространства X. Поэтому функция лп(х) отлична от нуля лишь в отдельных удаленных друг от друга точках и интуитивно ясно, что она весьма «рваная», «вычурная». Это видно и по значению функционала Дей- ствительно, легко вычислить значение этого функцио- нала в предположении, что среди показанных точек х1 нет соседних (т. е. р(х\ xi) > pi при i =£ /). Это значение равно *) = у и не зависит ни от числа п показанных точек (лишь бы среди них не было соседних), ни от значений г* (т. е. от *) В самом деле, сумма 2 б (р (X, у) - Pl) [f (x)-f(y)]2, содер- у жащаяся в функционале качества с ядром (81), при f(x) = лп(х) отлична от нуля лишь для точек х = х< и для точек, лежащих на сферах минимального радиуса pi с центрами в хг. При х — хг эта сумма равна (Н) 2S (pj; для точки х, лежащей на сфере с центром
124 гл. III. ВЫБОР ФУНКЦИЙ ^(х) И ФУНКЦИИ К(х, у) конкретного алгоритма обучения). Значение функцио- нала, равное 1/2, соответствует весьма «вычурной» функ- ции (о чем свидетельствует, например, свойство 2) функ- ционала X; см. стр. 120). Что касается функции fn(x), то она должна быть достаточно гладкой, так как при достаточно больших (но еще намного меньших общего числа точек пространства X) значениях п она должна аппроксимировать восстанавливаемую функцию f* (х), которая предполагается «гладкой», не «вычурной», т. е. обладающей высоким качеством (см. пункт 1 § 1 этой главы). Таким функциям fn(x) должно соответствовать малое значение функционала /{fn(x)}. В формуле (92) функцию /С(р(х,у)) можно рассма- тривать как ядро линейного «интегрального» оператора К, преобразующего функцию лп(х) в функцию fn(x). В силу сказанного выше оператор К должен переводить функцию плохого качества (с большим значением /) в функции хорошего качества (с малым X). В связи с этим имеет смысл ввести следующее определение: опера- тор К с ядром Л(р(х,у)) называется улучшающим (ухудшающим), если (соответственно f {Kf}> f {f}) Для любой функции f(x). Пусть слои а значит, и коэффициенты ps, пере- нумерованы в соответствии с (84). Тогда имеет место следующая теорема. в эта сумма равна просто (н)2- Число же таких точек равно S(pi). Поэтому п У 2 б (р (X, у) - Р1) [л" (х) - л" (г,)]2 = 2 2S (Р1) (И)2- X у Норма же функции лп (х) равна Поэтому 5 2S (Р1) (г1)* £1 1 ----—------------------ SSS -
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 125 Теорема VI. Пусть функция К(р), соответствую- щая оператору К, представима разложением К (р) = m = 5 HsAs (р). Тогда оператор R является улучшающим s=0 {ухудшающим) тогда и только тогда, когда последова- тельность |ps|, s = 0, 1, пг— невозрастающая {не- убывающая) . Доказательство теоремы VI. Для определен- ности рассмотрим утверждение теоремы VI для улуч- шающих операторов (доказательство для ухудшающих операторов аналогично). а) Доказательство необходимости. Пусть условие теоремы не выполнено, т. е. |р*|>||л;| при k>j. Рассмотрим функцию f {х) = <ру (х) + ф^ (%), где q)j и фй — какие-либо функции из слоев £>. и 2?ъ соот- ветственно. В силу формулы (58) О) = у(7/ + Л). Вместе с тем, поскольку ^=7=Ф/ + Фь из формулы (58) также следует /Kf} = " //)• Но, по предположению, в силу чего + >1/2. Кроме того, поскольку слои упорядочены в соот- ветствии со значениями функционала, то Л - /у > О- Поэтому /Kf}>/y+j(/fc-/y) = |(^ + /y)=/{f}.
126 ГЛ. III. ВЫБОР ФУНКЦИИ (х) И ФУНКЦИИ K{xt у) Тем самым доказано, что если условие теоремы не вы- полнено, то оператор Л не является улучшающим. б) Доказательство достаточности. Пусть условия теоремы выполнены. Рассмотрим произвольную т функцию f (х) = 2 cs<Ps (•*) и величину з=0 Для доказательства достаточности теоремы надо по- казать, что если условие теоремы выполнено, то Д^>0. В самом деле, используя формулу (58), имеем (93) Поскольку ^ — возрастающая последовательность и 0 = /0 < Z Я) < то найдется такое k, что Тогда можно записать: ~k-l т > (94> 2^ Ls=0 s=ft J s-0 причем члены каждой из сумм неотрицательны. Но по условию теоремы ц? для s k — 1 и для s>k. Поэтому k-i k-i 2 нУ, (/ Ш - ?,) > й 2 (Z If) - ?,). 3=0 з=0 m т 2 ей (Л - j Ш) < й 2 с} (Z, - / (0). k« 3=^ 3=«
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 127 Подставляя эти неравенства в формулу (94), получим А-1 т .5=0 S = k В силу формулы (58) последняя скобка равна нулю, и поэтому Д^>0. Это и доказывает достаточность теоремы. Теорема VI доказана полностью. Замечание. Небольшое видоизменение в доказа- тельстве теоремы VI позволяет установить, что если последовательность |ps| является не только невозра- стающей (неубывающей), но и монотонно убывающей (монотонно возрастающей), то имеет место строгое не- равенство / Ш (Z {Kf} >/{/}) для каждой функ- ции f, не принадлежащей «целиком» ни одному из слоев 2*. f ф 2S, s = 0, ..., т. Теорема VI устанавливает как раз те дополнитель- ные ограничения на выбор потенциальной функции, о ко- торых речь шла выше. Именно, в связи с тем, что опера- тор К должен быть улучшающим, коэффициенты ps в разложении (86) должны быть не только неотрицатель- ными, но и невозрастающими при указанном выше упо- рядочивании слоев: Но Н1 Нт* Более того, если потребовать, чтобы оператор К был строго улучшающим для любых функций, не принадле- жащих «целиком» ни одному из слоев 2S, необходимо,
128 ГЛ. Ш. ВЫБОР ФУНКЦИЙ -ty (X) И ФУНКЦИИ К(х, у) чтобы последовательность ps была монотонно убываю- щей: Ио > И1 >•.. > Цт. (95) В заключение этого пункта подытожим те соображе- ния, с которыми приходится считаться при выборе потен- циальной функции К(х, у) в симметрических простран- ствах: 1. Потенциальную функцию /С (х, у) целесообразно выбирать в виде функции К (р (*,*/)), зависящей только от расстояния р(х,у). 2. Эта функция может быть задана разложением (85) в ряд по системе функций /Q(p). Система функций /Q(p) однозначно определяется для данного пространства X. 3. Коэффициенты ц5 в разложении (85) должны быть положительны. 4. При нумерации коэффициентов ц5 в соответствии с (84) последовательность цо, ць ...» цт должна быть монотонно убывающей. • В тех случаях, когда потенциальная функция К(р) задается первоначально в замкнутой форме (например, выражениями К (р) = е~ар2, К(р)= 1/(1 + ар2) и т. п.), для проверки условий 3 и 4 можно вычислить коэффициенты ц8, воспользовавшись формулой (76). Функции /С(р), для которых не выполнены условия (88) и (89), заве- домо не пригодны в качестве потенциальных. Практика применения метода потенциальных функ- ций показывает, что результаты использования метода мало зависят от того, как выбраны коэффициенты ps в пределах указанных ограничений. 6. О выборе потенциальной функции в пространстве вершин m-мерного куба. Из различных симметрических пространств, с которыми приходится встречаться на прак- тике, наибольшее значение имеет пространство вершин m-мерного куба. С таким пространством приходится сталкиваться, например, при распознавании черно-белых изображений. В настоящем параграфе будет показано, как применяется изложенная выше теория в этом кон- кретном пространстве. Нам будет удобно считать, что координаты ... ..., хт вершин куба принимают значение ±1, т. е. что центр куба расположен в начале координат, а ребро
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 129 имеет евклидову длину 2. В качестве расстояния между двумя вершинами х = (хь хт) и у = (r/i, ут) куба примем обычное расстояние по Хэммингу т 7 т \ р(*> 1/п-2х^1’ (96> Z=1 V / равное числу несовпадающих разрядов в кодах рассма- триваемых вершин. Пространство вершин т-мерного куба с метрикой (96) далее называется пространством Хэмминга. Это пространство содержит N — 2т точек. Пространство Хэмминга есть симметрическое простран- ство. Чтобы показать это, рассмотрим два вида «эле- ментарных» точечных преобразований этого простран- ства в себя — отражение (замена Xi на —х^ и перену- мерация координат. Эти элементарные преобразования являются изометрическими, что сразу следует из опре- деления расстояния по формуле (96), так как при замене Xi на —х^ yi на —Уг и при перемене мест Xi^-^Xj, Уг^-^Уз расстояние р(х, у) не изменяется. Требуемое определе- нием симметрического пространства изометрическое пре- образование А, совмещающее две пары вершин х', у' и х", у", находящихся на одинаковом расстоянии, в случае пространства Хэмминга может быть получено последо- вательным применением конечного числа элементарных преобразований указанных двух типов*). Вместе с тем *) Идея доказательства этого последнего утверждения такова. Преобразованием Ai (применяемым к точкам х' и у'), заключаю- щимся в отражениях несовпадающих координат точек х' и х", точка х' переводится в х". При этом у' переходит в некоторую точку А\у'. Преобразованием Л2 (применяемым к х", у", А\у'), так- же состоящим лишь из отражений, точка х" может быть переведена в точку Л4, все координаты которой равны 4-1. При этом точка у" переходит в А2у", а А\уг в А2А\у'. В силу изометричности преобра- зований А2 и Д1 p(W') =р(М,А2А1у'), откуда легко следует существование преобразования применяе- мого к точкам М и Д2/11Г/' (состоящего лишь из перенумераций координат, а следовательно, переводящего точку М в себя), такого, что Л2Д1^' переводится в А2у". Вводя преобразование А^1, обрат- ное А2, получаем искомое преобразование А в виде А в А<^ А^А2А^» 9 М. А. Айзерман и др.
130 ГЛ. III. ВЫБОР ФУНКЦИЙ (х) И ФУНКЦИИ К(Х, у) можно показать, что и любое изометрическое преобра- зование может быть получено таким же образом. Выясним теперь, каким образом линейное простран- ство функций, заданных на пространстве Хэмминга, рас- слаивается на подпространства 2?s. Рассмотрим норми- рованную систему функций (14) (см. § 1), состоящую из функции-константы qp0= l/2m/2 и функций: 2^/2 2"1/2 * * *’ 2m/2 Xh * * *’ 2m/2 Хпг' ~^2х1хъ х1хз, -^2xixi • • •••’ 2т>12 Xm~iXtni (97) 2^/2 xlx2 • • • хт> так что функции, выписанные в s-й строке, имеют вид (см. § 1) ls = -^2 XiXi2 ••• причем индексы i\, , is принимают все возможные значения от 1 до т, удовлетворяющие условию 6<42<..« . Поэтому в s-й строке содержится ровно С« функций, а общее их число (включая функцию-кон- т станту) равно 1 4- 2 С^ = 2"1, т. е. равно числу N точек s=l пространства Хэмминга. Принимая во внимание, что рас- смотренная система функций ортонормирована, заклю- чаем, что она составляет ортонормированный базис в линейном пространстве 2? функций, заданных на про- странстве Хэмминга. Покажем, что функции, выписанные в s-й строке (97), принадлежат одному слою Zs и составляют в нем базис. Действительно, функции из любой строки в (97) перехо- дят друг в друга с точностью до знака при элементарных изометрических преобразованиях (перенумерациях и от- ражениях), а выше указывалось, что любое изометри-
§ 3. СИММЕТРИЧЕСКОЕ .ПРОСТРАНСТВО 131 ческое преобразование может быть получено последова- тельным применением элементарных. Поэтому линейная оболочка, натянутая на эти функции, является инва- риантным подпространством, на котором задано пред- ставление группы изометрических преобразований. Кро- ме того, в любом из этих инвариантных подпространств нельзя выбрать инвариантного подпространства меньшей размерности, поскольку для любой пары функций s-й строки можно указать изометрическое преобразование (состоящее лишь из перенумераций), переводящее одну функцию в другую. Поэтому указанные выше представ- ления группы изометрических преобразований неприво- димы, а это означает как раз то, что функции s-й строки в (97) образуют базис слоя S?s. Из сказанного выше следует, что общее количество слоев с учетом нулевого слоя равно т + 1, т. е., в соот- ветствии с общей теорией, — числу различных расстоя- ний в рассматриваемом симметрическом пространстве, а размерность s-го слоя равна = Cm- Подсчитаем значения Ks(p) для пространства Хэм- минга. Для слоя 2?Q Мр) = 1_______i_ = 1 2^/2 * 2W/2 2т Для слоя 2?s имеем KS(P(X, = ••• V'. Ч’ ....lS *1<- <4 где суммирование проводится по всем наборам индексов И, - is, упорядоченным в соответствии с неравенствами ii<...<is, причем каждый из индексов пробегает зна- чения от 1 до т. Обозначим Xitji = Zi (i = 1, ..., m); тогда (p) = zix • • • zia* h..h Г
132 ГЛ. HI. ВЫБОР ФУНКЦИЙ (X) И ФУНКЦИИ К(х, у} Рассмотрим совокупность всех z*. Если расстояние ме- жду точками х и у равно р, то в соответствии с (96) среди Zi будет р отрицательных (—1) и т — р положи- тельных (+1) значений. Все слагаемые можно разбить на группы, содержащие по / отрицательных сомножите- лей Если р < s, то 0^/^р; если же р то т. е. всегда 0 min{s, р}. Каждое такое слагаемое равно (—1)Л Их число равно CpC^Lp. Те- перь, суммируя по /, получим min {s, р} *Up)=~ S CfcU-l)7- (98) /=о По этой формуле можно подсчитать, в частности, Д) (Р) = ("г - 2Р)> и т. д. Подсчитаем значения Л«(1) и /Q(0): (о=4- S (- о'=- с--') 4; 2 /-о 2 С® Поэтому C-'i , S- Ks(0) Csm Csm тг и, следовательно, в соответствии с формулой (83) значе- ние функционала качества (40) с ядром (81) на функ- циях из слоя 2?s равно Л = ^-- (99) Формула (99) показывает, что значения функционала увеличиваются с ростом номера слоя 2?s. Это находится в полном соответствии с интуитивными представлениями
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 133 об усложнении функций (97) при переходе в (97) от верхних строчек к нижним. Действительно, можно пока- зать, что каждая из функций, записанная в s-й строке, обладает следующим свойством: среди т вершин куба, находящихся на минимальном расстоянии р = 1 от лю- бой заданной вершины х*, имеется в точности <$ вершин, в которых значения функции отличаются знаком от ее значения в х*; в остальных т — s соседних вершинах значения функции совпадают со значением в х*. Модули же значений всех функций (97) одинаковы во всех вер- шинах и равны 1/2™/2. На рис. 10 показаны примеры s=Z Рис. 10. функций из 1, 2 и 3-го слоев трехмерного куба (т = 3). На рисунке « + » и «—» означают знаки функций в со- ответствующих вершинах. В соответствии с замечанием в конце пункта 4, зна- чения (99) функционала характеризуют сложность функ- ций Л5(р). С ростом номера s функция /Cs(p) услож- няется. В данном случае функция Лз(р) является поли- номом s-ro порядка по р и, соответственно, с ростом s
134 ГЛ. III. ВЫБОР ФУНКЦИЙ (X) И ФУНКЦИИ К(Х, у) растет число ее перемен знака, экстремумов и других интуитивных показателей сложности. Перейдем теперь к вопросу о разложении в ряд функ- ции расстояния (в частности, потенциальной функции), заданной в пространстве Хэмминга, по системе (98) функций /(s(p). При этом, разумеется, можно восполь- зоваться формулой (76), где функция S(p) (число точек на сфере радиуса р) в данном случае, как легко пока- зать, имеет вид s(p) = cL Однако практическое использование формулы (76) при- водит к сложным вычислениям, связанным с суммиро- ванием рядов. В ряде случаев оказывается возможным вычислять (точно или приближенно) коэффициенты раз- ложения p,s, не прибегая к прямому вычислению по фор- муле (76), а используя следующее тождество: т <1W» s—0 Для доказательства формулы (100) рассмотрим сле- дующее выражение: m П1 4- их .у. (101) х=»1 Раскрывая в этом выражении скобки и располагая чле- ны по степеням и, убеждаемся, что множители при и8 совпадают с Xs(p(*, */)), т. е. т F(u-, х, y)=^Ks(p(x, y))us. (102) С другой стороны, замечаем, что число пар xit (i = = 1, ..., m), при которых произведения Xitji==—1, в точности равно р (*,£/); соответственно, число пар xit yit для которых Xi-yi = + 1, равно т — р(х,у). Поэтому F (и; х, у) = (-2-) 2~) • (ЮЗ) Из сравнения (102) и (103) следует формула (100). В качестве примера точного вычисления коэффи- циентов используем это тождество для разложенца
§ 3. СИММЕТРИЧЕСКОЕ ПРОСТРАНСТВО 135 в ряд функции А^(р) = е~ар (где а — некоторая констан- та). С этой целью положим в формуле (100) величину параметра и такой, что При этом из (100) следует тождество: т s=0 или (после замены параметра и его значением, выра- женным через а) тождество т е-ар =2(1- e-“)s (1 + e-a)m~s Ks (р). s=0 Таким образом, для функции /С(р) = е~ар коэффи- циенты разложения равны p5 = (l-e-a)s(l+e-a)m’s. (104) Из (104) видно, что при положительных а (т. е. при убывающей с возрастанием р функции /<(р)) коэффи- циенты |ьц положительны и убывают с ростом номера s 1 ~е”а по геометрической прогрессии со знаменателем + _а * Это, в частности, показывает, что (в пространстве Хэм- минга) функция е“ар может быть использована в ка- честве потенциальной функции. Покажем теперь, как может быть использована фор- мула (100) для асимптотической (при т->оо) оценки коэффициентов разложения одного достаточно широкого класса функций от расстояния. Именно, рассматри- ваются функции вида Я(р) = где f (z) — произвольная достаточно гладкая функция, заданная на отрезке 0 4^2<^1. Функция f(z) от т не за- висит, а функция /<(р), разумеется, явно зависит от т. Для вычисления коэффициентов разложения ps функ- ции Л(р) умножим обе части формулы (100) на К (р) S (р) = f (p//n) Ст.
136 ГЛ. III. ВЫБОР ФУНКЦИЙ (х) И ФУНКЦИИ К(х, у) Суммируя затем по р в пределах от 0 до т, вспоминая (76) и полагая (1—iz)/2 = z, получим: т т 1 5 pS Sc₽mzp(l-2r-pf(^) = ^(-2)s(z-у) (105) р=-0 s=0 Левая часть этого выражения представляет собой поли- ном С. Н. Бернштейна*) функции f(z). Известно, что этот полином аппроксимирует функцию f(z) при т->оо равномерно на отрезке и поэтому (106). s=0 причем погрешность убывает с ростом т равномерно по z, например, как 1/]/т, если потребовать лишь непре- рывность f(z), и как 1/т, если f(z) дважды дифферен- цируема. Допустим теперь, что f(z) разлагается в ряд Тэй- лора в окрестности точки z = 1/2. Тогда, приравнивая коэффициенты р) (1/2)/si этого ряда соответствующим коэффициентам ряда в правой части (106), получим вы- ражение для подсчета коэффициентов pis: У»" Hs ~ s!(_2)s f ' (у) ’ ОО?) являющееся асимптотически точным при т —>оо. Однако при конечном т формулой (107) имеет смысл пользо- ваться лишь для относительно небольших значений s, так как при возрастании s правая часть (107) оказы- вается сравнимой с ошибкой этой формулы. Оценки погрешности при использовании формулы (107) легко могут быть проведены, если использовать известные ре- зультаты об оценке точности аппроксимации полино- .мами С. Н. Бернштейна. Формула (107) позволяет проверить, может ли слу- жить функция /С(р)=/(р/т) потенциальной функцией в пространстве Хэмминга. *) См., например, Серия «Справочная математическая библио- тека», «Элементы теории функций», Физматгиз, 1963.
Глава IV СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ § 1. Понятия о сходимости случайных процессов Выше уже отмечалось, что функции fn(x), выстраи- ваемые основной процедурой на каждом n-м шаге, — случайные функции. Это связано с тем, что при построе- нии n-го приближения из (и—1)-го используется век- тор хп, показанный в п-й момент, а он появляется слу- чайно. Таким образом, последовательность функций Р(х), f2(x)> •••» fn(x)» выстраиваемая в силу основной процедуры, — последовательность случайных функций. Соответственно, случайной является и последователь- ность векторов сп — коэффициентов в разложении функ- ции fn(x) по системе фг(х). Задача аппроксимации состоит в том, чтобы с ростом и функция fn(x) в некото- ром смысле сходилась к f*(x). В связи со случайным характером последовательно- сти функций fn(x) использованный выше термин «сходи- мость» может быть понят лишь как сходимость в неко- тором вероятностном смысле. Сходимость последова- тельности случайных функций (или случайных величин) к некоторой определенной функции (или величине) мо- жет быть определена различными способами. При этом последовательность, сходящаяся в силу какого-либо од- ного определения сходимости, может оказаться не схо- дящейся в смысле иного определения сходимости. В этой книге будут использоваться обычные в тео- рии случайных процессов определения сходимости по вероятности, почти наверное и в среднем. Далее дело всегда будет сводиться к рассмотрению последовательности не функций, а случайных величин (чисел или векторов). Будем говорить, что последовательность случайных величин (дискретный случайный процесс) ап сходится
138 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА по вероятности к некоторой величине а и будем писать ап—+а, если для любой пары величин 8 > 0 и 6 > 0 можно ука- зать такое число /V, зависящее от 8 и б, что для всех п > N вероятность неравенства |ап— а| <е больше, чем 1 — б, т. е. что для любого 8 > О lim Вер {| ап — а | < е} = 1. П->оо (1) Здесь и далее символ {А} обозначает событие А, а Вер {4}— вероятность этого события. Понятия события и его вероятности являются центральными в этой главе. Остановимся поэтому подробнее на содержательном смысле этих понятий применительно к случайным после- довательностям *). Будем называть каждую конкретную последовательность величин аЛ, п = 1, 2, реализа- цией. Любое множество реализаций, удовлетворяющих некоторому заранее оговоренному условию, и является в рассматриваемом случае событием. Например, множе- ство реализаций, удовлетворяющих для некоторого фик- сированного п условию |ап — а| <8, образует событие {| ап — а| < е}. Говоря о вероятности Вер {4} некоторого события {4}, можно представить себе, что на множестве всех реализаций задано «распределение вероятностей», а «случайно выбираемые» в соответствии с этим «распре- делением» реализации принадлежат множеству {4} с ве- роятностью Вер {4}. Вернемся теперь к определению сходимости по веро- ятности. Событие {| ап — а| < 8}, фигурирующее в опре- делении сходимости по вероятности, выделяет множество последовательностей, для которых условие | ап — а | < 8 выполняется при заданном фиксированном п. Поэтому при каждом п выделяется свое множество реализаций, и каждая конкретная последовательность с ростом п мо- *) Приводимые ниже разъяснения апеллируют к интуиции чи- тателя. Строгое определение понятия события и его вероятности на языке теории меры см., например, в [6].
§ 1. ПОНЯТИЯ о СХОДИМОСТИ СЛУЧАЙНЫХ ПРОЦЕССОВ 139 жет то удовлетворять этому условию, то не удовлетво- рять ему. Поэтому сходимость по вероятности есть в не- котором смысле «слабая» сходимость — она не дает ни- каких гарантий того, что каждая конкретная реализация ап, и = 1, 2, ..., сходится в обычном понимании этого термина. Более того, может оказаться, что сходимость в обычном смысле не имеет места для большинства (или даже для всех) реализаций, а сходимость по вероятности тем не менее имеет место. Естественно, что обеспечить более сильную сходи- мость, гарантирующую сходимость в обычном смысле от- дельных реализаций, можно, лишь введя и более жесткие требования в само определение сходимости. Будем говорить, что случайная величина ап сходится с вероятностью единица (сходится почти наверное) к а и будем писать „ п. н. а„-----> а, если для любой пары величин 8 > 0 и б > 0 можно ука- зать такое N, что вероятность множества реализаций, удовлетворяющих условию |ап — а|<8 для всех n>N, больше, чем 1 — б, т. е. что для любого 8 > О lim Вер Р) {|as — a|<s}= 1. (2) n-»°° оо Так как знак Q означает пересечения всех множеств п оо {|as — а| < е} при$>-п, то событие {|as — а| < е} s^n включает лишь те реализации, для которых условие |as — a|<8 выполнено для всех Поэтому при- введенное выше определение сходимости почти навер- ное означает, по существу, что почти все*) реализации сходятся в обычном смысле. Действительно, можно *) Говоря о том, что почти все реализации обладают некоторым свойством, имеют при этом в виду, что вероятность «встретить» реа- лизацию, обладающую этим свойством, равна единице.
140 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА доказать (см., например, [6]), что сходимость почти на- верное может быть определена следующим эквивалент- ным образом: последовательность случайных величин ап сходится почти наверное к а, если вероятность множе- ства реализаций, для которых предел lim ап существует П->оо и равен ос, равна 1, т. е. Вер { lim ап = а}=1. (3) Из сказанного выше следует, что сходимость почти наверное является существенно более сильной, чем схо- димость по вероятности. Это обстоятельство подчерки- вается тем фактом, что из сходимости почти наверное следует сходимость по вероятности. Действительно, для любой (конечной или бесконечной) совокупности собы- тий вероятность совместного осуществления (т. е. пере- сечения) этих событий заведомо не больше, чем вероят- ность каждого события. Поэтому оо Вер {|а„ - а |<е}> Вер Q {|as — а|<е}, $> п и в силу определения (2) lim Вер{|а„ —а | <е} = 1. П->оо Следовательно, если выполнено (2), то выполнено и (1). Обратное же утверждение неверно, т. е. из сходимости по вероятности сходимость почти наверное не следует. Вместе с тем можно показать [6] (и этот факт нам понадобится впоследствии), что если an—->а, то суще- ствует подпоследовательность Hi, п2, •••» П1г, ••• такая, что anAj ——> а при k —► оо. Наряду с понятием сходимости по вероятности и поч- ти наверное вводят также понятие сходимости в среднем. Говорят, что случайная последовательность ап схо- дится к а в среднем, и пишут an— ->a, если математи-
§ 1. ПОНЯТИЯ о СХОДИМОСТИ СЛУЧАЙНЫХ ПРОЦЕССОВ 141 ческое ожидание *) величины |ап — а [стремится к нулю при п -> оо: Известно, что из сходимости в среднем не следует сходи- мость почти наверное и, наоборот, из сходимости почти наверное не вытекает сходимость в среднем. Вместе е тем сходимость в среднем гарантирует сходимость по ве- роятности. Действительно, если lim М {| ап — а |} = 0, то П->оо в силу известного неравенства Чебышева lim М {| ап — а |} lim Вер {| а„ — а | е} --------------------------= О, П->оо 6 и это условие эквивалентно определению (1). Таким образом, сходимость в среднем также является более сильной, чем сходимость по вероятности. Подытожим теперь то, что говорилось выше о срав- нении различных определений сходимости. Определения сходимости почти наверное и сходимости в среднем неза- висимы в том смысле, что при выполнении одного из определений другое может не выполняться. Если выпол- нено условие какого-либо одного из этих определений сходимости, то имеет место сходимость по вероятности. Из сходимости же по вероятности не следует, вообще го- воря, ни сходимость почти наверное, ни сходимость в среднем. Далее в этой главе приводятся примеры, кото- рые, в частности, иллюстрируют эти утверждения (см. стр. 178 и 179). В различных определениях сходимости фигурирует величина а, к которой в том или ином смысле сходится *) Здесь и далее M{z | А} означает условное математическое ожидание величины z при условии выполнения события А. В част- ности, М {z | си = xlf ..., ап — хп} означает математическое ожидание величины z при условии, что случайные величины ссг- принимают заданные значения Х{. Для со- кращения обозначений это же условное математическое ожидание будем записывать в виде M{z | ..., хп}- Разумеется, Af{z|xi, ..., хп} — детерминированная функция переменных X], ... ...» хп (функция регрессии).
142 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА случайная последовательность ап- Эта величина а может пониматься как величина детерминированная (одна и та же для всех реализаций процесса ап) или как величина случайная. Понимая а как случайную величину, можно представить себе, что с каждой конкретной реализацией связано свое значение а, так что «распределение вероят- ностей» величины а определяется «распределением веро- ятностей» на множестве всех реализаций. В этом случае событие {|ап — а| < е} включает все те реализации, ко- торые на п-м шаге отличаются от «своего» значения а менее, чем на 8. Отметим следующее свойство случайных последова- тельностей, сходящихся почти наверное к некоторой слу- чайной величине. Именно, почти все реализации таких случайных последовательностей ограничены, так как каждая конкретная реализация, имеющая конечный пре- дел, ограничена. Как указывалось выше, из сходимости по вероятности и даже сходимости почти наверное не следует, вообще говоря, сходимость в среднем. Однако можно указать до- полнительные достаточно широкие условия, при которых сходимость в среднем следует из сходимости по вероят- ности и тем более из сходимости почти наверное. Эти условия связаны с понятием равномерной интегрируе- мости. Обозначим через рп(ап) плотность вероятности слу- чайной величины ап. Последовательность случайных ве- личин ап назовем равномерно интегрируемой, если для любого 8 > 0 найдется такое число А (е) > 0, что для всех п выполнено неравенство J |a„|p„(a„)dan<e. |а„|>Л(е) Известно*), что сходимость в среднем последователь- ности ап к некоторой случайной величине а имеет место тогда и только тогда, когда последовательность ап рав- номерно интегрируема и, кроме того, ап сходится по ве- роятности к а. *) См., например, Серия «Справочная математическая библио- тека», «Теория вероятностей», «Наука», 1967.
§ 1. ПОНЯТИЯ о СХОДИМОСТИ СЛУЧАЙНЫХ ПРОЦЕССОВ 143 Отметим два достаточных условия равномерной ин- тегрируемости, которые понадобятся нам в дальнейшем. Именно, последовательность ап равномерно интегрируе- ма: 1) если существует такое число а > 1, что величины 7И{| ап |а} ограничены константой, не зависящей от п, или 2) если на каждой реализации |an+i| |ап| и, кроме того, величины А4{|ап|} ограничены константой, не зави- сящей от п. Из того факта, что последовательность случайных ве- личин сходится в среднем к случайной величине а, ра- зумеется, следует, что lim M{an} = M {<*}» так как П-> ОО | Д4{а„} — М {а} К М{| ап-а |}. Однако если известно лишь, что ап-^-->а (или, тем более, если ап—->а), то еще нельзя утверждать, что lim 7И {ап} = 7И {а}. Если же, кроме факта сходимости ап П->оо к а по вероятности (или почти наверное) известно, что последовательность ап равномерно интегрируема, то по- следнее утверждение верно, так как в этих условиях имеет место и сходимость в среднем. Далее в этой главе нам иногда требуется иметь дело с бесконечными суммами случайных величин вида оо а = 2 Ь- 1 Такая сумма может пониматься лишь как случайная ве- личина, являющаяся пределом (в смысле почти навер- ное, по вероятности или в среднем) случайной последо- вательности частичных сумм п 1 Разумеется, возможны случаи, когда последовательность ап не сходится (в том или ином смысле), и о предель- ной случайной величине вообще бессмысленно говорить. Поэтому нужны условия, при которых случайная вели- чина а существует. Одно из таких условий, которое понадобится нам в дальнейшем, заключается в следую- щем.
144 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ процедуры метода Принцип монотонной сходимости. Если gfe — неотрицательные случайные величины, такие, что оо 2Af(gft}<oo, то: 1 п 1) последовательность случайных величин 1 сходится почти наверное при п-+ оо к некоторой случай- оо ной величине а последовательность схо- дится почти наверное при k-+oo к нулю’, 2) последовательность ап сходится к а также и в среднем’. lim Л4 {| аЛ — а 1} = О П->оо и, следовательно, М {а} = lim М {а„} = 2 М {£*}• П->оо 1 Доказательство. Докажем сначала утвержде- ние 1). В силу неотрицательности величин каждая реа- лизация случайной последовательности ап монотонно не убывает. Поскольку же, как известно, монотонно неубы- вающая ограниченная последовательность имеет конеч- ный предел, для доказательства сходимости почти на- верное случайной последовательности ап к некоторой случайной величине достаточно показать, что почти все реализации последовательности ап ограничены. Зафиксируем некоторое число а и рассмотрим множе- ство {Лп} = {ап > а} тех реализаций, которые при дан- ном п превосходят а. Так как в силу монотонности каж- дая реализация, принадлежащая {Лп}, принадлежит так- же и множеству {Дп+1}, то множества {Л^, {Л2}, ..., {Лп} «вложены друг в друга», т. е. {AJсз {Л2} <= ... <= (А„) cz ..., а предельное множество {Асе} есть множество тех и только тех реализаций, которые хоть при каком-нибудь п превзойдут и останутся больше а. Поэтому вероятность
§ 1. ПОНЯТИЯ О СХОДИМОСТИ СЛУЧАЙНЫХ ПРОЦЕССОВ 145 множества {Ах} равна пределу Вер {Л^} = lim Вер {Д„} = Игл Вер {d„ > а}. П->оо П->оо Вероятность же множества {ап —> оо} последовательно- стей, не имеющих конечного предела, не превосходит ве- роятности множества {Лоо}, так как {ап -> oo}cz {Лоо}. Поэтому Вер{an-> оо}<:Пт Вер{ап>а}. П->оо Используя неравенство Чебышева, получим оценку Вер {«„>«} < ^А1{Ы 1 а и поэтому Вер (а„ -> оо} < lim ----= —------- оо Учитывая теперь, что 2jAf{gJ<oo, а число а произ- вольно и может быть сделано сколько угодно большим, получаем, что Вер {ап оо} = 0. Таким образом, почти все реализации случайной по- следовательности ап ограничены и, следовательно, слу- оо чайная величина а = существует. Стремление к нулю почти наверное последовательности g следует те- перь из того факта, что на каждой реализации 0 1 > а по доказанному выше на почти всех реализациях lim (а— = 0. Пункт 1) принципа монотонной схо- П->оо димости доказан. 10 М. А. Айзерман и др.
144 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ процедуры метода Принцип монотонной сходимости. Если — неотрицательные случайные величины, такие, что оо то: 1 п 1) последовательность случайных величин 1 сходится почти наверное при п-*оо к некоторой случай- но ной величине я последовательность схо- дится почти наверное при k-+oo к нулю; 2) последовательность ап сходится к а также и в среднем-. lim Af{|art — a |} = 0 П->оо и, следовательно, M{a}= lim М{а„} = 2Л1{Ы. П->оо j Доказательство. Докажем сначала утвержде- ние 1). В силу неотрицательности величин каждая реа- лизация случайной последовательности ап монотонно не убывает. Поскольку же, как известно, монотонно неубы- вающая ограниченная последовательность имеет конеч- ный предел, для доказательства сходимости почти на- верное случайной последовательности ап к некоторой случайной величине достаточно показать, что почти все реализации последовательности ап ограничены. Зафиксируем некоторое число а и рассмотрим множе- ство {Ап} = {«и > я} тех реализаций, которые при дан- ном п превосходят а. Так как в силу монотонности каж- дая реализация, принадлежащая {Лп}, принадлежит так- же и множеству {Л п+1}, то множества {Л J, {Л2}, ..., {Лп} «вложены друг в друга», т. е. MJ cz {У12} cz ... CZ {Л„} CZ ..., а предельное множество {Лоо} есть множество тех и только тех реализаций, которые хоть при каком-нибудь п превзойдут и останутся больше а. Поэтому вероятность
§ 1. ПОНЯТИЯ О СХОДИМОСТИ СЛУЧАЙНЫХ ПРОЦЕССОВ 145 множества {Л^} равна пределу Вер {Л J = lim Вер {Лп} = lim Вер {dn > а}. П->оо П->оо Вероятность же множества {ап —> оо} последовательно- стей, не имеющих конечного предела, не превосходит ве- роятности множества {Лоо}, так как {ап -> oo}cz {Л^}. Поэтому Вер {art 00} Пт Вер {an > а}. П->оо Используя неравенство Чебышева, получим оценку Bep{a„>a}<-^ 1 а и поэтому Вер {а„ -> 00} < lim —------ П->оо и 1 а со Учитывая теперь, что 2 М {gj < о°, а число а произ- вольно и может быть сделано сколько угодно большим, получаем, что Вер {an —► 00} = 0. Таким образом, почти все реализации случайной по- следовательности ап ограничены и, следовательно, слу- оо чайная величина a = 2^ существует. Стремление к нулю почти наверное последовательности £ следует те- перь из того факта, что на каждой реализации 0<ёп<а-а„_ь а по доказанному выше на почти всех реализациях lim (a — a„_I) = 0. Пункт 1) принципа монотонной схо- П->оо димости доказан. Ю М. А. Айзерман и др.
146 1'Л. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Доказательство пункта 2) легко получается, если воспользоваться теперь вторым из приведенных выше до- статочных условий равномерной интегрируемости. Имен- но, в данном случае на каждой реализации an+i ап и П ОО Л1{а„} = 2Л1{и<2Л1{Ы- 1 1 Следовательно, последовательность ап равномерно интегрируема. Поэтому доказанная в пункте 1) сходи- мость почти наверное ап к а гарантирует одновременно и сходимость в среднем. Принцип монотонной сходимости доказан. В этой главе нам часто придется иметь дело со слу- чайными процессами определенного вида, которые назы- ваются полумартингалами. Определим это понятие. Последовательность случайных величин ап назовем полумартингалом*), если математическое ожидание М{ап} существует при любом п и В этой книге нас будут интересовать главным образом полумартингалы с неотрицательными значениями. По- скольку из определения полумартингала следует, что М {a„+1} < М {а„}, то для неотрицательных полумартингалов (XAHoUCAffaJ, и, следовательно, математическое ожидание Af{an} суще- ствует и ограничено при любом п, если существует M{ai}. Более того, существует неотрицательный предел lim М {а„} = К, П-><х> так как последовательность Л4{ап} монотонно не возра- стает и ограничена снизу нулем. Дж. Л. Дубом (см. [7]) была установлена теорема о сходимости полуматериалов. Для целей настоящей книги *) По терминологии книги [7] такой случайный процесс назы- вается нижним полумартингалом.
$ 2. ИССЛЕДОВАНИЕ СЛУЧАЙНЫХ ПРОЦЕССОВ 147 достаточно использовать следующее утверждение, непо- средственно вытекающее из теоремы Дуба. Теорема о сходимости полумартинга- лов. Пусть случайная последовательность ап есть полу- мартингал, удовлетворяющий условию sup М {| ап |}< оо. п Тогда существует случайная величина а такая, что при п —* оо а причем М{| а |}< оо. Для неотрицательных полумартингалов, как указыва- лось выше, 0 <1 М{ап} ЛДоц}, и поэтому условие при- веденной теоремы всегда выполнено. § 2. Особенности исследования случайных процессов, порождаемых методом потенциальных функций В этой главе устанавливаются достаточные условия сходимости случайных процессов. Роль этих достаточ- ных условий в книге вспомогательная — они исполь- зуются в последующих главах при доказательстве схо- димости конкретных алгоритмов. Критерии сходимости, устанавливаемые в этой книге, приспособлены к особенностям тех случайных процес- сов, которые порождаются методом потенциальных функ- ций (!) и (!!). С этой целью сначала (§ 3) устанавли- вается ряд общих теорем о сходимости случайных процессов, которые затем (§ 4) используются для иссле- дования сходимости процессов, порождаемых рекуррент- ной процедурой: уп+1 = уп + хп-)г 1=1,2,... (4) Здесь z/n=(z/p г/" ••») —конечно-или бесконечномерные векторы, хп — случайный вектор, появляющийся на каж- дом шаге независимо в соответствии с некоторым зара- нее неизвестным условным распределением вероятностей 10*
148 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА р(хп|уп), явно не зависящим от п, Ф* — детерминиро- ванные функции своих переменных, а уп— члены число- вой последовательности. В случае конечномерного у и специального способа выбора уп процедура (4) является процедурой Роббинса — Монро метода стохастической аппроксимации (см. § 5 гл. II), а в случае специального выбора функций ф; она является основной процедурой (!!) метода потенциальных функций (см. § 2 гл. II). Всюду далее в этой книге на выбор последователь- ности yn, п = 1, 2, ..., будет накладываться условие 5уп = °°, Vn>0 (5) п и, кроме того, какое-либо одно из следующих условий: 5у2<оо, (6а) п Y„->0, (66) или же у„ = const. (6в) В § 3 условия сходимости формулируются в следую- щих терминах. Вводится в рассмотрение последователь- ность детерминированных функций Un(yl, у2....у")>0 и VAy\ у2, уп)>0 (7) от, вообще говоря, возрастающего с ростом п числа век- торных конечно- или бесконечномерных аргументов у\ являющихся реализациями векторного случайного про- цесса у\ у2, ..., уп, ... Устанавливаются такие соотноше- ния для функций Un и Vn, выполняющиеся в силу свойств случайного процесса у1, у2, ..., уп, ..., которые гарантируют стремление к нулю в том или ином смысле (по вероятности, почти наверное или в среднем) по край- ней мере одной из случайных последовательностей t/i, ..., Un, ... либо Vi, ..., Vn, ... При использовании полученных условий сходимости в конкретных задачах удается подобрать функции (7) так,
§ 2. ИССЛЕДОВАНИЕ СЛУЧАЙНЫХ ПРОЦЕССОВ 149 что из сходимости в некотором смысле одной из этих функций к нулю следует сходимость в том же смысле случайного процесса z/1, у2, ..., уп, ... Теоремы § 3 различаются требованиями, которым должны удовлетворять функции Un и Vn- Одно из этих условий — назовем его «условием А» — одинаково во всех теоремах § 3 и состоит в следующем. Условие А. Математические ожидания (z/1)}, существуют и M{Un+l(y', yn+v)\y', уп}< «Д+Цп)ип(у1, •••» yn)-NnVn(y', •••> yn) + tn, (8) п= 1, 2, .... где уп 0 и — числовые последовательности, такие, что а) последовательность уп удовлетворяет условию (5), оо б) 2|р„|<оо, 1 а tn^O — либо числовая последовательность, либо по- следовательность функций = Уп) случай- ных аргументов у1, ..., уп. Свойства последовательности и последователь- ности уп детализируются в каждой из теорем § 3. Как будет видно из доказательств теорем § 4, в применениях теорем § 3 к процедуре (4) оказывается, что 7И{£П} и | Цп | пропорциональны у2п. Условие А вместе с детализацией свойств последова- тельностей tn и уп составляют первое условие всех тео- рем § 3. Эти теоремы различаются, по существу, своими вторыми условиями, устанавливающими дополнительные требования к связи между функциями Un(y', ...» уп) и Vn(y\ ---,Уп)' которые вместе с первыми условиями теорем и позволяют доказывать сходимость соответст- вующих случайных последовательностей. Смысл вторых условий теорем § 3 — ограничить допустимый рост чле- нов последовательности Vb ..., Vn- Вторые условия теорем § 3 удается существенно ослабить, если тем или иным способом установлена
150 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА ограниченность *) почти всех реализаций случайного процесса ух,'..., уп, ... Определение. Последовательность функций Un(yx, • •., Уп) называется бесконечно большой, если лю- бая последовательность^1, , уп, ..., для которой пре- дел lim Uп(ух, ..., ytl) существует и конечен, ограничена. П->оо Для ряда теорем § 3 показывается, что почти все реа- лизации случайного процесса ух, ..., уп, ... действи- тельно ограничены, если последовательность функций Un не только удовлетворяет первым условиям соответст- вующих теорем, но и является бесконечно большой. Мо- дифицированные для случая бесконечно большой после- довательности Un теоремы обозначаются далее тем же номером с индексом «а» (например, соответствующая модификация теоремы I фигурирует в тексте как тео- рема 1а). Предлагаемый в этой главе подход к установлению сходимости случайных процессов близок по идее к пря- мому методу Ляпунова исследования устойчивости дви- жения. В методе Ляпунова факт устойчивости устанав- ливается, если удается подобрать некоторую ’ функцию фазовых координат, удовлетворяющую условиям, кото- рые обеспечивают стремление ее к нулю в процессе воз- мущенного движения. Как видно из условия А, функции Un и —УпУп играют роль «функции Ляпунова» и «ее производной в силу процесса». Аналоги метода Ляпунова для исследования сходи- мости стохастических процессов разрабатывались и ра- нее**). Развиваемый здесь подход отличается тем, что *) Последовательность векторов у1, ..., уп, ... называется ограниченной, если sup I уп I < оо. Для бесконечномерных векторов п уп = (у^,.... У™, ...) модуль вектора определяется обычным обра- зом как _________ / оо 1/4=1/ Ш- * т=1 **) См., например, И. Я. Кац, Н. Н. Красовский, Об устой- чивости систем со случайными параметрами, ПММ, т. 24, вып. 5, 1960; Р. 3. X ас ь мин ск ий, Об устойчивости нелинейных стоха- стических систем, ПММ, т. 30, вып. 5, 1966; Г. Дж. Кушнер, Сто- хастическая устойчивость и управление. Изд-во «Мир», 1969.
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 151 условия, накладываемые на «функцию Ляпунова», отра- жают специфику случайных процессов, порождаемых соотношениями (4) — (6). Для того, чтобы пояснить спе- цифику таких процессов, заметим, что непрерывным детерминированным аналогом процесса (4) служат урав- нения du. = .....ym.t\ а аналогом условий (5) и, например, (66) служат усло- вия оо |у(/)бД = оо, у (/)>0, у(/)->0 при /—>оо. о Наличие в правых частях дифференциальных уравнений стремящегося к нулю (при t —» оо) множителя у(/) край- не затрудняет применение теоремы прямого метода Ля- пунова об асимптотической устойчивости. Можно было бы предложить теоремы, также исходящие из идей пря- мого метода Ляпунова, но более узкие, чем теорема Ля- пунова об асимптотической устойчивости, и, вместе с тем, учитывающие специфику уравнений, содержащих множитель у(/). Теоремы о сходимости случайных про- цессов, установленные в § 3, относятся к общим теоре- мам ляпуновского типа о сходимости случайных про- цессов так же, как упомянутые выше специфические теоремы относятся к общим теоремам прямого метода Ляпунова об асимптотической устойчивости. § 3. Основные теоремы о сходимости Рассмотрим случайный процесс у'.......................Уп в дискретном времени п, определяемый условными распре- делениями вероятностей рп+\ (r/n+1 |*Д ..., уп) появления случайной величины уп+} в п + 1-й момент времени при условии, что в моменты 1, 2, ..., п случайные величины принимали значения у\ .,., уп соответственно,
152 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА $ Доказываемые далее теоремы I, Ia, II и Па устанав- ливают достаточные условия того, чтобы последователь- ность Vw, удовлетворяющая условию А, стремилась к нулю в том или ином смысле. j , Теорема I. Пусть задан случайный процесс > у1, ..., уп, ... и последовательность скалярных функ- ций (7), удовлетворяющих условиям*. 1°. Условию А, причем Пту„ = 0, 2М{С„}<оо. П->оо 1 2°. М{lZn+i|у', .... «/"}<(! + Ay„)V„(у1, ..., уп) + Вуп + Пп, где А и В — некоторые константы, а г)п 0 такая после- довательность функций Пп = т)п(у1, уп), что оо 2£МЫ<оо. 1 Тогда limM{Vj = 0 (9) П->оо и, тем самым, последовательность случайных величин Vn стремится к нулю по вероятности при п оо. Если же условие 2° выполняется при В = О, то, кроме того, при п->оо Vn~ ->0. Доказательству этой теоремы предпосылаются леммы I и II, которые нужны не только для доказательства тео- ремы I, но и для ряда последующих теорем настоящей главы. Лемма I. Пусть числовые последовательности Ys >0 и > 0 таковы, что\ a) lim ys = 0, S->oo б) 2Г Vs расходится, в) 21° сходится.
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 153 Пусть, далее, числовая последовательность Ms неот- рицательна и удовлетворяет условиям: оо Г. Ряд сходится. 3=1 2°. Ms+i 4^(1 + Лу8)Л15 + B\s + 6S, где А и В — неко- торые постоянные. Тогда предел последовательности Ms при s —► оо суще- ствует и равен нулю. Доказательство леммы I. Заметим сначала, что без ограничения общности можно считать Л и В по- ложительными и что ряд оо 1 в силу условия в) леммы и условия Г сходится, а ряд оо в силу условия б) расходится. Поэтому, переопре- 1 делив соответствующим образом последовательности 6S и ys можно без ограничения общности заменить условие 2° условием Als+t + Уз + бз. (10) Утверждение леммы означает, что для любого е > 0 найдется такой номер N = W (е), что Ms<z при всех s > 7V. Покажем, что номер N (е) существует. Рассмотрим множество Г(е) номеров Si, sif ... (si < S2 <.. .< Si <...) таких, что >e/2, и со- ответствующую последовательность у^, ..., у^, . .. Если множество Г(е) конечно, и максимальный номер, входя- щий В ЭТО МНОЖеСТВО, еСТЬ «max, то можно положить N = $тах- Поэтому в дальнейшем обсуждается лишь возможность бесконечной последовательности S1, . • . у Si, . . . В соответствии с условием 1° леммы ряд 2yS/ схо- дится. Поэтому найдется такой номер I, что (П)
151 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Рассмотрим также такой номер /п, что при всех т Ys < е У’ оо /=s (12) Такое т существует в силу условий а) и в) леммы. За- метим, что в силу условия б) леммы множество номеров, не входящих в множество Г (в), бесконечно. Поэтому всегда найдется номер N, не входящий в Г (в) и такой, что /V>max{Z, т}. (13) Покажем, что при любых N Прежде всего, это очевидно (по определению множества Г (в)) для тех номеров s>7V, которые не принадлежат Г (в), так как для этих номеров Пусть теперь sh> N — некоторый номер, принадле- жащий Г (в). Рассмотрим максимальный номер $*, мень- ший sk, не принадлежащий Г (в), так что (14) Поскольку N не принадлежит Г (в), номер s*^N и по- этому в силу (13) s*>max{Z, т}. (15) Используя формулу (10), получаем м < Ms* + V + 2 V/+ 2 (16) sk s s / = s* + l 7 /=s* 7 В силу соотношений (15) и (11) sk~[ 8 s*+l
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 155 а в силу соотношений (15) и (12) sk~l оо /«s*+l s* Поэтому, учитывая (14), из (16) заключаем, что < е. Тем самым завершено доказательство того, что Ms < е при любом s > N. Лемма доказана. Лемма II. Пусть задан случайный процесс у\ ..., уп, ... и последовательность функций Лп(у\ ... ...,уп)>0 (7И{А1 (z/1)} < оо) такая, что выполнено ус- ловие 1°. M{An+1|zA уп}<Лп(у\ Уп)~Нп, (17) где £п>0— последовательность функций ^п = ^п(^1, ... ..., уп) случайных аргументов у1, ..., уп, для которой (18) 1 Тогда Лп при п-+оо стремится почти наверное к не- которой случайной величине Л*: Лл-^Л*, причем М{Л*}<ОО. Если, кроме того, выполнено условие 2°. Последовательность функций Лп(у', • ••, Уп) — бесконечно большая, то почти все реализации случайного процесса у1, ... ..., уп, ... ограничены. Доказательство леммы II. Рассмотрим слу- чайную величину Wn(y}, .... УП) = Л.П(У1, .... yn)-l^k(yl, .... yk). (19) &*=•! В силу условия 1° леммы величина Wn удовлетворяет неравенству .... yn}<wn(y\ ...х П (20)
156 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА т. е. является полумартингалом, и значения A4{|IFn|} ограничены. Действительно, из (19) имеем П — 1 оо Л1{|Г„|}<Л1{Л„} + 2М{^}<М{Л1} + 25Л1{^}<оо. /г-1 1 Учитывая это обстоятельство и используя теорему о полумартингалах (см. § 1 этой главы), заключаем, что последовательность сходится почти наверное к неко- торой случайной величине IF*: Wn— + п-+оо. Далее, в соответствии с принципом монотонной схо- п димости 2 Sfe при п 00 сходится почти наверное к оо случайной величине а* = У причем в силу условия оо Г леммы II М{а*} = ^М {?/.}< 00 Поэтому Дп при 4 1 п-^оо стремится почти наверное к случайной величине Л* = №*+,«•. (21) При этом j Л1{Л*} < оо. (22) ? Таким образом, первое утверждение леммы доказано. » Втооое же утверждение леммы следует немедленно из 4 определения бесконечно большой последовательности функций, если учесть, что в силу первого утверждения почти все последовательности Л„ сходятся к конечному пределу. Лемма доказана. Приступим теперь к доказательству теоремы I. Доказательство теоремы I. Докажем сна- чала утверждение (9) теоремы. Покажем, что только лишь условие А обеспечивает существование такой по- следовательности A„(«/*, ..., уп), удовлетворяющей ус- ловию M{A„+1(z/’, ..yn+v)\yl.....«/"}< ^Лп-УпУДг/1, .... + (23)
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 167 ЧТО Л„(у1, .... ynXUn(у\ уп)^Лп(у1.......у"), (24) где С > 1 — некоторая константа. Действительно, вве- дем функцию Л„ = 1/„П(1+1^1). (25) Условие А гарантирует сходимость произведения С = П(1+1Рл1). 1 в силу чего и имеет место (24). Умножение же неравен- оо ства (8) в условии А на Ц (1 +| |), введение обозна- п+1 чения (25) и оценка 1<П(1+1м*1)<с п приводят непосредственно к (23). Перейдем в неравенствах (23) от условных матема- тических ожиданий к безусловным *) и просуммируем полученные неравенства. В результате будем иметь м {Лп+j < м {Л,} - 2 ЪМ {VJ+с 2 М {&}. 1 1 Из последнего соотношения получаем lY/WaCMfAJ + clMfo}. (26) Г *) Математические ожидания М{(7П} и Af{ynVn} существуют В в силу условия А. В условиях же теоремы I существуют также * и М{УП}. При изложении доказательств последующих теорем факт J существования соответствующих математических ожиданий спе- W циально не оговаривается. Я г
156 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА т. е. является полумартингалом, и значения Af{|IFn|} ограничены. Действительно, из (19) имеем м {I |} < М {Лп} + 2 М fa) < М {AJ + 2 i М fa) < оо . Л=1 1 Учитывая это обстоятельство и используя теорему о полумартингалах (см. § 1 этой главы), заключаем, что последовательность Wn сходится почти наверное к неко- торой случайной величине 1F*: Гп—/?—>оо. Далее, в соответствии с принципом монотонной схо- п димости 2 Zk при п —> оо сходится почти наверное к оо случайной величине а* = 2 Zk, причем в силу условия Л=1 I °° | Г леммы II Л1{а*} = 2Л1{^}<оо. Поэтому Лп при | Иг^оо стремится почти наверное к случайной величине А* = №* + а*. (21) । При этом j Л1{Л*} < оо. (22) ? Таким образом, первое утверждение леммы доказано. < Втооое же утверждение леммы следует немедленно из | определения бесконечно большой последовательности функций, если учесть, что в силу первого утверждения почти все последовательности Лп сходятся к конечному пределу. Лемма доказана. Приступим теперь к доказательству теоремы I. Доказательство теоремы I. Докажем сна- чала утверждение (9) теоремы. Покажем, что только лишь условие А обеспечивает существование такой по- следовательности Лп(у1, ...» Уп). удовлетворяющей ус- ловию Af{An+i(z/‘, .... <An-YnV„(z/‘, r) + Qn. (23)
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 157 что -£• Лп (у1, упх и п (г/1, уп)^Лп(у1....I/"), (24) где С > 1 — некоторая константа. Действительно, вве- дем функцию Л»=1/пП(1+1щ1). (25) k^n Условие А гарантирует сходимость произведения с=Й(1+1ш1). в силу чего и имеет место (24). Умножение же неравен- оо ства (8) в условии А на П (1 +| |), введение обозна- п+1 чения (25) и оценка 1<П(1+1^1)<с п приводят непосредственно к (23). Перейдем в неравенствах (23) от условных матема- тических ожиданий к безусловным *) и просуммируем полученные неравенства. В результате будем иметь п п м {А„+1} < М {AJ - s ъМ {Vt} + CZM&}. 1 1 Из последнего соотношения получаем п п 2 XiM {VJ с м {AJ + с 2 м {U. 1 1 (26) *) Математические ожидания М{(7П} и М{упУп} существуют в силу условия А. В условиях же теоремы 1 существуют также и М{Vn}. При изложении доказательств последующих теорем факт существования соответствующих математических ожиданий спе- циально не оговаривается.
158 гл IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА По условию 1° теоремы 2ЛЦ£П}<°°, поэтому из (26) следует оо SYnWJCoo. (27) 1 Совершая теперь переход к безусловным математиче- ским ожиданиям в неравенствах условия 2° теоремы, по- лучим АГ {IW < (1 + Луп) М {Vn} + BVn + М Ы, (28) оо причем по условию 2° теоремы Условия (27) и (28) составляют в совокупности условия леммы I, если положить Л4{Уп} = Мп и 7И{цп) == бп. В силу этой леммы утверждение (9) доказано. Утверждение о сходимости последовательности Vn к нулю по вероятности следует теперь из (9). Поэтому для того чтобы завершить доказательство теоремы, остается показать, что при В = 0. С этой целью заме- оо тим, что в силу (27) и сходимости ряда 2 м ы имеем 2Л1{Лу^ + т}<оо (29) 1 и при В = 0 из условия 2° теоремы следует М (V„+11 у1, Vn + (AynVn + т]„). (30) Условия (29) и (30) составляют в совокупности условия пункта 1° леммы II, если отождествить Vn с Лп и (ЛутаУп + т]п) с £п. Поэтому в силу леммы II существует случайная величина V*, такая, что M{V*}<oo и
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 159 Но по доказанному выше Vn— ->0, и поэтому случай- ная величина V* может быть только нулем: V* = 0. Теорема I доказана полностью. При исследовании конкретных процессов может ока- заться, что величины А и В, фигурирующие в условии 2° теоремы I, являются не константами, а некоторыми функциями у{, ..., уп: А = Ап(ух, уп), В = Вп(у'........уп). Если при этом последовательности функции Ап и Вп не могут быть промажорированы константами, то, разумеется, теорема I неприменима. Однако если удается из каких- либо соображений установить ограниченность последо- вательностей Ап и Вп для почти всех реализаций случай- ного процесса, то сходимость Vn по вероятности к нулю может быть доказана. Ограниченность же последова- тельностей Ап и Вп может следовать, в частности, из ограниченности реализаций случайного процесса. Усло- вия, гарантирующие ограниченность почти всех реализа- ций случайного процесса у\ ..., уп, как уже указыва- лось в § 2, могут быть выражены в форме ограничения на вид последовательности функций Un(yl, ..., уп). Именно, достаточно потребовать, чтобы последователь- ность Un была бесконечно большой. Теорема 1а. Пусть функции (7) удовлетворяют ус- ловиям: оо Г. Условию А, причем lim у„ = 0, 2Л4{£„}<°°; П->оо 1 2°. M{Vn+i\y', .... уп}^(1+упАп(у', .... у“))У„ + + ...» уп)уп + г]п, где Ап(у1, ..., уп) и Вп(у\ уп) —функции, кото- рые для любой ограниченной последовательности ух, ..., уп, | у11 R (i = 1, ..., п) мажорируются кон- стантами A(R) и B(R) соответственно, а т]п^-0 — после- довательность функций т]п = (ух, ..., уп) такая, что оо 1
160 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА 3°. Последовательность функций Un(yl, .Уп) — бесконечно большая. Тогда последовательность случайных величин Vn стремится к нулю по вероятности при п->оо: Vn^->0. Доказательство теоремы 1а опирается как на лемму I, так и на лемму II, которая как раз позволяет устанав- ливать ограниченность почти всех реализаций случай- ного процесса у\ ..., уп, ..., используя свойства беско- нечно больших последовательностей функций. Доказательство теоремы 1а. Докажем сна- чала, что почти все реализации случайного процесса у[, ..., уп, ... (при выполнении условий 1° и 3° теоре- мы 1а) ограничены. Из соотношения (23), являющегося следствием лишь условия А, и из условия 1° теоремы 1а следует условие 1° леммы II. Из условия 3° доказывае- мой теоремы и из определения (25) следует условие 2° леммы И. Таким образом, оба условия леммы II выпол- нены, и в силу утверждения леммы II почти все реализа- ции случайного процесса у{, ..., уп, ... в условиях тео- ремы 1а действительно ограничены. Ограниченность почти всех реализаций случайного процесса у1, ... .. ., уп, ..., как легко видеть, эквивалентна следующе- му утверждению: для любого 6 > 0 найдется такое число С (б) и такое множество реализаций G(6), вероятность которого больше, чем 1 — б, что в каждой реализации из множества G(6) имеет место \уп\ ^С(б) при всех п. Рассмотрим множества G„(6), n= 1, 2, ..., реали- заций, для которых \у*\^С(&) при f-Cn. Очевидно, G1 (б) zd G2(6) zd . .. zd G(6), так что Вер {Gn (б)} > Вер {G (б)} > 1 - б. (31) На каждой реализации из Gn(6) в силу условия 2° тео- ремы 1а справедливы неравенства Ап(у1, .... уп)<А[С(6)Ъ Вп(у1, .... уп) [С (6)]. (32)
$ з. основные ТЕОРЕМЫ о сходимости 161 В дальнейшем нам понадобится следующее неравен- ство *) : М{М{Гп+1|гД уп}\ Gn}Bep{Gft}> >M{Wn+x I Grt+1}Bep{Gn+J, (33) справедливое для любых неотрицательных функций Wn(y\ Г), заданных на реализациях у\ .., уп, ... случайного процесса. Перейдем теперь в неравенствах (23) к условным (при условии Gn) математическим ожиданиям, умножая *) Выражение Л4{Л1{Wn+11 z/1, ..., уп} | Gn] обозначает условное (при условии Gn) математическое ожидание случайной величины уп}, которая сама является условным математиче- ским ожиданием W'n+i при условии появления у1, ..., уп. В тех случаях, когда существует совместная плотность распре- деления вероятностей р(ух..... #n+1). формула (33) эквивалентна следующему неравенству: | Sdyn+l > I !/n+I | < оо J Sdyn+\ |j/n+I I <c где S - J F„+1 (/,'..........yn, «/"+') p G?....dy'............dyn, I yl \<C I yn | < G так как f Sdyn+i = M{M{Wn+l\y',..., yn}\G„), J I < CO И B.PlL.> J s । G“,'- + l |<c И M. А. Айзерман и др.
162 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА затем левую и правую части на Вер {Gn}. Получим при этом М{М {Лп+! \у', ..., у11} | Gn} Вер {G J < М {Л„ | Gn} Вер {G J- - упМ {Vn | GJ Вер {GJ + CM | GJ Bep {GJ. Используя неравенство (33) (положив при этом IFn+1=An+i) и очевидное неравенство MIG„}Bep{GJ<M{U, справедливое при получаем М {Лп+1 | Grt+J Вер {Gn+1} < М {Ап | GJ Вер {G J - упМ {Vn | GJ Вер {GJ + CM g J. Отсюда совершенно аналогично тому, как было выве- дено условие (27), получаем i VnM {V„| GJ Bep {Gn}< оо. (34) 1 Перейдем к условным (при условии Gn) математиче- ским ожиданиям в неравенствах, фигурирующих в усло- вии 2° доказываемой теоремы, принимая во внимание неравенства (32). Получим M{M{Vn+1\y', ..., t/n}|GJ< <(1 + Л (С (6))yJM{7„| GJ + B(C (6)) Y„ + M{T]n|GJ. Умножая это неравенство на Вер {Gn}, используя (33) (полагая Wn+l = Vn+i) и учитывая очевидное неравен- M{%|GjBep{GJ<M{nJ, будем иметь М {Vn+l I Gn+1}Bep{G„+I}^ < (1 + А (С (б)) Y J М {V п | GJ Вер {GJ + В (С (6)) уп + М {р J. (35) оо Поскольку 2 М{цп}<оо в силу условия 2° теоремы, за- 1 мечаем, что неравенства (34) и (35) составляют в сово- купности условия леммы I, если положить Мп^М {Vn | GJ Вер {GJ, 6/г = М {%}.
$ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 163 В силу утверждения этой леммы lim M{7JGn}Bep{G„} = 0. (36) rt->oo Для каждого р > 0 и каждого натурального и введем в рассмотрение множество реализаций Ап, р такое, что в каждой реализации этого множества Vn > р. Для лю- бого р > 0 справедлива следующая цепочка неравенств: М {Уп | GJ Вер {Gn} > М {V п | Gn А Ап, р} Вер {Grt А Ап, р} > р Вер {Gn П Ап, р} > р [Вер {Ап, р} - (1 - Вер {G„})]. (37) Второе неравенство этой цепочки следует из того, что на множестве Gn А Лп> р всегда справедливо неравенство Vn > р (по определению множества Ап, р). Третье нера- венство цепочки (37) следует из очевидного теоретико- множественного соотношения (Ап, р П Gn) U Gn з Ап, р, так как в силу этого соотношения Вер {(Лп, р A Gn) U GJ > Вер {АПг р} и, с другой стороны, Вер {(Л р A Gn) U Gn} < Вер {Лп, р U Gп} + Вер {Gп} = = Вер {АПг р U Gn} + (1 - Вер {GJ) Принимая во внимание неравенство (31) и учитывая, что по определению множества Лп>р Вер{ЛЛ>р} = Bep{V„>p}, получим из (37) М {Vn | G Д Вер {G J > р [Вер {Vn > р} - б]. Отсюда Bep{V„>p}<-^- + 6, (38) где в силу (36) при и —► оо Вер {G„}->0. (39) Поскольку д произвольно, из (39). и (38) следует, что для любого р > О lim Вер {Vn > р) = О, П->о© П
162 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА затем левую и правую части на Вер (G,г} Получим при этом М{М{Л„+11 у\ ..., уп} | Gn}Вер {G J<М{Л„ | Gn} Вер{G J- - упМ {Vn | GJ Вер {GJ + CM | GJ Вер {GJ. Используя неравенство (33) (положив при этом и7п+]=Лп+1) и очевидное неравенство MftJGj Вер {Gn}<M{U справедливое при >0, получаем М {Лп+1 I Gn+J Вер {Gn+1} < М {An | Gn} Вер {GJ - упМ {Vn I Gn} Вер {G „} 4- СМ О Отсюда совершенно аналогично тому, как было выве- дено условие (27), получаем 2 УпМ {Vn | GJ Вер {GJ < оо. (34) 1 Перейдем к условным (при условии Gn) математиче- ским ожиданиям в неравенствах, фигурирующих в усло- вии 2° доказываемой теоремы, принимая во внимание неравенства (32). Получим yn}\Gn}< < (1 + Л (С (6)) Yn)M {VJ Gn} + В (С (6)) Y« + М {nJ GZJ. Умножая это неравенство на Bep{Gn}, используя (33) (полагая IFn+1 = Vn+i) и учитывая очевидное неравен- ЛЦт)„ IGJВер{GJ<МЫ, будем иметь М {Vn+l | Gn+ J Вер {Gn+I}< < (1 + А (С (6)) YJ М {V п | GJ Bep {GJ + В (С (6)) Y„ + М {nJ. (35) оо Поскольку 2 М {т)п} < оо в силу условия 2° теоремы, за- 1 мечаем, что неравенства (34) и (35) составляют в сово- купности условия леммы I, если положить Мп = М {Vn | Gn} Вер {Gn}, М {nJ.
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 163 В силу утверждения этой леммы lim M{V„|G„}Bep{G„} = 0. (36) П->оо Для каждого р > 0 и каждого натурального п введем в рассмотрение множество реализаций р такое, что в каждой реализации этого множества Vn > р. Для лю- бого р > 0 справедлива следующая цепочка неравенств: М {У„ | GJ Вер {GJ > М {V п | Gn П Ап, р} Вер {G„ Л Ап. ₽} > > р Вер {G„ Л Ап, р} > р [Вер (Дп, р) - (1 - Вер {G„})]. (37) Второе неравенство этой цепочки следует из того, что на множестве Gn Л Лп, р всегда справедливо неравенство Vn > р (по определению множества Лп>р). Третье нера- венство цепочки (37) следует из очевидного теоретико- множественного соотношения (Аь рГ1Оп)и£?п — Аг,р, так как в силу этого соотношения Вер {(Дп> р П Gn) U Gn} > Вер {Ап, р} и, с другой стороны, Вер «Л. р Л Gn) и GJ < Вер {Л„, р и Gn} + Вер {GJ = = Вер {Л„, р U G„} + (1 - Вер {G J) Принимая во внимание неравенство (31) и учитывая, что по определению множества Дп>р Вер {Д„, р) = Вер {Vn > р}, получим из (37) м {Vn I GJ Вер {GJ > Р [Вер {Vn > р} - 6]. Отсюда Bep{V„>p}< -^- + 6, (38) где в силу (36) при п.-* оо Мп^М {Vn | Gn} Вер {G J -> 0. (39) Поскольку 6 произвольно, из (39) и (38) следует, что для любого р > 0 lim Вер {Vn > р) = 0, П->0© п*
164 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА т. е. случайная величина Vn стремится по вероятности к нулю. Теорема доказана. Следующая теорема II весьма близка по своим усло- виям к теореме I, но, в отличие от нее, содержит требо- вание об ограничении роста последовательности Vn (ус- ловие 2°), не в смысле математических ожиданий, а на почти каждой реализации. Это и позволяет установить сходимость к нулю последовательности Vn почти на- верное. Теорема И. Пусть функции (7) удовлетворяют ус- ловиям'. 1°. Условию К, причем оо limy„ = 0 и 2А10<оо. П->оо 1 2°. Для любого б > 0 найдется такое множество реа- лизаций случайного процесса у1, ..., уп, ...» вероят- ность которого больше 1 — б, и найдутся такие констан- ты Лб и что на каждой реализации этого множества выполнены неравенства Vfi+1 (1 + Atfn) Уп + В6у„ + Лп» (40) где т)п > 0 — последовательность таких чисел (может со быть, своя для каждой реализации), что ряд 2 Лп 1 дится. Тогда при п-+оо последовательность случайных ве- личин Vn стремится к нулю почти наверное. Доказательство теоремы II. В условиях тео- ремы II соотношение (27), полученное при доказатель- стве теоремы I, также имеет место, так как его вывод основан лишь на условии 1°, общем для обеих теорем. Поэтому в силу принципа монотонной сходимости п (см. § 1 этой главы) последовательность S VkV k при п —► оо сходится почти наверное к случайной величине ОО ОО 2 ЧъУ k* Для случайной величины S YkV k (как и для 1 1 всякой случайной величины) для любого б > 0 найдется
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 165 такое число /?в, что {оо л 2 YfeVfe<7?6 1> 1 -6. 1 J Рассмотрим множество тех реализаций, на которых одно- временно выполнено неравенство (40) условия 2° теоре- мы II и неравенство оо 2 ykvk<R6. 1 Вероятность этого множества не меньше, чем 1 — 26. Каждая из реализаций этого множества удовлетворяет условиям леммы I, если отождествить последователь- ность Vn в данной реализации с последовательностью Мп, фигурирующей в тексте леммы I. В силу леммы I на каждой такой реализации Vn->0 при м—>оо. Поскольку же вероятность множества таких реализаций больше, чем 1 — 26, то в силу произвольно- сти 6 отсюда следует, что Vn 0 при /г->оо. Тео- рема II доказана. Легко видеть, что если в неравенствах (40) величины и могут быть выбраны не зависящими от б, а по- следовательность чисел т]п — одна и та же для всех реа- лизаций, то из (40) следуют соотношения на математи- ческие ожидания, фигурирующие в условиях 2° теоре- мы I, и тем самым в силу теоремы I будет гарантиро- вано стремление к нулю и Л1{УП}. Условие 2° теоремы II может быть ослаблено, если предположить, что последовательность ип{у\ ..., уп} — бесконечно большая (подобно тому как это сделано по отношению к теореме I). Следующая теорема устанавли- вает условия сходимости почти наверное в случае, когда величины А и В, фигурирующие в условии 2° теоремы II, могут явно зависеть от у1, ..., уп. Теорема Па. Пусть функции (7) удовлетворяют ус- ловиям: °1. Условию А, причем оо limy„ = 0 и 2М{С„}<оо. П-»оо 1 2°. V«+i < (1 + Л (г/1, .... у11) уп) Vn + В„ (гД уп)уп + п™,
166 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА где Ап и Вп — функции, которые для любой ограничен- ной последовательности у{, уп, (i = 1, ... ..., п) мажорируются константами Д(/?) и B(R) соот- ветственно, а т]п^0 — числовая последовательность та- кая, что ряд Лп сходится. 3°. Последовательность функций ип(у\ ..., уп)— бесконечно большая. Тогда последовательность случайных величин Vn стремится при п~* оо к нулю почти наверное. Теорема Па является, по существу, следствием теоре- мы И. Действительно, из условий 1° и 3° теоремы Па следует (см. начало доказательства теоремы 1а), что для любого б > 0 найдется такое множество реализаций, вероятность которого больше 1 —б, и такое число С (б), что на этом множестве реализаций | уп | <1 С (б) при всех п. Из этого утверждения и из условия 2° теоремы Па следует выполнение условия 2° теоремы II. В силу этой последней теоремы Vn стремится к нулю почти на- верное, что и доказывает утверждение теоремы Па. В следующих далее теоремах III, Ша и IV устанав- ливаются достаточные условия сходимости уже не по- следовательности Vn, а последовательности Un (из ус- ловия А) в том или ином смысле. Теорема III. Пусть функции (7) удовлетворяют ус- ловиям: * ©о 1°. Условию А, причем lim уп = о, 2ад<оо. П->оо 1 2°. Почти все реализации случайного процесса у1, ... ..., уп, ... удовлетворяют требованию: если существует последовательность щ <п2< ... <nh < ... (быть мо- жет, своя для каждой реализации), такая, что в данной реализации lim Vn. =0, то в этой реализации и lim /А. =0. fe->oo /г->оо Тогда при п-+оо последовательность случайных ве- личин Un стремится к нулю почти наверное: и, кроме того, при любом 0 < 1 lim = (41)
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 167 Доказательство теоремы III. Заметим сна- чала, что соотношения Sv„Wn}<00, (42) M{A„+i(*/'..Уп,Уп+')\Ух, г/п}< .... yn)~XnVn(y', •••> Уп) + С^п, (43) A„ = f7„ fla+lFkl), (44) k^n полученные при доказательстве теоремы I (см. формулы (27), (23) и (25) соответственно), следуют лишь из ус- ловия 1° теоремы I, которое сохраняется и в условиях теоремы III. Из сходимости ряда (42) и расходимости оо ряда 2 Vn следует существование подпоследователь- 1 ности такой, что lim 1 = 0. (45) £->оо 1 Из (45) следует, что случайная последовательность Vtk стремится по вероятности к нулю при &->оо. Но из стремления случайной последовательности V ik к нулю по вероятности следует существование подпоследова- тельности Vik , которая стремится к нулю почти навер- ное при s —>оо (см. § 1). Отсюда и из условия 2° теоре- мы сразу следует, что Vib -^-^0, Uib -^>0 (s->oo). (46) Rs Rs Из соотношения (43), учитывая сходимость ряда со 2Л4{£П}, заключаем, что выполнено условие 1° леммы II. 1 Поэтому А„-^->А’, (47) а в силу (44) и (47) получаем t/„-^->A*. (48)
168 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Из этого соотношения и соотношения (46) очевидным образом следует теперь, что случайная величина Л* с вероятностью единица равна нулю, т. е. (49) Для того чтобы установить соотношение (41) и тем самым завершить доказательство теоремы III, заметим, что последовательность случайных величин Un при 0 > О также стремится к нулю почти наверное (в силу (49)): и^п 0. (50) Кроме того, легко установить, что величины t/„ при 0 < 1 равномерно интегрируемы. Действительно, как это следует из (43) и (44), с учетом того факта, что уп1Лг^>0, безусловные математические ожидания M{Un}, ограниче- ны одной и той же константой оо оо М ш <ЛЦЛ„}< П (1+ Ы) м {£/,} + С 2 М {£„}, 1 1 и поэтому в силу достаточного условия равномерной ин- тегрируемости (см. § 1) величины t/« при р< 1 равно- мерно интегрируемы. Из равномерной интегрируемости и из (50) следует, что lim М = М J lim t4l = 0. П->оо ( П-> оо J Теорема доказана. Сделаем теперь следующее замечание: если, как это часто бывает, помимо условия 2° выполнено обратное ус- ловие, т. е. требование, согласно которому из lim Un = 0 n->oo следует, что lim Vn = 0, то и Vn 0 при п—>оо. П->оо Сделаем еще ряд замечаний о том, как фактически можно проверить условие 2° теоремы III. На первый взгляд кажется, что это условие практически непрове- ряемо, так как оно требует знания особенностей реа- лизаций случайного процесса у1, ..., уп, ... На самом деле это не так, и можно указать ряд случаев, когда это условие легко проверяется. Мы отметим здесь два
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 169 наиболее важных случая, охватывающих большинство практических приложений теоремы. а) Первый случай в значительной степени тривиален. Пусть функции Un(y{, .Уп) и Vn(z/1, ...» уп) таковы, что если Vn—*0 на некоторой последовательности у1, ... ..., уп (не обязательно являющейся реализацией иссле- дуемого случайного процесса), то и 0 на этой по- следовательности. Ясно, что в этом случае условие 2° теоремы заведомо выполнено. б) Пусть из каких-либо соображений установлена ог- раниченность почти всех реализаций случайного процесса у1, ..., уп, ... Тогда, если функции Un(y\ .Уп) и Vn(y1, . Уп) таковы, что на любой ограниченной по- следовательности г/1, ..., уп из Vn-*0 следует условие 2° также выполнено. Таким образом, в отличие от случая а), в данном случае допускается, чтобы при некоторых неограниченных последовательностях у1, ... ..., уп последовательность Vnk стремилась к нулю при &->оо, в то время как последовательность Unk к нулю не стремилась. Тем самым, в последнем случае б) остается лишь установить условия, которые гарантируют ограничен- ность почти всех реализаций случайного процесса у{, ... ..., уп, .... Как и ранее (см. теоремы 1а, Па), эти усло- вия могут быть выражены в форме требования, согласно которому последовательность функций Un является бес- конечно большой. Теорема Ша. Пусть функции (7) удовлетворяют условиям: 1°. Условию К, причем lim Тп = 0, П->ОО SM{U<oo. 1 2°. Почти все ограниченные реализации случайного процесса у{, ..., уп, ... удовлетворяют требованию', если существует последовательность щ < п2 < ... < пь < ... (быть может, своя для каждой реализации) такая, что в данной реализации lim V Пь = 0, то в этой реализации k+ оо 72 и lim Unb = 0.
170 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА 3°. Последовательность функций Un(y\ ..., уп) — бес- конечно большая. Тогда при п-+оо последовательность случайных ве- личин Un стремится к нулю почти наверное и, кроме того, при любом Р < 1 lim М {{/£}= 0. П->оо Теорема Ша в силу сказанного выше является про- стым следствием теоремы III, и для ее доказательства достаточно установить лишь ограниченность почти всех реализаций случайного процесса у1, ..., уп, ... Послед- ний же факт установлен в начале доказательства тео- ремы 1а, так как условия 1° и 3° теорем 1а и Ша сов- падают. Используем теперь теорему III для того, чтобы дока- зать следующую теорему IV, установленную А. Дворец- ким *) [8]. В теореме IV рассматривается векторный процесс х1, х2, ..., хп, ..., определяемый рекуррентным соотноше- *) В теореме Дворецкого, в той форме, в которой она была сформулирована и доказана им в [8], рассматривается скалярный случайный процесс х1, ..., хп, ... и доказывается его сходимость как п п* и* л почти наверное, так и в среднем квадрате, т. е. х“------------~>0, lim М {| х” |р} = 0 при р 2. В приводимой далее теореме IV рас- П-> оо сматривается векторный случайный процесс х1, ..., хп, .... и доказы- вается, что хп 0, lim Al {| хп |р} = 0 при р < 2. Применение /1-> оо теоремы III не позволяет доказать сходимость математического ожидания Af{| хп | при р = 2 (случай р = 2 соответствует р = 1 в формуле (41)). В приводимом далее доказательстве теоремы А. Дворецкого установление того факта, что выбранные функции Un и Уп удовле- творяют условиям теоремы III, не связано с анализом рассматри- ваемого случайного процесса, а требует лишь алгебраических пре- образований. Анализ же случайного процесса целиком «берет на себя» теорема III. Техника алгебраических преобразований, которой приходится пользоваться при доказательстве теоремы IV, заимство- вана нами из доказательства, предложенного А. Дворецким. Теорема А. Дворецкого часто используется для доказательства сходимости процедур стохастической аппроксимации. В этой книге эта теорема использоваться далее не будет, и поэтому ее доказа- тельство набрано петитом.
$ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 171 нием хп+х = Тп(х. .... xn) + Zn(xx. .... хп). (51) где Тп(х1, .... хп) — векторные детерминированные функ- ции, Zn(xl. .... хп) — случайные функции, такие, что M{Zn\x', .... х"} = 0, 21М{\гп?}<оо. (52) П=1 Теорема IV (А. Дворецкий). Пусть векторный слу- чайный процесс х1. хп. ... определяется рекуррент- ным соотношением (51), (52), а функции Тп(х*. .... хп) удовлетворяют условиям I тп (х‘..хп) К max {ап, [(1+ bn) | хп | - у„]}, (53) где ап. Ьп и уп — неотрицательные числовые последова- тельности. удовлетворяющие следующим условиям*. 1°. lim ап = 0. /54\ 2°. (55) 1 оо 3°. 2y„=oo. - (56) 1 Тогда при п-> оо последовательность случайных вели- чин | хп | стремится к нулю почти наверное и. кроме того, при любом р<2 lim М{\хп |р} = 0. П->оо Доказательство теоремы IV. Легко показать, что в условии (53) теоремы без ограничения общности можно считать, что оо последовательность ап — невозрастающая, а 2 Уп сходится. Для 1 этого надо лишь заменить в (53) последовательность ап невозрас- тающей мажорирующей последовательностью, а последовательность уп такой минорируюшей последовательностью, у которой сумма квадратов сходится. Учитывая это замечание, условия теоремы Дворецкого могут быть дополнены условиями: 4°. dn ап+1 (57) б°. 2 у2п < °°- (58) 1
172 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ процедуры метода Имея в виду воспользоваться далее теоремой III, покажем, как, исходя из условий теоремы Дворецкого, можно выбрать функции Un и Vn так, чтобы они удовлетворяли условиям теоремы III. Для того чтобы выбрать функции Un и Vn, введем в рассмотре- ние функцию «+», определив ее так: + / 0, если 0 < О, и = < I 0, если 0>О. Легко видеть, что функция «+» обладает следующими свой- ствами: 1) 0+ — монотонно неубывающая функция 0; 2) 0<0+<|0|; з) (0 + п)+<0+ + п+; 4) если f и g— два произвольных вектора, а />0 — действи- тельное число, такое, что I | g |, то (If I-n+<lf-g|. Выберем теперь функции Un и Vn, фигурирующие в теореме III, следующим образом: ».-[(I I 'Т, V,-(U" )+ В силу этого определения условие 2° теоремы III очевидным образом удовлетворяется. Поэтому для того, чтобы можно было воспользоваться теоремой III, остается проверить только условие 1° теоремы III. Если это будет сделано, то в силу теоремы III бу- п. н. п.н. __ дет установлено, что ип------->0 и Vn------>0 при я->оо. Но поскольку по условию Г теоремы Дворецкого ап->0, то отсюда сразу будет вытекать, что и | хп |--’->0. Кроме того, в силу тео- ремы III отсюда также будет следовать, что при 0 < 1 lim Af {£/₽}= lim Af {[( |х" | — an_1)+]2P} = 0. П-»оо J П-»оо Из последней же формулы следует, что и lim М {|хп|2Р} = 0, р<1. П-»ОО Действительно, поскольку в силу свойства 2) функции «+» I Хп К ап-1 + (I xn I - ап-1)+, то, применяя очевидное неравенство (z1 + z2)° С 2Р (zf + z£), спра- ведливое для любых неотрицательных чисел z, и z2, имеем при р = 2р \хп К < 2Х-! + 2р [(I *п I - a„_0+f = 2pap_, + 2Р<
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 173 Поэтому из art->0 и М -> 0 (0 < 1) заключаем, что при любом р « 20 < 2 и lim М { [ хп |р} « 0. П-»оо Таким образом, чтобы завершить доказательство остается проверить выполнение условия 1° теоремы III. С этой целью введем в рассмотрение вектор теоремы, Тп, если |Гга|<ага, Уп = если |7'"|>ал. (59) Легко проверить, что из определения (59) следует и (Г 1 Уп К ап п-уп)2 = 1(\Тп\-ап)+]2. (60) (61) Используя свойство 4) функции «+» и полагая l = an^ g — yn f^xn+l, имеем Гп+1^(|хл+Ч-ап)+<1^+1-«/”1 (62) Un+l ^ [(| х"+Ч - «п)+12 < (х"+1 - Уп)2- (63) Заменяя в (63) хп+1 выражением (51), получаем Un+l С (Тп - упУ 4- 2 (Zn, Тп - уп) 4- (Zn)\ (64) Из формулы (61) и (64) следует теперь, что Un+l = [(I х«+Ч - ап)+Г < [(| Тп I - а„)+]2 + (65) где Jn = 2(Zn, Т" — #Л) 4-(Z")2. (66) Докажем, что (I Тп\— ап)+ <| [(1 +bn) | хп |-а„]+ -Уп I. (67) С этой целью используем условие (53) теоремы Дворецкого. Если | Тп | Яи> то неравенство (67) очевидно, так как левая часть обра- щается при этом в нуль. Если же | Тп | > ап, то в силу условия (53) ап<\Тп\<(1 + Ьп)\хп\-уп, (68) и поэтому (1 + MI хЛ|-ап>уп>0, (69) так что знак «4-» в обеих частях неравенства (67) может быть отброшен; получаемое при этом неравенство сразу следует из нера- венства (68). Легко проверить, что из (67) следует неравенство (| Тп\— ап)+ < I (1 + Ьп) (|х”|-«„-!)+ -Yn + tlnl (70) где П«=(- «п+(1 +Ьп) an-i)+. (71)
174 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Если | Тп | сзп, то неравенство (70) очевидно; если же | Тп ( > ап, то вновь выполнено неравенство (69), и в этом случае из (67) сле- дует, .что (I Тп I - ап)+ < [(1 + Ьп) | хп | - ап]+ - = (6 + Л)+ -у„. где обозначено 0 = (1 + bn) (|x"|-art-i), Т)= - ап + (1 + Ъп) ап-\. Воспользовавшись свойством 3) функции «+», получаем (70). Возведем неравенство (70) в квадрат и воспользуемся легко проверяемым неравенством (и + и)2 (1 + у) и2 + v (1 + v), справед- ливым при v 0, положив при этом u = (l + bn) (|х"| - an_i)+ - уп, v = В результате получаем [(I Тп I - a„)+]s < (1 + Т]„) [(1+ bn) ( | хп | - ап-г)+ - у„]2 + + Пп(1+Пп). (72) Усилим теперь неравенство (65) с помощью неравенства (72). В результате после выполнения Операции возведения в квадрат квадратной скобки в правой части последнего неравенства получим Un+i < (1 + Пга) (1 + Ьп)2 ип - 2 (1 + Т]„) (1 + Ьп) ЧпУп + + (1 + MV« + n„(1+!)„) + $„• (73) Возьмем условное математическое ожидание от обеих частей этого неравенства: xn}<(l+g„)(/„-Y„V„ + ?„(x',.... хп), (74) где введены обозначения: Hn=n„ + 26ra + &2+Tl„(2«>„ + &2). (75) Уп = 2 (1 + i]„) (1 + Ьп) уп, (76) ?Л = (1+П„)У2 + П„(1 + »]„) +Л1 { | Z" |2| х1, х"}. (77) В (77) учтено уже, что в силу определения (66) Ж {£„ | х1, xn}=2(M{Zn\x\ ...,х"}, Tn—yn)+M{\Zn\2\xl, ...,х"}, а по условию (52) М {Zn lx1,..., хп} = 0. Для того, чтобы показать, что неравенство (74) совпадает с ус- оо ловием Г теоремы III, остается установить, что суммы ря и 1 оо сю 2 сходятся, а ряд уп расходится. 1 1
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 175 Заметим, что в формуле (71) можно опустить операцию «+», так как в силу условия (57) и неотрицательности чисел ап и Ьп выражение под знаком «+» в (71) неотрицательно, и ОО ОО ОО У) 'Ли ~ (ЛИ —1 ап) 4" 2 !• 1 1 1 Оба ряда в правой части этого выражения сходятся в силу усло- ОО вий (54) и (55) теоремы. Таким образом, ряд 2 Цп сходится. 1 оо Сходимость суммы 2 Ни следует теперь в силу определе- 1 оо оо ния (75) из того факта, что сходятся ряды S Пи и S (послед- 1 1 ний ряд сходится по условию (55) теоремы). Сумма математических ожиданий оо оо оо 2 м {М = 2 [(1 + М й+(J + n„)] + 2 м (Izn I2) 1 1 1 оо . оо СХОДИТСЯ потому, ЧТО СХОДЯТСЯ суммы 2 Пи» S Vn (В СИЛУ Усло' 1 1 оо вия (58) ) и Л4 {| |2} (в силу условия (52) теоремы). 1 оо Сумма же уп расходится, так как по определению (76) 1 оо Уи > Уи» а сумма 2 Yn расходится по условию (54) теоремы. 1 Этим замечанием исчерпывается доказательство теоремы Дво- рецкого, так как доказано выполнение всех условий теоремы III. В формулировках доказанных выше теорем I—III оо требование сходимости ряда является сущест- венным. Формулируемая ниже теорема V позволяет осла- бить это требование за счет существенного усиления ус- ловия 2° этих теорем. Отказ в теореме V от требования сходимости ряда 2 М {£и} позволит в дальнейшем (см. 1 § 4) отказаться в некоторых случаях от обычного для
176 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА алгоритмов стохастической аппроксимации требования (6а) на последовательность уп, заменив его требова- нием (66). Теорема V. Пусть функции (7) удовлетворяют ус- ловиям. 1°. Условию А, причем lim = 0 и М {£„} = апуп, lim а„ = 0. 2°. Существует такая константа А > 0, что Тогда Vn(yl, .... yn)^AUn(y', .... Уп). lim М {Un} = 0, П->оо и последовательность случайных величин Un стремится к нулю по вероятности при п—*оо. Доказательство теоремы V. Как было по- казано при доказательстве теоремы I, только лишь из условия А следуют соотношения Al{A„+1|j/', yn}^An-ynVn + CZn, (78) (J Ufl • (79) Поэтому эти соотношения верны и в условиях теоремы V. Используя условие 2° теоремы V, с помощью (78) и (79) после перехода к безусловным математическим ожида- ниям получаем: ^n+1<(l-YnX + gn, (80) л где Afn = M{Art}, £п = СЛ1{£п} и величины -grYn обозна- чены вновь через уп. Теперь из условия 1° теоремы V следует ln-Canyni (81) где lim ап = 0. Из неравенств (80) следует, что П->оо п — 1 п—2 п—1 Мп<11(1-^)М( + С 21 afeYfe II (1 - Ys) + Can-^^-1. k=l k=l -s=fc+l (82)
§ 3 ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 177 Для установления того факта, что lim М {£/„} = 0, доста- П->оо точно показать, что limAfn = 0 (см. (79)). Из условия 1° П->оо следует, что первый и третий члены в правой части (82) стремятся к нулю при п->оо. Поэтому для доказатель- ства утверждения lim Мп == 0 остается доказать, что П->°о п—2 п — 1 4 = 2 «аYa П (1-Ys)-*0- &=1 s=Aj+1 Введя величины п-1 ^ = П (i-ys). s—k можно написать п-2 Jn= 2 аДС+i-C). (83) /г = 1 Для любого натурального m, —2, из (83) следует неравенство Jn < a S «+1 - (См - С) = = а (С - С + em (C-i - &m), где а = max с^, em = max ak. Поскольку 0^^^ 1, 1 =C k < OO tn^.k<oo последнее неравенство можно усилить: n 4 < а П (1 ~ Ys) + em. (84) т Из того факта, что а„-»0, следует, что и limem = 0. Ш->оо оо Кроме того, из расходимости ряда следует, что 1 п lim Ц (1 — ys) == 0 при любом фиксированном т. Поэтому п->оо т (84) гарантирует, что ]п—>0 при п—>оо. Таким образом, доказано, что lim Мп = 0, а следовательно, и утвержде- П->оо пие теоремы V. 12 М. А. Айзерман и др.
178 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА При сопоставлении теорем III и V может показать- ся, что условия теоремы V достаточны для установления сходимости последовательности Un к нулю не только по вероятности, но и почти наверное, так как условие 2° теоремы V заведомо более сильное, чем соответствующее условие теоремы III. Однако это не так; можно привести пример случайного процесса, который, удовлетворяя ус- ловиям теоремы V, не сходится почти наверное. Пусть случайный процесс Uп принимает два значе- ния: 0 и а == sup где > 0, п = 1, 2, ... — числовая 1 О < °о сю последовательность, для которой lim = 0 и 2 = 00 • 1 Положим Un+i = 0 с вероятностью единица, если Un = a, и lac вероятностью ^n/a n+i 1 0 с вероятностью 1 — если Un = 0. Легко проверить, что этот случайный про- цесс удовлетворяет условиям теоремы V с = 0, Vп = «(I/ sup YzJUn с произвольным y«, удовлетворяющим условию Г, и вместе с тем Un не стремится к нулю почти наверное. Этот процесс является одновременно примером про- цесса, сходящегося к нулю в среднем и по вероятности, но не сходящегося к нулю почти наверное. Тем самым оо сходимость ряда 2 М {£„} (а именно этим и отличается 1 условие 1° теоремы III от соответствующего условия тео- ремы V) оказывается существенной для самого факта сходимости почти наверное. С другой стороны, относи- тельная. слабость условия 2° теоремы III не позволяет установить стремление к нулю математических ожида- ний M{t7n} — этот факт подтверждается приводимым ниже примером; теорема III устанавливает лишь стрем- ление к нулю М {Un} при р < 1. В качестве процесса, удовлетворяющего условиям тео- ремы III и вместе с тем такого, что A4{t7ri} не стремится к нулю при Пт->оо, рассмотрим следующий процесс Un.
§ 3. ОСНОВНЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 179 Если Un = 0, то Un+l = 0 с вероятностью единица. Если же Un =/= 0 при п > 2, то {О с вероятностью 1/п, п 4- 1 с вероятностью 1 — 1/п, и, кроме того, Ui = (72 = 1. Легко проверить, что этот процесс удовлетворяет условиям теоремы III с р?? = 0, Уп = 1/п Щ {О, если Un = О, 1, если Un=£0 при п >2, Vj = 0. При этом оказывается, что при п >2 безусловные вероятности равны Bep{t/„ = n} = -^T, Вер{(/„ = 0}=1-7^т И м{ип}=-^, так что lim М {{/„} = 1, а не нулю. Разумеется, при этом, П->оо как и утверждается в теореме III, М [Un]==n$ln~- 1 стре- мится к нулю при любом р < 1. Этот пример служит одновременно примером случай- ного процесса, сходящегося к нулю почти наверное, но не сходящегося в среднем. Приведенные выше теоремы I—V приспособлены к установлению сходимости процессов, в которых уп 0 при п —> оо. Для установления сходимости процессов, в которых уп является не зависящей от п постоянной, при- менима следующая теорема VI. Теорема VI. Пусть функции (7) удовлетворяют оо • условию А, причем уп=^а> 0 и 2 М {£„}< °°. Тогда 1 lim М {И„} — 0 П-+оо ~ и, кроме того, последовательность случайных величин Vn стремится к нулю почти наверное при п~* оо. Доказательство теоремы VI. Поскольку в силу условия А выполнены соотношения (23) и (24) из 12*
Тео- рема I Условие 1° lim yn = 0; co 2^{W<°°. 1 Условие 2° M {Vn+l |j/« J/"}<(1 + + Ayn) Vn(y' y") + Byn +1)„; Пп > 0; 2 м {*1п} < °°. 1 Утверждение J lim Al{Vn} = 0. ' rt-> oo Если В = 0, то, кроме того, ; TZ п. н. Vn >0. la To же условие + An(yl yn)Vn) Vn + + вп(у' f/")Yn+fin; An(y' yn)<A(R), Bn(y\...,yn)^ < В (R) при lyl 1 < R; i1n>0; 2Af{T)n}<°°. 1 Vn^O. II To же условие Для множества реализаций вероятности большей, чем 1 — д Vn+1 С (1 + А6уп) Vп +вьуп+ ОО Пп>0; 2 т1п<°°- 1 *0. j 1 1 1 - г 1 Ila lim = П->оо oo 2 лш„}<оо. n=l V„+I < (1 + Ап(у\ ..уп) Y„) Vn + + Вп (у1,..у41) уп + т)„; Ап (у1,..уп) < A (R), Вп (у1 уп)< <B(R) при Ij/'Kfl; ОО Пп>0; 2т1л<°°- 1 Vn-!bi>0. III To же условие На почти каждой реализации, если lim V„ =0, то и lim Un =0. fe-»oo nk k • Un— ->0; Af{i7P}->0, ₽<1. Illa To же условие На почти каждой ограниченной реализации, если lim V„ =0, то и lim U„ =0. fe->OO « k->OO к хт П. H. Un *0; м ₽<1. V lim yn = 0; Af {£„} = апу„; П->оо lim an = 0. Л—>°° Vn(y' yn)> AUn(yl,.... yn). M{Un}->0. VI Yn = cl = const >0; oo 2Miu<~. 1 Af{Vn}^0; Vn-^^Oi
182 ГЛ- IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА доказательства теоремы I, то при выполнении условий теоремы VI выполнены соотношения ^{А„+1(г/', .... z/n+1)lf/', ... <A„-a7„(r/', ...» z/n) + C$„. Переходя от условных математических ожиданий к без- условным и суммируя полученные неравенства, имеем « S М {Vk} < м {Л,} - м (Ап+1} + с 2 м kj. 1 1 Усиливая это неравенство, получим п оо а 2 Wn}<Af{AJ + CSM(U, 1 1 оо откуда с учетом того, что 2Л1(^}<оо, имеем 1 оо 2m{vJ<°°. 1 Из этого соотношения следует, что (85) lim 7И{Уп} = 0. П->оо Но поскольку величины Vh неотрицательны, из соотно- шения (85) в силу принципа монотонной сходимости (§ 1) следует сходимость последовательности Vh к нулю почти наверное. Теорема доказана. В заключение этого параграфа объединим в общую таблицу предположения и утверждения всех доказанных теорем (за исключением теоремы IV). Во всех этих тео- ремах предполагается,, что выполнено условие А, и по- этому этот факт не отражен в приводимой ниже таб- лице. Условия различных теорем отличаются, во-первых, условиями 1°, которые конкретизируют некоторые детали условия А (первый столбец таблицы) и, во-вторых, усло- виями 2°. Во всех теоремах, номера которых содержат индекс «а», предполагается, что последовательность функций Un — бесконечно большая. Поэтому этот факт также не отражен в таблице. В третьем столбце таблицы содержатся утверждения соответствующих теорем.
§ 4. СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА — МОНРО 183 § 4. Условия сходимости процедуры Роббинса — Монро метода стохастической аппроксимации В настоящем параграфе теоремы предыдущего пара- графа используются для установления достаточных усло- вий сходимости процедуры Роббинса — Монро. Напом- ним, что эта процедура заключается в построении после- довательности конечномерных векторов уп = (у”, . удовлетворяющих соотношению (4), и предназначается для решения системы уравнений регрессии Мх{Ф1(у1,у2,...,ут,х)} = 0, (86) где х — случайная величина с фиксированной, но неиз- вестной функцией распределения вероятностей р(х\у) (быть может, зависящей от у == (z/i,..., ут)), а символ Л4Х{. • •} означает математическое ожидание. При этом возникает задача установления сходимости в том или ином смысле случайной последовательности у], ... ..., упу ... к корням у* = (ур .у*т) системы уравне- ний (86). Приводимые ниже теоремы VII—XI обобщают и до- полняют известные теоремы Дж. Блума [9] и Е. Г. Гла- дышева [10] метода стохастической аппроксимации. Теорема VII, так же как и теоремы Блума и Глады- шева, требует, чтобы решение уравнений регрессии (86) было единственным. Теоремы VIII—XI не требуют един- ственности решения уравнений регрессии. Во всех дока- зываемых ниже теоремах, кроме теоремы XI, предпола- гается, что фигурирующая в (4) последовательность удо- влетворяет обычным для процедуры Роббинса — Монро ограничениям: оо оо 2jYn = °o, (87) Теорема XI позволяет ослабить эти ограничения, заме- нив их условиями (5), (66): оо 2¥п = °°, Yn->0- (88) 1 П->оо Введем в рассмотрение неотрицательную дважды не- прерывно дифференцируемую функцию U(y) векторного
184 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА аргумента у = (уь..., ут) и рассмотрим также функции т У(у)^-Мх1^-^-Ф1(у, х) №п(у)^Мл 'дЮ dzi dzk X 2 = // + 0УпФ (У, X) X Ф, (г/, х) Ф* (у, х) Во всех теоремах настоящего параграфа предпола- гается, что функции V(y) и Wn(y) существуют и что выполнено следующее условие. Условие Б. У(г/)> 0, и при любом п 1 Wn(y)^aU(y) + bV(y) + c9 где а, Ь, с — некоторые константы. Кроме того, без специальных оговорок предполагает- ся существование в силу случайного процесса у1, ... ..., уп, ..., математических ожиданий*) M{U(yn]} и YJW{VQ/n)}. Обратим внимание на некоторые особенности исполь- зования теорем предыдущего параграфа при доказатель- стве теорем VII—XI. Роль условия Б в теоремах настоящего параграфа заключается в том, что выполнение этого условия гаран- тирует, что случайные последовательности Un(y\ yn)^U(yn), Vn(yl, УП)^У(УП) в силу рекуррентной процедуры (4) и условия (87) удо- влетворяют условию А (см. § 2) с той лишь несущест- венной разницей, что неравенства (8) в условии А вы- полняются, начиная с некоторого п =п*, вообще говоря, *) В условиях теорем настоящего параграфа факт существова- ния математических ожиданий М {U (ул)} и уп М {V (уп)} может быть доказан из (93) и (99), если дополнительно предположить, что при всех п 1 величина уп меньше некоторой константы.
§ 4. СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА - МОНРО 185 | не обязательно равного единице (см. далее формулу (93) I при доказательстве теоремы VIII). При этом н„=4а?«> I и поэтому в силу (87), кроме того, I 00 I limy„ = 0, 2?„<оо. (89) I п ->00 1 I В теоремах VII—X соотношения (87) предполагаются | выполненными, и поэтому в условиях этих теорем ока- зывается выполненным условие А, дополненное соотно- г шением (89). В связи с этим в условиях теорем VII—X выполнено условие 1° теорем I—III из § 3. В теореме XI, в которой требование (87) заменяется более слабым требованием (88), из условия Б также следует условие А, но для установления этого факта при- ходится использовать дополнительное ограничение (усло- вие 2° теоремы XI). При этом (см. формулу (99) при , доказательстве теоремы XI) I ив силу (88) выполнено условие 1° теоремы V § 3. 2 Для того, чтобы можно было использовать теоремы | § 3, надо еще обеспечить выполнение остальных условий I этих теорем. Кроме того, надо гарантировать, что из фак- 1 та стремления U(yn) или V(yn) к нулю (а этот факт и устанавливается теоремами § 3) следует сходимость слу- чайной последовательности у1, ..., уп, ... к решению си- J стемы уравнений (86). Этим целям и служат остальные г условия теорем VII—XI этого параграфа. Теорема VII. Пусть у1, ..., уп, ...— случайный про- цесс, определяемый соотношениями (4) и (87), а у* — решение уравнений (86). Пусть, далее, функция U(y) удовлетворяет условиям: 1°. Условию Б; 2°. U (у*) = 0 и inf U (у) > 0 для любого е > 0; I У~У*\ >е | 3°. inf V (у) > 0 для любого е > 0. I
186 -ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Тогда при п-><х> случайный вектор уп стремится к у* почти наверное: уп—+у\ (90) Если функция U (у) — бесконечно большая, т. е. lim t7(t/) = oo, |£/|->oo то утверждение (90) имеет место и в случае, когда усло- вие 3° заменяется более слабым условием За°. inf V (у) > 0 для любых R > е > 0. R > I У~У* I > е Ниже будет показано, что теорема VII является ча- стным случаем более общей теоремы VIII, в связи с чем специальное доказательство теоремы VII не проводится *). Теорема VII позволяет устанавливать сходимость про- цедуры Роббинса — Монро лишь в том случае, когда ре- шение системы уравнений (86) единственно. Требование единственности решения системы уравнений регрессии отражено в условиях 2° и 3° (или За°) теоремы VII. Для того чтобы сформулировать теорему VIII, обо- значим через У* множество решений системы уравне- ний (86) и будем говорить, что уп стремится к У* при п —* оо по вероятности (или почти наверное) если рОЛ Г)= inf (pQA Г) y^Y* Теорема VIII. Пусть у* 1, уп, ...—случайный процесс, определяемый соотношениями (4) и (87). Пусть, далее, функция U (у) удовлетворяет условиям: 1°. Условию Б. 2°. Inf U(y) > 0 для любого 8 > 0. Р(х/, У*)>е *) Теорема VII является непосредственным обобщением резуль- татов Дж. Блума и Е. Г. Гладышева. Теоремы Дж. Блума [9] и Е. Г. Гладышева [10] получаются из теоремы VII при конкретиза- ции значений констант а, b и с в условии Б и при специальном выборе (теорема Гладышева) вида функции U(y).
§ 4. СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА - МОНРО 187 3°. Для каждой последовательности у\ ..., уп, ..., на которой lim VG/n) = O, одновременно и lim t/(z/n) = O. П-»оо П->оо Тогда при п->оо случайный вектор уп стремится к У* почти наверное*. уп Г. Если же функция U(y) — бесконечно большая, то ус* ловия 2° и 3° могут быть заменены более слабыми усло- виями'. 2а°. Функция U (у) может обращаться в нуль лишь в точках из У*. За°. Для каждой ограниченной последовательности, на которой lim V (уп) = 0, одновременно и lim U (уп) = 0. П->оо П->оо Прежде чем перейти к доказательству теоремы VIII, сформулируем и докажем лемму III, которая нам пона- добится также для доказательства теорем IX и X. Лемма III. Пусть Т(у)^0 — непрерывная функция, обращающаяся в нуль на множестве У. Пусть, далее, задан случайный процесс ух, ..., уп, ..., почти все реа- лизации которого ограничены. Тогда, если при пг^оо Т(уп)-^+0 (или Т(уп)-р+6), то ' уп У (соответственно уп Доказательство леммы III. Докажем, напри- мер, что из Т следует у11 —У. Соответ- ствующее доказательство для случая Т(уп)— >0 прово- дится совершенно аналогично. Покажем сначала, что для любых х>0 и С>0 найдется такое е = е(С, х)>0, что из условий и | у | С следует, что р (у, У)^х. Предположим про- тивное, т. е. что найдется такое х>0 и С>0, что для каждого е>0 существует точка у (в), для которой П*/(еЛ<е, |«/(e)|<C, р [у(е), У] > й. Выберем последовательность еь ег, ..., 8&, ..., такую, что lim ей = 0, и рассмотрим последовательность точек /г->оо у(ъъ)- Поскольку эта последовательность ограничена, из
188 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА нее можно выбрать сходящуюся подпоследовательность. Пусть у— ее предельная точка. В силу непрерывности по у функций Т(у) и p(z/, У) для предельной точки дол- жны бы были быть справедливыми соотношения ИМ р(£, У)>%>0. Эти соотношения противоречат определению множества У: в силу этого определения у должно принадлежать У и, следовательно, должно быть выполненным соотноше- ние p(z/, У) = 0. Тем самым доказано существование функции е(С, х)>0. Для завершения доказательства по- кажем, что утверждение леммы III следует из существо- вания функции е(С, х) и из факта ограниченности почти всех реализаций случайного процесса у\ ..., уп, ... Утверждение уп ——У леммы означает, что для любых х>0 и б>0 найдется такой номер п*(х, б), что вероятность множества реализаций, для которых при всех п п*(х, 6) больше, чем 1—б. Чтобы найти п*(х, б) и тем самым доказать лемму, поступим следующим образом. Для за- данного б найдем такое С (6/2), что на множестве реа- лизаций вероятности большей, чем 1 — 6/2, выполнено условие |Г1<С(6/2), и=1, 2, ... Такое множество реализаций найдется в силу ограни- ченности почти всех реализаций случайного процесса. По С(6/2) и х найдем такое е(С(6/2), х) > О, что p(z/n, У) 4^х, как только Т(уп)^.е и | уп | С(6/2). По выбранному е = е(С'(6/2), х) найдем такое п*(е, 6/2), что вероятность множества реализаций, для которого при всех п<>и* (е, 6/2) Т(уп)<е, больше, чем 1—6/2. Такое п*(е, 6/2) существует в силу условия Т (уп) - - > 0. По построению найденное п* та- ково, что множество реализаций, для которых при всех п > п* р(уп, У)<х
§ 4. СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА — МОНРО 189 имеет вероятность, не меньшую, чем 1 — 6. В силу про- извольности х и 6 это означает, что Лемма III доказана. Доказательство теоремы VIII. Доказатель- ство этой теоремы опирается на теоремы III и Ша § 3. Покажем сначала, что при выполнении условий 1° и 3° теоремы VIII функции ип (у', ..., уп) - U ю, Vn (у1, уп) - V (уп) удовлетворяют условиям теоремы III § 3, а в слу- чае, если U (у) — бесконечно большая функция и вы- полнены условия 1° и За° — удовлетворяют условиям теоремы II 1а § 3. Действительно, в силу рекуррентной процедуры (4) имеем ип+1 = и(уп + упФ(уп, хп)). Воспользовавшись разложением Тэйлора с остаточным членом в форме Пеано, получаем т ип+1 = ип + уп^^Ф1(уп, хп) + /=«1 2 1 у дЧЦгг..........z„) 2 dzidZk i, Jfe-1 Ф1<Уп,хп)Фк(уп,хп), (91) где 0 ^0^1. Переходя к математическому ожиданию по хп, получим (ад и поэтому в силу условия Б «(1Н < (1 + т »V!„) и„ - г„ (1 - V. +1* (93) В силу условий (87) соотношение (93) влечет за собой выполнение условия Г теоремы III § 3, начиная с такого
188 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА нее можно выбрать сходящуюся подпоследовательность. Пусть у— ее предельная точка. В силу непрерывности по у функций Т (у) и р(у, У) для предельной точки дол- жны бы были быть справедливыми соотношения Т(у) = 0, р(у,У)^и>0. Эти соотношения противоречат определению множества У: в силу этого определения у должно принадлежать У и, следовательно, должно быть выполненным соотноше- ние р(^, У) = 0. Тем самым доказано существование функции е(С, х)>0. Для завершения доказательства по- кажем, что утверждение леммы III следует из существо- вания функции е(С, х) и из факта ограниченности почти всех реализаций случайного процесса у\ ..., уп, ... Утверждение уп • п‘ н'-> У леммы означает, что для любых х>0 и б>0 найдется такой номер п*(х, 6), что вероятность множества реализаций, для которых при всех п м*(х, 6) р(уп, УХк больше, чем 1—б. Чтобы найти п*(х, 6) и тем самым доказать лемму, поступим следующим образом. Для за- данного б найдем такое С (6/2), что на множестве реа- лизаций вероятности большей, чем 1 — 6/2, выполнено условие |Г1<С(б/2), п= I, 2, ... Такое множество реализаций найдется в силу ограни- ченности почти всех реализаций случайного процесса. По С(6/2) и х найдем такое е(С(б/2), х) > 0, что р(г/п, У) -<х, как только Т(уп)^.г и |уп|-^ С(б/2). По выбранному 8 = е(С(6/2), х) найдем такое п*(8, 6/2), что вероятность множества реализаций, для которого при всех п>п* (е, 6/2) Т(уп)^е, больше, чем 1—6/2. Такое п*(8, 6/2) существует в силу условия Т (уп) 0. По построению найденное я* та- ково, что множество реализаций, для которых при всех и > п* p(f/n,
§ 4. СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА - МОНРО 189 имеет вероятность, не меньшую, чем 1 — 6 В силу про- извольности х и б это означает, что p(fA У)-2^0. Лемма III доказана. Доказательство теоремы VIII. Доказатель- ство этой теоремы опирается на теоремы III и Ша § 3. Покажем сначала, что при выполнении условий 1° и 3° теоремы VIII функции ип (у1,.. •, уп) = и (уп), Vn (у1, ..., уп) = V (у") удовлетворяют условиям теоремы III § 3, а в слу- чае, если U {у) — бесконечно большая функция и вы- полнены условия 1° и За° — удовлетворяют условиям теоремы II 1а § 3. Действительно, в силу рекуррентной процедуры (4) имеем ип+х = и(уп + УпФ(у\ х")). Воспользовавшись разложением Тэйлора с остаточным членом в форме Пеано, получаем тп Un+i-Un + Vn^ Ф, (уп, ХП) + i=*l тп + Vnl S I Й(Т(91) ik-i aziozk 1г-у+У„6Ф где Переходя к математическому ожиданию по хп, получим (92) и поэтому в силу условия Б « (19") < (1 + ' “ViO и. - V. (1 - V. + 4 (93) В силу условий (87) соотношение (93) влечет за собой выполнение условия 1° теоремы III § 3, начиная с такого
190 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА и*, что уп<2!Ь при п>п*. Условие же 2° теоремы III выполнено, поскольку оно совпадает с условием 3° тео- ремы VIII. Поэтому при выполнении условий 1° и 3° тео- ремы VIII в силу теоремы III § 3 при п—► оо W)—->0. (94) Условие 2° гарантирует при этом, что Таким образом, первая часть теоремы VIII доказана. Если же U(y)— бесконечно большая функция, то усло- вие Г теоремы Ша § 3 также выполнено в силу (93), а условие За° теоремы VIII гарантирует выполнение условия 2° теоремы Ша § 3. Условие 3° теоремы Ша следует из того, что последовательность Un~U(yn) — бесконечно большая, поскольку функция U(y)—беско- ’ нечпо большая. Тем самым в силу теоремы Ша уста- навливается справедливость (94) и в этом случае. Кроме того, при доказательстве теоремы Ша было установлено, что в условиях этой теоремы почти все реализации слу- чайного процесса у1, ..., уп, ... ограничены. Этот факт, соотношение (94) и условие 2а° теоремы VIII составляют в совокупности условия леммы III, если отождествить U(y) с функцией Т(у), фигурирующей в лемме III. По- этому из утверждения леммы III следует утверждение теоремы VIII. Теорема доказана полностью. Покажем, каким образом из теоремы VIII может быть получена теорема VII. Из условия 2° теоремы VII непо- средственно следует условие 2° теоремы VIII. Выполне- .< ние условия 3° теоремы VIII гарантируется тем, что при ; выполнении условия 3° теоремы VII из V(yn)-+0 сле- дует уп -> г/*, а следовательно, в силу непрерывности U(у) и в силу условия 2° теоремы VII имеет место • 1/(г/п)->0. Условия же 1° теорем VII и VIII совпадают. Тем самым первая часть теоремы VII доказана. Анало- гичными рассуждениями устанавливается вторая часть теоремы VII, когда функция Щу) — бесконечно большая. В случае неединственности решения системы уравне- ний (86) могут оказаться полезными следующие тео-
§ 4. СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА - МОНРО 191 ремы IX и X. Теорема IX устанавливает условия сходи- мости по вероятности, а теорема X — условия сходимо- сти почти наверное. Теорема IX. Пусть ух, ..., уп,... — случайный про- цесс, определяемый соотношениями (4) и (87). Пусть, далее, функции U(y) и V(у) удовлетворяют условиям- 1°. Условию Б. 2°. U (у) — бесконечно большая функция. 3°. Функция V(y) непрерывно дифференцируема и может обращаться в нуль лишь в точках из У*. 4°. Функция {т 1 max dV(z, z„,) I <DZ («/,*)[ oceciozi 'г=^+упеФ(^,х) J мажорируется функцией В (у), не зависящей от пч огра- ниченной в любой ограниченной области изменения пере- менной у = (yi, ..., ут). Тогда при п-*оо случайный вектор уп стремится к У* по вероятности'. уп-^> У*. Доказательство теоремы IX. Докажем сна- чала, что V(z/n)--> О, воспользовавшись с этой целью теоремой 1а § 3. Заметим, что, как показано дри доказательстве тео- ремы VIII (см. формулу (93) и следующий за ней текст), условие Г теоремы III § 3 следует лишь из условия Б и соотношений (4) и (87). Но условие Б и соотношения (4) и (87) выполнены и в теореме IX, а первые условия теорем III и 1а совпадают. Поэтому условие 1° теоремы 1а выполнено. Проверим выполнение условия 2° теоремы 1а. Для этого, воспользовавшись соотношением (4), применим формулу Тейлора к функции V(r/n+1): у с)У(г1, dzt t=i 1<г=г/Л+упеФ (уП, xn) W, Xn), (95) o<e< i.
192 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Переходя в (95) к математическому ожиданию по хп и воспользовавшись условием 4° теоремы IX, убеждаемся, что условие 2° теоремы 1а выполнено, если положить Л-О, Вп^В(уп), = Наконец, условие 3° теоремы 1а следует из условия 2° теоремы IX. Тем самым все условия теоремы 1а выпол- нены, и поэтому V (уп) 0 при /г -> оо. (96) Кроме того, заметим, что, как было показано при доказательстве теоремы 1а, реализации случайного про- цесса z/1, ..., уп, ... ограничены почти наверное. Условие (96), ограниченность почти всех реализаций случайного процесса ух, ..., уп, ... и условие 3° теоремы IX состав- ляют в совокупности условия леммы III, если положить T(i/)= V(y). В силу утверждения леммы III имеет место > хп У*. Теорема IX доказана. Теорема X, устанавливающая условия сходимости по- чти наверное, отличается от теоремы IX лишь условием 4°. Это условие 4° и позволяет доказать сходимость про- цедуры (4) не только по вероятности, но и почти наверное. Теорема X. Пусть ух, ..., уп, ... — случайный про- цесс, определяемый соотношениями (4) и (87). Пусть, далее, функции Щу) и V(y) удовлетворяют условиям 1°—3° теоремы IX и, кроме того, условию 4°. Функции (y) = supФг-{у, х), /=1, 2, m х существуют и ограничены в любой ограниченной области изменения переменной у = (у\,..., ут). Тогда при п-*оо случайный вектор уп стремится к У* почти наверное: Доказательство теоремы X. Доказательство теоремы X совершенно аналогично доказательству тео- ремы IX с тем лишь отличием, что всюду вместо сходи-
§ 4 СХОДИМОСТЬ ПРОЦЕДУРЫ РОББИНСА - МОНРО 193 мости по вероятности устанавливается сходимость почти наверное, и с этой целью используется не теорема 1а, а теорема Па из § 3. Для доказательства того факта, что yn)^V(yn)^^0, (97) нужно проверить выполнение условий теоремы Иа. Усло- вие 1° теоремы Иа совпадает с уже проверенным при доказательстве теоремы VIII соответствующим условием теоремы III (это устанавливается лишь с использова- нием условия 1° теоремы VIII, которое совпадает с усло- вием Г доказываемой теоремы). Условие 2° теоремы Па следует из (95) и из условия 4° теоремы X. Действительно, из (95) следует V (уп+') (уп) + упВ (уп)9 (98) где В(уп)^ s^sup max х o<e<i т V dV(zu.. dzt п ФДуп, хп) » zm. 'г=уП+упеФ (уп. Функция В (у) ограничена при любых ограниченных у в силу условия 4° теоремы X и непрерывности частных производных дУ/дуг. Поэтому соотношение (98) гаран- тирует выполнение условия 2° теоремы Иа. Условие же 3° теоремы Па следует из того, что функция U(у) бес- конечно большая. Поскольку все три условия теоремы Па выполнены, в силу утверждения этой теоремы справедливо соотноше- ние (97). Кроме того, как было доказано при доказа- тельстве теоремы Па, почти все реализации случайного процесса у\ ..., уп9 ... ограничены. Условие (97), огра- ниченность почти всех реализаций случайного процесса у1, ..., уп9 ... и условие 3° доказываемой теоремы со- ставляют в совокупности условия леммы III. если поло- жить Т(у)= V(y). В силу утверждения леммы III Теорема X доказана. 13 М. А. Айзерман и др.
194 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Условие 4° теоремы X является в приложениях весьма ограничительным. Например, если пытаться использо- вать эту теорему для доказательства сходимости проце- дуры восстановления неизвестной функции (см. гл. VI), то это условие означало бы, что ошибка измерения зна- чения функции должна быть ограничена. В следующем параграфе будет приведена приспособленная к особен- ностям метода потенциальных функций теорема, не об- ладающая этим недостатком. Докажем теперь теорему XI, которая отличается от других теорем этого параграфа тем, что вместо усло- вия (87) на выбор последовательности уп в ней фигури- рует условие (88). Теорема XI. Пусть у\ ..., уп, ... — случайный про- цесс, определяемый соотношениями (4) и (88). Пусть, далее, функции U (у) и V(у) удовлетворяют условиям'. 1°. Условию Б. ' 2°. Условию 2° теоремы VIII. 3°. У(#)> АП (у), где Л>0— некоторая константа. Тогда при п-*оо случайный вектор уп стремится к Y* по вероятности: yn—->Y\ Условие 3° теоремы XI, очевидно, является сущест- венно более сильным, нежели соответствующее условие теоремы VIII. Именно благодаря усилению этого условия оказывается возможным отказаться от требования (87), заменив его более слабым требованием (88). Однако при этом сходимость случайного процесса у1, ... уп, ... до- казывается не почти наверное, а лишь по вероятности. Несмотря на то, что условие 3° теоремы XI является жестким, в приложениях это условие часто выполняется. В качестве примера можно привести процедуру Роб- бинса — Монро для определения среднего значения слу- чайной величины х. При этом у”+1 = г/«4-у„ (хп-уп), и, положив U (у) = (у — М {х})2, имеем V(y) — 2U(y), и из теоремы XI заключаем, что уп Л4{х), если последовательность уп удовлетворяет требованиям (88).
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 195 Условие 3° теоремы XI выполняется также при ис- пользовании метода потенциальных функций в некоторых задачах обучения (см. гл. VI и VII). В случае единственности решения системы уравне- ний (86) условие 2° теоремы XI может быть заменено бо- лее просто проверяемым условием 2° теоремы VII, по- скольку в случае единственности из условия 2° теоремы VII следует условие 2° теоремы VIII (см. текст, следую- щий за доказательством теоремы VIII). Доказательство теоремы XI. Докажем, что U (уп) —0, воспользовавшись с этой целью теоре- мой V § 3. Заметим, что формула (93) получена лишь с по- мощью условия Б и поэтому имеет место и в условиях теоремы XI. В силу условия 3° теоремы XI из (93) следует м {Un+l |у"} < Un - у„ (1 - у„) Vn +|у*. (99) В силу условий (88) соотношение (99) влечет за собой выполнение условия 1° теоремы V, начиная с такого п*, что при имеет место yn < 2l(alA + b). Условие же 2° теоремы V совпадает с условием 3° теоремы XI. По- этому в силу теоремы V U(yn)-?+O. (100) Утверждение теоремы XI следует из условия 2° и соот- ношения (100). Теорема XI доказана. § 5. Условия сходимости процедур метода потенциальных функций В настоящем параграфе устанавливаются теоремы, из которых следуют условия сходимости процедур ме- тода потенциальных функций (см. гл. II) r+lW=</T(x)+r^U xn+1) (101) в тех случаях, когда ?^1, r" = yn[r(f”(z+'). f (х"+1)) + Г+Ч. (102) 13*
196 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Как показано в главе II, процедура (101) можетбыть записана с учетом (102) в эквивалентном «персептрон- ном» виде: cn+1 = сп + уЛ [г ((сп9 ф (xn+1)), f* (xn+1)) + |n+1] ф (xn+1), (103) где вектор сп — бесконечномерный, если потенциальная функция представима бесконечным рядом оо оо к(х, у) — 2 (х)ф/0/) = St/ (104) i Процедура (ЮЗ) является частным случаем проце- дуры (4). Поэтому в тех случаях, когда ряд (104) ко- нечен и вектор сп — конечномерный, к процедуре (103) применимы условия сходимости, доказанные в § 4. Од- нако, как показано в главе II, особенность процедуры (103) как в конечно-, так и в бесконечномерном случае (в отличие от общей процедуры (4)) заключается в том, что можно определить функционал, экстремизируемый этой процедурой. Эта особенность процедуры (103) и позволяет дать специфические для нее условия сходи- мости, которым и посвящен настоящий параграф. Вернемся к основной процедуре (4). Будем считать, что вектор-функция Ф(у, х)| = {Ф/(у, х)} такова, что j Ф2 = 2 Ф2(у. х)<оо I 00 'I при | у |2 = S (у$< 00 и при любом фиксированном х. | Легко видеть, что при этом в силу процедуры (4) \уп\2 < | < оо, если только | г/° |2 < оо (сравни аналогичное утвер- | ждение в § 4 главы II относительно общей процедуры • (!), (П)). Наложим теперь такие ограничения на вид функций Фг (у» , которые учитывают отмеченную выше специ- фику соотношений (103). Рассмотрим математическое ожидание К(у)=-Мя{Ф(у, х)} (105)
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 197 и определим интеграл у2 / R{y)dy, У1 как интеграл по отрезку прямой // = (1 — ц)у1 +|lu/2, соединяющему точки у1 и у2, следующим образом *): у2 1 J R(y)dy = | (/?((! -ц)г/' + РУ2), у2-у') йц. (106) I/1 о Будем говорить, что интеграл J R(y)dy не зависит от пути, если для любых трех точек г/1, у2, z имеет место равенство Z I/2 у2 / R(y)dy+ J R(y)dy = J R (у) dy. (107) yl Z yx Введем в рассмотрение функцию У Цу) = / R{y)dy. (108) о В тех случаях, когда функция /?(//) такова, что инте- грал J R(y)dy не зависит от пути, имеет место ра- венство у2 1(у2)~Ну') = J R(y)dy. (109) У1 Функция J (у) при выполнении условия (109), как это будет видно в последующих главах, и будет играть роль экстремизируемого функционала в конкретных примене- ниях процедур метода потенциальных функций. *) Здесь, как и всюду в этой книге, символ (а, Ь) означает ска- лярное произведение векторов а и Ь,
198 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Будем говорить, что функция R(y) монотонна, если для любой пары точек у1, у2 справедливо неравенство *) <R(y2)-R(y'), у2-у!)>о. (по) В отношении функции R(y) всюду далее в этом па- раграфе мы будем требовать лишь существования ин- теграла по прямой и монотонность; каких-либо допол- нительных требований непрерывности на функцию R(y) не накладывается (функция R(y) может иметь раз- ' рывы). Покажем, что если функция R(y) монотонна и инте- грал J R (у) dy не зависит от пути, то функция /(у) является выпуклой**). Действительно, вычислим значе- ние функции I (у) в точке y = (l-K)yl + Ky2, 0<Я,<1. I Учитывая условие (109) и определение (106), имеем Uy) = J(«/')+ / (/?((!-И)f/1 + РУ), y-y')dy.= | о | « I = J(y') + h J (7?((1 -p)z/1 + p^), у2-у')dp. (Ill) 0 5 Но в силу монотонности функции R(y) справедливо не- равенство (/?((! +цу), y2-y1X(R((\ -у) у1 +и/), у2 —у1)- (112) Действительно, в силу (ПО) (/?((! — р) у1 + ру2)-/?((! -р)г/' +ру), ц(у2-у))>0. *) Очевидно, что определение (НО) монотонной функции R(у) в случае, когда у и R — скаляры, эквивалентно определению воз- растающей (не обязательно строго) функции. **) Как известно, функция /(у) называется выпуклой, если для любой пары точек у1, у2 и любого р, 0 р, 1 имеет место нера- венство / ( (1 - и) у' + УУ2) < (1 - и) J (у') + р/ (у2).
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 199 Поскольку же у,(г/2 —#) = ц(1 — А) (г/2 — г/1) и (1—Z)>0, ТО (/?((! ~ц)^ + ру2) — 7?((1 -р)у'+ру), y2-yi)>0i а последнее неравенство эквивалентно неравенству (112). Подставляя теперь неравенство (112) в соотношение (111) и вспоминая снова (109) и определение (106), по- лучаем Hy)^J (У1) + A (J (г/2) - J (г/1)) = (1 - A) J Q/1) + A Q/2), а это и есть определение выпуклости функции J(y). При использовании в следующих главах метода по- тенциальных функций для решения конкретных задач функция R(y) монотонна, и, следовательно, функция J (у)—выпуклая. Более того, при этом оказывается, что монотонной является и функция Ф(//, х) (при каждом фиксированном х). Если распределение вероятностей слу- чайной величины х, входящее в определение (105), не зависит от у (а это предположение обычно выполняется в задачах, рассмотренных в последующих главах), то из монотонности Ф(г/, х) очевидным образом следует моно- тонность /?(/;), а следовательно, и выпуклость J(y). Особенность теорем настоящего параграфа заклю- чается в том, что они, в отличие от теорем § 4, устанав- ливают сходимость значений функционала J (уп) к мини- мальному значению, а не сходимость последовательности уп. Более того, при этом последовательность уп вообще может не сходиться, например, в том случае, когда ми- нимальное значение J(у) достигается на бесконечности. В теореме XIII для конечномерного случая будут опре- делены условия, при которых и уп сходится к области значений, обеспечивающих минимум функционала Цу). Заметим также, что, говоря выше о выпуклости J(y), мы нигде не требовали строгой выпуклости, и поэтому ми- нимум J (у) может достигаться не в одной точке, а на целом множестве. Прежде чем сформулировать интересующие нас тео- ремы, докажем вспомогательное неравенство, которое бу- дет далее использовано при доказательстве этих теорем: (ИЗ)
200 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Из (109) и (106) имеем J (у2) - J(у1) = J (Я ((1 - и) у' + W2), У2 - у') dy. (114) о Но из условия монотонности функции R(y) следует, что (R (/) - R ((1 - и) ух + pi/2), г/2 - [(1 - к) Ух + 4Ч/2]) > 0 и, следовательно, (Я (у2) - R ((1 - ц) у1 + pi/2), (1 - И) (у2 - у')) > 0. Поскольку (1 — р)>0, из последнего неравенства сле- дует (7? ((1 - ц) у' + Hi/2), У2 ~ У1) < (/? (У2), У2 " I/1). (U5) Подставляя (115) в (114), получаем неравенство (113). Сформулируем и докажем следующую теорему. Теорема XII. Пусть в рекуррентных соотношениях (4) вектор Ф(у, х) таков, что функция R(y)=- Мх{Ф(у, х)} У монотонна, а интеграл J(y)= § R(y)dy не зависит о от пути. Пусть, далее, inf J(z/)^7m|n> -ОО, I у2 | < оо мх {Ф2 {у, х)} < а + b (J (у) - Jmtn), (116) где а > 0, b > 0 — константы. Тогда в силу рекуррентной процедуры (4) и усло- вий (87) /(//") при п-+оо. Доказательство теоремы XII основано на использовании теоремы III § 3 этой главы. Рассмотрим множество Ге точек у таких, что гв = {у: /(у)-/тщ<е, 1«/12<°°}- Это множество не пусто по определению точной нижней грани: /mln= inf J (у). I у I2 < оо
§ S. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 201 Расстояние р(уп, Г8) точки уп до множества Г8 определим как: Р20А Ге)= inf \yn~z\2. (117) Очевидно, число р(//п, Г8) существует для любого е>0 и любого уп такого, что \уп\2 < оо, так как 0<P2(fA Ге)<|^-г|2<2(|^|2 + |г|2)<оо при любом z е Г8. Ниже будет показано, что для любого фиксирован- ного в > 0 последовательности *) Ге), = (118) в силу рекуррентной процедуры (4) и условий (87) удо- влетворяют условиям теоремы III, если только выпол- нены условия теоремы XII. Поэтому в силу теоремы III при п-> оо р(гАГе)-^о. (119) Кроме того, далее доказывается, что в условиях тео- ремы ХП последовательность |ограничена почти наверное. Используя неравенство (ИЗ), положив в нем у2 = уп и взяв в качестве у1 точку геГе, например, такую, что 1уп — z|2-<3/2p2(r/n, Ге), получим Луп)<1{г) + \К(уп)\\уп-2\^ </т1п+8 + ||/?(Л1р(!/п, Ге). Отсюда в силу (119) при ограниченности |/?(уп)| сле- дует, что (/(^)~/га1п-8)+~^>0, а поскольку е произвольно, то и /(^)-/тщ—->0. ♦) Напомним, что функция «+» определяется следующим об- разом: (0 при — оо < z < 0, Z При 0<£<оо.
202 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Таким образом, для доказательства теоремы XII до- статочно установить следующие факты: 1. Последовательности функций (118) удовлетворяют условиям теоремы III; 2. Последовательность |/?(z/n)| ограничена почти наверное. Проверим сначала выполнение условий теоремы III. Займемся проверкой первого условия этой теоремы. Для произвольной точки геГе имеем в силу процедуры (4): (уп+1 - z)2 = (уп - z)2 + 2у„ ((уп - г), Ф (уп, хп)) + + ¥^Ф2(у". хп). Переходя здесь к условным математическим ожиданиям и используя затем (116), получим неравенство М {(уп+1 - z)21 уп} < (уп - z)2 - 2у„ (/? (у"), y"-z) + + «Y2 + ftY2(/(y")-W (120) Используя определение (117), можно написать очевид- ( ное неравенство М {(у«+> - z)21 у-} > М {р2 (у"+\ Ге) | у-}, так что из (120) следует М {р2 (у"+1, Г8) | уп} < (уп - z)2 - 2у„ (R (уп), yn-z) + + aY2 + 6Y2(/(y")-/min). (121) Рассмотрим точную нижнюю грань inf (yn-z)2 = p2(yrt, Ге) 2G Ге и последовательность г8ЕГе, s = 1,2, ..., такую, что*) lim(y”-z7 = P2(yn, Ге). (122) S-»oo Если у"еГе, то можно положить zs = yn (s = 1, 2, ...), *) Обратим внимание на то обстоятельство, что в бесконечно- мерном пространстве множество Ге не компактно, и поэтому inf (уп—z)2 может не достигаться, а последовательность г8—не иметь точек сгущения,
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 203 так что W), Уп~2*) = 0, Уп^е. (123) Если же уп то, учитывая неравенство (ИЗ) (поло- жив в нем у2 = уп, у' = zs) и тот факт, что z1 еГе и поэтому / (z^X Jmln + е, получим (R (уп), уп - 2s) > (/ (Уп) - /т1п - 8)+. (124) Объединяя соотношения (123) и (124) для любого уп и s, имеем (R(yn), yn-zs)>(J(yn)-JmXa-z)+. (125) Воспользовавшись неравенствами (121) и (125), после простых преобразований получим для любого $ М {р2 (yn+l, VR)\yn}< < (Уп ~zs)2 - 2у„ (1 - j у„) (/ (уп) - Jmln - в)+ + (а + £>е) у2. (126) При выводе (126) из (121) мы воспользовались очевид- ным неравенством / (уп) ~ /т.п < (/ (уп) ~ /пип - 8)+ + 8. Переходя в (126) к пределу при s->oo и учитывая соотношения (122), получаем ЛЦр2(уп+', Ге)|у")<р2(^, Ге)- -2V,(1 - 4 V.) (I V) ~ - «)* + (« + h) * (127) или, вспоминая обозначения (118), М [un+l | Уп} < <4 - 2y„ (1 - уY„) vn + (a + Ьг) у2, (128) которое совместно с условиями (87) гарантирует выпол- нение условия 1° теоремы III, начиная с некоторого п. Перейдем к проверке условия 2° теоремы III. С этой целью рассмотрим множество Ге/2 и неравенство (127), заменив в нем в на е/2 и усилив его при достаточно боль- ших п за счет отбрасывания неположительного второго
204 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА члена в правой части: м{р2 (уп+\ Ге/2) I у-} < р2 (у\ Ге/2) + (а + |е) у2. (129) В силу (129) и условий (87) (сходимость S Y„) после- довательность Лп = р2(уп, Ге/2) удовлетворяет условиям леммы II (§ 3 этой главы), так что последовательность р2 (уп, Ге/г) сходится почти наверное к некоторой слу- чайной величине и, следовательно, ограничена почти на- верное. Поэтому для любого S найдется такое г(й), что с вероятностью, большей 1 — б, последовательность уп удовлетворяет условию р(уп, Ге/2Хг(б). (130) Покажем, что на последовательностях, удовлетворяю- щих условию (130), выполнено неравенство V„ (J (!/п) - /т1п - 8)+ > 2^у Р (уп, г8) » [У* (131) Действительно, пусть сначала уп ф Г8 и удовлетво- ряет условию (130). Рассмотрим в этом случае после- довательность е Ге/2 такую, что lim(f/n-zs)2 = P2(/l,re/2). (132) s->oo Для каждого з рассмотрим отрезок г/ = (1 -ZJz'+Zz/'1, 0<Л<1 и функцию /5(/.) = /((1-/.)25 + >Л 0<Л<1. Функция /S(X) непрерывна в силу определения (108), причем Z40) = /(z5)<7raln + |; Zs(l) = J(z/n)>JmIn + e. (133) Рассмотрим такое X, 0 < X < 1, что m = /mtn + e, (134) и точку + (135)
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 205 так что в силу (134) ^еГе. (136) Из (135) следует, что i-х 1г/"-у| X Iff -zs\ и, поскольку | уп — у | > р (уп, Ге) (в силу (136) ), I у — 2s |< <\уп — z’| (в силу (135)), то В силу выпуклости функции Is (А.) имеем И (1) - /* (X) /* (X) - £ (0) 1 -X X Используя теперь соотношения (133), (134) и (137), по- лучим 7 (.У J mln 8 2 | — z5 | Р Г®)' (1 Переходя в неравенстве (138) к пределу при s-~*oo, учитывая при этом соотношения (132) и (130), получим, ( что в случае уп Ге, /(yn)-/mln-8>2HdFp(^,re), и, следовательно, в этом случае неравенство (131) вы- » полнено. Если же #пеГ8, то выполнение неравенства (131) > очевидно. Таким образом, неравенство (131) установлено. I Из неравенства (131) следует, что на множестве реа- * • лизаций вероятности, большей 1 — б, из того, что Vn —♦0, * .. следует, что и t/n-*0. В силу произвольности б это озна- чает, что выполнено условие 2° теоремы III. Таким об- разом, проверка выполнения условий теоремы III за- вершена. Приступим к установлению того факта, что последо- вательность |/?(г/п)| ограничена почти наверное. В силу условия (116) теоремы и очевидного неравенства ^2(1/) = 1Л1ДФ(г/, х)}]2<Л1х{Ф2(г/, х)}
206 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА имеем R4y)<a + b(J(y)-JmXn). (139) Возьмем последовательность точек г«еГе/2 и используем неравенство (113), положив в нем ух = zs, у2 = уп; /(^)</mIn + |+(^(yn), откуда Подставляя последнее неравенство в (139), имеем квад- ратичное неравенство для + 4в)<0. (140) Из (140) следует, что при любом s b\yn-zs\ + T/' b2\yn — zs р + 4(а + -|е) IW)K----------------------5-------'----— <141) Выбирая последовательность zs такой, что lim \yn-zs\2~P2(yn, Ге/2) $~>оо и переходя в (141) к пределу при s-»oo, получаем Ьр (Уп, Ге/2) +1/ 62р2 (уп, Ге/2) + 4 ( а + е ) |W)I<--------------------------------------о---------------------?~L. (142) Поскольку последовательность р(уп, Ге/2) ограничена почти наверное (см. текст после формулы (129)), то тем самым ограничена почти наверное и последовательность \R(yn) |. Это последнее замечание и исчерпывает дока- зательство теоремы XII. Заметим, что в условиях теоремы XII не требуется, чтобы точная нижняя грань Jmin значений функционала J (у) достигалась при каких-либо значениях у. Если же, однако, точная нижняя грань /min и достигается на не- которых точках у, образующих множество У*, то теорема XII не утверждает, что последовательность р(г/", У*) схо- дится к нулю. Условия, при которых наряду со сходи-
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 207 I I 4 f мостью 7 (Г) к точной нижней грани утверждается схо- I димостью к нулю р(уп, У*), даются теоремой XIII. Теорема XIII. Пустьу = (у\, ...,ут)—конечномер- ’ ный вектор, и в рекуррентных соотношениях (4) вектор Ф (у, х) таков, что функция R(y)=- МХ{Ф (У, х)} У а интеграл J(y)= J R(y)dy не зависит от о пути. Пусть, далее, inf J(y) = Jmm> - у существует множество Y* такое, что монотонна, [у) Jmin> у у а и Мх{®Цу, *)}<а + Ь\у\\ (143) где а > 0, Ь > 0 — константы. Тогда в силу рекур рент- { ной процедуры (4) и условий (87) при п~*оо J {уп}JmIn, р {уп9 r) 0. Прежде чем перейти к доказательству теоремы XIII, сде- лаем следующие два замечания. Замечание 1. Условие (116) предыдущей тео- ремы XII более сильное, нежели условие (143) теоре- мы XIII. Действительно, покажем, что из неравенства (116) следует неравенство (143). С этой целью выберем произвольную точку у*еУ* и используем неравенство (113), положив в нем у2 = у, ух = z/*: J (у) - /mln < (R (у)> У - У*)- Возводя это неравенство в квадрат, используя неравен- ство Коши — Буняковского и учитывая, что в силу (116) R2(у) = (Мх{Ф(у, х)})2<Мх{Ф2(у, x)}^a + b(J- • получим (/ - W < [а + ь (J - /т1п)] (у - уу.
208 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Из этого квадратичного неравенства следует, что + \2 + 2Ь\у\\ Подставляя это неравенство в (116), получаем оконча- тельно неравенство мх {Ф2 (у, х)} < 2 (а + /;21 у* I2) + 2621 у* |2, имеющее вид (143). Замечание 2. Слегка изменив доказательство пре- дыдущей теоремы XII, можно доказать, что и в беско- нечномерном случае условие (116) может быть заменено более слабым условием (143), если только потребовать существования множества У*, на котором достигается точная нижняя грань Jmin. При этом, однако, нельзя было бы гарантировать, что р(уп, У*)->0. Возможность доказательства в теореме XIII последнего факта обеспе- чивается требованием конечномерности вектора у. Доказательство теоремы XIII. Доказатель- ство основано на использовании теоремы III § 3 этой главы. Покажем, что последовательности Un = р2 (у\ Г), Vn J (уп) - Jmln (144) удовлетворяют условиям 1° и 2° теоремы III. Проверим выполнение условия 1° теоремы III. Для каждой точки уп рассмотрим точку у* = у*(«/п) е У* та- кую, что \уп-у (О = inf p(j/n,*)-p(jA У*) (точка z/*(z/n) существует, так как множество У* замкну- то как множество минимумов непрерывной функции). В силу рекуррентной процедуры (4), воспользовавшись очевидным соотношением р2 (уп+\ П вз I Г+' - У (Уп+1) I2 < I Уп+1 - У' (уп) I2, имеем р2(^+1, Г)< < Р2 (уп, У‘) + 2у„ (уп - у* (уп), Ф (у", х")) + у2Ф2 (уп, хп).
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 209 Переходя в этом соотношении к условным математиче- ским ожиданиям и используя неравенство (113), полу- чим неравенство М{р2(Г+,> П1*/п}< < р2 (уп, Г) - 2у„ [/ (уп) - Jmin] + У2пмх {Ф2 (у", х)}. (145) Используя условие (143) и обозначения (144), получаем М [Un+l |у-} ^Un- 2у„И„ + ау2 + Z>y2„l Уп I2. (146) оо Поскольку в силу условия (87) ряд 2 ау2п сходится, для завершения проверки выполнения условия 1° теоремы III остается доказать, что 2y2M{I*/',I2}<o°. (147) С этой целью выберем произвольную точку у е У* и докажем сначала, что iy2M{(yn-m<«>- ' (148) Из неравенства (148) неравенство (147) будет следо- вать тогда в силу очевидного неравенства (^)2<2(^-у)2 + 2(^)2. (149) Для доказательства неравенства (148) запишем в си- лу рекуррентной процедуры (4) (уп+1-у)2 = (уп-у)2+2\п(уп-у, ф(уп, хп)) + у2Ф2(«/п, х"). Переходя к условным математическим ожиданиям, учи- тывая неравенство (113) и условия (143), получим М{(уп+,-£)21Г}< < {уп - у)2 - U (уп) ~ /mln) + у2 (п + ь (г/")2). Учитывая неравенство (149) и неотрицательность /(£/”) —Лып, получим AI{(j/n+1-£)21 уп}^1+2ЬГп)(уп-у)+(а+2Ь\у f) у2. (150) 14 М. А. Айзерман и др.
210 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Переходя теперь к безусловным математическим ожида- ниям, легко убедиться, что в силу (150) м {(уп - у)2} < Г1 (1 + 26у?) [М {(£/' -£)2}+ 2 (а2+2Ьу2) у? Из сходимости ряда следует, что при любых и ве- личины М {(уп — у}2} ограничены одной и той же констан- той. Это и гарантирует выполнение условия (148). Тем самым проверка выполнения условия Г теоремы III за- вершена. Приступим к проверке выполнения условия 2° теоре- мы III. С этой целью докажем сначала, что почти все реализации случайного процесса у\ ..., уп ,... ограни- чены. Действительно, обращаясь к неравенству (150) и вводя последовательность функций А„ (Уп) = <Уп ~ У)2 П (1 + 26У1), (151) k=n ' которая является бесконечно большой, имеем в силу (150) М (Л«-ы 1И <Л„ + (а + 2^2)у2. (152) Используя теперь лемму II (§3 этой главы), убежда- емся, что почти все реализации случайного процесса у1, ..., уп, ... действительно ограничены. Поскольку векторы у1, ...» уп, ... — конечномерные, а функция — /min непрерывна, на каждой ограничен- ной последовательности у1, ...» уп, ... из того факта, что Vn=V(yn) стремится к нулю, следует, что и t/n=p(yn, У*) также стремится к нулю. Сопоставляя это обстоятельство с доказаной выше ограниченностью почти всех реализаций, убеждаемся в том, что условие 2° теоремы III выполнено. Таким образом, в силу теоремы III оказывается, что при п—>оо Un = p2(yn, Г)—>0. (153) Тот факт, что и J (уп) — Jmin п~ н'-> 0, следует теперь из
§ б. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 211 (153), если учесть, что функция Цу) непрерывна, а поч- ти все реализации конечномерного случайного процесса у1, ..., уп, ... ограничены. Теорема XIII доказана. Обратимся теперь непосредственно к установлению условий сходимости процедуры метода потенциальных функций вида г'+1-г"+у»[г((г", ч>(х*+')), fV+1))+E”lh(*"+l). (154) Для установления условий сходимости процедуры (154) могут быть использованы теоремы XII и XIII. Однако при непосредственном использовании этих теорем для проверки выполнения их условий надо проделать ряд предварительных вычислений, чтобы установить факт существования минимизируемого функционала, его вид, а также вид функции Л1х{Ф2(х, у)}. Для того чтобы облегчить установление сходимости конкретных алгоритмов, желательно иметь критерии сходимости, задаваемые в форме требований, наложен- ных непосредственно на величины, входящие в рекур- рентную процедуру. Условия подобного типа дает фор- мулируемая ниже теорема XIV, доказательство которой основано на использовании теорем XII и XIII. Теорема XIV (Б. М. Литваков [5]). Пусть в рекур- рентных соотношениях (154) х1, ..., хп, ... есть после- довательность независимых случайных величин с одним и тем же распределением вероятностей, последователь- ность g1, gn, ... удовлетворяет условиям сп} = 0, (155) ЛМ(Г)21*П. cn}<d, (156) где d — некоторая константа, а числовая последователь- ность уп удовлетворяет условиям (87). Пусть, далее, век- тор ф(х) ограничен константой, не зависящей от х, I ф (х) | фтах> (157) а функция r(u,f*(x)) удовлетворяет следующим усло- виям: 14*
212 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Iе. r(u,/*(х)) убывает (не обязательно строго) по и при любом х, причем для любых и} и и2 имеет место не- равенство \г(и2, Г(*))~г(щ, Г(х))\^А + В\и2-и1\, (158) где константы Л>0 и В>0 не зависят от х. 2°. Математическое ожидание ЛМг2(0, Г(х))} существует. 3°. Функция Z(c) = Mx{G((c, ф(х)), х)}, где G(u, х)=- Jr (и, Г (х)) du, (159) О ограничена снизу при | с |2< оо: inf /(c) = 7min> - (160) | С I2 < ОО Тогда в силу рекуррентной процедуры (154) и усло- вий (87) при п->-<х> Цсп)-^1т1п. Если, кроме того, векторы сп конечномерны, а мини- мум функции 1(c) достигается на некотором множестве С*, то при п—* ОО р(с", С’)-^->0. Сделаем два замечания к теореме XIV. Замечание 1. Поскольку функция Г(х)^Г,ф(х)) есть аппроксимирующая функция, выстраиваемая про- цедурой (154), функционал, минимизируемый этой про- цедурой, имеет в соответствии с формулой (159) вид {f (х) I — Jr (и, f* (х)) du k О ‘
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 213 Разумеется, утверждение теоремы остается в силе, если |'| к этому функционалу прибавить произвольную констан- 1*1 ту. В частности, если математическое ожидание величи- 1| ны G (f* (х), х) существует, т. е. I (Г(х) 1 I AfJ J r(u, f*(x))du <оо, (161) * I о ' а,,, то минимизируемый функционал можно записать в виде {fw i pw j -J r(u, f*(x))du J r(u,f*(x))du = 0 J Ц J V* Н i f(x) - J r(u, f*(x))du F(x) (162) Тем самым при выполнении условия (161) проверка ус- ловия (160) теоремы XIV сводится к проверке ограни- ченности снизу функционала (162). Ограниченность же Й снизу функционала (162) обеспечивается, в частности, А в том случае, когда функция удовлетворяет есте- ственному условию (см. гл. II, § 2) I >0 при при Это условие выполнено во всех конкретных алгоритмах t типа (154), используемых в настоящей книге. В силу это- ‘ го условия функционал (162) неотрицателен j « и, следовательно, ограничен снизу. ,• Замечание 2. Условие (157) означает ограничен- ность потенциальной функции К(х, у), так как (см. гл. II) IЛ (х, у) К (К (х, х) • К (у, у) )V‘ и * к(х, х) = | Ф (х) |2, , так что И(х, ^/)1<Ф2тах. I !
214 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Прежде чем перейти непосредственно к доказатель- ству теоремы XIV, сформулируем и докажем следующую лемму IV, устанавливающую неравенство, которое ис- пользуется в доказательстве теоремы XIV. Лемма IV. Пусть —возрастающая (не обяза- тельно строго) на отрезке [0, 1] функция, удовлетворяю- щая при любых Xi, ^(0 Xi -С 1, 0 <^2^1) условию I Ж) - К а + b | - Х21,. (163) где а > 0, b > 0 — некоторые константы. Тогда 1 Ф2 (1)< 2ft2 (0) +16а2+ 646 |Г(1)- j F(X)rfX , (164) 0 где 1 FW- J 0 I 'в’(ц) dp. (165) Доказательство леммы IV. Рассмотрим вспо- могательную функцию и (X) = KF (l)-F(X), (166) где Г(Х) определяется соотношением (165). Очевидно, что 1 J и (|i) du = У F 0 . 1 (1)- / F(|x)Jp. 0 (167) В соответствии с определением функции и (К) и(0) = ы(1) = 0 (168) и в силу выпуклости *) функции Г (А) (169) Из (168) и (169) следует, что и' (0)>0, ы'(1Х0. (170) *) См. в начале этого параграфа (стр. 198—199) доказательство того, что интеграл монотонной функции есть выпуклая функция.
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 215 Функция и (X) является вогнутой, т. е. и (рЛ( + (1 — р.) А2) [ш (X]) + (1 — |л) и (Х2), (171) 0<|т< 1, что следует сразу из определения (166), если учесть, что F(%) выпукла. Заметим, что в соответствии с определе- ниями (165), (166) из неравенства (163) следует = + (172) и, в частности, | м'(1) - и'(0) | = | Ь(1) -О(0) |<а + Ь. (173) Поскольку О(Х) не убывает, в силу (170) получаем из (173) fl(l) = fl(0) + |«'(l)| + |i/(0)l (174) и |Ы'(1)1 + |и'(0)Ка + 6. (175) Для доказательства утверждения (164) леммы IV рассмотрим два случая: | и'(1) | + | «'(0) К 2а, (176) |ы'(1)|+ |ц'(0)|>2а. ' (177) В случае (176) утверждение (164) верно, так как в силу (174) и (176) О2 (1)< (О (0) + 2а)2 < 2Ф2 (0) + 8а2, а в силу (167) и (169) 1 4^(1)- J F(p)dp>0. о Перейдем к доказательству неравенства (164) в слу- чае (177). Рассмотрим наибольшую из двух величин | и' (0) | и | и' (1) | (если | и' (0) | = | и' (1) |, рассмотрим любую из них). Пусть, например, |и'(1)1>|н'(0)|. (178) Тогда, очевидно, |«/(1)1> |Ц (0)*2 0)1 =А>а (179)
216 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА и, поскольку l/(l)=C0, то (180) Воспользовавшись неравенством (172) и учитывая, что Л ^1, получаем неравенство ы'(Л) — и'(1)<а + Ц1 — Л) или, учитывая (180), неравенство и'(МС6(1 -Х)-(Д-а). (181) Интегрируя это неравенство в пределах от некоторого Л до 1, получим после простых преобразований Учитывая, что и(1)-0, получаем отсюда (182) Положим r=i—(183) Поскольку Л > а (см. формулу (179)) и - (см. фор- мулу (175)), то 0<-~<Г<1. (184) Из (182) имеем поэтому, что при некотором Л*, 0<Л* < 1, и, следовательно, для максимального значения функ- ции и (X) на отрезке [0, 1] получаем неравенство шах и(М>и(Л,’)>т^-. (185) Ле [0,1] Для любой неотрицательной вогнутой функции f(z), заданной на отрезке [а, 0], справедливо неравенство Р max f I* f (z)dz, z e [a, 0] P a J
§ Б. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 217 геометрический смысл которого заключается в том, что площадь под кривой f(z) (см. рис. 11) не меньше пло- щади треугольника с основанием [а, р] и с вершиной в точке максимума функции f(z). Применяя это нера- венство к функции a(Z), получим 1 шах и (К) ^2 f u(k)dk. Хе [О, 1] (186) Из (186) и (185) получаем неравенство (Д — а)2 < 4b J и (Z) d'K о или, вспоминая соотношение (167), неравенство (Д - а)2 < 4Ь lF(i)- J F(g)dg О (187) Возвращаясь к соотношению (174), имеем й2 (1) = [^ (0) + 2а + 2 (Д - а)]2 < (0) + 16а2 + 16 (Д - а)2, и, учитывая неравенство (187), получаем утверждение леммы (164). Таким образом, и в случае (177) нера- венство (164) справедливо, если | и' (1) | > | и' (0) | (см. (178)). Доказательство неравенства (164) в случае (177) при |u'(l) |и'(0) | производится совершенно аналогично. Лемма IV доказана. Доказательство теоремы XIV основано на теоремах XII и XIII. Отождествим векторы сп в (154) с векторами уп в (4), а совокупность случайных величин %n+1, в (154) —со случайной величиной хп в (4). Введем также обозначение g(u, х)^-г(и, Г(х)). 1огда, сравнивая (154) и (4) и учитывая это обозначе- ние, получаем Ф(г/, *)=- [g((с, 4>(х)),%)-£]гр(х). (188)
218 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА В силу (188) Я (у)э R (с) = Mt' х {[g ((с, ф (х)), х) - £] ф (я)} и, учитывая (155), получаем 7? (с) = Мх {g ((с, ф (х)), х) ф (х)}. (189) Для того, чтобы убедиться, что функция /?(с) моно- тонна, а интеграл с Г с 1 J R (с) de == Мх j J g ((ё, гр (х)), х) яр (х) de 1 (190) о I о ' • не зависит от пути, покажем, что подынтегральная функ- ция g((c, ip(x)), x)'ip(x) монотонна по с, а интеграл J g((c, ф(х)), х)ф(х)<7с (191) о не зависит от пути при любом фиксированном х. Тогда в силу соотношений (189) и (190) будет следо- вать, что функция R(c) и интеграл (190) обладают соответствующими свойствами. Монотонность функции g( (с, яр(х)), х) гр(х) следует из соотношения (g((c2. Ф(*))> Ф О)), *)ф(х), ^2-?!) = = (g((c2. Ф(*))> x)-g((clt ф(х)), х))((с2, ф(х))- -(сь ф(х))), если учесть, что функция g(u, х) в силу условия Г теоре- мы XIV возрастающая и поэтому для любых и2 и х (g(«2. x)-g(ut, x))(u2-u})^0. Независимость интеграла (191) от пути следует из непосредственно проверяемого тождества J g((c, Ф(х)), х) ф (х) de = G ((с, Ф(х)), х), (192) о где функция G(u, х) определяется соотношением (159).
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 219 | Таким образом, функция 7(c) = J R(c)dc = Mx{G((c, i|>(х)), х)} (193) О 6 определена и в силу условия 3 теоремы XIV ограничена снизу. Для того чтобы завершить проверку выполнения ус- ловий теоремы XII, остается показать справедливость не- равенства (116). Из (188) следует, что в силу условий (155) —(157) ' Мх {Ф2 (у, х)} S= мх, 5 {[g ((с, 1|) (х)), X) - £]2 1[)2 (х)} < Ф(*))» X)} + ^maxrf- (,94) ? Поэтому, если теперь показать, что существуют констан- ты а > 0 и р > 0 такие, что Мх {g2 ((с, ф (х)), х)} < а 4- р [7 (с) - Zmin], (195) то тем самым справедливость неравенства (116) будет доказана. Для доказательства неравенства (195) зафиксируем некоторое с и для любого фиксированного х такого, что (с, ф (х)) 4= 0, рассмотрим функцию ф (Л) = g (X (с, ф (х)), х) sign (с, ф (х)), (196) где независимая переменная X принимает значения из отрезка [0, 1]. Покажем, что функция ft (X) удовлетворяет условиям леммы IV. Действительно, 'О'(Х)—возрастаю- щая функция, так как функция g(u, х) есть возрастаю- щая функция по и при любом фиксированном х. Выпол- нение условия (163) леммы IV гарантируется тем, что в силу условия (158) теоремы XIV P(M-<*(MI = lg(Mc> 4>(х)), x)-g(b2(c, ф(х)), х) |< <Л + В|(с, 1|з(х)) 11 Л, — Х2 |, так что в условии (163) а = А, Ь = В\(с, 1]>(х))|. (197)
220 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ процедуры метода Поскольку функция F(X), фигурирующая в лемме IV, в рассматриваемом случае имеет вид к к F(X)S J J ФМ), x)sign(c, ф(х))41 = о о к(д, ф(х)) - |(г, ♦(«))! I о = I z- Л 1 \ I G (с> Ф (х) )> х)> I (с, Ц> (х) ) I ' \ > V \ /. то в силу утверждения (164) леммы получим Я2 ((с, ф (х)), х) < 2g2 (0, х) + 16Л2 + + 64В |g((M(x)), х)- С(Л(с, if> (х)), x)dk . (198) Переходя в (198) к математическим ожиданиям по х и вспоминая соотношение (193), получим Mx{g2((c, ф(х))> х)}< < 2МЛ {g2 (0, х)} +16Л2+64В у 7(c) - | J(Kc)dk . (199) о Принимая во внимание, что 1 [ J (Zc) dX > min ] (Хс) > ZmIn I Ле[0, 1] и что в силу условия 2° теоремы XIV математическое ожидание Mx{g2(0, х)} существует, убеждаемся в спра- ведливости неравенства (116). Тем самым доказано вы- полнение всех условий теоремы XII и поэтому доказано, что нл—>Лп1п. Если теперь векторы сп конечномерны, а минимум функции J(с) достигается на некотором множестве С*, то выполнены все условия теоремы XIII. Условие (143) тео-
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 221 ремы XIII следует, как показано в замечании 1 к теореме XIII, из условия (116). В силу теоремы XIII выполняется соотношение р(сп, Теорема XIV доказана. В случае, когда функция r(u,f*(x)) ограничена неко- торой константой (а такой случай реализуется в некото- рых алгоритмах, рассмотренных в главах VI, VII), до- казательство утверждений теоремы XIV может быть существенно упрощено, так как при этом не возникает необходимости в применении леммы IV, и проверка вы- полнения условий теорем XII и XIII производится непосредственно. В этом случае существование матема- тического ожидания 7Их{г2(О, f*(x))} очевидно, а условие (157) может быть заменено более слабым условием Мх {ф2 (х)} = Мх {К (х, х)} < оо. (200) Рассмотрим теперь вытекающие из теоремы XIV след- ствия, которые могут быть использованы при решении задач о приближении и восстановлении функций f*(x) с помощью процедуры (154). В соответствии с замечанием 1 к теореме XIV, если выполнены условия {Г (X) 3 J г (и, f* (х)) du 1 {0} < оо (201) о ' П [ >0 при „р„ !>г. <202> то функционал (162) существует, если существует функ- ция J{c}, и неотрицателен. Поскольку при этом Jftfi^Qt то функционал (162) принадлежит к тому классу функ- ционалов, которые обсуждались в § 4 главы II в связи с определением понятий приближения и восстановления функции В силу теоремы XIV значения Jf {fn} это- lo функционала стремятся к точной нижней грани функ- ции Jf {(с, ф (х))} при условии |с|2<оо. Вспоминая определение класса функций (см. §4 гл. II), заме- •Iнем поэтому, что теорема XIV утверждает, по существу,
222 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА что значения функционала (162) стремятся почти навер- ное к точной нижней грани функционала на функциях ИЗ /гГ(х)}—* inf Jf. Ш. (203) f (= z, 1 1|) Однако это утверждение еще не означает, что процедура (154) решает задачу приближения или восстановления функции f*(x) в том смысле, который был придан этим терминам в § 4 главы II. Действительно, для решения задачи приближения необходимо, по определению, стрем- ление значений функционала (162) к точ- ной нижней грани не на классе функций-?^, а на классе Для решения же задачи восстановления нужно убе- диться, что /гГ)—*0. Ниже будет доказана лемма V, из которой следует, что при выполнении условий теоремы XIV и условия (201) функционал (162) определен для любой функции f&Zq и его точные нижние грани на функциях из Z^ и Z^ со- впадают: inf inf (204) Поэтому из утверждения (204) следует, что inf ^{f}, (205) т. е. что процедура (154) при выполнении условий тео- ремы XIV и условия (201) решает задачу приближения функции f*(x). Рассмотрим теперь условие, при котором процедура (154) гарантирует не только приближение, но и восста- новление функции f*(x). Пусть f*(x) е S\P. Поскольку функционал (162) неотрицателен и вместе с тем Л*(П = о,
§ 5 УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 223 Тем самым при f* е 9?<$ соотношение (205) гарантирует, что т. е. что процедура (154) решает задачу восстановления функции f*(x). Таким образом, мы приходим к следующей теореме, устанавливающей условия, при которых процедура (154) решает задачи приближения и восстановления функ- ции f*(x). Теорема XV. Пусть выполнены условия теоремы XIV и, кроме того, условия: 1°. л*{0}<°°. 2 • Г{Г' ' ' ( <0 при Тогда в силу рекуррентной процедуры (154) и усло- вия (87) при п-> оо /г{Г(х)}_Л--> inf I т. e. процедура (154) приближает функцию f*(x). Если же дополнительно предположить, что f*(x) е E.S’q, ТО при п -> оо /г{Г(х)}— >0, т. е. процедура (154) восстанавливает функцию f*(x). Замечание к теореме XV. Поскольку условия 1° и 2° теоремы XV гарантируют ограниченность снизу функции /(с), фигурирующей в теореме XIV (см. заме- чание 1 к этой теореме), то при использовании теоремы XV условие 3° теоремы XIV можно не проверять. Как следует из приведенных выше рассуждений, для доказательства теоремы XV достаточно установить лишь, что при выполнении условий теоремы XIV и (201) имеет место соотношение (204). Этот факт непосред- ственно следует из леммы V, так как условия леммы всегда выполнены, если выполнены условия 1° и 2° тео- ремы XIV и (201). Лемма V. Пусть в функционале (162) функция удовлетворяет условиям:
224 гл. TV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА 1°. Для любых щ и и2 выполняется неравенство I г (*Л, Г) “ г (а2, Г) К А + в I щ - и21, где Л^О, В 0 — константы, не зависящие от х. 2°. М t72(0, Г(х))}<оо. 3°. /г {0} =э М f*(x) J г (и, f*(x))du о < оо. Тогда функционал (162) существует для всех f и inf Jrtf} = inf J г {fl Доказательство леммы V. Докажем сначала существование функционала (162) при f е 2(?. В силу условия 3° для этого достаточно установить ограничен- ность величины | Jf* {f} — /f* {0} | при Очевидно, что I Л* {П- Л* {0}|<Л1 f J r(0, f*)du о + Л4 f j\r(u, f*) — r(O, n\du о Используя условие 1° леммы и производя затем интегри- рование, получаем {£2 Л A\f\ + B^}. Используя далее неравенство Коши — Буняковского и условие 2°, убеждаемся, что если 1Л*СТ-ЛЧ0}1<оо, Л1 {f2 (х)}< оо, что по определению имеет место при f е S\$. Существо- вание функционала (163) при доказано. Докажем теперь справедливость соотношения (204). Для этого достаточно показать, что для любой функции и любого е>0 существует такая функция
§ 5. УСЛОВИЯ СХОДИМОСТИ ПРОЦЕДУР МЕТОДА 225 что | {f}~ {fe} | <8- Действительно, если это будет показано, то для любой последовательности функций из £\р, таких, что на этой последовательности функцио- * нал Jp {f} стремится к своей точной нижней грани, мож- но указать последовательность функций из 2?^, значение функционала для которой также стремится к этой точ- ной нижней грани. Пусть функция f е S’сР представлена рядом f (х) = 2 c^i (х) = 2 ОФг (х). (206) 1 1 Рассмотрим последовательность функций k Г (х)=2оФг(х), fe=l, 2, ... i (207) ^Очевидно, что fft(x)e^ при любом k. По смыслу ряда (206) Г lim М {(f (х) - fk (х) )2} = 0. (208) * Л->ОО Оценим величину | Jf* {fft} — Jf* {/} |. Очевидно, что + M (209) Используя условие 1° леммы и производя интегрирова- ние, получаем I W)-/r{f}l<M{if-ffti|r{o, Г)|} + м(Л|Г-Г|} + + Ш+Ч*1 (210) В (210) учтено, что при любых а и Ь ь J|и \du а а— b | • I а I + 1Ы 2 15 М. А. Айзерман и др.
226 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ процедуры МЕТОДА Учитывая, что | fk | | f | +1 f — fk | и используя неравен- ство Коши — Буняковского, получаем из (210) I Л*{f*}- Л*ШI< /M{|f-f*|2}M{r2(0, Г)} + + U + в / WJ) /M{lf-Zftl2} + 4 м < If - fk I2)- (211) Вспоминая условие 2° леммы и учитывая, что Л4{/2} < оо при f ^2?^, получаем в силу (208) и (211) lim| W}-W}l = 0. k->OO Отсюда следует, что всегда найдется такой номер k, что Цг{И-/гШ1<е. (212) Таким образом, для любого е существует функция fef* е .2^, такая, что имеет место соотношение (212). Лемма доказана. § 6. Оценка скорости сходимости Теоремы, установленные в §§ 3—5, дают достаточные признаки сходимости в том или ином смысле случайного процесса. При сопоставлении различных процедур су- щественно не только установить факт их сходимости, но и оценить их асимптотику, т. е. поведение процесса по- сле большого числа шагов. Наибольший интерес при этом представляет оценка скорости сходимости «сверху», т. е. мажорирование изучаемого процесса некоторыми детер- минированными и стремящимися к нулю функциями. Говоря выше о сходимости случайных процессов, мы рассматривали различные определения этого термина. В частности, мы рассматривали сходимость математиче- ских ожиданий (сходимость в среднем) и сходимость почти всех реализаций (сходимость почти наверное). Переходя к оценке асимптотики, также можно оцени- вать как поведение различных средних характеристик случайного процесса (например, математического ожида- ния), так и поведение почти всех реализаций. Различие между этими двумя типами оценок в известном смысле подобно различию между сходимостью в среднем и схо-
§ 6. ОЦЕНКА СКОРОСТИ сходимости 227 димостью почти наверное: оценка скорости убывания ма- тематических ожиданий ничего не говорит о скорости стремления к нулю отдельных реализаций, а оценка ско- рости сходимости почти всех реализаций дает более глу- бокие сведения о поведении случайного процесса, хотя и не гарантирует каких-либо оценок для скорости сходи- мости математических ожиданий. Имея это в виду, далее мы установим теоремы, позволяющие оценивать скорость сходимости для обоих случаев. Условия теорем о скоро- сти сходимости, которые устанавливаются в этом пара- графе, отличаются от условий теорем о сходимости в § 3. Эти различия проявляются по-разному в случаях, когда рассматриваются оценки скорости сходимости ма- тематических ожиданий или скорости сходимости реали- заций. Начнем с рассмотрения оценок скорости сходимости математических ожиданий. Рассмотрим сначала способ получения оценок сверху. В теоремах о сходимости § 3 фигурировали случайные последовательности функций Un и 14. В первом условии этих теорем фигурировали неравенства М {/7„ + 1 (у', ...» УП+')\У1, ...» УП}<: <(l+^)Un(y', .... Уп)~ -VnVjy1, уп) + £п «=1,2,... (213) (см. формулу (8) условия А). Переходя в этом неравен- стве от условных к безусловным математическим ожи- даниям и полагая = 0, перепишем его в таком виде: м {Un+l} < М {Un} - упМ {!/„} + М {£„}. (214) Все конкретные процессы метода потенциальных функций, рассмотренные в этой книге, при надлежащем выборе Un и Vn удовлетворяют неравенству (214). Кро- ме того, в этих процессах при некоторых дополнительных предположениях, которые каждый раз будут выясняться и оговариваться, оказывается справедливым также сле- дующее неравенство: М {£/„}< 4-ЛЦУД (215) 15’
228 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ метода где г > О— некоторая константа. Условие (215) в сово- купности с условием (214) приводит к следующему не- равенству, содержащему уже только математические ожидания функций Un: М {С/п+1} <хп2И {Uп} + хп, (216) где ап = (1 — гуп) > 0, а кп = ЛД£и} > О — некоторые числовые последовательности. Это неравенство и будет как раз фигурировать в условиях теорем, оценивающих сверху скорость сходимости математических ожиданий. В этих теоремах устанавливается способ выбора число- вых последовательностей рп, мажорирующих оценивае- мую последовательность математических ожиданий. Теорема XVI. Пусть задан случайный процесс у}, ..., уп, ... и последовательность скалярных функций U„ (у1, • ••, уп), таких, что для всех п^ 0 выполнено не- равенство + ап>0, хп>0. (217) Пусть, кроме того, существует последовательность поло- жительных чисел 0П > 0, таких, что, начиная с некото- рого п = п, выполнено хотя бы одно из следующих двух условий: 1 ° ч Рл+1 оо (218) ‘Рп+1 П=1 2°. + (219) Рп+1 Тогда существует константа С > 0 такая, что спра* ведлива оценка М {£/„}« ^С₽„, п=1, 2, ... (220) Доказательство теоремы XVI. Нам доста- точно доказать справедливость неравенства (220) при и>м*. Действительно, если установлено существование такой константы Сь что M{Un}^C^ п^п\ (221)
§ 6 ОЦЕНКА СКОРОСТИ сходимости 229 то, выбирая новую константу С = шах! Сь —------ I Pi лфп.-1Ц Pn*-1 J находим, что неравенство (220) справедливо при всех п. Поэтому доказательству подлежит • соотношение (221). Пусть сначала выполнено условие (218). Введем вспомогательную переменную _.M{Un} ₽n (222) Тогда, подставляя в формулу (217) 7И{(7П} и M{t7n+i}, выраженные через zn и zn+i, получаем апРп I Хи pn+i + prt+1 • В соответствии с условием (218) это неравенство при п* может быть усилено: Zn+1 Хп ₽п+1 ’ П^П Суммируя эти неравенства от п = п* до некоторого п >п\ получаем п—1 У -гг1-» п>п*. (223) Рп+1 п=п* Поскольку xn/Pn+i ^0 и сумма в правой части этого не- равенства сходится при п -> оо в силу (218), неравенство (223) можно усилить: = СЬ п>и*. п=п’ Возвращаясь к определению величин zn (формула (222)), устанавливаем выполнение соотношения (221). Предположим теперь, что выполнено не условие (218), а условие (219), и докажем неравенство (221) по индук- ции. Пусть при некотором п* неравенство (221) вы- полнено, а именно, пусть М С(>1. (224)
230 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА Покажем, что неравенство выполнено и при п +1. Дей- ствительно, в силу (217) и (224) М {t4+1} < С 1апРп 4" = Cl Рп 4-1 • (225) Но поскольку С1^> 1, 1 аиРл + Рп+1 Рл + 1 ’ и в силу (219) «п₽л + -(?• ______О1 I Рл+1 Поэтому, усиливая, неравенство (225), получаем М {f/n+J Ci|3rt+1 и тем самым устанавливаем, что из того факта, что (221) верно для некоторого п>п*, следует, что оно вер- но и для п + 1. Что же касается первого шага индукции, т. е. п = п\ то справедливость (221) устанавливается очевидным неравенством М {£/„>} < max ( А1 11 Рп„ I Рп* ) так что ( М ЩпЛ ] с'-Н4^ } Теорема доказана. Сделаем теперь следующее замечание. В условиях неравенств (214) и (215) эта теорема позволяет уста- новить оценки для математического ожидания величины Uny не давая никаких оценок о поведении математиче- ских ожиданий величины Vn. Однако в конкретных про- цессах, изучаемых в настоящей книге, те же самые ус- ловия, которые гарантируют выполнение неравенства (215), обеспечивают также и выполнение неравенства’ М {Vn}, R>Q, (226)
§ 6. оценка скорости сходимости 231 * Тем самым в исследуемых процессах оказывается выпол- | пенным двустороннее неравенство I rM {Un} < М {Vп} < RM {Un}. (227) I | Условие (227) вместе с утверждением теоремы XVI по- | зволяет очевидным образом оценить сверху и математи- I ческое ожидание величины Vn\ | ' (228) I Продолжая рассмотрение оценок математических I ожиданий величин Un и Vn, обратимся теперь к оценкам I снизу. В интересующих нас процессах часто существует | не только такая последовательность ап, при которой вы- | полняется неравенство (217), но и иная последователь- J ность ап > 0, такая, что имеет место неравенство проти- ! . воположного смысла I I M{Un+i}>anM{Un}, (229) £ I позволяющее минорировать последовательность Теорема XVII. Пусть задан случайный процесс //1, • ••, Уп> • • • и последовательность скалярных функций I Пп(у\ •••> Уп) таких, что для всех п, начиная с некото- рого п = п , выполнено неравенство | Пусть, кроме того, существует последовательность поло- | жительных чисел таких, что при п> п* выполнено I условие | йпрп J . (230) I » Pn+i Тогда существует константа С > 0 такая, что при J и > п* справедлива оценка I (231) 1 Доказательство теоремы XVII полностью | аналогично доказательству теоремы XVI в случае, когда
232 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ процедуры метода выполнено условие (218), если в этом доказательстве изменить смысл всех неравенств на противоположный. В отношении теоремы XVII можно сделать замеча- ние, аналогичное замечанию, высказанному в связи с теоремой XVI. Именно, неравенство (215) позволяет вместе с утверждением теоремы XVII оценить снизу не только математическое ожидание величины Un, но и ма- тематическое'ожидание величины Vn: M{Vn}^rCfin. (232) Таким образом, если одновременно выполнены усло- вия теорем XVI и XVII, то для математического ожида- ния величины Un справедлива оценка (233) Если, кроме того, выполнено неравенство (227), то ана- логичная оценка имеет место и для математических ожиданий величин Vn: rC^M{Vn}<RC^ (234) Перейдем теперь к оценкам скорости сходимости поч- ти всех реализаций. Для большей очевидности выкладок при доказательстве теоремы XVIII об оценках скорости сходимости почти всех реализаций будем предполагать существование плотностей вероятности рп(у\ ..., уп) и условных плотностей вероятности • ••, Уп~х)> записывая математические ожидания в виде соответст- вующих интегралов. Теорема XVIII верна и без этого предположения, а изменения, которые нужно в этом слу- чае произвести в доказательстве теоремы, могут быть легко внесены. Для формулировки теоремы нам потребуется вве- сти ряд вспомогательных понятий. Пусть фиксированы числовая последовательность (3= (рь ..., рп, ...) и некоторый параметре. Рассмотрим множества ЛП(С, р), п = 1,2, ..., всех тех реализаций случайного процесса, для которых величина Ui(y\ ...» у*) удовлетворяет ус- ловиям о< Д(«/г, .... z/z)<Cpz., i=l.....п. (235)
§ 6. ОЦЕНКА СКОРОСТИ сходимости 233 Определим еще множество До(С, Р) как множество всех реализаций. Очевидно, что Ап (С, р) э Дп+1(С, р), так что последовательность Ап(С, р), п = 1,2, ..., множеств монотонно не возрастает, а предельное множество loo (С, Р) есть множество всех тех реализаций, для кото- рых последовательность величин Un(y\ Уп) мажо- рируется последовательностью Срп, п = 1,2, ... Заметим теперь, что множеству ДП(С, р) в пространстве г/1, ..., уп соответствует некоторое множество точек, выделяемое условием (235). Мы будем обозначать это множество точек тем же символом Ап(С, р). Тогда на ,4П(С, р) могут быть введены в рассмотрение следующие кратные интегралы — «ненормированные математиче- ские ожидания»*) Л1Л = МП(С, Р) = / M{Un+i\yl, уп}рп(у1...........yn)dy' ... dyn, Ап(с, ₽) (236) M„ = Af„(C.P) = = J Un(y', ...» yn)pn(y*........yn)dyl ... dyn. (237) л„(С, w Введенные понятия позволяют сформулировать следую- щую теорему, устанавливающую оценку скорости сходи- мости почти всех реализаций. Теорема XVIII. Пусть последовательностиап(С)^0, рп(С)>0 и хп(С)>0, зависящие, быть может, от пара- метра С > 0, таковы, что 0П(С) минорируется последова- тельностью рп > 0 (не зависящей от С) и, кроме того, *) Предполагается, что такие интегралы могут быть опреде- лены. Они могут быть записаны с помощью условных математиче- ских ожиданий в виде мп = М {Un+l | Ап (С, ₽)} Вер {Ап (С, ₽)}, Мп = М {Un | Ап (С, ₽)} Вер {Ап (С, ₽)}. При такой записи величины М и М нет необходимости предпола- гать существование плотностей вероятности рп(у\ ...» Уп) и Рп(уп \у', уп~').
234 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА начиная с некоторого п = п*, при всех достаточно боль- ших С выполнены условия'. 1°. -^-<1, (238) Рп+1 Рп+1 п=1 где В — константа, не зависящая от С. 2°. Мп (С, ₽) < апМп (С, р) + хп. (239) Тогда для любого 6>0 найдется такое число C(S), что Bep{£/n<C(S)0„(C(d)), п=1, 2, (240) Замечание. Может показаться, что неравенство (239) для конкретных процессов практически невозмож- но проверить из-за сложности определения величин Мп и Мп. Однако, как будет показано в соответствующих разделах книги, в алгоритмах метода потенциальных функций условие (239) легко устанавливается из свойств алгоритмов. Доказательство теоремы XVIII. Обозначим через Рп(С, Р) вероятность множества реализаций ДП_1(С, р)\Лп(С, Р), принадлежащих Дп-1 и вместе с тем не принадлежащих Ап, т. е. таких, что t//<Cpz, Z=l, п~1, t7n>Cpn. (241) Очевидно, Рп (С, Р) = Вер{Л„_, (С, ₽)} - Вер {Д„(С, р» (242) и J Рп (С, р) = Вер {Ло (С, р)} - Вер (С, р)} = п=1 = 1-Вер UUCP)}. (243) Докажем теперь вспомогательное неравенство Мп (С, Р) < (С, Р) - cp„pn (С, Р). (244) Для доказательства этого неравенства рассмотрим ве- личину Мп (см. формулу (236)) и оценим выражение ус- ловного математического ожидания уп~'},
§ 6. ОЦЕНКА СКОРОСТИ сходимости 235 стоящее под знаком интеграла: MRW, .... = = / Un(y'.....уп)рп(уп\у1, • ••> yn~')dyn = = / Un(y', ...» уп)рп(уп\у', ...» yn~l)dyn+ ип(у'..vn)<Wn + j Un(yl, .... Уп)рп(Уп\У1> •••» yn~x)dyn^ ип(ух..уп)>срп > j Vn (У1, .... Уп)рп(Уп I У*,---, yn~')dyn + ип<с^п + Ср„ _[ рп(уп\у', .... yn~')dyn ип>С^п ИЛИ М{ип |/Д уп~1}> > j ип(у1, ип<с^п > Уп)рп(.Уп\Ух> .... Уп 1)dyn + + с$п 1 - J Рп(уп\у'< . .. Уп x)dyn ип<с£п (245) Используем неравенство (245) для оценки величины Mn-i. В силу определения (236) и неравенства (245) имеем Мп-, •. уп)рп(уп1у1,-, Уп l)dyn X + .y^dy1 ... dyn 1 + (z/1, yn~')dyl.........dyn~l - Ап_, (С, ₽) J f Pn{yn\y'................yn l)dyn\ X , (C, ₽) l<7„ < CP„ J x pn-\(yl, .... yn~l)dy' ... dyn~‘j-. (246) An-
236 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА По определению множества Л„(С, р) интегралы вида J • J (...)dyl ... dyn ап_,(с.Р) ип<срп равны J (.. .)dyx ... dyn. Ап(С. ₽) Поэтому, учитывая, что рЛуп\у'> .... у"-1)рп-ЛУ1, .... */"~’) = Рп(У1, • Уп), из (246) получаем J ип(у', .... Уп)Рп(у\ .... yn)dy' ... dyn + ап (С. ₽) + CPn f Pn-i(y', .An_i (C. ₽) .. yn~')dy' ... dyn~' — ~ J Pn(y', .... yn)dy' ... dyn . Л„(С, ₽) Вспоминая определение Mn (формула (237)) и фор- мулу (242) для Рп (С, р) и замечая, что Вер {Л„} = | рп (у1, ..., yn)dy' ... dyn, Ап(С, ₽) последнее неравенство можно записать в виде Л4„_!>Л1„ + Ср„Р„(С,р), эквивалентном (244). Из условия 2° теоремы (формула (239)) и из дока- занного неравенства (244) сразу следует (247)
§ 6. ОЦЕНКА СКОРОСТИ сходимости 237 Введем теперь новые переменные гп соотношением = <248> < Формула (247) в этих переменных переписывается так: апРп _ I _ Z1П < Z"+1^ ₽„+! Zn+ Pn+I CF"+1, Используя условие 1° теоремы (формула (238)), уси- лим это неравенство при zn^n + -¥--CPn^ (249) Prt+l Суммируя неравенства (249) от п = п до п — 1, получаем п—1 п гг — 1 С Pi + ] = С Zn* — Zn + p/+J~ ’ /=п*+1 i=n* Усиливая это неравенство отбрасыванием справа члена zn и устремляя после этого п к бесконечности, в пределе получаем неравенство °° °° х м С У У -^-<-^ + В = const. (250) Р/ + 1 Рп* /=п*+1 i=n* В последнем неравенстве учтено второе неравенство в (238) и тот факт, что (С) 0ге». Из неравенства (250), учитывая, что в силу (242) оо У Pi = Вер {Л„*} - Вер {Л J, /=п*+1 получаем Вер {Л J > Вер {Л„. (С, 0 (С))} - . (251) Но поскольку л„*(с, t= 1, .... п*} = э{С/г<СД,, i=l, .... п}, то выбором достаточно большого С можно одновременно
238 гл. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА удовлетворить соотношения Вер {АИС, ₽(С))}> Вер {Ut s^Cpz, Z=l, const С 2 ’ что влечет в силу (251) неравенство Вер{Доо}>1—6, совпадающее с (240). Теорема доказана. В заключение настоящего параграфа рассмотрим во- прос о проверке условий доказанных выше теорем при их использовании для оценки скорости сходимости конк- ретных процессов метода потенциальных функций. Усло- вия этих теорем требуют, во-первых, специального под- бора мажорирующих (или минорирующих) последова- тельностей удовлетворяющих условиям (218) или (219), и, во-вторых, установления справедливости соот- ношений (217) и (239). Что касается подбора последо- вательностей рп, то хотя здесь и не дается регулярный способ построения рп, в конкретных случаях сами алго- ритмы подсказывают естественный выбор этих последо- вательностей. Установление же соотношений (217) и (239) в этой книге будет производиться на основе сле- дующей ниже леммы VI, учитывающей специфику алго- ритмов метода потенциальных функций. Лемма VI. Пусть для рекуррентных соотношений (154) с конечномерным вектором с выполнены условия теоремы XIV, причем минимум функции J(с) достигается в точке с*. Тогда m 1°. Если р2 (с, с*) _ 2 (ct - ctf «г (7 (с) - Jmin), где о—некоторая константа, то выполнено соотношение (217) с Un = P2(cn, Л, a«=1-yV„> к„ = constу2. 2°. Если для каждого Н>0 найдется g(H) такое, что Р2 (с, с‘) С g (Н) (J (с) - 7т1п) при р2 (с, с*) < Н, то для любого С> 0 и любой последовательности рп(С), 0<рп(С)<р*, где р* — константа, не зависящая от С,
§ 6. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ 239 I 1 выполнено соотношение (239), где Мп и Мп определяют- ся из условий (236), (237) с Un = (>4cn, с*), И а„(С)^1- х„ = const I I I Замечание к лемме VI. Заметим, что условие пункта 2° леммы более слабое, нежели условие пункта 1°. Поэтому в тех случаях, в которых выполнено условие пункта 1°, справедливы утверждения как пункта 1°, так и пункта 2° леммы с g(Cp*)=cr. Доказательство леммы VI. Выполнение ус- ловий теоремы XIV, конечномерность вектора с и сущест- вование минимума функции J(с) гарантирует, что выпол- нены также и условия теоремы XIII. В условиях этой теоремы было доказано соотношение (145), которое в обозначениях этого параграфа имеет вид М {р2 (cn+I, с*) | сп} <р2(с«, Г)-2уДУ(с")-JmIn)+у2ЛЦФ2), <252) где Ф„ = [г ((сп, ф (хп+|)), Г(xn+I)) + Г+Ч Ф(хп+1)- В условиях теоремы XIV установлены неравенства (194), (195), из которых следует, что ЛЦФ2}<п+ 6 (/(?«)-/min), (253) где а>0, b > 0 — некоторые константы. Из неравенств (252) и (253) получаем неравенство М {р2(сга+1, с‘)|с"}< < р2 (с«, Г) - 2у„ (1 - 4 Y„) (J (с«) - JmIn) + ау2. (254). Поскольку lim уга = 0, то, начиная с некоторого п П-^оо (а именно, такого, что I — (6/2) уп > 1/2), из (254)
240 ГЛ. IV. СХОДИМОСТЬ ОСНОВНОЙ ПРОЦЕДУРЫ МЕТОДА следует неравенство Л4{р2 (crt+1, с*)Ил}< < Р2 Г) - Yrt (/ (с“) - Jmin) + <. (255) Из неравенства (255) следует утверждение 1° леммы VI, если в этом неравенстве перейти к безусловным ма- тематическим ожиданиям и воспользоваться условием р2(с, С*) < О (7 (с) - 7mIn). Для доказательства утверждения 2° леммы VI умножим обе части неравенства (255) на плотность вероятности рп(сп) и проинтегрируем по множеству Ап(С, р), на ко- тором f7rt = p2(c", с*)<Срл. Воспользовавшись обозначениями (236), (237), полу- чим M„(C,₽)CM„(C,₽)-Y« J (Hcn)-Jmln)Pn(cn)dcn + a^n. Anlc-& (256) Если обозначить Н = С₽‘, то на множестве Л„(С, р) при любом п выполнено не- равенство Un = p2(cn, с*)^Н. Тогда в силу условия пункта 2° леммы VI найдется та- кая константа g(H), что на множестве Ап(С, р) при лю- бом п имеет место соотношение J (с”) 7min (257) Поэтому в интеграле, фигурирующем в правой части не- равенства (256), можно заменить выражение 7(c") —7mln выражением Произведя такую замену и вос- пользовавшись обозначением (237), приходим к нера- венству (239), завершая тем самым доказательство утверждения 2° леммы VI. Лемма VI доказана.
Глава V ПРИМЕНЕНИЕ МЕТОДА ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ К ЗАДАЧЕ ОБ ОБУЧЕНИИ МАШИН t РАСПОЗНАВАНИЮ ОБРАЗОВ (ДЕТЕРМИНИСТСКАЯ ПОСТАНОВКА ЗАДАЧИ) В этой и последующей главах метод потенциальных функций, теоретические основы которого излагались в предыдущих главах, используется для решения двух задач об обучении машины распознаванию образов. В этой главе задача рассматривается в детерминистской постановке, а в следующей главе — в вероятностной по- становке (восстановление априорных и апостериорных вероятностей). Приступая в этой главе к рассмотрению первой из этих двух задач, напомним сначала постановку и геомет- рическую интерпретацию этой задачи, уже упоминав- шиеся в главе I. § 1. Постановка задачи Под обучением машины распознаванию образов (в детерминистской постановке) понимается следующая за- дача. На «входе» машины последовательно возникают «входные ситуации», которые оператор («учитель») умеет разделять на несколько, например, на два непере- секающихся класса. Детерминистский характер форму- лируемой ниже задачи связан именно с тем обстоятель- ством, что эти классы не пересекаются и что учитель однозначно и безошибочно относит объекты к некоторому классу: если один и тот же объект будет предъявлен ему несколько раз, он отнесет его всегда к одному и тому же классу. В машину не введены в какой-либо форме указа- ния о том, по каким правилам или признакам следует распределить входные ситуации на классы. В процессе обучения при возникновении на входе машины некото- рой ситуации в нее вводится информация лишь о том, какому классу эта ситуация принадлежит. Щ М. А. Айзерман и др. 1
242 гл. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ После прекращения этого процесса обучения и при возникновении на входе машины тех же или новых ситу- аций она должна распознавать, к какому классу они принадлежат (экзамен). Особенность задачи заключается в том, что в про- цессе обучения машине предъявляется конечное (и при- том относительно небольшое) количество ситуаций, а машина после обучения должна уметь правильно клас- сифицировать бесконечное (или весьма большое) коли- чество ситуаций, которые могут появиться в процессе экзамена. Тем самым полностью исключается тривиаль- ное решение задачи — простое запоминание появившихся ситуаций: конструкцией машины или ее программой дол- жна быть предусмотрена «экстраполяция» информации, полученной в процессе обучения, на новые ситуации, ко- торые ранее в процессе обучения не возникали на входе. В указанной постановке задачи машина должна клас- сифицировать ситуации на входе, хотя заранее (до на- чала процесса обучения) не было известно, какая именно классификация должна быть произведена. Например, при распознавании зрительных образов одна и та же машина должна обучаться отличать различные цифры, либо буквы алфавита, либо фотографии различных лиц и т. п. Какую именно классификацию требуется произ- вести в данном конкретном опыте, определяется лишь последовательностью ситуаций, предъявляемых в про- цессе обучения, и указаниями учителя. В этом смысле машина, способная обучаться распознаванию классов, должна быть «универсальной». Чтобы связать с этой задачей геометрическую интер- претацию, о которой шла речь в главе I, введем в рас- смотрение пространство входов X, построенное так, что- бы каждой входной ситуации однозначно соответство- вала точка этого пространства. По условию классы А и В не пересекаются. Это озна- чает, что в пространстве X существует по крайней мере одна разделяющая функция f*(x), принимающая поло- жительные значения на точках, соответствующих клас- су А, и отрицательные значения на точках, соответствую- щих классу В\ значения f*(x) в остальных точках безраз-
§ 1. ПОСТАНОВКА ЗАДАЧИ 243 | личны. В общем случае таких разделяющих функций I может быть много. * В процессе обучения последовательно появляются 9 точки в пространстве X и сообщается информация о том, Ч какому классу — А или В — эти точки принадлежат. За- Г лача состоит в том, чтобы, владея лишь этой информа- цией, за конечное число показов в процессе обучения построить функцию, аппроксимирующую какую-либо из ’ разделяющих функций. Тогда в процессе экзамена ма- шина сможет относить появляющиеся точки к классу А или В, в зависимости от знака в этих точках построен- |? пой разделяющей функции. Как уже указывалось в главе I, постановка задачи об обучении машины бессмысленна, если на множество си- т \ аций, которые машина должна классифицировать, не изложено никаких ограничений. Действительно, в этом случае, каков бы ни был алгоритм функционирования машины и какова бы ни была разделяющая функция, выстраиваемая после предъявления конечной последова- тельности точек, всегда можно еще не показанные точки поименовать так, чтобы в процессе экзамена на этихточ- ьах машина всегда ошибалась. Поэтому необходимо за- ранее надлежащим образом ограничить выбор простран- ства X и класс функций Г (%), с которыми приходится иметь дело. Эти ограничения применительно к рассмат- риваемой здесь задаче формулируются так: предпола- гается существование в пространстве X такой системы функций ср* (х) (Z = 1, 2, ...), что искомую разделяющую функцию можно представить разложением оо (1) в котором коэффициенты с\ удовлетворяют следующему условию: существует числовая последовательность Хг- оо оо (/ = 1, 2, ...), такая, что суммы 5 и ко- Ш'чны. В соответствии с терминологией, введенной в § 4 । 1<авы II, это предположение является основной гипоте- ки метода потенциальных функций. Это условие обеспе- чивает достаточно быструю сходимость ряда (I). 16*
244 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ Исходя из (1), можно ввести в рассмотрение беско- нечномерное пространство Z с координатами гг- = = Хгфг(х) (/= 1, 2, ...). Такое пространство будем на- зывать спрямляющим. В силу (1) разделяющая функция f*(x) в пространстве Z отображается в линейную функ- оо цию 3c*zft, где с‘==с7^ (1=1» 2> •••)• Так как . ( > 0, х <= А, f W = 2 < 0, х^в> (2) то в пространстве Z точки, принадлежащие разным клас- сам, разделяются гиперплоскостью 2фл = 0. (3) Алгоритмы метода потенциальных функций, решаю- щие сформулированную выше задачу о разделении двух непересекающихся классов А и В, далее формулируются как в терминах исходного пространства X, так и в тер- минах спрямляющего пространства Z. § 2. Алгоритм, решающий задачу Алгоритм, решающий задачу об обучении распознава- нию образов в детерминистской постановке, получается из общей рекуррентной процедуры метода потенциаль- ных функций (!) (см. гл. II) и имеет вид f°W=o, f+'(z) = f (х) + гпк(х, xn+l), (4) где К (х, у)— потенциальная функция, которая выби- рается в соответствии с рекомендациями, сформулиро- ванными в главе III. Таким образом, в рассматриваемом здесь случае в процедуре (!) все qn принимаются равными единице.
§ 2. АЛГОРИТМ РЕШАЮЩИЙ ЗАДАЧУ 245 Ныбор числовой последовательности гп определим сле- дующим п гп = равилом: на 0, если 0, если +1, если — 1, если (п + 1)-м шаге алгоритма f(Z+1)>0 и хл+,еЛ, f(xn+1)<0 и хп+'^В, f(xn+1)<0, но хп+1(=А, f(xn+I)>0, но хп+'е=В. Здесь хп+1 — точка процессе обучения на пространства X, i (п + 1)-м шаге, а предъявленная в fn (х) —n-е при- ближение разделяющей функции, построенное к (п+1)-му шагу алгоритма. Эту формулу, определяющую последовательность гп, можно записать следующим об- разом: J rn = y [signf (x"+1)-signf"(xn+1)], (5) j вспоминая, что f*(x)— разделяющая функция и поэтому | signf*(xn+I) = +1, если хп+|еЛ, и signf*(xn+1) =—1, ‘ если хп+1еВ. К • Сравнивая выражение (5) с общей формулой (10) I главы II, замечаем, что в рассматриваемом случае уп=1/2, «помеха» |п==0, а функция I r(f, Г) = sign/*-signf. (6) I' Действие алгоритма при таком выборе последова- тельностей qn и гп можно пояснить следующей схемой. Пусть в процессе обучения появляются точки х1, х2, ... ..., хп, ..., каждая из которых принадлежит А или В. Припишем условно этим множествам соответственно знаки + или —, т. е. назовем, например, множество А положительным, а В — отрицательным. При появлении первой точки х1 строится функция Р(х)—первое приближение искомой разделяющей функции f*(x) —следующим образом: > ( К (х, х1), если х1 е А, fl (х) = Л1 (х) = I _ к если е в
246 Г-Н. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ Иначе говоря, f'(x) равно потенциалу от х1, взятому со знаком множества, к которому принадлежит х1. Даль- нейшую работу алгоритма разъясним по индукции. Пусть после r-го показа построено r-е приближение fr(x) функ- ции f*(x). Пусть далее при следующем (г + 1)-м показе появляется точка xr+1. В результате возможны четыре случая: а) хг+1€=Л, fr(xr+I)>0, б) /+1еВ, f(xr+1)<0, в) /+1еЛ, f(xr+,)<0, г) /+1еВ, Г(хг+1)>0. В случаях а) и б) знак множества, которому принад- лежит точка xr+1, и знак fr(xr+{) совпадают, т. е. «ошиб- ки нет». В этих случаях принимается Г'(х) = Г(х). В случаях в) и г) есть ошибка, т. е. знак множества, которому принадлежит хг+\ и знак fr(xr+l) не совпадают. Тогда производится «исправление ошибки», т. е. прини- мается в случае в) Г+1(х) = Г(х) + /Цх, Xr+1); в случае г) fr+1 (х) =(х) —/С (х, xr+1). Иначе говоря, при появлении (г-I- 1)-й точки «де- лается предположение» о том, что r-е приближение fr(x), построенное при показе r-й точки, знаком разделяет мно- жества, т. е. что функция fr(x) и есть искомая разде- ляющая функция; это предположение проверяется на (г+1)-й точке; если оно оказывается справедливым для нее, то приближение на этом шаге не меняется, т. е. «предположение сохраняется» для следующего шага; в противном случае приближение меняется путем добавле- ния к нему потенциала (г + 1)-й точки с таким знаком, чтобы это изменение было направлено «в сторону ликви- дации ошибки».
I § 2. АЛГОРИТМ РЕШАЮЩИЙ ЗАДАЧУ 247 I ’ Построенное после г шагов приближение можно запи- | (;ггь следующим образом: • 5 Г(Х)= S' K(x,xs)- 2' К{х,хч). Xs g= a xq В Здесь у сумм нижние индексы означают, что при < \ ммировании учитываются лишь показанные за г ша- 1ов обучения точки из множеств А и В соответственно, л штрих означает, что при суммировании учитываются лишь те Xs из А (соответственно х9 из В), подстановка которых в предшествующее приближение «приводила к ошибке», т. е. к получению знака, не совпадающего со знаком множества, которому принадлежит Xs. Переходя теперь к описанию алгоритма в спрямляю- I щем пространстве, будем, как обычно, считать, что после выбора системы функций <рг-(х) (/=1,2,...)— эта си- стема выбирается с учетом рекомендаций, приведенных в главе III, — потенциальная функция К(х, у) предста- вима в виде оо А (х, ^Ф,- (*) Ф/ (у), (7) 1 = 1 где кг — отличные от нуля действительные числа. В свя- зи с тем, что все срДх), как и всюду в этой книге, пред- полагаются ограниченными, функция К(х, у) ограничена при х е A U В. В спрямляющем пространстве Z каждой точке л* е X соответствует бесконечномерный вектор z с ком- понентами 2; = Хгфг(х). Множествам А и В простран- ’ ( гва X соответствуют два непересекающихся множества в спрямляющем пространстве; им приписываются те же наименования. Если в пространстве X существует разделяющая функция, представимая разложением Г (х) = 2 <Фг (*), 1акая, что {> 0, если х А, < 0, если х В,
248 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ то в спрямляющем пространстве существует проходящая через начало координат разделяющая плоскость с на- правляющим вектором с* (?•, = О, где = такая, что > 0, если хе Л, < 0, если х е В. Отобразим множество начала координат, т. е. В симметрично относительно заменим все векторы 2еВ на —z. Полученное таким об- разом отображенное множе- ство назовем В' и рассмо- трим объединенное множе- ство S = A U В' (рис. 12, жирная линия). У сл овия р аздел имости множества А и В плоскостью с направляющим вектором с* запишутся теперь в виде (с*, г) s S c\z, > 0 (8) При 2 Е S, т. е. множества А и В раз- деляются этой плоскостью, если объединенная область S лежит по одну сторону от нее, и наоборот. Пусть последовательность М, состоящая из точек х1, %2, ...» хг, ..., принадлежащих множествам А и В из пространства X, соответствует последовательности А1* точек г1, ..., z2, ..., zry ... из S = A U В' в спрямляю- щем пространстве. Функция /<(%,//), определенная в соответствии с (7), может быть интерпретирована в спрямляющем простран- стве Z как скалярное произведение двух векторов z и и с координатами Zi = Агфг (х) и щ = Хгфг (у) соответственно: К (х, у) = (z, и). (9)
§ 2. АЛГОРИТМ РЕШАЮЩИЙ ЗАДАЧУ 249 Тогда, учитывая (9) и определение АТ*, формулу для г го приближения в спрямляющем пространстве можно переписать так: f(z) = 2' (z,z*), (Ю) г* е М* где 2 означает суммирование по тем точкам из после- довательности AI*, показ которых в процессе обучения привел к «исправлению ошибки». Удалим теперь из последовательности точек Л1* все точки, которые не приводили к «исправлению ошибки», а оставшиеся точки, требовавшие «исправления ошибки», перенумеруем подряд, обозначая их вновь через z\z2, ..., zz, ... Они образуют последовательность М**. Тогда выражение (10) можно записать так: f(z)= z, 2zz , zz<=AT‘, (П) где kr— числе «исправлений ошибок», которое было в те- чение первых г показов. Учитывая, что Zi = Хг-<рг- (х), эту формулу можно переписать в следующем виде: fr (z) = 2 (%) = 5 c,-<pz U), / —1 /=1 где сг, = а сг, — Z-я компонента вектора 2 1 1 1 1 Условие, при котором должно быть произведено «исправление ошибки» в точке г е S, имеет вид fr(z) < 0. Поэтому из равенства (11) следует, что (& + 1)-е «ис- правление ошибки» произойдет, если z*+I, 2 zl )<0. (12) Теперь можно описать алгоритм на «геометрическом языке». При появлении первой точки г1 из последова- тельности М* применение алгоритма означает построение
250 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ в спрямляющем пространстве плоскости fi(z) = (z, z!) = (z, с1) = 0 с направляющим вектором с1 = z1 (рис. 13). Если следующая точка из М* лежит в том полупро- странстве, куда направлен направляющий вектор z1 по- строенной плоскости, то «ошибки нет»; положение пло- скости и ее направляющий вектор в этом случае не из- меняются, и производится следующий показ. В первый же раз, когда точка попадает в противоположное полу- пространство, происходит «исправление ошибки», кото- рое на этом геометрическом языке означет следующую операцию: направляющий вектор плоскости, построенный до этого шага, складывается с вектором точки, потребо- вавшей «исправления ошибки», и этот суммарный вектор принимается за новый направляющий вектор разделяю- щей плоскости, и, следовательно, сама плоскость «пово- рачивается» относительно начала координат так, чтобы быть перпендикулярной к новому направляющему век- тору. Так, например, если исправление ошибки потребо- валось бы на втором шаге, то после второго шага новый направляющий вектор был бы равен z1 4-z2 (рис. 14). После k исправлений ошибок направляющий вектор k плоскости равен сумме 2 zz, е АГ*, а неравенство /=1 (12) указывает, что следующее (А4-1)-е исправление ошибки произойдет только тогда, когда соответствующая
§ 2. АЛГОРИТМ РЕШАЮЩИЙ ЗАДАЧУ 251 нщка окажется в полупространстве, противоположном направляющему вектору. Использование алгоритма для построения машины или программы, обучающейся распознавать классы, мыс- нггся следующим образом. При показе точек в процессе обучения машины к s-му шагу строится функция fs(x) н соответствии с описанным алгоритмом. После доста- ючно долгого продолжения этого процесса обучение пре- кращается, и функция fs(x) принимается за разделяю- щую функцию. В процессе экзамена при появлении новой ючки %* подсчитывается fs(x*) и точка %* относится к классу А или В в зависимости от знака fs(x*). На геометрическом языке это означает, что после s показов проходящая через начало координат спрямляю- щего пространства плоскость с направляющим вектором 2 zz, принимается за разделяющую пло- /=1 (КОСТЬ. Если иметь в виду процедуру последовательного вы- числения коэффициентов уравнения разделяющей пло- скости, то эта процедура может быть описана рекуррент- ным соотношением (!!) из главы II, которая в данном случае имеет вид с"+1 = с" 4- гп^ (xrt+1), Z= I, 2, (13) где гп определяется по формуле (5), a фДх) = Хгфг(х). Эта процедура рекуррентно определяет коэффициен- ты (п+1)-го приближения разделяющей плоскости. Вопрос о сходимости этой процедуры будет изучен далее, в § 5. Будет показано, что разделение классов А и В достигается не более чем после т исправлений оши- бок и что число т не зависит от выбора обучающей по- следовательности. Далее будет показано, что с вероят- ностью единица разделение множеств А и В достигается после конечного числа шагов алгоритма (т. е. после ко- нечного числа показов в процессе обучения). В связи с этим существует такое конечное число шагов, после которого разделяющая плоскость проходит в простран- стве Z между областями А и В, и продолжение процесса
252 гл. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ обучения теряет смысл. В связи с этим естественно до- полнить алгоритм условиями остановки. Эти условия формулируются в § 6, где изучается, в частности, вероят- ность ошибок в экзамене в зависимости от принятых условий остановки. § 3. Два метода реализации алгоритма При реализации средствами вычислительной техники описанного в § 2 алгоритма возможны два пути, разли- чающиеся методами запоминания данных, поступающих в машину в процессе обучения и обрабатываемых в силу алгоритма (см. § 3 гл. II). Первый путь является специ- фическим для использования универсальных вычисли- тельных машин, второй же путь (который, разумеется, также может быть реализован на универсальных вычис- лительных машинах) приводит к построению специали- зированных устройств аналогового типа (схем). Част- ным случаем устройств подобного типа является пер- септрон. Машинная реализация. Рассмотрим n-й шаг алгоритма. К этому шагу в памяти машины хранятся координаты всех тех точек х1, х2, ..., х1, показанных в процессе обучения до этого шага, для которых требова- лось исправление ошибки, а также числа аь аг, •••> at (аг= ± 1), которые указывают своим знаком, какому множеству (Л или В) принадлежат эти точки (здесь I — число исправлений ошибок до n-го шага). При по- явлении на (п + 1)-м шаге новой точки х* машина вы- числяет величины К(х*,х*), i = 1, 2, ..I и сумму Г(х’)=ЗМС(х’, х1). i-1 Если fn(x*)>0 и (или fn(x*)<0 и х*еВ), то результаты вычисления на этом шаге и сама точка х* забываются и рассматривается следующий показ. Если же fn(x*)>0, а х*еВ (или fn(x*)<0 и х*еЛ), то в память машины заносится дополнительная точка xw = = х* и число а/+1, указывающее знаком, к какому мно- жеству принадлежит х*; все остальные числа, подсчи- танные на этом шаге, забываются.
§ 3. ДВА МЕТОДА РЕАЛИЗАЦИИ АЛГОРИТМА 253 Таким образом, к концу каждого шага (а значит, и * к концу всего процесса обучения) в памяти машины т‘ хранятся лишь наборы х1, х1 и ои, а/. Что же касается значений потенциальной функции Л(х, у) и вы- страиваемой в процессе работы машины функции fn(x), то они не должны храниться в памяти машины, а при экзамене они вычисляются каждый раз по мере необ- ходимости и затем забываются. Персептронная реализация. Второй путь может быть реализован в тех случаях, когда потенциаль- ная функция К(х, у) задана конечным рядом N к (х, у) = 2 Мф» (х) ф< (у). I = 1 К (п + 1)-му шагу алгоритма в памяти машины хра- нятся числа ср, с", имеющие смысл компонен- тов направляющего вектора гиперплоскости в /V-мерном спрямляющем пространстве. При показе на (п+1)-м шаге точки х* вычисляются величины * z'f = А^ф, (Х-) н сумма ' Далее подсчитывается число: J 0, если fn (х*)^0 и х’еА, или f" (х‘) < 0 и х’еВ, ь гп — 1, если Г(х’)<0 и х’еЛ, i. — 1, если f"(x*)^O и х’еВ I и подсчитываются новые значения c”+I, cn+1 по I формуле c»+i = сп1 + гп^1 (х‘). £ В главе II было показано, что персептронная реали- зация процедуры может быть реализована (при учете конечного числа N гармоник) персептронной схемой (см. рис. 6). Применительно к задаче, рассматриваемой в ьюй главе, устройство, формирующее числа гп, должно
254 гл. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ содержать (рис. 15) нелинейный выходной элемент с характеристикой у = signt; и нелинейный элемент r(h,y\ образующий функцию г по сигналам у и /г, где h — сиг- нал о знаке множества, к которому относится показы- ваемая точка (h = 1, если х е А и h = —1, если хеВ): (О, если y = h, I /г, если ##=/?. Такая схема в точности реализует процедуру (13), (5). Персептрон Розенблатта «Марк-1» был устроен по и у=sign и г= r(h,y) Рис. 15. этой схеме, причем, как уже говорилось в главе II, си- стемой функций фг(х) в нем служили пороговые функ- ции (см. (20) в гл. II). Таким образом, персептрон Ро- зенблатта при решении задачи распознавания образов в детерминистской постановке с разложением искомой раз- деляющей функции f(x) по системе пороговых функций реализует процедуру (13), (5). § 4. Экстремизируемый функционал Приступим теперь к определению функционала, ко- торый минимизируется процедурой, описанной в § 2, и по отношению к которой процедура (13) является гра- диентной (в статистическом смысле). * В § 4 главы II было показано, что такой функционал существует всегда, когда в алгоритме метода потенци- альных функций все qn = 1, и что этот функционал даёт- ся выражением (37) главы II । где функция Q определяется выражением (33) главы II.
§ 4 ЭКСТРЕМИЗЙРУЁМЫЙ ФУНКЦИОНАЛ 255 Для того, чтобы получить явное выражение функцио- нала Jf*{f} для алгоритма, рассматриваемого в этой гла- ве, воспользуемся выражением (6). Из выражения (33) главы II получаем f(x) Q(f(x), Г(х))= - J [sign f (х)- sign и] du = = - f (х) [sign Г (х) - sign f (х)]. (14) Таким образом, при построении разделяющей поверх- ности процедура этой главы является статистически гра- диентной по отношению к функционалу Zf. {f} = мх {f (х) [sign f (х) - sign г (х)1}. (15) Обратим теперь внимание на то, что подынтегральная функция в (15) неотрицательна, каковы бы ни были .функции f(x) и Действительно, рассмотрим зна- * чение функции Q(f(x), f* (х)) — f(x)[signf(х) — sign f (х)] (16) в следующих трех случаях: а) х таково, что /*(%)> 0, f(x)>0, либо /*(%)< О, f(x)<0; тогда Q = 0; б) х таково, что f*(x)>0, f(x)<0, либо f*(x)<0, f (%) > 0; тогда Q > 0; в) f (х) = 0; тогда Q = 0 независимо от того, как до- определена функция sign z в нуле. Что же касается функции f*(x), то она не может быть равна нулю при хеЛ UB, так как f*(x) разделяет мно- жества А и В. Далее обратим внимание на то, что функ- ция Q обращается в нуль тождественно не только тогда, когда f(x) является одной из разделяющих функций, так как в этом последнем случае знаки f*(x) и f(x) совпа- дают при всех хеЛиВ, но и, например, тогда, когда /(х)^0. Таким образом, в данном случае экстремизация функ- ционала (15) может привести к одной из разделяющих Функций, а может привести и к «ложному» решению и дачи — к функции f (х) = 0, которая не является разде- ипощей, так как такая функция не имеет разных знаков h i точках, принадлежащих множествам А и В.
256 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ Возможность «ложного» решения, о котором идет речь, приводит к важным следствиям, касающимся «гру- бости» рассматриваемой процедуры по отношению к учи- тываемому числу гармоник <рДх). Этот вопрос особо важен при использовании схемной (персептронной) реа- лизации, когда число А/ гармоник <рг(х), по которой ве- дется разложение, конечно и заранее фиксировано. В связи с тем, что в подобных случаях выстраиваемая функция имеет вид N Г (х) = 5 c"<Pi (*), i = l перепишем функционал (15) так: {N Г N 1] 5 (х) sign 2 см (х) - sign Г W • z-i L JJ (17) Если функция f*(x) может быть представлена разложе- нием по системе (?г(х), содержащей не более N гармо- ник, то, как это будет показано в следующем параграфе, процедура сходится к одной из разделяющих функций f*(x). Поэтому в этом случае функционал стремится к своему минимуму, равному нулю, за счет стремления к нулю выражения в квадратных скобках; при этом сами функции fn(x) не стремятся к тождественному нулю. Тем самым будет показано, что «ложные» решения в этом случае не возникают. Представим себе теперь, что мы ошиблись в оценке числа N гармоник, требуемых для восстановления хоть какой-либо разделяющей функции*). Тогда заведомо N при любой функции fn (х) = 2 cfoi (х) будут существо- вать такие хеЛ U В, что знаки f*(x) и fn(x) различны, выражение в квадратных скобках будет отлично от тож- дественного нуля, а обращение функционала (17) в нуль возможно лишь за счет «ложных» решений. ♦) Это означает, что в спрямляющем пространстве области А и В не могут быть разделены одной плоскостью.
§ 5. СХОДИМОСТЬ ПРОЦЕДУРЫ 257 На первый взгляд могло бы показаться, что если вместо Yn = 1/2 принять в качестве уп убывающую по- следовательность, то можно избежать получения «лож- ного» решения в случае, когда число гармоник выбрано неверно. В этом случае были бы выполнены все условия теоремы XIV из главы IV и, следовательно, было бы обеспечено стремление функционала к нулю. Однако это стремление Jf* к нулю могло бы иметь место только лишь за счет «ложного» решения. Если же используется выражение (5) для гп, не включающее «сжимающего множителя», процедура при ошибочном выборе числа N вообще не сходится к решению, даже «ложному», а при- водит к нерегулярному «качанию» около нуля опреде- ляемых алгоритмом коэффициентов В связи с тем, что эти качания происходят около нулевых значений коэффициентов, разделяющая плоскость в спрямляющем пространстве, выстраиваемая в силу процедуры, нерегу- лярно и произвольно «качается». Процедура не приво- дит в этом случае даже к приближенному разделению областей Л и В. Без проведенного анализа можно было бы думать, что при ошибочном выборе числа N с ро- стом п хотя и не достигается полное разделение обла- стей Л и В, но достигается в каком-либо смысле прибли- женное разделение. Мы видим, однако, что это не так, и поэтому процедура (13), (5) не груба по отношению к выбору числа N. § 5. Сходимость процедуры Далее, при решении иных задач (гл. VI и VII) ис- следование сходимости соответствующей процедуры ме- тода потенциальных функций опирается на теорему XV главы IV. Применение этой теоремы к исследованию сходимости процедуры этой главы затруднено в связи с двумя обстоятельствами: во-первых, с необходимостью дополнительно выяснить, не возникает ли «ложное» ре- шение, о котором шла речь в конце предыдущего пара- графа, а во-вторых, с отсутствием в алгоритме этой гла- вы «сжимающего» множителя уп. В связи с этим в этом параграфе мы не будем опираться на теорему XV, а бу- дем использовать иные соображения, исходящие из осо- бенностей задачи, рассматриваемой в этой главе. 17 М. А. Айзерман и др.
258 гл. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ В этом параграфе всюду считается, что выполнено основное предположение (гл. II) о разделяющей функ- ции f*(x) и потенциальной функции К(х, у): а) б) в) Г(*) = (Д К (х, г/) = S (х) фг (у), Z-1 (18) Z-1 Условие (18) в) исключает случай, когда «спектраль- ный состав» потенциальной функции «уже» спектраль- ного состава восстанавливаемой функции, так как в про- тивном случае некоторые из членов ряда (18) в) были бы бесконечно велики из-за того, что = 0 при с* ¥= 0. Для персептронной реализации это означает присутствие в схеме персептрона гармоник, для которых в (18) а) с* ¥= 0. К вопросу о том, как ведет себя процедура, если это условие не выполнено, мы более в этом параграфе воз- вращаться не будем. Введем в рассмотрение величину Mje{|signf‘(x)-signfn(x)|}, (19) которая отличается от величины (17) лишь отсутствием множителя fn (х) = 2 (*)• Если теперь показать, что /=1 величина (19) в силу процедуры (4), (5) в каком-либо смысле стремится к нулю с ростом и, то это может быть только, если в пределе при п->оо знаки fn(x) и /*(%) совпадают, т. е. если реализуется правильное разделение. Для этой величины, рассматриваемой как функционал от fn(x), процедура (4), (5) не является градиентной, однако имеет место следующая Теорема I. Пусть множества А и В в пространстве X и система функций ф$(х) (i = I, 2, ,таковы, что:
§ 5. СХОДИМОСТЬ ПРОЦЕДУРЫ 259 1) выполнены условия (18), и функция f* (х) удовлет- воряет условию Х^А' е>0; (20) 2) появление точек обучающей последовательности — независимые события, определяемые плотностью вероят- ности р(х). Тогда в силу алгоритма, определяемого соотноше- ниями (4), (5), Afx{|signr(x)-signr(x)|}-H^>0. (21) Доказательство теоремы 1. Если сущест- вует хотя бы одна разделяющая функция, удовлетво- ряющая (18) и (20), то существует бесконечно много таких функций, отличающихся, например, постоянным множителем. Выберем одну из этих функций, именно такую, что inf | f* (х) | = sup К (х, х) = sup 2 (х) • xeAUB xeAUB x^AIJB Z«1 (22) Введем обозначение Ac" = cj — с", I = 1, 2, ... В силу условия (5) выбора последовательности гп г"(х)[Г(*)-Г(х)] = 2 Ас"<р. (х) , если sign f* (х) =/= sign frt(x), 0, если sign Г (х) = sign fn (х). С другой стороны, в силу (22), если только гп(х)#=0, оо 2Ас"ф. (х) == | Г (х) - fn (х) | > sup /<(х, х). 1=1 хедив Таким образом, всегда г" (х) 5 Ас/ф,- (х) | г” (х) | sup К (х, х). 1 = 1 X^AUB (23) 17»
260 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ Имея в виду применить далее теорему VI главы IV, введем в качестве последовательности функций Un по- следовательность Un = 2 (?’ - г?)2 2 (лг?)2. (24) /=1 Z=1 Вспоминая теперь,что гГ'^ + г^Л. (25) получаем ип+1 = 2 (Д<Г’)2 = 2 (Дг? - (%«+') )2= = 2 (Д^)2 - 2rn 2 Д с^г (хп+*) + (г")2 2 (х"+’) = . = ип - 2rnS Дс"<р/ (xn+1) + (rn)2 к (xn+l, xn+‘). Воспользовавшись соотношением (23), получаем Un+i - 2|rn | sup К (x, x) + (rn)2 К (xn+1, xrt+,)< < Un -1 rn | sup к (x, x). (26) xeAUB Здесь учтено, что | rn(xn+1) | принимает лишь значения 0 или 1, и, следовательно, | rn | s (гп)2. Переходя в (26) к условным математическим ожида- ниям, находим ....xn}^Un- sup К(х, x)Mx{|rn(x)|}. Применим теперь в качестве последовательности Vn, фигурирующей в теореме VI главы IV, выражение V„ = 2Alx{|rn(x)|}, совпадающее в силу (5) с (19), а в качестве константы а, фигурирующей в тексте этой теоремы, — величину а = ~ sup /С (х, х). 2 x€=A|JB
§ 5. СХОДИМОСТЬ ПРОЦЕДУРЫ 261 Тогда все условия теоремы VI главы IV выполнены, и в силу этой теоремы последовательность Vn, а значит, и величина (19) стремится к нулю почти наверное. Тео- рема I доказана. Интересной особенностью процедуры (4), (5) яв- ляется то, что она обеспечивает разделение множеств А и В за конечное число шагов. Этот факт устанавливают следующие теоремы II и III. Теорема II (А. Новиков [11]). Пусть М — произ- вольная бесконечная последовательность точек х1, х2, ... ..., х\ ... пространства X, принадлежащих множествам А или В. Пусть, далее, существует функция удовлет- воряющая условиям (18) и (20). Тогда существует целое число т, не зависящее от выбора последовательности М, такое, что при использовании процедуры (4), (5) число исправлений ошибок не превосходит числа пг, равного (sup Y К (х, х) /~~£> \2 '“м'’- irMl-V g.M (27> Прежде чем приступить к доказательству теоремы II, поясним ее, использовав введенные выше геометриче- ские представления. Применительно к спрямляющему пространству теорема II утверждает, что если суще- ствует плоскость такая, что все объединенное множе- ство S — A U В' лежит строго по одну сторону от нее и ограничено, то для любой последовательности М про- цедура (4), (5) после некоторого конечного числа ис- правлений ошибок строит такую плоскость, что при даль- нейших показах всего бесконечного «хвоста» последова- тельности эта плоскость более не поворачивается, т. е. исправлений ошибок не происходит. Доказательство теоремы II будет проведено на этом «геометрическом языке» применительно к спрямляю- щему пространству. Доказательство теоремы II. Введем обо- значения а = inf !(|^, (28) г sS Iс I & = sup|z|. (29) 2^5
262 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ Из (20) и (28) следует, что Поскольку 2ч|)2(х) =/Л(х,х)( (30) Z=1 то b < оо, так как К(х, х)— ограниченная функция. На геометрическом языке величина а равна минимальному расстоянию от плоскости (с*, г) = 0до объединенной области S = A U В', а b — расстояние . от начала координат до наиболее удаленной от него точки этой области (рис. 16). Из (28) и (29) следует, что при z^S ’ (Г, г)>а|Г |, (31) (32) Обозначим, кроме того, через k c^z1, zlt=M” (33) (с‘,г)*0 1=1 направляющий вектор плоскости, по- Рис. 16. строенной рассматриваемой процеду- рой после k исправлений ошибок (по- следовательность Л1** определена выше, в § 2 этой гла- вы,— см. текст перед формулой (11)). Тогда, если (c\zfe+1)<0, то zk+le=M*\ (34) Проследим за изменением направляющего вектора ck плоскости, выстраиваемой в силу алгоритма. Просум- мируем неравенство (31) по I от единицы до k, учитывая затем обозначение (33): (с*, ck)^ka\c'\. (35) Для оценки левой части (35) используем неравенство Коши — Буняковского |(Г,
1 j I § 5 СХОДИМОСТЬ ПРОЦЕДУРЫ 263 j Отсюда и из (35) после сокращения на |с*| получаем | \ck\^ka. (36) Далее, в соответствии с геометрической интерпрета- цией алгоритма | cft+1 = cft + zft+1. Поэтому | ^+1 |2 = | £k |2 + 2 2fe+1) + | 2fe+l |2t Используя теперь неравенства (32) и (34), получаем | ck+x |2 < | ck |2 + b2. * Из этого рекуррентного соотношения, учитывая, что с° = 0, находим * \ck\2^kb2. (37) Объединяя неравенства (36) и (37) k2a2^\ck\2^kb2, I . получаем окончательно оценку ; k^ = m. (38) ' Оценка (38) выписана в терминах спрямляющего пространства. Она может быть переписана в терминах | пространства X, если переписать в этих терминах фор- 8 мулы (28) и (29): b— sup у7((х, х). x^AUB Поэтому _______ / sup УК(х, х) г—---------\2 k х<вЛив___________ 1 / V (г*}2 = т> I inf |Г(х)| |/ ' хе Лив , = 1 ‘ (39) (40) (41)
264 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ ОО и число k конечно, если ряд 2 (г/)2 сходится: Этот ряд сходится заведомо, если выполнено основное предполо- жение (18). Теорема II доказана*). Неравенство (41) показывает, что т тем меньше, чем при прочих равных условиях больше точная нижняя грань функции |f*(x)|. Это отражает тот факт, что чис- ло исправлений ошибок тем меньше, чем «дальше» нахо- дятся точки из А и В от разделяющей поверхности f*(x) =0, т. е. чем «дальше» они расположены друг от друга. Утверждение теоремы II, как бы оно ни было важ- но само по себе, не устанавливает еще сходимость вы- страиваемых функций fn(x) за конечное число шагов к разделяющей функции. Действительно, теорема не на- кладывает каких-либо ограничений на статистику показа точек в процессе обучения. При этом результат экзамена может содержать ошибки, даже если бесконечная обу- чающая последовательность разделена автоматом пра- вильно (например, если эта последовательность состоит из бесконечного числа повторений двух точек, одна из ко- торых принадлежит Л, а другая В). Для того чтобы установить сходимость fn(x) к какой-либо разделяющей функции, следует принять во внимание статистику по- каза. *) Из доказательства теоремы II легко видеть, что утвержде- ние теоремы верно и в тех случаях, когда разделяющая функция представима разложением вида f(x) = J СсоФ® (х) если только интеграл J (с«Ао))2 сходится. Однако при доказатель- но стве теоремы существенно используется условие inf | f* (х) |>0. Вместе с тем, если бесконечный ряд и указанный интеграл сходятся равномерно, то их можно выбрать так, чтобы изображаемые ими функции сколь угодно мало отличались друг от друга. Поэтому за- мена бесконечного ряда в условии (18) а) указанным интегралом не усилила бы. теоремы. По этим же соображениям предположение о том, что разделяющая функция представима конечным рядом, не ослабило бы теоремы.
§ 5. СХОДИМОСТЬ ПРОЦЕДУРЫ 265 Очевидно, для того, чтобы автомат мог разделить множества А и В, необходимо, чтобы обучающая после- довательность была «достаточно представительной», точки ее должны быть «достаточно разбросаны» по мно- жествам А и В. Для этого можно, например, потребо- вать, чтобы точки обучающей последовательности появи- лись случайно и притом так, чтобы вероятность появле- ния точки из любого подмножества ненулевой меры была положительна (разумеется, вероятность появления точек из множеств, лежащих вне А и В, равна нулю). Дейст- вительно, если это условие выполнено, то при неполном разделении в конце концов с вероятностью единица произойдет следующее исправление ошибкй, а так как в соответствии с теоремой II этих исправлений может быть лишь конечное число, то с вероятностью единица наступит момент, когда разделение множеств произой- дет. Эти соображения подтверждаются следующей тео- ремой. Теорема III. Пусть множества А а В в простран- стве X таковы, что существует разделяющая функция, удовлетворяющая условиям (18) и (20), а статистика показа удовлетворяет следующим условиям: а) точки обучающей последовательности появляются независимо с одним и тем же распределением вероятно- стей-, б) каково бы ни было п, к п-му шагу алгоритма имеется строго положительная вероятность исправления ошибки, если только к этому шагу не произошло еще полного разделения множеств А и В функцией fn(x). Тогда с вероятностью единица для каждой реализа- ции процедуры найдется такое конечное число I (быть может, свое для каждой реализации), что <•/z Л >0, если хе Л, > f (х){ ( < 0, если х В, т, е. процесс разделения множеств с вероятностью еди- ница осуществляется за конечное число шагов. Прежде чем доказать теорему, заметим, что содер- жащиеся в ней требования, наложенные на статистику показа, гарантируются наличием строго положительной
266 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ вероятности появления точки из любого подмножества множеств А или В ненулевой меры*). Легко показать, что утверждение теоремы III имеет следующую эквива- лентную формулировку. Теорема Ша. В условиях теоремы III для любо- го е существует такое s, что вероятность разделения мно- жеств А и В хотя бы на одном из шагов от нулевого до s-го больше, чем 1 — е. Доказательство теоремы IIL Рассмотрим множество всех реализаций процедуры (соответствую- щих множеству всех обучающих последовательностей). В каждой реализации существует последнее исправление ошибки (так как в соответствии с теоремой II их мо- жет быть лишь конечное число). Рассмотрим вероятность Вер{р > 6} того, что после последнего исправления ошибки вероятность р появления ошибки на следующем шаге больше чем 6^0**). Но событие «после послед- него исправления ошибки р > б» и событие «при р > б во всех последующих показах ошибки не происходит» тождественны. Вероятность же последнего события рав- на нулю для каждого б > 0, так как вероятность нена- ступления ошибки в последующие L шагов в силу неза- висимости появления точек (условие теоремы) меньше чем (1 —6)L, а последнее выражение стремится к нулю при £-*оо. Следовательно, Вер{р>б} = 0 при любом б > 0, а отсюда следует, что и Вер {р > 0} = 0. Но в со- ответствии с условием теоремы Вер {р > 0} и есть веро- ятность того, что разделение не происходит. Поэтому вероятность того, что разделение произойдет, равна 1 — Вер {р > 0} = 1, что и требовалось доказать. *) Эти условия для пространства, состоящего из конечного числа точек, означают наличие положительной вероятности появле- ния каждой из точек пространства, принадлежащих А и В; для n-мерного евклидова пространства они означают, что плотность ве- роятности на А и В может быть нулем лишь на множествах мень- шего чем п числа измерений. **) Условие р > б выделяет реализации, при которых после по- следнего исправления ошибки разделения областей А и В еще не произошло и вероятность попадания точки (в силу статистики по- каза) в те части множеств А и В, которые неправильно отделены, больше б. Вероятность Вер(р>б) есть мера этого множества реа- лизаций, и цель дальнейших рассуждений состоит в доказательстве того факта, что Вер(р > б) = 0.
§ 6. УСЛОВИЯ ОСТАНОВКИ АЛГОРИТМА 267 § 6. Условия остановки алгоритма В соответствии с теоремами предыдущего раздела предложенный выше алгоритм приводит к точному раз- делению множеств А и В с вероятностью единица для каждой конкретной задачи и в каждой реализации за конечное число шагов. Однако, как бы ни была длинна обучающая последовательность и на каком бы шаге про- цесс обучения ни был приостановлен, теоремы предыду- щего параграфа не дают никаких гарантий относитель- но того, произошло уже разделение множеств или нет. Ниже предлагаются два варианта остановки процедуры (4), (5), при выполнении которых хотя и не гаранти- руется точное разделение множеств, но обеспечивается достаточно малая вероятность ошибки в последующем экзамене, если только статистики появления точек в про- цессе обучения и в процессе экзамена совпадают. Вариант 1. Дополним алгоритм (4), (5) следую- щим условием остановки: процесс обучения заканчи- вается, как только после очередного исправления ошибки следующие за ним подряд L показов не приводят к ново- му исправлению ошибки. Здесь L — произвольное, напе- ред заданное целое число. Доопределенная так про- цедура (4), (5) в силу теоремы II приведет к окончанию процесса обучения не позже чем после Lk показов в про- цессе обучения, где k — максимальное число исправле- ний ошибок, оцениваемое теоремой II. Коль скоро про- цесс обучения в соответствии с приведенным выше усло- вием остановки закончен, качество последующего экзамена можно гарантировать оценкой, приведенной в следующей теореме. Теорема IV. Пусть р — вероятность ошибки в про- цессе экзамена, проводимого после окончания процесса обучения. Тогда, каковы бы ни были в > 0 и б > 0, веро- ятность Вер [р < в} того, что р <. в, больше чем 1 — б, если L удовлетворяет неравенству L > Ц. (42) In (1 — е) х ' Доказательство теоремы IV. Рассмотрим событие S(s), заключающееся в том, что при использо- вании предложенного алгоритма и введенного условия
268 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ остановки общее количество исправлений ошибок не меньше чем заданное целое число s>l. Введем в рас- 1 смотрение функцию p(^|s), J p(w\s)dw = 1, такую, что о p(w\s)dw означает вероятность события: вероятность ошибки на следующем после s-ro исправления ошибки шаге лежит между w и w + dw при условии, что собы- тие S(s) имеет место. Если на каждом шаге вероятность ошибки равна w, то вероятность того, что в течение L шагов подряд ошиб- ка не возникает, в силу независимости показов равна (1 —w)L. Поэтому вероятность того, что в течение L по- казов после s-ro исправления ошибки новая ошибка не наступает и вероятность ошибки лежит между w и w + dw, равна’ р (w/s) (1 — w)Ldw. Но в силу принятого условия остановки это выражение равно вероятности того, что рассматриваемый вариант алгоритма приводит к остановке в точности после s ис- правлений ошибок, причем вероятность ошибки в после- дующем экзамене лежит между w и w + dw, если собы- тие S(s) имеет место. Поэтому вероятность Pes того, что остановка произойдет в точности после s исправлений ошибок, а вероятность ошибки в последующем экзамене больше, чем е, равна 1 Pes = / P(w l5)(l ~ W)L Р (s) dw, 8 где P(s)—вероятность наступления события S(s). Остановка процесса обучения после разного числа s исправлений ошибок — несовместные события. Поэтому вероятность такой остановки, что в последующем экза- мене вероятность ошибки больше е, равна k k i Pe = ^Pes J P^W P(s)dw. 5—1 5=18
§ 6 УСЛОВИЯ ОСТАНОВКИ АЛГОРИТМА 269 1 Оценим это выражение сверху: k 1 Р& 2 ~ ]* Р ।s) Р (s) S=1 е или, учитывая, что 1 J p(w |s)P(s) dw 1, е получим Но Ре<£(1-еЛ 6(1-8/ <6, если L удовлетворяет неравенству (42). Поэтому Pe<S. Рассматриваемая в теореме величина Вер{р<е} есть вероятность события «р < 8» при условии, что оста- новка произошла на каком-либо шаге (т. е. условная вероятность). Вероятность же Рг — совместная вероят- ность событий «р > е» и «остановка произошла». Однако поскольку последнее событие всегда наступает (причем самое большее через Lk шагов), то Вер {р <е) = 1 — > 1 — S. Теорема доказана. Таким образом, если из каких-либо соображений из- вестна оценка числа k максимально возможного количе- ства исправлений ошибок, то теорема IV позволяет вы- брать число L так, чтобы гарантировать при исполь- зовании первого варианта условий остановки нужное качество процесса обучения. Однако обычно число k за- ранее не известно: оценка (38) не может быть практиче- ски использована, так как множества А и В также не известны заранее. В этом заключается недостаток первого варианта условий остановки. Описываемый ниже второй вариант условий остановки обходит это затруд- нение.
270 ГЛ. V. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ ОБ ОБУЧЕНИИ Вариант 2. При первом варианте «доверительное» число L показов без исправлений ошибки, после кото- рого заканчивается процесс обучения, не зависит от числа предыдущих исправлений ошибок. Во втором ва- рианте принимается, что число L зависит от числа s имевшихся ранее исправлений ошибок и равно L = == L<q -р s, где Lo — наперед заданное число. Таким образом, во втором варианте L увеличивается на единицу после каж- дого исправления ошибки. При таком доопределении в силу теоремы II оста- новка обязательно произойдет за конечное число пока- зов, не превышающее k ^L.-kLa + ^. S=1 Задача состоит теперь в выборе такого числа Lo, чтобы гарантировалось требуемое качество процесса об- учения. Теорема V. Пусть р — вероятность ошибки в процессе экзамена после окончания обучения. Тогда, каковы бы ни были числа е > 0 и б > 0, вероят- ность Вер {р < е} того, что р < е, больше, чем 1 — б, если In ед In (1-8) • (43) Подчеркнем, что выбор Lo в соответствии с (43) за- висит только от назначаемых чисел е, б, характеризую- щих качество процесса обучения, и не зависит от вида множеств А и В и от статистики показд. Доказательство теоремы V. Дословно по- вторяя начало доказательства теоремы IV, получаем k 1 Ре = j р I 5) (1 — w)Ls Р (s) dw, s = l е где Ls = L0 + s.
§ 6. УСЛОВИЯ ОСТАНОВКИ АЛГОРИТМА 271 Оценим Ре сверху: 00 1 P8<2(l-e)£c+sJ p(^|s)P(s)dw^ в * оо < (1 - е)£о 2 а - еГ = | (1 - 8)£о < б. s=0 Поэтому ре<б, если Lo удовлетворяет неравенству (43). Учитывая по- следнее замечание в доказательстве теоремы IV, можно написать Вер (р < е} = 1 — Ps> 1 — 6, что и требовалось доказать. В варианте 2 условий остановки вместо La — Lo + s можно принять любую другую монотонно растущую по s оо функцию La = Lo + a(s), лишь бы ряд 2 (1 — е)£® схо- 3 S=1 ’ дился. Доказательство теоремы V при этом сохраняется полностью, но оценка LQ зависит от выбора функ- ции a(s).
Глава VI ПРИМЕНЕНИЕ МЕТОДА ПОТЕНЦИАЛЬНЫХ ФУНКЦИЙ К ЗАДАЧЕ АППРОКСИМАЦИИ ФУНКЦИИ ПО ЕЕ ЗНАЧЕНИЯМ В СЛУЧАЙНО ВЫБРАННЫХ ТОЧКАХ В предыдущей главе V задача обучения машины рас- познаванию образом решалась в детерминистской по- становке, когда области А и В пространстве X не пересекаются, а аппроксимации подлежит какая-либо функция из множества разделяющих функций; значения функций не играют роли и существен лишь их знак в точках из А и В. Далее, в главе VII, нам предстоит применить метод потенциальных функций к задаче обучения машины рас- познаванию образов в вероятностной постановке. Как уже указывалось в главе I, такая постановка задачи связана с аппроксимацией некоторых вероятностных ха- рактеристик— априорных (при байесовском подходе) или непосредственно апостериорных вероятностей. Эти вероятностные характеристики являются функциями, за- данными на пространстве X, и существенными являются не только знаки, но и значения этих функций. Особен- ность нашей постановки такой задачи, в частности, со- стоит в том, что процедура, аппроксимирующая искомые функции, должна быть рекуррентной и что на каждом шаге она может использовать сведения о значении функции (или некоторую информацию, зависящую от этого значения) не на регулярно организованном мно- жестве точек, а в точках, выбираемых случайно. В связи с этим естественно сначала рассмотреть общую задачу о построении рекуррентных процедур, аппроксимирую- щих функции по их значениям в случайно выбираемых точках — этой задаче и посвящена настоящая глава VI, а затем уже поставить и изучить задачу о распознава- нии образов в вероятностной постановке — этому вопро- су посвящена следующая глава VII.
§ 1. АППРОКСИМАЦИЯ ФУНКЦИИ ПРИ ОТСУТСТВИИ ПОМЕХ 273 § 1. Аппроксимация функции при отсутствии помех 1. Постановка задачи. Рассматривается следующая задача. В пространстве X существует не известная зара- нее функция У = Г(Х1, .... Хт). (1) Требуется, зная лишь конечное число случайно наблю- । денных значений вектора х и соответствующих значе- ний у, аппроксимировать неизвестную функцию f*(x). Подобного рода задачи аппроксимации неизвестной функции по наблюденным данным возникают, например, при восстановлении статических характеристик объекта, • когда не может быть поставлен систематический экспе- римент и приходится довольствоваться данными, полу- ченными в процессе нормальной эксплуатации. В последние годы такая задача стала особенно акту- альной в связи с развитием ряда методов построения самонастраивающихся систем, в основе которых лежит I автоматическое воспроизведение характеристик объекта | в процессе управления. Прямое приложение обычных методов теории аппрок- I симации функций к решению задачи, рассматриваемой в настоящей главе, затруднено тем, что по постановке I задачи невозможно гарантировать какой-либо регуляр- ный закон выбора значений аргумента и приходится до- I 1 вольствоваться его значениями, выбираемыми случайно. | В этой главе для решения такой задачи используется 1 метод потенциальных функций. | Как указывалось в главе II, мы будем различать | задачу восстановления и задачу приближения функ- I ции /*(%). При постановке задачи восстановления пред- полагается, что в пространстве X существует система I функций Ф1(х), ...» фг(я), •••» такая, что функция f*(x) I представима рядом I 00 Г(х)=2<Ф/(х), М{|Г(х)|2}<оо, (2) « т. е. что f*(x)e2’<p (см. § 4 гл. II). Иногда приходится I 13 м. А. Айзерман и др. f ’
274 ГЛ. VI, ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ делать более жесткое предположение, оо, (3) т. е. что f* 2"^. При постановке задачи о приближении функции предположения типа (2) и (3) не делаются. В обоих случаях считается, что точки х1, х2, ..., хп, ..., в кото- рых значение функции известно, появляются в дискрет- ные моменты времени случайно и независимо с некото- рой не известной заранее плотностью вероятности, о ко- торой предполагается лишь, что она отлична от нуля почти всюду в той области пространства Х(хь ..., хт), в которой требуется восстановить функцию /*(х). 2. Алгоритмы аппроксимации функции при отсутст- вии помех. Рассмотрим алгоритмы метода потенциаль- ных функций вида (11) (см. § 2 гл. II) при отсутствии помехи Г+' (х) = г (х) + Y„r (Г (xn+t), г (хп+1)) к (х, xn+I), где — монотонная функция по переменной f, об- ращающаяся в нуль при f = f*. В задачах аппроксимации функции f* естественно считать, что есть функция разности f — f*, так как в данном случае значение f*(xn+') функции f*(x) на каждом шаге непосредственно сообщается учителем, и «невязка» fn(xn+l) — f*(xn+1) непосредственно изме- ряется. Поэтому мы положим далее r(f, Г) = х(Г-П, где % (и) — монотонно неубывающая функция, удовлет- воряющая условию f <0 при и^О, >0 при и > 0. Таким образом, ниже рассматриваются алгоритмы вида Г1 (X) - г (х) + v„x (?• (х"+1) - Г (х“+|)). (4) Алгоритмы вида (4) отличаются друг от друга как выбором типа последовательности уп, так и конкретиза-
§ I. АППРОКСИМАЦИЯ ФУНКЦИИ ПРИ ОТСУТСТВИИ ПОМЕХ 275 цие?1 функции х(^). Далее более подробно будут рас- смотрены два алгоритма, в первом из которых %(//) ~ = sign'гл а уп удовлетворяет условиям (13), (14 в) (см. § 2 гл. II), а во втором х(^) = ^ а Yn — 1/Л = const (условие (14а) из § 2 гл. II). В обоих алгоритмах на каждом шаге производится «исправление» выстраиваемой функции fn(x) так, чтобы уменьшить ошибку в показанной на этом шаге точке. Разумеется, такое «исправление»’ функции может «пор- тить» ее в ранее показанных точках (см. § 2 гл. II), однако это обстоятельство не препятствует сходимости алгоритмов, как это устанавливается теоремами, при- веденными ниже. Как будет видно из результатов § 3 этой главы, пер- вый алгоритм решает как задачу восстановления, так и задачу приближения функции Г(х); второй же алго- ритм решает лишь задачу восстановления. Первый алгоритм. Исходим из «нулевого при- ближения» /° (х) == 0. Пусть в результате применения алгоритма после п шагов построена функция fn(x). и на (и + 1)-м шаге предъявлены точка хп+] и значение уп+i = jp*(xn+l). функция fn+1(x) строится по следую- щему правилу: fn+1(x) = f”(x) + y„sign(f/n+1 —fn(x"+1))/<(x, xn+1), (5) где уг — любая последовательность положительных чи- сел, удовлетворяющая условиям (13) и (14, в) главы II: оо оо ряд 2 V/ расходится, а ряд S Y? сходится. Второй алгоритм. Второй алгоритм отличается от первого тем, что переход от fn(x) к fn+1(x) осущест- вляется не формулой (5), а формулой Г+'(х) = Г(х) +±(z/n+1-f (х"+1))/с(х, х"+,)> (6) где Л — произвольная положительная константа, удов- летворяющая условию Л > у sup К (х, х). (7) Z X 18*
276 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ В отличие от процедуры (5) процедура (6) не со- держит «стягивающего множителя» уп. Описанные алгоритмы, как и все алгоритмы метода потенциальных функций, допускают как машинную, так и персептронную реализацию. В частности, при персеп- тронной реализации последовательно вычисляются при- ближения с} неизвестных коэффициентов с* в представ- лении искомой функции рядом по формулам: = ynsign °° 1 ^n+i _ 2 (xrt+1) ф. (xrt+1) (8) i»l J для первого алгоритма и ~П+1 ~п Д__1_ Ci = Ci д (9) алгоритма. Эти формулы сразу следуют соответственно. для второго из (5) и (6) В качестве примера применения этих процедур пока- жем, как эти алгоритмы могут быть использованы и для решения некоторых задач вычислительной матема- тики путем сведения задачи к виду, описанному в пунк- те 1. Рассмотрим, например, задачу о решении систем линейных алгебраических уравнений т ^asiZj = bs, s = l,...,m. (Ю) Для того, чтобы свести задачу (10) к описанной в I пункте 1 задаче о восстановлении функции, рассмот- 1 рим т функций фДх), заданных на отрезке [0, 1]. Выбор этих функций мы стесним условием f <р, (s/m) = asl, j, s=l, ..m. (11) Рассмотрим также функцию &(х), заданную на этом г же отрезке [0, 1] и определяемую формулой т ь (х) = 2 Zitpi (х). (12) z=i Тогда в точках x=stm, принадлежащих отрезку [0, 1], значения функции Ь(х) известны, так как в силу урав-
$ I. АППРОКСИМАЦИЯ ФУНКЦИИ ПРИ ОТСУТСТВИИ ПОМЕХ 277 нения (10) b(s]m) = bs. Формула (12) может быть рас- смотрена как представление неизвестной функции Ь(х) конечным рядом по системе ограниченных функций ф4(х), а искомое решение системы (10) выступает те- перь в роли коэффициентов этого разложения. Пусть плотность вероятности р(х) появления точек х равна нулю всюду, кроме точек ха = s/m (s = 1, т), т. е. т п р (х) = 2 ps6 (х - xs), ps>0, 2ps = l. (13) Sel 1 где 6 (x) —дельта-функция. Теперь вся процедура решения системы (10) может быть описана так. Допустим, что к n-му шагу алгоритма построено приближение z", .... z". Далее с вероятно- стью Рз > 0 выбирается значение s = sn+i, т. е. номер строки системы*) (10) для (и + 1)-го шага алгоритма. Следующее приближение z/+1.....z"+1 вычисляется в соответствии с процедурой (8) по формуле z"+1 = z"H-Ynsign V <14> где выражение в квадратных скобках означает невязку в Sn+i-й строке. В силу теоремы I, доказанной в § 3 этой главы, и в соответствии с (10) и (13) гарантируется, что если си- стема (10) имеет решение г*, то при п->оо т т т 2 2 z’<pz (s/m) - 2 (s/m) ps Вспоминая, что <р( (s/m) = а5г, получим при п->оо т т *) Можно избежать случайного перебора строк, выбирая их циклически от 1-й до n-й. Доказательство сходимости такой детер- минированной процедуры следует, например, из результатов работы Б. М. Литвакова «Об одном итерационном методе в задаче аппроксимации функции по конечному числу наблюдений», Авто- матика и телемеханика, № 4, 1966.
278 гл. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ Поскольку все ps>0, то и порознь т т О или 2в<(2«Л±>б 1 = 1 1^1 т. е. гр с ростом п приближается почти наверное к искомому решению г*. § 2. Аппроксимация функции при наличии помех В предыдущем параграфе задача об аппроксимации функции по ее значениям в случайно наблюдаемых точ- ках рассматривалась в предположении, что наблюдаемые величины уп равны значениям функции /*(хп). Часто, однако (например, из-за ошибок наблюдения), наблю- даемые уп отличаются от истинных значений функции f*(xn) благодаря наличию помех, т. е. наблюдаемые значения уп определяются через значения вектора хп формулой *) f/" = r(xn) + r. (15) где — некоторая помеха. Будем предполагать, что слу- чайная величина удовлетворяет условиям: а) значения случайных величин £>п в разные мо- менты п измерения независимы; б) условное распределение вероятности величины при условии хп не зависит от момента измерения и; в) условное математическое ожидание помехи M{g|x} = 0, а дисперсия 74{g2|x} ограничена йри всех х. Описанные в пункте 2 § 1 алгоритмы могут быть сле- дующим образом видоизменены для решения задачи аппроксимации функции f*(x) при условии, что наблю- даемые величины уп определяются выражением (15). По мере появления точек xn+I и соответствующих ве- личин yn+i (п + 1)-е приближение восстанавливаемой ♦) Значения уп цией вектора хп, и тического ожидания ляющей» f*(xn). при наличии помех являются случайной функ- формула (15) получается выделением матема- этой функции — ее «детерминированной состав-
§ 3. СХОДИМОСТЬ АЛГОРИТМОВ 279 функции определяется по рекуррентному соотношению r+IW = f"(x) + Y„kn+,-r(xn+,^(x, хп+1\ (16) где по-прежнему К(х,у) — потенциальная функция, уг- — оо положительные числа, для которых 2 Y/ расходится, z=i оо 2 Y? сходится, а нулевое приближение /°(х), например, 1 = 1 тождественный нуль. Рассматриваемая в настоящем параграфе задача мо- жет быть понята как задача оценки неизвестных пара- метров Ct разложения (2) по результатам наблюдений при наличии помех (в тех случаях, когда ряд (2) коне- чен). Задача такого рода рассматривалась еще Гаус- сом и к настоящему времени имеет обширную литера- туру. Разработанные для решения этой задачи методы (например, метод наименьших квадратов) могли бы быть в принципе применены и к задаче, рассматривае- мой нами. Однако связанные с этими методами вычис- лительные трудности быстро нарастают с увеличением числа оцениваемых параметров. Техника же вычислений, связанная с предлагаемым здесь методом потенциаль- ных функций, не зависит от числа параметров, поскольку при практических вычислениях система функций фг-(х) может быть выбрана так, что ряд Д (х, у) = S Ф/ (х) Ф/ (у) суммируется аналитически (см. гл. III). С другой сто- роны, персептронная реализация алгоритма (16) дает способ оценки параметров Ci разложения (2), и в этом смысле предложенный алгоритм пригоден для решения задач указанного выше класса. § 3. Сходимость алгоритмов В главе II было показано, что алгоритмы вида (11) главы II, к которым принадлежат алгоритмы настоящей главы, являются стохастически градиентными по отно- шению к некоторым функционалам. При выполнении со- ответствующих условий сходимости эти алгоритмы
280 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ могут рассматриваться как алгоритмы минимизации со- ответствующих функционалов. Выражения для функционалов, соответствующих ал- горитмам настоящей главы, получим, подставив в фор- мулу (162) главы IV функцию г = x[f*(x) — f(х)]. Тогда = (17) где и F %(u)du (18) о — функция скалярного аргумента, выпуклая вследствие монотонности %(ц). Для первого алгоритма § 1 F (и) = | и |; {f (х)} = Мх{ | Г (х) - f (х) |} > 0; (19) для второго алгоритма § 1 и алгоритма § 2 с точностью до постоянного множителя F (и) = u2; {f (х)} = Мх {[Г (х) - f (х)]2} > 0. (20) Сходимость первого алгоритма § 1 и алгоритма § 2 непосредственно следует из теоремы XV главы IV. Действительно, для первого алгоритма § 1 имеет ме- сто неравенство I г (и. Г (х)) | = | sign [и - Г (х)] | < 1 и, кроме того, £ = 0. Поэтому все условия теоремы XV выполняются, если выполнено условие существования математического ожидания Л*{0} = Л1Л1Г(х)|}<оо и условие Мх{7<(х, х)} < оо. Поскольку по предположе- нию, принятому в этой книге, 7<(х, х) ограничена, то пос- леднее условие заведомо выполнено. Для алгоритма § 2 функция г {и, f*) = f*(x) — и, оче- видно, удовлетворяет условию 1° теоремы XIV при В=1. Условия (155) и (156) главы IV выполняются в соответ- ствии с требованиями, наложенными в § 2 на помеху Условие 2° теоремы XIV главы IV и условие существо- вания /р{0} приводят к естественному условию; AWW}<oo.
§ 3. СХОДИМОСТЬ АЛГОРИТМОВ 281 । Таким образом, при использовании первого алгоритма § 1 и алгоритма § 2 оказываются выполненными усло- вия теоремы XV главы IV, если только M{|f*|}<oo (для первого алгоритма § 1) и ЛЯИ*|2} < 00 (Для алго- 1 ритма § 2). В силу этой теоремы справедливо следую-* щее утверждение. Теорема I. Пусть выполнено условие M{|f*(x) |}< < оо. Тогда при использовании процедуры (5) {П == AMI Г (х) - Г (х) |} ^-> inf AM Г (X) - f (х) |} 1 при п-*оо, т. е. процедура (5) приближает функцию ‘ f*(x). Если, кроме того, f*(x)^£’(f, то Л4Ц1Г(х)-Г(х)|}-^о при и—>оо, т. е. процедура (5) восстанавливает функ- цию f*(x). Пусть выполнено условие M{(f*(x))2} < оо. Тогда при использовании процедуры (16) мх {(Г W - Г (х) )2} inf Мх {(Г (х) - f (х) )2} при п->со, т. е. процедура (16) приближает функцию f*(x). Если, кроме того, j* (х)^ S\, то ’ ^{(Г«-Г(х))2}-^>0 при п-*оо, т. е. процедура (16) восстанавливает функ- цию f*(x). $ Замечание к теореме I. Рассуждения, дока- зывающие эту теорему, опираются только на теорему XV главы IV. Поэтому в задаче аппроксимации функций без ( помех в соотношении (4) могут быть использованы функ- ции х(и) иного вида, лишь бы были выполнены условия этой теоремы. При этом из теоремы XV будет следовать, что Мх | [ %(u)du inf MJ f %(u)du I oJ J ' I f
282 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ если только м Г(Х) 1 J % (и) du I <оо, О ' а при Г (х) <= ff*(x)-fn(x) | ’ о ' Первый алгоритм § 1 и алгоритм § 2 (примененный к задаче аппроксимации функций без помех) приводят к минимизации «наиболее естественных» функционалов этого вида, выписанных выше в тексте теоремы I. Выбор иного вида %(w) приводит к «менее естественным» функ- ционалам. Именно это обстоятельство побудило авторов особо выделить рассматриваемые алгоритмы. Иначе обстоит дело в задаче аппроксимации функ- ции при учете помех. В этом случае, когда функция %(и) линейная, помеха входит в процедуру аддитивно. Если же функция % (и) нелинейна, то получающаяся рекур- рентная процедура не имеет вида процедуры (11) § 2 главы II, и теоремы XIV и XV главы IV в этом случае не могут быть непосредственно использованы. Перейдем теперь к рассмотрению второго алгоритма § 1. Для него условия теоремы XV не выполняются, так как нарушено условие (14) в) § 2, главы И, и его схо- димость должна быть установлена особо. Сходимость этого алгоритма устанавливает Теорема II. Пусть Тогда при исполь- зовании процедуры (6) Мх{(Г (х) - Г (X) )2} о, п -> оо, если только выполнено условие (7). Доказательство теоремы II. Имея в виду воспользоваться теоремой VI главы IV, покажем, что последовательности функций оо (2D K.-MJIFW-rW)2) (22) удовлетворяют условиям этой теоремы.
§ 3. СХОДИМОСТЬ АЛГОРИТМОВ 283 В силу рекуррентной процедуры (9), эквивалентной (6), имеем: 1F ОО un+i =2(г<+1“г/)2= [ i = l оо 00 00 -Ё (Ч - + 2 Е р?+' -г?) (Ч - Р) + 2 РГЧ)г- i = l i = l 1 = 1 ==U^~i ИП+' “ S ^П + 1) ) S (^ “ + \ i=l ' i=l i +i^n+1-S^(*n+1)) 2w+,)« (23) | \ i = l J i=l f Вспоминая, что ? S яН (x"+1) “ Д bffl (xrt+1) = К (xn+1, xn+l) | и что в силу условия ! yn+i — f* (хп+') = 2 (хП+1)> j Г = 1 ; получаем из (23) un+l=ип- (yn+1 - г(хп+1) )2 [4 - ^П*п+1) ] • (24> Обозначим теперь через а минимум по х выражения, I заключенного в квадратные скобки; в силу условия (7) а>0. Тогда из (24) и из того факта, что следует сразу, что Un конечно при любом п. Перейдем теперь в (24) к условным математическим ожиданиям, учитывая при этом, что а>0: Mx{Un+i IX1...хп} с ип - аМх{(Г (X) - г (X))2}.
284 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ Математическое ожидание в правой части этого нера- венства есть Vn > 0 и, следовательно, условие теоре- мы VI главы IV выполнено. Поэтому Уп^мх{(ГМ-ГШ}-^о. Теорема доказана. Таким образом, если теорема I устанавливает, что первый алгоритм § 1 и алгоритм § 2 полностью решают задачу аппроксимации как в смысле восстановления, так и в смысле приближения функции /*(х), то теоре- ма II устанавливает лишь, что второй алгоритм § 1 решает задачу восстановления в том случае, когда Вопрос о том, решает ли этот алгоритм задачу восстановления, если f* е остается откры- тым. Вместе с тем простые примеры показывают, что второй алгоритм § 1 не решает задачи приближения функций, несмотря на то, что он является градиентным по отношению к функционалу Иными словами, в случае, когда f* (х) последова- тельность значений функционала лМ(П*)-Г(х))2} с ростом п не стремится к какому-либо пределу. Проиллюстрируем это следующим простым приме- ром. Рассмотрим функции, заданные на отрезке [0, 1]. Пусть система функции фг(х) состоит из единственной функции ф(х) = х, а приближаемая функция есть f*(x) = x2. Распределение вероятностей предположим, например, равномерным на отрезке [0, 1]. Функционал имеет в этом случае вид 1 ЛМ(Г-ОТ= J (x2-cx)2dx, О и минимум этого функционала, как легко подсчитать, равен /* = 1/80 и достигается при с = с* = 3/4. Таким
§ 4. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 285 образом, задачу приближения решает в данном случае функция f(x) = |x. Покажем, однако, что последовательность функций fn(x) = спх, порождаемая в рассматриваемом случае вто- рым алгоритмом § 1, не стремится при п->оо к функ- ции f(x) = 3/4x и, следовательно, Jf*{i(x)} не стремится к /* = 1/80. С этой целью рассмотрим пучок прямых сх, где 3/4 — 6/2 < с < 3/4 + 6/2 при достаточно малом б>0. Если бы fn(x) ->3/4х, то, начиная с некоторого /г, все fn(x) = cnx принадлежали бы этому пучку. Покажем, что в рассматриваемом случае это не так. Пусть в некоторый момент п функция спх принадле- жит этому пучку, т. е. 3/4 — 6/2 < сп < 3/4 4- 6/2. Тогда вероятность того, что в следующий момент времени функция сп+1х не принадлежит пучку, больше, чем ве- роятность появления точки х, удовлетворяющей нера- венству | (х2 — спх) х | > 6. Непосредственно видно, что при достаточно малых б эта вероятность положительна (и, более того, она стре- мится к единице при 6-*0). Отсюда следует, что вероят- ность события «начиная с некоторого и, последователь- ность fn(x) = cnx принадлежит пучку» равна нулю. § 4. Оценка скорости сходимости алгоритмов В этом параграфе будут получены оценки скорости сходимости алгоритмов настоящей главы при решении задачи восстановления функции f*(x). Приступая к получению таких оценок, мы введем ряд дополнительных ограничений на выбор системы, по ко- торой производится разложение функций, на предпола- гаемый характер восстанавливаемой функции f*(x) и на последовательность уп, фигурирующую в первом ал- горитме § 1 и алгоритме § 2 этой главы. Ранее в отношении искомой функции /*(х) и потен- циальной функции К(х,у) предполагалось, что они
286 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ могут быть представлены бесконечными рядами по неко- торой системе функций. В этом параграфе будут допу- скаться лишь конечные ряды, содержащие N гармоник для представления этих функций, так что N Г(х)=2г>Дх), (25) а N N К (X, #) = 2 X2<pz (х) <рг (у) = 2 (х) (у). (26) Z = 1 Z = 1 Относительно системы функций фД*) и распределе- ния вероятностей показов будем предполагать, что для любой функции F(x), представимой конечным рядом по системе функций фг (х) N N F (х) = 2 Мг (*); 2 Ц? ¥= 0, (27) l=-l i-1 выполнено неравенство *) M{F2(x)}>0. (28) Из (27) и (28) следует M{F2(x)} N = 2 PzHfeM frh (х) (х)} > 0, i, ы N 2 m7=ao. Обозначая матрицу IIМ bh (х) (х)} ||" м = || bik ||" fe.p (29) N получим, что квадратичная форма 2 перемен- I, k=l ных р,г- является положительно определенной. Тогда, как *) Неравенство (28) выполняется, например, если существует непрерывная плотность вероятности показов, а система функций фг(х) такова, что F(x) обращается в нуль не более, чем в счетном числе точек.
§ 4 ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 287 известно*), существуют числа s>0 и S>0 такие, что N N М s 2 iij < 2 с s 2 и-. (зо) /,£ = 1 lK 1 K Z = 1 где s и S — соответственно наименьшее и наибольшее характеристические числа матрицы ||'0'^ Н^==1. При оценке скорости сходимости мы будем стеснять выбор последовательности уп ограничениями более жест- кими, чем те, которые нам пришлось вводить при уста- новлении самого факта сходимости. Именно, мы сфор- мулируем четыре различных условия и далее, устанав- ливая оценки, будем каждый раз указывать, какое из этих четырех условий имеется в виду. 1°. Существует такое число % > 0, что, начиная с не- которого п = п0, выполнены неравенства (1 - syn) (yn/yn+i)K < 1 (31) и 2 Yn~x<°°> (32) n=»l где число s>0 определяется соотношением (30). 2°. Существуют положительные числа X > 0 и а > 0, такие, что, начиная с некоторого п0, выполнено нера- венство (1 - sY„ + aY*-x) (Y„/Yn+1)x < 1 • (33) 3°. Для любого Л>0 найдется такое Х(Л)>0, что удовлетворяются соотношения (l-^Y„)(Y«/Y„+i)XW)<l. (34) 2 П==1 у2-к(А)<£, (35) где В — константа, не зависящая от выбора А. 4°. Для любого А>0 найдутся такие числа Л(Л)>0 и а(Л)>0, что (36) *) См., например, Ф. Р, Га нтмахер, Теория матриц, Изд-во «Наука», 1966.
288 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ Условия 3° и 4° отличаются от условий 1° и 2° соот- ветственно лишь тем, что в этих последних условиях требовалось выполнение неравенств при конкретном /4=«, а в условиях 3° и 4° — при произвольных поло- жительных А. Может показаться, что условия 1°—4° существенно ограничивают выбор последовательностей уп. На самом деле часто используемые последовательности вида 1 либо удовлетворяют этим условиям. Проверим, например, что последовательность yn = l//i удовлетворяет условиям 1°. В этом случае левая часть соотношения (31) имеет вид (37) Логарифмируя это выражение, получаем При X < s последнее соотношение отрицательно, а следо- вательно, выражение (37) меньше единицы. Таким обра- зом, условие (31) выполняется. Условие же (32) выпол- няется при любом Х< 1. Аналогично показывается, что последовательность :уп = 1/п удовлетворяет условиям 2°—4°, а также что последовательность уп = 1/п1-8 (О.^е< 1/2) удовлетво- ряет всем условиям 1° — 4°. В силу последних замечаний при практическом ^использовании алгоритмов условия 1°—4° оказываются не стеснительными. Говоря об оценке скорости сходимости процесса, не- обходимо договориться о том, в каких терминах эта оценка будет дана. Всюду далее будет оцениваться асимптотическое поведение двух последовательностей.
§ 4. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 289 Одну из них составляют значения экстремизируемого данным алгоритмом функционала Jn = Напом- ним, что при использовании различных алгоритмов этой главы экстремизируются различные функционалы; вид их был выяснен в § 3 этой главы. Вторая последователь- ность имеет один и тот же вид для всех алгоритмов и определяется формулой N с/„^р2(гп,г) = 2^-г;)2, (38) где, как и ранее, Интересуясь поведением Jn и Un при гг—>оо, мы бу- дем оценивать изменение их математических ожиданий (теорема III), а также изменение самих этих величин на реализациях (теорема IV). Во всех теоремах предполагается (и каждый раз это обстоятельство в тексте теоремы специально не оговари- вается), что система функций фг(х) и распределение вероятностей показов удовлетворяют соотношению (28). Теорема III. При использовании алгоритмов этой главы (при соответствующих ограничениях на выбор по- следовательностей уп, указанных во втором столбце таб- лицы I) найдется такое число С > 0, что при всех п имеют место оценки на поведение математических ожи- даний величин Jn и Un, перечисленные в последнем столбце таблицы I. Замечание. Условие Г или 2° фиксирует число X; именно оно и фигурирует в оценках Un и Jn для алго- ритма § 2. Теорема III утверждает, что для первого алгоритма § 1 может быть найдено такое число X, что имеют место оценки, приведенные в таблице I. В том специальном случае, когда фигурирующая в условиях 3° и 4° функция X(X)s X*, т. е. не зависит от А, в пер- вой строке таблицы I можно положить X = А,*. Это утвер- ждение непосредственно следует из хода доказательства теоремы III. Доказательство теоремы III. Имея в виду использовать теорему XVI главы IV, покажем, что для 19 М. А. Айзерман и др.
290 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ Таблица Оценки скорости сходимости ип и Jn Найдется такое Л > 0, что М {£/«}< Су* । 1 I к ; । х < „О х О со Е к V/ V/ ^й сч Еэ 1 У5 в J M{Un}^Cy\, М {/„} с SCyKn К определяется соотноше- нием (31) или (33) Минимизируемый функционал 1-^1 'и 1 II О) с 1 'ц' , * '-V-* II ^Й сч 5 1 * II Условия на выбор уп Условия 3° или 4° сч \ -1 1 уп Л max # (х, х) х е X Условия 1° или 2° Алгоритм Первый алгоритм § 1 (формула (5)) Второй алгоритм § 1 (формула (6)) Алгоритм § 2 (формула (16))
§ 4. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 291 первого алгоритма § 1 и алгоритма § 2 можно так вы- брать последовательности ап, Рп и хп, чтобы одновре- менно выполнялись все условия этой теоремы. Второй алгоритм § 2 рассматривается специальным образом. Далее рассмотрим каждый из трех алгоритмов этой главы порознь. Первый алгоритм § 1. Раньше, чем конкрети- зировать последовательности ап, рп и в этом случае, установим связь между последовательностями Un и 1п* Для этого покажем сначала, что в рассматриваемом алгоритме существует константа h > 0 такая, что при всех п выполнено неравенство IfW-rWKft. (39) Согласно формуле (8) для рассматриваемого алго- ритма можно записать = Дс« — ул sign N 2 A%(xn+1) &=1 Ф/(ЛГП+1), (40) где Ac£ = c£ — c*k. Возводя обе части равенства (40) в квадрат и суммируя по I от 1 до N, получим N N N 5 (A?"+I)2 < 5 (Ас")2 — 2yn 2 Ас"ф{ (%"+') + В^п. (41) При выводе формулы (41) учтено, что sign2 z =1, zsignz^|z| и что в силу ограниченности К(х, х) неко- торой константой имеет место неравенство N 2 ^2к(х) = К(х, х)<В{. k~\ Усиливая неравенство (41), получаем N 2(мГ')2<2(лгйг + в.«- Л ®= 1 Л— I Суммируя последнее неравенство по п от п == 1 до п = t — 1, находим W N ОО Л3*! Лв 1 I 19*
292 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ Из последнего неравенства следует, что | Д?п | < У В2, и поэтому < | Ас" | /ТЦх.х) < = А. Тем самым неравенство (39) установлено. Из (39) выте- мх {(Г (х) - Г (X) )2} < hMx{ IГ (х) - г (х) 1} = hJn. Из этого соотношения в силу (25) и левого неравенства в (30) следует s f (Ас")2 < Мх {(Г (х) - Г (х) )2} < hJn, k—1 I откуда, используя обозначение (38), получим (42) С другой стороны, в соответствии с неравенством Коши — Буняковского из определения функционала Jn Jn^Mx{\r (X) - г (X) |) < УАМ(Г(х)-Г(х))2}. Поэтому из (30) следует, что (43) Далее из неравенства Коши — Буняковского следует {Л}, откуда с учетом (43) получим [М {/„}]2<SM ({/„}. Поэтому имеет место неравенство {£/„}. (44)
§ 4. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 293 ? Как отмечено в § 3 при доказательстве сходимости алгоритма, условия теоремы XIV в данном случае вы- полнены. Поскольку = 0, соотношение (42) совпа- дает с условием пункта Г леммы VI (гл. IV). В силу утверждения Г леммы VI в условиях рассматриваемого алгоритма выполнено неравенство (217) теоремы XVI, где ! 1 = const ЕсЛи теперь положить = (45) где А = и где в свою очередь s определяется ле- вой частью неравенства (30), h — формулой (39), а функция А (4) определяется в соответствии с условиями 3° или 4°, то непосредственно проверяется, что выпол- | йены соответственно условие (218) либо условие (219) | теоремы XVI главы IV. | Таким образом, все условия теоремы XVI главы IV 1 выполнены, и поэтому в силу этой теоремы существует j такая константа С > 0, что справедлива оценка ! м(у.)<ст5, I которая совпадает с первым неравенством, помещенным ! в первой строке последнего столбца таблицы I. Неравен- ! ство для Лфп} следует из неравенства для M{Un) и установленного выше неравенства (44). [ Второй алгоритм § I. Имея в виду, что для этого алгоритма функционал Jn имеет вид ' , используем условие (30). При этом получим ' N N или, используя обозначение (38), sUn^Jn^SUn. (46)
294 гл. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ Переходя в (46) к математическим ожиданиям, находим sM {UnJ < М {/„} < SM {Un}. (47) Воспользуемся теперь формулой (24) из § 3, вспоминая, что уп+х = f'(xn+l)- Введя величину тахК(х,х) „ _ 2 _ xsx (48) и Л Л2 из (24) можно получить неравенство ип+1 < ип - (Г (х"+>) - г (х«+>) )2 а. Переходя в этом неравенстве к математическим ожида- ниям (условному и безусловному соответственно), опре- деляем M{Un+i\x\ ...,xn}^Un-aJn, (49) M{l/„+1}<M{C/„}-aM{JrtJ. (50) Воспользовавшись левым неравенством в (47), получим с помощью (50) • /4{t/rt+1}<(l~as)M{t7n}. (51) Из (61) сразу следует доказываемая оценка для Л4{/7П}, если положить С = Соответствующая оценка для M{Jn} получается с помощью правого неравенства в (47). Алгоритм § 2. Для алгоритма § 2 выполнены все условия теоремы XIV главы IV и Jmin = 0. Кроме того, функционал, минимизируемый алгоритмом § 2, совпа- дает с функционалом второго алгоритма § 1, и поэтому соотношение (46) справедливо и для алгоритма § 2. Тем самым выполнено условие 1° леммы VI (гл. IV), и в силу утверждения леммы VI выполнено неравенство (217) теоремы XVI главы IV, где а„ = 1 - sy„, х„ «= const у2. Выберем теперь в качестве последовательности рп по- следовательность (52)
§ 4. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 295 Тогда непосредственно проверяется, что: а) если последовательность уп удовлетворяет усло- виям 1° этого параграфа, то выполняется условие 1° (соотношение (218)) теоремы XVI главы IV; б) если последовательность уп удовлетворяет усло- виям 2° этого параграфа, то выполнены условия 2° (со- отношение (219)) той же теоремы. В силу утверждения теоремы XVI и правой части неравенства (46) устанавливаем справедливость не- равенств третьей строки последнего столбца таблицы I. Теорема доказана. Установленная выше теорема III оценивает поведе- ние математических ожиданий существенных характери- стик процессов Un и Jn при использовании любого из трех алгоритмов этой главы. Воспользовавшись теоре- мой XVIII главы IV, можно провести более детальное исследование скорости сходимости этих процессов. . Именно, оказывается возможным оценить поведение изучаемых характеристик процессов почти на каждой реализации. Так же как и ранее, при рассмотрении ма- тематических ожиданий, эти оценки различны для раз- личных алгоритмов и устанавливаются следующей тео- ремой. Теорема IV. При использовании алгоритмов этой главы (при соответствующих ограничениях на выбор последовательностей уп, указанных во втором столбце таблицы II) для любого б > 0 существует такая констан- та С(б)>0 и такое множество реализаций алгоритма, вероятность которого больше, чем 1 — б, что на всех реа- лизациях этого множества при всех п последователь- ности Un и 1п удовлетворяют неравенствам, приведен- ным в последнем столбце таблицы II. Замечание. Замечание о выборе чисел ^'приве- денное после формулировки теоремы III, полностью от- носится и к теореме IV. Доказательство теоремы IV. Для доказа- тельства этой теоремы мы покажем, что при использова- нии каждого из трех алгоритмов, и при обозначениях последовательностей ап, рп и принятых выше при доказательстве теоремы III (эти обозначения вводились
296 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ
§ 4. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ АЛГОРИТМОВ 297 порознь для каждого алгоритма), выполнены все усло- вия теоремы XVIII главы IV. Тогда из утверждений этой теоремы будут следовать оценки, приведенные в последнем столбце таблицы II. Первый алгоритм § 1 и алгоритм § 2. Обратим внимание на то, что условие Г (соотноше- ние (238)) теоремы XVIII главы IV совпадает с усло- вием Г (соотношение (218)) теоремы XVI той же главы, если только последовательности ап, рп и кп— числовые последовательности, не зависящие от С. Кроме того, условия на выбор уп в доказываемой теореме те же, что и в предыдущей теореме III. Поэтому, если выбрать tzn, Рп и хп так же, как и при доказательстве теоремы III, и принять во внимание, что при этом выполнено соот- ношение (218) главы IV, то условие 1° теоремы XVIII для первого алгоритма § 1 и алгоритма § 2 будет вы- полнено. Тем самым остается проверить, что при вы- бранных ап, рп и Хп выполнено условие 2° теоремы XVIII (неравенство (239)). Для этого достаточно заметить, что, как и показано при доказательстве теоремы III, в рассматриваемых алгоритмах выполнено условие пунк- та 1° леммы VI (гл. IV) и, в соответствии с замечанием к лемме VI, справедливо утверждение пункта 2° этой леммы, которое и устанавливает справедливость соотно- шения (239) для выбранных числовых последовательно- стей (Хп, Рп и хп. Таким образом, оба условия теоремы XVIII выпол- нены, причем последовательности ап, Рп и хп не зависят от С (и, следовательно, от 6). В силу утверждения тео- ремы XVIII оценки для Un, приведенные в соответствую- щих строках последнего столбца таблицы II, доказаны. Оценки для 7п следуют сразу из оценки для Un в силу неравенств (43) (для первого алгоритма § 1) и (46) (для алгоритма § 2). Второй алгоритм § 1. Воспользуемся соотноше- ниями (46) и (49), которые были получены для рассма- триваемого алгоритма при доказательстве теоремы III. Из этих соотношений следует A4{t7„+J I*1, х"}< Un- asUn = (l -as) Un = anUn, (53)
298 ГЛ. VI. ПРИМЕНЕНИЕ МЕТОДА К ЗАДАЧЕ АППРОКСИМАЦИИ где ап = 1 —as = const. Выберем рп = (1 —as)n и поло- жим хп = 0. Условие 1° теоремы XVIII при этом выпол- нено. Проверим выполнение условия 2°. Выбранная после- довательность рп для каждого С > 0 порождает после- довательность множеств ЛП(С ₽) реализаций, удовле- творяющих условиям (235) главы IV (см. текст гл. IV, предшествующий формулировке теоремы XVIII). Если умножить теперь обе части неравенства (53) на плот- ность вероятности рп(х\ .хп), проинтегрировать .их по множеству ЛП(С, ₽) и воспользоваться обозначения- ми (236) и (237) главы IV, то получим как раз усло- вие 2° теоремы XVIII. Из утверждения теоремы XVIII сразу следуют оценки, приведенные во второй строке последнего столбца таблицы II, если учесть еще неравен- ство (46). Теорема IV доказана полностью.
ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН РАСПОЗНАВАНИЮ ОБРАЗОВ § 1. Постановка задачи Пусть на входе машины появляются ситуации, каж- дая из которых может относиться к одному из двух классов, А или В. В отличие от главы V, в процессе обу- чения одна и та же ситуация может быть при различных показах отнесена к разным классам. Предположим, что для каждой ситуации существуют вероятности принад- лежности этой ситуации к классам Л и В, и в процессе обучения каждая ситуация относится к А или В в соот- ветствии с этими вероятностями. Множество всех ситуаций, которые могут появиться на входе в автомат, образует пространство X. В соот- ветствии с высказанным выше предположением объек- тивно существуют заданные на всем пространстве X функции DA(x) и Db(x)= 1 —DА (х) — вероятности того, что точка х принадлежит соответственно классу Л или В. Эти функции в дальнейшем будем называть «степенями достоверности» принадлежности точки х классам Л или В. Задача состоит в том, чтобы по появляющимся в процессе обучения точкам и по информации, которая сообщается «учителем» о том, к какому множеству (Л или В) он относит эти точки*), аппроксимировать DA(x) и DB(x) как функции, заданные на всем простран- стве**) X. *) Как уже указывалось, «учитель» относит появляющиеся точки к А или В не однозначно, а в соответствии с объективно су- ществующими (хотя, быть может, и не известными ему!) степенями достоверности. **) Если в процессе обучения и в экзамене могут появляться не все точки из X, а лишь точки, принадлежащие некоторому под- множеству пространства X, то функции ЬА(х) и DB(x) фактически заданы только на этом подмножестве, а в остальной части про- странства значения их безразличны, и они доопределяются удобным для нас образом.
800 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН Детерминистская постановка задачи о разделении классов, сформулированная в главе V, и рассматривае- мая здесь вероятностная постановка подобной задачи отличаются, во-первых, предположениями о классах А и В и, во-вторых, характером информации, сообщаемой машине в процессе обучения. Именно, в главе V пред- полагалось, что в пространстве X объективно существуют непересекающиеся множества точек (например, А и В), и что поэтому всегда существуют разделяющие их функ- ции; при показе точек из А или В учитель достоверно сообщает, к какому множеству они принадлежат; цель обучения состоит в построении какой-либо из этих раз- деляющих функций, т. е. функции, принимающей поло- жительные значения на всех (а не только показанных в процессе обучения) точках из А и отрицательные значе- ния на всех точках из В, В настоящей же главе предпола- гается, что множества А и В могут пересекаться. По- этому не существует разделяющей их функции, но суще- ствуют указанные выше функции — степени достовер- ности, в связи с чем указание учителя о принадлежности точки к А или В не является достоверным. Цель же про- цесса обучения состоит в аппроксимации этих функ- ций-степеней достоверности. Вероятностная постановка задачи охватывает детер- министскую постановку как частный случай, характери- зующийся тем, что Da(x) и Db(x) принимают лишь зна- чения, равные 0 или 1 на точках из А или В. В качестве примера рассмотрим задачу об обучении машины прогнозированию исхода заболеваний по кли- ническим данным. Встречаются случаи, когда исход бо- лезни может быть однозначно предсказан. В таких слу- чаях возникает детерминистская задача, описанная в главе V. Часто, однако, клинические данные не дают ос- нований для однозначного предсказания исхода болезни, однако накопленная опытом медицины статистика дает вероятности исхода болезни. Если сообщать машине кли- нические данные о конкретных больных и исходы их болезней *), а от машины требовать, чтобы она в резуль- *| Разумеется, может оказаться, что машине будут показаны истории болезни с точно совпадающими клиническими данными, но с разными исходами.
| I. ПОСТАНОВКА ЗАДАЧИ 801 тате обучения правильно определяла вероятность исхода в новых случаях, то как раз и возникает задача, рас- сматриваемая в этой главе. В качестве технического примера можно привести типовую задачу об обнаружении какого-либо объекта локатором на фоне помех. Одна и та же «картинка», появляющаяся на экране локатора, может из-за сильных помех соответствовать как наличию, так и отсутствию обнаруживаемого объекта. Поэтому с каждой «картин- кой» связывается лишь вероятность (степень достовер- ности) наличия объекта. Задача состоит в том, чтобы по отдельным наблюдаемым в процессе обучения слу- чаям, когда факт наличия или отсутствия объекта точно установлен, научить машину правильно определять сте- пень достоверности наличия той же ситуации для новых «картинок». Возможны два пути решения задачи об аппроксима- ции степеней достоверности DA(x) и DB(x). Первый путь связан с использованием формулы Бай- еса и заключается в следующем. По показанным в процессе обучения точкам первоначально восстанавли- ваются не функции Da(x) и £>в(х), а условные плот- ности вероятности появления в X точек из А и из В — р(х|4) и р(х\В) соответственно. Одновременно оцени- ваются безусловные вероятности РА и Рв появления точ- ки из Л и В. По окончании процесса обучения, при появлении но- вой точки х*, степени достоверности, представляющие собой условные вероятности принадлежности классам А и В при условии появления точки х*, подсчитываются по формуле Байеса (1) где р (х*) = р (х* |А) РА + р (х* | В) Рв — плотность веро- ятности появления х*. Поскольку вероятности РА и Рв легко оцениваются, задача определения DA(x) и DB(x) фактически сводится к аппроксимации плотностей вероятности р(х| Л) и р(х|В).
802 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН При таком способе аппроксимации степеней досто- верности необходимо сделать некоторые предположения о классе функций, к которому принадлежат аппроксими- руемые плотности вероятности р(х|Л) и р(х\В). Так, часто предполагают, что эти плотности вероятности имеют известный вид (например, являются гауссовски- ми), и задача их аппроксимации сводится к статистиче- ской оценке заранее не известных параметров распреде- ления. Задача аппроксимации условных плотностей вероят- ности р(х|Л) и р(х\В) является частным случаем общей задачи аппроксимации некоторой плотности вероятности р(х) появления точек в некотором пространстве X. Могут быть предложены алгоритмы восстановления р(х) в предположениях, обычных для развиваемых в этой книге идей. Соответствующая постановка'задачи и описание одного из алгоритмов, решающих ее, содер- жится в следующем далее § 2. Любой метод аппроксимации плотности вероятности связан с введением предположений, обычных для аппрок- симационных методов. Эти предположения связаны с требованием «достаточной гладкости», «нечрезмерной вычурности» аппроксимируемой функции; различные ме- тоды аппроксимации отличаются тем, как формализи- руется интуитивное предположение о «достаточной глад- кости» и как такое предположение используется для по- строения алгоритма. Поэтому только в тех случаях, когда можно предполагать, что функции р(х), р(х|Л), р(х|В) в каком-либо смысле являются «достаточно глад- кими», использование формулы Байеса оправдано. В ряде случаев — и такие случаи часто встречаются на практике — класс функций, к которому принадлежат плотности вероятности р(х|Л), р(х|В), таков, что их ап- проксимация требует недопустимо большого числа пока- зов, в то время как непосредственное восстановление Da(x) и Db(x) может быть произведено по небольшому числу показов*). Это имеет место, например, когда *) Более того, может оказаться, что функции р(х|Л) и р(х\В), строго говоря, не существуют вообще, в то время как DA(x) и Рв(х) существуют и могут быть восстановлены с достаточной точ- ностью по небольшому числу показов.
§ 2. АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ р(х) 303 р(%|Л) и р(х|В) разрывны, a DA(x) и DB(x) непрерыв- ны и достаточно гладки. Поэтому способы непосредст- венной аппроксимации степени достоверности, не связан- ные с промежуточной аппроксимацией р(х\А) и р(х\В) и с использованием формулы Байеса, вообще говоря, яв- ляются более предпочтительными. В § 3 этой главы описываются алгоритмы, позволяю- щие при обычных для метода потенциальных функций предположениях относительно вида функций DA(x) и DB(x) аппроксимировать эти функции с помощью ре- куррентных процедур. § 2. Аппроксимация плотности вероятности р(х) Широко известны методы аппроксимации распреде- ления вероятностей (а значит, и плотности вероятности), основанные на построении гистограмм. Эти методы при- годны при весьма широких предположениях об аппрок- симируемых функциях, но именно потому они и требуют знания большого числа точек, которое быстро растет с увеличением размерности пространства X. В задачах обучения, которые интересуют нас в этой книге, прихо- дится иметь дело с пространством высокой размерности, и методы построения гистограмм оказываются практи- чески непригодными. В этом параграфе мы изложим иной метод аппрокси- мации плотности вероятности, предложенный Н. Н. Чен- цовым [12] и тесно промыкающий к излагаемому в этой книге кругу идей. Пусть в пространстве X существует плотность веро- ятности р(х). В соответствии с этой плотностью вероят- ности появляются точки х1,*2, ..., хп, ... Задача со- стоит в аппроксимации функции р(х) по этой последо- вательности точек. Процедура, используемая в этом параграфе для ре- шения задачи аппроксимации р(х), отличается следую- щей особенностью. Система функции ср* (%) предпола- гается конечной (£ = 1, ...» N) и ортонормированной, т. е. J <Pi(x)<pk(x)dx = 6lk, (2) х
304 гл. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН где — символ Кронекера, а потенциальная функция выбирается в виде*) N К(х, <pz(x)<Pi(i/), 1 (3) т. е. полагается ^=1 и, следовательно, срг(х) = фг(х). Таким образом, пространство (см. § 4 гл. II) есть /V-мерное пространство функций, представимых разло- w жением 2 ^Ф/ (Д Как обычно, мы будем различать за- дачи восстановления и приближения функции р(х). При решении задачи восстановления предполагается, что р(х) «2\р, т. е. функция р(х) представима рядом р(х)=2 <<Р, (х). (4) При решении задачи приближения ниже предполагается лишь, что интеграл J р2 (х) dx существует. х Предлагаемая в этом параграфе процедура полу- чается из общей процедуры (!) (гл. II) метода потенци- альных функций, если положить в ней rn = yni (5) так что процедура (!) приобретает вид Г+1(х) = (1 -уп)Г(х) +тЛ(х, xn+I). (6) В качестве последовательности уп, участвующей в процедуре, как обычно, может быть выбрана любая *) Система функций (jpf(x), I, 2, . N не должна быть пол- ной, так как в противном случае потенциальная функция /С(х, #), задаваемая формулой (3), являлась бы б-функцией,
§ 2. АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ р(х) 305 последовательность, удовлетворяющая одному из сле- дующих двух условий*): оо оо 1) 5уп=°°. 2y^<°° (7) или оо 2) Svn = °°. Yn-*0 при П-*ОО. (8) 1 Как всегда, процедура (6) допускает также персеп- тронную реализацию вида (!!) (см. гл. II). При выборе qn и гп в соответствии с (5) персептронная реализация приобретает вид Cn+1 = (1 _ Yzt) cnt + yn<pz (xn+1). (9) Процедура (9), как это обычно имеет место для про- цедур метода потенциальных функций, является гради- ентной по отношению к функционалу, вид которого мо- жет быть определен с помощью формулы (36а) главы II. Учитывая, что в рассматриваемом случае = 1 и что фДх) =фг(х), Ci = сг- (так как все Хг= 1), выбрав аддитивную константу в формуле (36а) в виде — ~ j p2(x)dx, получим х J(c) = Mx N N P (*) ~ J} (x) + ~ c2-y j р2(х)б/х. f=l X Принимая теперь во внимание, что в силу ортонормиро- ванности системы функций срДх) N f N \2 2 ci= J I dx *) В работах Н. Н. Ченцова предполагалось, что уп = 1/п. Я. 3. Цыпкин [3] показал, что метод Н. Н. Ченцова применим при выборе последовательности уп, удовлетворяющей условиям (7), ко- торые используются обычно как в методе потенциальных функций, так и при применении процедуры Роббинса — Монро метода стоха- стической аппроксимации. Ниже сходимость процедуры доказывается также и при менее стеснительных предположениях (8) на выбор последовательности уп, но при этом устанавливается лишь сходи- мость по вероятности. 20 М. А. Айзерман и др.
306 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН И ЧТО N Z = 1 X N Р (x)-''£ici<fl(x) p(x)dx, получаем для функционала /(с) выражение Цс) = (Ю) Сходимость процедуры (6), (9) к минимуму функцио- нала (10) устанавливает следующая теорема. Теорема 1. Пусть существует интеграл | p2(x)dx. х Тогда в силу процедуры (6), (9) при п-*оо J(cn)-^> min 7(c), С если выполнено условие (7), и J (сп)—-> min J (с), С если выполнено условие (8). Прежде чем перейти к доказательству теоремы I, за- метим, что если представить р(х) в виде N Р (х) = 2 <<Р, (*) + А (х), (11) где С*1s J W Р W dx, (12) х то в силу ортонормированности системы функций <р«(х) функционал (10) можно записать следующим образом: n 7 (с)=4 2 - о2+4 jд2 wdx- <13> 1 X Поскольку второй член в правой части (13) не зависит от с, то минимум функционала J (с) достигается при
§ 2. АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ р(х) 307 Сг — С/ и равен min I (с) С = у J А2 (х) dx. х Поэтому для доказательства теоремы I достаточно пока- N зать, что 5 — сТ)2-> 0 (почти наверное или по ве- роятности) при п—>оо. Если при этом Д(х) = 0, т. е. р W = 2 ф, W, то min / (с) — 0, С и в этом случае в силу теоремы I J(сп) —>0, т. е. про- цедура (6), (9) решает задачу восстановления функции р(х). Если же р(х) не представима разложением (4), то minJ(c)>0, и теорема I устанавливает тогда, в каком С смысле процедура (6), (9) приближает функцию р(х). Доказательство теоремы I. Доказательство этой теоремы основано на использовании теорем § 3 главы IV*). Как уже было отмечено, для установления N теоремы I надо доказать лишь, что 2 (с" — с*)2—>0 (почти наверное или по вероятности) при п оо. Поло- жим N t/„ = 2(c?-c;)2, (14) где с* определяются формулой (12), и установим связь между Un+l и Un. В силу (9) N ип+1 = 2 [С? “ < + V„ (Ф, Un+1) - С?)]2 = = ип - 2v„ 2 (с? - Ф, (хп+1)) (с" - с*{) + + ¥22(с?-фДх«+>))2. (15) *) Теоремы § 5 гл. IV, устанавливающие сходимость функцио- нала J(сп) к минимуму, не могут быть в данном случае использо- ваны, так как они установлены лишь применительно к процедурам метода потенциальных функций с qn ® 1. 20*
308 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОВ ОБУЧЕНИИ МАШИН Вычислим условное математическое ожидание М {t/n+1 к1, х2, хп} величины обратив внимание на то, что в силу (12) М [cpz (х)] = с\. После несложных преобразо- ваний получим Л1{С/п+1|Д х"}~ N = (1 - 2y„ + y2) Un + y2 2 (M {<P? (X)) - efy. (16) Сумма в последнем слагаемом равенства (16) не зависит от п и может быть оценена сверху некоторой константой L, так как аг 2 М (<р2 (х)) == м {К (х, х)} < оо по принятому всюду в этой книге предположению об ограниченности функции /<(х,х). Имея в виду, что в ус- ловиях (7), (8) уп->0и что поэтому уп < 1 при доста- точно больших /г, из (16) получаем .....(17) Если теперь уп удовлетворяет условию (7), то послед- нее соотношение совпадает с условием теоремы III главы IV (поскольку в данном случае Vn = Uni и из Vn -* 0 следует, что и Un 0). В силу утверждения этой теоремы Un п---»0. Если же последовательность уп удовлетворяет усло- вию (8), то условие (17) совпадает с условием теоре- мы V главы IV, и в силу утверждения этой теоремы Un^+0. (18) Теорема I доказана. § 3. Описание алгоритмов непосредственной аппроксимации степени достоверности. В этом параграфе рассматриваются три алгоритма, решающие задачу непосредственной аппроксимации сте- пени достоверности без предварительного вычисления априорных плотностей вероятностей р(х|Д), р(х\В) и без последующего применения формулы Байеса. Первый
§ 3. АЛГОРИТМЫ НЕПОСРЕДСТВЕННОЙ АППРОКСИМАЦИИ 309 из этих алгоритмов получается путем сведения задачи к иной задаче, уже решенной в главе VI, а второй и тре- тий алгоритмы специально предназначены для аппрокси- мации степени достоверности. В отличие от предыдущего параграфа, в алгоритмах настоящего параграфа используется потенциальная функция общего вида оо оо К (х, у) = 2 (х) <р/ (у) = 2 -фг (х) -ф* (у)> (19) причем ортонормированность или даже линейная незави- симость функций <рг- (х) не предполагается. Так как DB(x) = 1 —DA(x)t то достаточно аппрокси- мировать функцию Da(x), которую иногда для краткости мы будем обозначать просто через В (%). Первый алгоритм. Задача аппроксимации сте- пени достоверности может быть понята как задача ап- проксимации математического ожидания случайной функции по значениям в случайно выбранных точках. Действительно, приписывая каждой появившейся точке значение 1, если она отнесена учителем к Д, или 0, если она отнесена к В, можно ввести в рассмотрение случай- ную функцию, принимающую в точке х значение 1 с ве- роятностью Da(x) и 0 с вероятностьюDB(x) = 1 —DA(x). Поэтому математическое ожидание этой функции равно Da(x), а именно эта функция и подлежит аппроксима- ции. В связи с этим сообщаемая учителем информация о том, к какому классу, Д или В, он отнес показываемую точку хп, может быть понята как информация о значе- нии некоторой функции DA(xn), сообщенная с помехой математическое ожидание которой равно нулю. Та- ким образом, на каждом шаге сообщается величина yn^DA(xn) + ln, (20) а аппроксимируется функция ВА(х), являющаяся мате- матическим ожиданием случайной функции уп по gn. В такой постановке задача аппроксимации степени до- стоверности не требует применения формулы Байеса и сводится к рассмотренной в § 2 главы VI задаче об аппроксимации детерминированной функции по ее зна-
310 гл. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН чениям в случайных точках, сообщаемым с помехой. Поэтому для аппроксимации DA(x) может быть приме- нен алгоритм, описанный в § 2 главы VI (см. формулу (16) гл. VI). Все, что говорилось в главе VI о сходимости, оценке скорости сходимости и о виде минимизируемого функци- онала, полностью переносится на задачу аппроксимации функции Da(x), если используется описанный прием сведения этой задачи к задаче аппроксимации функции при наличии помех. В частности, минимизируемый функционал в этом случае имеет вид (см. формулу (20) гл. VI) /р{Г(х)} = Л1х{(Г(х)-Г(х))2}> Г(х)^Пл(х). (21) Теорема I главы VI, устанавливающая условия сходи- мости процедуры (16) § 2 главы VI, применима и в дан- ном случае, причем условие (f2 (х)} < °°, которое в главе VI являлось дополнительным ограничением, теперь всегда выполняется, так как 0<£>л(х)<1. (22) Второй алгоритм. В предлагаемом алгоритме фигурирует оператор «черта сверху», определенный сле- дующим образом: Щ), если 0<f(x)« f(x) = о, если fW<0 (23) 1, если f(x)>L В процессе обучения последовательно показываются точки хп (п = 1, 2, ...) и при каждом, например, (п + 1)-м, показе алгоритм служит для построения функ- ций Г+1(х) и Г+1(х) по следующим данным: по функ- циям Г(х) и Г(х), построенным на предыдущем п-шаге, по показанной точке xn+l и по сообщенной учителем ин- формации о том, к какому классу, А или В, он эту (п + 1)-ю точку отнес. Подобно тому как это делалось при рассмотрении первого алгоритма, будем считать, что информация от учителя представляет собой сигнал уп, принимающий
§ 3. АЛГОРИТМЫ НЕПОСРЕДСТВЕННОЙ АППРОКСИМАЦИИ 311 значение 1 или 0 в зависимости от тогр, к какому классу он относит точку хп\ тогда, как показано выше, сигнал уп можно понимать как информацию о значении £)(хп), сообщаемом с помехой gn, математическое ожи- дание которой равно 0 (см. формулу (20)). В первом алгоритме это обстоятельство использова- лось для того, чтобы свести задачу к уже решенной за- даче; здесь же — для получения нового алгоритма, кото- рый получается из общей процедуры (!) (гл. II), если положить —-----, /-1, г"-Т.Ь"+'-Г(х’+,)1. (24) Подставляя в (24) выражение для yn+1 из (20) и вспоми- ная, что в рассматриваемой задаче как раз и яв- ляется аппроксимируемой функцией f*(x), убеждаемся, что алгоритм (24) имеет специальный вид, выделенный формулами (10), (11) главы II, причем r(f,n=r-A Г(х)^£>(х). (25) Это позволит нам далее, в § 4 настоящей главы, приме- нить к этому алгоритму все результаты главы IV, касаю- щиеся алгоритмов вида (10), (11) главы II. Третий алгоритм. Особенность алгоритма со- стоит в использовании случайного акта («бросание мо- неты»). Именно, пусть к произвольному (и + 1) -му шагу построены функции*) fn(x) и fn(x) и показана (п+1)-я точка хп+1. Тогда с вероятностью fn(xn+1) алгоритм от- носит точку хп+1 к классу А и с вероятностью 1—fn(xn+}) к классу В. Так как при появлении в про- цессе обучения точки хп+1 сообщается, к какому классу ее отнес учитель, то возникает один из следующих четы- рех случаев, условно обозначаемых через АА, АВ, ВА, ВВ. Здесь первая буква указывает, к какому классу от- нес точку хп+} учитель, а вторая буква — к какому клас- су отнес эту точку алгоритм. Рассматриваемую процедуру можно представить в виде рекуррентного соотношения Г+’ (х) = Г (х) + уп6пк (х, хп+1\ (26) *) Черта над знаком функции fn(x), как и ранее, определяется формулой (23).
312 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН где величина бп определяется в зависимости от того, ка- кой из случаев АА, АВ, ВА или ВВ реализовался на (п + 1)-м шаге: 0 в случаях АА и ВВ, б” = 1 в случае АВ, (27) -1 в случае В А. Иначе говоря, в случаях, когда «предположение» ал- горитма о классе, к которому относится точка xn+i, ока- залось верным, функция fn(x), а значит, и fn(x), не из- меняется. В случае же, когда предположение неверно, fn(x) изменяется путем добавления (случай АВ) или вычитания (случай В А) величины потенциальной функ- ции /С(х, #) при у = xn+l с весом уп. Процедура (26), (27) может быть рассмотрена как частный случай процедуры (10), (И) главы II, так как случайную последовательность бп можно представить в виде d" = r(fn(x"+1), £>(xn+1)) + f+1, (28) где — случайная величина («помеха») с нулевым ма- тематическим ожиданием. Чтобы показать это, вычис- лим математическое ожидание величины бп при условии, что показана точка xn+l. С этой целью вычислим вероят- ности событий АА, АВ, ВА и ВВ, учитывая, что учитель относит точку хп+1 к классу А или В с вероятностями D(xn+1) или 1 — D (xn+1) соответственно, а алгоритм — с вероятностями f(xn+1) или 1— f (хп+1). Поскольку отнесение точки хп+1 к классу А или В учителем и алго- ритмом — события независимые, для искомых вероятно- стей найдем: Ли-0(*"+,)Н*"+1). р„ = о(х”+')(1-Г(7^), (29) PM=(1-D(z+I))rco,
§ 4. МИНИМИЗИРУЕМЫЕ ФУНКЦИОНАЛЫ И СХОДИМОСТЬ 313 Используя теперь формулу (27), получаем М {№ I хп+1} = РАВ -PBA = D (xre+I) - г (xn+1). (30) Обозначая через gn+1 разность gn+l = gn _ M{Sn математическое ожидание которой, разумеется, равно нулю, приходим к формуле (28), в которой Таким образом, показано, что процедура (26), (27), не- смотря на наличие в ней случайного акта «бросания мо- неты», может быть представлена в форме (10), (11) гла- вы II, причем где f* (х) = D (х). Более того, вид функции в рассматриваемом третьем алгоритме оказался точно таким же, как и во втором алгоритме (см. формулу (25)). С этой точки зре- ния второй и третий алгоритмы отличаются лишь видом помехи g: в отличие от второго алгоритма, в третьем ал- горитме помеха зависит также и от случайного акта. Одинаковый вид функции определяет тот факт, что второй и третий алгоритмы минимизируют один и тот же функционал, вид которого устанавливается в сле- дующем параграфе. В заключение этого параграфа заметим, что, как обычно, возможны машинная и персептронная реализа- ция рассмотренных алгоритмов. § 4. Минимизируемые функционалы и сходимость второго и третьего алгоритмов В связи с тем, что второй и третий алгоритмы, как показано в предыдущем параграфе, имеют вид про- цедуры (10), (11) главы II с одной и той же функцией (см. формулу (25)), минимизируемый ими функ- ционал одинаков, так как вид функционала не зависит от помехи.
314 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН Определим вид этого функционала и условия, при ко- торых алгоритмы его минимизируют. Для того чтобы получить выражение для минимизи- руемого функционала, нужно подставить выражение (25) для в формулу (162) главы IV. Имеем Г f(x) = f (u-D)du low если положить f (x) = D (x). Производя интегрирование и f2 — D2 2 -D2 2 1-D2 2 учитывая при этом, что если 0 < f < 1, если f О, если f 1, получим Jr{f(x)}^Mx f(x) D (х) ^Ab{4(£>(x)-f(x))2 + A(f(x), £>(x))}, (31) где Д(А D) = если О, если 0<f<l, (32) (f-!)(!-£>), если Заметим, что в силу (32) A(f, D)^0 при любых f и D, и поэтому Jf- {/ (х)} > мл { | ф (х) _ /{Х) )2}. (33) Для установления сходимости второго и третьего ал- горитмов используем теорему XV главы IV. С той же целью проверим сначала выполнение условий теоремы XIV той же главы. Условие Г этой теоремы выполнено, так как функция r(u, Г (x)) = D(x)-u
§ 4. МИНИМИЗИРУЕМЫЕ ФУНКЦИОНАЛЫ И СХОДИМОСТЬ 315 монотонна в силу монотонности функции й и ограничена по модулю: |Г(«, Г(х))|<1. Выполнение условия 2° теоремы также обеспечи- вается ограниченностью модуля функции r(u, f*(x)). Ограниченность функционала снизу (условие 3° тео- ремы) очевидна в силу соотношения (33). Условие (155) главы IV выполнено в обоих алгорит- мах, так как в обоих случаях математическое ожидание помехи равно нулю по определению. Выполнение условия (156) главы IV обеспечено тем, что в обоих алгоритмах помеха ограничена и, следовательно, ограничена и ее дисперсия. Таким образом, все условия теоремы XIV главы IV выполнены. Остается проверить выполнение условий 1° и 2° теоремы XV. Условие Г этой теоремы следует из того, что в силу (31), (32) и (22) /г(0) = 4мля2(*)}<оо- Условие 2° теоремы XV также выполнено, так как г(А Г) = f* — Л Поскольку все условия теоремы XV выполнены, то в силу утверждения этой теоремы функционал (31) при п —> оо сходится почти наверное к своей точной нижней грани: МI (D (х) - ГМ )2 + А (Г W, D (х))} inf Jr tf}. Если теперь Г(х) = П(х)<=<?ф, (34) то в силу теоремы XV значения Jf*{fn} функционала (31) сходятся почти наверное к нулю. В силу неравенства (33) это означает, что ^{|(D(x)-FW)2}-^0. (35) Поэтому при D(x)^S’<f оба рассматриваемых алго- ритма решают задачу восстановления функции D(x) не только в смысле функционала (31), но и в смысле
316 гл. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН функционала Л1Х{4(О(Х)-ЛМ)2}. Покажем теперь, что класс функций f*(x) = D(x), для которых рассматриваемые в этом параграфе алго- ритмы решают задачу восстановления, более широк, чем подкласс функций из выделяемый условиями (34). •Именно, рассмотрим класс S функций D(x), которые могут быть представлены в виде Г (х) Ез D (х) = gM, g (х) е= Sy. (36) Непосредственно видно, что класс 3? функций D(x), удовлетворяющих условию (36), шире класса функ- ций, удовлетворяющих условию (34),т. е. каждая функ- ция Z)(x), удовлетворяющая условию (34), удовлетво- ряет также условию (36). Действительно, при выполне- нии условия (34) в качестве функции g(x) можно взять функцию f*(x)=D(x), поскольку при таком выбо- ре g(x) 0<£(х)^1, и поэтому g(x) = g(x). Обратное утверждение, разумеется, неверно, т. ция £>(х), удовлетворяющая условию (36), не удовлетворять условию (34). е. функ- обязана Для того, чтобы показать, что при условии (36) рас- сматриваемые алгоритмы восстанавливают функцию f* (х), достаточно установить, что inf Jf.{f} = 0, fsS. (37) Для этого в свою очередь достаточно показать, что Jf{g(x)} = 0, (38) .так как при g (х) е 0< inf Jf* {/) < {g (x)}.
§ 4. МИНИМИЗИРУЕМЫЕ ФУНКЦИОНАЛЫ И СХОДИМОСТЬ 317 Соотношение же (38) сразу следует из формул (31), (32), если заметить, что при f(x) = g(x) (О(х)-Ж))2 = (§й)-Гй))2 = о, и, кроме того, А (Л так как при этом - fD вв - g (х) g (х) = 0 при g (х) < О, (f- 1)(1 -£))= (g(x)- 1)(1 -g(x)) = 0 при £(х)>1. Таким образом, выполнение условия (36) в силу не- равенства (33) действительно гарантирует восстановление функции f* (х) = D (х) в смысле функционала Л^{|(П(х)-Ж))2}. Отметим, что восстановление функции D(xj в смыс- ле (35) имеет место не только для функций D(x), удо- влетворяющих условию (36), но и для более широкого класса, являющегося замыканием класса 2 функций (36). Под замыканием класса 2? будем понимать такой класс 9?, что для каждой функции f*(x) = D(x)<= 2? найдется последовательность функций £)Л(х) такая, что £>ft(x) = gfe(x), lim Jr {gk} = 0. (39) fc->oo Как будет показано в следующем параграфе, необхо- димость рассмотрения класса 2? возникает естественным образом при использовании рассматриваемых алгорит- мов для решения задачи распознавания образов в детер- министской постановке. Тот факт, что рассматриваемые алгоритмы восста- навливают функции D (%), принадлежащие классу 2, сразу следует из того, что при gh е 2^ 0 < inf Jf» Ш < Jr {gfe}, fs а в силу (39) правая часть этого неравенства стремится к нулю при k—>оо, и поэтому при D(x) inf Jr{f} = 0.
318 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН § 5. Сравнение второго и третьего алгоритмов с другими алгоритмами метода потенциальных функций Как было отмечено в § 3, задача аппроксимации сте- пени достоверности может быть понята как задача аппроксимации функции О(х), и поэтому для ее решения предлагалось использовать один из алгоритмов главы VI (первый алгоритм из § 3 настоящей главы). Вместе с тем, как отмечалось в § 1, задача распознавания обра- зов в детерминистской постановке (гл. V) является част- ным случаем рассматриваемой в настоящей главе вероят- ностной задачи, так что алгоритмы настоящей главы мо- гут быть использованы и для решения детерминистской задачи. Поэтому представляет интерес, с одной стороны, сравнить второй и третий алгоритмы настоящей главы с первым алгоритмом при решении задачи аппроксима- ции степени достоверности и, с другой стороны, сравнить эти алгоритмы с алгоритмом гл. V при решении детер- министской задачи распознавания образов. 1. Сравнение первого алгоритма со вторым и третьим. Рассмотрим последовательность величин Mx{(D(x)-D"(x))2}, где Dn (х) — приближение функции D (х) на n-м шаге процедуры. Для первого алгоритма £)n(x) = fn(x) (где fn(x) определяется рекуррентной процедурой (16) гл. VI), а для второго и третьего алгоритмов Dn(x) = fn(x) (где fn(x) определяется рекуррентной про- цедурой (!) главы II с qn и гп, определяемыми из (24)). Если выполнено условие (34), то все три алгоритма ре- шают задачу восстановления функции D(x) в смысле соотношения MJ(D(x)-D"(x))2}-^>0. (40) Если условие (34) не выполнено, но выполнено условие (36), или даже более общее условие (39), то, как пока- зано в § 4, второй и третий алгоритмы по-прежнему га- рантируют восстановление функции D(x) в смысле (40), в то время как при использовании первого алгоритма это не гарантируется, Тем самым при решении задачи вое-
§ 5. СРАВНЕНИЕ С ДРУГИМИ АЛГОРИТМАМИ 319 становления функции D(x) второй и третий алгоритмы предпочтительнее первого. Покажем, что и при решении задачи приближения второй и третий алгоритмы не хуже (и, вообще говоря, лучше) первого в следующем смысле. Пусть последовательность Dn(x), выстраиваемая в силу второго (или третьего) алгоритма, такова, что Л1х{4(П(х)-Рп(х))2}-^>А где Л > 0 — некоторая постоянная (зависящая от D(x)). Тогда, если справедливо неравенство inf МJl(D-f)2}, (41) это как раз и означает, что второй и третий алгоритмы могут приводить только к лучшему приближению, чем первый алгоритм, так как для каждой реализации пер- вого алгоритма (в котором Dn(x) g<£\p) имеем inf AfJ4(D-f)2}<A144(D(x)-D"(x))2}. ?е*ф 12 J (2 ) Для доказательства утверждения (41) отметим, что для функционала (31) при D = f* имеет место неравенство ' Л* Ш = мх f J (u-F)du Г <Л1Ж{1(Г-П2}. (42) Это неравенство немедленно следует из легко устанав- ливаемого неравенства ь ь ь J (й — a) du — | (и — a) du = J (й — и) du О, а а а справедливого при любом b и 1, если учесть, что Л1Л{|(Д-/)2} = ^ (и — D)du Неравенства (33) и (42) объединяются в неравенство Мх {| (D - fУ } < {/} < Мх { j (D - /)2}. (43)
320 гл. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН В силу правой части неравенства (43) имеем inf inf (44) Но для последовательности fn(x), выстраиваемой вто- рым или третьим алгоритмами, можно записать (в силу левой части неравенства (43)) соотношение * Л4{4(О-П2}с/р(П—> inf 1 J из которого с учетом Dn = fn следует, что Д< inf (45) fe^<p Неравенства (44) и (45) доказывают утвержде- ние*) (41). 2. Сравнение второго и третьего алгоритмов с алго- ритмом главы V. Обозначим здесь через g(x) разделяю- щую функцию множеств А и В в детерминистской за- даче распознавания образов. Рассмотрим функцию D (х) = sg g (х), (46) где fi. z: > о, SgZ“l0, z. S0, так что хеД если £>(х)= 1 и х е S, если D (х) = 0. *) Если воспользоваться понятием верхнего предела lim а = lim ( sup аД П->оо rt-»oo\n<Z<oo 1J то совершенно аналогично доказывается несколько более сильное утверждение, а именно: для почти всех реализаций, выстраиваемых вторым и третьим алгоритмами, имеет место соотношение firn М (°-inf М •[-Г (D - Л2 к П->оо ( Это неравенство (как и неравенство (41)) ’ является строгим, если функция, минимизирующая функционал М (D — f)2| на «З’ф, при- нимает значения вне отрезка [0, 1] на множестве положительной вероятности.
§ 5. СРАВНЕНИЕ С ДРУГИМИ. АЛГОРИТМАМИ 321 ‘ Очевидно, что D(x) имеет смысл степени достоверности ЕМ принадлежности точки х классу А. Таким образом, де- Мг терминистская задача распознавания образов может И быть понята как задача восстановления степени досто- j верности вида (46). I Напомним, что алгоритм главы V применим для ре- * шения задачи распознавания образов в детерминистской | постановке лишь в тех случаях, когда выполнена «основ- { ная гипотеза» о принадлежности разделяющей функции " g(x) классу Z^ и, кроме того, имеет место «строгая < разделимость» множеств А и В, т. е. существует такое 8 > 0, что I inf |g(x)|>e. (41) [ ' x^AUB В настоящем пункте будет показано, что использо- $ вание второго и третьего алгоритмов позволяет восста- С навливать функцию D(x) вида (46) и тем самым решать задачу распознавания образов в детерминистской по- | становке без требования «строгой разделимости» мно- ’ жеств А и В. Кроме того, требование принадлежности разделяющей функции g(x) классу Z^ может быть заме- нено более слабым требованием (48) Для того чтобы установить, что при условии (48} имеет место восстановление функции D(x) вида (46)\ покажем, что она принадлежит классу Z, определяемому условием (39). С этой целью рассмотрим последователь- ность функций 4 £>*(*) = ?«, gkM = kg(x), 6 = 1, 2,... (49) | В силу условия (48) gk (х) е 2!^. Поэтому остается лишь » показать, что lim Jf» {kg (х)} = 0, f = sgg(x). (50) Обращаясь к формулам (31), (32), убеждаемся, что Д(^(х), sgg(x)) = 0, •’ 21 м. А. Айзерман и др. 4
322 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОВ ОБУЧЕНИИ МАШИН и поэтому л* {kg (х)} = Мх { у (sg g (х) - kg (х) )2 }. Очевидно, что разность SggW-feg(x) . отлична от нуля лишь для тех х, где 0<£g(x)<l, т. е. 0<g(x)<l/&. Но поскольку, кроме того, |sgg(x)-Z?g(x)|< 1, то Мх {Т(sg g(х) - kg(х))2} Вер {о <g(x) <4}‘ Отсюда следует, что о С /г {kg (х)} < Т Вер -[ 0 < g (х) < -Г } и lim Jf* {kg (х)} = О, £->оо так как lim Beplo<g(x)<-|-l = O. k->oo I « ' Таким образом, факт принадлежности функции вида (46) классу Z при условии (48) доказан и тем самым доказано, что второй и третий алгоритмы восстанавли- вают функцию (46). Несмотря на то, что второй и третий алгоритмы на- стоящей главы решают детерминистскую задачу распо- знавания образов при более широких предположениях, нежели алгоритм главы V, это не означает, что эти алго- ритмы во всех случаях следует предпочесть алгоритму главы V. Как было показано в главе V, рассмотренный там алгоритм в тех случаях, когда он применим, схо- дится за конечное число шагов. Алгоритмы же этой гла- вы сходятся лишь асиптотически и, вообще говоря, мед- леннее, чем алгоритм главы V.
§ 6. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ 323 § 6. Оценка скорости сходимости Оценки скорости сходимости второго и третьего ал- горитмов этой главы, рассматриваемые в настоящем параграфе, производятся лишь для случаев, когда ре- шается задача восстановления функции Z)(x). При этом делается ряд дополнительных предположений о виде функций £>(%). Будем предполагать, что восстанавли- ваемая функция D(x) представима конечным рядом по системе функций фДх) N N D (х) = 2 <<PZ (х) = 2 cfo (х) (51) и, следовательно, D(x)^S\- Потенциальная функция также выбирается в виде конечного ряда N N К (х, у) = 2 ^<PZ (х) <pz (у) = 2 Ф, (х) 1|)Z (у). (52) Сделаем два следующих дополнительных предположения: 1°. Система функций фДх) и распределение вероят- ностей предъявления точек х g X таковы, что на любом множестве со cz X положительной вероятности выполнено условие Л1 {F2 (х) | со} > О (53) для любой функции F(x) вида N N F (х) = 2 (х), 2 и! > О- 2°. Имеет место соотношение Вер{0<£) (х)< 1}>0. (54) Относительно предположений 1° и 2° сделаем сле- дующие замечания. Замечание 1. Предположение Г является более сильным, нежели предположение, определяемое форму- лой (28) § 4 главы VI. Соотношение (30) § 4 главы VI является следствием формулы (28) и поэтому имеет ме- сто и при выполнении условия 1°. 21*
324 гл. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН Замечание 2. Несмотря на то, что предположе- ние 1° является более жестким, чем предположение, ко- торое вводилось в § 4 главы VI, оно не слишком стес- нительно. Так, например, предположение 1° выполнено, если существует непрерывная плотность вероятности показов, а система функций фг(*) О'== 1, ..., N) такова, N что F (х) = 2 Ц/фДх) обращается в нуль не более чем в i = l счетном числе точек. Замечание 3. Из предположения 2° следует, что имеется ненулевая вероятность появления точек из мно- жества, где 0 <£)(%)< 1, т. е. что рассматриваемая за- дача является вероятностной по существу и не может быть сведена к детерминистской задаче разделения си- туаций на классы. Поэтому предположение 2° естествен- но при рассмотрении вероятностной задачи распознава- ния образов. Переходя к получению оценок скорости сходимости алгоритма, в качестве показателей сходимости возьмем *) = (55) k=\ (56) Так же как и в главе VI, в данном случае приходится накладывать ограничения не только на вид восстанав- ливаемой функции D(x) и распределение показов, но и на выбор фигурирующей в алгоритмах последователь- ности уп. Именно, будем предполагать, что последова- тельность уп удовлетворяет условию 3° § 4 главы VI (формулы (34) и (35) § 4 главы VI). В этих условиях имеет место следующая теорема. Теорема II. Если выполнены условия 1° и 2° это- го параграфа и условие 3° § 4 главы VI, то при исполь- зовании второго и третьего алгоритмов для любого б > О существуют константы С\(б)>0, С*2(б)>0, Z(6)>0 (вообще говоря, различные для второго и третьего *) Обратим внимание читателя на то, что, в отличие от гл. VI, где при оценке скорости сходимости величина Jn совпадала со зна- чением минимизируемого функционала, здесь этого совпадения нет,
§ 6. ОЦЕНКА СКОРОСТИ сходимости 325 алгоритмов), такие, что вероятность тех реализаций алгоритмов, для которых выполнены неравенства Un<C^)^, (57) У„<С2(6)у*<в>, (58) больше, чем 1 — д. Доказательство теоремы II. Установим связь между Un и Jn. С этой целью пока- жем, что если выполнены предположения 1° и 2° и ип<Н, (59) где Н > 0 — некоторая константа, то существует число v(/7)> 0, не зависящее от п, такое, что v(H)Un<Jn. (60) Из предположения 2° следует, что существует доста- точно малое е > 0, такое, что Bep{e<D (х)< 1 — 8} = х>0. (61) Дадим оценку снизу для величины Jn- Поскольку Jn^^Mx{(D -Г)2) = = Мх {(D - Г)2 |е < D(x) < 1 - е) Вер {е < D(x) < < 1-е} + 4мД(£-Г)2|Щх)<е или D (х) 1 — е} Вер {D (х) < е или D (х) 1 — е}, и вместе с тем _ (D-fn)2 >0, Jn>^Mx{(D-D2 |e<Z)(x)< < 1 — е) Вер {е < D (х) < 1 — е). (62) Заметим, что из (59) следует |Г(х)|<С,(Я). В самом деле, если Un - 2 (Дс<)2 < Д то | Дс? | < / Д
326 ГЛ. VII. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОБ ОБУЧЕНИИ МАШИН | Г (х) | = I D (х) - fп (х) - D (х) | < | D (х) - f" (х) |+1 D (х) | < <2|Дс”||^ (х)| + 1 <NVHR+ 1 = Cj (Я)<оо, где R = sup |фДх)|<оо, так как функции фДх) огра- i, х^Х ничены на X. Учитывая, что при б<£>(х)<1 — б и \fn(х)\<Сх(Н) имеет место неравенство В (х) — fn (х) _____8 _/Л / ОЛ \ Л D (x)-fn(x) Q (Я) + 8 — величина Jn в силу (62) может быть оценена следующим образом: X Bep{e<D(x)<l-e}>Q2(tf)AM(O-n2|8< < D (х) < 1 -е} Вер(е < D(х) < 1 -е}. (63) В § 4 главы VI было показано, что из условия (28) следует, что наименьшее собственное число матрицы (29) положительно (см. стр. 286—287). Если теперь ввести в рассмотрение матрицу условных математических ожи- даний (х)|е<О(х)< 1 -е}, то, исходя из условий (53) и (61), рассуждая так же, как в § 4 главы VI, устанавливаем, что собственные зна- чения такой матрицы также положительны. Следова- тельно, существует такое число q > 0, что Мх {(D (х) - Г (х) )2 | е < D (х) < 1 - е} > q Д (Дс“)2 qUn. (64) Теперь из (61), (63) и (64) следует Jn> jqKQ2(H)Un, (65)
§ б. ОЦЕНКА СКОРОСТИ СХОДИМОСТИ 327 что и доказывает соотношение (60), если положить v(//) = 4<7xQ2(//). Соотношение (60) эквивалентно условию 2° леммы VI главы IV, так как в силу (43) Jn-^-Jf*{fn}. В силу утверждения этой леммы выполнено неравенство (239) теоремы XVIII главы IV, если ап = 1 “ v(Cp*) у„; х„ = const у2 и последовательность pn (С) подобрана соответствующим образом. Для выбора последовательности pn (С) исполь- зуем условие 3° § 4 главы VI. Для каждого А > 0 опре- делим Х(Л) так, чтобы были выполнены соотношения (34) и (35) (стр. 287), и положим Рп(С) = уМ*(С₽‘)). Поскольку, начиная с некоторого п = и*, yn < 1 и так как Х(Л)>0, то рп(С)< 1 при и в качестве чис- ла р*, мажорирующего последовательность рп, можно взять р* = 1. Поскольку в условии 3° § 4 главы VI функ- ция Х(Л) без ограничения общности не превышает, на- пример, единицы, то в качестве последовательности рп > 0, минорирующей последовательность рп(С), мож- но ВЗЯТЬ = При сделанном выборе ап(С), рп(С) и хп выполнено условие 1° теоремы XVIII (в силу соотношений (34) и (35), стр. 287) и условие 2° этой теоремы (в силу лем- мы VI гл. IV). Утверждение теоремы XVIII приводит поэтому к неравенству (57). Для доказательства нера- венства (58) воспользуемся неравенством (43), из кото- рого следует, что /пС-^^ПО-Г)2}, (66) и неравенством Mx{(D-m<TUn, (67) где 7’>.0 — некоторая константа. Неравенство (67) сле- дует из неравенства (30) § 4 главы VI, которое, как ука- зано в замечании 1 к доказываемой теореме, справед- ливо. Утверждение (58) следует теперь из (66), (67). Теорема доказана полностью.
Г лав.а VIII ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ § 1. Постановка задачи В главе I было показано, как наряду с обычной за- дачей обучения машин распознаванию образов с исполь- зованием информации о том, к какому образу принадле- жат объекты выборочной последовательности, показан- ной во время обучения (обучение машины с учителем), возникает и иная классификационная задача, назван- ная там задачей обучения без учителя. Задача такого рода ставится следующим образом: машине одновремен- но либо последовательно предъявляются объекты; ника- кой информации о том, к какому классу каждый из показываемых объектов принадлежит, машине не сооб- щается. Цель машины состоит в том, чтобы классифи- цировать эти объекты по их «схожести», разделив таким образом все множество показанных объектов на классы «похожих» между собой объектов. Решение так поставленной задачи предопределяет необходимость формализовать интуитивное понятие «схо- жесть». Это интуитивное понятие употребляется челове- ком в различных аспектах и, соответственно, возможны различные пути для его формализации. Мы здесь рас- смотрим такое понимание «схожести» и такой путь для формализации этого понятия, который естественно выте- кает из геометрических представлений, развиваемых в этой книге. Как и в случае задачи обучения с учителем, введем в рассмотрение метрическое пространство X и отождествим каждый объект с точкой этого простран- ства. С точки зрения этих представлений естественно считать два объекта тем более «похожими» между со- бой, чем ближе соответствующие им точки в смысле введенной в пространстве X метрики. Конечно, разум- ность такого понимания «схожести» определяется тем,
§ 1. ПОСТАНОВКА ЗАДАЧИ 329 в какой мере введенная в пространстве X метрика аде- кватна конкретной рассматриваемой задаче. Вопрос о выборе метрики для каждой конкретной задачи — твор- ческий акт, и вопрос о возможности алгоритмизации его здесь не ставится и не решается. Указанное выше ото- ждествление понятия «схожести» объектов с близостью соответствующих им точек в пространстве приводит к представлению о том, что классу «схожих» объектов со- ответствует «компактное» множество точек в простран- стве X — «кучка», а разным классам соответствуют уда- ленные друг от друга «кучки» в этом пространстве (рис. 17). Возможна и другая трактовка понятия «класса схо- жих объектов». Рассмотрим, например, рис.' 18, где за- штрихованные области доста- точно плотно заполнены пока- занными точками. При этом хотя расстояние между точка- ми /4t и А2 (Bi и В2) больше, чем расстояние между точками Рис. 17. Л1 и Z?i (А2 и В2) и с точки зрения развитого выше представления здесь вообще не могут быть выделены два класса объектов, тем не менее, может оказаться разумным считать принадлежащими к одному классу точки Aj и Д2 (Вх и В2), например, потому, что из точки А\ в точку А2 возможен «непрерывный» переход по по- казанным точкам, а из точки Ах в точку такого пере- хода нет. Из изложенных выше представлений (см. рис. 17 и 18) следует, что само взаимное расположение точек в пространстве уже содержит в себе информацию о том, каким образом можно было бы разделить показанные
330 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ точки на классы. Это делает осмысленным саму поста- новку задачи обучения без учителя. Рис. 17 и 18 соответствует «чистым» идеализирован- ным случаям. Рассмотрим теперь рис. 19 и 20, на кото- рых, помимо точек, лежащих «кучно» (области таких точек выделены пунктиром), содержатся также точки, разбросанные по пространству редко, «не кучно». В этом случае естественно «не обращать внимания» на эти «редкие» точки и производить классификацию так же, как и в случаях, представлен- ных на рис. 17 и 18 соответст- венно. В связи с этим машина, реа- лизующая алгоритмы обучения Рис. 20. Рис. 19. без учителя, должна уметь выделять области с высо- кой плотностью точек (области «кучности») и не обра- щать внимания на области, где плотность точек мала. Поэтому при точной постановке задачи естественно использовать вероятностные представления, рассматри- вая конкретное предъявленное расположение точек как реализацию случайного процесса появления точек, по- рождаемого некоторой плотностью вероятности, задан- ной в пространстве X. При этом областям с большой «кучностью» соответствуют большие значения плотности вероятности. В результате задача обучения без учителя, соответ- ствующая рис. 17 и 19, сводится к выделению удаленных друг от друга «горбов» плотности распределения (рис. 21), а в случае, соответствующем рис. 18 и 20— к поиску «ложбин» этой функции (рис. 22). Для того чтобы обнаружить удаленные друг от друга «горбы»,
§ 1. ПОСТАНОВКА ЗАДАЧИ 831 нужно рассматривать функцию плотности распределения глобально, т. е. обозревая сразу большие области про- странства X. При этом можно не интересоваться мел- кими деталями рельефа (рис. 23). При другой постанов- ке задачи, когда требуется отыскивать и прослеживать Рис. 21. Рис. 22. узкие ложбины, приходится изучать локальные свой- ства функции распределения, принимая во внимание даже мелкие детали рельефа в окрестности ложбин. В связи с этим охарактеризованные выше подходы к по- становке задачи обучения без учителя удобно назвать глобальным и локальным подходом. Далее в этой главе будет рассмотрен исклю- чительно глобальный под- А д/ь д, ход*). Так же как и в / aV д случае обучения с учите- / \ J \ лем, рассмотренном в у X—/ х предыдущих главах этой —1 " ’ 1 книги, задачу обучения без учителя будем пони- Рис- 23- мать как задачу построе- ния разделяющей функции f(x) такой, что в точках, от- несенных к одному и тому же классу, она имеет одина- ковый знак. Пусть теперь задан некоторый функционал, ставящий в соответствие каждой разделяющей функ- ции f(x) некоторую числовую оценку. Минимизация этого функционала выделяет некоторую конкретную раз- деляющую функцию f*(x). Если бы удалось подобрать *) Алгоритмы обучения машины без учителя, основанные на локальном подходе, можно найти в статье: А. А. Д о р о ф е ю к, Алгоритмы обучения машин распознаванию образов без учителя, основанные на методе потенциальных функций, Автоматика и теле- механика, т. XXVII, № 10, 1966.
332 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ функционал так, чтобы минимизирующая функция f* (х) разделяла удаленные друг от друга «горбы» плотности распределения, то глобальная задача обучения без учи- теля могла бы быть понята как задача минимизации такого функционала. Таким образом, постановку задачи обучения без учи- теля в рамках глобального подхода можно описать так. Пусть в последовательные моменты времени 1, 2, ... ,.., п, ... появляются точки х1, х2, ..., хп, ... из X не- зависимо и в соответствии с некоторым распределением вероятности р(х), которое предполагается заранее не известным. Пусть далее задан подходящим образом вы- бранный функционал J[f (х), р(х)] от разделяющей функ- ции, зависящий от р(х). Требуется определить последо- вательность разделяющих функций fn(x) так, чтобы по- следовательность значений функционала Jn = J[fn(x), р(х)] сходилась бы к минимальному (или максималь- ному) значению Л/(х), р(х)]. При этом в каждый мо- мент времени п единственная информация, которая мо- жет быть использована для построения приближения fn(x), состоит в знании точек х1, ..., хп, появившихся к этому шагу. Разумеется, если бы распределение р(х) было бы известно заранее, задача минимизации функ- ционала J решалась бы обычными методами вариацион- ного исчисления. Вся же специфика задачи в рассматри- ваемом случае и заключается в том, что приходится определять минимум функционала, зная лишь реали- зации хп. Поскольку различные функционалы достигают мини- мума на разных, вообще говоря, разделяющих функциях, естественно возникает проблема выбора функционала, адекватного задаче разделения «горбов» распределения р(х). Такие функционалы в действительности можно по- строить— ниже проводятся примеры таких функциона- лов. Разумеется, выбор такого функционала — задача творческая, и в литературе рассматриваются функцио- налы различного вида. Приступая теперь к рассмотрению примеров таких функционалов, ограничимся случаем, когда X есть ев- клидово пространство Ет, в котором задано распределе- ление вероятностей с плотностью р(х), и введем следую-
§ 1. ПОСТАНОВКА ЗАДАЧИ 333 щие обозначения. Множество тех точек х е X, для ко- торых обозначим через Л; множество точек, для которых f(x)<0— через В. Через Мгд и Мв обозна- чаются ненормированные r-е моменты, вычисленные по множествам А и В соответственно: Л4д = J (x)rp(x)dx; Мв= J (x)r p(x)dx, (1) А В где (х)г понимается как скаляр |х|г, если г — четное, и как вектор х|х|г~1, если г — нечетное; поэтому Мгд, Мв есть скаляр или вектор, если г четно или соот- ветственно нечетно*). Как обычно, при г = 0 Л4л и М*в есть просто вероятности РА и Рв множеств А и В. Обо- значения — МГА — мгв хг —_— хг =—— ЛА р > лв р А о будут относиться к нормированным моментам по мно- жествам А и В соответственно. В качестве первого примера рассмотрим функционал /1 [f М, р (%)] = PAdA + PBdB, (2) где /7 == у 2 — у 2 А = у 2 — у2 иА — ЛА ЛА’ иВ — ЛВ ЛВ есть просто дисперсии распределений вероятностей по множествам А и В соответственно. Поэтому функцио- нал (2) имеет смысл «средней дисперсии» по А и В. В связи с тем, что дисперсия тем меньше, чем более «кучно» распределены точки, минимизация средней дис- персии означает наилучшее разделение в этом смысле двух «кучных» областей. Это обстоятельство становится ♦) Чтобы различать показатели степени и индексы моментов времени, будем использовать скобки в обозначении степени вектора. Таким образом, (х)г обозначает r-ю степень вектора х, а хп—зна- чение вектора в момент п.
334 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ особенно ясным, если представить функционал (2) в эквивалентной форме: •WW, р(*)] = урл/ (x-y)2-^---^-dxdy + А А А + ^PB\(x-yY^'-^-dxdy. (3) R В в Действительно, минимизация выражения (3) означает минимизацию «среднего расстояния» между парами то- чек в пределах каждого из множеств А и В. В качестве второго примера задания функционала ЛИ*), /?(*)] приведем следующую модификацию функ- ционала (2): Л = + (4) минимизация которого имеет примерно тот же смысл, что и для функционала (2). Третьим примером функционала, который может быть использован в задаче обучения без учителя, является функционал /3 355 I хА - хв |, (5) максимум которого обеспечивает максимальное расстоя- ние между средними точками множеств А и В. Очевид- но, что если плотность вероятности р(х) имеет два четко выраженных и удаленных друг от друга «горба», то максимизация функционала (5) обеспечивает их разде- ление. Комбинируя введенные выше функционалы (2), (4), (5), можно конструировать новые функционалы. Так, например, иногда используется функционал 4 ^2 dA + dB ' (6) максимизация которого в соответствии с изложенными выше соображениями обеспечивает требуемое разделе- ние. Нам понадобится далее выражение функционалов
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 335 /ь Ль h через ненормированные моменты 2Ид, Мв. Эти выражения имеют вид J1 = Мд + Мв “ РА рв (2а) г _ , ^в W И)2 J 9 — ~|“ Р Р А В Ра Р2в ’ \ча; М'д ЛГп 2 г А В р р А В • (5а) В следующих двух параграфах мы будем в основном иметь дело лишь с функционалом (2а) и лишь кратко касаться функционалов другого вида. В § 2 будет до- казана теорема, устанавливающая соответствие между видом экстремизируемого функционала и характером экстремизирующей поверхности. В § 3 и 4 рассматри- вается вопрос о построении рекуррентного алгоритма, решающего задачу обучения без учителя в указанном выше смысле, и об его сходимости. § 2. Связь между видом экстремизирующей разделяющей функции и видом функционала В этом параграфе мы будем рассматривать функ- ционалы от разделяющей функции, которые являются произвольными достаточно гладкими функциями ф(Л1д, Мв, ...» Л4д, Мв) от ненормированных момен- тов. Все примеры функционалов, приведенные в пре- дыдущем параграфе, относятся к этому классу. Обратим теперь внимание на следующую особенность этих функционалов: каждый из ненормированных мо- ментов является интегралом по области (Л или В — см. (1)), границы которой определяются разделяющей функцией, а подынтегральное выражение не зависит от нее. В связи с этим при использовании обычного приема вариационного исчисления (варьирования) приходится варьировать не подынтегральное выражение, а «пре- делы интегрирования» (область, по которой ведется ин- тегрирование).
336 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Будем считать в дальнейшем, что граница, разде- ляющая области Л и В и определяемая уравнением IW = 0, (7) является достаточно гладкой и, в частности, в каждой точке этой поверхности существует нормаль к -ней. Как неоднократно отмечалось в этой книге, существуют раз- личные функции /(х), определяющие одну и ту же по- верхность (7) (например, все функции f(x), отличаю- щиеся друг от друга неотрицательной мультипликатив- ной константой). Поэтому рассмотренные в предыдущем параграфе функционалы вида 7[f(x), р(х)] зависят лишь от разделяющей поверхности (7), а не от конкретного вида разделяющей функции f(x). Чтобы подчеркнуть это обстоятельство, будем обозначать значение функ- ционала на разделяющей поверхности S через /{£}. При рассмотрении вариации функционала J{S} следует догово- риться о способе варьирования разделяющей поверхности. Рассмотрим разделяющую поверхность S и некото- рую непрерывную функцию g(x), заданную на точках x^ S и обращающуюся в нуль вне некоторой ограни- ченной области G пространства X. Используя функцию g’(x), построим варьированную поверхность S' следую- щим образом. В каждой точке х е S проведем нормаль к S (для определенности нормаль будем считать на- правленной в ту сторону, где f(x)<0) и построим точ- ку х', лежащую на этой нормали на расстоянии 8g (х) от точки х, где 8 — некоторое число (при g(x)>0 точ- ка х' откладывается в направлении нормали, при g (х) <0 — в направлении, противоположном нормали). Очевидно (если учесть ограниченность области G), что при достаточно малом 8 множество точек х' составляет некоторую поверхность, которую мы и будем считать варьированной поверхностью S'. В соответствии с обыч- ным в вариационном исчислении определением вариации функционала, определим вариацию S/{S} как линейную по 8 часть приращения AJ{S} =/{£'} — 7{S}, так что AJ{S} = W{S} + o(e), (8) где о (е) такова, что = е->0 е
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 337 Для определения вариации функционалов, рассмот- ренных в предыдущем параграфе, нам понадобится фор- мула для вариации функционалов вида J{5} = / F(x)dx. (9) Эта формула устанавливается следующей леммой. Лемма. Пусть функция F(x) непрерывна в ограни- ченной области G. Тогда вариация функционала (9) определяется следующим интегралом по поверхности S: 67{S} = e J F(x)g(x)da. (10) s Доказательство леммы. Рассмотрим об- ласть Г, лежащую между поверхностями S и S'. В силу того, что g(x) = 0 вне некоторой конечной области G поверхности S, область Г конечна. Разобьем область Г на две подобласти, Г1 и Г2. Подобласть Г1 — множество таких точек х из Г, что в точке г, принадлежащей по- верхности S и являющейся основанием нормали, прохо- дящей через точку х, значение функции g(z) положи- тельно (рис. 24). Аналогично, точки х, принадлежащие Г2, лежат на нормалях, восстановленных из тех точек z поверхности S, в которых g(z) отрицательно. В силу со- глашения о знаках функции g(z) имеем J {S'} =/{S}+ j Fdx — J Fdx Г‘ г2 22 М. А. Айзерман и др.
338 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ ИЛИ &J{S} = J Fdx — J Fdx. (11) Г1 г2 Разобьем область G поверхности S на куски Gi так, чтобы: 1) в каждом куске Gi функция g(z) сохраняла свой знак; 2) диаметр каждой из областей о* не превышал е. Для каждого из кусков о* построим область Г< cz Г так, что точки, принадлежащие Гг, лежат на нормалях, вос- становленных из точек поверхности S, принадлежа- щих Gi. Очевидно, что области Гг осуществляют разбие- ние области Г (т. е. Г = (Jr,) И Г; С Г1 , если в соответ- ствующем куске Gi функция g(z)>0, Г<сР, если в Gi функция g(z)<0. Легко видеть, что диаметр й(Гг) каж- дой из областей Гг удовлетворяет неравенству d (Г^) < е + 2в sup g (z) < Де, (12) где A = 1 + 2 sup g(z). z^Q Введение областей Г< позволяет записать выражение (11) в виде А/ {£} = sign g (zt) J F(x) dx, (13) i ri где Zt — любая точка, принадлежащая Gi. Используя теорему о среднем, интегралы в (13) мож- но представить в виде J F(x)dx = F(Qt) J dx, Г, rz где 0i — некоторая точка, принадлежащая Гг. В свою очередь интеграл j dx, представляющий собой объем области Гт, можно выразить как интеграл по куску Gi поверхности S: J dx = E j I g(z) | Ат = e signgfo) J g(z)da, ri °i
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 339 где Zt — снова произвольная точка куска о,-. Таким обра- зом, имеем j F(x)dx = eF(0j)signg(zz) J g(z)da. (14) Подставляя (14) в (13), получаем AZ(S} = e^F(0a J g{z)da. . (15) / 0/ Представим (15) в виде A/{S} = e J} J F(z)g(z)da + + f [F(0i)-F(^)]g(z)da. (16) 1 °i Первая сумма в (16) равна интегралу по поверхности S: 2 J" F(z)g(z)da = J F(z)g(z)da, (17) i °{ ’ S а вторая сумма может быть оценена следующим об- разом: i g I (18) J|F(0()-F(z)||g(z)|rfo< < V sup | F (0,) - F(z) I • f | g (z) | da. i St В ограниченной замкнутой области Г непрерывная функция F(x) равномерно непрерывна, т. е. для любой пары точек х, у е Г, расстояние между которыми не пре- вышает величины р, найдется такое число б(р), что I F(x)-^(f/) |<д(р), причем б (р) -> 0 при р —> 0. 22*
340 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Поскольку же диаметр области Г, не превосходит Ае (см. формулу (12)), sup | F (6Z) - F (г) | < 6 (Де), zecr* Поэтому из (18) имеем i OZ [F (6Z) - F (z)] g (г) da < < 6 (Ae) J | g (г) | da = 6 (Ae) J |g(z)| da. I oi S (19) Сопоставляя (16), (17) и (19) и учитывая, что Нтб(Ае) = 0, е->0 получаем А/ {S} = е J F (z) g (г) do + сг (е), s так что д/ {S} = е J F (z) g (z) do, s что и составляет утверждение леммы. Лемма доказана. Опираясь на приведенную выше лемму, докажем те- перь теорему, которая позволяет определить разделяю- щие функции, доставляющие экстремум функционала, в тех случаях, когда этот функционал зависит лишь от ненормированных моментов распределения. Теорема I. Пусть функционал имеет вид J = М°в..........МГА, Мгв), где Ф — дифференцируемая функция от ненормирован- ных моментов (1) до r-й степени включительно, а плот- ность вероятности р(х) является непрерывной функцией, обращающейся в нуль вне некоторого ограниченного множества R. Тогда'. 1) если экстремум (минимум или максимум) функ- ционала J достигается на некоторой разделяющей функ-
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 341 ции, этот же экстремум достигается на разделяющей функции, являющейся полиномом r-й степени: ЬО (20) где _ дФ оФ . Ck dMkA dMkB ’ (21) 2) на разделяющей функции f(x), заданной соотно- шениями (20) и (21), функционал J принимает стацио- нарное значение. В тексте теоремы I символы ck означают при четном k. числа, а при нечетном k — векторы с координатами ЗФ дФ Ajk (-Kjrk \ —г--------г—, где МА i)—t-я компонента вектора dMA,i dMB,i Ma a (ch, (x)h) означает при четном k произведе- ния чисел ch и (x)k, а при нечетном k — скалярное про- изведение векторов Ch и xlxp”1. Прежде, чем приступить к доказательству теоремы, сделаем следующие два замечания. 1. В тексте теоремы вовсе не утверждается, что все разделяющие функции, доставляющие экстремум функ- ционалу J, являются полиномами r-й степени (20), (21). Утверждается лишь, что если существует у этого функ- ционала некоторая экстремаль, доставляющая абсо- лютный минимум (максимум) значения функционала, то существует экстремаль в виде (20), (21), на которой функционал достигает то же самое значение. 2. Если бы была известна плотность вероятности р(х), то правые части выражения (21) являлись бы за- данными фУНК1хиями ck (k = 0, 1, ..., г) и тогда фор- мулы (21) могли бы рассматриваться как система алге- браических уравнений, определяющих ck. Разрешая эти алгебраические уравнения, можно было бы тогда факти- чески найти все ck и, таким образом, решить задачу. Такая ситуация имеет место, например, в тех случаях, когда по обучающей последовательности, показанной к некоторому моменту времени п, составляется «эмпири- ческая» функция распределения рп(х), и указанные вы- ше алгебраические уравнения составляются с помощью
342 ГЛ, VIII, ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ формул (20), (21) в предположении, что р(х) = рп(х). Тогда проблема сводится к выбору процедуры, решаю- щей эту систему уравнений. Пример такой процедуры, предложенный М. И. Шлезингером [13], будет рассмот- рен далее в конце этого параграфа. Такой подход к за- даче обучения без учителя не является рекуррентным, так как при показе каждой новой точки приходится за- ново составлять и решать новую систему уравнений, не используя значений ск, уже выписанных на предыду- щем шаге. Нас в этой книге интересуют главным обра- зом рекуррентные процедуры, которые и будут рассмот- рены далее в этой главе. Доказательство теоремы I. Рассмотрим ва- риацию функционала к (22) ) \dMkB’ j] где бЛТл, 6Мв — вариации ненормированных k-x момен- тов, а скобки ( , 6Л1лУ ( д® , означают по- \ дМ д J \ dMf3 J прежнему произведение чисел или скалярное произведе- ние векторов в зависимости от того, четно или нечетно k. Применяя формулу (10) к функционалам (1), имеем Ша = е j (х)" g (х) р (х) da= — (23) s Подставляя (23) в (22), получаем 6/ = 8 J g (х) J , (х) j р (х) da. (24) Если f(x) имеет вид (20), (21), то интеграл в (24) обращается в нуль. Таким образом, доказано, что функ- ция f(x), удовлетворяющая (20) и (21), доставляет функционалу J стационарное значение. Пусть теперь рассматриваемый функционал J прини- мает экстремальное значение на некоторой функции f(%). Рассмотрим вначале случай, когда р(х) =#0 всюду
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 343 на множестве /?. Поскольку g(x)—произвольная функ- ция, то для того, чтобы функция f(x) доставляла функ- ционалу J экстремальное значение, необходимо, чтобы подынтегральное выражение в (24) обращалось в нуль тождественно на поверхности S, заданной уравнениями ^(х) = 0. Поскольку р(х) =# О, это возможно только то- гда, когда <ад в точках, принадлежащих поверхности S. Определяя функцию f(x) в остальных точках области R равенством (25), получаем доказательство теоремы в случае, когда р(х)#= О всюду на множестве R. Пусть теперь р(х) может обращаться в нуль в неко- торых точках множества R. Рассмотрим последователь- ность рп(х) непрерывных плотностей вероятностей, не обращающихся в нуль нигде на множестве R и стремя- щихся (по норме С) к р(х), и соответствующую последо- вательность функционалов J{f (х), рп(х)}. Для каждого из таких функционалов в силу доказанного выше най- дутся такие коэффициенты и с”, что при любой функции f (х) 4 (x)k), р„(х)|< < j {f (х), Рп (х)) < J { 2^, (x)ft), Рп (х)}. (26) Функция fra (х) =3 2 (ё"> (x)ft) доставляет минимум, а &=0 ~ г ~ функция fn (х) зе .2 (с", (x)ft) — максимум функционалу /г=0 4 J{f (х), Рп(х)}. Величины с% и с£ удовлетворяют систе- ме уравнений (21), если ненормированные моменты в (21) вычисляются по распределению рп(х). Поскольку правые части выражения (21) ограничены (в силу огра- ниченности /?), из последовательностей с% и с£ можно
344 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ выбрать сходящиеся подпоследовательности, имеющие своими пределами ck и ск соответственно. Нетрудно установить теперь, переходя к пределу в (26) и исполь- {г ) (Cfe, (x)fe), р (х) и правых частей (21) по Ck и р(х) (в норме С), что 4 2 (Q, (х)*), о (х) ! < I/г=0 ) < J t W, Р (х)} < JI 2 (ck, (x)k), p (x) 1, (27) I /г=»0 J причем пределыые значения ck и ck удовлетворяют со- отношениям (21). Но соотношение (27) означает, что _ г - Г _ функции Дх)=*2 (Q, (%)fe) И = S (ck, (x)k) достав* fe=0 £=0 ляют соответспенно минимум и максимум функционалу J{f (х), р(х)}. Терема I доказана. Рассмотрим теперь, что утверждает теорема I при- менительно к ф/нкционалам (2а), (4а), (5а). Обратимся сначала к функционалу (формула (2а)). В силу соотнонения (21) dJ 1___dJ i __ q дМ2А дМ2в (28) Таким обраэм, в данном случае коэффициент с2 = 0, и экстремизируэщая поверхность оказалась гиперпло- скостью, а не иперповерхностью второго порядка, как это можно был) бы ожидать по внешнему виду функ- ционала /ц Этс свидетельствует о том, что функционал /1 фактически к зависит от моментов второго порядка, а зависит лишь от моментов первого и нулевого поряд- ков. Впрочем, до видно и непосредственно, поскольку
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 345 М2а + Мв= J (x)2p(x)dx есть константа, не зависящая лив от разделяющей поверхности и, таким образом, задача минимизации функционала Л эквивалентна задаче мак- симизации функционала _ W К)2 — ----Г“р—. ГА ГВ Обратимся теперь к функционалу /3 (формула (5а)). Этот функционал зависит лишь от моментов первого и нулевого порядков, и поэтому в силу теоремы I сразу видно, что функция, доставляющая ему экстремум, ли- нейна с коэффициентами Что касается функционала /2 (формула (4а)), то он существенно зависит от моментов второго порядка, так что экстремизирующая функция в этом случае является гиперповерхностью второго порядка. Соответствующие формулы для коэффициентов функции (20) могут быть легко получены в силу теоремы I и не выписываются здесь, так как эти формулы не будут нам далее нужны. Соотношениям (28) и (30) можно дать удобную гео- метрическую интерпретацию. Рассмотрим, например, функционал (2а) и соотноше- ния (28). Направляющий вектор экстремизирующей плоскости Ci коллинеарен отрезку, соединяющему «цен- тры тяжести» (средние векторы) множеств точек, лежа- щих по одну и по другую сторону от этой плоскости, а значит, сама экстремизирующая плоскость ортогональ- на этому отрезку и, кроме того, делит его попалам (рис. 25). Последнее^замечание следует из того факта, что точка = Й + лежащая посредине отрезка,
346 ГЛ. VIII. ОБУЧЕНИЕ ВЕЗ УЧИТЕЛЯ соединяющего центры тяжести областей А и В, удовлет- воряет уравнению 2«-4. Совершенно аналогично можно показать, что в слу- чае функционала (5а) экстремизирующая плоскость с коэффициентами (30) также ортогональна отрезку, сое- диняющему указанные выше центры тяжести, но делит оказывающихся по разные делит этот отрезок пополам, образом в смысле критерия его не пополам, а обратно пропорционально вероятно- стям РА и Рв появления то- чек по одну и по другую сторону от этой плоскости. С описанной выше гео- метрической интерпретацией тесно связан упоминавший- ся выше алгоритм, предло- женный М. И. Шлезинге- ром. Пусть к некоторому n-му моменту показано и то- чек х1, ..., хп. Найдем те- перь гиперплоскость, кото- рая перпендикулярна к от- резку, соединяющему цент- ры тяжести множеств точек, стороны от нее, и которая Такая плоскость наилучшим Л разделяет точки х1, ..., хп, если в этом критерии принять в качестве плотности рас- пределения эмпирическую плотность п Рп (х) ='2l6l(x- X1). i = 1 (31) Алгоритм М. И. Шлезингера*) [13] предлагает как раз способ нахождения такой плоскости и заключается в следующем. Процесс начинается с произвольно прове- *) Теорема I была доказана для случая, когда р(х)—непре- рывная функция, поэтому, вообще говоря, она неприменима для плотностей распределения вида (31). Однако в [13] доказано, что в данном случае соотношения (21) и соответствующая геометри- ческая интерпретация остаются в силе.
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 347 денной плоскости, лишь бы по каждую сторону от нее лежало некоторое число -точек. Затем определяются «центры тяжести» точек, лежащих по каждую сторону от плоскости, и проводится новая плоскость, перпенди- кулярно к отрезку, соединяющему эти центры тяжести, через его середину; вновь вычисляются центры тяжести обеих групп точек и т. д. М. И. Шлезингером доказано, что эта плоскость сходится к той плоскости, которая разбивает выборку х1, ..., хп наилучшим образом в указанном выше смысле. Из самого описания алгоритма следует, что он нере- куррентен, т. е. что при необходимости построить такую плоскость для выборки длиной п + 1, зная ее для вы- борки длиной п, необходимо вновь задание всех п + 1 точек. Рассмотрим теперь метод построения рекуррентных процедур для произвольных функционалов, зависящих от моментов. Предварительно заметим, что процедуру Роббинса — Монро можно применить для восстановле- ния среднего значения некоторой вектор-функции *) f(x). Используя описанный ранее «экстремальный под- ход» к получению интересующей нас процедуры, рас- смотрим функционал / G/-/W )2р(х)^х, который достигает минимума при у* = \ f(x)p(x)dx. (32) Процедура Роббинса — Монро для минимизации функ- ционала имеет вид + i = +Yn[/(x« + ')-z/«], (33) Сходимость этой процедуры доказывается с помощью тео- ремы VIII главы IV, если выбрать последовательности *) Как обычно, среднее значение вектор-функции определяется как вектор средних значений ее компонент.
348 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Un и Vn в виде Un = (Уп - У*)2, V п = 2(уп — у*)2. Если, например, в качестве функции f(x) взять функцию вида (х)«, то процедура (33) служит для вычислений момента s-ro порядка того неизвестного распределения, которое определяет появление точек х1, хп, ... Процедура Роббинса — Монро может быть примене- на также для определения вероятности Р некоторого фиксированного множества, имеющего характеристиче- скую функцию %(х). Соответствующий минимизируемый функционал можно принять в виде f [y-x(x)]2p(x)dx. Поэтому процедура восстановления Р принимает вид Pn+1 = P" + Y„[x(xrt + 1)-Pl. Пусть к некоторому моменту времени п построена разделяющая функция вида (20) fn(x)= 2 (с£ (x)ft), и тем самым все пространство разбито на множества А и В. Обозначим через %п(х) характеристическую функ- цию множества А: Хп (х) = sg 2 (<£, (*)*). (34) * k~0 Выразим правые части формулы (21) через нормирован- ные моменты xsB и вероятности РА и Рв. Тогда формула (21) принимает вид Ck~^k{P А’ ^В’ ХА’ ХВ' •••’ ХА’ Хв)- (35) Для получения процедуры, о которой идет речь, введем переменные as(n), bs(n), s=l, г, потребовав, чтобы
§ 2. ЭКСТРЕМИЗИРУЮЩАЯ ФУНКЦИЯ И ФУНКЦИОНАЛ 349 они изменялись в силу соотношений *) а°(п+ 1) = й°(п) + уп[%п(хп + 1)-й°(«)], b°(n) = 1 — а°(п), as(n+ l) = as(n) + yn[(xn + I)'s— («)] Хп U" +')» bs(п + 1) = bs(п) + Y„ [(x"+T - bs (n)] [1 - X„ (x« + ')]• . Коэффициенты же с", входящие в определение (34) ха- рактеристической функции %п(х), определяются формулой Ck = ^k(a0(п), b°(ri), а (п), Ь1 (п), аг (п), Ьг(п)). (37) Совокупность соотношений (34), (36), (37) определяет рекуррентную процедуру вычисления последовательно- стей разделяющих поверхностей. В отношении описанной процедуры можно высказать следующее утверждение: если эта процедура сходится (т. е. существуют пределы почти наверное величин при п->оо), то она сходится к решению уравнений (21), доставляющему экстремум исходному функциона- лу. Действительно, если существует предел при п-+оо то существует и предел характеристической функ- ции х^(х)» т- е- существуют предельные множества А и В. Тогда в пределе при и -> оо в уравнениях (36) можно заменить %n(x) на х(х), и процедура (36) становится тогда обычной процедурой Роббинса — Монро для опре- деления моментов по множествам А и В порознь, при- чем (36) распадается на две независимые процедуры для определения этих моментов. Выше было указано, что такая процедура Роббинса — Монро сходится, и по- этому при П —> оо а0(п)^->РА, b0{n)J^p^t as(n)-^->xsA, bs(n)^^xsB, s=l, .... г. *) Выбор начальных значений as(0), bs(Q) не конкретизируется здесь. От выбора начальных данных зависит сходимость дан- ной процедуры. В связи с тем, что исследование сходимости этой общей процедуры здесь не производится, нет оснований для кон- кретизации начальных значений.
350 ГЛ. VIII. ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ Отсюда следует, что формула (37) в пределе при п—>оо переходит в формулу (35), которая лишь обозначениями отличается от формулы (21). Таким образом, вопрос о том, можно ли использо- вать рекуррентную процедуру (34), (36) и (37) для ре- шения интересующей нас задачи, сводится к установле- нию факта сходимости этой процедуры. В настоящее время достаточно широкие условия сходимости этой процедуры еще не установлены, и поэтому в каждом ча- стном случае выбора исходного функционала пришлось бы устанавливать сходимость отдельно, используя тео- ремы и методы, изложенные в главе IV. Для частного случая функционала (2а) процедура (34), (36), (37) с учетом (28) сводится к виду*) %rtW = Sg[(c", Х) + С"], а1 (п + 1) = а1 (п) + уп [хп+1 - а1 (п)] %„ (хп + ’), bl (п + 1) = Ь' (п) + [х" +1 - Ь1 (и)] [1 - х„ (х« + *)] с" = — 2 [а1 (п) — Ьх (п)], = fa1 00 )2 ~ (^ 00 )2- (34а) (36а) (37а) Для этого случая факт сходимости может быть уста- новлен, и доказательство этого факта можно получить, например, незначительной модификацией доказательства теоремы III § 4 этой главы. § 3. Применение метода потенциальных функций к задаче обучения машины без учителя 1. Общие соображения. При общем рассмотрении за- дачи, проведенном в предыдущем параграфе, мы рас- сматривали задачу классификации в евклидовом про- странстве безотносительно к тому, каким образом это пространство введено. Между тем по самой постановке задачи обучения и классификации метрика в исходном *) Поскольку в выражениях с\ и Со через нормированные мо- менты (см. формулу (28)) вероятности РА и Рв не фигурируют, в приводимых ниже формулах (37а) рекуррентные соотношения для определения РА и Рв опущены.
§ 3. ЗАДАЧА ОБУЧЕНИЯ МАШИНЫ БЕЗ УЧИТЕЛЯ 351 пространстве X (т. е. на том множестве объектов, кото- рые подлежат разделению) должна выбираться в зави- симости от особенностей исходной задачи, и, как неодно- кратно подчеркивалось в предыдущих главах, эта сво- бода выбора исходной метрики существенно используется при решении конкретных задач. Разумеется в неко- торых случаях может оказаться целесообразным исход- ную метрику выбирать евклидовой. Однако это далеко не всегда так, и при использовании метода потенциаль- ных функций выбор конкретной потенциальной функции как раз и означает, по существу, выбор соответствующей конкретной метрики в исходном пространстве X. Если сделать обычное для метода потенциальных функций предположение о том, что искомые разделяю- щие функции f(x) представимы разложением по некото- рой системе функций фДх), то всегда может быть вве- дено в рассмотрение соответствующее спрямляющее про- странство Z (Zi = tap;(х), xei), в котором разделяю- щая функция является линейной. Всюду далее ограни- чимся случаем, когда система функций фг(х) конечна (i = 1, N) и, следовательно, спрямляющее простран- ство Z конечномерно. Спрямляющее пространство, яв- ляющееся линейным пространством (так как в нем опре- делено понятие гиперплоскости), естественно считать евклидовым, так как значение потенциальной функции /С(х, у) в точках х, у^Х может быть всегда интерпрети- ровано как скалярное произведение (и, v) соответствую- щих векторов и, v^Z, щ = Хг-фДх), Vi = Хг-фг(г/), по- скольку N К (х, */) = S Afoi М <р/ (у) = (и, v). (38) ( = 1 Если позволить себе в этом спрямляющем простран- стве рассматривать в качестве разделяющих функций не только линейные функции, но и функции более высоких порядков, которым в исходном пространстве соответ- ствуют более сложные разделяющие функции, нежели представимые разложением по системе фг(х), то все, что было сказано в предыдущем параграфе о разделении в евклидовом пространстве, может быть непосредственно применено при рассмотрении задачи в спрямляющем
352 ГЛ. VIII. ОБУЧЕНИЕ БЁЗ УЧИТЕЛЯ пространстве. Если все же ограничиться случаями, когда можно предполагать, что в исходном пространстве X искомая функция f(x) представима разложением в ряд по системе <рг(х), то в спрямляющем пространстве воз- никают лишь линейные разделяющие функции. В