Текст
                    В.Н.ФОМИН
РЕКУРРЕНТНОЕ
ОЦЕНИВАНИЕ
И АДАПТИВНАЯ
ФИЛЬТРАЦИЯ

В.Н. ФОМИН Рекуррентное оценивание и адаптивная фильтрация МОСКВА "НАУКА” ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 1984
31 81 Ф 76 УДК 62-50 Фомин В.Н. Рекуррентное оценивание и адаптивная фильтрация. - М.: Наука. Главная редакция физико-математической литературы, 1984. - 288 с. Книга посвящена последовательному изложению ряда разделов адаптив- ной фильтрации в условиях параметрической неопределенности о помехо-сиг- нальной обстановке. Материал книги группируется вокруг вопросов рекур- рентного оценивания, при этом обсуждаются как хорошо известные схемы оценивания (метод стохастической аппроксимации, метод наименьших квад- ратов, метод максимума правдоподобия), так и относительно новые схемы (минимаксное оценивание, метод рекуррентных целевых неравенств, робастное оценивание). Значительное внимание уделено методам синтеза оптимальных фильтров (фильтр Винера-Колмогорова, фильтр Калмана-Бьюс и). Принятый в книге подход применим к многочисленным задачам оптимального обнаружения, обучения распознаванию образов, идентификации динамических объектов. Книга предназначена для инженеров и научных работников в области тео- ретической и прикладной кибернетики. Она может быть полезна студентам старших курсов и аспирантам, специализирующимся по математической и технической кибернетике. Библ. 243. 1502000000-057 ф --------------133-84 © Издательство"Наука”. Главная редакция физико-математической литературы, 1984 053 (02)-84
ОГЛАВЛЕНИЕ Предисловие....................................................... 7 Введение.......................................................... 9 ГЛАВА 1 ЗАДАЧИ И МЕТОДЫ ТЕОРИИ ОЦЕНИВАНИЯ § 1.1. Примеры задач оценивания.................................. 14 1.1.Г. Оценивание величины постоянного сигнала, наблюдаемого на фоне по- мехи (14). 1.1.2°. Задача оптимального оценивания параметров сигнала (15). 1.1.3°. Задача обнаружения сигнала (15). 1.1.4°. Задача о разладке (16). 1.1.5°. Аппроксимация функции с помощью линейных комбинаций из- вестных функций (16). 1.1.6°. Модель обучаемой системы (17). 1.1.7°. За- дача самообучения (21). 1.1.8°. Идентификация динамического объекта (24). 1.1.9°. Синтез адаптивного управления динамическим объектом (25). 1.1.10°. Отслеживание дрейфа экстремума нестационарного функционала (25). § 1.2. Байесовские критерии............................................ 26 1.2.1°. Функционал среднего риска (26). 1.2.2°. Автоматическая класси- фикация изображений (27). 1.2.3°. Автоматическая классификация при не- известных апостериорных вероятностях (29) 1.2.4°. Оптимальное обнару- жение сигнала (31). § 1.3. Элементы регрессионного анализа................................. 36 1.3.1°. Наилучшая аппроксимация одной случайной величины с помощью другой (36). 1.3.2°. Линейная регрессионная модель (38). 1.3.3°. Регрес- сия в случае гауссовских случайных величин (41). 1.3.4°. Оценивание по конечному числу наблюдений (42). § 1.4. Элементы теории оценивания...................................... 45 1.4.1°. Байесовские оценки (45). 1.4.2°. Оптимальные оценки в симметрич- ном случае (48). 1.4.3°. Метод максимума правдоподобия (48). 1.4.4°. До- стижимая точность оценивания (50). 1.4.5°. Метод эмпирического функциона- ла (53). 1.4.6°. Метод стохастической аппроксимации (55). § 1.П. Приложение: некоторые сведения о сходимости случайных величин ... 66 1.П.1°. Последовательности случайных величин, близкие к супермартингалам (66). 1.П.2°. Закон больших чисел для независимых случайных величин (66). § 1.Д. Доказательства лемм и теорем.................................... $7 1.Д.1°. Доказательство леммы 1.2.1 (67). 1.Д.2°. Доказательство леммы 1.3.1 (68). 1.Д.З°. Доказательство леммы 1.3.2 (68). 1.Д.4°. Доказатель- ство леммы 1.3.3 (69). 1. Д.5 °. Доказательство леммы 1.4.1 (69). 1.Д.6°. Доказательство леммы 1.4.2 (70). 1.Д.7°. Доказательство леммы 1.4.3 (70). 1.Д.8°. Доказательство теоремы 1.4.1 (71).. 1.Д.9°. Доказательство теоремы 1.4.2 (72). 1.Д. 10°. Доказательство леммы 1.4.4 (72). 1.Д.110. До- казательство теоремы 1.4.3 (73). 1.Д. 12°. Доказательство теоремы 1.4.4 (73). 1.Д.13°. Доказательство теоремы 1.4.5 (74). 3
ГЛАВА 2 РЕКУРРЕНТНОЕ ОЦЕНИВАНИЕ В НЕКОТОРЫХ ЗАДАЧАХ ОБУЧЕНИЯ, ОБНАРУЖЕНИЯ И ИДЕНТИФИКАЦИИ § 2.1. Стохастические аналоги конечно-сходящихся алгоритмов в задаче обучения .......................................................... 77 2.1.1°. Постановка задачи обучения распознаванию образов (77). 2.1.2°. За- дача обучения в детерминистской постановке (78). 2.1.3°. Метод рекур- рентных целевых неравенств (79). 2.1.4°. Среднее время сходимости ко- нечно сходящихся алгоритмов (81). 2.1.5°. Алгоритм случайного поиска с линейной тактикой. Гомеостат Эшби (83). 2.1.6°. Марковские цепи, свя- занные с конечно-сходящимися процедурами (84). 2.1.7°. Алгоритм вычис- ления среднего времени сходимости и среднего числа коррекций (87). 2.1.8°. Примеры конечно-сходящихся алгоритмов (89). § 2.2. Процедура стохастической аппроксимации в задаче самообучения. 94 2.2.1°. Общие условия сходимости процедуры самообучения (95). 2.2.2°. Поглощающие множества (96). 2.2.3°. Содержательные свойства поглощаю- щих множеств (97). 2.2.4°. Свойства процедуры самообучения при наличии поглощающих множеств (99). § 2.3. Рекуррентное байесовское оценивание в задаче обнаружения марков- ских сигналов....................................................... 100 2.3.1°. Синтез оптимальных систем обнаружения марковских сигналов на фо- не помехи с независимыми значениями (100). 2.3.2°. Рекуррентный алгоритм вычисления отношения правдоподобия (102). 2.3.3°. Предельное свойство бай- есовского обнаружителя (104). 2.3.4°. Оптимальное обнаружение при постоян- ных параметрах сигнала (107). 2.3.5°. Марковский гауссовский сигнал (111). § 2.4. Метод эмпирического функционала в задаче идентификации динамичес- кого объекта, подверженного действию коррелированных возмущений..... 113 2.4.1°. Постановка задачи идентификации (ИЗ). 2.4.2°. Эмпирический функ- ционал и формирование оценок (114). 2.4.3°. Идентифицируемость объекта и предельная невырожденность входных воздействий (116). 2.4.4°. Состоятель- ность оценок, получаемых методом эмпирического функционала (118). 2.4.5°. Обсуждение решения задачи идентификации методом эмпирического функционала (118). § 2.5. Робастное оценивание параметров полезного сигнала............ 123 2.5.1°. Общее понятие о робастном оценивании (123). 2.5.2°. Уточнение схемы робастного оценивания параметра полезного сигнала (126). 2.5.3°. Критерий выбора наименее благоприятного распределения (128). 2.5.4°. Класс симмет- ричных распределений с ограниченной дисперсией (129). 2.5.5°. Линейная за- висимость полезного сигнала от параметра (130). 2.5.6°. Учет априорной ин- формации о распределении параметра полезного сигнала (132). 2.5.7°. Описа- ние некоторых классов робастности (134). 2.5.8°. Рекуррентные процедуры построения робастных оценок (137). § 2.П. Приложение: некоторые сведения о марковских процессах............ 147 § 2.Д. Доказательства лемм и теорем................................... 148 2.Д.1°. Доказательство леммы 2.1.1 (148). 2.Д.2°. Доказательство теоремы 2.1.1 (148). 2.Д.З°. Доказательство теоремы 2.1.2 (148). 2.Д.4°. Доказатель- ство теоремы 2.1.3 (149). 2.Д.5°. Доказательство теоремы 2.2.1 (150). 2.Д.6°. Доказательство леммы 2.2.1 (152). 2.Д.7°. Доказательство теоремы 2.2.2 (152). 2.Д.8°. Доказательство леммы 2.2.2 (153). 2.Д.9°. Доказатель- ство леммы 2.3.1 (153). 2.Д.100. Доказательство теоремы 2.3.1 (154). 2.Д.110. Доказательство леммы 2.3.2 (154). 2.Д.120. Доказательство теоремы 2.3.2 (155). 2.Д.130. Доказательство теоремы 2.3.3 (156). 2.Д. 14°. Доказательство теоремы2.4.1 (158). 2.Д.15°. Доказательство леммы 2.4.1 (161). 2.Д. 16°. До- казательство теоремы 2.5.1 (161). 2.Д.17°. Доказательство теоремы 2.5.2 (162). 2.Д.18°. Доказательство леммы 2.5.1 (163). 4
ГЛАВА 3 ОПТИМАЛЬНАЯ ФИЛЬТРАЦИЯ СЛУЧАЙНЫХ ПРОЦЕССОВ § 3.1. Фильтр Винера-Колмогорова.................................... 164 3.1.1°. Постановка задачи (164). 3.1.2°. Уравнение Винера-Хопфа (165). 3.1.3°. Синтез оптимального фильтра (166) 3.1.4°. Интерпретация действия оптимального устойчивого фильтра (168). 3.1.5°. Сводка формул (169). 3.1.6°. Пример: оценивание состояния устойчивого скалярного объекта (169). 3.1.7°. Пример: оптимальный прогноз значения авторегрессионного процесса (173). 3.1.8°. Синтез оптимальных следящих систем (175). 3.1.9°. Устойчи- вый линейный фильтр, максимизирующий отношение сигнал/шум (177). § 3.2. Фильтр Калмана-Бьюси......................................... 179 3.2.1°. Постановка задачи (179). 3.2.2°. Нестационарное уравнение Винера- Хопфа (180). 3.2.3°. Каноническая форма оптимального фильтра (180). 3.2.4°. Пример: оценивание состояния скалярного объекта (182). 3.2.5°. Ус- тойчивость фильтра Калмана-Бьюси (183). 3.2.6°. Фильтр Калмана-Бьюси в стационарном случае (185). 3.2.7°. Фильтр Калмана-Бьюси в задаче отсле- живания дрейфа параметров динамического объекта (186). § 3.3. Минимаксная фильтрация....................................... 190 3.3. Г. Постановка задачи (190). 3.3.2°. Двойственность задачи оценивания и оптимального управления (191). 3.3.3°. Линейность оптимальной стратегии управления (192). 3.3.4°. Рекуррентное соотношение для оптимальной оценки (192). 3.3.5°. Оценивание параметров полезного сигнала на фоне нсцентриро- ванной помехи (194). § З.П. Приложение: некоторые сведения о стационарных процессах...... 196 З.П.1°. Пример: процесс с кусочно-постоянной структурной функцией (197). З.П.2°. Пример: бслошумный процесс (198). З.П.З°. Пример: процесс с дроб- но-рациональной спектральной плотностью (198). З.П.4°. Дискретное преобра- зование Фурье (199). § З.Д. Доказательства лемм и теорем................................. 200 З.Д. 1°. Доказательство теоремы 3.1.1 (200). З.Д.2°. Доказательство леммы 3 1.1 (Д01). З.Д.З°. Доказательство теоремы 3.2.1 (201). З.Д.4°. Доказа- тельство теоремы 3.2.2 (202). З.Д.5°. Доказательство теоремы 3.2.3 (204). З.Д.6°. Доказательство теоремы 3.2.4 (204). З.Д.7°.‘Доказательство теоремы* 3.3.1 (206). З.Д.8°. Доказательство леммы 3.3.1 (207). З.Д.9°. Доказательст- во теоремы 3.3.2 (208). З.Д. 10°. Доказательство леммы 3.3.2 (209). ГЛАВА 4 НЕКОТОРЫЕ ЗАДАЧИ АДАПТАЦИИ § 4.1. Адаптивные системы........................................... 210 4.1.1°. Модели взаимодействующих объекта и среды (210). 4.1.2°. Стратети настройки параметров и цель функционирования объекта (211). 4 1.3°. Опре- деление понятий адаптивной стратегии и адаптивной системы (213). 4.1.4°. Классификация целей функционирования объекта (213). 4.1.5°. Замечания (214). § 4.2. Примеры адаптивных систем.................................... 215 4.2.1°. Адаптивный классификатор (215). 4.2.2°. Адаптивные алгоритмы оце- нивания (218). 4.2.3°. Адаптивное прогнозирование (219). 4.2.4°. Адаптив- ные системы управления (221). § 4.3. Синтез адаптивных фильтров................................... 225 4.3.1°. Уточнение постановки задачи об адаптивной фильтрации (225). 4.3.2°. Схемы оценивания неизвестных параметров (227). 4.3.3°. Идентификация авторегрессионного процесса при белошумной помехе (230). 4.3.4°. Расши- ренный МНК в задаче идентификации (232). 4.3.5°. Упрощенная процедура 5
расширенного МНК в задаче идентификации (233). 4.3.6°. Процедура стоха- стической аппроксимации в задаче идентификации (234). 4.3.7°. Адаптивная фильтрация (241). § 4.Д. Доказательства лемм и теорем...................................... 244 4.Д.1°. Доказательство леммы 4.3.1 (244). 4.Д.2°. Доказательство леммы 4.3.2 (245). 4.Д.З°. Доказательство теоремы 4.3.1 (247). 4.Д.4°. Доказатель- ство теоремы 4.3.2 (257). 4.Д.5°. Доказательство леммы 4.3.3 (261). 4.Д.6°. Доказательство теоремы 4.3.3 (262). Примечания и литературные указания....................................... 267 Литература............................................................... 277 Список основных сокращений и обозначений................................. 286
ПРЕДИСЛОВИЕ Книга посвящена последовательному изложению ряда разделов теории адаптивной фильтрации в условиях параметрической неопределенности о помехо-сигнальной обстановке. Центральный вопрос теории - сочетание оптимальных методов фильтрации (обработки) стохастических сигналов с методами восстановления неизвестных параметров, определяющих свойства полезного сигнала и помехи в канале наблюдения. Фильтр, обеспечивающий успешную обработку принимаемого сигнала в условиях априорной неопределенности о помехо-сигнальной обстановке, здесь назван адаптивным. Задача синтеза адаптивных фильтров является специальной в рамках теории адаптивных систем, получившей в последние годы значительное развитие и, несомненно, составляющей один из централь- ных разделов кибернетики. Именно в теории адаптивных систем получает должное звучание мысль Н. Винера о важности понятий управления и связи для описания самых различных процессов, протекающих в окружающем нас мире. В данной монографии сделана попытка описать современное состояние лишь некоторых разделов теории адаптивных систем. Излагаемый матери- ал группируется вокруг вопросов рекуррентного оценивания, при этом обсуждаются как хорошо известные схемы оценивания (метод стохасти- ческой аппроксимации, метод наименьших квадратов, метод максимума правдоподобия), так и относительно новые схемы (минимаксное оцени- вание, метод рекуррентных целевых неравенств, робастное оценивание). Значительное внимание уделено методам синтеза оптимальных фильтров (фильтр Винера-Колмогорова, фильтр Калмана-Быоси). Принятый в кни- ге подход применим к многочисленным задачам оптимального обнаруже- ния, обучения распознаванию образов, идентификации динамических объ- ектов и многим другим, представляющим большой практический интерес. В некоторых отношениях данную монографию можно рассматривать как продолжение книги В.Н. Фомина, А.Л. Фрадкова, В.А. Якубовича ’’Адаптив- ное управление динамическими объектами” (М.: Наука, 1981), в которой вопросы адаптивной фильтрации и прогнозирования лишь намечены. Для удобства читателя ниже сохранена и структура этой книги: доказательства утверждений вынесены в специальные параграфы, ссылки на использован- ные источники приводятся, как правило, лишь в примечаниях и литератур- ных указаниях в конце книги, сохранена форма ссылок на формулы, опре- деления и утверждения. Отметим, что понятия ’’шум”, ’’помеха”, ’’некон- тролируемое возмущение” рассматриваются ниже как синонимы. Следует подчеркнуть, что под помехой, сигналом и т.д. понимается соответствую- щий процесс, а не его значения в те или иные моменты времени. 7
Книга предназначена в первую очередь для читателей с инженерным обра- зованием, но для полного усвоения используемой в ней методики доказа- тельств от читателя требуется достаточно высокая математическая подго- товка. Для лучшего понимания основного содержания книги большинство теоретических результатов иллюстрируется на модельных примерах. Она может быть полезной широкому кругу специалистов в области теорети- ческой и прикладной кибернетики, а также студентам старших курсов и аспирантам, специализирующимся по математической кибернетике. В основу книги положен двухсеместровый курс лекций, читаемый автором на математико-механическом факультете Ленинградского университета. В книге рассматриваются лишь системы, функционирующие в дискрет- ном времени. Значительная часть полученных здесь результатов может быть перенесена и на случай непрерывного времени, теория оценивания и фильтрации в непрерывном времени даже более содержательна с мате- матической точки зрения. Однако случай непрерывного времени требует Излишней ’’математизации” теории, при этом ее ’’аппаратная” часть начинает преобладать над практической содержательностью результатов теории, де- лая их труднодоступными для читателя, на которого рассчитана книга. Кро- ме того, теория адаптации, по убеждению автора, находится сейчас в той фазе развития, когда ее оформление в самостоятельное научное направле- ние не обязательно связано с обобщением уже разработанных методов исследования дискретных систем. Взгляды автора на обсуждаемый предмет формировались в рамках научных семинаров кафедры теоретической кибернетики Ленинградско- го университета. Автор с глубокой признательностью отмечает, что решаю- щее влияние на формирование, его взглядов оказали беседы и дискуссии с В.А. Якубовичем. Книга обязана своим появлением творческой атмос- фере, сложившейся в группе адаптации упомянутой выше кафедры, и автор благодарен членам этой группы, в первую очередь С.А. Агафонову, Г.С. Ак- сенову, А.Е. Барабанову, Ю.Ф. Казаринову, Т.П. Красулиной, Н.А. Санкиной, С.Г. Семенову, Б.М. Соколову и В.Ю. Тертычному. Можно без преувеличе- ния сказать, что данная книга представляет коллективную точку зрения группы на проблемы рекуррентного оценивания, и адаптации. Значительное влияние на ’’усвоение” автором проблем адаптации оказали многочислен- ные его беседы с С. В. Гусевым, О.Ю. Кульчицким, С.М. Хрящевым, Я.3. Цып- киным. Рукопись книги любезно просмотрели В.Я. Катковник и В.Г. Сраго- вич; их многочисленные замечания учтены в окончательной редакции. Большую помощь в оформлении рукописи оказал автору Д.А. Пляко. Всем перечисленным лицам автор выражает свою признательность.
ВВЕДЕНИЕ Теория фильтрации и оценивания имеет богатую историю, но именно в последние два-три десятилетия она заняла почетное место в рамках кибер- нетики - науки, которая ’’занимается изучением систем любой природы, способных воспринимать, хранить и перерабатывать информацию и исполь- зовать ее для управления и регулирования” (А.Н. Колмогоров). Все возрастающее значение методов теории фильтрации и оценивания обусловлено, в первую очередь, запросами современного производства, требующего быстрого развития и широкого внедрения сложных систем управления и связи. Сложность этих систем обусловлена необходимостью работать в широко изменяющихся диапазонах, при заранее непредсказу- емых условиях, в режимах, затрудняющих или делающих невозможным контроль со стороны человека. Теория фильтрации и оценивания, наряду с другими математическими теориями, обеспечивает базу для создания та- кого рода систем. Теория оценивания как математическая наука была основана в 1806 г., когда появилась работа Лежандра о наименьших квадратах. Эту честь раз- деляет и Гаусс, опубликовавший свою версию метода наименьших квадра- тов (МНК) в 1809 г. В этот период стимулом развития МНК служили за- просы небесной механики, и метод быстро становится стандартным для определения орбит небесных тел. Неудивительно, что среди авторов работ по небесной механике мы находим имена Бесселя, Лапласа, Пуассона, Лагранжа, известных своим вкладом и в основания статистики. Постепенно методика оценивания была поглощена статистикой, но не сразу в достаточно строгой математической форме. Лишь в течение послед- них десятилетий теория вероятностей и важнейшие разделы статистики получили соответствующее математическое оформление, прежде всего, благодаря использованию концепций теории меры. Современное состояние теории оценивания заложено Р.А. Фишером в 20-х годах нашего столетия. Фишер показал, что метод максимума правдоподобия обычно удобнее МНК и доставляемые им оценки не мо- гут быть в существенном улучшены. Фишером также введены ставшие общепринятыми понятия несмещенности, достаточности, состоятельности, эффективности и асимптотической эффективности оценок. Тщательно рассматривая основания теории оценивания, Фишер избавил ее от жест- ких ограничений, существовавших с момента появления работ Гаусса. Обобщения его теории привели, в частности, к развитию современных методов непараметрического и робастного оценивания, в которых точ- ная природа распределения вероятностей оцениваемых случайных величин не предполагается известной. 9
Одновременно с формализацией и развитием теории вероятностей и ста- тистики проводились исследования в, казалось бы, далеких от них облас- тях, но именно этим исследованиям предстояло оказать на теорию оценива- ния еще большее воздействие. До 1940 г. оценивание касалось, прежде всего, классических проблем определения наилучших оценок распределе- ний параметров на основе выборки из генеральной совокупности. Между тем, специалисты по линиям связи имели дело с задачей синтеза устройств, позволяющих эффективно обнаруживать присутствие или отсутствие сиг- нала, наблюдаемого на фоне помехи, и именно их исследования составили конкуренцию статистическим исследованиям Фишера. Быстрое развитие теории связи привело к необходимости учета воздействия помех на рас- пространение и прием сигналов. Первые попытки уменьшить нежелатель- ное воздействие помех были связаны с введением методов расчета фильт- ров, позволяющих оценить спектр мощности полезного сигнала. Эти по- пытки делались в нужном направлении, но были ограниченными из-за недос- таточности развития теории фильтрации. Математические основы этой тео- рии только закладывались: в начале 30-х годов А.Я. Хинчин и Н. Винер соз- дали теорию гармонического анализа случайных функций, центральное мес- то в которой занимает теорема о спектральном представлении Стационар- ных процессов. В конце 40-х годов закладываются основы статистической теории связи, или теории информации. В 1947 г. в докторской диссертации В.А. Котель- никова ’’Теория потенциальной помехоустойчивости” впервые формулиру- ется задача оптимального статистического синтеза приемных устройств и дается решение задачи обнаружения и различения детерминированных сигналов на фоне коррелированной помехи. Здесь с новых позиций анали- зируются фундаментальные понятия. Спустя немногим более года появ- ляется известная работа К. Шеннона, содержащая знаменитые теоремы о кодировании передаваемых сигналов с целью устранения избыточной ин- формации и о пропускной способности каналов со случайными помехами. Фундаментальные результаты, полученные В.А. Котельниковым и К. Шен- ноном, представляют основополагающий вклад в статистическую теорию связи. В то же время Н. Винер публикует книгу ’’Кибернетика, или управление и связь в животном и машине”, возвестившую о становлении новой науки, в которой информационно-управленческая связь в явлениях материального мира выступает как фундаментальное его свойство. За последующие три десятилетия методы статистической теории связи значительно усовершенствовались, вопросы приема сигналов начинают рассматриваться с позиций статистических решений. Теория оптимальной фильтрации оплодотворяется байесовской идеологией, центральное место в которой занимают идеи последовательного статистического анализа Валь- да. Структура оптимального приемника-обнаружителя определяется теперь из анализа отношения правдоподобия и при определенных условиях приводит к согласованному фильтру, максимизирующему отношение ”сигнал/шум” на входе решающего устройства. Наряду с проблемой обнаружения на первый план в статистической тео- рии связи выдвигаются проблемы различения сигналов и восстановления сообщений. Эти проблемы оказываются тесно связанными с оценкой па- 10
раметров, от которых могут зависеть принимаемые сигналы. Так, напри- мер, проектировщики радиолокатора уже не удовлетворяются решением только проблемы детектирования сигнала, но также желают знать амплиту- ду и фазу принятых радиолокатором сигналов. Хотя первоначально преоб- разование сигналов и оценивание их параметров подвергалось изучению со специальными целями, вскоре было установлено, что после соответствую- щей интерпретации эти проблемы естественно укладываются в рамки статистики. Немаловажное значение имела и популяризация статистичес- ких методов среди инженеров-проектировщиков систем связи. Другой подход к проблеме передачи информации в условиях помех был предложен А.Н. Колмогоровым в работе, опубликованной в 1939 г. в ’’Докладах французской академии наук”. Через два года эти результаты были опубликованы в СССР. В 1942 г. в закрытом отчете, написанном по заданию Национального Совета оборонных исследований США, подобные ре- зультаты независимо получает Н. Винер. Эти работы и заложили основы теории оптимальной фильтрации стационарных процессов. Винер, в част- ности, показал, что теория оценивания может быть применена для синте- за электрического фильтра, который обеспечит наилучшее выделение сиг- нала при наличии стационарной помехи. При этом он делал упор не столько на рассмотрение частотных спектров сигналов, сколько на их обработку как стохастических процессов. Развитие статистической теории связи было результатом быстрого восприятия винеровской идеи. Более того, как это обычно бывает с каж- дым значительным продвижением в науке, были разработаны различные модификации оригинального метода (например, широкое признание среди инженеров-проектировщиков систем связи получила интерпретация Боде - Шеннона процедуры синтеза оптимального фильтра). На первый взгляд теория Винера-Колмогорова кажется в существенном основанной на методе наименьших квадратов, и это действительно так. Од- нако оценивание параметров в этой теории происходит на основе обработки входных данных в виде стохастического процесса, что приводит к важным концепциям физической реализуемости и оптимальности синтезируемого линейного фильтра. Теория не только доказывает существование оптималь- ного фильтра, но и в принципе позволяет его синтезировать. Центральным местом теории оптимальной фильтрации Винера ~ Колмогорова является уравнение Винера - Хопфа, решение которого непосредственно связано с синтезом оптимального фильтра. Аналитические трудности решения этого уравнения (в частности, проблема факторизации) явились главным пре- пятствием на пути широкого внедрения методов фильтрации в практику. Кроме того, значительным ограничением для многих приложений было важное предположение о стационарности обрабатываемого сигнала. В конце 50-х годов при исследовании опгимальных фильтров, синтези- руемых при обработке результатов наблюдения на конечном интервале времени, были предложены подходы, не использующие интегральное урав- нение Винера - Хопфа. Первоначальный импульс для создания активности в новом направлении был дан Р. Калманом и Р. Бьюси. Независимо друг от друга они поняли, что вместо исследования уравнения Винера Хопфа с его трудностями факторизации часто бывает желательно (и возможно) превратить интегральное уравнение в нелинейное дифференциальное, реше- 11
ние которого даст ковариацию ошибки оптимального фильтра. В свою оче- редь, эта ковариация содержит всю необходимую информацию для проек- тирования оптимального фильтра. Этот подход, по существу представляю- щий собой рекуррентный варрант МНК, в частных случаях исследовался ранее и другими авторами, но именно с работ Р. Калмана и Р. Бьюси в на- чале 60-х годов началось широкое развитие методов теории рекуррентно- го (последовательного) оценивания, в рамках которой задача оптималь- ной фильтрации получила существенное продвижение. Возможность синте- за оптимального фильтра рекуррентным способом представляла и большой практический интерес в связи с удобством реализации фильтра на базе современной вычислительной техники. Рекуррентные процедуры оценивания (фильтр Калмана-Бьюси) оказались применимыми и в случае нестационар- ных процессов, что в рамках теории Винера-Колмогорова представляло трудную проблему. Работы Р. Калмана по рекуррентному оцениванию появились в связи с необходимостью оптимального оценивания вектора состояния линей- ных нестационарных систем. Оценивание производилось по наблюдению за зашумленной компонентой вектора состояния. В теоретическом плане здесь существенным моментом является линейная зависимость наблюдае- мого процесса от оцениваемого параметра (линейная фильтрация). Вместе с тем, многие практические задачи приводят к нелинейной зависимости дан- ных наблюдения от оцениваемого параметра. Этот раздел теории оценива- ния - нелинейная фильтрация - развит значительно меньше, чем линейная фильтрация. Центральные идеи здесь были выдвинуты в 1960 г. Р.Л. Стра- тоновичем; предложенная им рекуррентная процедура оценивания в линей- ном случае преобразуется в фильтр Калмана-Бьюси. Развитие и доступность вычислительной техники оказали невиданное воздействие на теорию фильтрации и оценивания. Если до эры ЭВМ анали- тики затрачивали огромные усилия на формулировку решений в замкнутой форме простых вычислительных алгоритмов, то современная тенденция состоит в программировании всей проблемы с тем, чтобы возложить на ЭВМ решение задачи. Проблемы нелинейного оценивания, которые до сих пор старательно обходились из-за трудности аналитических исследований, сейчас рассматриваются как рутинные при использовании ЭВМ. Совершенствование вычислительных устройств оказало воздействие и на классические разделы математической статистики, стимулируя разра- ботку и давая приоритет рекуррентным схемам оценивания. Так, получили широкое признание процедуры стохастической аппроксимации Роббинса - Монро (1951) и Кифера-Вольфовица (1952). Не обладая оптимальными свойствами рекуррентных модификаций МНК, они позволяют получать состоятельные оценки неизвестных параметров, демонстрируя преимущест- во перед, оптимальными схемами в простоте вычислительных процедур и в универсальности применения. Теория фильтрации и оценивания в последние годы получила новое звучание в связи с необходимостью синтезировать адаптивные системы, способные успешно функционировать в условиях априорной неопределен- ности о свойствах внешней среды. Так, синтез оптимального фильтра предполагает известными некоторые априорные свойства сигналов и помех. 12
В большинстве практических задач эта информация недоступна проекти- ровщику оптимальных фильтров, но ее можно в той или иной степени вос- полнить из анализа принимаемых сигналов. Если такая возможность име- ется, то можно синтезировать фильтры, в которых совмещены процессы фильтрации и восполнения недостающей информации. При достаточно эф- фективном восполнении недостающих сведений фильтр приобретает опти- мальные свойства либо близкие к ним; такие фильтры называют адаптив- ными, поскольку в процессе функционирования они проявляют свойство ’’приспосабливаться” к заранее неизвестным помехосигнальным условиям. Сама возможность синтеза адаптивных фильтров также предполагает выполнение некоторых априорных условий о свойствах помехо-сигнальной обстановки, но эти условия обычно имеют более общий характер, чем те, которые использовались при оптимальной фильтрации. Так, например, фильтр Винера-Колмогорова предполагает не только стационарность по- лезного сигнала и помехи, но и знание их спектральных характеристик. Примененный в другой помехо-сигнальной обстановке, такой фильтр может не выполнять возложенных на него функций. В этих условиях фильтр, не использующий знания спектральных характеристик (а, воз- можно, восстанавливающий их в процессе анализа принимаемого сигнала) и в то же время приспосабливающийся к произвольной стационарной помехо-сигнальной обстановке, будет проявлять свойства адаптивности к неизвестным характеристикам помехо-сигнальной обстановки. Более сложные фильтры, возможно, смогут приспосабливаться и к другим, не обязательно стационарным помехо-сигнальным условиям, и они будут обладать другим, более высоким уровнем адаптации и т.д. Из сказанного ясно, что само понятие адаптивности зависит от того, какова цель функцио- нирования данного устройства (фильтра) и при каких помехо-сигнальных условиях она обеспечивается. Эти условия определяют класс адаптивности данного устройства, и устройство, адаптивное в одном классе, может не быть адаптивным для другого множества условий либо по отношению к другой цели функционирования. Использование адаптивных фильтров делает процесс фильтрации более гибким, но реализация адаптивных фильтров становится более сложной и требует обычно большего объема вычислений и памяти вычислитель- ных устройств. Успешное проектирование адаптивных фильтров возможно, видимо, лишь на пути развития рекуррентного синтеза, когда ’’настройка” параметров фильтра осуществляется по мере поступления новых данных наблюдения. Такой подход позволяет установить разумный компромисс между необходимым быстродействием вычислительных устройств и требуе- мым объемом их памяти с тем, чтобы обеспечить своевременную обработ- ку больших объемов данных наблюдения. Сказанное в равной степени относится и к другим адаптивным устрой- ствам, в частности, к обучающимся машинам и самонастраивающимся регуляторам. При синтезе таких устройств теория фильтрации и оценивания играет важную роль, доставляя рекуррентные алгоритмы адаптации. Цель этой книги - дать представление о современном состоянии некото- рых разделов теории фильтрации и оценивания, а также подчеркнуть значи- мость этих методов для решения разнообразных задач адаптации.
ГЛАВА 1 ЗАДАЧИ И МЕТОДЫ ТЕОРИИ ОЦЕНИВАНИЯ Под оцениванием понимается способ уточнения значений параметров сигнала, наблюдаемого на фоне помехи. Для нужд теории оценивания раз- виты специальные методы математической статистики, б частности, регрес- сионный анализ, основанный на методе наименьших квадратов. Новый взгляд на регрессионный анализ связан с развитием электронно-вычислитель- ной техники, стимулировавшей широкое распространение рекуррентных процедур оценивания. В данной главе дается краткое описание некоторых из методов регрессионного анализа и других методов статистического оце- нивания, а также перечисляются некоторые задачи обучения, самообучения, обнаружения, решение которых сводится к оцениванию соответствующих параметров. § 1.1. ПРИМЕРЫ ЗАДАЧ ОЦЕНИВАНИЯ Прежде чем переходить к описанию методов оценивания, полезно иметь перед собой коллекцию задач, для которых эти методы предназначены. Перечисляемые ниже задачи являются модельными, но, как представляется, демонстрируют достаточно широкую область применения методов оцени- вания. 1.1.1 °. Оценивание величины постоянного сигнала, наблюдаемого на фоне помехи. Предположим, что наблюдаемый (регистрируемый измери- тельным прибором) сигнал имеет вид yt-T + vt, (1.1) где т - постоянная величина (полезный сигнал), {vr} - помеха наблюде- ния, изменяющаяся во времени t = 1,2,.... Требуется по наблюденным значениям у * = (у^,... ,yt) оценить величину т. В такой общей постановке решение даже столь простой задачи едва Ли возможно. Обычно о свойствах помехи { vt} делаются те или иные предпо- ложения, позволяющие воспользоваться статистическими методами. Напри- мер, характерно предположение о центрированности и некоррелированнос- ти помехи {и,}. При таком предположении могут применяться различные схемы усреднения типа 1 ' 1 t - X X (1.2) t s =1 t 1 позволяющие сгроить оценки rt величины т в виде 1 f Z ys. (1.3) l s ~ 1 14
В силу закона больших чисел величина — S vs сходится в различных t $ = 1 вероятностных смыслах к нулю, что в соответствии с (1.2) приводит к сходимости оценок (1.3) кт. Возможны другие способы получения оценок неизвестной величины т; важен вопрос о наилучших оценках, понимаемых в том или ином смысле. Интересен также вопрос о скорости сходимости оценок (в частности, оценок (1.3)) к неизвестной величине т, но ответ на него получен лишь в простейших случаях. 1.1.2 °. Задача оптимального оценивания параметров сигнала. Наблюдае- мый сигнал {yt} может иметь более сложную структуру: yt = $г(т,к) + и,. (1.4) Здесь {%}- изменяющийся во времени полезный сигнал, зависящий известным образом от набора т информационных (существенных) парамет- ров и набора к паразитных параметров; {щ}~ помеха наблюдения. Тре- буется оценить информационные параметры т. При решении этой задачи также накладываются ограничения на входя- щие в (1.4) величины. В ряде случаев параметры т, к предполагаются случайными с известными статистическими свойствами. В другом варианте набор параметров может быть неслучайным (например, в задаче о выделе- нии скрытых периодичностей полезный сигнал представляет собой тригоно- метрический полином с неизвестными частотами). Обычно интерес представляет получение наилучших (оптимальных) оценок, что предполагает задание критерия качества оценок. Критерий качества состоит в требовании экстремизации (минимизации либо макси- мизации) некоторого функционала, называемого функционалом качества. Таким функционалом может быть, например, И/Г(/) = М{ S ljr-sr(r»|2lr}, t = i где Т — время наблюдения сигнала и М означает операцию усреднения по ансамблю реализаций сигналов {>’,} , {$,} , отвечающих фиксированному значению параметра т. В другом варианте задачи оценивания, когда интер- вал наблюдения бесконечен, функционал качества может иметь вид , — 1 т W(r)= sup lini — Z |^f - Sf (т ,k) I, кек т-> °° T где К — множество возможных значений паразитного сигнала к. Вычисле- ние первого из приведенных функционалов предполагает знание статистики сигналов {} , {sr} , во втором случае значение функционала полностью определяется реализациями этих процессов. Возможны и другие разнообраз- ные функционалы качества, минимизация которых определяет оптималь- ную (в смысле соответствующего функционала) оценку. 1.1.3°. Задача обнаружения сигнала. В задачах обнаружения сигнала оцениваемая величина (обозначим ее через в ) принимает конечное число значений и часто представляет собой характеристику типа ”да - нет”. 15
Наблюдается сигнал yt = 0st + vt, r=l,2,...,T, (1.5) где величина в характеризует наличие сигнала {s,} (0 = 1) либо его отсутст- вие (0 = 0). Возникает задача оценивания величины 0 , что можно интерпре- тировать как задачу обнаружения сигнала, наблюдаемого на фоне помехи. При определенных предположениях о статистических свойствах с.в st, vt за- дача допускает решение, оптимальное в различных смыслах. При этом вели- чина st может быть известной (и тогда все сводится к задаче оценивания параметра 0 ), либо неизвестной (что осложняет задачу). 1.1.4°. Задача о разладке. Близкой по смыслу к предыдущей задаче является следующая задача: наблюдаемый процесс имеет вид yt = st(Tt) + vt, (1.6) где Tt - величина, определяющая статистические свойства полезного сигна- ла. Величина эта, по предположению, изменяется во времени, оставаясь постоянной на интервалах значительной продолжительности. Требуется оценить моменты времени, когда происходит ’’переключение” величины т,. В более частном варианте Tt может, например, принимать лишь два значения и иметь смысл среднего значения полезного сигнала. В этом случае требует- ся определить моменты времени, называемые моментами разладки, когда изменяется среднее значение полезного сигнала. Задача о разладке полезна при определении моментов начала и окончания действия полезных сигналов, при выделении фонем в речеподобных сигналах и т.д. 1.1.5°. Аппроксимация функции с помощью линейных комбинаций известных функций. Задача об аппроксимации функции по ее значениям (в некоторых точках) имеет широкую область применения. Формулировка задачи состоит в следующем. Предположим, что значения функции Дх), оп- ределенной на множестве X, известны в точках xf, х, Е X. Пусть av (х), . . . .. . ,ai (х) - заданные функции, определенные на том же множестве. Требу- ется аппроксимировать f (х) с помощью линейной комбинации функций {а/ (х)}: S т(Ч(х). (1.7) 1= 1 Коэффициенты этой комбинации выбираются в зависимости от того, как понимается аппроксимация, что связано с заданием критерия качества аппроксимации. Предположим, что критерий качества задан и определяе- мый этим критерием набор коэффициентов r[l\i =1,2,...,/, найден. Тогда f (х) в точках х,, t = 1,2,..., Г, можно представить в виде /(*,) = S 7<'>а(х,)+и„ (1.8) / = 1 где {vt} трактуется как ошибка измерения полезного сигнала / st- Етр’)а(хг). (1.9) / = 1 Требуется по наблюдениям^, = st + vt оценить вектор т» = col (/J \ .. ., rV>). 16
При функционале качества WT(T)= I l(r,a(xt))-f(xt)?, (J.10) t = 1 / где (г, а) = Е а,, решение поставленной задачи свелось к применению / = । метода наименьших квадратов. При определенных предположениях реше- ние может быть найдено с помощью рекуррентных процедур, увеличиваю- щих точность аппроксимации по мере поступления новых точек xt и сооб- щении о ’’зашумленных” значениях f (xt) в этих точках. 1.1.6 °. Модель обучаемой системы. Конкретизация задачи п. 1.1.5 ° при- водит к различным вариантам задачи обучения. Пусть имеется некоторая система, организованная следующим образом: при предъявлении ей входно- го сигнала (стимула) хона ’’вырабатывает” значения функций ах (х),... . . ,Я/(х), определяющих ее структуру, и может вычислять величину (1.7) с некоторыми весовыми коэффициентами Тем самым определяются множества (образы) *1 (т)= {x:/z (т, х) > 0} , X2(7)={x:/z(7,x)<0), (1.11) и рассматриваемая система в состоянии теперь ’’классифицировать” любой входной сигнал х, относя его либо к множеству (т), либо к множеству %2 (т). Эта классификация может изменяться, если варьировать коэф- фициенты Система, дополненная способом изменения весовых коэффи- циентов, может ’’подгонять” свою классификацию к некоторой требуемой и тем самым демонстрировать свойство обучаемости, или адаптации. Такая подгонка требует определенной информации о требуемой классификации, и эта информация поступает с обучающей последовательностью xt,.. .хг, состоящей из классифицированных требуемым образом входных сигналов. Уточнение характера этой информации приводит к различным постановкам задачи обучения. Сам процесс подбора весовых коэффициентов с помощью обучающей последовательности носит название процесса обучения; по окончании процесса обучения весовые коэффициенты фиксируются и множества (1.11) принимаются, в качестве требуемого разбиения. Они, разумеется, могут не совпадать с требуемым разбиением, их отличие, выра- женное каким-либо способом, определяет качество работы ’’обученной” системы. Естественным образом задача обучения обобщается на случай числа клас- сов, большего двух. Описанная выше схема обучаемой системы может быть реализована с помощью так называемых персептронов — сложных сетей из пороговых элементов (формальных нейронов), предназначенных для моделирования процесса обучения в живых организмах. Роль функций Я/ (х) здесь играют реакции выходных нейронов сети на входной стимул х (по аналогии с работой зрительной системы входные стимулы иногда называют изображе- ниями) . Величины играют роль коэффициентов усиления сигналов выходных нейронов сети, эти усиленные сигналы поступают в эффектор- ный нейрон, где они суммируются и сравниваются с порогом (в данном случае - с нулем). В результате такого сравнения принимается решение о 17
принадлежности входного стимула к одному из двух классов. Поступаю- щая в процессе обучения (в процессе настройки коэффициентов усиления) дополнительная информация о требуемой классификации интерпретирует- ся как указание ’’учителя” о классификации обучающей последовательнос- ти, поэтому описанную задачу иногда называют "обучением с учителем ”. Возможна постановка задачи обучения,где указания ’’учителя” отсутствуют, эта задача часто называется задачей самообучения. Приведем два возможных варианта задачи ’’обучения с учителем”, разли- чающихся конкретизацией информации о требуемой классификации. а) Детерминистская постановка задачи обучения. Предположим, что требуемое разбиение множества X определяется множествами (1.11) при т = т*, но значение т* нам неизвестно. Введем функцию f(x) = sign ft (т., х) (112) и будем предполагать, что ее значения известны на обучающей последова- тельности хь .. ., хт. Таким образом, ’’указания учителя” в данном случае сводятся к предъявлению обучаемой системе наряду со стимулами (изоб- ражениями) xit.. ., хт последовательности/(хД... ,/(хД а весовые коэффициенты требуется определить из условия совпадения знаков функций f(x)nfi (т, х) на обучающей последовательности, т.е. из неравенств i f(xt) S т('>а,(х,)>0, 7=1,2,Т. (1.13) /= 1 Неравенства (1.13) определяют своеобразную аппроксимацию функции f(x) с помощью линейной комбинации функций а{ (х), именно, аппроксима- цию ”по знаку”. При сделанном предположении (1.12) система неравенств (1.13) разрешима, и всякий алгоритм определения ее решения может интерпретироваться как процесс обучения. Описанная задача называется детерминистской, так как она предполагает возможность безошибочной классификации (классы изображений Xt (тД Х2 (т*)не пересекаются). Задача допускает ясную геометрическую интер- претацию. Действительно, обозначим через Rz евклидово пространство размерности I. Тогда функции {а( (х)}, z = 1,2,..., определяют отображе- ние z : X-+R1, сопоставляя каждому х .Е X точку z = z (х) = col (ai (х),... ,ai (х)) (1.14) из R7. При таком отображении множества Хх (т),Х2 (т) перейдут в мно- жества Zi (г) - z (Xi (г)), Z2 (т) = z (Х2 (т)), причем в силу предположения (1.12) множества Zi (t*),Z2 (т*)не пересекаются и разделимы плоскостью. По этой причине Rz иногда называют спрямляющим пространством, и роль нейронной сети сводится, по существу, к преобразованию исходных множеств сложной конфигурации к линейно-разделимым множествам. Не следует думать, что возможность ’’спрямить” исходные множества является исключительной. На самом деле для любых непересекающихся ограничен- ных множеств, разделенных положительным расстоянием, существует конечный набор пороговых функций, отображающий их в линейно-раздели- мые множества. Коэффициенты разделяющей плоскости должны удовлетворять неравенствам (1.13). 18
Другой возможный способ аппроксимации функций (1.12) состоит в задании распределения вероятностей F на семействе подмножеств множест- ва /Vи требовании минимизировать функционал /(т) = /1 (т,а(х))-/(х) I2 F (dx). (1.15) С помощью найденного из этого условия вектора т получаем разбиение (1.11), которое, вообще говоря, не обязано совпадать с требуемым, по- скольку может оказаться, что т =# тф. В приложениях такой подход, тем не менее, часто приводит к удовлетворительным результатам. Особенность задачи обучения состоит в том, что распределение F обычно неизвестно и воспользоваться непосредственно соотношением. gradJ(r) = O (1.16) для определения вектора т невозможно. Однако предполагается, что обучающая последовательность порождается распределением F (точнее, векторы xf являются случайными, стохастически независимыми и имею- щими одинаковое распределение вероятностей F). Такое предположение позволяет в принципе восстановить с помощью обучающей выборки (достаточно большого объема) с необходимой точностью распределение F и тем самым открывает возможность построения различных процедур обучения. Наиболее широкую известность получили стохастически градиент- ные по отношению к функционалу (1.15) процедуры, имеющие вид 7/+1 = Tt ~ Ъ 1(тг,а (х,)) -/(х,)] а (хг), (1.17) где yt — подходящим образом подбираемая последовательность неотрица- тельных чисел. Выражение при yt в (1.17) пропорционально градиенту по т от подынтегральной функции в (1.15), вычисленному в случайной точкехг. Процедуры типа (1.17),называемые процедурами Роббинса - Монро, воз- никли в математической статистике в рамках метода стохастической ап- проксимации (MCA) для нахождения корней уравнения регрессии, роль которого в данном случае играет (1.16). При неограниченном объеме выборки и ряде других предположений удается установить сходимость оценок Tt к вектору т, минимизирующему функционал (1.15). В рамках задачи обучения алгоритм (1.17) можно интерпретировать как процедуру обучения. Реализация этой процедуры обучения не связана с необходи- мостью восстанавливать в каком-либо виде распределение F й удобна при использовании быстродействующих ЭВМ. б) Вероятностная постановка задачи обучения. Если требуемое разбиение не входит в семейство (1.11), то неравенство (1.13) неразрешимо и реализа- ция требуемого разбиения с помощью семейства разбиений (111) принци- пиально невозможна. Однако можно поставить задачу определения в семей- стве разбиений (1.11) такого, которое возможно меньше отличалось бы от требуемого. Уточним постановку задачи. Пусть Х2 ~ некоторое разбие- ние множества X на два непересекающихся подмножества. Обозначим через Zif Z2 образы множеств XlfX2 при отображении (1.14). Нас будет интере- совать случай, когда множества Zlf Z2 пересекаются, т.е. заведомо не являются линейно-разделимыми. Предположим, что в Xвыделена о-алгебра подмножеств (содержащая Xit Х2), и на этих подмножествах определено 19
распределение вероятностей F. Введем функцию Р(Хх I z) по формуле (118) где/)е (z) - шар радиуса е с центром в точке z и {z(x)E/)e (z) }- множест- во всех х, для которых имеет место включение z (х) в De (z). Предполагает- ся, что написанный предел существует при всех zG.ZxV Z2. Функция Р(Хх | z)имеет смысл вероятности того, что точке z=z(x) соответству- ет xG Xlf и называется степенью достоверности соответствия z первому классу. Задача состоит в наилучшей аппроксимации степени достоверности P(Xi iz)c помощью линейной функции (т, z)b смысле минимизации функционала J(r) = /|(r,z(x))-P(X1 |z)i2 F(dx), (1.19) т.е. в определении вектора т = argmin J (т). Такая постановка задачи обуче- ния называется вероятностной. Если вектор т из этого условия определен, то классификация может осуществляться, например, по правилу: при наблюдении z (х) сигнал х отно- сится к первому классу, если (т, z (х)) > й , и ко второму классу в против- ном случае. Такое правило является оптимальным, если потери от ошибок классификации не зависят от выбора сигнала х. При наличии такой зависи- мости оптимальное правило имеет более сложный вид и зависит от соответ- ствующих значений штрафов за ошибки классификации. В детерминистской постановке задачи обучения Р(Х^ I z) = 1 при z € GZi (тф),/,(Аг1 | z) = 0 приzGZ2(t\), и функционал (1.19) несущественно отличается от (1.15), так что для определения оценок rt можно восполь- зоваться алгоритмом (1.17), в котором вместо f (хг) используются величи- ны P(A\ |z) = 2-1 [1 +/(xf)]. В вероятностном варианте задачи величина Р(Хх | z) может принимать произвольные значения из интервала [0, 1] и ’’указания учителя” не позволяют определить значения Р (Xj I zt) на элемен- тах обучающей последовательности. Введем характеристическую функцию s (х) множества Х{: {1, если x€Xlt О, если хЕХ2. Тогда (xt) можно интерпретировать как ’’указание учителя” о принадлеж- ности сигнала xt множеству Xi (s (xt) = 1) или Хг (s (xt) = 0). Вместо проце- дуры (1.17) для векторов rf, оценивающих вектор argmin J (т), можно использовать процедуру т rt +1 = rt - yt [(Tf, a (xf)) - s (xr)] a (xf), (1.20) где yt - некоторые неотрицательные числа. При определенных условиях последовательность {Tt} оказывается сходящейся (при неограниченном возрастании^ объема обучающей последовательности) к вектору т- = argmin J (т). Это неудивительно, если заметить, что величины = s (хг) - 20
- Р(Хх | z (xf)) в силу (1.18) удовлетворяют условию М | х[ “ 1) = 0, т.е. ’’указания учителя” s (xf) совпадают с величиной Р (А\ | z (xf)) с точностью до условно центрированной помехи {£г} . С той же точностью процедура (1.20) аналогична процедуре Роббинса - Монро (1.17), а наличие помехи {lt} не сказывается на доказательстве сходимости Tt к т. В теоретическом плане полное решение задачи обучения состоит в уста- новлении условий, при которых система (после завершения процесса обуче- ния) приобретает способность производить высококачественную классифи- кацию предъявляемых ей входных сигналов. Для процедур (1.17), (1.20) такие условия обычно должны обеспечивать сходимость оценок rt к т в том или ином смысле. 1.1.7 °. Задача самообучения. В предыдущем пункте обучение в стохасти- ческом варианте задачи сводилось к построению последовательности {rt}, минимизирующей функционал (1.19). Процедуры построения оценок используют ’’указания учителя”. Оказывается, возможно аналогичным образом поставить задачу обучения, в которой необходимости в таких указаниях нет, а сам процесс обучения сводится к определению последова- тельности {rf} , минимизирующей функционал специального вида. Задача самообучения тесно связана с задачей автоматической классифи- кации и является обобщением последней на случай неизвестного распреде- ления, определяющего статистику показа классифицируемых сигналов. Поэтому до постановки задачи самообучения целесообразно описать задачу автоматической классификации. а) Автоматическая классификация входных сигналов. Содержательный смысл автоматической классификации состоит в построении правила, сопос- тавляющего каждой точке х множества X некоторый образ (класс). Подра- зумевается, что тонки, которым сопоставлен один и тот же класс, обладают некоторым общим свойством, и именно это свойство порождает образ. Таким свойством, например, может быть близость расположения точек к некоторому ’’центру”, и тогда понятие образа (класса) отвечает нашим представлениям о компактном расположении точек, принадлежащих тому или иному классу. Правило классификации может быть однозначным или детерминирован- ным (каждой точке х сопоставляется вполне определенный класс) либо недетерминированным (точке х сопоставляется набор функций, определя- ющих степень достоверности соответствия х каждому из классов). Будем предполагать, что число N классов фиксировано. Итак, правило классификации основано на введении функций Д1 (х),... .. ., Мдг (х) - степеней достоверности, обладающих свойствами N 2 дНх)=1. (1.21) k = 1 Каждая из функций цк (х) определяет образ (класс) как ’’размытое мно- жество”, если принимает значения не только 0 и 1. При такой интерпретации степеней достоверности детерминированная классификация осуществляется в том специальном случае, когда функции {д* (х)} являются характеристи- ческими (т.е. принимают лишь значения 0 и 1), т.е. в силу (1.21) каждой точке х € X однозначно сопоставлен образ, для которого дЛ (х)= 1. 21
Всякий способ классификации связан с ’’потерями”. Будем потери характеризовать с помощью "штрафных функций"qk (х, т), Л = 1,. . . , /V, зависящих от векторного параметра т = col (И1 \ , И^). Векторы т удобно интерпретировать как ’’центры классов”: в типичных случаях X = R и функции qk (х, т) возрастают при удалении х от центра соответствующего класса. Предполагая, что в X выделена о-алгебра подмножеств, на которых опре- делено распределение вероятностей F, можем вычислить средние потери классификации, определяемые набором д ( • ) = (д! (•),..., Дуу (•)) и зна- чениями центров классов: N W(r,fi) = f 2 qk(x, r)gk(x)F(dx). X k = 1 (1.22) Формальная постановка задачи автоматической классификации состоит в определении наборов т = col (И1 \ ., т(ЛГ)), Д (•) = (Д1 (•),..., Ддг ( •)) из условия минимума функционала (1.22) .Минимизация осуществляется в классе произвольных точек G Rz и функций рк (х), удовлетворяющих условиям (1.21). Функционал (1.22) допускает упрощение задачи: для фиксированного набора т экстремизация функционала осуществляется просто. Действитель- но, рассмотрим величину N ^(д)= 2 Qk(x,r)pk(x) (1.23) к = 1 при фиксированных х иг. При варьировании функций рк (х), удовлетворяю- щих (1.21), величина И'(д) пробегает выпуклую оболочку точек qk (х, г). Пусть s - индекс, s = s (х, т), для которого qs (х, т) = min qk (х, т). к Тогда, очевидно, min W(д)достигается на наборе д(), для которого ps (х) = 1, рк (х) = 0, к Ф 5. Таким образом, экстремальный набор д ( •) име- ет вид где (х, т) - характеристическая функция (х, т) = 1, .0, если к = s (х, т), если к Ф s (х, т). (1-24) Учет этого обстоятельства позволяет функционал (1.22) рассматривать только как функцию набора т центров классов N 2 qk(x,r)J^(x, r)F(Jx). (1.25) X к~ 1 Функционал (1.25) будем называть функционалом среднего риска в задаче самообучения. 22
Характеристические функции (1.24) определяют замкнутые множества Хк (г)» объединение которых совпадает сХ. Нам удобнее множества Хк (т) рассматривать как непересекающиеся, для этого условимся относить гра- ничные точки к множеству с меньшим индексом, т.е. ^*(T)=[ n {qk(x,r)< / < * < Q) <х, т) } ] П [ О {qk (х, т) <q, (х, т)} ]. / > fc (1.26) Значение функционала (1.25) от этого не изменится, но множества (1:26) уже образуют TV-разбиение X (т.е. Х{ (т) И Х{- (т) = ф, i j, и Х( (т) = X). i - 1 Итак, задача автоматической классификации в принятой постановке сводится к определению TV-разбиения пространств а X из условия минимиза- ции функционала (1.25). Отметим, что функционал (1.22) приводит к ’’чистым стратегиям” клас- сификации: оптимальный набор д ( • ) = (д i (•),..., ( • )) состоит из характеристических функций, что соответствует однозначной классифи- кации. Если вместо (1.22) принять функционал /V W (т, д) = f S qk (х, г) | цк (х) |z F (dx) х к = 1 при некотором Z =# 1, то оптимальная классификация может иметь вид ’смешанной стратегии”, т.е. не будет однозначной. б)Геометрическая интерпретация задачи автоматической классификации. Поясним смысл формально описанной выше задачи автоматической класси- фикации. Пусть X = Rz и gfc(x, 7) = |х-т(*)Г, (1.27) где 7 = col (И1 \ . . . , 7^), | х| - норма вектора х Разбиение ^1.26) относит тогда к множеству Хк (т) все точки х, которые находятся к т^ ближе, чем к любому из центров т'*' при s^k, т.е. разбиение (1.26) полностью опреде- ляется заданием векторов {т^} , s = 1,... ,7V. Интеграл f I х - т(*> |* F (dx) (T) определяет рассеяние точки x в множестве Xk (т), а функционал (1.25) имеет смысл суммарного рассеяния по всем множествам {Хк (т)} . Таким образом, задача автоматической классификации при функциях (1.27) состоит в определении центров {т^} , при которых суммарное рассеяние минимально. Искомый набор центров должен удовлетворять уравнению grad И7(т) = 0 , т = col (7^\ . . ., т^). (1.28) Нетрудно убедиться, что для функций (1.27) множества Хк (7), определяе- мые условиями (1.26), имеют вид многогранников, а центры т<*\ опреде- 23
ляемые из (1.28), совпадают с их ’’центрами тяжести”, т.е. т(л)=[Е{Хл(т)}]’1 S х F(dx). fc=l,...,M xk(r) причем центры тяжести соседних множеств находятся на прямой, ортого- нальной разделяющей множества грани. Приведенные соображения, относящиеся к функционалу (1.25), (1.27), отвечают интуитивному представлению о компактности разбиения множест- ва Xна ТУнепересекающихся классов. в)Связь задачи самообучения с рекуррентным оцениванием. К задаче само- обучения приходим в случае, если распределение вероятностей F неизвестно и воспользоваться уравнением (1.28) невозможно, но предполагается известной ’’обучающая” последовательность, порождаемая этим распре- делением. Для получения оценки rt неизвестного вектора т тогда можно восполь- зоваться рекуррентной процедурой, стохастически градиентной к функцио- налу (1.25). В данном случае имеем N тг+1=т> —7г 2 Aft(Tf)(xf)gradT<?fc (xt,Tt), (1.29) где через JXk (х) обозначена характеристическая функция множества Хк и { yt}- некоторая последовательность неотрицательных чисел. При N> 1 процедура (1.29) отличается от процедуры Роббинса - Монро наличием в ней характеристических функций, что осложняет исследование сходимости полученных оценок. Это усложнение связано еще и с обычной неединствен- ностью решений уравнения (1.28), причем далеко не каждое его решение доставляет минимум функционалу (1.25). Тем не менее, процедура (1.29) наследует многие особенности процедуры Роббинса - Монро, а при N = = 1 совпадает с ней. Таким образом, решение задачи обучения в принятой трактовке вновь свелось к установлению условий сходимости рекуррентной процедуры оце- нивания параметров — искомых ’’центров классов”. 1.1.8°. Идентификация динамического объекта. Предположим, что объект управления (ОУ) описывается в дискретном времени t = 1,2,... уравнением a$)yt = b(V)ut + vt. (130) Здесь yt - выход ОУ ; ut - вход ОУ (управляющее воздействие) ; vt - воз- мущающее воздействие (помеха) ; V - оператор сдвига на такт назад: Vуt = -yt - i, Vut -ut_. i; я (X) = 1 +ХД1 + ... + Xr ar, b (X) = . +Xr br, I ar I + I br I Ф 0; r - натуральное число (порядок разностного уравнения (1.30) ). Вещественные коэффициенты полиномов а (X), b (X) предполагают- ся неизвестными. Требуется по наблюдениям за входами { ut} и выходами {yt } оценить значения этих коэффициентов. Вводя обозначения 7 = COl(0j . . . . ,0Г, />!,... ,br), (1.31) Ф, = со!(- >7,.. . , -yt_r+iiut,. . . ,1О-г+1), 24
соотношение (1.30) перепишем в виде _г, + 1 =Ф,’ T + Uf + 1, (1.32) где Фг’т можно интерпретировать как полезный сигнал, линейно зависящий от неизвестного вектора параметров т. Этот сигнал наблюдается на фоне по- мехи. В такой интерпретации задача идентификации (задача восстановления либо оценивания параметра т) близка к задаче обнаружения сигнала (см. (1.5)), где роль неизвестного параметра играла скалярная величина 6. При определенных предположениях о стохастических свойствах помехи и управляющих воздействий задача идентификации допускает решение и это решение имеет вид рекуррентных соотношений, доставляющих оценки, сколь угодно близкие к значению неизвестного параметра йри неограни- ченном увеличении объема наблюдений. 1.1.9°. Синтез адаптивного управления динамическим объектом. В ряде приложений приходится решать задачу синтеза обратных связей для управ- ления объектом (1.30) в условиях, когда некоторые из его параметров (коэффициентов полиномов а(Х),Ь(Х)) неизвестны. Хотя, возможно, при известных значениях параметров ОУ задачу синтеза нужных управле- ний мы и можем решить, непосредственно воспользоваться этим результа- том синтеза невозможно, поскольку построенный закон формирования управлений может оказаться зависящим от неизвестного вектора пара- метров т. Естественной является идея о совмещении алгоритма иденти- фикации динамического объекта с построенным законом формирования управлений: использовать в этом законе вместо неизвестного вектора г текущую оценку тг, получаемую в процессе идентификации. Если такой способ позволяет обеспечить поставленную цель управления, то управляю- щую систему естественно назвать адаптивной по отношению к этой цели. (Кроме того, адаптивная система характеризуется классом адаптации - множеством возможных значений неизвестного параметра и классом по- мех, при которых описанный выше процесс управления обеспечивает выполнение цели управления.) Внешне рассматриваемая задача адаптивно- го управления совпадает с описанной в п. 1.1.8° задачей идентификации, и действительно, между ними имеется тесная связь. Однако, как известно, проблема идентификации замкнутых систем управления достаточно слож- на, поскольку процессы идентификации и управления в некотором смысле противоречивы: чем выше качество управления, тем обычно хуже идет процесс идентификации. Управления, формируемые обратными, связями, могут не обладать достаточным ’’разнообразием”, что не обеспечит эффек- тивности процесса идентификации. Поэтому задача адаптивного уп- равления отнюдь не исчерпывается задачей идентификации и далеко не всегда к ней сводится. 1.1.10° Отслеживание дрейфа экстремума нестационарного функцио- нала. Важной для приложений является следующая задача. Пусть Qt( т) - случайная функция времени t и случайного параметра т, принимающего значения из R^. Обозначим через qt(r) функцию регрессии <7г(т)=М{(?г(т)1т}, (1.33) где справа стоит условное среднее. Точку минимума qt(т) обозначим т*г = argmin qt(j) . (134) 25
Требуется по наблюдениям за случайными величинами Qt(r) (либо gradT(?r(r)),z =0, 1,, построить алгоритм оптимизации, определяющий последовательность {тг}, для которой (при t -*°°) в каком- либо смысле. Описанная задача отслеживания дрейфа экстремума возникает, например, в задаче адаптивного управления, если параметры объекта и показатель ка- чества управления изменяются во времени. Задача (1.34) является пред- метом рассмотрения в теории экстремальных систем управления и динами- ческих алгоритмов оптимизации. Успешное решение задачи отслеживания дрейфа экстремума связано с предположениями о характере дрейфа и стохастических свойств функции Qt(r) или ее градиента. Часто принимается, что изменение во времени экстремальной точки происходит по степенному закону (полиномиальный дрейф), т.е. определяется соотношением т = S aktk (1.35) fc = 0 с неизвестными (подлежащими оцениванию) коэффициентами ак. Возможны и другие законы дрейфа экстремума, определенные с точностью до конеч- ного набора неизвестных параметроз. § 1.2. БАЙЕСОВСКИЕ КРИТЕРИИ Решение адаптивных задач часто основано на достаточно детальном изу- чении соответствующих задач в условиях ’’полной информации”. В этом параграфе изучаются некоторые из оптимизационных задач, связанные с минимизацией функционала среднего риска в предположении, что необ- ходимые для вычисления функционала распределения известны. Получен- ные здесь результаты используются для решения задачи обучения (§ 2.1), самообучения (§ 2.2) и оптимального обнаружения сигнала (§ 2.3). 1.2.1°. Функционал среднего риска. Широкий класс задач математичес- кой статистики связан с минимизацией функционала, называемого средним риском. С достаточной для наших целей общностью такой функционал может быть введен следующим образом. Предположим, что в пространстве П элементарных событий выделено N N непересекающихся событий ,..., П^, П = U Пр Пусть х = х (со ) - с.в. со значениями в евклидовом пространстве Rz размерности / и х(П,) - образы событий П, при отображении х : H-*RZ. Конструкция, в рамках которой вводится функционал среднего риска, предназначена для ’’опти- мального” разбиения пространства Rz на N непересекающихся подмно- жеств в смысле соответствия этого разбиения событиям{х(П,)}. Уточним ха- рактер этого соответствия. Предположим, что в Rz выделено семейство множеств {АС/(О)/=ь кото- рое определяется параметром £ со значениями из некоторого множества Z, т.е. при каждом | G Z множества Xy(f), / = 1,2,. .., TV, являются ^раз- биением пространства Rz. Кроме того, предположим, что на множестве Rz X S заданы вещественные функции qj(x, = 1,2,..., /V, называемые 26
Лх(х) = весовыми. Введем функционал H'«) = /<2(x(co),Ot/P, (2.1) где Р — вероятностная мера, определенная на а-алгебре подмножеств (событий) пространства Q, N <20и)=Д (2.2) /у(х) - индикатор множества X : 1, если х Е X , О, если х (£ X. Разбиение {У,(£))/!I назовем байесовским {оптимальным в классеН), если параметр £ разбиения определен из условия минимума функциона- ла (2.1). В теории принятия решений весовые функции q^x, £) конкретизируют- ся, функционал (2.1) при этом имеет смысл средних потерь (среднего риска). Этого же названия мы будем придерживаться и в общем случае. Наименьшее в множестве Z значение функционала (2.1) иногда удобно интерпретировать как количественную характеристику качества аппрокси- мации множеств (х(П,)} Д с помощью семейства множеств {Х/(£)} 7= >. Сложность решения задачи байесовского разбиения пространства Rz за- висит от свойств весовых функций и семейства разбиений. Множество параметров Z может быть подмножеством конечномерного евклидова пространства и в этом случае минимум функционала среднего риска может быть найден с помощью известных методов анализа, основанных на иссле- довании стационарных точек функции W(£) векторного аргумента £. В других случаях Z - функциональное пространство, элементами которого являются функции, определенные на Rz. Эти функции обычно имеют смысл дискриминантных (разделяющих), так как с их помощью осуществля- ется реализация семейства разбиений {Xj($)h=i • Перейдем к описанию некоторых задач, связанных с функционалом среднего риска. 1.2.2°. Автоматическая классификация изображений. Под автоматичес- кой классификацией изображений понимают процедуру, которая по изме- ренным значениям признаков изображений (в качестве последних мо- гут выступать сигналы, стимулы, объекты произвольной природы) производила бы их классификацию, т.е. относила изображения к опре- деленным классам. Множество изображений удобно отождествить с пространством Q элементарных событий, а набор признаков х рассматри- вать как значение с.в.х(со)со значениями в Rz. Классами изображений в этом случае выступают события Qi,. . ., £2дг, образующие разбиение пространства П на N непересекающихся подмножеств (А-разбиение прост- ранства П). Белив Rz задано семейство {Х/Й)} Мразбиений, то процедуру клас- сификации принимают в следующей форме: при некотором фиксирован- ном £ 6 Z произвольное изображение со относится к /-му классу (иногда говорят, что принимается гипотеза со G Q,), если х(со) G Х,(£). Такой спо- 27
соб классификации может оказаться неудачным, если для выбранного па- раметра $ разбиение{А\(£)};=1 плохо соответствует набору множеств {х(Ц)}Д1 и, следовательно, в результате такой классификации порождает- ся большое число ошибок. Выбор подходящего параметра £, преследующий цель уменьшить число ошибок при классификации, связан с учетом как статистики распределения изображений по классам изображений, так и со значимостью тех или иных ошибок. Традиционный подход к за- даче классификации, учитывающий эти особенности, состоит в следую- щем. Обозначим через D€(x) шар радиуса е с центром в точке х Е Rzh пред- положим, что при любом х существуют пределы P(fi,lx)= lim P[{x(w)G£>e(x)} П Я,ЦР{х(и))еОе(х)}]’’. (2.3) Е-0 Величина Р(£2,1х) характеризует вероятность появления изображения / -го класса при фиксированном векторе признаков х и называется апостериор- ной вероятностью появления класса Ц для данного х. Предположим так- же, что задана матрица штрафов II II, элемент cif- которой обозначает потери, производимые при отнесении к классу Ц изображения из класса П/. Теперь можно вычислить средние потери по всем изображениям, если классификация будет производиться с помощью разбиения {Vz(^)}% j: они имеют вид (2.1) при N = 2 СОР(Ц 1х), (2.4) /-1 т.е, в рассматриваемом случае весовые функции от параметра £ не зави- сят. Если семейство {Х/О;)}^! соответствует всевозможным yV-разбиениям пространства Rz, то задача минимизации функционала (2.1), (2.4) решает- ся просто. Действительно, с учетом (2.4) функционал (2.1) можно записать в виде N N 2 - с0Р(Ц lx)l F(Jx), (2.5) /= 1 /= 1 где F - распределение вероятностей, порождаемое в Rzc.b.x(oj), т.е. F для любого борелевского множества А определяется соотношением F{4} = P{x(cj) ЕЛ}. Из (2.5) следует, что байесовское разбиение {Xj} определяется условиями N N Xs = {х : min 2 С;уР(Ц1х)= 2 с^Р(Ц1х)), (2.6) i /=1 /=1 X т.е. вектор х относится к множеству Xs, если величина 2 1х) , i= 1 i = 1,2,.. ., ЛУ, принимает наименьшее значение при / = s. Для определен- ности условимся, что граница множеств X, , Х{- при i < j относится к множеству Л', . Отметим, что в соответствии с формулами Байеса апо- 28
стериорные вероятности Р (О/1 х) могут быть представлены в виде PiP(x IQ.) Р(Ц- 1х) = ... ' , (2.7) Р(х) где Р/ = Р(ЯД р(х)= Ит е—О р{х(со)-еое(х)} ад (2.8) р(х I Slj) = Ит б—О Р[{х(ц)ед(х)}п »,] Pi Уе(х) Ие(х)- объем шара£)е(х) (предполагается, что написанные пределы су- ществуют при всех х Е R7). При этом р7 называется априорной вероятно- стью события Q7 (появления изображения /-го класса), р(х) —плотностью распределения изображений, р(х I Q7) - условной плотностью изображе- ний /-го класса. В теории статистических выводов функции (2.8) принимаются в качест- ве исходных (доопытных) данных, а функции (2.3) рассматриваются как результат ’’испытания”. Использование формул (2.7) для определения оптимального разбиения (2.6) в терминах априорных данных послужило поводом назвать рассмотренный выше критерий классификации байесов- ским. 1.2.3°. Автоматическая классификация при неизвестных апостериорных вероятностях. Рассмотренный в п. 1.2.2° байесовский критерий классифи- кации изображений основан на использовании апостериорных вероятнос- тей P(Q7 I х) и предполагает задание матрицы штрафов II с,7 II. В ряде слу- чаев можно поставить разумную задачу классификации и при отсутствии этих данных. Предположим, например, что известна лишь плотность р (х) распределения изображений и число АГ классов, которым могут принадле- жать изображения. Если множества x(Q7) в достаточной степени ’’раз- несены” и локализованы около некоторых ’’центров” в R*, то представ- ляется правдоподобным, Что исследование функции р(х> позволит опре- делить эти центры и организовать достаточно хорошую процедуру клас- сификации. Эти наводящие соображения формализуем следующим обра- зом. Пусть т(1>(£),. .. , tn(£) - некоторые точки в R7 , которые будем интер претировать как "центры "множеств Хх (£),. .. , XN(%). Функционал N И/(0= s f |x-r(0(^PP(x)dx (2.9) /=1 хдп имеет смысл суммы среднеквадратичных рассеяний точек х относительно центров множеств. В качестве оптимального А-разбиения пространства Rz выбирается то, для которого функционал (2.4) принимает наимень- шее в Z значение. Классификация изображений со при найденном разбие- НИИ{^({))Д1 производится, как и в п. 1.2.2°. Решение задачи минимиза- 29
ции функционала (2.4) упрощается, если Н (2.10) 2 Л. (*) = 1 при р(х)*0, /=1 1 (Jx() ~ индикатор множества Х)> т.е. параметр $ задается Мразбиением пространства Rz и набором N точек из Rz. Лемма 1.2.1.Предположим, что выполнены условия: 1. Плотность р (х) финитна и ограничена. 2. Весовые функции q^x, т) в функционале (2.1) зависят от конечно- мерного векторного параметра т9 т = со1(/! \ .. ., №), и при всех х Е Е Rz существует gradT qt(x, т). 3. Класс Z параметров £ (2.10) определяется множеством всевозмож- ных N-разбиений пространства Rz и всевозможными векторами т. Тогда для параметра (2.10), минимизирующего функционал N S f qf(x,r) р(х) dx, (2.11) /=1 Xi выполняются условия N 2 f gradT qi(x, т) р(х) dx = 09 (2.12) i= 1 х^ Xi = Xi(7)= П {qi(x,7) <qk(x, )} Л {<?,(x,r)<qk(x, t)}. (2.13) k>i k<i Лемма 1.2.1 показывает, что байесовское разбиение следует искать среди разбиений (2.13), параметризованных векторным параметром т, при этом для т должно выполняться (2.12). При qj(xf т)= 1х - уравнения (2.12) принимают вид piT(l> =Mh р.= f p(x)dx, Mt = f xp(x)dx, (2.14) Л' i X i т.е. / ) являются ’’центрами тяжести” множеств Xh а каждое множество Х,( т) определяется как множество точек х, ближайших к соответствую- щему ’’центру тяжести” Далее предполагается, что разбиение {Л\} порождается соотношениями (2.13), так что функционал (2.11) является функцией т. Условия (2.12) определяют при этом множество стационарных точек К'(т), среди кото- рых и следует искать оптимальный вектор т. Приведенная конструкция непосредственно обобщается на случай, когда с.в. х(со) не имеет плотности р(х). Функционал (2.11) принимает вид N W(t)= 2 / qi(x, т) F(dx), (2.15) '-1 */(т) где F - распределение вероятностей, порождаемое в Rz с.в. х(со ), TV-раз- биение {ХДт)) уже по определению описывается соотношениями (2.13). 30
Стационарные точки определяются теперь уравнением /V S f gradT б/,(х, т) F(Jx) = 0, (2.16) 1=1 */(т) аналогичным (2.12) (в предположении, разумеется, что весовые функции 7/(х, т) имеют градиент по т при всех х G Rz). 1.2.4°. Оптимальное обнаружение сигнала. Рассмотрим пример п. 1.1.3°, в котором по наблюдениям сигнала yt = 0sf+vt, z=l,2, (2.17) требуется оценить случайный параметр 0 , принимающий значение 1 при на- личии полезного сигнала и 0 при его отсутствии. Если статистические свойст- ва помехи {uj и полезного сигнала {$,} (в случае, когда полезный сигнал - случайный процесс) полностью известны, то этот пример вполне уклады- вается в схему автоматической классификации и позволяет уточнить неко- торые детали схемы. В данном варианте задачи классификации пространст- во элементарных событий Q разбивается на два подмножества: событие Qi = {0(cj)=1}, соответствующее наличию сигнала в наблюдениях у{\ и событие Qo ={0(со) = 0), соответствующее отсутствию сигнала. Поэтому говорят о двух альтернатив ной задаче, когда по наблюдениям сигнала уr, t = 1,2, ..., Г, следует определить, какое из двух возможных событий Qj или £20 имеет место. Ответить на этот вопрос с полной достоверностью, разумеется, нельзя, если помеха {vt}достаточно ‘интенсивна и если извест- ны лишь вероятностные связи между событиями и наблюдениями. Следо- вательно, можно говорить лишь о принятии одной из двух гипотез: гипо- тезы Нх а том, что произошло событие , или гипотезы //0 о том, что произошло событие £20- Пропуск сигнала (принятие гипотезы Яо, тогда как в действительности 0=1) и ложная тревога (принятие гипотезы//!, тогда как в действительности 0=0) могут иметь в зависимости от обста- новки совершенно резличные последствия. Эти последствия можно выра- зить некоторыми весовыми коэффициентами, приписываемыми каждому ошибочному решению и называемыми потерями (штрафами). Обозначая через сц штраф, выплачиваемый при принятии гипотезы //у, тогда как должна быть принята гипотеза можем определить апостериорный сред- ний риск, а с его помощью оптимальное (байесово) решение. В данном слу- чае в предположении <?оо =си = 0 Для функционала среднего риска полу- чим выражение = f lP(J2o 1Я) Сю Jy, (yT ) + \yl) Coi Jy\y, (yT )] dyf, (2.18) где £={/yt (•)}“* функциональный параметр, совпадающий с индикатором множества Уг. Само множество Yx является подмножеством множества наблюдений{У ~у?} где, напомним, у\ = col (у t,. .. ,уг) - данные наблю- дений за время Т. Множество Yv называется множеством принятия гипоте- зы Нх (если у{ £ У1, то гипотеза принимается, т.е. принимается реше- ние о наличии полезного сигнала), дополнительное к Y подмножество Yo = = Y\Yi называется множеством отвергания гипотезы Н ь или критическим множеством. Оптимальный параметр £, как следует из (2.18), определяет- ся сравнением величин P(£2i lyir)c01 и/^^о 1.У1 )<чо» соответствующий 31
индикатор множества может быть записан в виде Ijf ) сю (Я)=4 1 - sign .In 1Я Roi (2.19) Апостериорные вероятности P(Qi \уТ\ ),P(Sl0 I vf) посредством формул Байеса (2.7) могут быть выражены через условные плотности р(у? , р(У1Г 1$20) распределения наблюдений при наличии и при отсутствии полез- ного сигнала. При этом в задаче обнаружения возможны следующие ситуа- ции: а) сигнал{$г}~ известная функция времени; б) st = st(T) - детер- минированная функция случайного параметра г; в) {s,}- стационарный про-, цесс с известными статистическими характеристиками. Остановимся крат- ко на каждом из этих случаев, предполагая, что помеха{uf}принимает независимые значения и имеет плотность распределения pv (у)- а) Полезный сигнал - известная функция времени. При известном сигнале{$,}из (2.17) с учетом независимости значений помехи^,} находим р(Н1П,)= П pu0'r-M. РО’Г 1Яо)= И pu(yt). (2.20) Г=1 Г=1 В соответствии с (2.17) формулу (2.19) тогда можно представить в виде JY,(yT ) = М1 -sign(/\r-7)], . , ,т Pu(y,-st) . ?Ш))<01 Аг = In II --------- , 7 = In ----------- . Pv(yt) [1 -Р(П1)]с,о (2.21) (2.22) Формула (2.21) описывает работу оптимального приемника, в котором наиболее существенной операцией является вычисление величины Лу по данным наблюдения. Затем происходит сравнение статистики А/’ с порогом 7, зависящим от априорной вероятности р = Р (Qi)появления сигнала, а также от элементов матрицы штрафа, в результате чего принимается реше- ние о наличии либо отсутствии сигнала. При cOi = <*ю формула (2.21) опре- деляет работуидеального приемника по В.А. Котельникову. Возможны и другие критерии принятия решения (минимаксный, Ней- мана - Пирсона), они также приводят к формуле (2.21), но порог 7 мо- жет принимать другие значения. Поэтому говорят, что величина опре- деляет структуру оптимального приемника, порог 7 выбирается обыч- но из требований, налагаемых конкретной задачей. Структура оптимального приемника допускает дальнейшую детализа- цию, если принять, что плотность pv(y) - гауссовская 1 ( У2 1 Ри0,)=—— exp -_L . (2.23) х/2тгсг | 2а2] Тогда с учетом (2.22) получим 1 °° АГ=Л=— S ytsr О (2-24) 2 о2 А где Е = S s2t - энергия сигнала, и предполагается, что st = 0 вне интер- t = 32
вала [1, Г]. Таким образом, вычисление Л при фиксированной энергии сю сигнала сводится к определению взаимной корреляции X yt st прини- t - — «ю маемого сигнала{.уг}и полезного (ожидаемого) сигнала{$г). Эта корре- ляция вычисляется с помощью взаимно корреляционного устройства (ВКУ), которое является основным элементом оптимального обнаружи- теля (приемника). В общем случае ВКУ предназначено для вычисления свертки двух функций сю r(k)= S (2.25) f= — оо При оптимальном приеме известного сигнала роль {^}Играет принимае- мое колебание, a{sj- ожидаемый сигнал, отличный от нуля на ограни- ченном интервале времени. Если время прихода сигнала заранее известно, то, как было показано выше, достаточно определить г (0). Однако в большинстве случаев время прихода сигнала неизвестно, поэтому прихо- дится вычислять r(k) при различных значениях аргумента с последующим определением наибольшего значения r(k). В этом случае ВКУ можно реали- зовать в виде многоканального устройства. Построение многоканального устройства связано с техническими трудностями. Иногда удобно вычис- ление r(k) производить в ’’одноканальном” режиме, используя линейный фильтр сю zk= S h(k-t)yt (2.26) t~ — 00 с весовой функцией (импульсной характеристикой) h(t). Фильтр (2.26) иногда можно реализовать в виде схемы, которая по текущему ’’входу” ук формирует выходное значение z*. Сравнение (2.26) и (2.25) показы- вает что если весовую функцию h(t) фильтра выбрать в виде Л(О = СЧ_Г, (2.27) где С - некоторая постоянная, то выход zk фильтра будет связан с г (к) соотношением zk=Cr(k - г0). (2.28) Линейный фильтр (2.26) с весовой функций (2.27) называют согласован- ным фильтром. Согласованный фильтр является наилучшим в смысле получения на его выходе максимально возможного отношения сигнал/шум при заданных форме сигнала и интенсивности белошумной помехи на его входе. Действительно, при подале сигнала на вход линейного фильтра с импульсной характеристикой h(t) на его выходе формируется сигнал оо sk = L h(k~t)st. Если на вход фильтра поступает белошумная помеха (uj с дисперсией Оу, то дисперсия профильтрованной помехи будет равна о2 = Оц S hi . к= — °° 33
Отношение квадрата пикового значения сигнала (в момент к = /0) к мощ- ности помехи на выходе линейного фильтра равно I X h(t0 - t)sti2 Qb ы х • (2.29) оо о* S h(t)2 t = —ОО Согласно неравенству Буняковского I X h(t0-t)st\2 < X s2 S h(j-to)2= E S h(t)2, (2.30) (= _oo t—— °° f=_oo f=_oo где E - энергия сигнала. Из (2.30) следует, что <7вых 2 • (2.31) Равенство в (2.30) и (2.31) достигается лишь при выполнении (2.27), т.е. для согласованного фильтра, что и утверждалось. Таким образом, согласованный фильтр при заданных форме сигнала и уровне помехи обеспечивает максимально возможную вероятность правильного обнару- жения сигнала, если фиксирован уровень вероятности ложной тревоги. б) Полезный сигнал зависит от случайного параметра. На практи- ке редко полезный сигнал известен полностью. В большинстве случаев он зависит от неизвестных параметров, st = sf(r). При этом может воз- никнуть необходимость производить оценку значений параметра т, и некото- рые из подобных задач будут изучаться в дальнейшем. Часто, однако, неиз- вестный параметр можно интерпретировать как с.в. с известной функци- ей распределения. При фиксированном значении параметра т условная плотность р(у,Г1 ) является функцией параметра г, а при его случай- ном характере становится с.в. Производя усреднение функционала (2.18) по распределению, отвечающему с.в. т, приходим к новому функционалу среднего риска. Дальнейшее определение оптимального решения следует изложенной выше схеме. В частности, отношение правдоподобия принимает вид м ? PvCF/-s»(t)) т \Т=М П ---------—--------1/{(. ь=1 pu(yt) В качестве примера рассмотрим задачу обнаружения сигнала *к (т) = V(tk) cos(cj0^ + т), (2.32) (2.33) где{г*) - последовательность моментов времени наблюдений колебания У к , И (г) - амплитуда радиосигнала, соо- несущая частота и г - начальная фаза высокочастотного заполнения сигнала. Амплитуда К (г), отличная от нуля на конечном интервале времени, и несущая частота со0 предполагаются известными, тогда как фаза т — неизвестна. Будем предполагать, что т является с.в., равномерно распределенной на интервале [0, 2я]. Как обычно, несущая частота соо предполагается такрй,что энергия 34
сигнала £ = 2 V(tk)2 cos2 (w0 tk + т) A.= от фазы т не зависит. В этих предположениях усредненное по распределе нию с.в. т отношение правдоподобия (2.32) можно представить так: (/: \ 1 2 п z cos ( ф + 7) - —у) — / ехр -------------------dr. 2а2 / 2я о а2 где г = Vzi +гГ. =• arctg z2/z (, cos <о0 tk \ sin а>о / zcos ( ф + 7) zl,2 ~ *=- Функция (Z \ ~) = 2п f ехр О 2 Я называется модифицированной функцией Бесселя нулевого порядка; существуют таблицы для определения ее значений. Однако для построе- ния оптимального приемника в этих таблицах нет необходимости. Дейст- вительно, функция /0(z/o2) — монотонная по своему аргументу, поэтому оптимальный приемник должен вычислять величину z2 = z2+z2, где zlfz2 - напряжение на выходе двух ВКУ, управляемых двумя сдвинутыми на я/2 колебаниями частоты и амплитуды К(0- Следовательно, опти- мальный приемник для сигнала со случайной фазой состоит из двух ВКУ, двух квадраторов (устройств возведения в квадрат), сумматора и поро- гового устройства. Если кроме фазы случайной является и амплитуда сигнала,то структура оптимального приемника определяется аналогичным образом. в) Полезный сигнал ~ стационарный случайный процесс. Предполагая, что полезный сигнал {s^}— с.в., причем с.в. и vf- цент- рированы, некоррелированы и гауссовские, из (2.17) получим р(уГ Ifii) = 1(2я)гdet(«, + Я^рехр^СуГЖ+ЯД'уГ}, Р(уТ I «о) = 1(2 я)г det Я„Г’лехр {- !4(уГ )'Rvl у Г), где Rs = Ms{(s[)* ,Rv=Mu{(uf )*.Формула(2.19) принимает вид /у, (уГ) = I1 ~ signCx - *^(уГ )*ЯуГ )], (234) Сю 1 -Р(^1) Г det(flj + Rv) Ъ Coi P(^i) L det Rv J H = R^ (2.35) Отметим, что матрицу (2.35) удобно представить как результат решения 35
следующей системы линейных уравнений: (RS+RV)H = L, LRV=RS. Итак, в рассматриваемом случае оптимальное решение свелось, по-сущест- ву, к вычислению квадратичной формы (у?у нутдаННЫХ наблюдения, матрица Н этой квадратичной формы полностью определяется заданием ковариационных матриц полезного сигнала и помехи. Априорная вероят- ность р = P(^i) сигнала и величины штрафов вошли в постоянную 7, ко- торая играет роль порога в оптимальном правиле (2.34). Матрица Н опре- деляет структуру оптимального приемника. Если с.в. st, vt стохастически независимы и их распределения имеют гауссовские законы А (О, о^), А (О, о„) соответственно, то функция (2.34) допускает дальнейшую детализацию: 2/у,(уГ)= 1 - sign + In 1 + -^ - --------S у] \ ' а£(о* + о£) Т (2.36) т.е. оптимальная обработка сигнала сводится к вычислению эмпирической дисперсии данных наблюдения. § 1.3. ЭЛЕМЕНТЫ РЕГРЕССИОННОГО АНАЛИЗА Задача регрессионного анализа состоит в получении наилучшей аппрокси- мации одной с.в. с помощью семейства функций от другой с.в. Наилучшая аппроксимация понимается в смысле наименьших квадратов. Тем самым формально определение регрессии (наилучшей аппроксимации) сводится к минимизации функционала (2.1), (2.2) в специальном случае N = 1, Qi (*» £) = I f ~ /(1?) I2» где х = col (f, т?), f и т? - векторы некоторых ев- клидовых пространств R* и Rw,/( ) - отображение R"1 в R" и $ — пара- метр, определяющий отображение /( * ). Часто £ — конечномерный набор параметров; соответствующее семейст- во функций называется регрессионной моделью. Наиболее простой и распространенной является линейная регрессионная модель, когда за- висимость от параметров - линейная; вариант такой задачи рассмотрен в п. 1.1.5°. 1.3.1°. Наилучшая аппроксимация одной случайной величины с помощью другой. Пусть f и т? - произвольные с.в., принимающие значения соответ- ственно в R” и Rw, и пусть F - класс функций, отображающих Rw в R”. Требуется найти f£F, для которой Л/1?-/(т?)12 = min , (3.1) Z& F где min означает наименьшее в классе F значение написанного функцио- /е F нала и I • I — евклидова норма в R”. 36
Лемма L3.1. Если F - класс всех измеримых {борелевских) функций из R"1 в R”, то решение задачи (3.1) дается формулой Нц)=М{$\ц), (3.2) где М{£ ! rf) - условное {при условии ц) среднее с.в. f. Напомним, что с.в. №{$ | rf) является измеримой относительно а-алгеб- ры , порождаемой с.в. т/, и с точностью до эквивалентности определяет- ся соотношением И) <*₽ = f UP, А А где А - произвольное событие из . С.в. М{$ I т?) называется регрессией f по т]. а) Пример: модельная задача классификации изображений. Пусть прост- ранство ’’изображений” £2 представляет собой отрезок [0, 1] и является объединением двух классов: £2 j = [0, %) и £22 = (Й, 1]. Пусть х(со): £2 -> R1 - скалярный признак изображения со, принимающий значения x(w) = а, соЕ[0,7з), Ь, сов [1/з, 2/з), с, со Е р/з, 1 ], а, Ь, с — различные вещественные числа. Задача автоматической классификации изображений состоит в построе- нии правила, позволяющего по наблюдению х отнести соответствующее изображение со к одному из классов £2 j или £22. Если безошибочное от- несение со по результатам наблюдения за признаком х невозможно, то естественно строить правило, минимизирующее число ошибочных ответов. Построить такое правило можно следующим образом. Введем функцию s(co) = 1, со€[0, й), - 1, сое рл, 1], и предположим, что на борелевских подмножествах множества £2 определе- на вероятностная мера Р, определяющая статистику ’’показов” изображений х(со). Найдем наилучшую в среднеквадратичном смысле аппроксимацию функции s (со) с помощью семейства борелевских на R1 функций. Соглас- но лемме 1.2.1 наилучшая аппроксимация имеет вид f{x) = M{s | х). В дан- ном случае оптимальная функция f{x) может быть построена в ’’явном виде”. Имеем M{s\х=а} = [Р{х = а} ]’* f s(w)dP=l, (.х(со) = а) М{s |х = />} = [Р{х = д }]** J s(w)dP = { х(а>) = b} = ---------------------, (3.3) ₽17э,7э) М {$ |х =<?} = [Р{х = <?} ]* J s(w)dP=-l. = с) 37
Правило отнесения изображения к определенному классу (решающее пра- вило) естественно теперь выбрать следующим образом: если f(x(a>)) > О, то следует отнести со к классу Q j, в противном случае — к классу S2 2 • Сформулированное правило минимизирует вероятность ошибки распозна- вания, определяемую формулой р? = Р {f(x(cj)) s(a>) СО}. Приведенная схема построения оптимального решающего правила приме- нима и в случае многомерного пространства признаков, приводя и здесь к оптимальной (байесовой) процедуре классификации. 1.3.2°. Линейная регрессионная модель. Пусть требуется найти наилуч- шую в среднеквадратичном смысле аппроксимацию с.в. f с помощью ли- лейной функции от с.в. т?. Такая аппроксимация называется линейной ре- грессионной моделью (линейной регрессией). Векторный коэффициент а и матричный коэффициент Р модели определяются из условия минимума функционала J=M |f-a-0т?|2. (3.4) Вводя обозначения Мп)(ч -Мц)', нетрудно для а и 0 получить следующие формулы: a^Mt-R^R-^Мъ 0 = /?-*„. (3.5) Здесь, разумеется, предполагается, что матрица - неособая. Функция w=M{ + R^R'^in - Му) (3.6) называется линией регрессии. Матрица R^rj называется (матричной) ко- вариацией с.в. f и т] и часто обозначается как fifn =cov frf. (3.7) Матрица R соответственно называется ковариацией с.в. т] и часто обо- значается как Rn = Rnv =covt7t?’. (3.8) Очевидно, Rqq - симметричная неотрицательная матрица: > 0. Из (3.6) можно вычислить ковариацию с.в. w через ковариации с.в. f и 17. Имеем COV ИДС — R^q Rqq Rqq Rqri ~ И M\w Mw\2 ^SpR^R^R*^, где Sp - след соответствующей матрицы. Полезна столь же просто получае- мая формула cov(f w)(f - И’)’ =Rii - RfnRnlnRin- <3-9) Полученные формулы допускают ясную геометрическую интерпретацию. Из формулы (3.6) следует covh’tj* = cov £77*. (3.10) 38
Действительно, учитывая равенство Mw =М$, в силу (3.6) получим cov W17* = M(w - Mw) (77 - Mrf)* = = RfvR^M(n - Mri) (т? -Mri)* =R^ = cov . Введем обозначения f = f , 7? = 77 M77, w = w Mw для центрированных с.в. f, rj, w ив случае одинаковой'размерности с.в. 17, f обозначим через <т?,0 = (3.11) ’’скалярное произведение” этих с.в. Определение 1.3.1. Имеющие одинаковую размерность с.в. f и 77 назы- ваются ортогональными (некоррелированными), если < f, 17 > = 0. С.в. f и 77, не обязательно имеющие одинаковую размерность, назы- ваются строго ортогональными, если cov £77* = 0. Для центрированных с.в. f и 77, имеющих одинаковую размерность, в силу равенства < fj, f ) = Sp cov £77* из строгой ортогональности следует их некоррелированность. Соотношения (3.10) означают, что с.в. 77 и (f - w) строго ортогональны. По этой причине линейная регрессия (3.6) соответствует строго ортогональ- ной проекции f на 77. В случае с.в. < и 77 одинаковой размерности это соот- ветствует привычным геометрическим представлениям об ортогональном проектировании. а) Пример: линейная оптимальная оценка скалярной с.в. с помощью век- торной с.в. Пусть 77 = col (771, . . . , т7„), где 771 , . . . , т]п - линейно незави- симые центрированные с.в. Тогда наилучшая линейная аппроксимация центрированной с.в. f с помощью с.в. 771, .... т?л является, как было ска- зано, проекцией с.в. f на конечномерное линейное подпространство, натяну- тое на с.в. 771, .. . , г]п. Как известно, эта проекция вычисляется с помощью формулы < 771 , 77! > . . . <T?t,77n > 7? 1 w = Г 1 det <^,7?! > . . . <77л,7?л > V1 > • • • 7?и> Vn 0 где Г = Г (77f) - определитель Грама системы с.в. ти ,..., rin: Г(7?Г) = det . < 7?! , 77п > > . . . <77n7?ri> Полученную формулу для w можно рассматривать как конкретизацию формул (3.4), (3.5). Квадрат погрешности полученной оценки определяет- ся формулой (3.9) и в данном случае принимает вид Г(т?1, • • . ,77„) 39
б) Пример', конечномерный вариант разложения Карунена ~ Лоэва. Пусть на промежутке [- Tt Г] определен случайный центрированный про- цесс %t. Определим £ Г г = col (£_ • • • , £ т), и пусть R = ||Я^Г|| = = M^Lr(|Lr)* - ковариационная матрица с.в. Обозначим через собственные значения и собственные векторы матрицы/?: Я^ = Ха^а’ 1^1=1, к = - Т,. . . , Т. Определим с.в. х]к = рк (со) формулами т?Л=^Иг- (3.12) Тогда ~ R^k = т.е. с в- 'Пк ортогональны. Теперь нетрудно убедиться, что ЛШГГ- s n^fcl2=o, л - т т.е. = S Т,...,Т, (3.13) к = - Т где ^k(j) - компонента с номером t вектора <рк = col (#к (-Т), . .. .. . , ^к (Т)). Мы пришли к конечномерному варианту разложения Каруне- на - Лоэва произвольного случайного процесса £, в ряд по ’’собственным функциям” (/) ковариационной матрицы процесса При этом коэф- фициенты т?а разложения (3.13), определяемые формулами (3.12), явля- ются ортогональными с.в. Разложение (3.13) позволяет получить простую оценку погрешности линейной аппроксимации произвольной центрированной с.в. f с помощью набора с.в. £_г, . . . , Действительно, оптимальная линейная оценка w с.в. f имеет вид т и’ = S ск т[к, к = - Т где с.в. определяются формулами (3.12), а ск £ R^t)ok(ty R^t^Ml^t- t= - т Следовательно, т т 2 Л/If - м'|2 = M|f I2 - S S . к = - Т х - ~Т Практическое применение разложений Карунена - Лоэва затруднено слож- ностью вычисления собственных элементов и собственных значений матрицы R. в) Пример', линейная регрессия в модельной задаче классификации изо- бражений. В примере п. 1.3.1° регрессия M(s | х) принимала не более трех значений. Предполагая, что Р - лебегова мера на интервале [0, 1], из (3.3) находим M(s\x = л) = 1, M(s | х = b) = 0, M(s | х = с) = - 1. 40
Рассмотрим теперь линейную регрессионную модель w = а + (Lx. Коэффици- енты а, /3 модели вычисляются по формулам (3.5). В данном случае имеем 1 Ms = 0, Мх = — (а + b + с), 3 а — с 2 Rsx =—-—, Rxx = — [а2 + b2 + с2 - ab - ас - Ьс]. Следовательно, 1 1 « = -~Л;^(а-с)(а + /> + с), /3= у Rxx(a - с). Предположим, что а = 1, b ='0, с - - 1. Тогда а = 0, р = 1, т.е. имеем w = х. Таким образом, в данном частном случае линейная регрессия совпадает с М($ | х). При других значениях параметров а, Ь, с это, вообще говоря, не так. 1.3.3°. Регрессия в случае гауссовских случайных величин. Определен- ные выше понятия регрессии и линейной регрессии соотносятся примерно так же, как понятия функции и линейной функции. Как показывает послед- ний из примеров п. 1.3.2°, в ряде случаев регрессия может совпадать с ли- нейной регрессией. Однако линейная оценка не всегда приемлема. На- пример, пусть $п=е”п, и = 1,2,..., где с.в. v равномерно распределена на промежутке [—я, я]. Тогда линейная оценка с.в. по значениям п & fn, имеет вид 0, т.е. линейная регрессия %т по {£rt) в действительности не использует значений . В то же время для точной аппроксимации с.в. достаточно произвольной пары наблюдений и + |, поскольку и=(^+1Г*’)'"_*^=>иал s*+i)- Однако функция регрессии в данном случае является существенно нели- нейной. Для приложений важны случаи, когда регрессия является линейной. Такое обстоятельство заведомо имеет место для гауссовских с.в. Действи- тельно, справедливо следующее утверждение. Лемма 1.3.2. Если вектор col (f, 17) - гауссовский, то w = Af(f|T?), (ЗЛ4) где w определяется формулой (3.6), т.е. регрессия является строго ортого- нальной проекцией f на rj. Доказательство леммы основано на гом факте, что строго ортогональ- ные гауссовские величины стохастически независимы. В случае гауссовских с.в. условная ковариация с.в. f (при условии т?) оказывается не зависящей от случая. Действительно, воспользовавшись (3.14), имеем cov(ff |T?) = Af[(f-M(f | и)) (f - м (f| Tj))’ |1?] = » Af[(f - W) (f - и-)’ I П] = Af(f - w) (f - w)* «Rst - R^R-^n Rin (3.15) 41
Здесь было использовано свойство независимости с.в. (f — w) и т?, следую- щее из строгой ортогональности этих гауссовских величин. Из (3.15) по- лучаем следующий результат: Aflf vvl2 =Sp[/?ff - (3.16) 1.3.4°. Оценивание по конечному числу наблюдений. На практике часто вероятностные характеристики с.в. f, т? известны не полностью, но зато имеются выборочные значения этих с.в., которые фактически представляют собой наблюдаемые значения реализаций с.в. Оценка одной с.в. с помощью выборочных значений другой теперь также является с.в., и ее качество обыч- но характеризуется средним значением, дисперсией и т.д. Так, если имеется выборочная последовательность i?{ = col(т?,, . . . , rit) реализаций с.в. 17, то, например, в рамках линейной регрессионной модели реализации = = col (fс.в. J удобно представлять в виде f*=a + /tyA+u*, А: =1,2,..., Л (3 17) где невязка интерпретируется как ошибка наблюдения. Коэффициенты а, 0 линейной модели определяются из условия минимизации эмпирическо- го функционала Л = Г* 2 If*-а-рт}к I2 =Г* S |Ujfep, (3.I8) к = I к = 1 который в ряде случаев (например, если ’’ошибки наблюдения” стохасти- чески независимы и их вторые моменты ограничены) в силу закона боль- ших чисел при t 00 стремится к функционалу (2.4) в том или ином ве- роятностном смысле. Кроме регрессионных моделей (3.17) рассматривают также авторегрессионные модели i as£t-s = ut (3.19) s - О и обобщенные регрессионные модели % S bsrjt_s + vt, t^r+\......T + r+1, (3.20) 5- 0 5 = 0 где uf - вектор помех, коэффициенты моделей (3.19), (3.20) также опре- т+ г + I деляются из условия минимизации функционала T~l S |и*|2, где к =г ♦ 1 Т характеризует объем данных наблюдения. Модель (3.19) возникает, когда пытаются определить линейное уравнение, которому удовлетворяет процесс frr++/ + 1, модель (3.20) используется для описания линейного объекта, на вход которого поступают с.в. r]t (управляющие или задающие воздейст- вия), а на выходе наблюдаются с.в. Далее в этом параграфе основное внимание будет уделено линейной регрессионной модели. Итак, пусть наблюдаегся вектор сигналов у = у{ = col О'ь ... , yt), являющийся функцией входных воздействий (управляющих, задающих и возмущающих), помех в канале измерения и некоторого векторного па- 42
раметра т, т.е. Уи~УЬ,и,т), (3.21) где v обозначает совокупность входных воздействий в момент времени 5, S = 1, . . . , t. Задача состоит в том, чтобы по значениям вектора у = получить ’’хо- рошую” оценку т = тг вектора т. С этой целью используется теоретически предсказываемый выходной сигнал w = col w{, т.е. выход принятой модели, который зависит от векто- ра оценок т. Функциональная зависимость w от т может быть выбрана различными способами. Простейшей является линейная модель, когда w = Фт, (3.22) где матрица Ф, определяемая входными воздействиями, предполагается полностью известной. Определение 1.3.2. а) Оценка т называется линейной, если она имеет вид ? = 0', (3.23) где Q - некоторая матрица коэффициентов. б) Оценка т называется несмещенной, если Л/т = т. (3.24) в) Последовательность оценок т7 называется состоятельной, если lim Р (| Tt - т\2 >е) = 0 при любом е > 0, и сильно состоятельной, если t —» оо lim Tt = т с вероятностью 1. Г -► оо Обозначим через е невязку (ошибку оценивания) у - w (3.25) и с ее помощью введем функционал потерь А А У(т) = е*Ле = |е|* , (3.26) где R — неотрицательная матрица весовых коэффициентов. Учитывая (3.22), находим оптимальную (в смысле функционала (3.26)) оценку ^(Ф’ЯФ^Ф’Яу. (3.27) Матрица Ф*ЯФ при этом предполагается невырожденной. Опишем эвристический прием получения оценки (3.27). Для этого представим^ в виде _у = Фт + и, (3.28) где и - невязка с.в. у и Фт, которую удобно трактовать как помеху наблю- дения линейной по т функции Фт. Умножая обе части соотношения (3.28) слева на Ф R и разрешая полученное равенство относительно т, получим т = (Ф’ЯФ)"1 Ф*Ry - (Ф*ЯФ) 1 Ф*Ди. (3.29) Поскольку второе слагаемое в правой части (3.29) не наблюдаемо (зависит от помехи и), естественно первое слагаемое назвать оценкой т векторного 43
параметра т, что приводит к (3.27). Попутно установлена связь между век- тором т, его оценкой т и помехой v: 7 = 7-(Ф*/?Ф)'1Ф*/?и. (3.30) Формула (3.30) справедлива при любой природе помехи и. Если теперь предположить, что М(у | Ф) = 0, то из (3.30) следует, что оценка (3.27) является несмещенной. При этом же предположении нетрудно получить формулу cov (тт* I Ф) = М {(т - т) (т - ?)* I Ф} = QRVQ*, где Rv-M{vv* I Ф} , 0 = (Ф*/?Ф)‘,Ф*/?. (3.31) Отсюда, в частности, можно вычислить условную (при условии Ф) диспер- сию оценки т: М{|7-7|2 |Ф} = 5р0Яи2‘- В зависимости от выбора матрицы R весовых коэффициентов в (3.26) формула (3.27) определяет различные оценки. а) Оценки МНК. Оценки МНК получаются при R-IJ- единичная матри- ца, и имеют вид т = (Ф*Ф)"1Ф*>у, (3-32) cov(rr* | Ф) = (Ф*Ф)-1 Ф*/?иФ(Ф*Ф)"1. Если входные сигналы подобраны так, что выполнено Ф*Ф = /, то т = Ф*>>, COV (77* | Ф) = Ф*/?иФ. б) Марковские оценки (оценки обобщенного МНК). Если выбрать R = = R J1, то приходим к марковским оценкам ^(Ф’Я^ФПФ**;1^ cov(77* |Ф) = (Ф*Л;1Ф)'1. (3.33) Если число t наблюдений неограниченно возрастает и при этом 5р(Ф*Л^1Ф)“1 -*0, то условная дисперсия оценок т стремится к нулю и, следовательно, оценки т = ft являются состоятельными. в) Эффективность марковских оценок. Марковские оценки обладают специальным свойством эффективности, определяемым следующим обра- зом. Пусть 7 - линейная оценка вида (3.27) при произвольной матрице/?. Лемма 1.3.3. Справедливо неравенство COV (77* | Ф) < COV (77* | Ф), (3.34) где т - марковская оценка, и неравенство понимается в смысле соответ- ствующих квадратичных форм. Неравенство (3.34) показывает, что марковские оценки обеспечивают наименьшую дисперсию в классе оценок (3.27). г) Пример , оценивание величины постоянного сигнала на фоне помехи. Вернемся к задаче оценивания величины постоянного сигнала п. 1.1.1°, предполагая центрированность и стохастическую независимость помехи {MVf -0, MvtVf = nJ. Соотношение (1.1) запишем в виде (3.28), где у = у{ - вектор наблюдаемых величин, v = - вектор помехи и Ф - одно- 44
столбцовая матрица (вектор) с единичными компонентами. Согласно (332) оценка МНК принимает вид (1.3) , поскольку в данном случае Ф*Ф = t = t, Ф*у= S у^. Дисперсия с.в. т = тг вычисляется согласно второй из к = I формул (3.32) и имеет вид о2 = М |т - т( |2 = Г-1о2, т.е. оценки (1.3) со- стоятельны. Марковская оценка (формула (3.33)) в данном случае дает тот же результат, что является следствием некоррелированности с.в. vt. Отметим, что выше использовалось свойство несмещенности оценок т, которое явилось следствием предположения об условной (при условии Ф) центрированности помехи и. При статистической зависимости между Ф и и, как это имеет место, например, в задаче идентификации динамических объектов, получаемые оценки оказываются смещенными, что затрудняет применение описанного МНК. § 1.4. ЭЛЕМЕНТЫ ТЕОРИИ ОЦЕНИВАНИЯ В рамках теории оценивания основным является вопрос о состоятель- ности, эффективности и асимптотической эффективности оценок. Важней- шими методами получения оценок являются байесовский метод и метод максимума правдоподобия (ММП). В последние годы широкое признание получили рекуррентные реализации этих методов, в частности, метод стохастической аппроксимации. Ниже кратко обсуждаются эти и некоторые другие методы оценивания. 1.4.1°. Байесовские оценки. Марковские оценки и оценки МНК обладают тем преимуществом, что требуют незначительной априорной информа- ции. Однако в зависимости от точки зрения достоинства МНК могут превра- титься в недостатки. Так, например, если имеется априорная информация о возможных значениях оцениваемых параметров, то интуитивно ясно, что учет этой информации должен позволить улучшить оценку. При использовании рекуррентных модификаций МНК можно в настраи- ваемых моделях устанавливать начальные значения параметров в соответ- ствии с априорными знаниями и предположениями. При этом, однако, не удается достаточно просто ввести в схему оценивания степень достовер- ности этих значений. Именно в таких ситуациях оказывается полезным байесовский подход к задаче оценивания. Существенным моментом байесовской процедуры оценивания парамет- ров является определение апостериорной плотности р(т|х) условного распределения параметра т относительно наблюдений х. В этой плотности заключена вся информация, представляющая интерес для экспериментато- ра. Зная р(т | х), экспериментатор может решить, какую оценку т считать наилучшей. Представление р(т| х) в виде, удобном для принятия решения о выборе оценки, оказывается делом не простым. Обычно наилучшая оцен- ка определяется выбором функции штрафа (риска, потерь). Этот выбор более или менее произволен, только в редких случаях он диктуется самой постановкой задачи. Функционал среднего риска в задаче оценивания можно ввести с по- мощью конструкции, изложенной в п. 1.2.1°. Именно, предположим, что оцениваемый параметр т является с.в., т = т(со), принимающей лишь конеч- 45
ное число Означений 7( 1 \ . .. , 7(/V), и пусть = {со: т(со)=т(/0. Наблюдается значение с.в. х = т + и, где и - ’’помеха наблюдения”. В прост- ранстве R7 значений х требуется осуществить /V-разбиение, которое наилуч- шим образом осуществляло бы аппроксимацию с.в. т. Если задана матрица штрафов ||ci7 ||, то функционал среднего риска имеет вид (2.5). Байесовс- кое разбиение {Xs} определяется условиями (2.6). Приписывая параметру т значение , если х £ Xs, убеждаемся, что оптимальная оценка т- т(х) может быть получена из условия минимума функционала А /V W(r) = 2 g(r, lx), (4.1) где р(т^ | х) = P(&j I х) и #(т, т(/~ cif , если параметру т приписы- вается значение Функционал (4.1) называют условным средн им рис- ком. Его наименьшее значение ищется во множестве \ . . . , т<Л 0 зна- чений с.в. т(со). Приведенная конструкция непосредственно обобщается на случай, когда с.в. т может быть произвольной. Функционал условного среднего риска в этом случае принимает вид W(t) = f g(r, т)р(т | х) Jr, (4.2) и функция g(r, т) штрафов предполагается определенной при всех значе- ниях т, т. Минимизация функционала (4.2) приводит к байесовской оценке Л'- т(х) = argrnin W(7) как функции произведенных наблюдений х. Чаще т всего рассматриваются следующие функции штрафа. 1. Квадратичная функция: g(r, т) = (7 - т)*R(t ~t),R~ положитель- ная весовая матрица. В этом случае т(х) = f тр(т I х) dr, (4.3) т.е. наилучшая оценка представляет ес&ыл условное среднее. 2. Абсолютная величина уклонения: g(7, 7) =С| 7 71 , С - постоянная. Соответствующая оценка ?(х) является медианой плотности р(т\ х), т.е. удовлетворяет условию , т т(х) J ;---г—. Р (г I х) dr = 0. I Т т(х) I 3. Наиболее вероятное значение. В этом случае g (т, т) = - 6 (т - т), т(х) = = argmaxp(r| х), т е. наилучшая оценка является модой условного рас- т пределения. Для симметричных унимодальных плотностей распределения р (71 х) все эти оценки совпадают. а) Пример, оценивание векторного параметра полезного сигнала. Для пояснения изложенной схемы оценивания рассмотрим задачу оценивания векторного параметра т по наблюдениям величины у = + (4.4) где векторные с.в. т и и предполагаются стохастически независимыми с 46
нормальными законами распределения N(Mr,RT), соответствен- но, Ф - известная матрица. Требуется на основе наблюдения у оценить зна- чение т. Плотность распределения с.в. т, отвечающая закону N(Mt, Rt) , называется априорной, (доопытной), плотность распределения р(т\у) - апостериорной. Из соотношения (4.4) следует, что у является гауссовской с.в., с пара- метрами Му = ФЛ/т, covyy* = ф/?тф* + причем плотность I т) - гауссовская с параметрами М(у | т) = Фт, coV(j>y* \т)=М[(у Фт) (у Фт)* | т] =RV) т.е. р(у\ т) = pv(y - Фт), гДе Pv(y) - плотность распределения с.в. и. Согласно формуле Байеса имеем р(т) Р(т|/) = р(у |т) ——- , р(у) р(у) играет здесь роль нормировочного множителя, поскольку /р(т| у) dr = 1. Итак, р(т\ у) - [p(y)]~l p(r)pv(y - Фт) и, следователь- но, в случае функции штрафов g(r, т) = I т - т |2 приходим к оценке т(у) = [р(у)Г1 Jtp(t)pv(v - Фт) dT, (4.5) полученной как функции наблюдений у. Вычисление оценки т(^) по формуле (4.5) довольно утомительно. Оно значительно упростится, если воспользоваться следующими свойствами плотности распределения: f (х - Mx)p(x)dx = О, Jp(x)dx - 1. Поэтому при интегрировании по т достаточно выделить лишь полный квадрат по г в экспоненте функции р(т\у) = р(т)р„(у - Фт) (рСу)Г‘- Имеем 1 , , - — {(т - Мт) R~l (т - Мт) + + (у - Фт)‘лу (у - Фт) - (у - ФМт)‘(Ф/?ТФ* +/?„)* (у - ФМт)} = = - у {(т - а)’ + Ф‘л;‘ Ф) (Т а) + ... }, где a = (Rr‘* +Ф*Л’'Ф)'' (Л'1 Мт + Ф* R’1 у) и многоточием отмечены члены, не зависящие от т. Следовательно, т(у) = /тр(т1у)<1т = = f (т - а) р(т I у) dr + a f р(т I у) dT = а, т.е. т(л) = (Л;* +Ф’/?-,фГ’ (R^* Мт + Ф* R„'у). (4.6) Рассмотрим предельные случаи, предполагая, что т и Ф — скалярные величины. 1. Пусть Ry > О, RT = 0. Тогда т(у) -Мт. Здесь нет никакой неопреде- ленности относительно т и произвольные с ошибками наблюдения (измере- ния) , естественно, не могут уточнить информацию. 2. Пусть Rv = о2, RT >0, Оу -> 0. Тогда (при <&*RV<& Ф 0) ?(>») = = Ф*у/1 Ф | 2. В этом случае при точных наблюдениях удается получить точную оценку. 47
В общей ситуации Rv * 0,Ят 0 и для построения оценки используется как априорная информация, так и данные наблюдений. Применим полученный результат к примеру п. 1.1.1°, предполагая, что иг, т - скалярные с.в., vt — /V(0, Оу ), т ~~ N(Mt9 о} ). Тогда в обозначениях этого примера _у-^1 = со1(.у1,... , v,), u = uf, Ф = (1, ..., 1), и формула (2.6) принимает вид ?(Я) = (<^2 +'«й2) ’ (От2Мт + £ Оу2ук). к ~ О При t °° полученная оптимальная (байесовская) оценка совпадает с оцен- кой МНК (см. п. 1.3.4°, г), При конечных t оценка зависит от априорных данных Мт, от. 1.4.2°. Оптимальные оценки в симметричном случае. В п. 1.4.1° уже упоминалось, что различные функции штрафа могут приводить к одним и тем же оптимальным оценкам. Это обстоятельство важно для приложений, так как избавляет от необходимости обосновывать выбор функции штрафа. Условия, при которых указанный факт имеет место, можно сформули- ровать в следующей форме. Лемма 1.4.1. Предположим, что функция штрафа g(r, т) имеет вид g(r,T)=g(T -т), (4.7) где g(r) - симметричная относительно точки т = О дифференцируемая функция,удовлетворяющая при произвольных т >т" условию [grad g(r')] * (г" - г') < g(r") - g(r’) (4.8) (т.е. g(r) - выпуклая функция). Предположим также, что апостериорная плотность р(т\ к) симметрична относительно некоторой точки т = т(х), т.е. р(т(х) + т | х) = р(т(х) - т | х) для произвольного вектора т. Тогда т(х) = arg min / g(r - т)р(т I х) Jr = т(х). (4.9) т Лемма показывает, что при весьма широких предположениях относи- тельно g(r, т) и р(т\ х) байесова оценка не зависит от функции штрафа и совпадает с точкой симметрии апостериорной плотности распределе- ния. 1.4.3°. Метод максимума правдоподобия. В условиях леммы 1.4.1 опти- мальная оценка т = т(у) при наблюдении у не зависит от детального вида функции штрафа и апостериорной плотности. Для многих встречающихся в приложениях распределений точка т(у) является точкой максимума апостериорной плотности р(т | р). Это замечание указывает на достаточно универсальный способ нахождения оптимальных оценок, а именно, из усло- вия максимизации апостериорной плотности вероятности для оцениваемых параметров. 48
В силу формулы Байеса соотношение тахр(т |.у) = р(т(у)1у) т эквивалентно соотношению maxptr I т)р(т)=р(у I т(у)) р(т(у)), (4.10) т где р(т) - априорная плотность распределения параметра т и р(у | т) — условная плотность распределения с.в. у. При достаточно высокой инфор- мативности данных наблюдения^ и при отсутствии каких-либо специфичес- ких ограничений на взаимосвязь компонент вектора т априорная статисти- ка р(т) слабо влияет на структуру и вид оптимального решения. Поэтому уравнение (4.10) • может быть заменено более простым уравнением для приближенного определения оптимальной оценки Р(У |т(м)) = п)ахр(м |т). (4.11) т Интуитивное обоснование разумности получения оценок из соотношения (4.11) состоит в том, что в качестве оценки выбирается то значение пара- метра, для которого появление выборки у происходит с наибольшей ве- роятностью. Обозначим L(y, т) = р(у I т), чтобы подчеркнуть, что у - данные наблю- дения - фиксированы, а переменная т - свободна. Функция L (у, т) назы- вается функцией правдоподобия и играет важную роль в различных разде- лах математической статистики. При гладкой зависимости L от т необходи- мое условие выполнения соотношения (4.11) имеет вид gradT In L (у, т) = 0. (4.12) Решения уравнения (4.12) называются оценками максимального правдо- подобия. Сам метод, основанный на получении оценок как решений уравне- ния (4.12), получил название метода максимума (максимального) правдо- подобия (ММП). а) Случай независимых наблюдений. Пусть у = у{ - совокупность неза- висимых наблюдений yi, ... , yt, каждое из которых определяется услов- ной плотностью р(у I т»), зависящей от параметра т». Тогда £(Л1,т) = П p(yk I г). к = I В вычислительном отношении часто удобнее рассматривать функцию In L(y, т). Функция 1 ‘ Lt(r) =----S InpO^lr) (4.13) t к = 1 является оценкой величины -Му In р О' | т). При достаточно общих усло- виях (см. ниже лемму 1.4.3 стр. 54) в силу закона больших чисел lim Lt(r) = -Му lnp(j 1т) = -Jlnp(y | т) - р(у \ rjdy. (4.14) t °° 49
Поэтому естественно ожидать, что (при некоторых условиях гладкости р(у\ т) по т) значение тг, минимизирующее функционал !г(т), будет близко к значению, минимизирующему функционал J(t) = - Му in р(у | т). (4.15) Нетрудно убедиться, что истинное значение г* доставляет минимум функ- ционалу (4.15). Действительно, в силу выпуклости логарифмической функции и неравенства Йенсена имеем р(у I т) •/(7) J(7.) = - Му 1П ——----- > Р\У 17.) р(у I т) > - In Му ——-—- = - In $р(у | 7) dy - О, р(у I 7.) причем равенство достигается, если только р(у | т) =p(yl тш) для почти всех у. Приведенные соображения указывают на путь возможного изуче- ния полезных свойств оценок ММП. Действительно, если функционал J (т) дифференцируем, то истинное значение параметра должно находиться среди решений т уравнения JgradT [In р(у | т)] р(у I г.) dy =0. (4.16) Это уравнение имеет вид уравнения регрессии и для его решения можно воспользоваться, например, процедурой Роббинса - Монро (см. ниже п. 1.4.6°) Tr+i =Tt + T'rSra^r lnPOr I Tt), (4.17) где - подходящим образом выбираемая последовательность неотрица- тельных чисел и yt - с.в. с плотностью распределения р(у\ г*). Ис- пользование алгоритма (4.17) предполагает, разумеется, знание величины gradT In p(yt | Tt) на каждом шаге алгоритма. б) Пример', выделение постоянного сигнала на фоне помехи. Вернемся к примеру п. 1.1.1° предполагая помеху vt гауссовской, vt ~~/V(0, о„). Имеем t t Цу.т) = П р(ук\т) = П ри(ук-т), к - I к - 1 1п£(_у, г) = С - —-у- X Сп ~ 7)2. 2ol fc=i Составляя уравнение (4.12), находим Л 1 г 7,=--- X ук, t * = 1 т.е. в данном случае оценка ММП совпадает с оценкой МНК (см. п. 1.3.4°). 1.4.4°. Достижимая точность оценивания. Оценка для точности оценива ния по ММП в терминах дисперсии и ковариационных матриц может быть получена различными способами. Воспользуемся одним из них. Пусть!(^, т)~ функция правдоподобия, у =у{ = со1Суь... ,yt), причем f L(y, r)dy = l. (4.18) 50
Предполагая гладкость по т функции правдоподобия, находим JgradT L(y, т) dy = О, или J(gradT [In L (у, r)])*L(y, r)dy = Af(gradT InZ)* =0. (4.19) Дифференцируя еще раз по т (градиент берется по элементам строк), по- лучим матричное равенство f {gradT [(gradT In Z)*]Z + (gradT In L) (gradT In Z)*L} dy = 0, или M gradT(gradT In Z)* = - Af(gradT In L) (gradT In Z)*. (4.20) Пусть теперь т = т(у) - некоторая оценка вектора т, Мт = / т(у) L(у, r)dy = T + Х(т) = /(т), (4.21) где Х(т) - возможное смещение оценки. Дифференцируя (4.21), получим fr(y) [gradTlnZO, 7)fZ(>, T)dy=I + grad [Х(т)]*. (4.22) Здесь grad[X(T)]* - матрица, составленная из градиентов компонент вектор-строки [Х(т) j *, / - единичная матрица соответствующей размер- ности. Из (4.22) с учетом (4.18), (4.19) находим [gradT lnL]*Ldy = Mgrad [X(t)J*. (4.23) Лемма 1.4.2. Пусть функция правдоподобия L(y, т) такова, что матри- ца (называемая информационной матрицей Фишера) А (т) = f [gradT In Z] [gradr In Z] * Z(j’, r)dy = = - My gradT [gradT In L(y, t)]* (4.24) существует и невырожденна. Тогда для матрицы ковариаций R = М[т(у) - f(r)] p(j) - ф(т)Г (4.25) справедливо неравенство R> (! + %&& [Х(т)]*) Л"1^) (/ + grad [Х(т)]*)*. (4.26) В частности, для несмещенной оценки т(у) (т.е. при /(т) = т) ее дисперсия удовлетворяет неравенству М I тО) - т |2 >8рЛ“1(т). (4.27) Неравенство (4.26), понимаемое, как обычно, в смысле неравенства для квадратичных форм, называется неравенством Крамера - Рао. Оно превращается в равенство, лишь если выполняется gradT In L(y, i) = p(r) [f(y) -/(t)J, (4.28) где р(т) - скалярная функция, не зависящая от Определение 1.4.1. Несмещенная оценка т= т(у) называется эффектив- ной, если неравенство (4.26) превращается в равенство, т.е. если выполня- ется (4.28). 51
Последовательность оценок Tt называется состоятельной, если Tt т при г -*<» по вероятности, и сильно состоятельной, если сходимость имеет место с вероятностью 1. Оценка т(у) называется достаточной, если P(v I т) =£(?(>’), т)Я(у). Если т( v) - эффективная оценка, то из равенства (4.28) при /(т) = т сле- дует, что уравнение правдоподобия имеет единственное решение и это ре- шение совпадает с т(>’). Если существует достаточная оценка т(у), то L (у, т) = g(j(y), т)Н(у) и, следовательно, т удовлетворяет уравнению gradT g(r, т) = 0, откуда следует, что любое решение уравнения правдопо- добия является функцией достаточной статистики т( у). В том случае, когда у = у{ = col (yt, . . . , yt) и с.в. ук независимы и распределены одинаково, информационная матрица Фишера At(r) соглас- но (4.24) имеет вид ЛДт) = /Л1(т), (4.29) где Л^т) = Му [gradT lnp(jl |т)] [gradT lnp(Pj I т)] *. Следовательно, для корреляционной матрицы эффективной оценки получаем формулу M(rt - т) (rt - т)‘ = —А Г1 (г), t из которой следует состоятельность оценок тг В общем случае, если матрица z'1 At(r) предельно невырожденна, т.е. lim г~1Лг(т)>0, (4.30) t -* оо то асимптотически эффективная оценка является состоятельной. а) Пример , оценивание параметра сигнала при гауссовской помехе наблю- дения. Пусть наблюдается скалярная с.в. yt вида + А'=1,2,...,г, где векторные с.в. {Фк} стохастически независимы от гауссовских с.в. {vk}, т — векторный параметр полезного сигнала. Вводя векторы у =у{, v = yf и матрицу Ф* - (Ф|, . .., Фг), можем записать у = Фт + и. Тогда In L (у, т) = 1 * 1 - С —— (у - Фт) Rv (у - Фт), где С - нормировочная постоянная, не зависящая от вектора наблюдений у и вектора параметров т, Rv = = Mv{ (v{)*. Имеем grad т In L (у, т) = Ф* R "1 (у - Фт), gradT [gradт In L(y, т)]* = - <t>*R~l<t>. В соответствии с (4.24) информационная матрица Фишера не зависит явно от т и имеет вид А =ф*я;1ф. 52
В данном случае оценка ММП, как следует из уравнения правдоподобия О - Фт) =0, совпадает с марковской оценкой, а обращение инфор- мационной матрицы Фишера совпадает с условной ковариацией марковс- кой оценки (см. (3.33)). Для марковской оценки неравенство Крамера - Рао (4.26) в силу ее несмещенности превращается в равенство и имеет вид второй из формул (3.33). В лемме 1.3.3 (стр. 44) уже отмечалась эффективность (в смысле минимума дисперсии) марковских оценок в классе линейных оценок вида (3.27). Неравенство Крамера - Рао показывает, что при гауссовской поме- хе наблюдения марковские оценки являются эффективными в классе несмещенных оценок, являющихся произвольными функциями данных наблюдения. Предположим теперь, что Mvtvs = btso^. Тогда для матрицы Jt - t ~'А получим формулу Л = а’2 — £ ФЖ- (431) t s = I Матрицу J t также будем называть информационной, так как она несущест- венно отличается от матрицы Фишера. Если матрица Jt предельно невырож- денна, т.е. lim Jt>0 (4.32) t -> оо с вероятностью 1, то из второй формулы (3.33) получаем lim cov(т\т* | Ф{) = 0 t — оо с вероятностью 1 и, следовательно, оценки тг сильно состоятельны. Отме- тим, что в приведенных рассуждениях существенно использовалось предпо- ложение о независимости с.в. {Ф^} и {v^} в совокупности. Если yt — вы- ход динамического объекта и Фг - вектор предшествующих состояний и управлений, то такая независимость не имеет места и установление состоя- тельности оценок ММП требует дополнительных усилий. 1.4.5°. Метод эмпирического функционала. Вернемся вновь к задаче минимизации функционала (2.1) среднего риска. Ограничимся рассмотре- нием случая, когда функционал зависит от конечномерного вектора пара- метров т. Сам функционал запишем в виде Hz(t) = JG(x,7)F(Jx). (4.33) Вид весовой функции Q(x, т) конкретизировать пока не будем. Минимиза- ция функционала (4.33) предполагает знание распределения F. Вместе с тем, в ряде практических задач распределение F не известно, но в распоря- жении экспериментатора имеется независимая выборка хь .. .,хп опреде- ляемая распределением F. Один из естественных подходов к задаче оцени- вания предполагает ’’восстановление” распределения F, точнее, построение эмпирического функционала Wt(T)=— X 0(х^т), (4.34) Г k = I который соответствует ’’вычислению” интеграла в (4.33) методом Монте- 53
Карло. С.в. Q(xk, т) являются независимыми и одинаково распределенны- ми. В соответствии с законом больших чисел (см. теорему 1 .П.2) справед- ливо равенство lim Wt (т) = W(t) (4.35) Г -* оо в том или ином из вероятностных смыслов. Приведем условия, при кото- рых такая сходимость имеет место. Лемма \ АЗ. Предположим, что выполнены условия 1. С.в. хк, к - 1,2,..., стохастически независимы и имеют одинаковое распределение F. 2. Sup f [Q(x, г)]2 F (dx) = CQ < r fci T Тогда сходимость (4.35) имеет место с вероятностью 1 и в среднеквад- ратичном, причем среднеквадратичная сходимость равномерна по тет. Лемма 1.4.3 открывает естественную возможность получения состоя- тельных оценок. Обозначим rt = argmin Wt(r) (4.36) т Г - наименьшее значение эмпирического функционала И'Дт) (если мини- мум не единственный, то в качестве Tt можно выбрать произвольный век- тор, минимизирующий функционал (т)). Если То ~ множество векто- ров т в Т, на которых функционал (4.33) достигает своего наименьшего значения, то, очевидно, в среднеквадратичном смысле и с вероятностью 1 последовательность Tt стремится при / ->00 к множеству То. Это простое следствие равномерной сходимости (4.35). В частности, если множество То состоит из единственной точки, то последовательность {тг} -- состоя- тельная. Изложенный в п. 1.4.3° метод максимума правдоподобия можно в слу- чае независимых наблюдений рассматривать как специальный вариант метода эмпирического функционала. Средний риск здесь имеет вид (4.15), а эмпирический функционал определяется формулами (4.13). Если плот- ность р(у | т) удовлетворяет условию f [In р(у | т)]2 р(> j rj dy<°° и функционал (4.15) имеет единственный минимум, то оценки Tt = argmin Lt(r) т г Т в силу леммы 1.4.3 состоятельны. Следует отметить, что алгоритм определения вектора (4.36) пока никак не определяется, его выбор может осуществляться из тех или иных сообра- жений. Иногда алгоритм удобно выбирать в виде градиентной процедуры, совмещая его с алгоритмом уточнения оценок при увеличении объема выборки (см., например, (4.17)), в других случаях приходится пользовать- ся нерекуррентными процедурами. 54
В задачах идентификации динамических объектов и адаптивного управ- ления появляются более сложные эмпирические функционалы вида И/г(7)=— i Q(k,xk,r), (4.37) t к = \ где целевая функция Q зависит явно от времени к, а с.в. х* не являются независимыми. При специальных предположениях о свойствах целевой функции и процессе хГ также удается установить равномерную по т сходи- мость эмпирических функционалов (4.37) при / ->оо к функционалу ---1 t ^(7) = lim — Z MQ(kt хк,т). (4.38) t — « t к = 1 Техника доказательства такого рода сходимости сложнее, чем применен- ная при установлении леммы 1.4.3, и использует тонкие факты теории вероятностей. 1.4.6°. Метод стохастической аппроксимации. Если целевая функция Q(x, т) в функционале (4.33) дифференцируема по т, то интересующие нас значения вектора т находятся среди решений ’’уравнения регрессии” J grad r Q(x, т) F(dx) = 0. (4.39) Пусть значения gradr Q(x, т) доступны наблюдению в точках хь х2,.. . ; тогда для нахождения решений уравнения регрессии могут использоваться рекуррентные процедуры вида \=Tt-7t gradT Q(xt, Tt), (4.40) где yt - соответствующим образом подбираемая последовательность не- отрицательных величин. Если с.в. {хк } стохастически независимы и определяются распределе- нием F, то процедура (4.40) является стохастически градиентной к функ- ционалу (4.33). Нахождение корней уравнения регрессии (4.39) с помощью процедуры (4.40) получило название метода стохастической аппроксима- ции (MCA), а сам алгоритм (4.40) носит название процедуры Роббинса- Монро. В широком смысле слова под стохастической аппроксимацией понимает- ся последовательный способ улучшения оценки, использующий новые наблюдения и предшествующую оценку, так что алгоритм (4.40) этому ус- ловию удовлетворяет. Если известно, что минимум функционала ^(т) достигается на выпук- лом замкнутом множестве Т С Rz, то вместо (4.35) естественно ввести процедуру Тг+1 = Pj frr - Tt'KXt’Tt)]’ (4-40 где Рт — проектор на множество Т, определяемый условиями I т - Ртт I - min | 7 - 7* |, т'с-Т т.е. Рт7 — ближайшая к т точка из множества Т. Функция ф(х, т) в (4.41) 55
может иметь вид Ф(х, т) = gradT Q(x, т), (4.42) и тогда процедура (4.36) является стохастически градиентной к функцио- налу (4.33), либо выбираться из других соображений. Перейдем к краткому обсуждению некоторых методов оценивания, основу которых составляют алгоритмы (4.41). а) Конечно-сходящиеся алгоритмы оценивания. Предположим, что целе- вая функция Q(xt т) имеет вид Q(x, т) = - 0 (х, т) * (х, г), где 0(х, т) = !6 [1 - sign >р(х, г)] и ^(х, т) — дифференцируемая по г скаляр- ная функция. Алгоритм (4.40) принимает вид Гг+t = Tt + Tr0(xr, Tt) ф(х^ Tt), (4.43) ф(х, т) = gradT ^(x, r). (4.44) Алгоритм (4.43) можно рассматривать как процедуру, предназначенную для нахождения решения т системы неравенств ^(хг, т)>0, xtEX. (4.45) Неравенства (4.45) в ряде приложений выступают как целевые (они могут, например, описывать цель функционирования обучающейся системы, цель управления динамическим объектом и т.п.). При этом алгоритм (4.43) имеет релаксационный характер: вектор т изменяется лишь в случае на- рушения очередного неравенства y(xtiTt)> 0, причем в этом случае при подходящем выборе величин выполняется неравенство ^(xt ,тг+1) > > ^(xr, rt) либо даже y(xt, rt f t) > 0. Разумеется, зависимость функции ^(х, т) от х не позволяет, вообще говоря, сделать суждение о возрастании функционала (4.33), этот вопрос требует специального исследования. Множество То векторов т, для которых при любом х Е X выполняются неравенства (4.45), играет роль поглощающего множества для алгоритма (4.43): если на некотором шаге алгоритма окажется, что тп Е То, то при Г > и вектор Tt остается постоянным (алгоритм ’’сошелся” за конечное число шагов). Если алгоритм (4.43) сходится при любой последовательнос- ти xf, xk Е X, за конечное число шагов (это число может зависеть от вы- бора последовательности xf , начальной оценки , и предел т» = lim тт t -* °° не обязательно принадлежит множеству То), то алгоритм называется конечно-сходящимся. Приведем утверждение о сходимости процедуры (4.43), в которой ф(х, т) не обязательно имеет вид (4.44). Теорема 1.4.1. Пусть выполняются условия: 1. Множество То = {т | <р(х. т) > 0 Vх} непусто. 2. Последовательность xf состоит из независимых с.в., имеющих одина- ковое распределение F. 3. Начальное значение в процедуре (4.43) - с.в. с распределением Рь независимая от {х™} . 56
4. Функции <р(х, т), ф(х, т) в алгоритме (4.43) всюду конечны и измери- мы по отношению к распределению вероятностей, порождаемых F и Рь - вещественные числа. Обозначим через Qni, Тп функции и множества, определяемые для каж- дого натурального п и некоторого положительного v рекуррентными соот- ношениями Qnl(r)= J C(x,T)F(dx), (4.46) Т„/ Т„ + 1=(т: lim. Qni(r)>p}. (4.47) / -► оо Здесь TnZ = {т + ф/(х, т) € Т„), ^(х, т) = т,^(х. т). 5. Для любого.положительного числа р существует натуральное N, N = = 7V(p), что справедливо включение N Dp={r\\r\<p}Q U Т„. (4.48) п = О 6. Для почти всех реализаций с.в. Tt, порождаемых алгоритмом (4.43), справедлива оценка | Tt | < С( I Ti I), где С (г) - некоторая положитель- ная детерминированная функция, конечная при положительных г. Тогда с вероятностью I выполняются соотношения lim 7^7*, 2 0(xt, Tt)<°°, (4.49) t — °° t = i причем Р{т.еТ0}=1. (4.50) Обозначим через Pf условное при условии х\~1 распределение вероятное- тей с.в. Tt. С вероятностью 1 Р,+ 1(Т0)>Р,(Т0). lim Р,(Т0)=1. (4.51) t -* оо Неравенство (4.49) означает, что почти на каждой реализации последова- тельности тГ значение тж достигается за конечное время; равенство (4.50) означает, что F {х | <р(х, тоо)>0) = 1с вероятностью 1.Соотношения(4.51) можно интерпретировать как утверждение о том, что вероятность найти решение т системы неравенств (4.45) монотонно с каждым шагом алгорит- ма (4.43) возрастает до 1. Процедура (4.43) в условиях теоремы 1.4.1 представляет собой алго- ритм случайного поиска. Если для функции ^(х, т) выполняется (4.44), то алгоритм (4.43) имеет характер направленного поиска и его сходимость может не зависеть от случайного характера последовательности х * . б) Псевдоградиентные алгоритмы оценивания. Широкий класс процедур оценивания представляют алгоритмы, в которых коррекция оценки проис- ходит в направлении, которое лишь в среднем соответствует направлению антиградиента функционала W(t). Такое соответствие может пониматься достаточно широко: направление антиградиента и среднее значение коррек- ции должны составлять острый угол. Подобные процедуры получили назва- ние псевдоградиентных в отличие от (стохастически) градиентных, в кото- 57
типичное утверждение о сходимости псевдоградиентной процедуры оцени- вания, в которой ’’псевдоградиент” может соответствовать не градиенту функционала И'(т), а некоторой функции, названной ниже обобщенным градиентом. Теорема 1.4.2. Предположим, что выполнены условия : 1. yt - неотрицательные числа со свойствами оо оо S 7r = °°, S 7?<°°- t = 1 t = 1 2. Для некоторых неотрицательных чисел Сь С2, С3, С4 и произвольных векторов т\т\т выполнены неравенства + т") - И'(т') - (т")* Grad W(t') < С, | т" |2, Мх\ ф(х, т)|2 <С2 +C3H'(t) + C4[^V/(x, т)]* Grad W(t ), где Grad W(t) — непрерывная функция аргумента т со значениями в Rz, которую назовем обобщенным градиентом функционала 1^(7)*) 3. Множество То = {т: Grad W(r) = 0} непусто, inf И'(т) > - <» и То тето входит в выпуклое замкнутое множество Т с некоторой своей окрест- ностью. 4. Для произвольного вектора т выполнено неравенство И7 (Ру 7) < ^(7), где Рт - проектор на множество Т. 5. Существует непрерывная функция 5 = 3 (е) > 0 такая, что при любом е > 0 из неравенства р(т9 То) > е, где р(т9 То) - расстояние от вектора т до множества То, р(т, То) = inf \т - т |, следует неравенство т'еТ0 [Мх ф (х, т) ] * Grad И/(7) > 3 (е) > 0. 6. Последовательность xf состоит из независимых с.в. с одинаковым распределением F. Тогда для произвольной начальной оценки Т\ 6 Т в силу процедуры (4.41) с вероятностью 1 и в среднеквадратичном смысле существует предел lim W(7r)= = W(7j, t -* 00 где т,~ некоторая с.в., для которой с вероятностью 1 выполнено включе- ние 7Ж Е То. Теорема не утверждает, что последовательность {тг} сходится к 7». Одна- ко, если множество То - одноточечное, то lim Tt = 7Ф с вероятностью 1, t -* 00 т.е. оценки {7Х} сильно состоятельны. Заключение теоремы, очевидно, означает, что с вероятностью 1 выполняется предельное равенство lim р(7г,То) = О. Г-* оо *) В типичных случаях Grad И'(т) = grad 1V(t), т.е, введенная функция совпадает с градиентом функционала И'(т). 58
Условие 5 теоремы определяет усиленное свойство псевдоградиентности функции ф(х, т) . Для функции (4.42) оно выполнено очевидным образом, если обобщенный градиент совпадает с grad W(t). в) Рекуррентная модификация МНК. В случае, если функционал W(t) квадратичен по т, точки минимумов эмпирических функционалов оказы- ваются связанными рекуррентными соотношениями, имеющими вид (4.40), но в которых 7, - матричные коэффициенты, также вычисляемые рекур- рентно. Покажем, как выводятся эти рекуррентные соотношения и обсу- дим некоторые их свойства. Пусть в функционале (4.33) функция Q(x, т) имеет вид Q(x, т) = [Ф(х) 7 - ,у(х)] *Я[Ф(х) 7 - ^(х)], (4.52) где Ф(х) - прямоугольная матрица-функция, >>(х) — вектор-функция и R - положительная матрица соответствующих размерностей. Эмпирический функционал (4.34) тогда запишется так: 1 ' • ^(7)=— S (Фкт-ук) Я(Фкт-ук), (4.53) t к - \ где Ф* = Ф(хЛ) ,ук = у (хк) — данные наблюдений, к = 1,.. ., t. Для прило- жений наиболее интересен случай, когда^Л,Л - скалярные величины, Ф* - вектор-строка. Пусть т( обеспечивает наименьшее значение функционалу (4.53). Тогда, как нетрудно понять, т( удовлетворяет уравнению At+\Tt ~ ft+(4.54) где Л,+ 1 = S Л + 1= 2 ФкЯук. (4.55) к = I к = I Предполагая, что матрица неособая, из (4.54) найдем Tt ~г+1 ft+ г (4.56) В силу (4.55) выполняется Лг + 1 =At + Ф*ЛФ,, ft+l =ft + Ф*Яуг Используя матричное тождество (At + ф*/?ф,)-1 =а;' -л^ф^/г* +фгл,-‘ф’)-,фгл,-,( проверяемое непосредственно, и вводя обозначения 7,=л;‘, £Г = (Л*’ +Ф,7, Ф^)-1, (4.57) получим 7r+i =Tt-ТгФ^гФгТг- (4.58) Используя (4.56) - (4.58), найдем Tr+i =т,+7гФ;/,Дуг-Фгт,]. (4.59) Соотношения (4.57) - (4.59) определяют рекуррентную форму МНК. 59
Чтобы воспользоваться рекуррентной формой МНК, следует задать со- ответствующим образом начальные статистики т19 У\. При произвольном выборе этих статистик определяемые процедурой (4.57) - (4.59) оценки {тг} не будут, вообще говоря, обеспечивать минимум эмпирическим функ- ционалам. Лемма 1.4.4. При произвольных начальных статистиках П; Ti, det ¥= 0, выполняются соотношения 7Л» Я7Г* + 2 Ф'ккф1с> “ = ‘ (4.60) t Tr+i =7f+l7i’*n +Vl + 1 2 <t>'kRyk. к = I Из соотношений (4.60) следует, что матрицы ут монотонно не возрастают, оставаясь положительными, если положительной была матрица уг. Если элементы матрицы Ф(х) и компоненты вектора >>(х) - ограниченные функции х, а с.в. {xt} - стохастически независимы и имеют одинаковое распределение F, то (см. теорему 1.П.2) 1 t „ lim -------- 2 ФкЯФк = /Ф(х) ЯФ(х)Р(б/х), t - оо t к = I 1 ' lim — S ®kR>’k = / Ф(х) F(^) t 00 t к - I с вероятностью 1. Это означает, что lim yt +t у Г1 = 0, и существует Г -> оо lim rt = т = [ /Ф(х)’ ЯФ(х) F(dx)]*' J Ф(х)*Ку(х) (4.61) t -* оо Нетрудно убедиться, что т = argmin W(r'), где - функционал (4.33), (4.52). Соотношение (4.61) показывает, что при сделанных предположениях о независимости данных наблюдения {фл, ук } оценки, доставляемые рекур- рентной процедурой МНК (4.57) - (4.59), сильно состоятельны независимо от выбора начальных статистик. г) Упрощенная рекуррентная процедура МНК. Рекуррентная процедура МНК (4.57) - (4.59), являясь оптимальной при соответствующем выборе начальных статистик, становится практически малопригодной, если при- ходится оценивать вектор параметров высокой размерности: основной объем вычислений связан с процедурой пересчета матриц (4.57). Естествен- но попытаться упростить ее, даже если придется поступиться оптимальными свойствами. Впрочем, последнее обстоятельство не является определяю- щим, так как нужные начальные данные обычно неизвестны, а выбор произ- вольных начальных данных Tj, yt > 0 в лучшем случае оставляет процеду- ру предельно оптимальной. Поэтому естественно стремиться к упрощению рекуррентной процедуры МНК, но требуя, чтобы и упрощенная процедура обеспечивала предельную оптимальность оценок. 60
Из первого соотношения (4.60) следует, что матрицы yt монотонно убы- вают; рассуждения, следующие за леммой 1.4.4, показывают, что в типич- ных случаях lim yt = 0. Из (4.58) при этом получаем lim Lt = R и l -* ОО f —► оо процедура (4.59) при достаточно больших t принимает вид ТГ+ 1 • Tt + Ъф*г R Iyf - фгтг] (4-62) Другим существенным упрощением в процедуре МНК является использова- ние в качестве уг не матриц, определяемых первой из формул (4.60), а их следов, т.е. ?;!, = !+ s sp Ф'кяФк, к - I или в рекуррентной форме Э'гм =?;* + 8рФ’ЯФг У!=1. (4.63) Процедуру (4.62) - (4.63) назовем упрощенным вариантом процедуры МНК, поскольку обладая несомненными преимуществами с вычислитель- ной точки зрения, алгоритм оценивания (4.62) - (4.63) сохраняет важные свойства процедуры МНК. Последнее иллюстрируется следующим ут- верждением. Теорема 1.4.3. Предположим, что выполняются условия : \.Св. хк - независимые с одинаковым распределением вероятностей F. 2. Скалярная функция j>(x) и матричная функция Ф(х) - ограничены, |Ф(х)|<Сф, |у(х)|<Сг 3. Наименьшее собственное значение \А матрицы А =/Ф(х)*ЯФ(х)Р(Л) положительно. Тогда оценки {тг}, доставляемые процедурой (4.62) - (4.63) при про- извольном выборе вектора rlf с вероятностью 1 и в среднеквадратичном сходятся к вектору т, минимизирующему функционал (4.33), (4.52). Таким образом, процедура (4.62) — (4.63) сохраняет свое свойство предельной оптимальности. Упрощенный вариант процедуры МНК является более гибким, чем собст- венно процедура Роббинса - Монро, связанная с выбором детерминирован- ных величин yt. Эта гибкость проявляется, когда приходится рассматривать процессы {yt, Фг}, которые не обязательно имеют вид yt = y(xt)t Фг = = Ф(хг) и могут быть коррелированными. Именно такая ситуация возни- кает в задачах адаптивного управления, где yt и Фг образованы из набора выходов и управляющих воздействий и нет априорной ограниченности этих величин. д) Метод наименьших квадратов и метод эмпирического функционала. Рассмотрим функционал W(r), имеющий вид (4.33) при Q(x, т) = | (а(х), т) - /(х) |2, (4.64) где а(х) - векторная (размерности N) и f(x) - скалярная функции. Именно такой функционал возникает в различных задачах аппроксимации (см. пп. 1.1.5°, 1.1.6°). Функция (4.64) представляет собой специальный 61
вариант функций (4.52), и в подпункте в) был построен рекуррентный алгоритм, определяющий точки минимумов эмпирических функционалов. Использование этого алгоритма затруднено, если матрица /Ф*(х)ЯФ(х)Е(4х) вырождена либо близка к вырожденной. Использование сочетания методов эмпирического функционала и МНК позволяет получить удобные (с вычис- лительной точки зрения) алгоритмы, доставляющие значения параметров, на которых функционал (4.33), (4.64) принимает значения, сколь угодно близкие к минимальному. Перейдем к описанию возможных способов получения оценок. Эмпирический функционал, отвечающий функционалу (4.33), (4.64), имеет вид ^,(т) = 4 S 1ЛхЛ) - т*а(хк)\2 . (4.65) 1 к=\ Система нормальных уравнений (4.54) теперь принимает вид (4.66) где At=j Е а(хк)а*(хк), ^=7 2 f(xk)a(xk). (4.67) fc=i fc=i Матрица At в системе (4.66) при больших t также может оказаться вырож- денной либо плохо обусловленной, что приводит к трудностям при нахож- дении решения системы (4.66). Так, в персептронной модели обучаемой системы (см. п. 1.1.6°) компоненты а/(х), i = 1, ..., TV, вектор-функции а (х) играют роль признаков изображения х, и эти признаки могут оказать- ся линейно зависимыми на обучающей последовательности хи ..., xz, что приводит к вырождению матрицы At. Имеются различные способы преодо- ления трудностей, связанных с вырождением At, Наиболее естественным из них является переход от функций {я/(х)} к новым ’’линейно независимым” функциям с последующим их использованием для среднеквадратичной аппроксимации функции /(х). В рамках теории обучаемых систем такой прием может интерпретироваться как переход к новому пространству ’’хороших” признаков, или как метод предварительного отбора признаков в классификационных задачах. В математической статистике подобные конструкции лежат в основе факторного анализа (роль факторов, или су- щественных признаков, играют некоторые линейные комбинации функций (а/(х)}). В теории информации аналогичную роль играет разложение Карунена - Лоэва, используемое как мощное средство ’’сжатия инфор- мации”. Формальная постановка задачи отбора ’’хороших признаков” может быть сформулирована следующим образом. В обозначениях ^=со1(а/(х1), ...,а/(х,)), /= 1,...,М /= со!(/(х:), ...,/(*/)) 62
эмпирический функционал (4.65) перепишется в виде _ N Wt(T)=lf- S т0^!2, (4.69) /= 1 где - компоненты вектора т и |/ | - норма Лвектора/, \f |2 - (f, f) - = 7 i f2(xp). Р = 1 Поставим такую задачу: для заданного натурального m, m<N, найти f-векторы bj,j= 1,..., m, (bi,bf) = bih (4.70) минимизирующие функционал _ /V tn _ _ Л„(*)= 2 \aj- S (ay.M^I2. (4.71) / = 1 к = 1 Другими словами, требуется определить тп-мерное подпространство, опре- деляемое базисом {bj}, j = 1, ..., ш, относительно которого среднеквадра- тичное ’’рассеяние” векторов {а/} минимально. Вид векторов {bj} опреде- ляется следующим утверждением. Теорема 1.4.4. Обозначим через 0^ = col (0р >, нормированные собственные векторы матрицы At: At0k = Ч0к (4.72) для собственных значений Хк, упорядоченных по величине: X ! > Х2 > •• ...> Хдг> 0, и предположим, что Ху >0, Ху+1 = ...= ХдуО, С помощью векторов {ак}, определяемых формулой (4.68), введем векторы N ^к) bj= S —— ajt, У. (4.73) к = 1 Л/ Тогда при t > N9 векторы (4.73) ортонормированы и первые m из них доставляют минимум функционалу (4.71), причем _ N' nmJm(b)= S Xk, (4.74) {b} k=m + \ где минимум берется no всем наборам из m нормированных t-векторов. Формула (4.73) показывает, что в терминах обучаемых систем функции */(х) = S (4.75) k= 1 образуют новый набор признаков изображения х, которые в силу (4.70) ’’ортогональны” на обучающей последовательности Xj, ..., xt. В терминах 63
факторного анализа векторы {Ь/} представляют собой факторы, а формула (4.74) определяет рассеяние исходных данных at, ..., а# относительно най- денных факторов. _ _ Введенные векторы bj никак не связаны с вектором /, ортогональная проекция которого на линейную оболочку векторов {а/} нас интересует. Нетрудно убедиться, что эта проекция может быть записана в виде _ /V'______ fa = 2 (fbj)bj. / = 1 Найденный нами набору из т векторов позволяет определить ортогональ- ную проекцию вектора f на линейную оболочку векторов Ь{, .., Ьт : _ т____________ fb~ 2 <J,bj)bh /- i Если т< Д'*, то в силу формул (4.73), (4.67) имеем _ _ N> _ 1Л-Л12= s (/. м2 = s №.ф,)2. (4.76) к - т + 1 к - т + 1 Формула (4.76) позволяет оценить потерю точности аппроксимации функ- ции /(х), связанную с переходом от функций {а,- (х)} к их линейным ком- бинациям tbj(x)}, вычисляемым по формулам (4.75). Очевидно, всегда IЛ I > I fb I • При т- N* никакой потери точности не происходит, так как в этом случае fa = fo. Переход к функциям (4.75) достаточно трудоемок, поскольку связан с определением собственных векторов и собственных значений матрицы At. Поэтому при больших N целесообразно использование более простых процедур отбора ’’хороших признаков”, хотя эти процедуры могут и не об- ладать оптимальными свойствами. Опишем одну из таких процедур, имеющую прозрачный геометрический смысл. Идея здесь состоит в ’’отбра- ковке” зависимых векторов из заданного набора {й]}, так что процедура не связана с конструированием новых ’’признаков”. Зададимся положительным числом 5 — параметром процедуры ~ и вы- числим |fli |2 = (tfiJi). Если окажется, что l^il2 <6, то вектор a i ’’от- браковывается”, и переходим к рассмотрению вектора а2; при |а1|2> 5 вектор ах ’’отбирается” в коллекцию ’’хороших” векторов. Пусть на £-м шаге отобранными оказались векторы dj- , ..., , и мы перешли к рас- смотрению вектора ак. Теперь вычисляем отношение абсолютных величин определителей Грама, образованных совокупностями векторов { a: , ... _____ _ о Л ..., и {ctj , ..., а^} (см. п. 1.3.2 ). Если это отношение окажется больше 5, то вектор ак пополняет коллекцию ’’хороших” векторов (стано- вится вектором й] , в противном случае отбраковывается. Определители Грама являются квадратами объемов параллелепипедов, образованных со- ответствующими наборами векторов. Поэтому описанная процедура выде- ляет линейно независимые ”с запасом 5” векторы. Когда отбор закончен, исходная задача заменяется на следующую: найти ортогональную проекцию 64
вектора f на линейную оболочку отобранных векторов, т.е. компоненты т(/Ас)вектора т в функционале (4.69), индексы которых отвечают отобран- ным векторам {а; , ..., а^}, определяются из условия минимума функ- ционала W’t(7) =17- £ 7(,к)а) I2, (4.77) а остальные компоненты полагаются равными нулю. Минимизацию функ- ционала (4.77) можно проводить с помощью решения соответствующей нормальной системы уравнений Гаусса, матрица коэффициентов этой систе- мы уже не будет вырожденной из-за линейной независимости отобранных векторов. Если векторы , ..., aN линейно независимы и число 5 выбрано достаточно малым, то ’’отобранная” система будет совпадать с исходным набором aj, ...,Ядг и функционалы (4.77), (4.69) совпадают. В противном случае может оказаться mink', (т) > тшИ'Дт) и возникает вопрос о соот- 7 7 ветствии задачи минимизации функционала (4.77) исходной задаче, связан- ной с минимизацией функционала (4.33), (4.64). Ответ на него дается сле- дующим утверждением. Теорема 1.4.5. Пусть выполняются условия: 1 • х2,... - независимые одинаково распределенные с.в. 2 .|a(x)|2<Q, |/(x)|2<Q (Vx). 3 . Са > 6, е > 16Л^С/6Л^,П, где Xmin - наименьшее из положительных собственных значений матрицы А = Ма (х) а \х) и 6 - параметр описанной выше процедуры отбора линейно независимых векторов. Тогда справедливо неравенство P{|min htf(j)-min И^т)! >€ } < 2 (1+ 2N + 2N1)e~tet, (4.78) 7 7 где Зу / 5 \27V 16AG5 / 6\2ЛГ 4М x<nin 6 =----I------1 , y = min ------1----1 ,----- , ---- . 210 Cf\Cj (Xmin \Gj/ Xmjn 4Ca Из теоремы следует, что на большинстве реализаций последовательности х^ минимумы эмпирических функционалов экспоненциально быстро схо- дятся к минимуму предельного функционала (4.33), (4.64). Разумеется, из (4.78) следует сходимость величин min W't (т) кпппИ'(т) с вероятно- 7 7 стью 1 */ Поэтому теорему 1.4.5 можно рассматривать как уточнение лем- мы 1.4.3 на случай квадратичных функционалов. ) Это следует из (4.78) в силу леммы Бореля - Кантелли, согласно которой сходн- ое мость ряда £ Р {I - £ I > е} при любом е > 0 влечет сходимость к $ с вероятно- г = 1 стью 1. 65
§ 1.IL ПРИЛОЖЕНИЕ: НЕКОТОРЫЕ СВЕДЕНИЯ О СХОДИМОСТИ СЛУЧАЙНЫХ ВЕЛИЧИН 1.П.1°. Последовательности случайных величин, близкие к супермартин- галам. Стохастический аналог прямого метода Ляпунова связан с понятием супермартингала. Определение. Последовательность скалярных с.в. £r, t > 1, называется супермартингалом по отношению к монотонно возрастающей последова- тельности о-алгебр Gr, G! С G*+1, если при каждом t существует/И|£ 11 и MWC'XSr (ПЛ) Неравенство (П.1) понимается выполненным с вероятностью 1. Обычно о-алгебра G1 порождается набором с.в. £(, в этом случае (ПЛ) записывается как М(£/+il£i) ^£/ и можно говорить о супермартингаль- ности без упоминания о-алгебр {(?') • Фундаментальный результат по сходимости супермартингалов принад- лежит ДжДубу. В приложениях обычно используется следствие из теоремы Дуба, которое приведем в следующей редакции. Теорема 1.П.1. Если последовательность неотрицательных с.в. £7 удов- летворяет условиям i £',)<(! + м I £1 1<~, где pt - неотрицательные числа и vt = vt (%{) - неотрицательные функции такие, что S pt < «>, S Мvt < оо, то с вероятностью 1 последова- t = 1 t = 1 тельность сходится к некоторой с.в. £, причем Afl£| < оо. Доказательство теоремы 1.П.1 хорошо известно и может быть найдено, например, в [4, 24,67, 109а]. Теорема 1Л.1 является основным инструментом при доказательстве схо- димости алгоритмов адаптации и идентификации стохастических систем. В качестве примера использования теоремы 1.П.1 приведем типичное ут- верждение о сходимости центрированных сумм независимых с.в. 1Л.2.° Закон больших чисел для независимых случайных величин. Теорема 1.П.2. Пусть £7 - последовательность стохастически независи- мых (векторных) с.в. со свойствами M|£,P<Q и {vt} - последовательность функций vt — рг(£{-1 ),удовлетворяющих при некотором е , 0 < е < й, условию S (П.2) г= 1 Тогда с вероятностью 1 и в среднеквадратичном t- 1 lim t€~x S р$Ь = 0. (П.З) r-+oo 1 В частности, если vt s 1, то при е = 0 приходим к стандартной формули- 66
ровке закона больших чисел. Доказательство теоремы 1.П.2 основано на г- 1 рассмотрении функции Ляпунова Vt - (г6”1 X vs £ 5 ) 2, для которой 5 = 1 легко устанавливается неравенство М(Г,+! is,1-,)<Kf-[i-(i+r,)2<e-1)]K,+(i+r)2(e-,)qpf2. (П.4) что в силу (П.2) позволяет применить теорему 1 .П.1. В соответствии с ней существует lim Vt = К* с вероятностью!, ЛГИ* < оо. Из (П.4) теперь сле- f —♦ оо дует сходимость ряда 2 t~xMVt, а потому на подпоследовательности t = 1 Vtk 0, k -* ©о, что означает И* = 0. Таким образом, (П.З) установлено с вероятностью 1. Существование lim MV t устанавливается теперь элемен- г-*о° тарно, что и завершает доказательство теоремы 1 .П.2. Изложенная схема доказательства является типичным применением стохастического варианта прямого метода Ляпунова, когда проверяется ’’убывание” функции Ляпунова в ’’среднем”, т.е. устанавливается свойство на последовательности значений функции Ляпунова, близкое к супермар- тингальности. § 1.Д. ДОКАЗАТЕЛЬСТВА ЛЕММ И ТЕОРЕМ 1Д.1.° Доказательство леммы 1.2.1. Вариация 6IV функционала (2.11) есть сумма вариаций, первая из которых обусловлена вариацией функций qi(x, т), а вторая - вариацией множеств {X,}. Первая вариация <55 IV вы- числяется по формуле N 51 W = X f (gradTqk(xf т), 5r)p(x)dx. * = '*k Для вычисления вариации обусловленной варьированием разбиения {Хк}, удобно ввести функции inf |х - у |, если x&Xh. /*(•»)х У\*к -inf |х - у |, если х\Хк. Тогда, как известно [4, 109а]. при выполнении условий леммы можно записать N 52И/= X f bfk(x)qk(x,T)p(x)dx, k = 1 ЪХ k где bXk = {x \fk (x) = 0} - граница множества Xk и bfk (x) - вариация функции fk (x). При экстремальном значении параметра т должно выпол- няться 5И/= 0, а поскольку параметр т и разбиение {Хк} варьируются не- 67
зависимо, то 61 И/ = Ои52^= 0. Первое из этих равенств в силу произволь- ности вектора 5т приводит к (2.12). Вариации 5/^(х) не являются Произ- вольными функциями, поскольку при любых х и кдолжно выполняться №(х) + bfk (х))(//(х) + 5//(х)) < 0, что приводит к соотношению 5/а(х) = —5/) (х) для точек х G ЬХк П ЭУ/. В остальном вариации 5/\ (х) произвольны. Учет этого обстоятельства позволяет вывести, что равенство 62^=0 равносильно выполнению импли- кации [?Нх, г) - qi(xf т)]р(х) = 0 <=> х е П bXj. Эта импликация показывает, что границы дХк, bXi экстремального разбие- ния могут быть определены из условия равенства функций qk(x, т), qi (х, т) при экстремальном значении параметра т, что приводит к соотно- шениям (2.13). Лемма 1.2.1 доказана. 1.Д. 2.° Доказательство леммы 1.3.1. Пусть /() - некоторая функция из R1” в R". Тогда W(n)-f I2 = W-W ln)l2 +W(n)-Mf 1п)12 + + 2Af [f - M(f | п)] * [/(г?) - М(f | п)] = = |7?)|2 +Л/|/О?)-М(Г |т?)12, поскольку М[$-МЦ 177)]*[/(т?) - М(Г |т?)] = = ~M(f I т?) I т?]*[Яп) -M(f I И)]} = 0. Из полученного равенства следует, что М\£ - f(rf) I2 принимает наимень- шее значение при выборе/(т?) в виде (2.2), что и утверждалось. 1.Д.З.0 Доказательство леммы 1.3.2. Покажем, что из строгой ортого- нальности гауссовских с.в. f и 77 следует их стохастическая независимость. Для гауссовской с .в. у = col (f, т?) плотность распределения имеет вид pv(u) = Секр{-1Л(и - My)*(covj’j’*)-1 (и - Му)}. где С - нормировочная постоянная, равная С= [(2тг)"'1+"'’ det cov^y*] "'2 , т2 - размерности с.в. f и т?соответственно. Для простоты здесь предпо- лагается невырожденность матрицы covyy *. Но ж /covff 0 \ Му = со1(М,Мт?), covyy =1 I, \ 0 COV * / и если представить и в виде и = col (и j, и2), то ру (и) = (их )р^ (и2), где Рг(“1) = [(2я)"'‘ detcovff*] /2exp|--^(u! Р^(и2) = [(2п)п‘2 detcovTjr?*] ‘ exp|--^(u2-Mj?)*(covT?n*)',(MJ- т.е. плотность с.в. у равна произведению плотностей с.в. f и т?> что и озна- 68
чает стохастическую независимость с.в. f и т?- Перейдем к непосредствен- ному доказательству леммы. С.в. т? и f — w - гауссовские и строго ортого- нальные, а потому стохастически независимы. Следовательно, Af(f - w|n) = = M(f - vv) = 0, т.е. М(f I п) = M(w 177) = w, что и требовалось доказать. 1.Д.4.0 Доказательство леммы 1.3.3. Воспользуемся матричным анало- гом неравенства Шварца (Д.1) справедливого для произвольных матриц А и В, для которых обе части не- равенства (Д.1) имеют смысл. Неравенство (Д.1) устанавливается, исходя из неравенства |Лх + By | >0, справедливого при произвольных векторах хну соответствующих размерностей. Последнее неравенство эквивалентно следующему: (С'/2 х + С~‘/г Dy)*(C‘/2 х+С~ ,/lDy)^y*(e-D*C-xD)y>0. (Д.2) где С = Л*Л, D = A*B, с - В* В. (Д.З) Левая часть неравенства (Д.2) принимает наименьшее значение прих= С”1 Ду, и при этом х неравенство (Д.2) примет вид у *(е - D*C~'D}y > 0 для произвольного у. т.е. D что с учетом обозначений (ДЗ) приво- дит к (Д.1). Используя (Д.1) при А = R~'<* Ф, В^- QR»1, получим QRvQ*-QRv (R* )*Q* > > QRv2 Rv '/г ф[ф*я;,/2 R-v 1/2 Ф]-' Q*R-U 1/2 Rv1 Q* = = (2Ф(Ф*я;,Ф]-‘Ф*е*. Если матрица Q определена формулой (3.31), то 0Ф ~ (Ф */?Ф )-1 Ф *АФ = / и QRу Q* ^Ф*/^1 Ф)4 , что эквивалентно (3.34). Лемма доказана. 1 .Д.5.° Доказательство леммы 1.4.1. Покажем, что для любого вектора 7 выполняется неравенство f №(т+ ’т ) -g(r)]p(r + т(х) |x)Jr>0. (Д-4) Действительно, в силу симметричности g (т) вектор-функция gradg (т) ан- тисимметрична, а так как р (т |х) симметрична относительно т (х), то f [gradg(r)]p[r + t(x)|x]Jt = 0. Используя это равенство и неравенство (4.8), получим f [£(т + 7) -^(т)]р[т + t(x)|t]Jt> >7* f gradg(r)p[r + r(x) |x]t7r = 0, т.е. выполняется (Д.4). Производя замену 5 = т - т(х) в функционале (4.2), найдем f #(т -?)P(T\x)dT = fg[s - 7+r(x)]p[s + r(x)|x]dx> >/^(5)р[5 + т(х)|х]е/х. Равенство, очевидно, достигается при 7 = т(х), что и доказывает лемму. 69
1 Д.6.° Доказательство леммы 1.4.2. Пусть а и b - произвольные нену- левые векторы. Умножая (4.23) слева на а и применяя обе части полу- ченного равенства к Z?, после применения неравенства Коши - Шварца получим S I (т(у)-/(т)]‘£(у, т)а l2dy f |[gradTlnL(y, r)]*L(y, t)b\2dy> >a*(I + grad[X(r)]‘)/>Z>*(/ + grad[X(T)]*)*a, ИЛИ f I [t(j') -/(т)]*£(Л r)a\2dy > > k*4" 1/2 (r)(/ + grad(X(r)]*)a|2 । «2 ’ (Д-5] kr где c = A 1/2 b. Левая часть полученного неравенства от вектора с не зави- сит. Поэтому неравенство (Д.5) можно усилить, полагая <? = Л" 1/2 (т)(7 +grad[Х(т)]*)а. Получим /I [?Ы -Лт)]Ч(л r)a\2dy> > а*(1 + grad [ Х(т)] *) А'1 (т)(1 + grad [Х(т)]*)*а, что в силу произвольности вектора а приводит к (4.26). Неравенство (4.27) - очевидное следствие неравенства (4.26). 1Д.7.° Доказательство леммы 1.4.3. Случайные величины - = т) - И'(т)] стохастически независимы и центрированы. Пусть (Д.6) Ас = 1 Учитывая независимость с.в. 1?*+1 и имеем Ma'+1 |т?{)=(7н) +??o2t/02(x’T)F(Jx)~и,2(т)]- Учитывая второе условие леммы, можем воспользоваться теоремой 1.П.1, в соответствии с которой последовательность с вероятностью 1 сходится к нулю, т.е. сходимость величин (4.34) к (4.33) установлена. Из (Д.6) сле- дует также неравенство , о + 1 „ Со откуда следует равномерная по т среднеквадратичная сходимость £ * к ну- лю. Лемма доказана. 70
1Д.8.° Доказательство теоремы 1.4.1, Для произвольного события В имеем рг+1д=р{т,+1 = =Р{тг+в,^(х,.тг)е5|х') = / Р,(</т) = Bi t = /[ 1 - e(xt. T)Pt](dT) + / 0(xt, T)Pt(dT), (Д.7) В B2t B\t~ {T + 0(xt.T)^(xt.T)eB}, B2t= {r + ф,(хг. r)6B}. Если В = To, то, поскольку 0(хь r) =0 при т G To, (Д.7) перепишется в виде Pz+i(T0)=P,(T0)+ f 0(xr.T)Pf(dT)>Pr(To), (Д.8) 12 f где = {т|t +ф( (xt9 t) G To}. Таким образом, последовательность с.в. РЛ(ТО) - монотонна. Возьмем математическое ожидание от обеих частей равенства (Д.8) и перейдем к пределу при /“►«>: lim М f 0(xt, r)Pr(dr) = 0. Г~*°° J2 t Но в соответствии с определением множества £2 в силу независимости xt и Pf(dr) из (4.46) имеем м f 0(xt, T)P,(dT) = J QOt(T)Pt(dr), nt где Pt (dr) = MPt (dr). В силу (4.47) соотношение lim fQot(r)Pt (dr) = 0 означает, что limPf(T1) = 0 (Д.9) r-*oo Аналогично, в соотношении (Д.7) выберем В - Тп возьмем математи- ческое ожидание от обеих частей и перейдем к пределу при г -> оо. Учитывая (Д.9), получим lim f 6(х, r)F(dx)Pt(dT) = lim f Qt t(r)pt(dT) = 0, r-> 00 T J f t-^ao Tlf =( t + Mx.tJGT,} , откуда, как и раньше, следует, что lim Pf(T2)= limP{rfGT2} =0. f —* ОО f —» оо Продолжая этот процесс, убеждаемся, что для любого к Ф 0 справедливо lim Р{тг G TjJ = 0. В силу условия 4 теоремы для любого ограниченного t-* оо 71
множества D имеем lim Р {тг G D \ То) =0. Отсюда следует сходимость г-> °° распределений Pt, причем в силу условия 5 имеемР t (То) = Р {rz G То} 1 при Гоо. Итак,МРГ (То) 1, откуда следует, что lim Р, (То) = 1сверо- f—* оо ятностью 1. Теперь легко выводятся соотношения (4.49), (4.50). Теорема доказана. 1.Д.9.0 Доказательство теоремы 1.4.2. Выбирая в условии 2 теоремы т' = т ит" = 7t ф (xz, Tt), в силу алгоритма (4.41) получим Мг,+ 1)< W(rf) — 7, (Grad ^(т,). ф(х,. Tt)) + Cl72 | откуда в силу условий 3 и 6 при достаточно больших t (таких, что CiC47, < 1) следует М{И/(т,+ 1)|х1'-‘} <(1 +С,Сз7?)И'(т,)- -7,(1 - C1C47f)(Grad W(rt), Мхф(х, т,)) + + С,С27? < (1 + С, C4y2)W(rt) + С, С47?. Согласно теореме 1.П.1 с вероятностью 1 и в среднеквадратичном смысле существует предел = lim И\тД °° причем AfH'< о©, и с вероятностью 1 выполнено неравенство S 7,(Grad W(T[),MX^X, rt))<«,. (Д.10) r= 1 Неравенство (Д.10) в силу условий 1,5 теоремы означает, что на некоторой подпоследовательности {t^} выполнено lim (Grad rtk)} = Q, k-+°° т.е. И' -’’экстремальное” значение функционала. Более точно, в силу усло- вия 5 сходимость функционалов ^(т,) означает, что limp(rr,T0) = 0. f—* оо Последнее соотношение можно интерпретировать как наличие с.в. т , с ве- роятностью 1 принимающей значения из множества То, и для которой И*= Цт'). Теорема доказана. 1.Д. 10°. Доказательство леммы 1.4.4. Из (4.58) имеем 7,‘ij =(7г-7»Ф,‘ Lt Ф, 7,)-1. Используя легко проверяемое матричное равенство (7, - 7, Ф,‘ L, Ф, 7,Г‘ = 7,1 + Ф; (ij1 - Фг 7, ФÑÒ Ф, и учитывая (4.58), получим 72
откуда следует первое из соотношений (4.60). Действуя на обе части равен- ства (4.59} матрицей । и используя только что полученное соотноше- ние, после простых преобразований найдем тг+1 =Ч'г'1 т,+ф* откуда следует второе из соотношений (4.60). Лемма доказана. 1Д.11 °. Доказательство теоремы 1.4.3. Из (4.63) получаем T^.i+Spj ф;яф*. к~ 1 Поскольку в силу закона больших чисел 1 t lim — S ФХ = А t - ~ t s=\ > с вероятностью 1 и в среднеквадратичном, то в том же смысле lim tyt = (Sp А Г1 < X'1 < о». (Д. 11) г-* л Из (4.62) имеем |тг+ , - тр< |тг - т|2 + 27, (ф; R (yt - Ф,тг), т, - т) + + 7,2 |Я| Сф2 \R* Производя усреднение при условииxf” 1 и учитывая независимость х, от х I” 1, получим Л/{|т,+ 1- rPlxf" '}<|т, -т|2 - - 7* C^R \[(A(rt — т\ rt — т) +Су], (Д.12) где обозначено Су - (Ат, т) + fy* (х) Ry (х) F (dx). В силу (Д.11) что позволяет воспользоваться теоремой 1.П.1. В соответствии с последней lim |тг~т|2=0*с вероятностью 1. Теперь из (Д.12) уста- Г-* оо навливается, что с вероятностью 1 выполняется неравенство S 7, (А (т,- T),Tt- т)<°°, т~ 1 что в силу (Д.11) и положительности матрицы Л влечет сходимость Ttk -» т на некоторой подпоследовательности. Это означает, что 0* = 0, и сходи- мость Tt к т с вероятностью 1 установлена. Среднеквадратичная сходимость теперь устанавливается просто из (Д.12). 1.Д. 12°. Доказательство теоремы 1.4.4. Введем ГХ г-матрицу лг Л %2, V- (Д.13) Тогда функционал (4.71) с учетом (4.70) запишется в виде _ N m_____— 4(Л)= 2(^,5,)- 2 (Abk,bk), j= 1 к= 1 73
откуда легко следует, что в качестве векторов{Лу}следует выбрать собст- венные векторы матрицы А, Л=1,...,г, (Д.14) отвечающие т наибольшим собственным значениям X*. Будем считать^что собственные значения перенумерованы в порядке невозрастания: X! > Х2 > > . .>Хг>0. Умножая (Д.14) скалярно на вектор at и учитывая (Д.13), получим £ (Д.15) /= 1 где введено обозначение 0а(/) = (5/,6а). (Д.16) Но в силу формул (4.68), (4.67) 1г (a,, = — S at(xp)aj (хр) = (At)lh t р= 1 и соотношение (Д.15) принимает вид (4.72) относительно векторов ^соК/3/1 Следовательно, в силу условий теоремы только N' собственных значений Хк.матрицы А отличны от нуля и совпадают с отличными от нуля собствен- ными значениями Хк матрицы Аг Из (Д.14), (Д.16) приходим к формулам (4.73): _ /у — _ w ьк= 2 S 5,, *=!,... ,N'. i= 1 /= 1 Функционал (4.71) при выборе векторов (4.73) в силу (Д.14) исоотноше- лг - /v _ _ ния S X* = SpЛ = S (aki ак), следующего из (Д.13), приводит к (4.74). л=1 к = 1 Теорема доказана. 1.Д.130. Доказательство теоремы 1.4.5. Докажем два вспомогательных утверждения. Лемма 1 Д.1. Пусть к = 1,.. . , г, - центрированная последователь- ность независимых с.в. размерности N, имеющих одинаковое распределение F. Пусть для некоторого а > 0 выполнены при любом k > 1 неравенства / |z|2* F (dz)<(2*- 1)!!а2*, (Д17) /|z|2* + I F (dz)<(2Jt+ l)!!a2* + 1. Тогда при любых е > 0, к Е (0, 1) и натуральном t выполнено неравенство Р{|---S zfc|>e)<(l -Kp^expl-------------- (Д.18) t к- 1 \ / 74
Доказательство леммы 1.Д.1 основано на неравенстве / О2г2\ / |z|2\ Р{|5Г| >г}< (2тг) ^2ехр^-----—у/Л/ехр l-az*Sr-----2~/z, (Д.19) 1 t где о- произвольное число и5г=^7 S zk. Неравенство (Д.19) легко устанавливается с помощью неравенства Чебышева [86]. В силу незави- симости и одинаковой распределенности c.b.{z*}c учетом (Д.17) имеем МеогЧ= h [1 + S —M(z*z,)*] < /=1 *=i гк/2к! < оо a2klzl2ka2k 00 1И2* 1 kl2* 1 а2* 1 ‘ 1 + S 1 + 2 --------------------- к = 1 t (2&)! • к = 1 + у2 ^jt) I! <[^2/2+p(Z'2-l)]'<ep\ гдер = a [а| |z| t 1/1 . Из (Д.19) получаем (|z I2 о2 г2 \ ------+ о2 а2 И2 ------jdz = 2 2 / / о2г2\ = ехр(----—)(1 - 2o2a2)~Nf2. Полагая г = ех/Ги о2 = —; , приходим к (Д.18). 2 а Лемма 1Д,2, В условиях теоремы 1.4.5 (стр. 65) при любом е > 0 спра- ведливы оценки S {f2{Xk)-Mf(xk)} *=1 2 . > 2 ехр Р{| Ф, — > е}=С 2^ ехр(— - ), \ 64СлСу/ Р{х/8р(Л,-Л)(Л,-Л/> е}< 2*2 ехр (— Гс1(са^ > 5<с- \ о / (т, =argmin W, (т)). (Д.20) (Д-21) (Д.22) (Д.23) Оценки (Д 20) - (Д.22) следуют из леммы 1.Д.1, если положить к = 3/4. Докажем (Д.23). Для векторатп минимизирующего функционал (4.77), справедлива оценка |т,| <|ЛГ_,| |ф,| < X min 1Фг1>где Л, - матрица, полу- ченная из At ’’вычеркиванием” столбцов и строк, номера которых отвечают индексам ’’отбракованных” векторов, Х„нП- наименьшее собственное зна- Г-1 / I г-l \г-1 чение матрицы Л [109 а]. Используя неравенство П ХА< ------- S , Jt=l J 75
имеем / г- IV -1 t \nin>deM, I—у) > det Л, Со1-''. \ 8рЛ,/ ~ , Неизвестно (109 а], что det At >6'' и №,| < y/caCf. Отсюда следует (Д.23). Перейдем к доказательству теоремы. Обозначим через Q ортогональный проектор в пространство значений матрицы Л. Нетрудно убедиться, что (2Ф = ф, и в силу этого ^(т,)- ^(7,) = /! +/2 +73 +Л, (Д.24) где т» - точка минимума функционала ^(т), Tt - вектор, определяемый из условия минимизации функционала (4.77), Л =т;(л,-л)т„ 12 = 2т;(ф-фт)9 1з = 7\-=1[f2(Xk)"Mf2 (**я ’ /4 = (Лт' ~ ^QA'lQ <Ат' - W и через Л-1 Q обозначена матрица, обратная к Л в пространстве ее значений. Здесь учтено, что ЛтФ = \[/. Члены h непосредственно оцениваются из (Д.20) - (Д.22). Оценим Р{|/4 | > т?}, т? > 0. Имеем Лтг - i// = (Л - Лг)т^ + f 1//г-1//+Лг7г- Теперь в силу (Д.20)-(Д.23) получаем / § \2V Р{|Лт,-1//|>т?}<2л/%-Ч ---- ) + 2yve“'Q + Р||Лгтг - ^,|> - , \ Са / I 2; (Д.25) где д = Зт?21 (210 Са Cf)~'. Для вектора тг известна оценка \Лгтг — фг1 < <\/Cy7V6‘([109 а],с. 32), поэтому при т? >NCfo получаем Р{|ЛГ7Г - > >т?}=0. Из (Д.2О)-(Д.25) окончательно имеем , а 4 f е1 Р {| W( (тг) - min W (т)| > е}< S Р |/J> -< т < 2 Г 1 2 ехр | — ,л Ч 2‘°Су / 3e2t\ + 2 ехр 1 - ———~ 1 И\ 2,0С}/ \6NCfb ЧТО при € > L— \nin к= I i ч; /6 \4Л/1 д, Зе2г / 6 \2Л/1 ~ | ) + 2n ехр - J ) + ?\cj j Ч 212С2\Са/ ( 4 J дает оценку теоремы.
ГЛABA 2 РЕКУРРЕНТНОЕ ОЦЕНИВАНИЕ В НЕКОТОРЫХ ЗАДАЧАХ ОБУЧЕНИЯ, ОБНАРУЖЕНИЯ И ИДЕНТИФИКАЦИИ В данной главе описанные в § 1.4 методы теории оценивания развивают- ся применительно к различным задачам обучения распознаванию образов (адаптивной классификации), обнаружения сигналов и идентификации динамических объектов. Более сложная задача адаптивной фильтрации изучается в главе 4, где для ее решения наряду с методами § 1.4 применя- ются методы оптимальной фильтрации, излагаемые в главе 3. § 2.1. СТОХАСТИЧЕСКИЕ АНАЛОГИ КОНЕЧНО-СХОДЯЩИХСЯ АЛГОРИТМОВ В ЗАДАЧЕ ОБУЧЕНИЯ В различных задачах распознавания образов и адаптивного управления применение получил метод рекуррентных целевых неравенств. Здесь мы коснемся лишь некоторых особенностей метода и приведем ряд новых результатов. Основу метода составляют обладающие свойством конечной сходимости алгоритмы, краткое описание которых приведено в § 1.4. Возможны раз- личные способы сведения задачи обучения и адаптивного управления к за- даче нахождения решения целевых неравенств. Проиллюстрируем такой способ в случае адаптивного варианта задачи классификации, рассмотрен- ной в п. 1.2.2°. 2.1.1°. Постановка задачи обучения распознаванию образов.Адаптив- ная классификация изображений (обучение распознаванию образов) от- личается от рассмотренной в п. 1.2.2° задачи автоматической классифика- ции отсутствием полной информации о распределении F, плотности P(x|Qz)h т.д. Однако предполагается наличие классифицированной (ко- нечной или бесконечной) последовательности изображений Х1=х(«1), Х2 =х(ш2), . . . , (1.1) т.е. заданы векторы признаков хк, относительно аргументов которых известно, какому из классов Ц изображений эти аргументы (изображе- ния) принадлежат. Последовательность (1.1) можно использовать, в прин- ципе, для восстановления (точного или приближенного) неизвестных рас- пределений и тем самым решить задачу классификации. По этой причине классифицированную последовательность (1.1) называют обучающей (тренировочной) последовательностью. Сведения о принадлежности изоб- ражений ык тому или иному классу интерпретируются как ’’указания учителя”: имеется в виду, что существует система, которая может воспри- нимать эти указания и использовать их для восстановления недостающих характеристик предъявляемых системе изображений. Такую систему 77
естественно назвать обучающейся (адаптивной), если в процессе ’’обуче- ния” она обеспечивает определение (с необходимой точностью) априори неизвестного параметра £, минимизирующего функционал (1.2.5). Выяс- нение условий, при которых задача обучения разрешима, и построение самих алгоритмов обучения (адаптации) составляет основу теории обуча- ющихся систем. 2.1.2°. Задача обучения в детерминистской постановке. Мы ограничим- ся рассмотрением лишь некоторых частных вариантов задач теории обу- чения. Качество работы обучающейся системы определяется значением функционала среднего риска (1.2.5), при этом качество будет тем выше, чем меньшее значение принимает функционал. Ограничимся изучением случая, когда за правильную классификацию система не штрафуется, а при неправильной классификации штраф одинаков для всех изображений. Это соответствует выбору матрицы штрафов с элементами с/7 = (1 -8ц)с, (1.2) где с — положительное число, 6Z/— символ Кронекера. Функционал (1.2.5) в этом случае принимает вид /V - /v t . W(£) = c S X р(х|Я/)Р(П/)</х = с S P{x-‘ [Xza)J П S2}, (1.3) f=i /=i где = Q \ - множество изображений, дополнительное классу П,-; х"1 [X] - полный прообраз в Q множества X, определяемый отображени- ем х (со): П -► Rz. Величина N Р(П= s Pfr-UXJO] АП,.} (1.4) i = 1 имеет смысл относительного числа ошибок при следующем правиле приня- тия решения: принимается гипотеза [со Е fi.J, если х (со) ЕХу (£). Поэтому величину Р(£) называют вероятностью ошибки распознавания, отвечающей параметру £. Таким образом, функционал (1.2.5) оказывается пропорцио- нальным вероятности ошибки распознавания, и TV-разбиение {X- (£)} прост- ранства Rz, определяемое минимизацией функционала (1.3), соответству- ет минимуму ошибки распознавания (1.4). Наименьшее значение ошибки распознавания зависит от множества S, в котором ищется оптимальное значение параметра £. Предположим, что на множестве Z определена функция т (£) со значе- ниями в подмножестве? некоторого евклидова пространства: т : Z -+ Т. Предположим также, что на множестве Rz определенье вещественных функций 10! (т, х),..., ip/v (Л *)» зависящих от векторного параметра т. Примем, что разбиение {Xz (^)} определяется с помощью соот- ношения. Xj (О ={х: [т (|), х] > max [т ($). х]} . (1.5) Множества XZ/(£) ={х: [т ($), х] = [т (£),х]} условимся для определен- ности относить к множеству X- (£), если i < j. Это позволяет непересекаю- 78
щиеся множества (1.5) рассматривать как/v-разоиение пространства Rz N (поскольку теперь U X, (%)'= Rz). /=1 В данном случае функционал (1.3) зависит, по-существу, от конечно- мерного векторного параметра т: ^(О = /[т(О] (1.6) и задача сводится к минимизации функционалаJ [т] на множестве?. В дальнейшем предполагается, что минимум функционала / [т] на множест- ве Т достигается по крайней мере в одной точке т = т*. Описанная конструкция параметризации множества TV-разбиений прост- ранства R* носит достаточно общий характер, и мы ограничимся рассмотре- нием лишь этого случая. Предположим теперь, что min /[т]=0. (1.7) тет Это предположение означает, во-первых, что образы х (Я7) в пространстве Rz классов изображений Я7 не пересекаются и, во-вторых, рассматриваемое семейство разбиений (1.5) содержит разбиение, с помощью которого осу- ществляется безошибочная классификация (соответствующая вероятность ошибки распознавания (1.4)равна нулю). Условные вероятности Р (Я7 |х), если они существуют, принимают тогда лишь два значения - нуль либо еди- ницу. Такая особенность рассматриваемой задачи обучения послужила пово- дом назвать ее детерминистской (т.е. допускающей безошибочную класси- фикацию изображения со по соответствующему набору признаков х (со)), как об этом уже упоминалось в п. 1.1.6°. В случае невыполнения хотя бы одного из приведенных выше двух условий задача обучения называется сто- хаотической: безошибочная классификация здесь невозможна и оптималь- ное решение гарантирует лишь минимум (не равный нулю) вероятности ошибки распознавания. Далее ограничимся исследованием детерминист- ской постановки задачи обучения. 2.1.3°. Метод рекуррентных целевых неравенств. Введем функцию 1 Л(пр <•*) - — где х (Я.) - образ в пространстве Rz класса изображений Я при отображе- ниих (со): Я Rz и(х) — индикатор этого образа. Тогда задача оптимальной (безошибочной) классификации может быть переформу- лирована как задача нахождения векторного параметра т такого, что для почти всех (в смысле распределения F, порождаемого с.в. х (со)) точек х G Rz выполняются неравенства </)(т,х)>0. (1.9) Неравенства (1.9) в силу (1.7) разрешимы, однако решение этих неравенств может быть неединственным. В этом случае любое решение неравенства (1.9) обеспечивает равенство нулю вероятности ошибки распознавания (1.4). Таким образом, задача оптимальной классификации изображений свелась к задаче нахождения какого-либо решения т неравенств (1.9). [^(т,х)-тах (т, х)], (1.8) у (ту х) = min / I 79
По этой причине неравенства (1.9) называют целевыми, точках здесь игра- ет роль ’’номера” соответствующего неравенства. Для вычисления в точке (т;х) функции »р(т,х) по формуле (1.8) необ- ходимо знать значение величин Jх (х), j = I,... , N. Если эти величины известны при всехх, то проблемы обучения не существует: при сделанных выше предположениях принятие гипотезы [о; Е Ц ] при выполнении усло- вия х (о?) Е приводит к безошибочной классификации. Однако множест- вах(П,)нам неизвестны. Если задана классификационная'обучающая пос- ледовательность (1.1), то на элементах этой последовательности значения величины Jx (и ) [х (<*>*)] известны: относительно изображений со* пред- полагается известной принадлежность их тому или иному классу, а включе- ние Ей, в силу сделанных предположений приводит к включению хк =х (gjjJGx (Ц), что и позволяет вычислить значения всех характеристи- ческих функций Л(П/) Задание значений Jx (и,) (*к) на тренировоч- ной последовательности интерпретируется как ’’указания учителя”, и имен- но эта.информация должна служить основой для обучения классифицирую- щей системы. Итак, на обучающей последовательности (1.1) значения функции (1.8) известны и так получаемые неравенства <р(т,хЛ) >0, к = 1,2,..., (1.10) могут быть использованы для отыскания нужного вектора т. Система не- равенств (110) представляет собой подсистему неравенств (1.9), и выбор этой подсистемы зависит от конкретной реализации обучающей последова- тельности. Поэтому подлежит специальному исследованию вопрос о том, в каких случаях решения системы (1.10) являются и решениями системы (1.9), т.е. обеспечивают безошибочную классификацию. В ряде случаев возникает необходимость последовательного решения системы неравенств (110), т.е. приближение rt к решению неравенств (1.10) приходится искать в виде (1.11) не ’’дожидаясь” появления последующих элементов обучающей последо- вательности. Выбор функции Ф в (1.11) задает алгоритм определения оценок тг, и эту функцию нужно выбрать так, чтобы обеспечивалась схо- димость последовательности{тт} к решению системы неравенств (1.10). При этом может оказаться, что выбор предъявляемого обучающей системе изображения со, + i в момент t + 1 зависит от предыстории обучения, =Ф(Лт'ьх{), (1.12) т.е. зависит и от того, какой будет выбран алгоритм (1.11). В этом случае неравенства (1.10) не являются ’’заданными” заранее, очередное неравен- ство в момент t + 1 формируется лишь после того, как будет найдена оценка тг. По этой причине неравенства (1.10) называют рекуррентными целевыми неравенствами. Итак, задача состоит в построении процедур вида (1.11) для нахождения решения рекуррентных целевых неравенств (1.10). Такие алгоритмы при определенных предположениях о свойствах функции \р(т,х) могут быть построены. Ниже ограничимся обсуждением лишь того случая, когда обучающая последовательность формируется слу- 80
чайным и независимым образом: элементы xt последовательности ,(1.1) яв- ляются независимыми с.в. с одинаковым распределением F. В этом предпо- ложении, типичном для задач обучения распознаванию образов, в § 1.4 бы- ла приведена теорема 1.4.1, определяющая условия, при которых процедура Tt+I =Tt + S (xt,Tt)4ft(T„Xt) (1.13) независимо от выбора начального вектора Ti за конечное время обеспечи- вает сходимос1ъ с вероятностью 1 последовательности {тг} к некоторому решениютсистемы неравенств (1.10). В процедуре (1.13), напомним, 0 (х, т) — индикатор множества{х, т: *р(т,х) <0}и (т,х) —функция,опре- деляющая конкретный алгоритм. Алгоритм (1.13) представляет собой весьма специальный вариант алгоритма (1.11). Здесь мы продолжим изуче- ние свойств рекуррентной процедуры (1.13), предполагая ее конечно-схо- дящейся. Процедура (1.13) соответствует случаю, когда множество Т возможных значений параметра т совпадает с евклидовым пространством. Несложно провести аналогичное исследование, если Т является выпуклым подмно- жеством евклидова пространства, причем известна проекция Р? на множе- ство Т. Процедуру (1.13) при этом следует заменить на Tr+ 1 = РТ 1Т/ + в (Х'’ Tt> • Ограничимся лишь этим замечанием о возможности обобщения приводи- мых ниже результатов. 2.1.4°. Среднее время сходимости конечно-сходящихся алгоритмов. Число шагов алгоритма (1.13), за которое достигается lim тг = тж, [ —* оо зависит как от выбора начального вектора 7j, так и от реализации обучаю- щей последовательности х Г = (х1 ,х2 .•••)• Для случайных обучающих последовательностей эта величина является случайной, и для-приложений важны ее статистические свойства. Естественным представляется введение усредненного по реализациям х Г числа шагов алгоритма, требуемых для достижения предельного значения. В случае независимых обучающих после- довательностей такой анализ статистических свойств конечно-сходящихся алгоритмов оказывается достаточно эффективным. Определение 2.1.1. а) Временем сходимости процедуры (1.13), отвечаю- щим набору Ti = col (7i,... , 7Г), называется наименьшее натуральное чис- ло/V = /V(7i,x7)^7 =(*ь*г+1,' • •)> Для которого выполнено условие 0 (хк, тк) = 0 при к > t + N. Средним временем сходимости процедуры (1.13), отвечающим набору т{, называется величина Г(71') = М{N (г[,<) | т{}. (1.14) Здесь усреднение производится по распределению, определяемому с.в. *7- Предполагается, что выписываемые условные математические ожидания существуют. б) Числом коррекций (исправлений) процедуры (1.13), отвечающим набору 71, называется с.в. Г(71\Х7)= £ 0(xk,Tk); (1.15) k~ t 81
Средним числом коррекций процедуры (1.13), отвечающим набору rf, называется величина Л (т{ ) = Af {г (rf ,х^) I т{}. (1.16) Среднее время сходимости и среднее число коррекций процедуры (1.13) и будут основными объектами дальнейшего исследования. Будем предполагать, что последовательность хГ, используемая в про- цедуре (1.13), состоит из стохастически независимых с.в. с одинаковым распределением F. Тогда, очевидно, функции (1.14), (1.16) обладают свой- ством марковости: Т(т{) = Tf (т),R = (т) при тг = т, т.е. эти функ- ции в момент времени t определяются значением последнего элемента последовательности т{. Введем множество Г(т)= {x£R': ^(т.х)<0), (1.17) которое можно интерпретировать как множество ошибочных классифика- ций, определяемых вектором т. Пусть р (т) - F-вероятность этого множества р (т) = F {Г (т)}, (1.18) которая, как нетрудно убедиться, в рассматриваемом случае совпадает с величиной (1.4). (Напомним, что задача обучения рассматривается в детер- министской постановке, когда выполняется условие (1.7) и гипотеза |coG Е ПД принимается при выполнении условия [т,х (cu)] > max [т, х (со)].) Лемма 2.1.1. Если р(т)Ф$, то для величин Tt (т), R f (т) выполняются рекуррентные соотношения Т, (т)= 1 + [1 —р (г)] Г + .(т) + f Т [т+ф,(т.х)] F (dx), (1.19) Л, (т) = р(т)+(1 - р (т)] Яг+1 (т)+ J Я/+1 [т + ф,(т,х)] F (4/х).(1.2О) Если к тому же функция ф, (т, х) от t не зависит, (т, х) = ф (т, х), то среднее время и среднее число коррекций, отвечающие вектору т, от време- ни t не зависят, Tt (т)= T(r),Rt (т) = R (т), и соотношения (1.19), (1.20) превращаются в интегральные уравнения для определения функций Т (т), R (т): Т(т)=р Чт) + р-’(т) Г Г [t+V/(x,t)] F (dx), (1.21) l(T) Я(т)= 1 +Р1 (т) f R [т + ф (х, т)] F (dx). (1.22) Нт) Соотношения (1.21), (1.22) справедливы прир (т)¥= 0. Если жер (т) = 0, то Т (т) = 0, R (т) = 0 в силу определения 2.1.1. С помощью функции Г(т) можно конструировать, например, такие величины: 1. 7т = suj3 Г(т), Т — заданное подмножество пространства параметров т. 2. D(t) = М {N2 3 (т,х~)} - Т2(т) ~ дисперсия времени сходимости. 3. Гср -М {N(t.x?)} = МтТ(т) - среднее по распределению начального 82
вектора время сходимости. В последнем случае предполагается заданным распределение начального вектора rt = т. Для величины D(r) также мож- но получить интегральное уравнение при р(т)#0: р(т) D(r) + [ 1 - Т(7)]2 = [ 1 - р(т)]2 Т2 (т) + + f { Г2[т + ф(т, х)] +D[t + ф(т,х)]} F(dx). У(т) Аналогичное уравнение имеет место для дисперсий М {г2 (т,х?)} - R2 (т) числа коррекций алгоритма (1.13). Далее основное внимание уделяется величинам Т(т) и R(r) . 2.1.5°. Алгоритм случайного поиска с линейной тактикой. Гомеостат Эшби. Значительное внимание в задачах адаптации уделяется алгорит- мам случайного поиска. Типичным примером подобного рода процессов является алгоритм функционирования гомеостата Эшби. Алгоритм мо- жет быть описан процедурой (1.13), в которой х = со10>, z), <р(т,х) = Ф(т, j), фг(т,x)=z - т, (1.23) а с.в. zt стохастически независимы от rt, хь х2,..., xt_ j и имеют одина- ковое распределении G. Переменные yt описывают состояние гомеостата, rt - его параметры. Цель функционирования гомеостата - поиск параметра т, удовлетворя- ющего с некоторого момента времени условию Ф(т,yt)> 0 (124) (для гомеостата Эшби это условие определяет устойчивость системы ли- нейных дифференциальных уравнений, коэффициенты которых описы- ваются векторным параметром т). В момент нарушения целевого усло- вия ^(тг, хг) > О параметр Tt заменяется параметром тг+ь совпадающим со значением с.в. zf, которая не зависит от предыстории процесса х[-1. До следующего момента нарушения целевого неравенства значение пара- метра Tt+i сохраняется. Алгоритмы, работающие по такому принципу, иногда называются алгоритмами случайного поиска с линейной такти- кой. Если множество ’’устойчивых” значений т (точнее, множество реше- ний т системы неравенств Ф(т,у)>0 при любом у) имеет положитель- ную (7-вероятность, то среднее время сходимости алгоритма с линейной тактикой конечно и может быть найдено из соотношения (1.21). Имен- но, справедлив следующий результат. Теорема 2.1.1. Предположим, что для алгоритма (1.13), (1.23) с ли- нейной тактикой выполнены условия: I. С.в. уt стохастически независимы и имеют одинаковое распределе- ние F. 2. С.в. zt стохастически независимы и имеют одинаковое распреде- ление G. 3. Множество То ={т: Ф(т,у)>0 для F-почти всех у} имеет ненуле- вую G-вероятностъ: Ро=6{То}*0. 83
4. Для начального вектора rt =тв процедуре (1.13), (1.23) выполне- но неравенство p(r}-f {у. Ф(т, у) < 0} =# О. Тогда для среднего времени сходимости Т(т), среднего числа коррекций R(t) и дисперсии времени сходимости D(t) алгоритма с линейной такти- кой имеют место формулы Дт) = Тср + р-’ (т), Л(т) = ро'. = D + (1-25) Здесь 7’ср=Ро' , f p-'(r)G(dr). !т\т0} £> = Ро* J р-'(г)|2Г(т)-1]G(Jt), (1.26) (Т\то) ф-) = р’2(т)[1 - р(т) - Т2срр2(т)]. Первая из формул (1.25) показывает, что среднее время зависит от р(т) и если величина р(т) мала (т.е. вектор т уже достаточно близок к множеству То), то среднее время сходимости будет большим. Среднее же число коррекций, как следует из второй формулы (1.25), не зависит от выбора т и определяется лишь G-вероятностью множества То решений системы неравенств (1.24). Дисперсия среднего времени сходимости, как следует из последней формулы (1.25), существенно зависит от выбо- ра начального вектора т в алгоритме с линейной тактикой. Отметим, что если бы выбор параметра т в соответствии с распределе- нием G происходил на каждом такте алгоритма, то среднее время сходи- мости совпадало бы, очевидно, с величиной pj1. При этом, однако, не производится проверка "качества"случайно выбираемого параметра, как это имеет место в случае гомеостата Эшби. Проверка качества параметра тг увеличивает среднее время сходимости и делает его зависящим от выбо- ра начальной оценки т. Случайный поиск с линейной тактикой представляет собой типичную процедуру случайного перебора. В теоретическом плане эта процедура является универсальной, позволяя, в принципе, получать решения широ- кого класса задач обучения, идентификации и адаптивного управления. В практическом плане использование этой процедуры может потребовать больших затрат времени на получение нужной оценки, особенно если ве- личина р0, как это случается в многомерных задачах, мала. Тем не менее, алгоритмы случайного поиска могут составить конкуренцию регулярным алгоритмам (например, алгоритмам градиентного типа), если целевая функция "сложно организованная", т.е. затруднено вычисление этой функции или ее производных при х = хьх2.........В любом случае формулы (1.25) естественно использовать для выяснения эффективности различных алгоритмов адаптации по сравнению с алгоритмом случайно- го перебора. 2. 1.6°. Марковские цепи, связанные с конечно-сходящимися проце- дурами. При дополнительных предположениях процедура (1.13) естествен- ным образом порождает марковскую цепь. Знание матрицы переходных 84
вероятностей этой цепи дает исчерпывающую характеристику свойств процедуры и позволяет установить важные свойства рекуррентной проце- дуры (113). Остановимся на этом вопросе подробнее. Будем относительно процедуры (1.13) предполагать выполненными следующие условия: 1. фг(т,х)= ф(т,х). 2. С.в. xt стохастически независимы и имеют одинаковое распределе- ние F. 3. С.в. xt принимают значения из конечного множества . . . Введем отношение эквивалентности для векторов тЕТ. Будем гово- рить, что векторы т\ т" из множества Т эквивалентны, если для произ- вольной последовательности x",xteX, для последовательностей т/00 итГ, определяемых процедурой (1.13) соответственно при начальных данных т{ = т и т" = т”при всех t выполнены неравенства *(Л,Х'Ур(т",хт)>Ъ. Другими словами, для эквивалентных векторов т, т” получаемые с их помощью векторы т'г, т, изменяются или не изменяются в силу проце- дуры (1.13) одновременно. 4. Предположим, что определенное только что отношение эквивалент- ности порождает не более чем счетное разбиение {Т*} Д = 0, 1, ... мно- жества Т, причем а) То = {т: ^(т, х) > О при Vx Е X} Ф ф. б) Для любого ограниченного множества Т' С Т существует ограничен- ное множество Т"С Тео свойствами: если rt ЕТ\ то для произвольной последовательности х7,^г порождаемые процедурой (113) векторы rt не выйдут из множества Тм. $ в) Существует натуральное число s = s(T') такое, что Т”С и Т/, где г = о Т', Т" - множества из условия б). Отметим, что условия 1—4 выполнены для широкого класса конечно- сходящихся алгоритмов. Ограничиваясь начальными векторами TjET', определим величины Рц соотношениями р/; = F{ х G г+т)^(т,Х) ST/, rGT,} . (1.27) Множества Tf,/ = 0, 1, . . . , s, назовем состояниями., тогда формула (1.27) определяет вероятность перехода из состояния Т, в состояние Ту. Тем самым определена марковская цепь с матрицей Р = {р;;} S пере- ходных вероятностей. Число состояний цепи равно $ + 1. При сделанных предположениях состояние То является поглощающим (рОо = 1,Ро/ = О при / ^0), а все остальные состояния - невозвратными (если из pZ/ > 0 следует ру/ = 0). Если обозначить через я вектор начальных распределений на множестве состояний (вектор я имеет s+ 1 компоненту, которые неотрицательны и в сумме равны единице), то компоненты вектора я,= [Р*]'я (1.28) являются распределениями вероятностей на состояниях марковской цепи 85
после t тактов алгоритма. В силу конечной сходимости процедуры (1.13) последовательность (1.28) имеет предел lim itt = е0, г-”» (129) где е0 =со!(1, 0, . . . , 0) - (s + 1)-вектор распределения, сосредоточен- ный на состоянии То. Предельное соотношение (1.29) означает, что не- зависимо от выбора начального вектора т последовательность rt, порож-. даемая процедурой (1.13) при сделанных выше предположениях, сходит- ся и Too = lim Tt G To. r—oo _ _ Из (1.28), (1.29) следует, что Р*е0 =е0. Это означает, что матрица Р имеет следующую структуру: 111 о (1.30) где s - вектор е = col (1, . . . , 1), I - единичная s X s-матрица и L - s X s-матрица, все собственные значения которой по модулю меньше еди- ницы. Согласно описанной выше конструкции все точки т G имеют одно и то же время сходимости и, следовательно, одинаковое среднее время сходимости и среднее число коррекций. Поэтому будем эти времена от- носить к состояниям цепи, полагая г/=г(т1,хГ), т, етл 'Т/ = М {Nf\Tl },Rj=M {rj In }, j = 0, 1,..., s. По определению Го =7V0 = 0, r0 =Я0 = 0. В следующем утверждении соб- раны свойства, известные для однородных марковский цепей с конечным числом состояний. Теорема 2.12. При выполнении условий 1-4 справедливы следующие утверждения: а) Скорость сходимости последовательности оценок т~, порождаемых процедурой (1.13), показательная, т.е, для величины р,= 1 - Р{т, GToIr, GT'} справедлива оценка где С и\ - некоторые положительные постоянные, X < 1. б) Для среднего времени сходимости Tj алгоритма (1.13) (из началь- ного вектора Т! GTZ) и среднего числа коррекций Rj справедливы фор- мулы Tj = е* (/ - £)-* е, Rj = ej (/ - Lyl (е - diagi), diag£ = col(£,, ,Z.22, .. Dj=M{(Nj - Г,)2 |т, GT/} = 2eJ L(I - L\2e + Tf- Tf, / = 1,... (1.31) 86
где ej - s-векторы, j-я компонента которых равна 1, а остальные - нулю; е - ер в) Если начальный вектор тх в процедуре (1.13) случайный и = p{tj ет,-},/ = о,... ,$, то время сходимости Тср, среднее по состояниям, и его дисперсия Dcp вычисляются по формулам ТСр * М {ЛЧт,, *Г)} = 7Г• (/ - L)-* е, Рср =М[А(т, ,хГ) - Тср]2 = т‘£(/ - Ь)~ге + Гср - Т2Р(1 - тг<°>), где я-со1(я^*\... ,я^). 2.1.7°. Алгоритм вычисления среднего времени сходимости и среднего числа коррекций. Вычисления по формулам (1.31) быстро усложняются с увеличением числа s состояний марковской цепи, управляемой проце- дурой (1.13), поскольку построение матрицы Р в этом случае - зесьма трудоемкая операция. Приведем способ вычисления среднего времени сходимости и среднего числа коррекций, отвечающих заданному вектору т. Этот алгоритм основан на лемме 2.1.1, но не связан с построением матри- цы Р. Итак, пусть выполнены условия 1-4 п. 2.1.6°. Соотношение (1.21) запишется в виде Т(т) X Р/=1+ S Р/Лт+^КлХ,)], (1.32) /е/(т) /е/(т) где XjEX - возможное значение с.в. xt (см. условие 3), Р/ = Р{х(си)= = X;} и /(т) = {j : <р(т, Xj) <0} - множество индексов, для которых век- торы Xj удовлетворяют указанному неравенству в предположении X р; Ф 0, в противном случае Т(т) - 0. /е/(т) Рассмотрим дерево Д(т) вывода процедуры (1.13), построенное сле- дующим образом. 1. Начальному вектору т соответствует вершина = Л<°)(т), /(Л<°)) == = /(т). Вычислим векторы = т + 0(т,X,) при jEI(A^). Каждому из этих векторов сопоставим вершину Л/1^ = Л(1\т7) первого уровня, которую соединим с вершиной Л^0) дугой с индексом / . 2. Далее построение дерева Д (т) проводим по индукции: пусть дана вершина^-го уровня, отвечающая вектору т, А= Л^чт). Определим множество индексов /(Л(/с))> отвечающее вершине Л(*\ соотношением £(Л^) = {/ : ^(т, Xf) СО}. Для индексов / 6 /(Л<*)) определим векторы T/=F+ 0(т, Xf) и каждому из этих векторов сопоставим вершину Л/*+1> (к + 1)-го уровня, Л}* += Л(Л + |)(т/). Вершину Л(*+1) соединим с Л(/с^(т) дугой с индексом/ . Ветвь дерева обрабатывается в вершине Л = Л(т), если 1(A) - ф. Существуют разнообразные конечно-сходящиеся алгоритмы, для кото- рых такое построение дерева Д (т) возможно и оно конечно. 87
Каждой вершине А дерева Д (т) сопоставим числа Т(А) и Я(4)следую щим рекуррентным способом : (( 2 Р/J”1, если /(т) 0, а) Т(Л(0))= /е/(т) I 0, если /(т) = ф. Я(Л(О))=Р’ если ' 0, если /(т) = ф. 6) Г(Л(*+1)) = R(A(k + 1)) = T(A^)pj[ S (k + i) Р/Г1 > если Л<А) и Л(А +1 > сое- 'е,(л > динены дугой с индек- ( сом/ и /(Л<А +1 >) Ф ф, * ’ ' О, если /(Л(л + 1)) = 0, R(A^)pj[ (ку Р/Г1» если Л(А) и Л(А + ,) сое- > динены дугой с индек- сом / и /(Л^+1 >) Ф 0, (1-34) если /(Л(* + 1)) = 0. Отметим, что пересчет Т(Л^ + 1^) и/?(Л<* + 1)) происходит по аналогичным формулам, но в (1.33) суммирование величин р, ведется по индексам дуг, выходящих из вершины Л**+1\ тогда как в (1.34) - по индексам дуг, выходящих из вершины Л Теорема 2.1.3. Справедливы формулы Т(т)= S Т(Л), Я(т)= S R(A). лед(т) лед(т) Если дерево Д (т) конечно, то теорема 2.1.3 позволяет эффективно вы- числять Т(т) и Я(т), определяя последовательно вклады Т(Л), R(A) для всех вершин дерева. Эту процедуру можно оформить в виде ’’левосто- роннего” обхода дерева Д(т), что позволяет на каждом шаге помнить лишь цепочку, соединяющую начальную вершину Л<0^ и текущую верши- ну Л, на что требуется конечное число вычислений и объем памяти, опре- деляемый наибольшей глубиной дерева. Наибольшая глубина дерева, равная максимальному числу коррекций процедуры (1.13), оценена сверху для многих конечно-сходящихся алгоритмов. Алгоритмы для подсчета Т(т) и R(t) однотипны и могут быть оформлены в виде одной программы. Сделаем несколько замечаний к теореме 2.1.3. 1. Для сокращения объема вычислений ’’несущественные” ветви дерева Д (т) можно отбрасывать и находить величину Т€(т) = S Г(Л). (1.35) zl: Г(Л)>е Тогда Т€(т)-> Т(т) при е->0. Если Т(т)<°°, что заведомо имеет место для конечного дерева, то усеченное дерево получается конечным. Форму- ла (1.35) позволяет вычислять Т(т) и для бесконечного дерева Д(т), т.е. и в случае, если алгоритм (1.13) не является конечно-сходящимся. 88
2. Предложенный алгоритм вычисления Т(т),Я(т) нетрудно распростра- нить на случай, когда в процедуре (1.13) функция 0г(т, х) имеет вид фгt(r,x), г,= £ 0(хк,тк), (1.36) к=1 т.е. когда определяющая алгоритм функция ф может зависеть от времени t, но эта зависимость носит специальную форму: функция Сможет изме- няться лишь с изменением числа коррекций алгоритма (1.13). Действительно, rt = г соответствует тому, что произошло г коррекций, и рассматриваемая при обходе дерева Д (г) вершина Л является вершиной г -го уровня. Так как уровень текущей вершины определяется в алгорит- ме (1.33), (1.34) автоматически, то вершина (г + 1)-го уровня вычисля- ется по формуле тк^тР + ФЛт^Х') (1.37) и алгоритм, в сущности, остается прежним. Отметим, что условие (1.36) выполнено для многих конечно-сходящих- ся алгоритмов, доставляющих решение системы линейных неравенств. 2.1.8°. Примеры конечно-сходящихся алгоритмов. Ниже перечисля- ются некоторые примеры функций ^(т,х), 0г(т,х), при которых проце- дура (1.13) является конечно-сходящейся. Сам факт конечной сходимости не доказывается. Доказательства могут быть найдены в работах, указан- ных в библиографических замечаниях. а) Алгоритм Ф.Розенблатта. Полагая ^>(т, х) = - (д(х), т), фг(т, х) =?а(х), (1.38) где а(х) - векторная функция со значениями в евклидовом пространстве Rw,(fl, т) - скалярное произведение в Rw,7 — положительное число, за- пишем (1.13) в виде ( rt» если (я(хг), Tt) > О, rf+i = (1.39) I rt +7a (xf), если (а(хг), тг)< 0. Алгоритм (1.39) - один из первых алгоритмов обучения, предложенный Ф.Розенблаттом. Он предназначен для настройки коэффициентов усиле- ния простейшего вида трехслойного персептрона, предназначенного для классификации предъявляемых стимулов (изображений) на два. класса. Математически последняя задача сводится к нахождению какого-либо решения однородной системы целевых неравенств (а(х), т)>0. (1.40) Предполагается, что множество решений системы (1.40) непусто и от- крыто. В данном случае функция ф((т,х) от t не зависит и пропорциональна градиенту функции ^(т, х). б) Алгоритм решения системы неоднородных неравенств. Выбирая функции <р(т,х) = - (а(х), т) + а(х), ф,(т,х) = у^х), (1.41) приходим к непосредственному обобщению алгоритма (1.39). Векгор- 89
ная функция л(х) и скалярная а(х) предполагаются известными. Алго- ритм (1.13) теперь запишется так: rf+) =Tt + 0(xt,Tt)yta(xr), ( 1, если (а(х), т) + а(х)<’0, 0(х,т) = * 0, если т) + а(х) > 0. (1.42) Алгоритм (1.42) предназначен для решения системы неоднородных неравенств (а(х,),т)+а(х,)>0, Г =1,2,... . (1.43) Предполагается,,что система (1.43) разрешима для любой последователь- ности Х!,Х2,. . . . Сходимость алгоритма (1.42) зависит от выбора неотрицательных чисел 7Г. Можно показать, что при выборе (ФД М + a(xt) S 7t~~7------Г7“м2------+ --- ’ Н*г)1 Kt t где у и 5 - положительные числа 0 < 7 < 2, и к r = 1 + S к= 1 ритм (1.42), (144) - конечное холящийся при условии sup |а(х)| < °°. .V (1.44) 9(хк,тк), алго- (145) Если функции а(х) и а(х) принимают лишь конечное число значений, то алгоритм (1.42), (1 44) за конечное число шагов доставляет реше- ние системы неравенств (1.43) (предполагается, что функции а(х), а(х ) на последовательности хьх2, . . . принимают каждое из возможных зна- чений бесконечно много раз; случайный характер последовательности Xi,x2, . . . при этом не существен). В последнем случае конечная сходи- мость сохраняется и при 5 = 0, но при этом может оказаться, что вектор Too = lim Tt удовлетворяет лишь условиям (а(х(),т.) + а(лг)>0. Отметим, что при 5=0 в алгоритме (1.42), (1.44) функция 0г(т,х) от t не зависит. в) Алгоритм "Полоска". В задачах адаптивного управления целью управления обычно является обеспечение близости выходного сигнала объекта к некоторому известному номинальному его значению. Тако- го рода условия приводят к целевым неравенствам вида |(a(xf), т) + a(xr)| < е, (1.46) где а(хг), а(хг) - векторная и скалярная функции выходного сигнала, т — параметр регулирования, е - заданное число, определяющее допус- тимую величину рассогласования. Условие (146) при заданных a(xt), а(хг), е определяет полосу в пространстве параметров {т}, а последова- тельность таких неравенств - совокупность полос. Требуется определить 90
параметр т, принадлежащий всем полосам, определяемым системой не- равенств (1.46). В данном случае <^(т,х) = е - |(а(х), т) + а(х)|, (1.47) ( 1, если |(а(х), т) + л(х)| > е, 0(х, т) = 1 0, если |(а(х), т) + а(х)| < е, и алгоритм (1.13) при выборе , . . (а(х),т)+а(х) |ДГ (Т, X) = - |а(х)|2 (1.48) принимает вид а. . («(*Дт,) + а(х,) Тг+1 = Т, - 0(x„ Tt)- -----. |e(*r)r Алгоритм (1.49), предназначенный для нахождения системы неравенств (1.46), имеет простую геометрическую интерпретацию: если вектор тг находится вне очередной полосы, т.е. |(а(х,), тг) + а(х,)| > е, то в качестве Tt + j берется ортогональная проекция вектора тг на середи- ну полосы, т.е. на плоскость (а(хг), т) + а(хг) = 0. Эта проекция и опреде- ляется формулой (1.49). Если же вектор тг находится внутри очередной полосы, то 0(xr, тг) = 0 и rf+i =тг, т.е. вектор тг остается без изменения. Из-за указанной геометрической интерпретации алгоритм (1.49) получил название "Полоска" Если система неравенств (146) разрешима в усиленном смысле: су- ществует вектор тф такой, что IM*r), г,) + a(xf)| < у, (1.50) то при выполнении условий (1.45) алгоритм (1.49) является конечно- сходящимся, т.е. за конечное время Z* достигается тж = lim тг, и при t > f-^ao выполнены неравенства |(д(х,), т^) + a(xf)| < е. (1.51) Если функции а(х), а(х) принимают лишь конечное число различных зна- чений и эти значения на последовательности хьх2, . . . принимаются ими бесконечное число раз, то вектор т» является решением системы нера- венств (1.46). (Без последнего предположения вектор т«,’как следует из (1.51), удовлетворяет лишь ’’хвосту” системы неравенств (1.46), сле- дующему после момента Г*. Выполнение неравенств при t<t* при этом не гарантируется.) г) Алгоритм "Модифицированная полоска". В ряде задач адаптивного управления предположение (1.45) о функциях от выходного сигнала 91
объекта весьма ограничительно, поскольку цель управления и состоит в обеспечении такой ограниченности. Отказ от (1.45) затрудняет дока- зательство конечной сходимости алгоритма (149). Приведем модифика- цию алгоритма ’’Полоска”, при которой доказательство конечной схо- димости не требует предположения (1.45). С этой целью вместо (1.47) рассмотрим функцию х) = е, + е2 |а(х)| - |(д(х), т) + а(х)|, (1.52) где е.2 - положительное число. Тогда алгоритм (1.49) будет конечно-сходя- щимся (в предположении об усиленной разрешимости (1.50)) при 0(х, т) = | 1, если | (л(х), T) + a(x)|>et + е2 |л(х)|, I 0, если | (а(х), т) + a(x)| < ej + е21 а(х)|. (1-53) Теперь алгоритм (1.49), (1.53) за конечное время Г* доставит вектор г» = lim rt такой, что при f > г* будут выполняться неравенства Г-мю |(д(хг), Too) + a(xr)| < + е2 |a(xf)l- (1 -54) При этом число е2 > 0 может быть выбрано сколь угодно малым (разу- меется, момент может зависеть от выбора е2). С точки зрения прило- жений неравенства (1.54) часто оказываются несущественно отличающи- мися от неравенств (1.51), если =еи е2 выбрано достаточно малым, в то же время при установлении сходимости алгоритма (1.49), (1.53) условие (1.45) не предполагается выполненным. д) Алгоритм построения комитета неравенств. Все предыдущие приме- ры конечно-сходящихся алгоритмов обладали свойством монотонной сходимости: |тг+1 - тф| < |rf - тф|, где тф - любое из решений соответ- ствующей системы неравенств. Приведем пример конечно-сходящихся алгоритмов, где такой монотонности нет. Алгоритм (1.42), (1.44) был предназначен для построения плоскости, разделяющей два класса изображений в пространстве признаков. Предпо- ложение о разрешимости системы неравенств (143) означало, что такая плоскость существовала (т.е. классы изображений в пространстве приз- наков оказались линейно-разделимыми). В более общей ситуации может оказаться, что классы изображений Хх, Х2 в пространстве признаков не пересекаются (и, более того, отделены друг от друга положительным расстоянием), но не являются линейно-разделимыми. В этом случае, как можно показать, существует конечный набор векторов {и^} и чисел = 1,. .., А7, такой, что для любого х € Х\ выполняется N /ч. /ч Е sign[(i4z)»*)+ >0» (1.55) /=1 тогда как для любого х G Х2 выполняется Е sign [(i/V\*)+ 6V>] <0. (1.56) /=1 92
Здесь signa = 1 при а > 0, signa = - 1 при а < 0. Введя функцию ( 1, /(*)= « 1 — 1, хЕХ2, эти два условия можно записать в виде неравенства sp(t„x)>0, x£XkUX2, (1.57) *(т,х) = S sign[(/(x)x,M(/))+/W5(/)], (1-58) /=1 7 = (7<‘>....7<">), 7<'M ..Л \ 80)/ Неравенства (1.55), (1.56) имеют следующую геометрическую интерпре- тацию: каждая точка х из Хх находится в положительных полупростран- ствах по отношению к большинству плоскостей, определяемых векторами {и[^} и числами (5, тогда как для точек хЕХ2 положение обратное. Если величину sign [(м^,*) + 5^] интерпретировать как ’’голрс, пода- ваемый выборщиком ” в пользу вектора х, то принятие реше- ния о принадлежности х первому или второму классу производится по большинству ’’голосов”. По этой причине набор {wp\ 8$^} называют ко- митетом порядка N неравенств (1.55), (1.56), так как в соответствии с указанным принципом он позволяет произвести безошибочную классифи- кацию всех точек UX2 - При N = 1 комитет состоит из одной плос- кости, определяемой тф =со1(мж,5а), и мы оказываемся, по существу, в условиях примера а). По аналогии с этим примером можно сформулировать следующий алгоритм рекуррентного построения комитета неравенств (1.55), (1.56) (или, что то же самое, неравенств (1.57), (1.58)). = «<» - е(х„ 1 + W2 (159) j =1,..., N, t =1,2,..... Здесь ( 1, если <р(т,х)<0, 0(х, т) = I 0, если <р(т, *)> О, где ьр(т,х) определяется формулой (1.58) и - подходящим образом выбираемые неотрицательные числа. При N= 1 процедура (1.59) совпа- дает с (1.39),если а) *0+ , /*л -/"гЛ Ъ (М(,,,,*г) + «(г*)’ Л(Х,)"(17’ 93
f 1, если д Выше уже говорилось, что алгоритм (1.39) обеспечивает монотонное приближение векторов тг к вектору т*. При 7V>1 никаким выбором скалярных величин у}'* такой монотонности обеспечить не удается. Тем не менее, можно показать, что конечная сходимость алгоритма (1.59) будет иметь место, если xt - стохастически независимые с.в. с одинако- вым распределением F, сосредоточенным на конечном множестве XjU и%2 (т е. xt могут принимать лишь конечное число различных значений) и величины выбираются следующим образом: -уО) = -у. q^\Tt,xt)r^\Xt), (1.60) где 7 - постоянная из интервала [1,2], 1, если /(*f)[(uP,xf) +бР] <0, 0, если f(xt) [(«Р, х,) + 6^] >0, (1.61) г=Л г ' VAr 7 — I I 0, если Xt Xt - последовательность независимых с.в., удовлетворяющих при лю- бом t условиям Р{ХГ=/} = ЛГ'1, 7=1,... Л. При этом, разумеется, предполагается, что неравенства ^(т, х)>0, хЕ G Xi U Х2 - разрешимы, т.е. что существует комитет порядка N. Доказательство конечной сходимости алгоритма (1.59) - (1.61) сущест- венно опирается на теорему 1.4.1, так как включение в (1.60) с.в. Xt сде- лало его процедурой ’’случайного поиска”. При сделанных предположениях алгоритм (159) - (1.61) при любом начальном наборе . .., доставляет с вероятностью 1 за конечное время набор Too = ..., Атакой, что для любого х ЕХг U Х2 вы- полнено неравенство , х) > 0, т.е. за конечное с вероятностью 1 время будет найден комитет порядка Nсистемы неравенств ^(т,х) > о, хеххих2. § 2.2. ПРОЦЕДУРА СТОХАСТИЧЕСКОЙ АППРОКСИМАЦИИ В ЗАДАЧЕ САМООБУЧЕНИЯ В соответствии с постановкой задачи самообучения, дачной в п. 1.1.7°, основным для нас является вопрос о сходимости рекуррентной процедуры самообучения (см. (1.1.24)) А Tfbi=rt-yt S •/x,(7,)(^r)gradT</(.(xf,Tf), (2.1) являющейся стохастически градиентной по отношению к функционалу (1.1.21) в условиях леммы 1.2.1. Напомним, что в (2.1) (х, т) - весовые 94
функции, определяющие вид функционала (1.1.25), JXj(T) - индикатор множества Xj (т). Множества X/ (т) определяются весовыми функциями по формулам Х,(т) = [ П {qt(x, т) < <7у(х, т)} ] П [ П т) < ^(х, т)} J, (2.2) / > < / < / и 7г - неотрицательные числа, определяющие величину шага процеду- ры (2.1). 2.2.1°. Общие условия сходимости процедуры самообучения. При W = 1 имеем JXi (т) (х) - Iй процедура (2.1) становится процедурой Роббинса - Монро (1.4.41), (1.4.42) для функционала (1.4.33) при-б(х, т) = qi (х, т). В условиях теоремы 1.4.2 множество То в данном случае является одното- чечным и процедура обеспечивает сходимость оценок {тг} с вероятностью 1 к точке минимума функционала W(r). При N> 1 функционал (1.1.25), как правило, многоэкстремален и проверка условий теоремы 1.4.2 не столь тривиальна и требует привлечения новых соображений. Тем не менее, оказывается, это можно сделать, что позволяет установить следующее утверждение. Теорема 2.2.1. Предположим, что выполнены условия '. 1. Весовые функции qf(x, т) в функционале (1.1.25), (2.2) дифферен’ цируемы по т, и их градиенты удовлетворяют при любых векторах т, т неравенствам N 2 J I gradr q^x, т + т’) - gradr <?z(x, т)|2 F(Jx)<C' | т |2, (2.3) f=l Х/(т) N 2 f lgradT(/z(x, t)|2F(Jx)<C" [1 + W(t)] (2.4) r=l XZ(7) 4 с некоторыми постоянными C’q, Cq. 2. Числовая последовательность {yt} удовлетворяет условиям 7f>0, S 1 T,=o°. (2.5) t = 1 r= I 3. Векторы xt являются стохастически независимыми с.в. с одинаковым распределением F. Тогда независимо от выбора начального вектора в процедуре (2.1) для формируемой этой процедурой последовательности векторов rt с ве- роятностью 1 выполняются соотношения lim t °° W(rt)=W.<~ (2-6) lim t —► оо И(7Г) = О, (2.7) где N Г(7) = 1 S / gradT (х, т) F(Jx) |2. /=1 Х/(т) ' (2.8) Отметим, что в теореме 2.2.1 не утверждается сходимость самих векто- ров rt. Установление такой сходимости возможно при более ограничитель- 95
ных предположениях о функционале IV(т). В соответствии с леммой 1.2.1 равенство. И(т) = 0 определяет стационарные точки функционала IV (т). Поэтому равенство (2.7) означает, что с вероятностью 1 векторы тг сходят- ся к множеству стационарных точек функционала IV (т) и W* - стационар- ное значение этого функционала. При этом не обязательно IV, = min IV (г): в многоэкстремальном случае градиентные процедуры не обязательно при- водят к'множеству минимумов функционала IV (т). Предел IV, является с.в. и на разных реализациях последовательности г Г может принимать различные значения. Вопрос о выяснении условий, при которых IV, — ми: нимальное значение функционала IV (т), сложен и требует привлечения новых предположений о нелокальных свойствах минимизируемого функ- ционала. В.качестве иллюстрации сказанного приведем некоторые из ре- зультатов подобного типа. 2.2.2°. Поглощающие множества. Определение 2.2.1. Множество Т7 в пространстве параметров назовем у-инвариантным для функционала IV (т), если при любых х G X и 7< у оно инвариантно при отображении N т-*т’ =т -у . JXj(T) (*) gradT q^x, т). 7-инвариантное множество Т7 назовем у-поглощающим, если при любых т, т Т7 и х G X выполняется /х/(т) W /= 1..... № (2.9) 7-поглощающее множество Т7 называется невырожденным, если min F{Xz(t)}^0, tGT7. (2.10) l < i < N Из определения 2.2.1 следует, что если 7 > 0, то при выборе в алгоритме (2.1) величин у г < у последовательность {т,}, порождаемая алгоритмом (2.1), при попадании в 7-поглощающее множество Т7 выйти оттуда уже не может. Поэтому в силу теоремы 2.2.1 каждому 7-поглощающему множест- ву отвечает хотя бы одна экстремальная точка функционала IV (т). Кроме того, после попадания в 7-поглощающее множество в силу выпол- нения условия (2.9) процедура (2.1) совпадает, по существу, с процеду- рой Роббинса - Монро (1.4.40) и наследует многие свойства этой про- цедуры. Если функции Ц;(х, т) выпуклы по т, ^(х, т) -qj(x, т') > > (т - /)*gradTty(x, т'), то всякая стационарная точка т« (т.е. точка, в которой grad IV (т) = 0), принадлежащая поглощающему множеству Т7, является точкой локального минимума функционала IV (т). Действитель- но, согласно определению 2.2.1 имеем N И'(т) - И/(т.) =2 / [<7 (х, т) - q (x, т.)] F(dx)> /=1 N > S / (т - т.)‘ grad т qAx,T,)V(dx) = 0. /=1 Х/(т.) 96
2.2.3°. Содержательные свойства поглощающих множеств. Поглощаю* щие множества существуют, если распределение F сосредоточено на мно- жестве, состоящем из N компонент, достаточно разнесенных друг от друга. При наличии поглощающих множеств последовательность т™, формируе- мая процедурой (2.1), обычно сходится к некоторым из поглощающих множеств (причем различные реализации могут попадать в различные поглощающие множества). Можно привести различные условия, при ко- торых высказанные утверждения становятся строгими, но здесь пока не получены окончательные результаты и мы ограничимся обсуждением не- которых частных случаев. Прежде всего приведем пример 7-поглощающего множества. Пусть мно- жество X значений.с.в. xt состоит из четырех точек плоскости где число а > у2. Будем предполагать, что эти значения принимаются рав- новероятно, т.е. Р {х, € Xj} = F {Xj} = 1/4, j = .1,2,3,4. Функции t/y (х, т) в функционале (1.1.25) примем следующими: 4у(х, т) = | х - 7^ I2, j ~ 1,2, 7 = со1(т(1\т(2)). (2.11) Формулы (2.2) теперь определяют множества %1(т), Х2 (т) как полу- плоскости Аг1(т) = {х: 2(x,r(t) т(2)) - | т(2) |2 + | т(1) |2 >0} , (2.12) Х2О’) = (х: 2(х, т(1) - т(2)) - | т(2) |2 + | т(1) |2 < 0} . Границей множеств (2.11) является прямая, проходящая через середину отрезка, соединяющего ’’центры” т(| \ т(2^ множеств Хх (т), Х2 (т), ор- тогональная этому отрезку. При стационарном векторе 7, = col (7^ \ 7^) должны выполняться соотношения (1.2.14), т.е. ' 7<° Z F{^.}= S X,F{Xy}. (2.13) Ху ex,(7) Ху ex, (т) Используя соотношение (2.12), (2.13), нетрудно убедиться, что функцио- нал W(t) имеет три стационарных значения, которым отвечают векторы т.ф= \ о / \ о / т(,)- (Q\ Т(2)- ( ° Y \ 1 / \ -1 / T(D_ \ _(2) _ ( bi \ Тз‘"\о/ Тз*’ LJ’ где bi, b2 - произвольные числа, удовлетворяющие условию Ь2 + Ь2 > >2(1 + а2). Таким образом, первым двум стационарным значениям функ- ционала И'(т) отвечают единственные векторы т, а значению 1 + а2 - век- торы т= со1(0, т(2)), где 7<2) - произвольный вектор с достаточно боль- шой нормой. т(2) - 73* - 97
Построим т-инвариантное множество для рассматриваемого функциона- ла И'(т) (см. определение 2.2.1). Оно должно оставаться инвариантам от- _ < U.V- /(* - г(,))Л-, (7) (*) \ носительно преобразования т = т + 27 I I , т = = соЦт^1), т(2)), 7 <7. Если выбрать у < 1/2, то этому условию будет удовлетворять множество Tj/2 векторов т вида: т = со1(т(1\т(2)), т(1)=аХ1 +0 -а)^, 7<2>=0Х3.+ (1 -0)Х», где а и /3 — произвольные числа из интервала [0, 1]. Множество Tt /2 яв- ляется поглощающим, поскольку в силу (2.12) для него выполняется ра- венство (2.9) при любых t,tfG Tj/2 и всехХь^, Х3, Х4.Оно,очевидно, невырожденно и содержит вектор тх« = col(т J V , т\2} ), на котором функ- ционал И^т) принимает наименьшее значение. Вектор т2* = со1(т2Р , т2Р) не принадлежит никакому поглощающему множеству, вектору т3 ♦ = co1(Tj^ , т^2? ) отвечает вырожденное поглощаю- щее множество. Отмеченные на примере свойства поглощающих множеств сохраняются и в более общей ситуации. Рассмотрим, например, функционал (1.1.25) при N = 2 и весовых функциях (2.11), где, однако, xt Е Rz, I. — произвольное натуральное число. Лемма 2.2.1. При N = 2 и функциях (2.11) два любых невырожденных у-поглощающих множеств имеют общую стационарную точку функцио- нала 1V(t). В условиях леммы 2.2.1 вырожденному поглощающему множеству со- ответствуют стационарные точки функционала И'(т), имеющие вид со1(тр\ т<2)), где тр)= / xF(dx) RZ — ’’центр тяжести” носителя X распределения F (F{X} = l),ar^2^ — произвольный вектор из Rz с достаточно большой нормой. Здесь предпо- лагается, что множество X, на котором сосредоточено распределение F, ограничено. Если т* — точка стационарности функционала И'(т), при- надлежащая невырожденному поглощающему множеству, а т0 — точка стационарности, принадлежащая вырожденному поглощающему множест- ву, то в условиях леммы 2.2.1 выполняется ^(rj < И'(то). Приведенный пример и высказанные соображения наталкивают на мысль, что невырожден- ное поглощающее множество должно содержать точку глобального мини- мума функционала W (т). Вообще говоря, это не так: легко построить при- меры, когда точка глобального минимума не содержится в поглощающем множестве, хотя оно не вырожденно. Рассмотрение подобных примеров показывает, что такая ситуация возможна лишь при ’’почти вырожденных” поглощающих множествах. Однако этот вывод носит не более чем эвристи- ческий характер. На этом уровне можно лишь утверждать, что в большом 98
числе естественных задач существенно невырожденные поглощающие мно- жества содержат глобальный минимум, и в таких задачах естественно надеяться на то, что в условиях теоремы 4.2Л процедура (2.1) будет схо- диться к точке глобального минимума функционала И'(т). 2.2.4°. Свойства процедуры самообучения при наличии поглощающих множеств. Приведем некоторые результаты о сходимости и оценке ско- рости сходимости процедуры (2.1) при наличии поглощающих множеств. Теорема 2.2.2. Пусть выполняются условия : 1. Стационарная точка т* функционала И'(т) принадлежит у-поглощаю- щему множеству Т7 и является единственной стационарной точкой в Т7. 2. Последовательность {хг} составлена из независимых с.в. с одинако- вым распределением F. З. Для любого т Е Т7 справедливы неравенства N S ( f grad т ty(.x, r)F(dx), т-т.)>а\т-т. I2, /=1 Х/(т.) N 2 f | gradT <7Z(x, r)|2F(dx)<Co <°° /=1 (2-14) с некоторыми положительными a,Cqt не зависящими от выбора т Е Т7. 4. Числовая последовательность {Тг} в (2.1) обладает свойствами S £ 7г=о°- r= i г=1 Тогда последовательность {тг}, порождаемая процедурой (2.1) при выборе произвольного Tj Е Т7, сходится к т* с вероятностью 1 и в среднеквадра- тичном, причем для величин Д t = I Tt - т* |2 справедлива оценка t- i МДГ<МД1 ехр{ - 2а S (2.15) r = I где 6 = S yl П (1 - 2огуД к - I t = к + 1 Если, кроме того, функции qj(x, т) удовлетворяют первому условию теоремы 2.2.1, то справедливо неравенство W(Tt)-W(T.)<C'q-bt. (2.16) Если в процедуре (2.1) используются постоянные числа yt = у, то при у< 1/2а справедливо неравенство Um <yCq/2a. (2.17) t <* Отметим, что при yt = у процедура (2.1) может и не сходиться. Нера- венство (2.17) показывает, что, тем не менее, среднеквадратичное отклоне- ние Tt от т* мало, если величина у выбрана достаточно малой. Ограничительным условием в теореме 2.2.2 является предположение о том, что Tj Е Т7. При дополнительных предположениях от этого ограниче- ния можно избавиться. 99
Лемма 2.2.2. Пусть выполнены условия леммы 2.2.1 и множество XQ R1, на котором сосредото ено распределение F, состоит из конечного числа то- чек. Пусть существует невырожденное у-поглощающее множество Т7. Обозначим через Ту множество точек вида т = со!(И1), т<2)),где И2> принадлежат выпуклой оболочке у-окрестности множества Т7. Тогда, если множество Ту не содержит точек, принадлежащих вырожденному поглощающему множеству, то при выборе в (2.1) начального вектора тх € G Ту почти каждая реализация последовательности с.в. т(, формируемых процедурой (2.1), за конечное время (зависящее от выбора реализации) заходит в множество Ту, т.е. существует с.в. п~ п(т™) такое, что с вероят- ностью 1 выполняются условия: m(tJ°) < °°, тг6Т7 при t >п(т“)- Отметим, что при выборе достаточно малого числа у множество Ту не может пересекаться с вырожденным поглощающим множеством. § 2.3. РЕКУРРЕНТНОЕ БАЙЕСОВСКОЕ ОЦЕНИВАНИЕ В ЗАДАЧЕ ОБНАРУЖЕНИЯ МАРКОВСКИХ СИГНАЛОВ Задача оптимального обнаружения уже изучалась в п. 1.2.3°. Полученные там методы обработки данных наблюдения мало пригодны в общем случае к использованию в реальном масштабе времени, когда эти данные посту- пают последовательно и их обработка должна носить рекуррентный харак- тер. Такая возможность открывается, если полезный сигнал обладает мар- ковским свойством и известна его переходная плотность. В этих условиях решение задачи оптимального обнаружения допускает дальнейшую детали- зацию, имеющую существенное значение для приложений. Некоторые из результатов, полученных на этом пути, обсуждаются в данном параграфе. 2.3.1°. Синтез оптимальных систем обнаружения марковских сигналов на фоне помехи с независимыми значениями. Задачу обнаружения будем изучать в следующей постановке: принимаемый (наблюдаемый) в момент времени t сигнал {yt} представляет собой аддитивную смесь полезного сигнала и помехи наблюдения: = sf(xf,0) + t/f> (3.1) Полезный сигнал {$,} является известной функцией случайных параметров и 0, первый из которых изменяется во времени, а второй постоянен и как с.в. принимает значения из конечного множества 0: 0'={0......0»} • (3.2) Можно сказать, что значение параметра О определяет класс, к которому относится данный полезный сигнал. Помеха наблюдения {иг} является случайным процессом с независимыми значениями, причем с.в. vt имеют плотности распределения pv (j) = ри (у, t), которые могут зависеть от Вре- мени, но предполагаются известным*гфункциями. Существенным для дальнейшего будет предположение о том, что случай- ный процесс {хг} является марковским с известной переходной плот- ностью р(х, t \ z, t - 1) (см. § 2.П). Задача обнаружения состоит в принятии решения S2*={0=0*},fc=l,... ...»TV, по данным наблюдения у[ = со!(уь .. . , уг). Это решение должно 100
быть оптимальным в смысле функционала среднего риска w * w WT(£) = f Е ) [ s СцР(П, \yf) ] p(yf )dyt ... dyT . (3.3) Здесь {К/(5)}Д1 — семейство разбиений пространства YT значений с.в. уТ\ J yj(н О' 1Г) ~ индикатор множества У)(?); р {уГ) - плотность рас- пределения с.в. у{\ P(£li\yT) — вероятность события £2, = {0 = 0,} при наблюдении уТ', || q,1| — матрица штрафов. Если параметр £ параметризует семейство всевозможных борелевских разбиений пространства YT, то байесовское разбиение, как и в п. 1.2.2° (см. 1.2.6)), определяется соотношениями N N Ys = {yf: min S с//Р(Я/ |у1Г)= 2 с^РЩ,| у{ . (3.4) i j = 1 / = 1 Принимая, что в матрице штрафов сц = 0, с/; = с > 0 при z соотноше- ния (3.4) для байесовского разбиения можно переписать в виде | Г. Р(у? 10 = 0.) р {0 = 0/} f'V' ’ p(yl 10 = 0/) Р{0 = 0,}’ /= 1...N, I j. где р(уТ | 0 = 0Г ) - плотность распределения наблюдений у{, отвечающая значению 0Г- параметра 0 в уравнении наблюдений (З.Г). Таким образом, при данных наблюдений у1^ принимается оптимальное (байесовское) реше- ние (0 = 0jг •, если при всех / Ф i выполнены неравенства р(лг10 = 0,) р{0 = 0;} рСуГ|0=0/) > Р{0 = 0/} (3.5) Следовательно, структура оптимального обнаружителя (приемника) опре- деляется матрицей Л т отношений правдоподобия (ОП) с элементами 4"‘> вида Л(^=1п Р<У\ I 0>) Р<уТ 10/) (3.6) Очевидно, элементы (3.6) матрицы \т достаточно рассматривать лишь при i>j. Описанный способ определения структуры оптимального обнаружителя является непосредственным обобщением решения задачи обнаружения, рассмотренной в п. 1.2.3°. Действительно, если положить W = 2,0! = 1,02 = = 0, то, предполагая гг(лгг, 0j) = st и st (xtf 02) = 0, окажемся в условиях задачи п. 1.2.3°. Предположение о марковости процесса {%,} позволяет детализировать ОП (3.6). Лемма 2.3.1. При сделанных выше предположениях о полезном сигнале br(xr,0fc)} и помехе {и,} ОП (3.6) могут быть записаны в виде tin . f ...fdxi ...dxTp(xf, у? \Gi) Л г 7--------------7---7----- ♦ (3./) s... fdxi ... dxTp(x[, yl | е,) 101
р(хТ, уТ I в) = = ( П р(лгг. Г Iхг-а» — 1)Р„1Уг - - «К*» • . Г= 2 где Р\(х) - плотность распределения с.в. jq . В формуле (3.7) производится интегрирование по переменным ... ..., xTi что затрудняет синтез оптимального обнаружителя. Однако струк- тура правой части в (3.7) такова, что ОП может быть записано в ре- куррентной форме, которая позволяет производить вычисления, не прибе- гая к многократному интегрированию. 23.2°. Рекуррентный алгоритм вычисления отношения правдоподобия. Введем обозначение Pt<*t= .. . dxt_xp(x{, Я 10), (3.8) где Ct (0) = С (fl, у i ) — нормировочная постоянная, определяемая условием / pt(x lyx,0)dx = 1. Как дальше выяснится, функция pt(x | у{, 0) является условной (при ус- ловии {у{,0} ) плотностью распределения с.в.хг. Интегрируя (3.8) и учитывая условие нормировки плотности pt(x | у{, 0) и (3.7), можем написать Сг(в,) Кроме того, из (3.8) следует рекуррентное соотношение PSxt Ijb0) = У~— fp(xt, 11 xt_ ।, t - 1)X Q-1(0) X Pv[yt - st(xt’ 9)]pt-1 (xt-11 УГ1. *)dxt-1 • (3.9) Таким образом, ОП (3.7) можно записать в виде 1 + ,п Рт^Ут l^i > 0/) р'т<Ут \yI~l’Oj) (3.10) (З.И) , 0) является условной (при где обозначено p't(y 1.уГ_’,0) = = ffp(x. tlz.r-VPvlyt-StfrWP'-^z ly[~l,0) dxdz. Как дальше выяснится, функция p't (у | у{~1 условии 0}) плотностью распределения (или апостериорной плот- ностью) с.в. yt. Формула (3.10) носит рекуррентный характер, если отношение PAyt\y\~\Qj) Р,(У,\У1~1^1> допускает вычисление при каждом t. Замечательным (но теперь уже доста- (3.12) 102
точно тривиальным) представляется тот факт, что функции (3.8), а с ними и величины (3.12) допускают рекуррентное представление. Теорема 2.3.1. Для функции (ЗЯ)справедливо представление Pt(x \У1,0) = Pvlyt ~ st(x, fl)] fp(x, H z, г - 1 )p,_ i (z I*, 0)dz ffpv lyt ~ h(x, 0)]p(x, r I z.t - l)pt_l(zly[~t,9)dzdx ’ Pt(x lyt,0) = Pvlyt -St(x, 0)]pt(x) fРи1У1 ~st(x, 9)]pt(x)dx (3.14) Формулы (3.10) с учетом (3.11) запишем в виде л(Л\ = л(/> + + 1п Нр»1У(+1 ~st + t(x, Oj)]p(x,t + l |z, r)pt(z |j>f,0,)dxc/z ЯР„1л+1 -s»+i(^0;)]p(^^ + l lz,z)pz(z|y1,,0/)dxdz /=1,2,..., Л(//) = 1П -st(X'8i)]Pt(x)dx ' Jpl>b'i “M*. 0/)]PiW^: (3.16) Соотношения (3.13) — (3.16) определяют рекуррентную процедуру вы- числения ОП (3.7). Основу этой процедуры составляют соотношения (3.13), которые называют рекуррентным соотношением оптимальной фильтрации, или баейсовским рекурсивным соотношением. Из равенства (3.1) следует, что p'(yt\xt,0) = pv[yt - sf (xt> 0)]. Учи- тывая это равенство и используя формулу Байеса, для совместной плотнос- ти р(хь>У1 |0) распределения с.в. {хь^1} получим Р(*1,У\ 10)=Р(У1 lxi,0)p(x! |0) = = Ри[Д'1 - S1 (*1,0)]р(*1 10) = Ри[/1 - *1(*1,0)]Р1(*1). (3.17) Интегрируя по *1, найдем p'lyt |0) = f р(Х1,У1 10) dxt =fpvlyi - Si(xt,9)]pi(xi)dxt. (3.18) Формула Байеса z . Лч pfxt.yt |0) РД.У1 - SiCxi ,0)]Р1С*1) z, p(xt I у!. 0) = —г——— = 7—:--------------—тт;—, . , (3 19) P(ji 10) fPvlyt ~si(xi >0)]Pi(*i)d*i приводит К условной (при условии {.У1,0}) ПЛОТНОСТИ вероятности С.В. Xi , т.е. в силу (3.14) функция рх (х | у{, 0) совпадает с этой плотностью. Ис- пользуя аналогичные выкладки, по индукции легко устанавливаем, что определяемая формулой (3.13) функция pt(x\y{, 0) — апостериорная плотность с.в.хг. Вычислим теперь совместную плотность p(xit x2t ylf у2 I в) с.в.хь х2, У1> У2- Используя формулу Байеса, соотношения (3.17) - (3.19), уравне- 103
ние (3.1) и марковость процесса {xf}, получим Р(хх, х2, ух, у2 |0) = =р'0’2 \*1<х2,у1,е)р(х2 \xl,yt,e)p(xt,yl |0) = = Ри[>,2 - s2(x2,e)]p(x2,2 |Х|, 1)р(х, Ь’1,0)р'СУ| I 9). Интегрируя по х2 и вновь используя формулу Байеса, найдем апосте- риорную плотность с.в. у2: ,, . pO'i.J’2 10) Hp(xx,x2,yx,y2\Q)dxxdx2 Р О 2 1^1.0)= ------—— = -----------Г--—------------ Pi tVi I в) р О1 | 0) = //Ри1У2 - *2(Х2>0)1р(Х2.2 1*1, l)p(Xt 1^1,0) dxx dx2, т.е. формула (3.11) установлена при t = 1.По индукции (суметом (3.13)) убеждаемся, что формула (3.11) определяет апостериорную плотность с.в.;/,. о 2.3.3°. Предельное свойство байесовского обнаружителя. Пусть имеется бесконечная последовательность у Г данных наблюдения. Байесовское ре- шение о наличии сигнала {0=0/} по данным , основанное на нера- венствах (3.5), будет, вообще говоря, различным при разных Т. Если такой ’’разнобой” сохраняется при сколь угодно больших Г, то это может ставить под сомнение разумность принятия байесовского решения, поскольку учет дополнительных данных наблюдения приводит к принятию другого реше- ния. Оказывается, такая ситуация невозможна: при неограниченном воз- растании времени наблюдения байесовское решение стабилизируется. Покажем это. Исходя из формулы (3.6), получим М {exp Л(/'> I у г1,0,-} = / Р'^Ут I У?'1 > */) dy т. (3.20) р(у! I 0 = 0/) Но по формуле Байеса имеем p(yi I 6)=р'(Ут Ь’|Г_1.0)р(уГ_|,0), р(У1 I 0 = 0,) откуда следует, что величина--------, рассматриваемая как функ- р(у! I 9 = 0/) ция от у т, конечна на множестве YT(ej) = {yT-. рЪ’г1лГ',е,)*о}. Поэтому интеграл в (3.20) существует и совпадает с интегралом по мно- жеству Уг(0/). На множестве Уг(0/) с учетом формулы Байеса рОГ I g = р(Ух 10 = 0,) , т , т т 1 p(yl 1 I 9i) Р 0’7-1 уТ - О/) = Р<у! \уГ , 9j) . — Р(уГ' 10/) 104
поэтому из (3.20) следует М{ ехр 1/Г ’,3/} = 'д1-' f p'(yI\yT x,Oj)dyT< р(у, 10/) Ут(0/> Р(уГ I Si) г т . г_ । . . . Pb’f I Oi) ..(//у т I , ; fp (уI \уI .0<)4Уr = —;-T ; = exp Л’г_ P(y[0/ P(vir~' 0/ Полученное неравенство показывает,что последовательность с.в. {ехр А^} является неотрицательным супермартингалом по отношению к о-алгебре порождаемой с.в. {у{~ 1,0/} (см. § 1.П). В соответствии с теоре- мой 1.П.1 с вероятностью 1 существуют конечные пределы lim {ехр А*/”} = (3.21) на множестве реализаций уТ данных наблюдения, отвечающих событию {0 = Oj}. Заметим, что из проделанной выше выкладки следует, что после- довательность {ехр А^} будет мартингалом, если плотность р СуЛзТ при каждом Т абсолютно непрерывна относительно плот- ности р'(у7{ |^Г~1,07). Тогда f р (у? IjT ~\0i)dyT = 1. При этом YT(Oj) М {ехр ApZ)} = М {ехр }} = 1. Рассмотрим матрицу Лг с матричными элементами л(;7) = а<‘7) р{е = о,} Р{0=0;} z,/= 1,. . . Л В соответствии с формулами (3.6) введенные величины обладают свойствами л\‘п + = А(/Л) (3.22) при любых z, /, к. Это означает, что у матрицы Л? имеется по крайней мере один столбец, все элементы которого неположительны, и все столбцы с таким свойством одинаковы. Действительно, рассмотрим для определен- ности первый столбец и выделим в нем наибольший элемент. Пусть это бу- дет А^\ Тогда в соответствии с (3.22) при любом z = 1,.. . Л будег выполняться Л(/° Л?0 -Л(;7) <0, (3.23) т.е. элементы /-го столбца матрицы Аг неположительны. Если столбец /\/И) имеет единственный наибольший элемент, то столбец со свойством (3.23) будет также единственным. Номер / этого столбца в соответствии с (3.5) определяет байесово решение {в = 0,}. Если столбец AJ1) имеет несколько элементов с наибольшими значениями, то столбцов со свойством (3.23) будет столько же. Из соотношения (3.22), написанного для этих столбцов, следует, что они должны быть одинаковыми. Байесово реше- ние в этом случае неоднозначно и может состоять в выборе решения 105
{в = 07), где / — номер любого из таких столбцов. (Такой выбор решения не влияет на величину функционала среднего риска.) Итак, предположим, что данные наблюдения у? соответствуют событию {О = 0/}. Из (3.21) тогда следует, что у величин A<f,) с вероятностью 1 су- ществуют конечные пределы lim ехр А*'» = / = 1,... ,N. t — °° Пусть Ij = {z’i,... , ik} - набор индексов, для которых Д ('5 П = max Д W*, s = 1,... , к. i Если набор lj состоит из единственного индекса, то столбец матрицы {Дг(,/)}, = ехр Л<,7) с этим индексом будет с некоторого времени единственным столбцом, удовлетворяющим условию (3.23), и, следователь- но, начиная с этого момента времени учет новых данных наблюдения не может повлиять на байесово решение. Если множество /7 состоит из не- скольких индексов, то байесово решение при сколь угодно больших t мо- жет изменяться, но это различие не сказывается на предельном значении функционала среднего риска. Последний случай является особым и возни- кает тогда, когда выбор значения 0 из множества {0f i,... , 0f*} мало ска- зывается на распределении с.в. у\ при t -►«> (Другими словами, гипотезы {0 = 6is}, 5 = 1,...»к, статистически неразличимы). При независимых наблюдениях предельные значения элементов /-го столбца могут быть уточнены, как следует из утверждения. Пёмма 2.3.2. Предположим, что при любом 6 из множества (3.2) и произвольном t > 0 плотности р(у* | 0) обладают свойством р(у{\9)= П р(ук 10), к = 1 причем р(у I 0,) £р(у, Of) при i =£j и почти всех у, гдер(у |0/)> 0. Тог- да на событии {0 = 0 j} для величин (3.2\) с вероятностью 1 справедливы равенства р^ = 0 при i Ф j, pfli) = i ф (3.24) Равенства (3.24) показывают, что lim = - ©° при i тогда t — °0 как lim Л^77^ = 0, что соответствует представлению о свойствах отноше- t -* °° ния правдоподобия. В силу сказанного выше матрицы Лг имеют единствен- ный столбец с такими свойствами. Более того, байесово решение при достаточно больших t не зависит от выбора априорных вероятностей, стоящих в правой части неравенства (3.5) (лишь бы эти априорные вероят- ности были отличными от нуля). Это лишний раз подчеркивает важность именно отношения правдоподобия, определяющего структуру байесовско- го обнаружителя, поскольку в силу леммы 2.3.2 выбор пороговых величин оказался асимптотически несущественным в схеме с независимыми наблю- дениями. 106
2.3.4°. Оптимальное обнаружение при постоянных параметрах сигнала. Для приложений важен случаи, когда параметр хг, от которого зависит полезный сигнал, не изменяется во времени. Запишем тогда уравнение наблюдения (3.1) в виде yt = st(T,0) + vt. (xt = T). (3.25) Если задача состоит в оптимальном обнаружении сигнала, т.е. принятии решения {в = 0/}, i = 1, . .., N, то т может играть роль паразитного пара- метра, а 0 - информационного параметра. В других случаях основной зада- чей может являться оценивание параметра г, выступающего как информа- ционный параметр. С.в. т также может рассматриваться как марковский процесс с вырожденной переходной плотностью р(х, 1| z, t - 1) = 6(x - z), (3.26) где 6(x) — 6-функция Дирака. Учет этой особенности позволяет значитель- но упростить рекуррентную процедуру (3.13) - (3.16). Мы ограничимся обсуждением случая, когда с.в. т может принимать конечное число значений: rGT, Т={т(1).,...,т(м)}, (3.27) причем известны априорные вероятности Ро(*) = Р{т = т(*)}, к=\,...,М, (3.28) соответствующих событий. Тогда процедура (3.13) - (3.16) примет вид p\k)(yl,0) = = риЬг-MTU).g)]p/*i (= 2 3 2 рЛл -h(.r(k\o)]Ptk\ к = 1 Р1к)<У1.9) = ~*1(т( ),0)1Ро---, (3.29) 2 Pubi-«|(т(*),в)1р^*> к = 1 М 2 PvLvr+i -sr+iG’^AOJp, ’(ХЛ) ЛУ+1 =Ar/z> + 1п , (З.зо) 2 Pj^+i-Sr+i('(*4)Jp!%W к - 1 Г= 1,2.... 2 рДп -^(т^ЛЛРо** л<"> = щ 21!---------------------- *2 PyLv! -si(Tik\ej)]p<ky 107
Здесь р\к^ 0) - апостериорная вероятность события {т = , отве- чающая данным наблюдения у[ и значению 0 параметра, определяющего класс, к которому относится полезный сигнал. Формулы (3.29) позволяют последовательно пересчитывать набор апостериорных вероятностей, а (3.30) — вычислять при этом в каждый момент времени t матрицу A<f/ *, составленную из отношений правдоподобия. Параметр т можно интерпретировать как указатель конкретной реализа- ции полезного сигнала в классе, определяемом параметром 0. Если значение параметра т известно, то приходим к задаче оптимального обнаружения одного из N детерминированных полезных сигналов (0,), i = 1,... ,А, т.е. к задаче, подробно изученной в 40-х годах В.А. Котельниковым. Этот случай соответствует заданию априорных вероятностей (3.28) в виде p(s) = 1 р(*) = о (k*s), (3.31) если известно, что т = r<s). В силу (3.30) и (3.29) следует, что тогда как р^к) (у', 0) = 0 при к #= $. Таким образом, апостериорные ве- роятности совпадают здесь с априорными и рекуррентные соотношения (3.30) принимают вид Л(0) _ л07) . . Р<Л>’г+1 ~ |2 л»'> = ш Мл (3.32) Pvln - Как нетрудно убедиться, рекуррентная процедура (3.32) приводит к байе- совскому обнаружению одного из N детерминированных полностью извест- ных полезных сигналов, наблюдаемых на фоне помехи с независимыми зна- чениями. Частный вариант такой задачи (при N= 2, 0{ = L 02 = 0, st (0) = = 0st) изучался в п. 1.2.4°. Если значение параметра т неизвестно, то использование процедуры (3.29) - (3.30) требует знания априорных вероятностей р^. Во многих прикладных задачах эти вероятности неизвестны, поэтому возникает воп- рос о том, как сказывается задание начальных данных в процедуре (3.29) - (3.30) на оптимальности принимаемых решений. Более точно, пусть величи- ны (3.28) неизвестны, а в процедуре (3.29), (3.30) вместо них используют- ся неотрицательные величины (р0<.... PqM) ), S р0 * = 1- Вместо i = 1 (3.29), (3.30) рассмотрим процедуру ₽,<*>«.в) = .2 i.................... p,(yt\p,-ve> в,_ Мл<333) Pi О’ 1, о)------------- м £ Pjj’i -Si(T(k\9)]py} к - 1 108
7(</) _ дО7)_|.1« ^г+1(Уг+1 А/+1 =Л, + !п —------------------ , p;+l(^.iipr^/) г= 1,2,... , S Р„Ь’. -sI(T(k>,ei)]Po(*) Л</')=1п ------------------------------ . (3.34) м 2 p„b, к - I Здесь для краткости введено обозначение м р'г+|0’\ргв)= Pvly-st+i(T(k\O)]Pt(y’i^)- (3.35) к = 1 Процедуры (3.33) - (3.34) и (3.29) - (3.30) отличаются лишь заданием начальных данных. С помощью определяемых этими процедурами матриц {^} , {А <" >} можно формировать байесовские решения о принадлеж- ности полезного сигнала к одному из N классов, и эти решения, вообще говоря, будут различными. Сохраняется ли это различие, если объем дан- ных наблюдения неограниченно увеличивается? Прежде чем отвечать на этот вопрос, заметим, что функцию (3.35) мож- но интерпретировать как плотность вероятности с.в. yt± j вида J’f + l “ + 1 (^r> $) + Vf 4- 1 ’ (3.36) где с.в. Tt имеет распределение Р{т, = т<*)}»р,(*)О'{_,,0), к М. (3.37) Введем числовую характеристику lt различия плотностей распределения P t О' I Р t-i» 0) и P't (У I Pt - j , 0)» называемую информационным числом {количеством) Кульбака - Лсйблера Г р'Ау I Pt-1»0) 1 , /г(9) = f In --"/ - ' Р О' I Pt-1 • в) dy. (3.38) L PlO’lpf-i>^) । Если интеграл (3.38) существует, то /г > 0, что легко показывается ис- пользованием неравенства Йенсена (см. п. 1.4.3°), причем lt =0 лишь при Pt{y 1Рг-1>0)=Р^(У \Pt-x’O) (3 39) для почти всех у, для которых p't {у | pt_ 1, 0) ^0. Таким образом, ве- личина 11 (0) действительно может характеризовать различие соответствую- щих плотностей распределения. Теорема 2.3.2. Пусть плотности распределения p't{y I pt_ },в) и p't(y ! Pt- 1» определяются формулой (3.35), где распределения pt = = (р J1 , .. . , р^м *) и pt = (pl1 ,. . . , ) ) порождаются соответствен- но процедурами (3.29) и (3.30). Тогда для информационного количества 109
It(0) выполнено неравенство w л/ г „<*) 1 S MQA9)\0)< S р<*\ (3.40) t = I Л = 1| ~(*) Ко где {р^} и {р^} - наборы начальных вероятностей в процедурах (3.29), (3.33). Из неравенства (3.40) следует, что если наборы {р° и {р0' ’} согла- сованы в том смысле, что „(*) sup —-— < °°, (3.41) * ?.<*> то с вероятностью 1 выполняется предельное равенство lim /,(в) = 0, (3.42) f —. оо т.е. плотности p't(y | pt_ t, 0) и pt (у | pt_ t, 0) асимптотически совпадают. Пусть Т — произвольный момент времени. Рассмотрим при t > Т + 1 ре- куррентную процедуру Р(/)(3'г+1.<’) = Pubr - sr(T<fc>, 0)]р**\ (З'г+’рв) p't(yt\pt_v6) x(/P. = л(;п +in . (3.43) При начальных условиях в момент времени t = Т + 1 РиЬг+1 -5г+1(’’(*).в)]Р^)(>’|Г^) Рт^Ут.^ —-----------------------------------------, 2 Pvfj'r+I - *т+1(т(,>^)\РтАУ\ >в) s = 1 (3.44) м ... 2 Pu^r+i -sT+\(T{k\9i)}pT ЛуТЫ ZUD *-1________________________________________ ЛГ+» м . 2 PuLXr+t -«т+Нт^’.в/ЛРг 4yi,6j) к - 1 где pt^x{y\pn 0) определяются формулами (3.35), а вероятности Рт^ определены в соответствии с процедурой (3.33), (3.34) для произвольного начального распределения {Pq^} . Тогда при выполнении условия (3.41) байесовское решение, основанное на использовании процеду- ры (3.43), (3.44), будет при Т -+ 00 сколь угодно близким к байесовскому решению, основанному на рекуррентной процедуре Л<'7> -.J'/),! Af+l = +ln --------------------—----- , Pubr+I (3.45) tiO
07) , Pj/T+t - Sr+t(’’(I),0I)] A 7’+ । Pu[/t+ i “ st+ \ (T 5 » fy)l (3.45) Напомним, что процедура (3.45) соответствует полной априорной информа- ции о значении параметра т: т = (см. (3.32)). Сказанное не означает, что обязательно выполняются равенства Шп ,Pf(*)(j'fr+rfl)=6*J. (3.46) Действительно, если 0 = {1,0} и st(r, 0) = 0st(r)9 то при 0=0 данные наблюдения {yt} не несут никакой информации о значении параметра т и, следовательно, нет оснований ожидать выполнения равенств (3.46). 2.3.5°. Марковский гауссовский сигнал. Несмотря на рекуррентность процедуры (3.13) — (3.16) ее, использование в общем случае затрудни- тельно, так как для апостериорной плотности pt(x\y\, 0) не удается получить, вообще говоря, аналитических выражений. Представление же этой плотности в виде ее значений в достаточно большом числе точек в пространстве значений с.в. xt связано с большими вычислительными трудностями. Рекуррентная процедура (3.13) - (3.16) эффективна, если марковский процесс {xt} принимает лишь конечное число значений, вместо апостериорной плотности здесь рассматривается вектор апостериорных вероятностей и рекуррентная байесова процедура определяет эволюцию этого вектора во времени. Другим важным случаем, когда соотношения (3.13) - (3.16) приводят к эффективным вычислительным алгоритмам, является случай, когда вероятностные характеристики рассматриваемых случайных величин допускают описание с помощью некоторого конечного набора параметров, причем апостериорные плотности оказываются известными функциями оценок этих параметров. Рекуррентные байесовские соотношения могут тогда приводить к описанию временной эволюции этих оценок. Поясним эту мысль на примере марковского гауссовского процесса {хг} . Будем предполагать, что полезный сигнал st (хг, 0) линейно зависит от марковского процесса, а сам процесс управляется (формируется) неко- торой линейной системой, возбуждаемой гауссовским белым шумом. Итак, 5,(хг,0) = Ф,(б)х„ (3.47) xt + , =Ft(e)xl + wt+l, (3.48) где Фг, Ft - детерминированные матрицы соответствующих размерностей, зависящие известным образом от времени и случайного параметра 0, wt — последовательность гауссовских с.в. со свойствами Mwt = 0, Mwtw's =Rw(J)bts, (3.49) матрица ковариации Rw(t) предполагается известной функцией t. Началь- ный вектор Xi в (3.48) также предполагается гауссовским с плотностью Pi(x) = (27r)“w/2(det Я1)-,/2 ехр { - Vlx*R\'x }. 111
Наблюдаемый процесс у( теперь имеет вид yt = Ф,(0)х, + и„ г =1,2,... . (3.50) Относительно помехи наблюдения также будем предполагать гауссовость, центрированность и некоррелированность A/uf = 0, MvtVs = (3.51) Так как при сделанных предположениях наблюдаемый процесс {уг} яв- ляется комбинацией гауссовских процессов, то апостериорная плотность р((х) = Р,(хЬ-;,в) (3.52) будет гауссовской р,(х) = (2я)_"'/2 (det Pty Vt ехр | - 2- (х - х,)‘ />;' (х - х,)| , (3 53) где х, =х,(0) = /хр,(х) Jx, (3.54) Р, = Р,(0) = /(х -х,)(х -x,)*pf(x)Jx. (3.55) Определяемый формулой (3.54) вектор xt является байесовской оценкой с.в. xt при квадратичной функции штрафов (см. п. 1.4.1°), матрица Рг(0) определяет ковариацию ошибки оценивания. Теорема 2.3.3. Определяемые формулами (3.54) - (3.55) величины х(, Pt в силу соотношений (3.13) удовлетворяют системе рекуррентных соот- ношений Xf+I = Frxt + K,[v,+ 1 Ф,+ |Р,х,], (3.56) Pt+i=(l Kt4>t+l)[FtPtF;+Rw(t + V>], Z = l,2,..., (3.57) где A'r = [FtPt Ft* + Rw(t + 1)] Ф,’+1 [Rv(t + 1) + + Фг+|(Г,РгГ/+PW(Z+ 1)Ф;+|]-’, (3.58) x, =Р1Ф;/?р-,(1)3’1. (3.59) ?!=/?! /?1фИяЛ1) + Ф1Л|Ф!'Г,Ф1Л1. (3.60) Ri ~ матрица ковариации с.в. В силу (3.57) - (3.58), (3.59) матрица Pt+l положительна при всех г, если Rw(t + 1)>0. Как и следовало ожидать, в формулы (3.57)', (3.58). (3.60) не входят данные наблюдения X+I, поэтому последовательности матриц {Pt(6)} могут быть вычислены для каждого значения 0/, /=!,... . . . , Л’, до начала процесса обнаружения. Наблюдения определяют лишь поведение среднего значения xt = xt(у{, 0) апостериорной плотности pt (,v I у J, 0) марковского процесса {xt}. Рекуррентные соотношения (3.56) - (3.60) записаны в форме фильтра Калмана -- Ььюси и дают наилучшую среднеквадратичную оценку xf(0) процесса {л>} по данным наблюдения у{ при фиксированном значении параметра 0. 112
Если гауссовский сигнал xt не изменяется во времени, х,+ | = хг, то полагая /?*,(/) = О, = Rv(t)-R в (3.56), (3.57), получим систему Тг+1 =rt + yt<bt(R'' +Ф,’7,ФГ)-’ (^,-ФггД 7г+1 =7г -7»Фг(Л'* +*»7г<М',Фг7п (3.61) где обозначено 7/=^+!. Tf=xf + 1. Система (3.61) полностью совпадает с рекуррентной модификацией МНК (см. (1.4.59), (1.4.57)). § 2.4. МЕТОД ЭМПИРИЧЕСКОГО ФУНКЦИОНАЛА В ЗАДАЧЕ ИДЕНТИФИКАЦИИ ДИНАМИЧЕСКОГО ОБЪЕКТА, ПОДВЕРЖЕННОГО ДЕЙСТВИЮ КОРРЕЛИРОВАННЫХ ВОЗМУЩЕНИЙ Обычно метод эмпирического функционала требует привлечения усло- вия о равномерной во времени ограниченности (в среднеквадратичном смысле) определяющих функционал величин. Если функционал формиру- ется с помощью выходов некоторого динамического объекта, то указанное условие выполняется для устойчивого объекта при ограниченных в средне- квадратичном смысле входных воздействиях (управляющих и возмущаю- щих) . При этом эмпирический функционал становится функцией парамет- ров объекта; и его минимизация может доставлять оценки неизвестных параметров. Если эти оценки окажутся состоятельными (сходящимися к неизвестным значениям параметров при неограниченном процессе наблюде- ния) , то говорят об идентифицируемость объекта, а сам способ получения оценок называют процессом идентификации. Состоятельность оценок мо- жет зависеть от статистических свойств управляющих и возмущающих воздействий, и если фиксирован метод получения оценок, то может ставить- ся вопрос об ограничениях на внешние воздействия, при которых обеспечи- вается идентификация объекта. Ниже подробно изучается одна из возмож- ных задач подобного рода. 2.4.1 °. Постановка задачи идентификации. Уточним задачу, сформулиро- ванную в п. 1.1.8°. Примем, что динамический объект с выходом yt и управляющим воздействием ut описывается разностным уравнением вида a (V, r)yt = b (V, т) ut + ut1 t = r + 1 ,r + 2,..., (4.1) где, как обычно, V — операция сдвига назад; vt — возмущающее воздейст- вие; а (X, т), b (X, т) - полиномы по X вида а (X, г) = 1 + Xflj (т) + . .. + \rar (т), b (X, т) = Хк Ьк (т) + ... + \rbr (т). (4.2) Коэффициенты полиномов (4.2) известным образом зависят от вектор- ного параметра т, само значение т неизвестно, извесгно лишь включение те т, (4.3) где Т— некоторое подмножество евклидова пространства. Натуральные числа к и г называются соответственно запаздыванием в управлении, к > 1, и порядком объекта, если lar(т)| + |2>Дт)1 =£ 0, т е Т. 113
Возмущающее воздействие vt предполагается имеющим вид ur=c(V, r)wr, (4.4) где коэффициенты полинома с(Х, т) = 1 +Xcj (т) + ...+Хрср(т) (4.5) также могут зависеть от параметра т и являются известными функциями при изменении т в множестве Т. Последовательность {wt} предполагается случайной, принимающей независимые значения и обладающей свойствами Mwt = O, Mw}=o2w>Q, (4.6) т.е. {wt} — дискретный белый шум. Таким образом, помеха {vt} в урав- нении (4.1) может быть коррелированной (цветной), представляя собой линейную комбинацию сдвигов белошумного процесса. Предполагая, что в каждый момент времени t доступны наблюдению (измерению) величины у{ = col (ух,... ,yt), их~ 1 = col (мь ..., ut_ i), требуется возможно точнее восстановить значение параметра т, от которого зависят полиномы а (X, т), b (X, т), с (X, т). Желательно, чтобы восстановленное значение (или оценка) rf обладала свойством состо- ятельности: Tt-*T при Г->°°(с вероятностью 1 или в каком-либо другом вероятностном смысле). 2.4.2°. Эмпирический функционал и формирование оценок. Известные в каждый момент времени t векторы у * = col О'!,... ,<yr),Ui~* = col(ub . . . ..., ur_. л) связаны с ненаблюдаемым (неконтролируемым) возмущающим воздействием {w*i} линейным уравнением (4.1). Это уравнение удобно представить в несколько ином виде, если ввести матрицы Qt сдвига, кото- рые определяются как квадратные матрицы размерности t X t с матричны- ми элементами = (4.7) bij — символ Кронекера. Из (4.7), в частности, следует Qtu{ = col (0,мь ... ..., Mr- i), С?и* = col (0,0,Mi,..., ut_ 2) и т.д., т.е. вектор Qku{ совпадает с вектором их 'к после дополнения его сверху к нулями. Введем теперь t X /-матрицы Л(т) = а(е„т), Bt(T) = b(QttT)9 Ct(r) = c(Qtf (4.8) где а (X, т), b (X, т), с (X, т) - полиномы (4.2), (4.5). Предположим, для простоты, что начальные данные в уравнении (4.1) выбраны нулевыми и начальные возмущения — также нулевые: Ji = у2 = ...=yr_i =0, их = и2 = .. . = ur_i =0, ivj =... = wp__1 =0. (4.9) Тогда в силу (4.1) справедливо соотношение At (т) У* = Bt (т) и{ + Ct (т) w{ . (4.10) При начальных данных, отличных от (4.9), в (4.10) появляется дополни- тельное векторное слагаемое, у которого при всех/не более к = шах (г, р) 114
компонент могут быть отличными от нуля. Для дальнейшего учет этого слагаемого роли не играет, поэтому ограничимся рассмотрением лишь нулевых начальных данных. Матрицы в (4.10) являются треугольными и коммутируют друг с дру- гом (так как являются функциями одной и той же матрицы Qt). Кроме того, у матрицы Ct (т) в силу с (0, т) = 1 на диагонали стоят единицы, поэто- му detCr (т) = 1 при всех t и т G Г, т.е. существует обратная матрица С71 (т). Уравнение (4.10), следовательно, можно переписать в виде у! =W+^r-i(T), (4.11) где 1 (т) = С/ (т){[Сг (т) ~At (т)] у{ +Bt (т) и{ }. (4.12) Так как а (0, т) = с (0, т), то (векторная) с.в. Kt _ i (т) зависит лишь от дан- ных наблюдения у 1" 1, щ1" 1 и поэтому стохастически независима со с.в. wt. В силу этого обстоятельства и центрированности с.в. wt справедливо равен- ство МК*_. 1 Wy = 0, s = 1,... , Г, и поэтому при любом т' 6 Г выполняется соотношение М\у{ - Kt_ , (/) |2 =Га2,+Л/1/Г,_1(т)-^,_1(т')\. Таким образом, функционал , 1 . ,2 (т') = - Mlyl-Kt-ArV (4.13) принимает наименьшее значение при т' = т. Функционал (4.13) затруднитель- но использовать для нахождения оценок тг, так как он содержит операцию усреднения. Для этой цели вместо (4.13) естественно воспользоваться эмпирическим функционалом » 7 I <7* (Т’) [At -В(т')и1 ] | , (4.14) полностью определяемым заданием данных наблюдения. Оценка rt вектора т в момент времени t находится из условия Tt = argmin W? (т'). (4.15) /ет Способ минимизации функционала (4.14) далее уточняться не будет. Пред- полагается, что некоторый такой способ имеется в нашем распоряжении. Заметим лишь, что в некоторых случаях для минимизации функционала (4.14) могут использоваться рекуррентные процедуры, это приводит к процедурам стохастической аппроксимации для оценок Tt (см. ниже п. 2.4.4 J. При весьма общих условиях в силу закона больших чисел с вероят- ностью 1 справедливо соотношение НтИ'/(т')= lim (4.16) f —► ОО t —► оо 115
Так, при т = т сходимость (4.16) заведомо имеет место, поскольку ^(7) = - М1Ч I2 = а> , W?(T) = - \w{\2, t t и равенство (4.16) превращается в следующее: 1 г lim — S = o?v, г-* « t k= 1 справедливое с вероятностью 1 в силу белошумности процесса {wt}. 2.43°. Идентифицируемость объекта и предельная невырожденность входных воздействий. В силу (4.16) естественно ожидать, что векторы (4.15) будут асимптотически совпадать с векторами, минимизирующими функционалы (4.13). Однако этого может и не быть, если функционал (4.14) достигает минимума в нескольких точках и если это свойство сохра- няется при сколь угодно больших Г. Дальнейшие усилия будут направлены на выяснение условий, при которых обеспечивается состоятельность оценок (4.15). Определение 2.4.1. Будем говорить, что для уравнения (4.10) выполнено условие идентифицируемости, если из выполнения равенств (т) = At (т) Вг(т'), (4.17) Af (т ) Ct (т) = Аг (т) Ct (т') при всех достаточно больших t следует, что т = т'. Выполнение условия идентифицируемости означает принципиальную возможность определить вектор т по наблюдениям за данными { vf, uf} . Действительно,если для некоторых т,т £Т, тФ т\ выполняются равенст- ва (4.17), то из (4.10) следует, что векторы >1, и’, связаны и соотно- шениями Лг(т')Я=Лг (т)и[ +Сг(т')и< (4.18) т.е. никакие операции надз’{, и{ не позволят обнаружить различие между т и т, (Соотношение (4.18) тривиально следует из (4.10), если учесть, что матрицы A t (r),Bt (т), Ct (т) коммутируют друг с другом независимо от значения rGT.) Для формулировки важного понятия предельной невырож- денности входных воздействий введем матрицы luJwu соответственно размерностей (2г к + 1) X (2г - к + 1) и (р ч г) X (2г - к + 1) формулами Iwu =“ (4.19) t t где Ц = «2* Wr = (Qt »v[;..., V (4.20) к - запаздывание в управлении (см. (4.2)). Определение 2.4.2. Входные воздействия {мГ.и'Г} на объект (4.1) назы- ваются предельно невырожденными, если с вероятностью 1'выполняется 116
неравенство a?v, lim X(/£)> to A(/tu), (4.21) f oo t -> oo где X(//7) обозначает наименьшее собственное значение матрицы /^, а A (Jw и) - наибольшее собственное значение матрицы (Jw иУ* Iw и. Управление и Г называется предельно невырожденным, если lim A (/Z»>0, (4.22) t -* °о Предельная невырожденность управления является необходимым усло- вием предельной невырожденности входных воздействий. Если помеха { ) отсутствует, либо lim Л(/^) = 0, (4.23) t -* .«> то эти два понятия предельной невырожденности, очевидно, совпадают. Матрицам l[jt 1ц> и можно придать более удобную форму, если предпо- ложить, что {ut} - стационарный процесс (см. § З.П) и с вероятностью 1 существуют пределы I t — К jj lim — S wz w/ + z_y =/?M(/-/), t “* oo t I ~ 1 1 r ~ 5 ij lim — S »v/.m/ + ,_/=«„w (/-/), t -* oo t 1=1 где для краткости обозначены кif = k - 1 + max(z,/) и Ru(t), Ruw(t) - соответственно корреляционная функция процесса {ut} и взаимная корре- ляционная функция процессов {wr}, {ut}: Ru(k) = Mutut + A , Rltw{k) = = M wt ut+h. Из (4.19), (4.20) тогда следует lim (/£),/ = Ru(i - /), i,j = 1,..., 2r - k + 1, t —► oo (4.24) lim (Jwu)ij = Ruw(i-j), ,= 1........2r - Л + 1, /=1.......p+r. T -* oo Заметим, что Ruw (t) = 0 при t < 0, поскольку с.в. ut _ z и wt стохастичес- ки независимы при I > 0. Если процессы {ur), {wt} стохастически незави- симы, то Ruw (г) = 0 при всех г. Определение 2.4.3. Будем говорить, что последовательность {ut} удов- летворяет условию постоянного возбуждения порядка q, если существуют пределы 1 t lim — S = 0, f оо t I = 1 1 t lim — S u/wz+* =/?„(*) Г — oo t 1= 1 и матрица II Ru (j ~ j) II, ij = 1,. .. , q, - положительно определенная. Другими словами, управление {ut} предельно невырожденно, если удов- летворяет условию постоянного возбуждения порядка = 2r - k + 1. 117
2.4.4°. Состоятельность оценок, получаемых методом эмпирического функционала. Роль введенных выше условий идентифицируемости и пре- дельной невырожденности вскрывается в следующем утверждении. Теорема 2.4.1. Предположим, что выполняются условия: 1. Случайный процесс (wt} принимает независимые значения и обладает свойствами (4.6). 2. Управляющее воздействие ut не зависит от с.в. {wt, wt+i, ...}, и с вероятностью 1 выполнены неравенства ---- 1 ' О --- 1 f О lim —- S u]<CUt lim — S у] <СУ, (4.25) Г -* ОО Г / = 1 f t 7=1 где Си, Су - некоторые неслучайные постоянные. 3. Входные воздействия {ut}, {wt} в объекте управления (4.1), (4.4) обладают свойством предельной невырожденности в смысле определения 2.4.2. 4. Для уравнения (4.10) выполняется условие идентифицируемости в смысле определения 2.4.1. 5. Полином с(к,т)в соотношении (4.4) устойчив при любом т^Т . Тогда оценки (4.15) сильно состоятельны, т.е. lim Tt = т с вероятностью 1. t -* °° 2.4.5 °. Обсуждение решения задачи идентификации методом эмпиричес- кого функционала. Проведем обсуждение условий теоремы 2.4.1 и возмож- ных ее обобщений. а) Условие предельной невырожденности при стационарном управлении. Условие постоянного возбуждения (см. определение 2.4.3) для стационар- ного процесса {ut} означает достаточное ’’разнообразие” спектра процесса. Более точно, пусть/^(д)- спектральная функция процесса {wf} . Тогда для корреляционной функции Ru (г) процесса {ut} справедливо представ- ление 1 . . * 1 2* ~ /?u(r)=— Е ДГм(д*)+— J (4.26) 2я к 2я о где ДГм(д*)~ скачок функции Г(д)в точке дискретного спектра р = рк, Su (д) — плотность непрерывной составляющей спектральной функции (см. § 3. П). Функция5м (д) и числа Д Fu (д^), как следует из определения спектральной функции, неотрицательны. Лемма 2.4.1. Для почти всех реализаций центрированного стационарного процесса {ut} выполнено условие постоянного возбуждения порядка q, если дискретный спектр {рк} процесса содержит не менее q различных (по mod 2я) точек, для которых Д Fu (р k)=£ 0. Если на множестве положи- тельной меры Лебега Su (д) =# 0, то почти все реализации процесса {ut} удовлетворяют условию постоянного возбуждения произвольно высокого порядка q. Таким образом, наличие в спектре процесса {ut} достаточного числа час- тот обеспечивает его реализациям свойство постоянного возбуждения, а при выполнении соотношений (4.24) - свойство предельной невырожденности управления. 118
Для приложений важен случай, когда управление формируется регулято- ром, описываемым уравнением «(Т)«,=Я7)Л, (427) а (X) = 1 + X cq + . .. + XZQ/, 0 (X) = 0о + X0j + .. . + Xz0/. В данном случае дискретный спектр отсутствует и процесс {ut} имеет спектральную плотность Su (X). Простые вычисления приводят к формуле (см. §З.П). s„w._ (4.28) I а (X, т)а (X) - b (X, Т)Р(Х) |2 Следовательно, спектральная плотность Slt (X) заведомо не вырождается при | X | = 1, если 0 (X) = 0. Пусть s — запаздывание в измерении, т.е. 0 (X) = Х*/?5 + Х5% 1 & + i + ... .. ., ¥= 0. Тогда из(4.20), (4.27) следует, что при к + s>p+r выполняется равенство М W?Uf =0. Если пфи этом управляющие воздействия ut удов- летворяют неравенству к = 1 Muj к2 (4-29) то в силу теоремы 1.П.2 с вероятностью 1 выполняется предельное равен- ство lim /^с/=0. (4.30) f —> оо Таким образом, при 0(Х)^О входные воздействия{м,}, {wf}в системе (4.1), (4.27) обладают свойством предельной невырожденности. Отметим, что установление соотношения (4.30) никак не связано со стационарностью процесса {ut}, а используется лишь неравенство (4.29) и независимость с.в. ut _ к от с.в. р - г- К предположению о стационарности управления мы прибегли лишь при установлении его предельной невырож- денности, поскольку воспользовались спектральным методом. Если управление имеет вид q ut= S е1Цк*йк, (4.31) к = 1 где {йк}— независимые центрированные с.в., то спектр сингулярного стационарного процесса {и,}состоит из частотД1,.. ., Если все цк - раз- личны (по mod 2я) и Мйк > 0, к = 1,..., q, тошочти все реализации процес- са (4.31) удовлетворяют условию постоянного возбуждения порядка q. Соотношение lim (Ju)jjr = Ru (i-j) в данном случае устанавливается Г оо непосредственно, так что управление является предельно невырожденным при q > 2г - к + 1. Сказанное, разумеется, остается в силе и для вырожден- ного процесса (4.31), когда йк - отличные от нуля неслучайные величины. 119
Матричные элементы матрицы /(/ имеют при t 00 пределы, поскольку I г lim — S Г~* ~ Т Г= 1 б) Ограниченность управляющих воздействий и выходов объекта. Пред- положение (4.25) означает устойчивость замкнутой системы, если управляю- щие воздействия формируются, например, с помощью обратной связи (4.27). Это условие чрезмерно ограничительно в задаче адаптивного управления, поскольку ограниченность выходов обычно является состав- ной частью цели управления. Для задачи идентификации, когда результаты оценивания не используются при формировании управляющих воздействий, условия (4.25) естественны, поскольку для неустойчивой системы управ- ления условие предельной невырожденности может нарушаться. Предположение об устойчивости полинома с (X, т) требуется для прео- доления некоторых технических трудностей при доказательстве теоремы 2.4.1 и, видимо, не связано с существом дела. В случае гауссовских с.в. иу это действительно так. В самом деле, пусть с (X, т) = с{ (X, т) с2 (X, т), где с2 (X, т) - устойчивый полином, а все корни полинома (X, т) располо- жены в открытом единичном круге. Пусть ? j (X, т) - ’’обращение” полино- ма С) (X, т), т.е. cj (X, r) = ci (Х"1,т)Хр‘, гдер! - степень полинома Ci (X, т). Полином с* (X, т) = с2 (X, r)Ci (X, т), как легко видеть, будет устойчивым. Определим стационарный процесс {йу} уравнением с* (V , т) wt = с (V, т) wt. (4.32) Поскольку с» (X; т) с» (X-1, т) = с (X, т) с (X'1, т),. то спектральная плот- ность S- (X) тождественно равна единице. Это означает, что процесс {wr}- некоррелированный. В то же время из (4.32) следует, что (4.4) может быть заменено на соотношение vt = <?♦ (V. т) wt (4.33) с устойчивым полиномом с*(Х, т).Для с.в. wr выполнены условия (4.6), по- скольку М xj = Мwj. Единственная тонкость: с.в. й>, не являются, вообще говоря, независимыми. В случае гауссовских с.в. wt стационарный процесс {wt} будет гауссов- ским, а в силу некоррелированности с.в. w( процесс {wt} будет принимать независимые значения. Итак, в случае гауссовских с.в. wt без ограничения общности можно предполагать, что полином с (X, г) в (4.4) не имеет корней в замкнутом единичном круге. Требование его устойчивости в этом случае означает, что у полинома не должно быть корней на единичной окружности. Интересно отметить, что условие устойчивости полинома с (X, т) возникает и при других подходах к задачам идентификации и адаптивного управле- ния (см. гл. 4). 120
в) Наличие помехи в канале наблюдения. Если выход {j\} объекта (4.1) наблюдается с помехой, т.е. измерению доступны лишь величины (4-34) {ег} - белошумный процесс, независимый с процессом {wf}, то исключая ут в (4.1) с помощью (4.34), придем к уравнению а (V, г) zt = b (V, т) ut + с (V, т) wt, (4.35) / wt \ где с (X, т) = (с (X, т), а (X, т)), wt = |. Таким образом, вновь приходим к задаче идентификации объекта (4.35), но уже с векторной помехой. Метод эмпирического функционала, описанный выше, требует дальнейшего развития (см. п. 4.3’. 2 ° б) для идентификации объекта (4.35). Если wt =0, то (4.35) представляет собой частный вариант уравнения (4.1) при с (X, т) = -а (X, т) и wr = et. г) Помеха с дробно-рациональной спектральной плотностью. Если поме- ха {и,}в уравнении (4.1) формируется фильтром d (V, т) иг = с (V, т) wr, (4.36) где d (X, т) = 1 + Xd{ (т) + . . . + Хр dp (т) - полином с коэффициентами, известным образом зависящими от параметра тЕТ, то стационарный про- цесс {vt} будет иметь дробно-рациональную спектральную плотйость (см. § 3. П). Если d (X, т) - устойчивый полином при всех т G. Т, то применением к уравнению (4.1) операции d (V, т) придем к уравнению 2 (V, т)уг = b (V, т) ut + с (V, т) wf, (4.37) где а (X, т) = d (X, т) а (X, т), b (X, т) = d (X, т) b (X, т). Уравнение (4.37) имеет тот же вид, что и (4.1), но обладает более высоким разностным порядком. Если для (4.37) выполнены условия теоремы 2.4.1, то тем самым приходим к решению задачи идентификации уравнения (4.1) при помехах (4.36). Сказанное естественным образом переносится на слу- чай помехи с дробно-рациональной плотностью в канале наблюдения. д) Условие идентифицируемости объекта. Условие идентифицируемости (4.17) имеет прозрачный смысл, который легко пояснить, если полином с (X, т) от т не зависит, т.е. коэффициенты его полностью известны. Второе соотношение (4.17) тогда принимает вид At (т') = Л,(т), (4.38) а потому из первого соотношения (4.17) получаем Я,(т') = В,(7). (4.39) Учитывая, что у матрицы (?*лишь на k-и поддиагонали стоят единицы, а на остальных диагоналях - нули, в силу (4.8) убеждаемся, что равенства (4.38), (4.39) эквивалентны следующим: «/(0 = «/(А /=!,..., г, Z>, (т) = Ь, (т'), I = к,..., г. (4.40) 121
Если полином с(Х, т) зависит от т, то анализ соотношений (4.17) более сложен, но при я(X, т) с(X, т) результат получается тот же: наряду с (4.40) справедливы равенства Q(t) = q(t'), р. (4.41) Таким образом, идентифицируемость объекта означает требование равенст- ва параметров, если равны соответствующие коэффициенты полиномов а(Х, т), Ь(Х, т\ с(Х, т). Это естественное условие заведомо выполняется, если в роли параметра т выступают все или часть коэффициентов указан- ных полиномов. е) Линейная зависимость коэффициентов объекта от параметров. На- хождение вектора (4.15) в общем случае может представить значитель- ные трудности с вычислительной точки зрения. При специальных пред- положениях задача может существенно упроститься. В качестве иллюстра- ции такой возможности предположим, что полиномы а(Х, т), Ь(Х, т) ли- нейно зависят от вектора т, а полином с(Х, т) от т не зависит. Функционал (4.14) теперь принимает вид И/’(т>= \С;1А,(т')у{ - Q* |2 (4.42) и является квадратичным относительно т': ^э(т') = (т')’Лгт' + 2г; т' + pt, (4.43) где матрица Rt , вектор rt и скаляр pt определяются данными наблюдений: R, = Z‘ Zt, rt = Z* Z<0), pt = IZt(0) I2, (4.44) Zt = Ct’* 14tl y уг,-В}1* ...,A<"> y{ - Bt(N} u{ B, Z<f°> = Ct'1 [Л<°> y{ - u\ ], (4.45) 4°= B? = b(Qt), i = 0, 1,... ,N, at(X), bj(X) — полиномы с известными коэффициентами из представления N N a(X, т) = а0(Х) + X а,(Х)т(/), Z>(X,t) = Z>0(t)+ X 6,(Х)т(/), i=l /=1 N - число неизвестных параметров полиномов а(Х, т), 6(Х, т). Если матрица Rt неособая и Т совпадает со всем пространством R^ro 7, = -/^ г,- (4-46) Можно, однако, для нахождения вектора, минимизирующего функционал (4.43), воспользоваться градиентной процедурой вида 17+1 = Рт [т, - rt + г»)], (4.47) где yt подходящим образом выбранные неотрицательные виличины (см. п. 1.4.6°), Рт - проектор на множество Т (здесь следует предполагать, что Т — выпуклое множество). Для вычисления матрицы и вектора rt в (4.46) можно также воспользоваться рекуррентными формулами. Дейст- 122
вительно, матрицу Ct можно представить в виде I О где ct = col (0,..., 0, ср,... , сх) — вектор с t компонентами. Поэтому несложно вычислить обратную матрицу С помощью этой формулы легко устанавливаются рекуррентные соотно- шения для величин (4.45): Z I I 4°> I f I z<°> = I Ь Дг+1-Ъ*ЛГ ,+ * -7; Z<°) I (4.48) где обозначено: = (at (V)yt - bt (V)ut,... ,aN(V)yt - bN(V) ut), p(f° = = *o(V)yf - MV) Ut. Формулы (4.48), (4.44) позволяют осуществить рекуррентный перес- чет матриц Rt и векторов rt. § 2.5. РОБАСТНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ ПОЛЕЗНОГО СИГНАЛА Метод максимума правдоподобия (ММП) обладает свойствами универ- сальности, позволяя при достаточно общих предположениях получать эффективные либо асимптотически эффективные оценки. Однако эти замечательные свойства приводят к чувствительности метода по отноше- нию к виду используемого распределения. Можно указать примеры, когда сколь угодно малое отклонение распределения от истинного приводит к резкому ухудшению качества оценок ММП, оценки теряют свойство сос- тоятельности, эффективности и тд. (Типичным примером подобной ситуа« ции является так называемая модель с редкими, но большими выбросами.) Другими словами, ММП не обладает свойством грубости (стабильности) по отношению к отклонениям используемого распределения от истинного. Это обстоятельство вызвало интерес к модификациям ММП в рамках робастного оценивания. 2.5.1°. Общее понятие о робастном оценивании. Робастное рценивание состоит в применении идей ММП в ситуации, когда форма или параметры распределения, на котором основан метод (см. п. 1.4.3°), определены не- полностью. С формальной точки зрения неопределенность вида распреде- ления можно описать введением параметра $, принадлежащего множеству Z. Тогда вместо плотности р(у 1т), фигурирующей в ММП, появляется плотность р (у 1т,$)' Множество S может определяться некоторым свойст- вом рассматриваемых распределений. Например, это свойство может 123
состоять в фйнитности распределений, в заданной ограниченности их дис- персий, нормальности или близости к нормальному распределению и т.д. Теперь плотность зависит от двух параметров т и но по условию задачи оценке подлежит лишь параметр т и эту оценку надлежит производить по данным наблюдения г в условиях, когда значение параметра % неизвест- но. Другими словами, £ играет роль паразитного (мешающего) параметра распределения.Теоретически мыслимы по крайней мере два различных спосо- ба решения поставленной задачи. Первый из них состоит в совместном оценивании параметров т и £, и тогда приходим к ’’расширенному” ММП. Однако в ряде задач параметр £ описывает весьма общие свойства распре- делений, носит функциональный характер, поэтому построение удобных схем его оценивания обычно затруднено. Другой путь - выбор ’’наихуд- шего” в множестве Z значения £* параметра £ с последующим исполь- зованием ММП, основанном на плотности р(у 1т, £♦). Именно эта идея получила признание и развитие и известна как робастное оценивание, или стабильный ММП. Опишем кратко суть метода. Первый вопрос, на который следует ответить - что является критерием выбора значения параметра £♦. Для ответа на него обратимся к неравенству Крамера - Рао (см. п. 1.4.4°). Ограничиваясь для простоты изложения рас- смотрением лишь несмещенных оценок 7(7), в силу леммы 1.4.2 (стр. 51) имеем М 1т(7)- т I2 > 5рЛ'1(7,£), (5.1) где А(т, £) - информационная матрица Фишера, зависящая теперь и от па- раметра £. Естественно в качестве ’’наихудшего” параметра £♦ выбрать £♦(?) = argmax Sp/T1^, £). (5.2) Так найденное значение параметра % может, разумеется, зависеть от па- раметра т. Сама процедура вычисления £♦ (т) может оказаться простой или сложной в зависимости от вида множества Z и функции рО’ Ь,|). Огрубленный (стабильный) ММП состоит в использовании плотности Р*(у 1т)=рСу 1т, ?.(т)), (5.3) отвечающей наихудшему (или наименее благоприятному) для данного па- раметра т распределению. Обозначим через т*(у) оценку ММП, определяе- мую плотностью (5.3), т.е. являющуюся решением уравнения gradT InL*(v, т) = 0, L*(y, т) = р* (у| т) (5.4) (предполагается, что написанные производные существуют). Оценка ?• (у) называется робастной. Робастная оценка 7* (7) называется эффективной в классе = £££}, (5.5) если f I ?.(У)~ т12Р(у1т,l)dy <Sp/T1(T,g.(’’)) (5.6) для любого £ Е Z. 124
Если данные наблюдения имеют вид y=y\.t - время наблюдения, то последовательность робастных оценок fr = называется асимптотиче- ски эффективной в классе Р(т), если lim f I Tt - t|2pO’i It, %)dy\ < lim Sp {f [gradT In p*(v'It)] X f—X» f—*OO X [gradT Inp,o'lr)] *P.(v'l r)dy‘}'1 ^5‘7^ для любого £ E I Из (5.7) следует, что если последовательность оценок{тг} состоятельна в среднеквадратичном, т.е. М \ ft - т |2 -*0 при t то оценки тг асимпто- тически эффективны (при этом сами оценки могут быть и смещенными). Описанный способ огрубления ММП не является единственно возмож- ным. Так, если нахождение оценки из уравнения (5.4) вызывает трудности из-за возможной сложной зависимости функции правдоподобия L♦ (у, т) от параметра ., то можно произвести дальнейшее огрубление ММП, обычно приводящее к более простой вычислительной схеме. Для описания послед- ней определим параметры т»».£»» из условия {т« »,£»»}= argmax Sp/Tl(T,£), (5.8) tt-z.re-T а в качестве плотности в огрубленном ММП примем р..(у1т) = р0'1т, (5.9) Несмещенную оценку так огрубленного ММП обозначим через?»»(у). Ее естественно назвать эффективной в классе Р = {рО'1т,$).теТ, $££}= и Р(т), (5.10) теТ если при всех £ G Z выполняется неравенство / 1т..О’)- TppCrlr.SXv^Sp/r^T.S.»). (5.11) Соответствующим образом вводится и понятие асимптотической эффектив- ности в классе Р оценок т»»(у Как и раньше, среднеквадратичная состоя- тельность оценок влечет их асимптотическую эффективность. Для широкого круга приложений параметр (5.2) оказывается не зави- сящим от выбора т G Т; тогда обе описанные модификации огрубления ММП приводят, очевидно, к одной и той же оценке т(у). До сих пор параметр т выступал как некоторый вектор из множества Т. Иногда допустимо считать т с.в. с распределением, сосредоточенным на множестве Т. Может оказаться, что это распределение неизвестно и задано с точностью до класса Н. Предположим, что класс Н параметризован пара- метром г/ и что соответствующие распределения имеют плотности р(т 1т?) . Предполагая, что параметры £ и т?известны, оценку т(у) параметра т удоб- но находить из условия максимума по т апостериорной плотности (см. п. 1.4.3°) ?(у) = argmax p(rl_y). тСТ 125
В силу формулы Байеса , . . Р(У^т,1)Р(г\п) р(Т\у)= ------—-------- Р(у) и, следовательно, т(у) = argmax р(у\т, р), (5.12) тет где обозначено р(у 1т,1’)=р0>1т,0 p(tItj), v= {$,т?}. (5.13) Определяемая формулой (5.12) оценка зависит от параметра v 6 N = Z X Н и не может быть использована при неизвестном его значении. Мы пришли к уже известной ситуации, но теперь вместо % неизвестным параметром является р. Поэтому можно воспользоваться описанными выше модифика- циями огрубленного ММП для получения робастных оценок. Однако наря- ду со вторым вариантом огрубления ММП, связанного с определением параметров т**, из условия (5.8), теперь имеется более гибкий способ ’избавления” зависимости параметра р* от вектора т. Именно, усредняя по т обе части неравенства М {I ?(;’) - т|2 | т, р} > Sp Л"1 (т, р) с плотностью р(т I т?), получим /М{| т(р) - тР I т, р} р(т \rj)dT> Sp f Л_1(т, р)р(т li?) Jr. ’’Наихудшее” значение параметра v может быть определено из условия максимизации правой части полученного неравенства. С вычислительной точки зрения более предпочтителен выбор р* из условия р* =argmin В (v)- f Л (т, p)p(rli?)<Zr, если множество матриц {В(у)} имеет нижнюю грань, т.е. существует такая матрица В* = В(р*), что В(у)>В* при любом v Е N, Робастная оценка т*(у) определяется из уравнения (5.4), где теперь А*Су,т) = р(у1т,р*). Описанные способы огрубления ММП можно рассматривать как некото- рые рецепты получения оценок в условиях, когда вид распределения поме- хи неизвестен. Эти рецепты обычно приводят к удобным вычислительным процедурам. Кроме того, при дополнительных предположениях робастные оценки обладают определенными минимаксными свойствами, обеспечи- вая наименьшее в соответствующем классе распределений среднеквадра- тичное уклонение от оцениваемого параметра. Некоторые из этих свойств будут приведены в последующих пунктах. 2.5.2°. Уточнение схемы робастного оценивания параметра полезного сигнала. Уточним постановку задачи, сформулированную в п. 1.1.2°. Наб- людаемый скалярный сигнал у( имеет вид yt=s(xt, т) + и„ (5.14) где s(xf,r)- полезный сигнал, зависящий от изменяющегося во времени 126
случайного параметра xt и постоянного параметра помеха наблю- дения, которая принимает независимые значения и имеет плотность pv(y). В зависимости от постановки задачи значения параметра xt могут быть наблюдаемыми (измеряемыми), и тогда в момент времени t данными наблю- дения будут величины z\ ={Уь*1)> либо недоступными наблюдению, и тогда данные наблюдения имеют вид у\. Задача состоит в получении оценки тг параметра т как функции данных наблюдения в момент времени Z. Оценка rf должна обладать определен- ными свойствами (оптимальность, эффективность, состоятельность), ко- торые далее будут уточняться. К задаче восстановления параметра т в схеме наблюдения(5.14)приводит также задача аппроксимации функции по ее значениям в случайных точках (п. 1.1.5°), некоторые задачи обучения (п. 1.1.6°), задача оптимального обна- ружения^. 1.1.3°)и другие. Возможны различные схемы оценивания,если известна плотность pv(y)распределения сл. иг(см. §§ 1.2, 1.4, 2.1, 2.3). Здесь мы ограничимся обсуждением случая, когда плотность pv(y) известна с точностью до класса л, т.е. известно семейство плотностей р (у | £), £ Е а и Pv{y) = PCxI £) при некотором (но нам неизвестном) £Е Н. При этом будем предполагать, что плотность р (у | £) дифференцируема noj и dp(yl£) Э Inр(у\ £) I2 . „ _ J- dy=0, /($) = / а p(y\&dy<°° (5.15) оу оу I при любом £ Е Z. Величина /(£) называется фишеровской информацией. Ограничимся простоты ради рассмотрением случая, когда xt - независи- мые с.в. с одинаковым распределением, имеющим плотность р(х), не за- висящую от £ 6 Н, т 6 Т. (Аналогично изучается задача, в которой {xf} - марковский процесс с известной переходной плотностью). Множество Т предполагается компактным подмножеством конечномер- ного евклидова пространства. Функцию $(х, т) будем предполагать диф- ференцируемой по т и такой, что матрица 6'(т) = / [grad,. s(x, т)| [grad, s(x, т)] *p(x)dx (5.16) - неособая при каждом т Е Т. Если данными наблюдения являются величины z* = {уьх'}, то плот- ность Pq(z 1 1т,£),участвующая в ММП (см. п. 1.4.4°, 2.5.1°), имеет теперь вид Ро(^1т,£)= П p(zaJt,£), (5.17) *=1 где в силу (5.14) Р(г/1т,$) = рО'/1т,х/,ОР(*/) = РЬ'/ -*(•*/. т)1|] p(xj). (5.18) Если же величины х{ не наблюдаются, то ММП основывается на плот- ности Р(И1т,£) = $p(z\\T^)dx\ = П Sp[yil£] p(x)dx. 7=1 127
Далее ограничимся исследованием задачи,в которой величины*, наблюдают- ся и плотность распределения данных наблюдения имеет вид(5.17)-(5.18). 2.5.3 и. Критерий выбора наименее благоприятного распределения. В со* ответствии с п. 2.5.1° робастное оценивание основано на определении ’’наихудшего” параметра (5.2) и отвечающего ему наименее благоприят- ного распределения. Если плотность р(г !£♦) такого распределения най- дена, то робастная оценка т, = т» (z\) определяется из условия Tt = argmin И'Дт), tGT где IV/(r)=------X Inpb»/ s(xhT) IM- t /Н (5.19) (5.20) Знание плотности р(х) распределения с.в. */ для построения робастных оценок не требуется. Для определения параметра %* вычислим элемент {Л,} ц информацион- ной матрицы Аг = А,(т. £) при фиксированных значениях, параметров т и В соответствии с формулами (1.4.26), (5.17), (5.18), (5.15) и с учетом независимости с.в. z, = col(xf, >’,), после несложных вычислений находим u,(T,n},/ = f/a){G’(T)),7> где /(£) - фишеровская информация (5.15) и G(t) матрица (5.16). Таким образом, , SpG-'(7) Sp A11 (т, £) =-------- , //(О откуда следует, что ’’наихудшее” значение параметра $ определяется ус- ловием = argmin /(£) и не зависит от т. Робастная оценка rt = т* (z{) в соответствии с п. 2.5.Р определяется из условия максимизации функции р. (г?1т) = р(г{1тД.). (5.22) Можно было бы рассматривать более общую задачу, предполагая, что плотность распределения с.в. xt также зависит от параметра £, р(х) = = р(х 1£). Тогда G(t) = G(t, $) в соответствии с формулой (5.16) и пара- метр (5.21) , SpG4^) = arginax ----------- *ez /(0 мог оказаться зависящим от т. В этом случае возможно использование второй модификации огрубленного ММП, описанной в п.2.5.1°, которая связана с определением параметра £«* из условия м = argmin /(£)g(£), g($)=[max Sp G-1(r, £)Г* • rGT 128
Плотность р* * (zi I т) в так огрубленном ММП имеет тогда вид р.» (z{ 1т) = p(z{ 1т, (•,»). Далее ограничимся лишь случаем (5.21), (5.22). 2.5.4 °. Класс симметричных распределений с ограниченной дисперсией. Пусть Z - множество плотностей р(у I $), для которых fyp(yl$)dy = O, fy2p(y\^)dy = о2($)<о2 (5.23) с заданным числом о2 > 0. Для определения ’’наихудшего” венством параметра воспользуемся нера- 1Е)<Му)12 f'p'tyYpiyiftdy (5.24) справедливым для произвольной дифференцируемой функции $(у) и три- виально следующим из неравенства Коши - Буняковского Э In р(у IО I , V —-------- ।О #(У)dyl < by J J _ , [ dp(yl£) ]2 dy <f'P (y)p(y\i)dyf\—------ ; . ' L dj J pOI$) Выберем *p(y)-y в (5.24). Тогда в силу (5.23) /«)> 1 1 1 fy2P(y^)dy о2(£) > о1 (5.25) (5.26) (5.27) Неравенство (5.27) справедливо для любой плотности р(у 1£). Оно перей- дет в равенство для плотности р(у !$♦), если в силу (5.26), (5.25) Э1пр(>1£) У = - -----г------ > (5.28) dj где Ci - произвольная постоянная. Решая уравнение (5.28), найдем / У2 \ рО1М=С2ехр(- —). (5.29) V / Из условия нормировки f р(у I ?♦) dy = 1 следует, что Сх > 0 и С2 = = (2яС1) “%, а в силу (5.27) выполняется Сх = о2. Таким образом, Р01М= у, ехр(- -Jj-), (5.30) у2тг<г \ 2<г / т.е. наиболее неблагоприятное распределение в классе симметричных рас* пределений с ограниченной дисперсией является гауссовским. В соответст* 129
вии с (5.22), (5.17), (5.18), (5.30) находим £.(z{,r) = II p(z,lr,{.) = [ П p(.vz)l П р[у,-х(х/,т)1$.) = /=1 i=i i=i t I S к/ - s(X|, т]2 \ = [ П p(xi)](2na2ytl2 exp!- —------—--------1 (5.31) /=1 \ 2<г / Следовательно, оценка 7 = 7* (z*) определяется как решение уравнения 2 Ь'/ ~ г)1 gradT s(xhT) = 0. (5.32) /=1 Оценка ?*(zi) , как следует из (5.19), (5.20), (5.30), минимизирует эмпи- рический функционал 2 [у/-^,?)]2. (5.33) t /м В (5.33) суммируются независимые с.в. При мало ограничительных пред- положениях (см., например, лемму 1.4.3) с вероятностью 1 существует предел lim FV/=^a,?), (5.34) f—* оо где Hztt,r) = />'2P(yl^)^[ $(х, т) - $(х, т) \2p(x)dx. (5.35) Из (5.35) следует, что если последовательность у\ определяется уравне- нием наблюдения (5.14), то минимум по т функционала (5.35) достигает- ся при 7 = 7. Если функция W(7) = f [s(x, 7) - s(x, 7)] 2p(x) dx (5.36) имеет единственный минимум, т.е. при 7=#=7, то при равномерной по т сходимости (5.34) робастные оценки тг = ?*( z\) состоятельны. Таким образом, робастные оценки в рассматриваемом классе распре- делений получаются по схеме МНК (см. (5.33)) и при весьма общих предпо- ложениях обладают свойством состоятельности. 2.5.5°. Линейная зависимость полезного сигнала от параметра. Сказанное выше допускает уточнение, если функция $(х, 7) имеет вид $(х, 7) = т*а(х) + Ь(х), (5.37) гдеа(х) - вектор-функция соответствующей размерности и Ь(х) — скаляр- ная функция. Функционал (5.36) теперь квадратичен по т: Ит) = (т-т)’(7(7-г), (5.38) где G = fa(x) а*(х)р(х) dx. (5.39) 130
Если матрица (5.39) - неособая, то минимум функционала (5.38) — един- ственный и, следовательно, робастные оценки в классе симметричных распределений с ограниченной дисперсией состоятельны. Можно уточнить характер их сходимости. Для этого с учетом (5.37) перепишем уравнение правдоподобия (5.32) в виде GtT=$t, (5.40) где Gt= Z a(x!)a*(xi), = S [у, - Z>(xz)] a(xj), (5.41) /= 1 /= 1 т.е. робастная оценка rt в данном случае является решением нормальной системы уравнений Гаусса (5.40). Оценки тг не являются, вообще говоря, эффективными, но обладают свойством асимптотической эффективности в силу их состоятельности. Более того, справедливо следующее утверждение Теорема 2.5.1. Предположим, что выполнены условия: 1. Се. xt стохастически независимы и имеют одинаковое распределение с плотностью р(х). 2. Век тор-функция а (х) ограничена: la(x)l<Q, (5.42) 3. Матрица (5.39) - неособая. 4. Помеха {иг} представляет собой последовательность независимых с.в., имеющих одинаковую плотность р(у I %) со свойствами (5.23). Тогда для решения rt = уравнения (5.40) справедливо соотноше- ние М\т-Tt |2 =р,о2«)<р,а2, (5.43) где Pt^MSpGp (5.44) « и матрица Gt определяется формулой (5.41). Отметим, что в силу (5.42) можно воспользоваться законом больших чи- сел для матриц Gp. с вероятностью 1 выполняется равенство lim t~lGf = G, 1-+00 т.е. с некоторого t матрица Gf1 существует. Если С/1 при некоторых t не существует, то под Gf1 следует понимать псевдообратную матрицу (обра- щение матрицы Gt в пространстве ее значений). Из (5.41) следует, что матрицы Gt монотонно возрастают, а потому ве- личина pt монотонно убывает до нуля. Можно показать (см., например, теорему 2.5.2),что pr = ^~1SpG~l + o(t-1), где G определяется формулой (5.39). Величина pt не зависит от параметра £, определяющего плотность рас- пределения р(у\%) возмущающего воздействия v(. Из (5.43) следует, что робастная оценка имеет среднеквадратичное отклонение, не превосхо- дящее величину pfO2, и эта оценка не может быть улучшена в классе сим- 131
метричных распределений, имеющих ограниченную (числом а2) дисперсию ((5.43) при £ = £ ♦ превращается в равенство). В том частном случае, когда 5(х, г) =т, (5.45) приходим к задаче об оценке сдвига распределения. Робастная оценка при этом имеет особенно простой вид ?r=7 S У1- (5.46) 1 1= 1 Соотношение (5.43) принимает форму что означает эффективность оценок (5.46). 2.5.6.° Учет априорной информации о распределении параметра полез* ного сигнала. Предположим теперь, что о параметре т в схеме наблюдения (5.14), (5.37) известно, что он является гауссовской с.в. с плотностью распределения р(т) = (27rdet/?)~A/Z2exp[ -^(т - - т0)], (5.47) где N - размерность вектора т. Будем предполагать, что среднее значение То плотности р(т) известно, тогда как о матрице ковариации R известно лишь, что она не вырождена и удовлетворяет неравенству ЯСКо (5.48) с заданной положительной матрицей Яо. Покажем, как можно учесть при- веденную информацию в рамках рассматриваемой задачи робастного оценивания. Пусть {R} - некоторое множество положительных матриц, удовлетво- ряющих условию (5.48) и содержащее матрицу R0. Соответствующие гаус- совские плотности (5.47) будем обозначать через р(т|Я). В частности, множество {*?} может состоять из единственной матрицы Яо, и тогда ап- риорная плотность распределения гауссовского параметра т определена полностью. В соответствии с п. 2.5.1° робастное оценивание будет основано на плот- ности (5.13), где роль параметра rj играет матрица R. С учетом (5.14), (5.37) эта плотность может быть записана в виде p(z\ |т. %yR) = p(r\R) { П р(х/)} П р{У1 - T*a(xi)\t]. (5.49) 1 = 1 / = t Основываясь на плотности (5.49) и предполагая параметры т, £, R фикси- рованными, вычислим информационную матрицу Фишера Af = At(r,^,R), Повторяя вычисления п. 2.5.3°, получим At(т,1. R) = 7/(00 + Л-‘ (7 - 7о)(т - 70)*Л-‘, (5.50) где величина /(£) и матрица G определяются формулами (5.15), (5.39). 132
Определение параметров £, R из условия минимизации правой части по $ и R вызывает трудности и приводит к зависимости ’’наихудшей” матрицы R* от параметра т. Поэтому в соответствии с рекомендацией п. 2.5.1° ус- редним (5.50) по т с плотностью р(т |Я). Получим At(i, R) = / А((т, t R)p(T|R)dT = + R"1. (5.51) Учитывая (5.27), (5.48), убеждаемся, что 4HtR)>^,a.,R) = rG/o2 +R;1. (5.52) Плотность наименее благоприятного распределения в силу (5.49), (5.30) имеет вид p(z{ |Т, ^,Яо) = = (2^o2)~fy<2(2^det7?o)~ • {П р(х/)) X / = 1 Хехр{-| S [^/- т*а(х/)]2-у(т-То)*Ло1(т-то)}. (5.53) z /= 1 z Образуя из плотности (5.53) логарифм функции правдоподобия и прирав- нивая к нулю градиент по т от этой функции, получим уравнение правдо- подобия для определения робастной оценки [Gt +о2Я0“1]т= фг +о2/?о1т0, (5.54) где матрица Gt и вектор определены формулами (5.41). Матрица o2Rq1 играет в уравнении (5.54) рольрегуляризатора матрицы Gt. С ростом t матрица Gt монотонно возрастает и роль регуляризатора уменьшается, но при малых t учет матрицы o2R^ может иметь сущест- венное значение. Робастная оценка, учитывающая априорное распределение параметра, имеет, следовательно, вид ?,=?(z() = [G, + o2R3,J-,[^- o’Ri'ro]. (5.55) В условиях теоремы 2.5.1 несложно получить соотношение M{(rt - T)(Tt - т)* |т} = = M{(Gt + o2R-0l)-' - т0)(т - 70)*Ri' + + o2(OG,](Gf +o2Ro‘ Г* It), (5.56) если распределение помехи определяется параметром %. Предполагая, что апостериорное распределение параметра т определяется матрицей R, из (5.56) после усреднения по т получим M(Tt- r)(rt - т)* = = M{(Gt + o2R-01)-1lo*Ro*RRo‘ +o2«)Gf](Gf + o2R0-1)-'}. 133
Учитывая (5.23), (5.48), найдем окончательно М |т, - т|2 <а2 SpM(Gt + a2/?-1)-1, (5.57) т.е. для робастных оценок гарантируется оценка (5.57) среднеквадратично- го отклонения, причем эта оценка неулучшаема в классе N рассматривае- мых плотностей (она достигается при R = Ко)- Как и прежде, ро- бастные оценки состоятельны, поскольку \M(Gt^o2RqX )-1 | =o(l/f). Сравнение оценок (5.57), (5.43) показывает, что учет априорной инфор- мации позволяет ”в среднем по т” уменьшить гарантированную диспер- сию. Этот ’’запас” уменьшается с ростом Ко и при -*0 оценки (5.43), (5.47) совпадают. Другой предельный случай Ro 0 означает все более точную лаприорную информацию об оцениваемом параметре. Робастная оценка тг при этом становится сколь угодно близкой в среднеквадратичном смысле (равномерно по t) к точному значению параметра т. Наконец, если для плотности (5.47) среднее значение т0 не известно и может принимать произвольное значение из множества Т, то в (5.50) век- тор т0 наряду с £ и R следует рассматривать как параметр. ’’Наихудшее” значение т0, как следует из (5.50), будет при т0 = т, т.е. ’’наихудшее” распределение р(т|т0, Ко) = 1. Робастные оценки в этом случае совпадут с оценками, определяемыми из соотношения (5.40). Другими словами, учет априорной информации о распределении параметра т по закону (5.47) с неопределенными средним т0 и ковариацией R не позволяет улучшить робастные оценки п. 2.5.4°,получаемые без каких-либо предположений об априорном распределении параметра т. Если, однако, известно, что т0 в Е То С Т, то определение ’’наихудшего” значения т0 и последующее по- строение робастных оценок может оказаться вполне содержательной задачей. 2.5.7 ° Описание некоторых классов робастности. Выше достаточно подробно был рассмотрен класс симметричных распределений с заданной ограниченностью дисперсии. Робастное оценивание здесь оказалось тесно связанным с МНК. Перечислим некоторые^другие возможные классы рас- пределений, встречающихся в приложениях. Робастные оценки в них могут оказаться никак не связанными с МНК. а) Класс невырожденных распределений. Этот класс состоит из распреде- лений, плотности которых удовлетворяют условию (5.58) с заданной постоянной а > 0. Класс невырожденных распределений - прак- тически наиболее широкий из классов распределений. Найдем наиболее не- благоприятное распределение. Выберем в неравенстве (5.24) <р(у) = sign у. Тогда <fy(.y) - 26 (y)dy и (5.24) примет вид /«)>4р2(0 1О> (5-59) причем равенство в (5.59) достигается при dlnp( v ) ¥>( У) = sign>’ = Ci-------. (560) 134
Разрешая уравнение (5.60), используя условие нормировки и (5.59), окон- чательно получим ( lt , 1 ( Ij'l (5.61) т.е. в классе невырожденных распределений йаименее благоприятным яв- ляется распределение Лапласа. Вернемся к задаче оценивания в схеме наблюдения (5.14). Робастная оценка в классе невырожденных распр^^^ий определяется в силу (5.19), (5.20), (5.61) из условия r#(z[) = argmin Z - s(xi, т )l, tGT/= 1 (5.62) т.е. робастная оценка минимизирует сумму модулей невязки наблюдаемо- го и полезного сигналов В задаче об оценке сдвига (см. (5.45)) условие (5.62) определяет ро- бастную оценку как выборочную медиану. б) Класс приближенно равномерных распределений. Плотности р(.у|£) имеют вид р(У 10 = (1 “а)РоОО+ <*?!<>), (5.63) где РоОО - плотность равномерного на промежутке [-€ , е ] распределения, — при | у | < €, (5.64) . 0 при | у | > €, Pi (.у) - произвольное распределение, 0 < а< 1. Числа б, а фиксированы и определяют класс приближенно равномерных распределений, параметр £ относится к виду плотности Р\ (j>) и является функциональным (£ = Pi(•)). Таким образом, в данном случае S = S (е,а). Найдем наименее благоприятное в классе распределение. Выбирая в (5.24) 0 при | у | < е, signjy при | у | > е, (5.65) получим [p(-e|t) + p(e|012 (5.66) / р(у1$)4у+/р(у1№у причем равенство достигается при fy(y I Ц 1 ду Р(У I I.) ’ (5.67) /(О> 135
Учитывая (5.65), решаем уравнение (5.67). Получим г ( |J'1 Gexpl— если | у | < е, если |д/ |>е, (5.68) где СС2) Сз - положительные постоянные. Эти постоянные должны удов- летворять соотношениям: 1) нормировки / р(у I t*)dy = 1, ИЛИ 2С]€ + 2С2Сзехр/--— )= 1; \ Сз / 2) непрерывности при у = ± е, или (5.69) С} = С2 ехр ( - —). (5.70) \ С3 / Для получения еще одного соотношения заметим, что из (5.63) следуют неравенства p(±eU)> f p(yl$)dy + fp(yl£)dy<a, -О» € что позволяет в силу (5.66) получить оценку (1 - а)2 /«)>------(5.71) ас* Требование равенства в (5.71) при £ = совместно с равенствами (5.69), (5.70) полностью определяет постоянные Сь С2, С3. В результате находим Р(^1^) = —2^“ , если | у | < е, 1—а I а — 1 z. . Д ~27“ехр|~^7" vlj7 l-е)}, если |у|>е. (5.72) Таким образом, плотность наименее благоприятного распределения в клас- се приближенно равномерных распределений постоянна в интервале [-еге ] и экспоненциально убывает вне этого интервала. Робастная оценка тг опре- деляется в силу (5.19), (5.20), (5.72) из условия t тт= argmin S Iу/ - s(x/,r)|0(|y/ - s(xi. т)| - е), (5.73) rGT I- 1 т.е. робастная оценка минимизирует сумму модулей тех невязок наблюдае- мого и полезного сигналов, которые по абсолютной величине превосходят число е (ср. с условием (5.62)). 136
Существует еще набор классов распределений, важных для приложений и позволяющих найти наименее благоприятное распределение в аналитиче- ской форме. Такими являются класс приближенно нормальных распреде- лений (плотности р(у\%) имеют вид (5.63), но р0 W - гауссовская плот- ность), класс финитных распределений (плотности р (у| $) - финитны) или приближенно финитных распределений (плотность в существенном сосредо- точена на конечном интервале) и другие. В каждом из этих классов робастные оценки определяются по рецепту, описанному в п. 2.5.4° и последовательно примененному при получении условий (5.32), (5.62), (5.73). Для многих из перечисленных классов робастные оценки обладают тем свойством, что асимптотическая дисперсия с.в. \/t(Tt - т) не превосходит постоянной Г1 (£♦) и эта постоянная является минимальной в соответ- ствующем классе распределений. 2.5.8 ° Рекуррентные процедуры построения робастных оценок. В соот- ветствии с п. 2.5.2° робастная оценка тг = t#(z{) определяется из условия минимума эмпирического функционала (5.19), (5.20). Эмпирический функционал (5.20) составлен из стохастически независимых с.в. и при ши- роких предположениях о свойствах плотности р(у|$*)и функции s(x, т) в силу закона больших чисел (см., например, лемму 1.4.3) с вероятностью 1 и в среднеквадратичном смысле существует предел lim И7(т)=И/(т), (5.74) f —► оо где предельный функционал W(t) легко вычисляется: ^(?) = /G(z,^)p(z|T^)dz. (5.75) Здесь обозначено: z = со!(х,у), Q(z, т) = -1пр[у - $(х, т) | ? J, Р{2 | т, $) = р[у - $(х, т) | £]р(х). (5.76) По условию, функция Q(zt т) нам известна, а плотность p(z |т, О - неиз- вестна, так как неизвестны значения параметров т, $. Если дана выборка z ь z2, ...» определяемая плотностьюp(z|r, £), то для минимизации функ- ционала (5.75) можно воспользоваться псевдоградиентными алгоритмами оценивания (см. п. 1.4.6°). В частности, предполагая дифференцируемость плотности р (у| %ф) по у и сигнала s(x, т) по т, можем получать оценки rt с помощью стохастически градиентной по отношению к функционалу (5.75) процедуры ^+1 = />Т {Tt + Уг^1У/ - s(xr r/)]gradTs(xr т,)), (5.77) где dlnp(.y|$ ) =------------*_ Эу (5.78) Ру — проектор на множество Т (предполагается, что множество Т — выпукло и проектор Р? известен) и yt - подходящим образом выбирае- 137
мне неотрицательные числа либо матрицы. Процедура (5.77) - (5.78) яв- ляется специальным вариантом псевдоградиентной процедуры, рассматри- ваемой в теореме 1.4.2. При выполнении условий этой теоремы обеспечи- вается сходимость с вероятностью 1 и в среднеквадратичном смысле оце- нок Tt к множеству минимумов функционала (5.75) независимо от выбора начальной оценки т i G Т. а) Анализ рекуррентных процедур робастного оценивания с помощью их усреднения. Для выявления особенностей робастных оценок нужно уметь оценивать предельную дисперсию оценок. В применении к процедуре (5.77) - (5.78) использованный при доказательстве теоремы 1.4.2 стохастический вариант метода Ляпунова, основанный на выявлении условий, при которых функция |т, - т|2 убывает вдоль траекторий разностного уравнения (5.77), оказывается достаточно грубым. Более тонкие результаты позво- ляет получить анализ, основанный на исследовании детерминированного уравнения, полученного из (5.77) усреднением по yt nxt при фиксирован- ном Tt. Этот метод, получивший широкое развитие при исследовании ус- тойчивости рекуррентных процедур, весьма прозрачен и мы воспользуемся случаем остановиться на нем подробнее. Будем далее предполагать, что множество Т совпадает со всем евклидо- вым пространством, так что операция Ру в (5.77) тождественна единичной. Ограничимся обсуждением случая, когда коэффициенты yt имеют вид 7г=/-'Г,. (5.79) где Г, - симметричная неотрицательная при всех t матрица. Предполагая, что функционал (5.75) дифференцируем по г, перепишем процедуру (5.77) в виде rz+I =rt - Г1 Г, grad WG-J + f1 Г,т?/+1, (5.80) где t?z+i = ФО/ - s(xt, r,)]gradTs(xf. rf) + grader,). (5.81) Как следует из (5.75), (5.81), величины т?,+, условно центрированы: =M{r)t+i | т,} =0. (5.82) Предположим пока для простоты, что Г, = Г. Если в (5.80) пренебречь условно центрированной (флуктуирующей) с.в. Гц «я, то придем к детерминированному уравнению ?J + i =?r - rgradWC?/). (5.83) В силу свойства (5.82) естественно ожидать, что решения стохастического уравнения (5.80) и детерминированного уравнения (5.83), отвечающие одинаковым начальным данным, будут близкими. Оказывается, что такое Соответствие действительно имеет место в некоторой окрестности стацио- нарного для уравнения (5.83) множества, если это множество асимптоти- чески устойчиво. Стационарное множество определяется, как обычно, уравнением grad = 0. 138
Предположим, что стационарное множество состоит из единственной точки т = т и в некоторой окрестности этой точки компоненты вектор-функции grad W(t) дифференцируемы. Тогда gradfP(r) = - т) + о(|т - т|), (5.84) где матрица WTT = grad [grader)]* (5.85) невырожденна. Асимптотическая устойчивость решения 7t - т уравнения grad W(rt) = 0 определяется, как следует из (5.83), (5.84), гурвицевостью матрицы (- Г WrT). Характер сходимости к т можно уточнить, если потребовать, чтобы матрица В = й/- ГИ/ГТ (5.86) была гурвицевой Действительно, в обозначении е;=х/7(?;~т) (5.87) уравнение (5.83) с учетом (5.84) запишется в виде Q + 1 = + 7 где 5/ - величина, при t удовлетворяющая условию V-yflerHT’G), О(е,)<Ср,|, * (5.88) о(Тг ) |е. Г*-*0 при IЪ Н0. Скорость убывания к нулю величины |ег | определяется матрицей Ф(Г+1,*) = П k<t, Ф(г + 1,г+1) = /, (5.89) /= к для которой lim £ф(г + 1, к) exp^-^ln~)j= /, (5.90) причем предел в (5.90) равномерен по t > к. Таким образом, |Ф(г + 1,Л) | t>kt (5.91) с некоторыми положительными С и X . Из (5.87) теперь, в частности, полу- чаем, что |т, - т |< Ct~(х+,/2). Напомним, что матрица называется гурвицевой, если все ее собственные значения расположены б открытой левой полуплоскости. 139
Располагая оценкой (5.91), из (5.80) можно получить асимптотическую оценку дисперсии. Действительно, полагая et = y/t (т, - т) (5.92) и учитывая (5.84), перепишем (5.80) в виде е/+1 =(/ + 7fi)et +St+ ^—7—^+1. <593) где матрица В определяется формулой (5.86) и - с .в. типа (5.88). С по- мощью матрицы (5.89) можно записать уравнение (5.93) так: t + 1 €г + 1 =Ф(Г + 1, l)€j + S Ф(Г + 1, 1 + А = 2 + 7фа+1,*)~П)*. (5.94) к = 2 При гурвицевой матрице (5.86) первые два слагаемых в правой части (5.94) стремятся к нулю. Учитывая измеримость этих слагаемых относи- тельно оалгебры F1 ~1 = 1, у 1} и центрированность по отношению к этой о-алгебре с.в. т?г+i (см. (5.82)), убеждаемся, что G = lim Met€t = = lim S уФ(г+1,Л)ГЛ/г?*^ГФ*(г +l.Jt). (5.95) r->oo 1 K Несложные вычисления показывают, что lim | т*_,} = G0 = = a«)/gradTs(x', т)[gradTs(x, r)]*p(x)dx, (5.96) где обозначено аШ = Л V'OOlWlOdy. (5.97) Учитывая (5.90), (5.95) можно представить в виде G = f eBTGoreB*'dt. (5.98) О Таким образом, при t о© дисперсия с.в. (тг - т) в силу (5.92), (5.98) имеет вид M\rt - т|2 ^ySpG. (5.99) Формула (5.99) является основной при анализе робастных свойств оценок, доставляемых процедурой (5.77), (5.78). 140
В ряде случаев интеграл в (5.98) вычисляется в явном виде. Предполо- жим, например, что сигнал s(х, т) - линейный по т (см. (5.37) ). Тогда gradTs(x, г) = d(x), W„ = ИЩА, Go = а(ОЛ, где d$(y) WO = f Р(у I ЪОу, (5.100) dy А = f a(x)a*(x)p(x)dx, (5.101) и a($) определяется по формуле (5.97). Тогда с учетом (5.86) формула (5.98) перепишется в виде G = a(^)rl/l , (5.102) о где 2 = Г% ЛГ'/2 и Г'/г - положительный корень из матрицы Г. Поскольку в подынтеграль- ном выражении все матрицы коммутируют, то получаем окончательно G = Л|-/ + 20(ЯЙ]-‘ГИ = = а(ОГЛ[-/+20(ОГ.4Г,Г. (5.103) Сформулируем точный результат, который может быть получен с помощью приведенной схемы рассуждений. Теорема 2.5.2. Предположим, что выполняются условия: 1. В схеме наблюдения (5.14) сигнал s(xh т) имеет вид (5.37). 2. Случайные величины {xh v^} в (5.14) стохастически независимы меж- ду собой и имеют соответственно плотности р(х), р (j> I £ ), где £ Е Н. 3. Матрица (5.101) - невырожденная. 4. Наименее благоприятное в Z распределение имеет плотность р (у \ ), для которой производная по у абсолютно непрерывна и при любом £ Е Z конечны величины (5.97), (5.100), где ф(у) определяется формулой (5.78). 5. Матрицы Г/ в процедуре (5.80) являются случайными, измеримыми относительно предыстории процесса оценивания, М{Гz|x'~ 1, у'" 1 } = Г/, ограниченными при всех t, причем с вероятностью 1 существуем положитель- ный неслучайный предел lim Г, = Г. г-*°° для которого матрица (5.86) гурвицева. 6. Для любого вектора т выполняется неравенство (т - r)*grad И'(т) > к( | т - т |), (5.104) где к (е ) - положительная при е Ф 0 величина. 141
7. Справедлива оценка Я - (Т- T)*a(x)]|a(x)|2p(j|$)p(x)dxd> <С (5.105) с некоторой постоянной С, не зависящей от выбора вектора т. Тогда lim - т с вероятностью 1 и в среднеквадратичном, причем lim tM(т, - т)(т, - т)* = G(O- (5.106) Г-*~ Здесь матрица G(^) определяется формулами (5.103), (5.97), (5.100), (5.101). Матрица G (%) называется асимптотической матрицей ковариации оце- нок (АМКО). Она зависит от предельного значения Г матричных коэффи- циентов Г/. Естественно выяснить, при каком значении Г матрица G(£) будет ’’наименьшей”. Для уточнения этого понятия перепишем формулу (5.103) в виде G = оГ[20Г-/р1?, (5.107) где Г = Л‘Л ГАЛ, G = G(V) = AVi GAV1 . (5.108) Назовем алгоритм (5.80) оптимальным, если для него обеспечивается тшС(Г). (5.109) г Варьируя равенство (5.107) по Г и предполагая, что вариация 6 Г коммути- рует с Г, найдем ЬЪ = 2а[20Г - У]-1 Г{/ - 0Г[ 20Г - 7]~1 }5 Г = 0. Отсюда находим Г = / или, в силу (5.108), Оптимальная АМКО определяется, следовательно, формулой а(£) (5.111) При этом матрица (5.86) становится равной т.е. Я - гурвицева матрица. Из формул (5.97), (5.100) в силу (5.29) выполняется неравенство 02(П где /(£) - фишеровская информация (5.15). Таким образом, использова- ние рекуррентных процедур робастного оценивания при оптимальном выбо- 142
(5.113) ре матричного коэффициента Г по формуле (5.110) гарантирует оценку о Sp/l"1 Sp/T1 lim tM\rt - т \г ~-------------- /ю /«j и эта оценка неулучшаема в классе 3 (5.23) (при £ = £»в (5.112) неравен- ство переходит в равенство). В силу неравенства Крамера - Рао имеем _ Sp/C1 lim tM | Tt - т |2 >-—, r— /({) т.е. рекуррентный алгоритм робастного оценивания в условиях теоремы 2.5.2 доставляет асимптотически эффективные оценки. Разумеется, исполь- зовать коэффициенты Гг = Г(£) нельзя, поскольку и матрица А и число 0(£) неизвестны. Однако для их оценивания можно воспользоваться дан- ными наблюдения уf, х\. Так, можно Гг определять по формуле (5.114) где Л,+ 1=у[ £ а(хк)а*(хк) + е/], е>0, 1 к= 1 ft+i=7 S F[yk - а*(хк)тк ], 1 к = 1 </21прСИМ ^Си) =------П-------• (5.115) dy* По закону больших чисел lim At = А t-+ °° с вероятностью 1, и матрицы Af+i положительны при всех t. Кроме того, поскольку т при к 00, то опять же в силу закона больших чисел Дг "*0(О с вероятностью 1. Поэтому матрицы (5.114) сходятся при t ~>о° к матрице (5.110). Таким образом, для матриц Гг выполнены условия теоремы 2.5.2 и алгоритм (5.80), (5.81) является оптимальным. Во избежание операции обращения матриц A t можно воспользоваться рекуррентным соотношением А .j t А .j__________t A;la(xt)a*(xt)A^ 1+1 z-1 1 t - \ t ~ \ + a\xt)Af'a(xt)' которое получается из соотношения . _ t - 1 a(xt)a*{xt) Af+i-------Af +———— t t применением матричного тождества при обращении матрицы (см. п. 1.4.6°). б) Рекуррентная процедура метода наименьших квадратов для робаст- ных оценок. Для класса симметричных распределений с ограниченной дис- 143
Персией при линейной зависимости сигнала s(x, т) от т условия теоремы 2.5.2 выполнены (в предположении невырожденности матрицы А). Однако в данном сйучае сами робастные оценки удовлетворяют рекуррентному соотношению. Действительно, Q+1 = Gt +a(xt+i )a*(xf 4 j), Фг+i = tt +1Л+1 - Z>(xf+i)]a(xz+i), а именно эти свойства использовались при выводе рекуррентной модифика- ции МНК в п. 1.4.6°. Соответствующая процедура имеет вид Т/+1 =т, + yta(xt+i)Lt[yt+i - a*(xt+1)rt - й(х,+ 1)], 7fti = Ъ - 7ta(xt+i)Lta*(Xt+i)yt. (5.116) Lt =[1 7ta{xt+! )Г*. Если в некоторый момент времени окажется то при всех t > г* в силу процедуры (5.116) также будет выполняться lt=Gt\ Tt=rt(z,i). Поскольку задание ’’начальных данных’’ затруднено, процедура (5.116) используется при произвольных начальных данных у71 — симмет- ричная положительная матрица. Использование леммы 1.4.4 позволяет ус- тановить состоятельность оценок т( в процедуре (5.77) при мало ограничи- тельных предположениях о функциях а (х), Ь(х). Из (5.116) легко выво- дится, что 1 1 lim 77/4’1 = lim 7 S а(хк)а*(хк) = А с вероятностью 1. Учитывая, что в данном случае lnp(j-1 SJ = ln>/2jra1’- , 0Су) = -4“, 2<г а2 убеждаемся, что процедура (5.116) асимптотически совпадает с процедурой (5.80), (5.81) при выборе (5.114)-(5.115) матриц Г,. В частности,в силу теоремы 2.5.2 процедура (5.116) доставляет асимптотически эффективные оценки независимо от выбора начальных данных , у i. в) Рекуррентное оценивание в классе приближенно равномерных распре- делений. Использование плотности (5.72) при линейной зависимости сигна- ла от параметра т позволяет переписать процедуру (5.77) в виде тг+, = т,+0,?,[signet р(х,+ 1). (5.117) Здесь | 1, если 1 т?,+, | > е, ~ I 10, если I Tfr+i | 4141=^41 - а*(х,+ 1)т, - Z>(xf+1) (5.118) 144
и 7r - неотрицательные числа. Характерная особенность процедуры (5.117), (5.118) состоит в том, что оценка изменяется лишь при нарушении неравенст- ва 17]t + i | <е. Такого рода процедуры изучались в п. 1.4.6° и § 2.1 при ис- следовании конечно-сходящихся алгоритмов. В частности,алгоритму (5.117) можно придать форму алгоритма ’’Полоска” (см. п. 2.1.8°), если выбрать |.Г,+1 - а*(х,+ 1)т, - Z>(xz+1)l 7г =-------—--------------------• (5.П9) I a(xt + |) Р Однако в данном случае алгоритм (5.117)-(5.118) может не обладать свойством конечной сходимости, если плотность р (у | £) помехи vt не ло- кализована в интервале (-е, е). Отметим, что с.в. (5.119) не измеримы относительно оалгебры Fr, порождаемой с.в. {х[, X }• Лемма 25Л . 'Предположим, что-выполнены условия: 1. Матрица а(х)а*(х) (5.120) I а(х) |2 положительна. 2. Величина р(х) Ca = i^~T^dx (5Л21) |а(х) I2 конечна и sup | а (х) | < °°. 3. Центрированная помеха {vt} в схеме наблюдений (5.14) принимает независимые значения и Ми*<а2. Тогда для оценок ть доставляемых алгоритмом (5.117)-(5.119), незави- симо от выбора начальной оценки т i справедливо предельное неравенство ___ л €2 + О2 lim М \тг - т\2 <ЗСД--------, (5.122) г-*«» ^Л где\д - наименьшее собственное значение матрицы (5.120),Сд - постоян- ная (5.121) и е - параметр алгоритма' (5.117). Кроме того, если плотность р(у 1£) помехи vt отлична от нуля лишь в интервале (-7, 7), 0 < 'е < е, ю алгоритм (5.117) - (5.119) - конечно- сходящийся (см. § 1.4). Оценка (5.122) довольно груба и не утверждает, вообще говоря, состоя- тельности оценок {г/}, но она показывает, что с уменьшением интервала локализации распределения помехи наблюдения среднеквадратичной откло- нение оценки rt от оцениваемого параметра т будет мало. Рекуррентный алгоритм робастного оценивания (5.80) - (5.81) в рас- сматриваемом случае примет вид 1 — а *7+1 Ot-----------Г, [ sign т?,+ 1 ]а(х,+1), (5.123) ае, 145
где величины 0t и т?г+1 определяются формулами (5.118). Условия теоремы 2.5.2 для всего класса приближенно равномерных распределений не выпол- няются. Рассмотрим подмножество Но множества Ж приближенно равномерных распределений, обладающее свойствами: 1. Плотности р(.у|$) при $ G Но имеют равномерно непрерывные про- dp(y\$) d2p(y\$) изводные --------,------—. dy dy2 2..Д ля любого $ G Но выполняется неравенство -/ [sign^] J2^Ldy>C^ {1У1>€} с положительной постоянной . При выполнении этих условий grad Wfr) = = -f signly-s(x,r)]p[y-s(x,T){^]a(x)p(x)dxdy = {I у -s(x,r )|> e} = -f [signy]p[y - (t - r)*a(x)]a(x)p(x)dxdy. {1у1> e) Поскольку grad И'(т) = 0 и a dpiy* If) * Р[У-(т-т)*л(х)1$1 = P(y\%) + — ----(r - т)*д(х), dy где y=y(x) e [у, у + (т - r)*a(x)], to grad IV(t) = dp(y IO* a = -f [signy]—-------a(x)a (x)p(x)dxdy(j - t) dy и в силу равномерной непрерывности функции dp(y\£)ldy убеждаемся в справедливости представления (5.84) с dp (у I О ^TT= -f [sign у]--------—-dyA, {lyl > e) dy где матрица А определена формулой (5.101), т.е. величина (5.100) теперь имеет вид dp (у I О 3(e) = ~f [signj]—--------dy {I j I > e) dy и по предположению она положительна (она получается из (5.100) интегри- рованием по частям). Все остальные условия теоремы 2.5.2 очевидным образом выполнены. В частности, выбор матрицы Гг в виде (5.110) обеспе- чивает состоятельность оценок {Tt} и их асимптотическую эффективность. 146
§ 2Л. ПРИЛОЖЕНИЕ: НЕКОТОРЫЕ СВЕДЕНИЯ О МАРКОВСКИХ ПРОЦЕССАХ Рассмотрим случайный процесс {хг} с дискретным временем t = 1,2,... ..., Т и со значениями в евклидовом пространстве Rm, Т < °°. Будем предполагать, что с.в. xt имеет условную плотность распределения вероят- ностей, определяемую условием х'-1 = со1(хь ..., хг-1>, т.е. для любой точки хЕ R m существует с вероятностью 1 предел р(х, /lx? х) = lim е-о Р{х,е£)е(х)|х'-‘} Ve(x) (П.1) где, как обычно, D€(x) - шар радиуса € с центром в точке х, Ке(х) — ле- бегов объем этого шара и Р{ •|xi~1} — условное распределение вероят- ностей, определяемое с.в. {хь .. ., xt _ j} (см. [67]). Определение 2.П.1. Случайный процесс {xf}, t = 1,..., Т, называется марковским, если при любом t выполняется с вероятностью 1 равенство р(х, f|xf-‘) = p(x, dxf_i). (П.2) Марковское свойство (П.2) означает, что зависимость условной плот- ности от предыстории процесса определяется зависимостью лишь от по- следнего значения, принимаемого процессом. Из (П.2) следует, что условная плотность является функцией значений с.в. Х^р Определение 2.П.2. Функция р(х, t\z, t - 1) = р(х, rlx^i =z) (П.3) называется плотностью вероятности перехода из точки z в момент вре- мени t — 1 в точку х в момент времени t. Краткости ради функцию (П.З) будем называть переходной плотностью. Для переходной плотности очевидным образом выполнены соотно- шения р(х, t\z, г - 1)> 0, /р(х, t\z, t - l)dx = 1. Зная переходную плотность во все моменты времени и плотность Pi(x) распределения с.в. Xj, можно определить плотность р(х\): Р(*?) = Р1(*1) п р(хъЛ|х*_1,*-1). (П.4) fc-2 Здесь через хк обозначены компоненты вектора х\: х{ = со1(хь ..., xf). С помощью переходной плотности (П.З) можно строить плотности ве- роятностей перехода через несколько моментов времени. Например, р(х, t\z, t - 2) = fp(x, t\x, t - l)p(x, t - 1 fz, t - 2)dx. Аналогично определяются плотности вероятностей перехода из точки г в момент времени 5 в точку х в момент времени t для любого s < t. Функция р(х, r|z, s) удовлетворяет соотношению Колмогорова - Чепмена р(х, t\z, s)~ fp(x, t\x, t)p(xt Ф, s)dx, непосредственно следующему из определения функции р(х, t\z, s). 147
§ 2.Д* ДОКАЗАТЕЛЬСТВА ЛЕММ И ТЕОРЕМ 2Д.1°. Доказательство леммы 2.1.1. При Аг(т[, х~) =# 0 из определе- ния 2.1.1 следует равенство ^(71»,хП=1+Лг(тГ1,х;+1), где тг+1 определяется в силу процедуры (1.13). Усредняя это равенство при условии , получим Г(т[)= 1 +Л/^(т,,+ 1,х7+1)|т[} = 1 +Л/{Г(т1,+ ,)|Т1} = = 1 +М{Т(тГ')в(хг,т,)|т1,}+Л/{7’(т1,+ ,)(1 - 0(Xr,7r))|7{j = = 1 + Т(т[,7г)Л/{1 -0(xr,7f)|Tf} +Af{7'(rf, Tf + U'ATr, лсг))в(хг, тг)|т,г}, где обозначено Т(т{, т() = T(rf + 1) при rf + i = rt. Учитывая, что Т(т*) = = Тг(тг), Т(т\, Tt) = Tf + 1(rr) в силу стохастической независимости с.в. {хг}, приходим к (1.19). Аналогично, для величины г(т\, х~) вы- полнено 7(71, *7) = 7(7[+ 1, *7+ j ) + 0 (Xf, Tf) , и далее вывод соотношения (1.20) следует только что проделанным вы- кладкам. 2Л.2°. Доказательство теоремы 2.1.1. При условиях теоремы 2.1.1 из соотношения (1.21) получаем Г(7) = -L. + -L- / T(z)G(dz) f F(dy) = р(т) Р(т) т {ф(т,у)<0} = -J—+ fT(r)G(df), (Д.1) р(т) т поскольку в силу (1.17) Ff.y: Ф(т, j>) < 0} = р(т). Учитывая, что р(т) =#0 при г Е Т\Т0, можем (Д.1) проинтегрировать по множеству Т\Т0. Получим G(dr) f T(i)G(dT)= f —— + jT(7)G(d7)G(T\T0). T\T0 T\T0 Pvn T Учитывая, что 7\т) = 0 при т Е То, отсюда находим Тср, что с учетом (Д.1) приводит к первой из формул (1.25). Остальные формулы получаются аналогично. 2Д.З°. Доказательство теоремы 2.1.2. Начнем с доказательства формул (L.31). Если т Е Tz,to Т(т) = Г/, а из (1.18), (1.17) следует, что р(т) = = 1 - рц. Соотношение (1.21} тогда перепишется в виде Т,(1 ~Рц) = 1 + S РцТ;, /=!,... ,s. (Д.2) Здесь учтено, что при суммировании по j не допускается j = / , поскольку при выводе (1.21) предполагалось р(т) # 0. Обозначая Т = соЦЛ,... 148
. . . , Ту), перепишем (Д.2) в векторном виде Т=е+ТТ, откуда f=(/-L)“1e (Д.З) и, следовательно, T7 = e;f =е/(/-Т)-Ч т.е. первая из формул (1.31). У матрицы L с матричными элементами , /, / = 1,.. ., s, все собственные значения расположены внутри единичного круга, поэтому матрица (/ -I)"1 существует. Аналогично, из соотношения (1.22) находим Л,(1 - Ра) = (1 - Ра) + 2 PijRj, i = 1,..., s, i*i откуда для вектора R = col (R{./Q получаем R = (/ - LY\e - diagA). (Д.4) что приводит ко второй формуле (1.31). С помощью подобных выкладок из соотношения для Ь(т) устанавливается и третья формула (1.31). Последнее утверждение теоремы очевидным образом следует из фор- мул (1.31). . Далее, Р{т, € Т01 тх G Т7} = e/Pf eQ, где - вектор с (s + 1) компо- нентами, у которого (/ + 1)-я компонента равна единице, а остальные нулю. Учитывая (1.30) /имеем ' 1 \ ,_ / \ / 1 \ Р eQ = г-1 . = I ). I S L4 / \(/ - Z/)e/ Следовательно, = 1 _ё/Р'е0 = 1 - е/(/- Z/)e = e/Z/e. Поскольку все собственные значения матрицы L расположены в откры- том единичном круге, то для некоторых положительных постоянных CL и X, X < 1 справедливы неравенства Рг0) < sQX', что доказывает первое утверждение теоремы. 2.Д.4°. Доказательство теоремы 2.1.3. Формулу (1.21) можно преоб- разовать к виду 1 v F{Xk} 7V + ^(7, Хк)\ Т(т)~------------- + X ----------------------- - F{ U лед F{ U = Г(Л(0)) + S Т(Л(0))Р{Х^Т(т1(Дс)), (Д.5) *ez(r) 149
где Tifc) = т + ф(т, Хк), к G /(т). Аналогично Т(Л(0))Р{Хк}Т(Т1(к)) = Т(Л<0))Р{Хк} X + 2 FU/}T(tH + V'(ti*),X/)} F { U Xi (к) 1 и Подставляя найденное выражение в (Д.5), получаем Т(т) = Т(А(0)) + 2 Т[Л(,>(4*))] + к6/(т) + 2 2 7’[Л(1)(т1(к))] F{A’. }T[t2(,)] , ке'<т> /е/(т<к)) где .Tj0 = г,*0 + ф(Т1к\ Xf) и т.д. Из полученного выражения видно, что Т(т) есть сумма вкладов вер- шин разных уровней, а вклад £-го уровня есть сумма вкладов Т(А) всех вершин £-го уровня, что и требовалось доказать. Формула для R(t) полу- чается вполне аналогично. Теорема доказана. 2Д.5°. Доказательство теоремы 2.2.1. Докажем вспомогательное ут- верждение. Лемма 2.Д.1. Пусть множества {Xj(r)} определяются соотношениями (2.2). Тогда для любых точек т, / Е Rz ихЕХ справедливо неравенство N я(х) = 2 [ JXi(T)(x) - JXj(T)(x)] Qi(x, т') < 0. (Д.6) Так как {А}(т')} — разбиение множества X, то для произвольной фикси- рованной точки х G X найдется номер к, для которого ^x*(t')(x) = 1- Поскольку N 2 ^Х/(т)(х)=1 i -1 при любом т G Rz, то N 2 1Лгят')(х) - ^x,(r)(x)J Як(*> г) = 0. i ~ 1 Поэтому функцию д(х), определяемую левой частью неравенства (Д.6), можно записать в виде N Я(х) = 2 [/х.(т')(х) - Jx.(r)(x)] fa,(x. т') - <7*(х, т')] = 1 = 1 = - 2 /х<(т)(х)[^(х, т') - qk(x,r')]. к Здесь использованы равенства Jy.(t')(x)" Q ПРИ z к. Согласно опре- делению множества Хк(т) (см.(2.2)) при хЕ Хк(т') выполняется 150
неравенство Qi(x, т') - qk(x, т')>0 и, следовательно, q(x) < 0, что доказывает лемму. Перейдем к доказательству теоремы. Покажем, что в условиях тео- ремы 2.2.1 для функционала (1.1.25) выполнены условия теоремы 1.4.2, если принять . N Grad W(r)= S /Jv.(T)(x)gradT?;(x. r)F(dx). (Д.7) /=1 f Отметим, что функция в правой части формулы (Д.7) совпадает с grad И'(т) в условиях леммыЧ.2.1 (стр. 30). Здесь не обязательно пред- полагать эти условия выполненными, так что обобщенный градиент не обя- зательно совпадает с градиентом функционала И'(т). Условия 1 и 6 теоремы 1.4.2 (стр. 58) совпадают соответственна с условиями 2 и 3 теоремы 2.2.1. В рассматриваемом случае Т = Rz и усло- вие 4 теоремы тривиально выполнено. Условие 5 доказываемой теоремы также выполнено, поскольку в силу (Д.7) и (2.1) Grad И'(т) = Мх ф(х, т). Таким образом, осталось установить выполнение условия 2 теоремы 1.4.2. Второе неравенство этого условия является очевидным следствием нера- венства (2.4) при С2 = С3 = С^,С4 = 0. Для установления первого нера- венства воспользуемся леммой 2.Д.1. С ее помощью имеем N W(t + т") - И/(т') = S f [qrfx, т' + т") (т’+т”)(х) - /=1 х ' - Qi(x, T')JXf(r')(x)]F(dx) = y?(x)F(dx) + N + J 2 Jxt(T')(x)ki(*. T* + r") - <7,(x, r')]F(dx) < N N < S f (r")*gradr<7f(x, T )F(dx) +1 r"| S f I gradr^-[x, От + / = 1 *{(г) ' = 1 X,(7') + (1 - 0) (r + 7')]-gradT^(x, t) lF(dx). (Д.8) Здесь 0 — некоторое число из интервала [0, 1]. Используя неравенства (2.3) и (Д.8), получим И^т' + т”) - №(т ) < | т"|2 + S J (т")*gradr^(x, т )F(dx) = / = 1 Xi(r') = х/с£|тТ +(т'У Grader), что совпадает в силу (Д.7) с первым неравенством в условии 2 теоре- мы 1.4.2 при Ci = Итак, выполнены все условия теоремы 1.4.2, 151
а потому имеет место предельное равенство (2.6). Равенство (2.7) для функции (2.8) эквивалентно условию lim p(rf, То) = 0, установлен- t ->оо ному в теореме 1.4.2, поскольку То = {т: К(т) = 0). Теорема 2.2.1 до- казана. 2Д.6°. Доказательство леммы 2.2.1. Пусть Т/и Т7« - два невырож- денных поглощающих множества и т Е Т7», т"Е Т7". Пусть {^(т')}, {^•(т")}, i = 1, 2, - разбиения, отвечающие векторам т\ т". Тогда най- дутся точки х'и х"из X такие, что они одновременно не принадлежат ни одному из множеств Хх (т'), Х2 (т), Хх (т"), Х2 (т"). Действительно,. из предположения о невырожденности множеств Т7*, Т7„ следует, что если Р{Х1(т)ПХ1(т,)} = 0 либо Р(Х2(т)Л12(т")}=0, то F{X2(t') ПХ^т")} • F{X,(t')ПХ2(т")} =#0. В этом случае можно выбрать х' G Х2(т' ) П Хх (т"), х Е Хх П Х2(тп). Если же Р{Х2(т')ПУ,(т")}=0 либо Р{Х|(г')Л12(т’)} = 0, ТО . F{I2(r')ni2(r'')) *0. Тогда можно выбрать х'Е Хх (т) О Хх (т")> х" Е Х2 (т) А Х2(т"). Из определения 2.2.1 (стр. 96) поглощающего множества и вида функ- ций (2.11) тогда следует, что точка т = со!(х', х") принадлежит одновре- менно множествам Т7*, Т7», откуда и вытекает утверждение леммы. 2.Д.7°. Доказательство теоремы 2.2.2. Из условия т2 G Т7 в силу опре- деления 2.2.1 поглощающего множества следует, что rt Е Т7 при всех t. Поэтому Ахтг)(*г) = ^хдт*)(хД /= 1,... и из (2.1) получаем N I Tt+1 ~ I = I — т*|2 — 2yr S Лх/(т*)(*г) (тг — - 7,)*gradT^(x„ Tt) + у2 S JX (T,)(xt)lf,ridTqi(xt,Tt)\2. i-1 Усредняя обе части неравенства при условии х'”1, с учетом условий 2-3 теоремы находим М{| ТГ+1 - r.Plxf-1} = I Tt - rj2 - N -lit S f [gradTQ,(x, 7,)] *F(dx) (Tt - rj + < = 1 X,(r*) N + 7t 2 f |gradT^(x, rf)|2F(dx)< Z=1 < I Ь - rj2(l - 2ayr) + CQ72. 152
Отсюда, используя теорему 1 .П.1, как и при доказательстве теоремы 2.2.1 находим, что lim rt = т* с вероятностью 1. Усредняя полученное нера- г-*°° венство, получим МД,+ 1 < (1 -2a7,)MAf + CQ7?, откуда легко выводится оценка (2.15) и среднеквадратичная сходимость ->тф при t Теорема 2.2.2 доказана. 2.Д.80. Доказательство леммы 2.2.2. Нетрудно убедиться, что условия леммы 2.2.2 обеспечивают возможность применения теоремы 1.4.1 (стр. 56). Поэтому последовательность {тг) с вероятностью 1 за ко- нечное время войдет в поглощающее множество. Но из условия следует, что Tt при всех f, поэтому в силу леммы 2.2.1 последо- вательность {тг} может войти лишь в невырожденное поглощающее мно- жество, что и доказывает лемму. 2.Д.9°. Доказательство леммы 2.3.1. Вычислим плотности р( J1I0), 0 = = 0i,. .. , 6N. Обозначим через p(x[t у*|0) совместную плотность с.в. {*!,... ,xt, ух....yt}f отвечающую параметру 0. Здесь, как и прежде, с.в. и их значения (реализации) обозначаются для простоты записи оди- наковыми символами, что не должно приводить к недоразумениям, так как смысл символов понятен из контекста. В соответствии с формулой Байеса имеем Р(х‘ь И |0) = р( yt I х{, у{-*, 0)p(x f, у{-11 0) . В силу (3.1) Р( Jrlх{,у{~',0) = pu[yt- ^t(Xt, 0)]. Далее, опять используя формулу Байеса, а также марковость процесса {хг}, получим p(xl,y,ri\e)=p(xt\xtrl,ytriye)p(,xtt-i.ytri\e) = = р(х„ t\xt_k, t - 1)р(х{-',у{~1 (0). Таким образом, Р(ХьЯ|0) = = Pv[yj -st(xt,6)]p(xt, t\xt_i, t- 1)р(х1,_’,Я~110). Применяя полученное соотношение (t - 1) раз, найдем P(*bJ'll0) = = П р(хк+1, к+ 1|хь Kfou[yk+i -sk+i(xk+i,0)]. (Д.9) * = i Но P(xl./il0) = p(jilx1,0)p(x1|0) = pu[/I -sI(x1,0)]pl(xI), где Pi (х) - плотность распределения с.в. Интегрируя обе части фор- 153
мулы (Д.9) по хи..., xf, получим р(у!|0) = f • • • fdXi • dxtp(x{, у{ |0) = t = f. ..fdxi...dxt { П p(xk, k\xk_it к - 1)ру[у* - «*(**. 0)U X к=2 х pv[yi -s^xi.eyjp^Xi). (Д.ю) Определяя из (Д.Ю) величины p(j^| 0/) и р(.уГ|0/) и подставляя их в (3'6),получим (3.7). 2Л.10°. Доказательство теоремы 2.3.1. Перепишем формулу (3.8) в виде Pt(xt\y{, 0) = Ctpu[yt - st(xt, ff)]fdxt_ j p(xt, t |хг_ j, t - 1) X X {f...fdxt...dxt_2putyi -SiCxt.e^PiCxOX X П p(xk,k\xk_x,k-l)P„[jfc-s*(xfc,0)]}. (Ill) k-2 Но выражение в фигурных скобках в (Д.11) в силу (3.8) имеет вид CfliPt^i (*г-11.У1 0), где Ct__{ - нормировочная постоянная. Зто позволяет переписать (3.8) в виде Ct Pf(^r|ji,0)= ------Pv[yt -«r(*r.»)l X C/-1 x Jp(Xf, Их,_ t, t - 1 )pt_ 1 (xf_, | уl~ *, 6)dxt_!. Определяя нормировочную постоянную CtCfLi из условия нормировки, получим формулу (3.13). Формула (3.14) непосредственно следует из (3.8) при t = 1. Теорема 2.3.1 доказана. 2.Д.11°. Доказательство леммы 2.3.2. Соотношения (3.21) в условиях леммы означают равенства д(//)= й р(а10.) * = » р{ук\6)) Очевидно, = 1 при i = j. Пусть теперь i ¥= j и {ук} - последователь- ность с.в., независимая от с.в. (ук) и также определяемая плотностью р(у|0/). Тогда с.в. до/)= ft р<м>,) * = i p(yk\^i) независима от с.в. и имеет одинаковое с ней распределение. Из вида бесконечного произведения следует, что и с.в. р^р^ имеет одина- ковое со с.в. распределение. Поэтому для величины т? = = = 0} справедливо равенство т? = 1 - Р{ д(//)д^> ¥= 0} = 1 — Р[{д* 0) {д <'7) ¥= 0}] = = 1 -Р{д(//)^0} .Р{д?7)^0} = 1 -(1 -т?)2, откуда следует, чтЬ либо т? - 0, либо 1? = 1. Таким образом, либо д^ = 0 154
с вероятностью 1, либо #= 0 с вероятностью 1. Покажем, что послед- нее свойство противоречит условию леммы 2.3.2. Действительно, если дО» о с вероятностью 1, то с.в. In [д^д^] = 1пд(,/^ + 1пд^ имеет то же самое распределение, что й с.в. 1пд^\ Если Ф//(0 - харак те ри стиче с кая функция с.в. In д^7^ (Ф//(0 = Afexp(\Z^Tln д^г)), то в силу последнего равенства и независимости с.в. д^\ д^ получаем Ф?(О = Ф//(О» а поскольку Ф,/(0) = 1 и Ф? (О непрерывна по Г, то Ф//(0 = = 1, так что In д<‘'> = 0 с вероятностью 1. Но тогда с вероятностью 1 долж- но выполняться равенство П £12^1 =1 л=2 р(ук\0^ откуда с вероятностью 1 следует равенство =р(^л10/),те.почти всюду, где p(y\0j) > 0,выполнено p(y\$i) = p(y\Qj) в противоречии с условием леммы. Таким образом, д^ = 0 при i # /, что и доказывает лемму. 2.Д.12°. Доказательство теоремы 2.3.2. Введем последовательность с.в. {h t}: м ht=ht(y{^ S Л = 1 (Д-12) Вычислим условное математическое ожидание M{ht+ i\y{,Pt,0} = fdyt+1 ht+ j(уГ 1,e)p't+1 (yt+ J|pt, 6). С учетом (Д.12), (3.29), (3.33) получим M{ht+tly{, Pt,0) = = fdyt+i Pt(k)(yl,0) p}k)(yf,0) P ( У1+1,0)p't+1 ( yt+11 Pt,0) M S In k= 1 + . f v L Pt+\(yt+i\Pt,0) 1 f+1 . ax. + J s In -—-------------— l,e)Pt+l(yt+l\pt,0)dyt+i. k = t L Pr+iC-Tf+ilPn0) J В силу (3.29) p^i (у*+1,0)p't+1 (yt+11 Pt,0) = Pv I yt+1 - Sf+1 (’’(fc), e)]p<k)(y f, e), M р$\( У I*1,0)= 1, /pjjf+l -Sf+^T^.fl)]^! = 1. Поэтому M{ht+i\y‘tPt,6} M = S jt = i In P$k\yi,0) Р^кУ(У1,0) Pt(k)(y{,0)- -f In Pt^(yt+i\Pt,0) Pt+i(yt+\\Pt,0) Pt^i(yfn\Pt,0)dyt^i, и с учетом формул (Д.12), (3.29) находим М{Н,+1\у{.рг,0}=^-1,+ 1(0)- (Д.13) 155
Отсюда Л/{/г+1(0)| в} =M{ht\ 0} -Л/{Л,+ 1|0} ИЛИ г S Af(Zf+i(fl)| 0} =л/{л,|в} -М{Лг+1|0} < M{/Itl0}. Г=1 Переходя к пределу при Т 00, получаем S M{lt(0)\0} < M{hi\0}. t-2 Вычислим JW{/i)|0}. Имеем M{hx\e} = f "Г, Р|(*Ъ1,0) J i In --------- *"’L pI‘Vi.0) Опять воспользовавшись соотношениями (3.29), (3.33), получим м Mih^e} = S * = i n(*)l In----- Ро Ро J (к) 2 PulУ1 -^i(r(l),0)]p^l) -f In—---------- м 2 р0[Ух L / = 1 ... М X ро dyx S * = 1 -S|(r(0,fl)]p<0 р^ "-(*) L ро м 2 Ри(У1-Si(tw,6)] X fc = l и<*> Ро > 1 = 1 что приводит к (3.40). 2.Д.13°. Доказательство теоремы 2.3.3. В силу (3.48) переходная плот- ность имеет вид р(х, t + 11 z, 0 = Сехр | - -- (х - Ftz)*R^ (t + 1) (х - Frz)|, (Д.14) где С — нормировочная постоянная, определяемая из условия fp(x, Г+ 11 z, t)dx= 1. Далее,в силу (3.50),гауссовости помехи {иг} и (3.51) Pt(yt\xtl~i,0') = Pu[yt-^tXt] = = Qexp{-!4(/f(Д15) где Ct - нормировочная постоянная, значение которой пока не имеет значения. Используя формулы (Д.14) и (3.53), можем написать р(х, t + 11 z, t)pt(z) = = сс;ехр{-й[(г - Q^btYQt{z - Ql'bt) +dt - bjQl'b,]}, (Д.16) 156
где введены обозначения C't=[(2n)mtetPt]-'/2, Qt = Ptl +F;/?-'(r+l)Ff, (Д.17) bt = FfR„(t + l)x + Pilxt, dt = x*R^(t + l)x +XfPitxt. (Д.18) Поскольку Jexp j- - Q7lbtYQt(z - Q;4>t)]dz = CHt, формула (3.13) с учетом (Д.15), (Д.16) запишется в виде Pr+i(-x,lji,+ \6) = Ciexp^-^ [x*/7+i* - - 2x*(R-w'(t + \)FtQ;\p;'xt + ф;+1я;'(' +1) Лн) + + Уг+i^v' 0 + 0 J'r+i + xt&t* xt ~ Xt^t1 Qtl 1 *fl}, (Д-19) где Ct — несущественная нормировочная постоянная и введено обозначение р;'х = ф;+1я;1(г + 1)Ф,+1 +я-1(г + 1) - - R -1 (Г + \)FtQl' Ft*Rj (t + 1). (Д.20) Так как рг + 1 (х|.у{, 0) должна иметь вид (3.53), то ковариационная мат- рица оценки хг + 1 должна иметь вид (Д.20). Сама оценка хг + 1, как сле- дует из (Д.19) после выделения квадратичных по х членов, имеет вид *,+1 =л+1[^ч^1)^с71л-1хг+Ф;+1л;1а+1)^+1]. (д^о Рекуррентные соотношения (3.56), (3.57) с помощью алгебраических преобразований следуют из (Д.20), (Д.21). Действительно, обозначим =Л-'а+ 1)-Я-‘(Г + l}FtQ;lF;R^l(t+ 1). (Д.22) Тогда (Д.20) запишется +ф;+1л;‘(г + 1)Фй1. Применяя матричное тождество (см. переход от (1.4.56) к (1.4.57)), Pt+t = Lt - £,Ф;+11Я„(Г + 1) + Ф,+1£гф;+1]-‘Ф,+ ,£г. (Д.23) Применение того же матричного тождества к (Д.22) дает Lt=R„(t+\) + FtPtF;. (Д.24) Используя обозначение (3.58), я силу (Д.23), (Д.24) приходим к (3.58), (3.57). Используя формулу (Д.23), преобразуем (Д.21). Для этого прежде всего заметим, что из (Д.17) следует равенство Q;' =Pt-PtF;L?FtPt, (Д.25) с учетом которого из (Д.21) выводим: $r+1 =P/+1 [/U(Г + 1) (Ff - FtPfF;zf-'Ff)xf + Ф;МЯ;‘О + O/r+i 1 • 157
Но с учетом (Д.24) FtPtF;L? = I-R^(t+1)L;1, где / — единичная матрица соответствующей размерности. Поэтому *r+i = ^r+i [Lt1 &txt + Wu1 + О Jr+i 1, и учитывая (Д.23), получим *г+1 = (I — Фг+1)^гхг + +(ьгф;+1 о^+г Но в силу (3.58) ^Фн14А+1 = ^ГФГ+1 “^Г^и(^+О- Поэтому хг+1 = G ~ ^гФ?+i У*txt + *чУ<+1» что совпадает с (3.56). Начальные условия (3.59), (3.60) могут быть по- лучены элементарными выкладками из (3.14). Теорема доказана. 2.Д.140. Доказательство теоремы 2.4.1. Докажем предварительно вспо- могательное утверждение. Лемма 2Д.2. Пусть с(Х) - произвольный полином вида с(Х) = 1 + Xtj + ... + \рСр. Тогда для матрицы Ct - c(Qt) справедлива оценка (с;1)*^-1 > --------------t>p. (д.26) Р 2 (1+2 Iql) i = i Если с(Х) - устойчивый полином, то Шй|С,-*|<~. (Д.27) г-*°° Здесь напомним, It - единичная tX tматрица где супремум берется по всем t-векторам х{. Доказательство леммы. Поскольку для произвольного век- тора х\ выполняется /° \ Cfxf = xIr + c1( ) + ... + ср| 0 I, U / \х{-Р ТО Р ' ' ICfx,'|< |хЩ1+ Е |с,1) , 1 = 1 откуда следует (Д.26). 158
Пусть теперь с(Х) - устойчивый полином и х\9 z\ - векторные после- довательности, связанные соотношением Qxf = zf. (Д.28) Отсюда, в частности, следует, что c(V)*r = z,. (Д.29) В силу устойчивости полинома с(Х) из (Д.29) следует оценка |х,| < Csup |zfc|, k<t где С - некоторая постоянная, определяемая Полиномом с(Х). Поэтому |xf|2 < cxlz{l2, где постоянная Сх не зависит от t и выбора последовательности {zt}. В силу (Д.28) x1f = Cf',z1,) поэтому iC^zfpC Cx|zf|2, откуда следует (Д.27). Перейдем непосредственно к доказательству теоремы. С учетом (4.11) запишем И'г’(т') = у I w' + Kt_ 1 (т) - Kt_ J (/ ) |2 = = 2[W[P + 2^ [A?f_t(T)-£,_>(/)] +ylKf-i(T)-.Kf_1(T’)|2. t Ho |wf|2 = S (w*)2 и, следовательно, в силу (4.6) и теоремы 1.П.2 fc = l lim -1 wf |2 = о^. r-*«> t Далее, f k-\ где = “*)> причем в силу леммы 2.Д.2 и условий (4.25) с ве- роятностью 1 выполняется неравенство К™ у 2 < сп t-+oo t fc = l с некоторой детерминированной постоянной С^. Кроме того, процессы {Ък} и {w*} независимы, поэтому в силу теоремы 1.П.2 1 t lim - S wk^k-\ r-*«> t k = l 159
Итак, установлено, что с вероятностью 1 справедливо равенство lim B'’(r') = at + Нт_-1Л(_1(т)-/:/_|(т')|2. f—> ОО I —► ОО (Д.30) Рассмотрим подробнее второе слагаемое в правой части (Д.30). Из (4.10) у' =Af‘ (T)[Bt(T)u{ + Ct(T)w{ ]. Подставляя это равенство в (4.12), найдем /С,_,(т)- Kt_,(/) = = С'-Чт')А;'(т){[А,(т')В'(т) - А'(т)Вг(т')]и1 + + [Л,(т')С,(т) - Аг(т)С'(т)]»1}. (Д.31) Выражение в квадратных скобках в (Д.31) - полиномы от матрицы Qt. Обозначим At(r’)Bt(T) - А,(т)В'(т’)= S р;е', ‘rZ (Д-32) Лг(т')С,(т) - Л,(т)С,(т') = S₽ где к ~ запаздывание в управлении и p'h р" — некоторые постоянные, зависящие от т и т. Перепишем (Д.31) следующим образом: 2г Kt_ ) (т) - Kt_, (/) = Q-* (7’М,-1 (т) { s PlG'rwf + i~k + Т р" Q\w{) = Q-* (т')А(7) [ Utp' + Wtp" ], 1 = 1 где p' = col(pfc,. .. , p'2r), Pn = со1(рь . .. , p”+p) и Ut, Wt определяются формулами (4.20). Учитывая теперь лемму 2.Д.2, имеем lim 1|К,_1(т)-А:,_1(7')|2> t— оо lim (p')*J^p' + 2 lim (p")*Jtwup + + lim (р ) ------р 7ZZ t (Д.33) г Р где С=( 1 + S la,!)2 ( 1 + Z | с, |)2. В соответствии с (4.20) элемент i = i «= 1 (И'^И'Ду матрицы WfWt при />/ имеет вид (H'7b'»)(7 = (C?W)*e{wf = Е wkwk+i_j к =0 и в силу закона больших чисел lim -(H';iVf)// = at6,/. f —оо t 160
Неравенство (4.21) теперь обеспечивает положительность выражения в квадратных скобках в неравенстве (Д.33),если | р\ + I р"| =# 0. Таким образом, если т Ф т, то в силу условия 4 теоремы I р'| + | р'\ Ф 0 и, сле- довательно, из (Д.30), (Д.ЗЗ) следует lim И7(т')> что доказывает единственность минимума функционала W* (т) при доста- точно больших Г, поскольку при т = т из (Д.30) следует lim = о^. Г-*оо Отсюда немедленно следует утверждение о сходимости оценок Tt к т при t ->°°. Теорема 2.4.1 доказана. 2 .Д.150. Доказательство леммы 2.4.1. Рассмотрим матрицу Vq порядка q X q с матричными элементами = Ru(i - it i> J - 1, • • • , У- В силу (4.26) имеем 1 Vq =— f Su(P)e(p)e*(p)<fa + 2п о + &Fu(pk) е(рк)е*(рк)9 2л к где е(д) = col (1, ещ,. . . , 1 >). Предположим, что найдется ненулевой 4-вектор d такой, что 1 2я d*Vqd= — f Su(p) \e'(»)d\2dp + 4 2л о + -^-S AF„(ft)|e‘(M*)d|2 =0, 2л jc и, следовательно, Su(n) | e’(p)d|2 =0, ДГ„(Р*) 1е‘(Д*)<Л2 =0. Если дискретный спектр содержит различные частоты Д1,.. . , pq, для кото- рых ДГи( Pj) Ф 0, то должно выполняться e*(M/)d=0, /=1....,4, (Д.34) что возможно лишь при d = 0, так как определитель линейной системы (Д.34) отличен от нуля. Поэтому J* Vq d > 0 при любом d ¥= 0, т.е. матрица Vq - положительная. Аналогичное рассуждение справедливо в случае, если *^и(м)>0 на множестве положительной меры, при этом размерность q век- тора е(р) может быть произвольной. Лемма доказана. 2Д. 16°. Доказательство теоремы 2.5.1. Из (5.40), (5.41), (5.37), (5.14) следует, что = т — G;1 S [т*я(х*) + vk] a(xk) = -G~} S a(xk)vk. k=\ fc=l 161
Отсюда, в силу независимости процессов {xt}, {vt}, получаем Лф-Тг) (7-?,)* = = о2Ц)М 1 G7X а(хк}а*(хк) G~tx = о2ф MG? . Л = 1 Следовательно, М\т -тг|2 = о2(П MSpG’A что и приводит к (5.43). 2Д.17°. Доказательство теоремы 2.5.2. Убедимся прежде всего, что Tt ->т при t 00. В этом пункте схема доказательства мало отличается от доказательства теоремы 1.4.2 (стр. 58). Из (5.80) имеем м {| Г-/1 (тг+1 -т)р |7,}= |Г7й(г,-т)|2- -2Г1 (7,- 7)’grad W(7,) + Г2 | Г* grad V(7,)|2 + + Г2М {|Г* j?,!2 |т,}. Учитывая (5.81), (5.37), (5.104) и (5.105), получим М {|Г,-‘Л(7,+ 1 — т) |2 |т,} < |Г7* (7,-т)|2 - - 2Г1 к(| 7, - т|) + Г2 Л | ф[у - (7 - т,)* а(х)] |2 X XI Г? а(х)|2 p(j’lg) p(x)dxdy < < | Г"/ (т, - т) |2 - 2Г* к(| т, - 7|) + СГ2. Как и при доказательстве теоремы 1.4.2, отсюда следует среднеквадратич- ная и с вероятностью 1 сходимость Tt -+т при t -► 00. Рассмотрим теперь со- отношение (5.94). В силу только что доказанного bt -+ 0 при t ~+°° в средне- квадратичном и с вероятностью 1. Сходимость Ф(г+ 1,Л)->0 при к °° следует из соотношения (5.90) в силу гурвицевости матрицы В. Само со- отношение (5.90) устанавливается элементарно для постоянных Гг = Г (см., например [73], стр. 162), для переменных Гг в силу Гг Г при t ->°° оно устанавливается столь же просто. Поэтому Ф(Г + 1,1) 61 0 в (5.94). Г+1 По той же причине S Ф(Г + 1, к) bk_v ->0 при t -*00 (см. [73], лемма 6.4.1). к = 2 Таким образом, lim М{ e,+i e,*j |х'г‘, /Г1} = ,-.0. [ Г+1 у/Т = Um М ( S Ф(Г+ 1, к) —— rfc_! чЛ)Х ( *=2 к-1 / '+ * \/F’ ' \ , 1 X S Ф(Г + 1, к) -------- Гк.,г1ку |хИ. \ jt=2 к - 1 / J В силу (5.82) приходим к (5.95) при Г = Г^_!. Формула (5.96) принимает теперь вид <70 =а($)Л, что приводит к (5.103) и (5.106). Теорема до- казана. 162
2Д.18°. Доказательство леммы 2.5.1. Из (5.117)-(5.119) имеем kr+i -Т |2 = |Т, - Тр - _ в [(Т-Т;)* д(Хг+1)Р + М?+1 ' la(xf+i)l2 1л(хг+1)Р Здесь обозначено (Д.35) I 1, если | rit+ j | >6, г 10, если |т?т+1 |<е, и учтено, что в силу (5.14) Пг+1 = (т-T,)’a(xr+i)+vr+1. (Д.36) Если | vt | < € с вероятностью 1, то при 0t = 1 выполняется | (т - Tt )* a(xt+1 )|-|uf + ! |> € - € > О и из (Д.35) следует сходимость ряда S Of |а(хг+1)Г2, Г=1 что в силу ограниченности | а (х)| означает 0г = 0 с некоторого конечного момента времени, т.е. конечную сходимость последовательности {тг}. На множестве {0f = O} из (Д.36) следует оценка |(тг- т)’а(х,+ 1)|2 < 2(и2+1 + е2). Поэтому из (Д.35) получим М?+1 /. Л ч [О’-Тг)’*(•*,+1)]2 4--------- + (J — (J \ ------------------ |в(*г+1)1 1л(Хг+1)1 .. 12 1(т-тгу д(хг+1]2 3(и,+ 1 + е2) < I Т, - ТГ---------------;----+-------------г- • |л(Хг+1)|2 |fl(Xf+1)|2 Следовательно, М |тг+1 -тр < М | Tt - т|2 -(т, -т)‘ А(тг -т) + + ЗСа(о2+е2) < (1 -Х4)Л/|т,-тр +ЗСа(аи + е2). Отсюда элементарно следует неравенство (5.122). Лемма доказана.
ГЛАВА 3 ОПТИМАЛЬНАЯ ФИЛЬТРАЦИЯ СЛУЧАЙНЫХ ПРОЦЕССОВ Под оптимальной фильтрацией понимаются алгоритмы обработки реали- заций случайных процессов, направленные на максимальное в смысле неко- торого критерия подавление помех, зашумляющих (обычно аддитивно) полезный сигнал. В основе теории оптимальной фильтрации лежит метод Винера - Колмогорова и его рекуррентные модификации, известные под общим названием фильтра Калмана - Бьюси. Ниже для случая дискретно- го времени подробно обсуждаются различные вопросы оптимальной филь- трации. Кроме традиционной задачи о выделении сигнала, зашумленного помехой с известными статистическими характеристиками, рассмотрена за- дача, в которой помеха может не иметь полезных статистических свойств (минимаксная фильтрация). § 3.1. ФИЛЬТР ВИНЕРА - КОЛМОГОРОВА 3.1.1°. Постановка задачи. Ограничимся следующей постановкой задачи: наблюдается сигнал yt = <t>sr + vr, (1.1) где{х,} — вещественные стационарные стационарно связанные цен- трированные многомерные (векторные) процессы с известными спектраль- ными характеристиками, Ф— прямоугольная матрица соответствующей раз- мерности. Требуется получить оценку хт сигнала xt = Ф) + *2yt в момент времени t по наблюдениям за процессом {уг} до момента вре- мени t -1,1 - заданное целое число, Ф1. Ф2 - заданные прямоугольные мат- рицы. Оценка xt ищется с помощью линейного стационарного фильтра, уравнение которого имеет вид оо = s b(k-l)yt~k , (1.2) k~l где h(k) - весовая функция фильтра. Фильтр должен быть устойчивым. Это свойство можно сформулировать следующим образом. Введем пере- даточную функцию фильтра Я(Х) = X' S й(£)Х*. (1.3) Устойчивость фильтра равносильна отсутствию у Х“7Я(Х) полюсов в зам- кнутом единичном круге (так что ряд в (1.3) сходится равномерно в еди- 164
ничном круге). Фильтр (1.2) с указанным свойством устойчивости назо- вем 1-фильт^ом. Оценка xt должна быть оптимальной в смысле минимума функционала J, = М\xt-xt |2. (1.4) В силу стационарности рассматриваемых процессов функционал (1.4) от времени t не зависит. Задача фильтрации называется по-разному в зависимости от числа I в фильтре (1.2). При / > 0 фильтрация часто называется экстраполяцией (прогнозом) на / моментов времени; при / < 0 - интерполяцией (сглажи- ванием) и лишь при / = 0 собственно фильтрацией. Таким образом, при сглаживании оценка может зависеть от некоторого числа ’’будущих” наблюдений, а передаточная функция (1.3) имеет полюс порядка / в нача- ле координат. 3.1.2°. Уравнение Винера - Хопфа. Нетрудно найти необходимые и до- статочные условия оптимальности оценки xt в терминах корреляционных функций рассматриваемых процессов. Именно, если xt минимизирует функционал качества прогноза (1.4), то для любого k,k<t - /, выполнено условие M(xt - xt )yk = 0, k< t - /. (1.5) Равенства (1.5) имеют простой смысл: с.в. являющаяся линейной комбинацией с.в. yLJ, должна быть строго ортогональной проекцией вектора xt на подпространство, натянутое на с.в._у'г2 (см. § 1.3), что и выражается равенствами (1.5). Переписывая (1.5) через ковариации с.в. xt nyf, придем к дискретно- му варианту уравнения Винера - Хопфа относительно весовой функ- ции h(k): оо S h(k - I)Rvr(t - к) = Rxv(t). t >1. k = l (1.6) Здесь Rvy(t) = Ф/ЦОФ* +Ф^и(П+Яи,(Г)Ф* + ДЛ>.(П = R'vx(t) = Мхк yk_t, (1.7) (?) Rvv(t) — Mvkvk_f . H. Винер предложил метод решения уравнений (1.6) при известных матрич- ных функциях Rvy(t),Rxy(t), основанный на переходе в частотную область с помощью (в данном случае дискретного) преобразования Фурье с после- дующим решением полученного уравнения методом факторизации. Мы приведем другой способ нахождения оптимального фильтра, основанный на непосредственной минимизации функционала (1.4), представляющего со- бой квадратичную функцию от весовой функции фильтра. 165
3.1.3°. Синтез оптимального фильтра. Перепишем функционал (1.4) как квадратичную форму передаточной функции (1.3). Имеем M(xr -xt)(xt -*,)* = = М(£ h(k-l)yt к-xr)( £ h(k'-l)yt_k'-x,)’ = k = l k=l = £ £ h(k-l)Myt_ky;_k'h'(k’-I)- £ h(k - l)Myt_k x* - k = l k'=l k-l - S Mxtytlk + Mxtx* = k-l = S S h(k) Ryv(k’-k) h*(k'} - S h(k)Ryx(-l - Г) - Jt=O Jt' = O Л = 0 - £ Rxy(k + l) h\k) + Яхх(0). (1.8) k = 0 Предполагая теперь, что существуют спектральные плотности рассматри- ваемых процессов, можем написать 1 dX 2т Л l d\ (L9) Ryx(k) = — f X~* Syx(X) — 2lTl A что позволяет с учетом (1.3) переписать (1.8) в виде M(xt - xt)(xt -xt) = Rxx(0) + I JX + # [Я(Х)£У>.(Х)Я(Х)* -Я(Х)ЗДХ) _$ (Х)Я(Х)*]—. 2lTl A (1.Ю) Матрица спектральных плотностей (Л) - неотрицательна при | X | = 1 (см. § 2.П). Известно, что такая матричная функция допускает факториза- цию, т.е. представление в виде 5>Л.(Х) = П(Х)П(Х-*)Г, (1.11) где П(Х) - матричная функция, элементы которой не имеют полюсов в замкнутом единичном круге, П7 - матрица, транспонированная (без комплексного сопряжения) матрице П. Если матрица 5V>.(X)- положи- тельно определенная на единичной окружности, то матрицу П(Х) можно выбрать так, что и П(Х)"1 не будет иметь полюсов в единичном круге. В дальнейшем предполагается, что П(Х) этим свойством обладает. С по- мощью факторизации (1.11) формулу (1.10) можно преобразовать следую- 166
щим образом: M(xt-xt)(xt -xt)* = -^[Я(Х)П(Х) -Я(Х)]Х , . Гт X [Я(Х’,)П(Х’,)-Я(Х',ЛГ- + N, (1.12) Л где Л(Х) = 5^(Х)[П(Х-1)/Г1, (1.13) 1 dk N = Rxx(0) - —f А(Х) Я(Х)‘—(1.14) 2iu X и учтено, что при |Х| = 1 выполняется Я(Х)‘ = Я(Х-' )т, sxy(X) = syx (X- )г. Поскольку матрица NотЯ(Х) не зависит, а первое слагаемое в правой части (1.12) — неотрицательная матрица, то минимум функционала (1.4) дости- гается при Я(Х) = Я(Х)П(Х)-' = S^x-Wy/X)]-', (1.15) причем min Jt = Sp N. (1.16) {,/(*)} Таким образом, при минимизации функционала (1.4) факторизация ока- залась ненужной. Однако найденное решение - передаточная функция фильтра Я(Х) - неудовлетворительно, поскольку, вообще говоря, не вы- полняется условие устойчивости фильтра, так как матрица [Sy v (Х)]”"1 имеет особенности внутри единичного круга, и это свойство наследует Я(Х). Винер как раз и предложил процедуру, позволяющую синтезировать устойчивый фильтр. При этом, однако, наименьшее значение функционала (1.4) будет больше величины (1.16), что естественно: при сужении класса фильтров оценка xt должна ухудшаться. Произведем сепарацию функции R(X), т.е. представим её в виде Х“'Я(Х) = Я+(Х) + Я_(Х), (1.17) Я+(Х),Я_(Х"1) — матричные функции, голоморфные в замкнутом единич- ном круге, причем lim Д_(Х)=0. (1.18) |\Н~ Теорема 3.1.1. Пусть матрица спектральных плотностей Svy(\) процес- са (1.1) допускает факторизацию (1.11), где П(Х)- матричная функция, голоморфная вместе с П(Х)"1 в замкнутом единичном круге. Тогда переда- точная функция Я(Х)фильтра (1.2), минимизирующая функционал (1.4) в классе I -фильтров, определяется по формуле Я(Х) = Х'Я+(Х)П(Х)-*, (1.19) где Я+(Х) - голоморфная в замкнутом единичном круге функция, опреде- 167
ляемая сепарацией (1.17) и условием (1.18). При этом 1 d\ min Ji = SpTV +------f Spfl_(X)/?_(X)*------. (1.20) (h(k)} 2ni X Сравнение формул (1.20), (1.16) показывает, что положительная ве- личина 1 dX — f SpK_(X)/? (X)*— 2ni X является ’’платой” за сужение класса фильтров (1.2) до / -фильтров (устой- чивых фильтров). В случае скалярного процесса у, с дробно-рациональной спектральной плотностью процедура построения функции II(X) сводится, по существу, к нахождению корней и полюсов дробно-рациональной функции (д.-р.ф.) Syy(X), расположенных вне единичного круга. Сепарация (1.17) в этом случае состоит в выделении целой части функции X _/Я(Х) с последующим определением ’’устойчивых” и ’’неустойчивых” полюсов полученной в ре- зультате правильной д.-р.ф. 3.1.4°. Интерпретация действия оптимального устойчивого фильтра. Предположим, что скалярный (одномерный) процесс (1.1) имеет дробно- рациональную спектральную плотность 5vy(X). Из соотношения (1.19) следует, что оптимальный фильтр можно представить в виде последователь- но соединенных динамических блоков с передаточными функциями Я^Х) = П(Х)’1 и Я2(Х) = Х'/?+(Х). Обозначим через т], случайный процесс на выходе первого блока, на вход которого действует yt. Пусть я2(Х), (X) - несократимые полиномы, определяющие д.-р.ф. П(Х). П(Х) = я2(Х)-1 я^Х). Тогда*процессы_у„ свя- заны разностным соотношением MWr = я1(7)7?г, (1.21) и процесс у, можно рассматривать как выходной процесс устойчивого фильтра (полиномы я^Х), я2 (X) не имеют корней в замкнутом единичном круге), на вход которого действует процесс т),. Если Му, = 0, то Mrj, = 0. Учитывая (1.11), вычислим в соответствии t § 2.П спектральную плот- ность процесса т},: 5nt)(X) = w. (X)1 я2(Х)5>.у(Х)7Г2(Х)’[я1(ХУ]-* = = 7Г1(ХГ* я2(Х)тг2(Х)-' [лгСМТ* ^(Х) ’К (Л)*]1 =1- т.е. г), - белошумный процесс. Таким образом, первый блок фильтра с передаточной функцией /Л(Х) ’’выбеливает” процесс у,, сопоставляя ему белошумный процесс 17,, который поступает на вход второго блока. Учиты- вая, что 5ПЛ.(Х) = П(Х)”1 5ух(Х) = /?(Х-1), (см. (1.13)) убеждаемся, что блок с передаточной функцией Н2(\} - = Х//?+(Х) осуществляет оптимальную фильтрацию белошумного процесса rit (т.е. если бы процесс у, был белошумным, то оптимальный / -фильтр со- 168
стоял бы только из второго блока). Итак, оптимальная фильтрация ’’цвет- ного” процесса уг состоит из двух этапов: на первом происходит выбелива- ние процесса, а на втором производится оптимальная фильтрация получен- ного таким образом белошумного процесса. Реализация процесса выбелива- ния требует факторизации д.-р.ф., положительной на единичной окруж- ности, тогда как реализация процесса фильтрации белошумного процесса требует сепарацйи д.-р.ф. Приведенная интерпретация работы оптимального фильтра принадлежит Г. Боде и Н. Шеннону. 3.1.5°. Сводка формул. Выпишем для удобства пользования все основ- ные соотношения, связанные с оптимальным фильтром Винера - Колмого- рова. Уравнение наблюдения и уравнение оцениваемого сигнала: yt = Ф$г + vr, xt = Ф1$г + (1.1) Оценка в момент времени t: Xt = S h(k - (12) k-l h(k) - весовая функция фильтра, связанная с передаточной функцией соотношением Я(Х) = X' £ й(Л)Х*. (1.3) * = 0 Факторизация (5гу(Х) - матрица спектральных плотностей процесса (1.1)): 5уЛ.(Х) = П(Х) П(Х-1 )7. (1.11) Сепарация: Х~'Я(Х) = Л+(Х) + Я_(Х), (1.17) Я(Х) = 5ху(Х)[П(Х-*)гГ,) (1.13) Syx(X) ~ взаимная матрица спектральных плотностей процессов {уг} и {xt}, определяемая соотношениями (1.7), (1.9). Передаточная функция оптимального фильтра: Я(Х) = Х'Я+(Х)П(Х)-‘. (1.19) 3.1.6°. Пример: оценивание состояния устойчивого скалярного объекта. Предположим, что наблюдается скалярный процесс {yt} , yt = xf (1.22) где {xf} и{иг} - стохастически независимые стационарно-связанные про- цессы, Mvt = 0,Mv2r = oj, причем {хг} определяется уравнением xf+1 + axt = Wf, (1-23) где |a|<l, Mwt = 0, Mwrws = o2w bts. В данном случае = 5хх(Х) = ------------------:—, (1 + аХ)(1 4-аХ-1) 169
> °w SyyW = ol + ----------------— . >} (1 + aX)(l + aX-1) Для проведения факторизации функции Svy(X) найдем вещественные постоянные с 1 ис2 из соотношения Oy(l + аХ) (1 4-аХ'1) + а*. = (ci + с2 X) (б?! + с2 X'1). Несложные расчеты дают ci = *_(Pi + Р2), с2 =1Л(Р1 - р2), где Pi = x/ow + oj(l + а)2'. р2 = V ol- + Ou О -а)1'- Согласно (1.11) получаем с» + с2\ П(Х) = - ‘ 2 (1.24) 1 +дХ поскольку ct > с2, а функции П(Х) и П(Х)-1 не должны иметь полюсов в замкнутом единичном круге. Далее, °w 5Vx(X) = Svx(X) =--------—--------—. у (1 + аХ)(1 + аХ'1) Поэтому согласно (1.13) 4 /\ )------------------- . I 1 .4,^ I (1 +aX)(CiX + c2) Сепарация функции (1.25) производится по-разному в зависимости от чис- ла /. Рассмотрим сперва случай 7=0. Правильная д.-р.ф. Я(X) имеет два по- люса: один - внутри единичного круга (Х= -с2/сх), другой - вне круга (Х = -а‘1). Сепарация производится элементарно, в результате чего из (1.17) получаем 2 1 2 ot 1 с2 Д+(Х) =------”----------, Я_(Х) =-----------------—. сх-с2а 1 +яХ сх-с2а cx\ + c2 Формула (1.19) превращается теперь в °w 1 Я(Х) ---------->--------(1.26) Ci - с2 a Ci + с2 л Применяя обратное преобразование Фурье, нетрудно теперь вычислить и весовую функцию фильтра 2 w / С“2, h(k) = —-----—ч (-------) , к> 0. (1.27) Ci(Ci-c2a) \ cxJ Формула (1.26) показывает, что оптимальная оценка хг при 7=0 связана с 170
yt разностным уравнением А А cxxt + c2xt_l =-----------yt. (1.28) ci - c2a Рассмотрим далее случай I = 1. Теперь сепарации подлежит д.-р.ф. (см. (1.17), (1.25)) (1 +aX)(ciX + е2) Имеем o2wa 1 and 1 Я+(Х) =---------- • ------, Я_(Х) =—--------- • --------- Ci-e2a 1 + аХ с{ - с2а CiX+c2 и (1.19) запишется так: о*, а X Я(Х) =-------------------(1.29) Ct - с2а Ci +с2 X Оптимальная оценка xt связана с наблюдениями {jr} в силу (1.29) со- отношением а а а?га CiXt + c2xt_i =-----------yt_i . (1.30) с\ -с2а Как и следовало ожидать, фильтр (1.28) осуществляет собственно фильтра- цию: в момент времени t для получения оценки хг используется последнее из доступных наблюдений уt. Фильтр (1.30) осуществляет прогноз (на один такт) : оценка xt процесса xt в момент времени t использует лишь доступ- ные данные наблюдения - в данном случае yt _ i. Пусть теперь I > 1 (прогноз на / тактов). Сепарация функции X'R(X) = -T-j-------------------- Xz“l(l -ьяХНслХ + c2) сводится к нахождению двух полиномов F(X), G(X), удовлетворяющих соотношению X'-1 F(X)(cjX + с2) + G(X) (1 + аХ) = o2w, (1.31) и тогда в соответствии с (1.17) F(X) G(X) Я+(Х) = ГГГ’ Я~(Х) = .; • (132) 1 +аХ X' 1 (<?i X + с2) При этом степень полинома (7(Х) должна быть не выше (7-1) для обес- печения (1.18). Это условие однозначно определяет полиномы F(X), (7(Х), удовлетворяющие (1.31), причем полином F(X) оказывается нулевой сте- пени, т.е. F(X)=F0 не зависит от X. Полагая Х= -я"1 в (1.31), найдем a2w(-a)‘ Fo = ---------. , ci -с2а 171
и, следовательно, в силу (1.19), (1.32), (1.24) Ci - с2а сх + с2Х Оценка х,, доставляемая оптимальным фильтром, удовлетворяет поэтому уравнению . , А А (~«М CiX, + с:х,-1 = ------- у, (1.34) С! - с2а Отметим, что уравнение (1.34) можно переписать в виде х,+ axt_i = КК-а)1-' у t^i (1.35) где. К = (с2 -Vifljc;1 . (1.36) Выражение в квадратных скобках играет роль невязки, входящей в урав- нение фильтра (1.35) с коэффициентом усиления (1.36). Рассмотрим, наконец, случай I < 0, когда синтезируемый фильтр осу- ществляет сглаживание (интерполяцию). Сепарации подлежит функция X'+,o?v (1.37) Х'/?(Х) = (1 + дХ) (с2 + с, X) Здесь -/ + 1 > 2 и, следовательно, X" ;Л(Х) - неправильная д.-р.ф. Пред- ставляя эту функцию в виде , Г(Х) G(X) X 'Я(Х) = —— + ----------— 1 + Ха с2 + Ci । (1.38) для определения полиномов F(X), (7(Х) получаем уравнение (с2 + XCj)F(X) + (l +Xa)G(X) = X '+1a?v, (1.39) причем, как и раньше, д.-р.ф. G(X)(c2 + Xci )"* должна быть правильной, т.е. (7(Х) = Gq не зависит от X. Учитывая это обстоятельство, из (1.39) най- дем полином F(X) = Fo + XFj + . . . + XkFK9 (1.40) где к = т- / и Г ' С* \* 2 < ч-1 Го =------- а‘. (С) - с2а) \ С1 1 Из (1.38), (1.19), (1.24) находим Я(Х) = Х'Г(Х)(с, + Хс2)-'. Таким образом, оптимальный фильтр описывается уравнением ci*, + c2xr^x = F(y)yr+K, (1.42) где полином F(X) определяется формулами (1.40) - (1.41). 172
Как и следовало ожидать, рассматриваемый процесс сглаживания тре- бует знания ’’будущих” данных наблюдения на к = -/ тактов вперед. Отме- тим, что левые части оптимальных фильтров при любом I имеют одинако- вый вид (см. (1.28), (1.30), (1.34), (1.42)). 3.1.7°. Пример: оптимальный прогноз значения авторегрессионного про- цесса. Рассмотрим стационарный процесс {.у,} , определяемый устойчи- вым фильтром я(Г)Л=”п (143) где полином я(Х) = 1 + \ах + . . . + \рар, р^О, не имеет корней в замкну- том единичном круге и {vt} - белошумный процесс, Mvt = 0, Ми] = 1. Соотношение (1.43) называется уравнением авторегрессии. Поданным наблюдения процесса авторегрессии требуется прогно- зировать значение yt+h /> 0, причем прогноз yt+t может быть произ- вольной функцией предыстории процесса авторегрессии, уг+ /=Л(^1«>), и должен минимизировать величину 8/ = >/м\уг-и ~ Л+/12 , (1-44) называемую (среднеквадратичной) ошибкой прогноза. Как вскоре выяс- нится, ошибка оптимального прогноза от t не зависит. Сузим задачу и ограничимся пока рассмотрением прогноза с по- мощью /-фильтра. Для этого перепишем уравнение (1.43) в виде (1.1): Уг = (1 - ^(V)] У Г + Vt = sf + ut, xt—yt . В силу (1.43) имеем Syy(X) = [я(Х)а(Х"1) ]и = Sxv(X), т.е. в данном слу- чае П(Х) = я-1(Х), и в соответствии с (1.13) /?(Х) = я-1 (X). Сепарация (1.17) сводится, следовательно, к определению полиномов F(X), (7(Х). удовлетворяющих тождеству XZF(X) + a(X)G(X) = 1, (1.45) причем степень полинома (7(Х) не должна превосходить / - 1. Коэффици- енты полинома (7(Х) = 1 + XGj + . .. + Xz“ld/_j поэтому могут быть найдены из системы уравнений d\k |х=0 ’ /- 1. (1.46) Полином F(X) после этого определяется в результате деления нацело поли- номая(Х)(7(Х) - 1 на Xz. При этом/?+(Х) = F(X)a-1(Х), R_ (X) = X ZG(X). В соответствии с (1.19) передаточная функция /-фильтра имеет вид Я(Х) = XZF(X), т.е. оптимальный / -фильтр описывается уравнейием Уг+1 = ^(V)J/. (1.47) Покажем, что фильтр (1.47) является оптимальным в классе произ- вольных прогнозов yt+i -ftiyl^). Для этого применим к (1.43) оператор- ный полином (7(57) и с учетом (1.45) получим yt+t = Г(Г)Л + <7(?)иг+/. (1.48) Пусть yt+i =ft(y! <*>) ~ произвольная функция предыстории процесса авторегрессии. Учитывая, что с.в. ur+/,uf+/+j.uf+l независимы с yt+b 173
из (1.48) получим M\yt+l -yt+i I2 = M{M\yr+i -yt+t |2 Ijioo } = = M|F(v)j,-/f+/|2 + S G2k, G0 = l. (1.49) * = 0 Из (1.49) следует, что минимум ошибки оценивания достигается на прогно- зе (1.47). При этом 6/ = (Х1 G2k)\ (1.50) *=о Если полином 0(Х) имеет корни в замкнутом единичном круге, то фильтр (1.47), где полином F(X) определяется соотношениями (1.45), (1.46), не является оптимальным. Покажем, как синтезируется I оптималь- ный прогнозирующий фильтр и найдем выражение для ошибки прогноза в этом случае. Итак, пусть полином 0(Х) имеет вид а(Х) = Л1(Х)а2 (X), (1.51) где zzi (X) — полином, не имеющий корней в замкнутом единичном круге, 02(Х) - полином, не имеющий корней вне открытого единичного круга (при 02(Х) = 1,приходим к уже рассмотренному выше случаю). Пусть г и 5 - степени соответствующих полиномов 0j(X) и 02(Х), г + s = р. Введем полином в2.(Х) = Х^Х’1), (1.52) который является’’обращением” полинома 02(Х),ипусть 0*(Х) = 01(Х)02ф(Х). (1.53) Полином 0*(Х) степени р, называемый устойчивой модификацией 0(Х), не имеет корней в замкнутом единичном круге. Дальнейшее построение / -фильтра происходит по ранее приведенной схеме, но роль полинома 0(Х) теперь играет полином а #(Х). В частности, определив полиномы F*(Х), G *(Х) из соотношения X'F.(X) + e.(X)G.(X) =1, (1.54) найдем оптимальный / -фильтр в виде Л+/ = F+(V)b (1.55) и вычислим ошибку прогноза 5/ = ( S1 )\ Gq. =1. (1.56) k = O Отметим, что в данном случае неясно, будет ли фильтр (1.55) оптималь- ным в классе нелинейных прогнозов. Поясним причину этой неясности. Введем стационарный процесс'и,}, определяемый до стационарному про- цессу (yt } соотношением = я.Ш- 174
Нетрудно убедиться, что { vt} - центрированный процесс, и его спектраль- ная плотность равна 1, т.е. с.в. { иг) некоррелированы. Однако они могут не быть стохастически независимыми, и тогда оптимальный прогноз может оказаться нелинейным. Здесь ситуация аналогична отмеченной в п. 2.4.5°,б. Если же с.в. vt стохастически независимы (что будет, например, в случае гауссовских с.в. yt), то, как и раньше, фильтр (1.55) - оптимальный в классе нелинейных фильтров, осуществляющих прогноз авторегрессион- ного уравнения на I тактов. 3.1.8". Синтез оптимальных следящих систем. Приведем пример примене- ния метода оптимальной фильтрации в несколько более общей ситуации, чем была изучена выше. Рассмотрим систему автоматического управления с передаточной функ- цией Я(Х), служащую для усиления и преобразования управляющего по- лезного сигнала st при наличии стационарной помехи vr. В общем случае система должна возможно более точно воспроизвести на своем выходе некоторую функцию управляющего сигнала, которую символически представим в виде xf = H/(V)s„ (1.57) где W(X) - заданная передаточная функция. Если полезный сигнал st - стационарный, то возникает задача синтеза такой передаточной функции Я(Х), при которой выходной сигнал Xt = yt=St+vt, (1-58) возможно меньше отличался бы от сигнала xt. Как обычно, это отличие будем характеризовать величиной ДЯ)=7И|х,-х,|2. (1.59) Таким образом, приходим, по существу, к уже рассмотренной задаче оптимальной фильтрации. Если W(X) = 1, то получаем так называемую задачу синтеза следящей си- стемы, при W(X) = Xz - задачу фильтрации в сочетании с оптимальным сгла- живанием (/ > 0) или оптимальным прогнозом (/ < 0). При произвольной дробно-рациональной функции W(X) получаются более общие задачи филь- трации. Фильтр (1.58) называется физически реализуемым, если передаточная функция Я(Х) не имеет полюсов в замкнутом единичном круге. Синтез оп- тимального физически реализуемого фильтра может быть осуществлен в рамках изложенной выше теории Винера — Колмогорова. Действительно, и в данном случае функционал (1-59) оказывается квадратичной функцией передаточной функции Я(Х): М(х, - х,)(х, - xt)* = -5- f [H(X)Ss+u(\)H(X-1 f - 2iu - H(X)Ss+v,s(X)W(\-i)r - W(X)SSiS+v(X)H(\-')T + JX + IV(X)SI(X) JV(X-‘ )7 ] —, (1.60) A 175
где Ss+u(AX 55(Х) - соответственно матрицы спектральных плотностей процессов {$, + vt ‘ и {sf}, s+u(X) - матрица совместных спектральных плотностей процессов sf и s, + vh Ss+V х(Х) =5^ s+u(X"1 )г. Если матрица 5^+и(Х) не вырождается при |Х| = 1, то можно восполь- зоваться схемой п. 3.1.3°. Приведем окончательный результат в виде методики, предложенной Г. Боде и К. Шенноном. 1. Оптимальная передаточная функция физически нереализуемого фильтра легко вычисляется: Я(Х) = H'(X)5J..S+U(X)5J+U(X)-1. Не реализуемость здесь объясняется возможными особенностями функций, стоящих в правой части. 2. Произведем факторизацию матрицы 5s4-u(X): SJ+U(X) = П(Х)П(Х-’ )г, где матрица П(Х) и обратная П(Х)”1 не имеют особенностей в замкнутом единичном круге. Тогда Я(Х) = tfCXjIW1, где R(X) = H'(X)SJ.l+v(X)(II(X-,)r]-’. 3. Производится сепарация функции /?(Х): R(X) = + Я-(Х), I де функции /?+(Х), /?_(Х-1) нс имеют особенностей в замкнутом единич- ном Kpyie, причем lim /?_(Х) = 0. |Л|- ~ 4. Оптимальная передаточная функция физически реализуемого фильтра определяется по формуле Я(Х) = ЯЛХНЦХ)’1. Описанная процедура синтеза оптимального фильтра вполне соответствует той, что была проведена в п. 3.1.3°. С помощью последней, в частности, получим min J(H\ = £Sp[W(X)5v(X)W(X)* + Я_(Х)Я_(Х)* - // 2 я/ JX - Я(Х)Я(Х)* ] — , Л 1де минимум берется по всем передаточным функциям физически реали- зуемых фильтров. Неотрицательная величина 1 (IX — fSpR_(X)R'_(X)~ X служит, как и раньше, ’’платой” за сужение класса произвольных переда- точных функций до класса устойчивых передаточных функций. 176
3.1.9°. Устойчивый линейный фильтр, максимизирующий отношение сигнал/шум. В п. 1.2.4° была рассмотрена задача о синтезе согласованного фильтра, максимизирующего отношение сигнал/шум. Однако этот фильтр не обладает, вообще говоря, свойством устойчивости, что затрудняет его использование при больших длительностях полезного сигнала. Оказывает- ся, что noci роение линейного фильтра, максимизирующего отношение сигнал/шум в классе устойчивых фильтров, может быть осуществлено на основе тех же идей, что были использованы при синтезе фильтра Винера- Колмогорова. Перейдем к описанию этой задачи. Будем предполагать, что полезный сигнал {$,} - известная скалярная функция времени, отличная от нуля на конечном интервале [1, Т]. Наблю- дается сигнал {V,}, у г = st + v{, -«></<<», (1.61) где {и,' - центрированный стационарный процесс, порождаемый фильтром d(V)vt •= V )wr, (1.62) на вход которою поступает белошумный процесс Mwt =0, Mwj = = o?v. Предполагается, что полиномы J(X) ~ 1 + XJj + . . . + \pdp, <?(Х) = = 1 + . + \рер, определяющие формирующий фильтр для процесса {иг/, не имеют корней в замкнутом единичном круге. Таким образом, процесс ( vt} имеет дробно-рациональную спектральную плотность е(Х)^(Х'1) J(X)J(X-'-) 5„(Х) = a?v (1.63) Отношение сигнал/шум в момент времени t на выходе фильтра с переда- точной функцией Я(Х) может быть записано в виде 1 JX f Н(Х) S(X)X-'-- 2m л ^ВЫХ(О j ~ ^/7(Х)5и(Х)//(Х-1) — 2ni X (1.64) где т S(X) = 2 \ksk к = 1 - дискретное преобразование Фурье сигнала {st}. Числитель в формуле (1.64) определяет квадрат модуля полезного сиг- нала в момент времени t (обычно в качестве t выбирается момент пико- вого значения сигнала), в знаменателе - дисперсия помехи на выходе фильтра (в силу стационарности помехи дисперсия не зависит от вре- мени) . Величина ^вых(0 зависит от передаточной функции Я(Х) преобразую- щего фильтра. Если искать наибольшее значение <7ВЫх(0 на множестве произвольных Я(Х), то приходим к задаче, рассмотренной в п. 1.2.4° в пред- положении белошумности процесса {vt}. Нас же интересует задача максимиза- ции <7вых(0 в более узком классе {Н(Х)}+ устойчивых д.-р.ф. Учитывая 177
(1.63) и вводя обозначение е(Х) Я(Х) = аи.Я(Х)-1-1, J(X) (1.65) перепишем формулу (1.64) в виде Звых(0 ~ 1 2тпои. Ф------ е(Х) X ' H(X)S(X)---- X 2--^|Я(Х)|2 2iu dX ~х” (1.66) Из формулы (1.65) следует, что Я(Х) и Я(Х) одновременно являются или не являются устойчивыми д.-р.ф. в силу сделанных выше предположений о свойствах полиномов d(X) и е(Х). Поэтому задача определения оптималь- ного фильтра свелась к максимизации величины (1.66) в классе {//(X)' устойчивых д.-р.ф. Знаменатель в (1.66) играет рэль нормирующего мно- жителя, а числитель - квадратичная функция от Я(Х). Поэтому для макси- мизации <7Вых(0 с успехом можно воспользоваться по существу тем же приемом, что и в п. 3.1.3°. Приведем окончательный результат. Лемма 3.1.1. Пусть {Н(К)} - множество всех д.-р.ф. и {Н(к)}+ - мно- жество всех устойчивых д.-р.ф. Тогда оптимальные передаточные функции, максимизирующие величину <7ВЫх(0 соответственно в множествах (Я(Х)} и определяются формулами X'S(X-‘) Я(Х) =---------- Sv(\) (1-67) 1 ^(Х) Я(Х) =-------— G-(X-1). (1.68) ou, е(Х) Здесь G_(X)- ’’отрицательная часть”д.-р.ф. 1 X~'d(X) С(Х) =--------—5(Х), (1.69) olv е(Х) полученная из условия G(X) = G+(X) + G_(X), (1.70) где G+(k), G_(X~} ) - устойчивые д.-р.ф., причем G«.(0) = 0. Отметим, что если е(Х)= 1 в фильтре (1.62) (т.е. спектральная плот- ность (1.63) помехи имеет ’’только полюсы”), то передаточные функции (1.67) и (1.68) совпадают. Действительно, функция S(X) - полином и из (1.69) следует, что все особенности функции (7(X) сосредоточены в нуле, поэтому GL(X) = (7(X). 178
§ 3.2. ФИЛЬТР КАЛМАНА - БЫОСИ Теория Винера-Колмогорова оптимальной фильтрации послужила мощным стимулом поиска новых путей с целью избежать проблем, связан- ных с решением уравнения Винера-Хопфа, а также определить способы практического синтеза теоретически оптимального фильтра. Для стационар- ных процессов, порождаемых линейными дифференциальными (разност- ными) уравнениями были предложены другие подходы к задаче фильтра- ции и экстраполяции, которые не использовали уравнения Винера-Хопфа, оперируя с эквивалентным дифференциальным (разностным) уравнением для ковариации ошибки фильтрации. Большой практический интерес представляет тот факт, что методы дифференциальных уравнений дают воз- можность синтезировать оптимальный фильтр рекуррентным способом, обеспечивая удобство его реализации при использовании современных ЭВМ. Хотя эти методы развивались независимо, все они имеют общую при- роду и тесно связаны с минимизацией квадратичных форм. Ниже приводит- ся вариант теории Калмана — Бьюси в случае дискретного времени. 3.2.1°. Постановка задачи. Предположим, что наблюдается случайный процесс yt = Фгхг + uf, (2.1) представляющий собой смесь преобразованного векторного сигнала (хг) и случайной векторной помехи {vr}. Прямоугольная матрица Фг этого преобразования считается известной, но может изменяться во времени. Помеха {иг} представляет собой белошумный процесс с известной матри- цей ковариации Mvtv's = Яи(Г)6,5, (2.2) которая может изменяться во времени, но при всех t остается невы- рожденной. Требуется получить оценку xti(tQ, t) процесса {xz) в момент време- ни ti по наблюдениям у5 при Оценка xfi(tQ, /) ищется в клас- се линейных оценок *G('o, 0 = S Л(Г1, к)ук (2.3) и должна минимизировать квадратичный функционал /ро, С h] = М|*г, - xf)(r0, 0I2. (2.4) Оценку xfj(Го, г), минимизирующую функционал (2.4), назовем опти- мальной. Момент времени может принадлежать интервалу наблюдения [г0, г) (задача интерполяции, или сглаживания), не принадлежать ему (задача эк- страполяции, или прогнозирования) либо совпадать с концом интервала наблюдения tx = t (собственно задача фильтрации). Далее подробно будет изучаться задача экстраполяции на такт вперед tx = г + 1. В такой общей постановке задача фильтрации едва ли допускает прием- лемое решение. Поэтому относительно полезного сигнала {хг) делаются дополнительные предположения. В §2.1 процесс (хг) предполагался ста- 179
ционарным. В рамках теории Калмана - Бьюси такое ограничение не обя- зательно, здесь предполагается, что {х,} порождается уравнением Хг-н = ^tXt + (2.5) где Ft - известная матричная функция времени, {wf} - белошумный процесс, независимый от процесса {ис}, ковариационная матрица Mwtw* = /?П(Г)6Г5 (2.6) которого может изменяться во времени, но предполагается известной. Таким образом, в рамках теории Калмана - Бьюси могут рассматриваться существенно нестационарные процессы, однако последние должны по- рождаться линейными уравнениями. Если (2.5) рассматривать как уравнение динамического объекта, то xt называют состоянием объекта, а Фгх; - выходом объекта. Поставлен- ную выше задачу фильтрации теперь можно интерпретировать как задачу оценивания состояния линейного динамического объекта по его выхо- дам, наблюдаемым на фоне помехи. Именно так ставил задачу оценива- ния Р. Калман в своих основополагающих работах. 3.2.2°. Нестационарное уравнение Винера - Хопфа. Как и в случае фильт- рации стационарных процессов, нетрудно выписать необходимые и доста- точные условия оптимальности линейных оценок в терминах корреляцион- ных матриц процессов. Эти условия имеют вид М\х,х - /)] V-; = О, (2.7) или с учетом (2.3) - t Mx,ty*s = 2 h(tt, к)Муку* . (2.8) * = Вывод условий (2.7) весьма прост и опирается на интерпретацию оптималь- ной оценки как строго ортогональной проекции (см. п. 1.3.2°) с.в. xt на ли- нейное подпространство, порождаемое с.в. ys, tb < s < t. Уравнение (2.8) представляет собой нестационарный вариант уравнения Винера -Хопфа (в дискретном времени). При постоянных матрицах Фг, Fh Rv(t\ Rw(t) и to = оно превращается в уравнение Винера-Хоп- фа, а фильтр (2.8) - в /-фильтр, / = t} - t. 3.2.3°. Каноническая форма оптимального фильтра. Существуют различ- ные способы вывода уравнений оптимального фильтра. В данном пункте такой вывод основан на специальном рекуррентном соотношении, кото- рому должна удовлетворять весовая функция оптимального фильтра. Ограничиваясь случаем tx = t + 1 (прогноз на такт вперед), выведем это соотношение. Из (2.8) имеем t 1 M(x,+ i - xt)y* = X [Л(Г + 1, к) - h(t, Л)] rks + ~ ^0 + h(t + 1, t)rtK, (2.9) 180
где s = ti,..г - 1 и rks = Муку*. Но в силу (2.5), (2.8) M(xl+l - х,)у* = (Ft - 1) Z h(t, k)rks, к - Го а в силу (2.1), (2.5) t 1 rts=Myry; = Ф,Мх,у* + Mvty* = Ф, Z h(t, к)rks, A - f0 что позволяет переписать соотношение (2.9) в виде t-1 S Д(/,^)^5 = 0, s = 1, (2.10) к ~ f о где Д(Г, к) = Fth(t, к) - h(l + 1,/)Ф,Л(Г, к) - h(t + 1Д). (2.11) При выполнении соотношения (2.10) оценка Xt(to, t- 1) = S [Л(г, к)-Д(гД)]ук к - t0 также удовлетворяет условию (2.7), т.е. является оптимальной в средне- квадратичном смысле оценкой вектора хг при наблюдениях yf" 1. Поэтому t~ 1)-х,(Г0, t — 1)|2 =0, или t i t - i М | Z Д(/, *)ФА хА-1 2 + Z Д(Л £)*Яи(*)Д(Г, к) = 0. А = Го к = 'о Но так как Rv(t) - положительные матрицы, то Д(гД) = 0, т.е. в си- лу (2.11) ГгЛ(гД)-Л(г+ 1, г)Ф,Л(Л к) = /?(г + 1, к). (2.12) Это и есть искомое соотношение, которому должна удовлетворять весовая функция оптимального фильтра (2.3) (при = r+ 1). Основываясь на (2.12), нетрудно найти разностное уравнение, которому должна удовлетворять оптимальная оценка xt(t0, t - 1). Действительно, хt+! (/о, 0 - / - 1) = h(t + 1, t)yt + + S [Л(г + 1, к) - h(i, Л)] ук . Исключая здесь Л(/ +1, к), в силу (2.12) получим *f+i('o. О - Xt(t0, t -1) = h(t + 1, t)yt + t- 1 + S {[Fth(t, k)-h(t+ l.r)] <bth(t, k) -h(t, k)}yk = A - = h(t + 1, t)yr + [/•; - h(t + 1, /)Ф, - /J xt(tti, t 1) 181
или *z+i(/o. r) = F,x,(r0, Г- l)+ACr|>, - фД(/о, г 1)Ь (2.13) где обозначено Kt = Л(/+ 1, Г). (2.14) Оказывается, матричная функция Kt, называемая калмановским коэффи- циентом усиления, также удовлетворяет рекуррентному соотношению. Вывод этот основан на использовании уравнения (2.13). Приведем оконча- тельный результат. Теорема 3.2.1. Колмановский коэффициент усиления Kt определяется формулой к, = ггр,ф; [/?„(/) + флф; (2.15) где Pt = t - 1) -xr] [x,(/0, t - 1) -x,J * (2.16) - ковариационная матрица ошибки оценивания, удовлетворяющая соот- ношению Р'+х = [Рг - Pt[Ft - КГФ,] * + KtRv(t)K; + Rw(t 4-1), (2.17) a Rv(t), Rw(t) - ковариационные матрицы (2.2), (2.6). После задания начальных оценок хг°, РГо соотношения (2.13), (2.15), (2.17) определяют замкнутую систему для рекуррентного вычисления Xf[to, t - 1], Pt во все моменты времени I. Уравнения (2.13), (2.15), (2.17) и называются фильтром Калмана - Бьюси. Отметим, что соотношение (2.17) допускает эквивалентные формы записи = FtPtFl - K^tPtFt* + Rw(t + 1), (2.18) pt+l = г,{р,-р,ф;[^0 + ФгЛф;г'фЛ>/7 + + (2.19) которые могут быть получены из (2.17) алгебраическими преобразования- ми с использованием формулы (2.15) и матричного тождества (A + BCD)'1 = Л”1 + DA~1B)~lDA'1, (2.20) справедливого для произвольных матриц А, В, С, D, цдя которых входя- щие в (2.20) выражения имеют смысл. Тождество (2.20) устанавливается элементарно. Соотношения (2.16), (2.17) определяют детерминированную последова- тельность матриц Kt, Pti не зависящую от наблюдаемой реализации про- цесса {.у,}. Поэтому эти матрицы могут быть ’’вычислены” заранее, до начала процесса оценивания. 3.2.4°. Пример: оценивание состояния скалярного объекта. Вернемся к примеру п. 3.1.6 , где фильтровался скалярный процесс yt = xr +vt, пред- ставляющий собой аддитивную смесь полезного сигнала {хг} и белошум- ной помехи {vtf, Mv2 = Оу, причем определялся уравнением х,+ 1 +axt = wr+1, |я|<1, где {vvr} - белошумная помеха, Mw2t = Синтезируем фильтр Калмана - Бьюси для оценки ’’состояния” xt по дан- 182
ным наблюдения у\~1. В данном случае Ф, = 1, Ft = -a, Rv(t) = a2v, Rw{t) = a2w. Уравнение (2.13) принимает вид WU)4(M-1)=M(-4(V- О], (2.21) где теперь калмановский коэффициент усиления (2.15) определяется через ковариацию Pt ошибки оценивания формулой aPt Кг = - -—Б- ’ <2-22> о’+Р, а сама ковариация Pt удовлетворяет уравнению (см. (2.18)) Л+1 = a2Pt + K,Pta + < (2.23). С учетом (2.22) имеем а2 Р2 Pt+i = a2 Pt----— + o2w = a2w + о* + Pt Нетрудно убедиться, что определяемая уравнением (2.24) неотрицатель- ная последовательность Pt — монотонна (убывает либо возрастает в зави- симости от выбора начального данного Pq > 0). Поэтому существует пре- дел lim Р, =Роо, который может быть найден из уравнения (2.24), если f —> оо перейти в нем к пределу при t -> 2РЖ = Он, (а2 - 1) + о£ + >/[o?v(l -а2)- о„]2 + 4о2о^‘. (2.25) Из (2.22) теперь находим яо£ lim Kt = Кж = -а + —------- . г-- а^+Ло Комбинируя полученное выражение с (2.25), найдем /Соо = с\х(с2 - Ci а), (2.26) где Ci и с2 - постоянные, введенные в п. 3.1.6°. Сравнение (2.26), (2.21) с (1.35), (1.36) при /= 1 позволяет заключить, что асимптотически (при ;-><») фильтр Калмана-Бьюси превращается в фильтр Винера - Колмого- рова. Такая связь обусловлена заложенными в основу этих фильтров оценками МНК. Из приведенного примера видно, что фильтрация по Кал- ману - Бьюси не связана с проблемой факторизации, характерной для мето- да Винера — Колмогорова. 3.2.5 . Устойчивость фильтра Калмана-Бьюси. Естественно ожидать (и это подтверждается в рассмотренном выше примере), что оценки, порождаемые фильтром Калмана-Бьюси, асимптотически (при /-*«>) не должны зависеть от выбора начальных статистик хго, РГо. Это важное свойство фильтра, так как начальные статистики обычно не известны и 183
начальные данные в фильтре Кал мана — Бьюси выбираются произвольно. При этом, вообще говоря, нарушается оптимальность формируемых фильт- ром оценок, но оценки остаются асимптотически оптимальными, если начальные статистики ’’забываются” с течением времени. Ниже обосновы- вается такое свойство фильтра Калмана - Бьюси в предположении устойчи- вости объекта, состояние которого оценивается. Итак, рассматривается задача оценивания состояния динамического объекта (2.5) по наблюде- ниям (2.1). Помехи (Wf), как и раньше, предполагаются белошум- ными и независимыми. Объект (2.5) назовем устойчивым, если матричная функция Ft равно- мерно по t ограничена и при любом натуральному справедливо равенство lim F(t, s) = 0, (2.27) Г~* оо где F(t, s) = Ft i ... Fs. Объект (2.5) назовем сильно устойчивым, если он устойчив и firn 2 \F(t, sfF(t, (2.28) Г— oo Л=1 Для сильно устойчивого объекта (2.5) из равномерной по t ограничен- ности матриц ковариаций Rw(t) помехи {wr) следует равномерная по t ограниченность М\хг\2. Если FT-F, то устойчивость и сильная устой- чивость совпадают и равносильны отсутствию у квадратной матрицы F собственных значений вне открытого единичного круга комплексной пло- скости с центром в начале координат. Теорема 3.2.2. Если объект (2.5) сильно устойчив, матрица ковариаций Rv(t) помехи наблюдения не вырождена при всех t, а матричная функция Rw(t) равномерно по t ограничена, то уравнение оценивания (2.13) устой- чиво. Последнее равносильно тому, что нулевое решение уравнения Xr+i = (Ft А,Ф,)х,, (2.29) где матрица Kt формируется в соответствии с формулами (2.15), (2.17), асимптотически устойчиво, т.е. при любых начальных данных в начальный момент времени То определяемое этими данными решение xt уравне- ния (2.29) удовлетворяет равенству lim |хг|=0. г-* °° Отметим, что в ходе доказательства теоремы выводится также неравен- ство £ |Ф,х,|2 <°о. (2.30) *='о В условиях теоремы 3.2.2 начальные статистики - матрица Pt и началь- ная оценка ’’забываются” с течением времени. Более точно это озна- чает следующее. Теорема 3.2.3. Пусть в условиях теоремы 3.2.2 {х'Го, Р\^ и {^7 , ^7 }- различные начальные данные в фильтре Калмана - Бьюси. Обозначим по- рождаемые ими процессы через {x\(t(}, t - 1),/^}, (x/Gu, f - 1), ^/1 Тогда lim (P't - Р") = 0, lim (x'r - £7) = 0. (2.31) t —* °° f —♦ OO 184
Второе из предельных равенств (2.31), понимаемое с вероятностью 1, вы- текает из первого в силу теоремы 3.2.2. 3.2.6°. Фильтр Калмана — Бьюси в стационарном случае. Под стационар- ным понимается вариант задачи оценивания x,+ i = Fxt + (2.32) yt = Фх, + vt, (2.33) в котором матрицы F, Ф, Rw =Mwf w*, Rv~Mvtv* не зависят от t ({иг} и (w, J - независимые белошумные процессы). Напомним следующие понятия, необходимые для формулировки свойств фильтра Калмана - Бьюси в стационарном случае. Пара матриц (Л, В} называется стабилизируемой, если существует матрица С такая, что матрица А + ВС — устойчивая (т.е. не имеет собст- венных значений вне открытого единичного круга с центром в начале ко- ординат комплексной плоскости). Пара {А, В} называется детектируе- мой, если существует матрица D такая, что устойчивой является матрица А + DB. Предполагается, разумеется, что размерности квадратной матри- цы А и прямоугольной матрицы В таковы, что указанные операции имеют смысл. Теорема 3.2.4. Предположим, что в стационарном случае выполнены условия: 1) > 0; 2) пара матриц {F, Ф) - детектируемая; 3) пара матриц { F, R^} - стабилизируемая. Тогда справедливы следующие утверждения: а) Любое решение Pt дискретного матричного уравнения Риккати Pt+i = FPfF* - РР,Ф*[Rv + ФР, Ф*]’1 ФР,Р* + Ru., (2.34) удовлетворяющее начальному условию Р\ > 0, имеет предел lim Р, = Роо, (2.35) г-* °° и этот предел совпадает с матрицей ковариации ошибки оценивания фильтра Винера- Колмогорова - единственным неотрицательным решени- ем дискретного уравнения Лурье Р = F[P- РФ*[ЯУ + ФРФ* Г1 ФР] F* +ЯН«. (2.36) б) Для Колмановского коэффициента усиления Kt = h(t, t - 1) суще- ствует предел Кж = lim К,, (2.37) оо причем матрица A = F КЖФ (2.38) устойчива. в) Весовая функция h(t, к) фильтра Калмана- Бьюси асимптотически (при t-+<* и равномерно по к) совпадает с весовой функцией h(t - к) фильтра Винера - Колмогорова. ias
В теореме 3.2.4 не предполагается устойчивость уравнения (2.32). Если это уравнение устойчиво, то второе и третье условия теоремы 3.2.4 выполнены автоматически, а устойчивость матрицы (2.38) следует из теоремы 3.2.2. Замечание. Из доказательства теоремы 3.2.4 следует, что можно устанав- ливать различную близость оценок xr+iGo, О и xr+Г)- Так, предпо- лагая ограниченность процесса {уг} в среднеквадратичном, supJW|b|2 (2.39) Г получим оценку Л Л , / C,.C(t)p \ 2 Л/|х,+ 1(-°о /)-Xf+1(ro, 01 < Ц--------- , (2.40) \ 1 -р ! где р - спектральный радиус матрицы (2.38) и C(t) - убывающая до нуля при функция, определяющая скорость стремления Kt к Км. Если вместо (2.39) имеется равномерная оценка sup |yt | < Су, где Су - детерминированная постоянная, то получим неравенство A A pCyC{t) I*г+1 (-°°. /)| < —-------, (2.41) 1 -Р выполняющееся с вероятностью 1. Неравенства (2.40), (2.41) позволяют сравнивать оценки, доставляемые фильтрами Винера - Колмогорова и Кал- мана — Бьюси. 3.2.7°. Фильтр Калмана — Быоси в задаче отслеживания дрейфа парамет- ров динамического объекта. В § 2.4 рассматривалась задача об иденти- фикации динамического объекта. Эта задача значительно усложняется, если параметры объекта изменяются во времени по неизвестному зако- ну (или дрейфуют во времени). Предполагая, что изменяющиеся парамет- ры представляют собой марковский гауссовский процесс, можно попытать- ся получить их оценки с помощью схемы оценивания п. 2.3.5°. Остановимся на этом вопросе подробнее. Будем предполагать, что объект описывается нестационарным уравнением a(V,rf)yt = b(V,Tf)uf + uf, (2.42) где vt — независимые с.в. с плотностями вероятности(y\t\ полиномы а (X, т), b (X, т) имеют вид (2.4.2), но векторный параметр т, от которого зависят коэффициенты этих полиномов, изменяется во времени. Осталь- ные обозначения те же, что и в § 2.4. Уравнение (2.42) рассматривается при t = 1,2,... . Начальные данные предполагаются с.в. с известными плотностями распре- деления. Будем предполагать, что эволюция параметра rt во времени опре- деляется уравнением rf+1=Frrr + w+1, /=1,2,..., (2.43) где/7,— детерминированная матричная функция времени f,(wr) — с.в., независимые между собой и со с.в.{иг)и имеющие плотности распреде- ления pw (т | 0- Предполагается; что управление {информируется с по- 186
мощью уравнения Wr = Ur(4fr+‘i>/r+i) + fr. <244) где Ur - детерминированная функция своих аргументов и{ег}- с.в., незави- симые между собой и с{иг}и имеющие плотности распределения р€ (и | t). В каждый момент времени Г, t = 1, 2,..., предполагаются известными величины./г+1,и'г+ vPv(y\t),pw (т|Г),Р^ (^10- По этим данным требу- ется получить оценку f,измеримую относительно с.в. / , и* г+ и ми- нимизирующую функционал 1 J, (?) = Л/{I? - 7,| Vг +,, <+ .} • (2.45) Таким образом, приходим к задаче, близкой к задаче отслеживания дрейфа экстремума нестационарного функционала, сформулированной в п. 1.1.10°. В соответствии с результатами п. 1.3.1° оценка т = тт имеет вид Tt = М{тт\у'г+1} = !трт(т)(1т, (2.46) гдерг (т)=рг(т|/г+1,/г+1) — апостериорная плотность вероятности с.в. Tt при произведенных наблюдениях у[г+гиг_г+ х- Итак, получение наилучших в среднеквадратичном смысле оценок связано с нахождением апостериорной плотности pt (г) с.в. Tt. В общем случае задача определения плотности pt (т) сложна. В § 2.3 была рассмотрена схема получения рекуррентного соотношения для pt (т) в предположении марковости процесса rf (см. теорему 2.3.1 стр. 103). Определяемый уравнением (2.43) процесс является марковским, но в данном случае ’’полезный сигнал” sr (rt) = [ 1 - а (V, ТГ)] yt + b(v,Tf)ut (2.47) зависит от предыдущих наблюдений и потому не является детермини- рованной функцией параметра тг. Покажем, что несмотря на это, для плот- ности pt (т) справедливо рекуррентное соотношение типа (2.3.13), которое явилось основой для получения в п. 2.3.5° рекуррентной процедуры оценивания. Вейлу формулы Байеса для совместной плотностир С/r+j, wLr+j, rf) распределения с.в. / r+ t, и[ г +1, т{ выполняется соотношение р (/г+ г uLr+1 > п')=р («rl/r+1, 1 > )х х р (yAyL~+i. и_!г~+\’т1)р (тИ/_7+г “7+* - т«' *>х хр(/;+г“7+11’г*,_1)- (2.4S) В силу соотношений (2.44), (2.41), (2.43) с учетом обозначения <2.47) имеем Р (ut I/ г+ 1. Л\ , т{ ) = (U, - U , ), р (yt 1 > 1 >т»)=р» ~ (2-49) Р <Tt 1)17+1 ’ "-Л’ ’ Т‘ ~ ’ ) = Pw (Tf “ Ft - 1 Tt - 1)’ 187
где для краткости положено Ur = Ur (и*_’Д , sr = sr (тг) инеуказывает- ся зависимость плотностейот времени t. Учитывая, что Р(/г+1’М1г+ГГГ> = /- •/P(Xr+1-MIr+i’Tl)Jrl I* <2-50) из (2.48) с использованием формул (2.49) найдем: РОЛ+гм7+1-гг) = = Pv (Уг ~ S^PeXUf - Ut) fp„. l Tt - C*dTt- 1 X Xf.../Р (/ • «7+’| • T1 ” 1 ) dTl • • • - 2 = Pv (>’t - b)X X ?e (l/t - U, ) fpw (rf - _ 1 Tf ! )P (/Д1!, «7+*! ’ T, - 1 )£?Tf _ ! (2.51) Вновь воспользуемся формулой Байеса, согласно которой Pt (?г) = Qp(y'r+l,u'r_hl,Tr), (2.52) гаеС~1 =f р (y^r+f,u'r+t,Tf) (/тг. Подставляя (2.52) в (2.51), найдем Pt (?t) = С, С~pv (yt -sr)pe(ur-Vr)X XfPw (Tf-Ft-l t?-i)A-i Or- 1)^-1- Величина Ct C,L i не зависит от rt и является нормировочной постоянной, определяемой условием /Рг (т)</т= 1. Производя соответствующее вычисление, получим искомое рекуррентное соотношение Pv (yt~st)Pe (“t - Ur)/P»v (Tr-/-’r-l’’r-l)Pr-lOr-l)^-l р, (т,) =-------------------------------------------------- ttPv(yt - St)Pe(ut- Vf)pw(Tt ~Ft_ tTt_t)pt. 1(тг_ t)dTf. idrt /=2,3,.... (2.53) Как и в § 2.3, для плотностир! (г,)получим Ре(И1 -UiIMn -^)Р(п)Р(У°гЧ.гЦ°^1) 4) Pl Ti fPe(Ut - Vt)pu(yt-Si)p(Ti)p(y^r+l,u\+l)dTi' Соотношения (2.53), (2.54) вполне аналогичны соотношениям (2.3.13), (2.3.14) и используют лишь марковские свойства процесса{rt} и независи- мость помех {ur}, {wf} , {ef}. Предположим, теперь, что плотности pv, pw, а также начальная плотность р (tj ) - гауссовские и Р„ (• ю a2v 0)1, Pw (• | О [о, Rw (0], Р01)~^(7,/?т), дисперсия (0, матрицы ковариаций Rw (О, RT и вектор т предполагают- 188
ся известными. Далее, будем предполагать, что величина (2.47) линейна по т.е. Sr(Tt) = $f rt + (2.55) где Фг — вектор-строка и <pt ~ скалярная величина, определяемые велич и - намиВ этом случае приходим к схеме, рассмотрен- ной в п. 2.3.5°. Из формулы (2.54) следует, что при сделанных предполо- жениях pi (ti) - гауссовская плотность, поскольку в правой части (2.54) OTTi зависят лишь гауссовские плотностиpv (yi - - Ф1 тг) ир(т1). Аналогично, из (2.53) следует гауссовость плотности (rf), поскольку в правой части от Tt зависят гауссовские плотности pv - st (rf)] и pw (rt - — Ft j Tt _ j). Поэтому, как и в п. 2.3.5°, можно записать Pt (т) = (2it)m,2(det Р'У* ехр(- — (т - Tt)'Pt~' (т - тг)} , (2.56) где rt = S тр,(т)с1т, (2.57) Pt = f (т - Tt) (т - те)* Pt(r)dr - среднее значение и матрица ковариаций гауссовской плотностиpt (т). Повторяя доказательство теоремы 2.3.3, можем написать рекуррентные соотношения, которым удовлетворяют векторы ft и матрицы Pt. Эти урав- нения имеют вид фильтра Калмана-Бьюси тг+1 = Pt Tt + &t i - <£r+1 - Ф/+1 Pt TrJ, (2.58) Л+! = (/ - Kt фг+!) [Ft pt f;+rw (t +1)], где Kr - калмановский коэффициент усиления, Kt = [F, Pt Ft* + Rw (J + 1)] ф;+ Д Pv (t + 1) + + Ф,+ ! [F,Pt F* + Rw (t + 1)] ф;+ ,).” (2.59) Рекуррентная процедура (2.58), (2.59) рассматривается при следующих начальных условиях: п=а [ФГ^анп-^и/г; т], (2.60) A = RT-RTФГ [А, (1) + Ф! RTфг]-1 ф, rt, вытекающи/из (2.54). Как следует из первой формулы (2.57), доставляемая процедурой (2.58)-(2.60) оценка т, совпадает с оптимальной оценкой (2.46). При выборе начальных условий,отличных от (2.60), доставляемые процеду- рой (2.58)-(2.59) оценки тг отличны, вообще говоря, от оптимальных оценок (2.46). Как и в теореме 3.2.3, можно установить условия, при ко- торых оценки, доставляемые процедурой (2.58)-(2.59), будут при t -► 00 сходиться к оптимальным оценкам (2.46) независимо от выбора начальных данных. Эти условия теперь будут касаться также свойств обрат- ной связи (2.44), формирующей управление в объекте (2.41). 189
Уравнения фильтров (2.58)-(2.59) и (2.13), (2.17), (2.15) отличают- ся, поскольку в п. 3.2.3° искалась оптимальная оценка с прогнозом на такт вперед, тогда как здесь строилась оптимальная оценка без всякого прогно- за (т.е. решалась задача собственно фильтрации). § 3.3. МИНИМАКСНАЯ ФИЛЬТРАЦИЯ Рассмотренный в § 3.2 фильтр Калмана-Бьюси позволяет получить обос- нованные оценки при специальных предположениях о характере стохасти- ческих помех (центрированность, некоррелированность и т.д.). Интересен вопрос о ’’грубости” фильтра по отношению к этим свойствам. В приложе- ниях обычно о выполнении тех или иных стохастических свойств можно го- ворить лишь как о более или менее обоснованной гипотезе, и поскольку ’’будущее есть будущее”, никакое изучение случайного процесса на конечном интервале времени не превращает эту гипотезу в достоверный факт (хотя, возможно, результаты наблюдений могут привести к ее опро- вержению). Поэтому крайне желательно, чтобы свойства оценок не изме- нялись существенным образом при малых отклонениях свойств реальных процессов от сделанных априори предположений. Таким образом, речь идет о выяснении свойств грубости конкретных алгоритмов оценивания. Ниже показывается, что фильтр Калмана—Бьюси дает ’’разумные” оцен- ки и в случае помех, не обладающих полезными статистическими свойства- ми. Тем самым выясняется грубость фильтра по отношению к определен- ным отклонениям от предписанных в § 3.2 свойств помехи. В основе теории фильтрации Калмана-Бьюси лежит линейность соотно- шений, порождающих оцениваемый и наблюдаемый процессы. Отметим, что при оценивании состояния нелинейных систем иногда наблюдается явле- ние расходимости фильтра Калмана-Бьюси, когда доставляемые им оценки не несут полезной информации о свойствах оцениваемых величин. Другими словами, по отношению к ’’возмущению” модели процесса (в классе нели- нейных моделей) фильтр Калмана-Бьюси грубостью не обладает. Исследование свойств фильтра Калмана-Бьюси в этом параграфе прово- дится методом, отличным от § 3.2. Метод основан на Сведении задачи оце- нивания к задаче оптимального управления, сопряженной исходной задаче. Разумеется, такой подход вполне возможен и в случае стохастичес- кой помехи. 3.3.1°. Постановка задачи. Рассмотрим задачу оценивания состояния xt линейного нестационарного объекта X/+1 =f'tXl + wt+l (3.1) по наблюдениям за выходом у, = Ф, х, + vt (3.2) Состояние и наблюдаемый выход предполагаются векторными величина- ми, принимающими значения в соответствующих евклидовых пространст- вах, наблюдения yt производятся на конечном промежутке [1,1]. Квад- ратная Ft и прямоугольная Фг матричные функции предполагаются извест- ными, действующая на объект (3.1) помеха{wt} и помеха наблюдения {vr} - неизвестными. Неизвестно также начальное состояние*! объекта 190
(3.1). Таким образом, априорная неопределенность об объекте и условиях его функционирования заключена в наборе ST = (*1, и/2г+1 ), где, как обычно, = col (и>,..., vT), wf*1 = col (w2,..., wr+ j). Пред- полагается, что 8 т ^GT~[g.X\R^X\ + S (u* R21 Vf + w*+ i Rj wf +1) Гр}, (3.3) r= 1 rne/?h/?2-^3 - неотрицательные весовые матрицы игг- заданная посто- янная. Множество Gт называется множеством неопределенности задачи оценивания. Некоторые из матриц/?/, /=1,2,3, могут вырождаться либо даже быть нулевыми. В этом случае предполагается, что соответствующие переменные принадлежат области значений этих матриц, так что входя- щие в (3.3) выражения имеют смысл. Например, если R3 = 0, то wt = О, т.е. на объект в этом случае помеха не действует. По данным наблюдения у[ = col (у i,. .. , у т) требуется оценить в мо- мент времени Т + 1 состояние объекта (3.1). Оценки ищутся линейные, т.е. хт+ 1 = (3.4) /= 1 где ht = h (Т + 1, t) - весовая матрица фильтра. Оценка (3.4) должна быть наилучшей в смысле минимизации функционала W gT^T l*r+i-*r+il2. (3.5) т.е. критерий качества оценки хг+ j является минимаксным. 3.3.2°. Двойственность задачи оценивания и оптимального управления. Рассмотренную в § 3.2 задачу можно было бы решить и другим способом, рассматривая ее как задачу минимизации квадратичной функции при линей- ных ограничениях, определяемых уравнениями объекта и наблюдениями. В силу теоремы двойственности можно тогда перейти к эквивалентной зада- че для сопряженных переменных, которая оказывается задачей оптималь- ного управления некоторой линейной детерминированной системой при квадратичном функционале качества. Решение последней задачи хорошо изучено, и оптимальное управление реализуется в виде линейной обратной связи. Последнее обстоятельство почти непосредственно приводит к рекур- рентным соотношениям фильтра Калмана-Бьюси.Отмеченная дуальность между задачей оценивания состояния линейного объекта и задачей опти- мального управления лежит в основе подхода Калмана к проблеме оценива- ния и была обнаружена в первых работах, посвященных рекуррентному оцениванию. Оказывается, приведенная схема может быть реализована и в случае минимаксных оценок. Ниже приводится ее подробное описание. В данном случае двойственность задач оценивания и оптимального управления вскры- вается в следующем утверждении. Теорема 3.3.1. Задача нахождения наилучшей в смысле (3.5) линейной оценки (3.4) состояния системы {ЗА}4по наблюдениям (3.2) эквивалент- ах
на задаче нахождения весовой функции hr фильтра из условия =inf, (3.6) Qt (М где \>т~ наибольшее собственное значение матрицы QTi QT-Z* Rx Zx(htR2Kt+Zt\xR3Z„x), (3.7) t-1 и квадратные матрицы Zt определяются из уравнений f* zt^ =/г + ф;л;, г= т, г-i, ..., 1, (3.8) zt+ 1 = А / - единичная матрица соответствующей размерности. 3.3.3°. Линейность оптимальной стратегии управления. Рассмотрим зада- чу оптимизации управления объектом zz+1 =Htzt + Vtut (3.9) при квадратичном функционале качества т- 1 Иу 2} (zj Q\ zf + иf @2 ht)y (3.10) t-о гдеQq, Q\,Q2 ~ неотрицательные симметричные матрицы,zt - вектор со- стояния объекта управления, иг - вектор управляющих воздействий. На- чальное состояние z0 предполагается заданным. Пусть допустимые стратегии (способы формирования) управления тако- вы, что ut является функцией Zq, Допустим, что разностное управление Риккати St = H*tSt^Ht + Qx - г, [Q2 + r;sf+1 г,]-1 rt'st+xHt (з.и) с начальным условием S7=2o (3.12) имеет решение, которое является неотрицательно определенной матрицей при всех 0 < t < Т, причем Q2 + Г/ Sr+ j Гг > 0. При сделанных предполо- жениях хорошо известен следующий результат. Лемма 3.3 1. Существует единственная стратегия управления ut = -Ltzty (3.13) L, = (а + г; s,+! г,)-1 г; s,+, я„ (з л 4) которая минимизирует функционал (3.10). Минимальное згачение функ- ционала вычисляется по формуле minH/r = Zo Sozo. (3.15) и 3.3.4°. Рекуррентное соотношение для оптимальной оценки. Если для произвольного вектора а ввести обозначение zt -Zt- t+ 1 а> (3.16) 192
то умножением системы (3.8) справа на а и введением обозначений WT = a*QTa, Ht"FT-t, (3.17) Qo=^i, Qi =^з, Qi = ^2 от оптимальной задачи (3.7), (3.8) приходим к задаче (3.9), (3.10). Убе- димся в выполнении условий леммы 3.3.1. Пусть 5f_f=s,+ 1 -s,+ 1 где2 +r;sf+1 rfr г,*$,+ 1. Используя матричное тождество (2.20), получим + г;о;‘ гг> и, следовательно, уравнение Риккати (3.11) можно записать так: s,=Gi+tf;6+il#r. Если матрицы Qo = и Q2 = R2 - положительны, то матрицы St оказыва- ются неотрицательными при всех Г, а потому матрицы Q2 + Г* St+ t Г, при всех t — положительны. Таким образом, при 7?i > 0, R2 > 0 выполнены ус- ловия леммы 3.3.1. В силу этой леммы л;=к;гг+1, (3.18) где Kt=FtPtVt [R2 +ф,лф;Г, (3.19) Р, = Sr-r+i (3.20) и5, удовлетворяет уравнению (3.11) с начальным условием (3.12). Представление (3.18) для оптимальной весовой функции лежит в осно- ве вывода рекуррентных уравнений фильтрации. Сформулируем оконча- тельный результат в следующей форме. Теорема 3.3.2. Пусть матрицы RlfR2t характеризующие множество неопределенности (3.3), положительны. Тогда наилучшая в смысле (3.5) линейная оценка (3.4) состояния системы (3.1) по наблюдениям (3.2) удовлетворяет разностному уравнению ?r+i = F,x,+K, [jf - Фгх,], (3.21) где Кt определяется формулой (3.19) и pt+i=Ftp,F; +R3-Ftpt ф; к; , <3.22) Х!=0, (3.23) Л=Л1. (3.24) При этом |=.,rXPrt,. (3.25) гдеХрг+1 - наибольшее собственное значение матрицы Рт+ ь формируе- мой соотношениями (3.21), (3.22), (3.19). Соотношения (3.21), (3.19), (3.22) полностью совпадают с уравнени- ями фильтра Калмана - Бьюси, полученного в § 3,2 в предположении 193
белошумности помех{иг} и {wr}. Разумеется, определяемая формулами (3.19), (3.22) матрицане является, вообще говоря, ковариационной матрицей ошибки оценивания, как это было в § 3.2, поскольку в урав- нениях (3.1), (3.2) помехи {vr} и {wt} могут не иметь вероятностного истолкования. Как следует из (3.25), матрица Pt и в данном случае харак- теризует ошибку оценивания (в минимаксном смысле). 3.3.5°. Оценивание параметров полезного сигнала на фоне нецентри- рованной помехи. Применим полученные выше результаты к тому частно- му случаю, когда уг = Фгт + иг, (3.26) т.е. когда ’’состояние” т объекта не изменяется во времени. Соотношение (3.26) будем интерпретировать как уравнение канала наблюдения, в кото- ром полезный сигнал зависит от неизвестного векторного параметра т. В каждый момент времени t значения величин X, Ф{ предполагаются из- вестными и могут быть использованы для оценивания неизвестного векто- ра параметров т. Неопределенность условий функционирования в момент времени t заключена в наборе gt = (r,v{). (3.27) Предположим, что gt € Gt, где множество G, определяется условием Gt=]T;v{: |т|2 + S и*<СиЧ) (3.28) * k=l ) с заданной постоянной Cv. Оценка rt векторного параметра т ищется в классе линейных: тг= s h(t,k)yk, (3.29) к = 1 весовая функция h (t, к) фильтра (3.29) определяется из условия миниму- ма функционала Wt(h) = sup |r,-ri2. (3.30) St G Gt Нас будет интересовать вопрос о поведении оценок тг при t -+ °°. Для простоты ограничимся случаем, когда величины у h vt - скаляр- ные и, следовательно, Ф, - вектор-строка. В соответствии с теоремой 3.3.2 оценки rt удовлетворяют рекуррент- ному соотношению, которое запишем в виде Tt = Tt-\ +Vt-,1 Ф* Lt (3.31) 7t = Ъ- i - Ъ - 1 Ф^Ф, yr_ 1, ^ = (1+Ф,7г-1Ф;Г*. Рекуррентное соотношение (3.31) рассматривается при начальных условиях 71=0,71=/, (3.32) 194
что обеспечивает следующее свойство оценок: sup |т, - т|2 = Cv 2 Л7 (3.33) gtе Gt где - наибольшее собственное значение матрицы уг. Соотношения (3.31) имеют вид рекуррентной процедуры МНК, полу- лученной в п. 1.4.1° в). В соответствии с леммой 1.4.4 7?1 =/+ S Фк'Фк. (3.34) к=1 Обозначим через X, наименьшее собственное значение информационной матрицы /,= -/+— Z Фк'Фк. (3.35) t t Тогда, очевидно, Л7/> t = X/, и для оценок т,, формируемых соотношениями (3.31), (3.32), справедливо предельное неравенство Um \rt - т|2 < X'1 Cv2 , (3.36) f —> оо где Cv — постоянная, определяющая уровень помехи {vt} (см. (3.28)), и X = Um X,. (3.37) Предполагается, чтоХ>0, т.е. информационная матрица (3.35) предельно невырожденна. Оценка (3.36) может быть улучшена, если сузить класс помех{и,). При- ведем пример возможного улучшения оценки в случае, когда помеха {и,} имеет вид и, = 1Г,+ и„ (3.38) где {~ит} -детерминированная числовая последовательность и {vt}~ после- довательность независимых центрированных с.в. Лемма 3.3.2. Предположим, что выполнены условия: 1. Помеха {и,} имеет вид (3.38),причем U^CQ2, MV2t<o$ (3.39) t к=\ с некоторыми постоянными С-, 2. Вектор-строки Ф, - с.в., в каждый момент времени независимые со с. e.vtuM |Ф,I2 < Сф < °°. 3. Св. (3.37) с вероятностью 1 положительна. Тогда для оценоктр фор- мируемых процедурой (3.31), (3.32), с вероятностью 1 справедлива оценка Ит |тг - т|2 < X'1 С£. (3.40) , —► оо Оценка (3.36) отличается от (3.40) лишь заменой СинаС_,т.е. белошум- ная составляющая помехи (см. (3.38)) не сказалась на оценке. Властности, если{uf}—белошумная помеха, т.е. и, = 0, то в условиях леммы 3.3.2 оценки г, сильно состоятельны. 195
Из доказательства леммы 3.3.2 следует, что оценка (3.40) точна в том <же смысле, что и оценка (3.36), т.е. в классе всех последовательностей {иг}со свойствами (3.39) она не может быть улучшена. Итак, если вернуться к фильтру Калмана-Бьюси, рассмотренному в § 3.2, то можно сказать, что доставляемые им оценки обладают свойством грубости по отношению к свойству центрированности независимых помех: в рассмотренном специальном частном случае фильтра оценки тг сходятся в сколь угодно малую окрестность неизвестного параметра?, если откло- нение от стационарности, определяемое величиной Q2, достаточно мало. Отметим, что при идентификации динамических объектов, уравнение которых записывается в виде (3.26), вектор-строка Фг состоит из набора предшествующих моменту времени t выходов объекта и управляющих воздействий. Это приводит к тому, что величина (3.37) может оказаться зависящей от величины Си, и тогда малость правой части в неравенстве (3.40) при малых Q может не иметь места. Это свойство действительно наблюдается, если в (3.38) отсутствует белошумная составляющая! vt} по- мехи. §З.П. ПРИЛОЖЕНИЕ: НЕКОТОРЫЕ СВЕДЕНИЯ О СТАЦИОНАРНЫХ ПРОЦЕССАХ Последовательность (векторных) с.в. называется стационарным (в широком смысле) процессом, если справедливо представление 1 2я . =------ f е'^с1Ец+%, (П.1) х<27 о где {Ец}- случайный процесс с некоррелированными центрированными приращениями, т.е. при любыхД1<д2 < Дз ^Д4 из промежутка [0,2 я] удовлетворяющий условиям М(Е^~ЕЦх)(Е^~Е^у = 0, (П.2) М(Е„2 -ЕМ1)(ЕМ2-£Д1)*= F(M2)-F(M1), F (д) - монотонно неубывающая (в смысле квадратичных форм) сим- метричная матричная функция, называемая спектральной (структурной) функцией процесса (Ь) • Из формул (П. 1), (П. 2) следует, что 1 2п = t -П’ = — f dF(At), (П.З) 2# о т£. среднее и ковариация стационарного процесса не зависят от сдвига времени. Свойства (П.3) процесса (Sr), как хорошо известно, определя- ют его стационарность. Стационарные процессы } называются стационарно связанными, если совокупный процесс {col(£f, т?г)} - ста- ционарный. Спектральная функция может содержать сингулярную и не- прерывную составляющие: F(g) = FJM) + F2(M). Элементы матрицы F! (д) являются кусочно-постоянными функциями (функции скачков), элементы матрицы Р2(д) - абсолютно непрерывные 196
функции, т.е. при почти всех (по мере Лебега) дЕ [0, 2я] существует производная </Р2(д) 5(д)= } .. . В соответствии с этим спектральную функцию F (д) можно представить в виде F(M)= S AF(M*) + м о где Д F (д*) — скачок функции F (д) в точке д = д к. Из определения функ ции F (д) следует, что матрицы Д F (д*) и S (д) - неотрицательны. С учетом приведенного выше представления спектральной функции формула для матрицы ковариации R {t) запишется в виде R(t) = — 2 е'м*'ДР(д*) +— f” S(fi)dn. 2я к 2я о Множество точек (д^) называется дискретным {сингулярным) спектром процесса множество точек д, для которых 5(д) Ф 0, называется не- прерывным спектром процесса . Если дискретный спектр отсутствует, то матрица S(p) называется матрицей спектральных плотностей (или спектральной плотностью) процесса . Для стационарно связанных центрированных процессов (Пг)» имеющих спектральные плотности, справедливы соотношения =-— f = R(i(t~s), 2я о 1 2ir f = R^(t-s), 2я о. где R$n{t) - матрица ковариации и 5^п(д) - совместная спектральная плотность процессов { Ь}, (Пг} • 311.1°. Пример: процесс с кусочно-постоянной структурной функцией. Пусть — последовательность некоррелированных сз. со свойствами Mxit = 0, = btsRt и {д/с) - произвольная конечная числовая последовательность. Опреде- лим случайный процесс формулой Ед= S xik. цк Тогда случайный процесс 2я к (П.4) будет стационарным с чисто дискретным спектром. В данном случае , 2 Я* = F(M”)-F(M'), м < < м 197
где F(p) = 2 Rk -структурная функция процесса . Функция [F (д ) - F (д )] определяет ’’энергию” процесса, приходящуюся на час- тотный интервал (д', д'']. Очевидно, полная ’’энергия” процесса {оп- ределяется величиной 2я к З.П.2°. Пример: белошумный процесс. Пусть структурная функция стационарного процесса j имеет вид Г(д") - Р(д') = (д"-д')Я> где R — положительная матрица, т.е. матрица спектральных плотностей S(д) = R не зависит отд. Если к тому же процесс{ - центрированный и принимает независимые значения, то он называется белошумным про- цессом (дискретным белым шумом). Матрица R белошумного процесса связана с его ковариационной матрицей следующей из (П.4) формулой = cov ($,$*) = ™ts. (П.5) ЗЛЗ°. Пример: процесс с дробно-рациональной спектральной плот- ностью. Пусть {уг} - белошумный процесс с матрицей ковариаций R и {yt} “ стационарный процесс, определяемый уравнением = b(V)vt> (П.6) где V - операция сдвига на такт назад, Vyr = yt-i> а№, Ь(Х) - поли- номы с матричными коэффициентами, а(\) = / + Xах + ... + Храр9 Ь(Х) = Ьц + X Ь\ + ... + Xr Ьг , где / - единичная матрица соответствующей размерности. Известно, что если полином detа(Х) не имеет корней в замкнутом единичном круге, то уравнение (П.6) единственным образом определяет стационарный процесс {yt}. Вычислим спектральные характеристики этого процесса. Пусть 1 2Я vt = -—• f e'^dE^, (П.7) V 2я’ о гдеМ(Е’д"-Ец)(Ерн - E*M')* = (д” - Д*)Я- Будем искатьyt в виде 1 2я А У' = -= f (П.8) у 2 я о Подставляя (П.7) и (П.8) в (П.6) и учитывая, что7 е,дг=е~,де,А'', найдем 2л f \а(е~*)у(р) - b(e~^)] dE„ н О, о откуда следует У(р) = [^(е’',д)]’1^(е"/д). 198
Таким образом, 12*. У г = “= f е1^[а(е-1^ГхЬ(е-1^) dE^ (П.9) V 2я о Нетрудно убедиться, что формула (П.9) действительно определяет ста- ционарный процесс, удовлетворяющий (П.6). Для структурной функции процесса (П.9) получаем выражение F(M") -F(g') = / [а(е-^)Г,Не-^)/?^(е-^)]* X м' Х{[а(е-*)Г}* <Уд, (П.10) т.е. процесс yt имеет спектральную плотность = [а(Х)Г^(Х)^(Х)*[а(Х)*Г1. (П.11) Элементы матрицы 5Г>?(Х) имеют вид отношения полиномов комплекс- ного аргумента X, т.е. являются дробно-рациональными функциями. При | Х| = 1 матрицаSyy (X) положительна. Имеет место обращение подобного рода: всякая дробно-рациональная матрица Syy (X), положительная на единичной окружности, является спек- тральной матрицей некоторого центрированного процесса. Если эта спек- тральная матрица имеет вид (П.11), то этот процесс может быть реализо- ван как выход устойчивого фильтра (П.6), на вход которого поступает белошумный процесс с матрицей ковариаций/?. ЗЛ.4°. Дискретное преобразование Фурье. Матрицы ковариаций ста- ционарных процессов и соответствующие спектральные плотности связаны соотношениями (П.4). Вводя комплексную переменную X = есоотношения (П.4) удобно переписать в виде 1 t dX 2я< Х (ПЛ 2) 1 , <7Х 2я» X где $ — интеграл на единичной окружности, ориентированный так, что #<7Х/Х = 2тп, и Предположим, что матричная функция 5^ (X) разлагается в ряд Фурье Sft(X)= 2 (ПЛЗ) к = и этот ряд сходится равномерно по X в области 1 - е < | Х| < 1 + е при некотором е> 0. Умножая (ПЛЗ) на Х~г и интегрируя по единичной окружности, найдем ~#X-fSu(X)^= 2 -L(O-'+fc-^-]Su(fc). 2я/ X *=-«> 2тч X 199
_ , , U Л A Поскольку f \ — = 2я/ 8tk, то убеждаемся, 4toS$$ (г) = (t). X Таким образом, формулы (ПЛ 2) определяют обратное преобразование Фурье. Прямое преобразование (ПЛЗ) можно переписать в виде SU(X) = S Х*ЯН(*). (П.14) к= — °° Покажем, что матрица спектральных плотностей неотрицательна при I Х| = 1. Пусть а(Х) - произвольная детерминированная вектор-функция, для которой справедливо разложение а(Х) = S Xkaki (ПЛ 5) к = —«о причем ряд сходится равномерно в е-окрестности единичной окружности. Рассмотрим S S a*kR(k - s)as = М | S l*as | 2. (П.16) 5 к S С другой стороны, в силу первой из формул (ПЛ 2), (ПЛ5) имеем 1 JX . , Ъ a*kR(k - s)as = ——f—— Z ^k+sa*kSa (k)as = $ к 2 TT I X s, к 1 d\ =-----f — a*(X)5u(X)a(X). (П.17) 2tti X Здесь учтено, что X"1 = X*, те. | Х| = 1. В силу произвола вектор-функции а(Х), из (П.17) , (ПЛ6) следует л(Х) *SU (Х)а(Х) > 0 при |Х| = 1. Это и означает неотрицательность матрицы (X) при | Х| = 1. § З.д. ДОКАЗАТЕЛЬСТВА ЛЕММ И ТЕОРЕМ 3 Д.1°, Доказательство теоремы 3.1.1. Рассмотрим величину 1 ~ . d X — f Я(Х)П(Х)ЯТ(Х-‘)Х . (Д.1) 2 я/ X Функции П(Х), ЯГ(Х-1) - голоморфны в единичном круге, функция Х-/ Н(X) также голоморфна в единичном круге, так как рассматривается /-фильтр. Поэтому в силу теоремы о вычетах интеграл (ДЛ) равен вычету функции Х"/Я(Х)П(Х)ЯГ(Х'1) в точке X = 0. Но согласно (1 18) lim R? (X 1) =0, т.е. интеграл (ДЛ) |Х|—0 равен нулю. По аналогичным соображениям — j х'К_(Х) П 7 (X’1 )Н 7’(Х‘|) — = 0. (Д.2) 2тп X 200
Учитывая (Д.1), (Д.2),перепишем (1.12) в виде Ji = / 1Я(Х)П (X) - X' R + (X) ] [//(Л"1) П (X-1) - Х~ + (X-1) ] г"~+ 2т X 1 г . d\ + N-----f Л_(Х)ЯГ(Х’’)—• (Д.3) 2 ni X Первое слагаемое в (Д.3) неотрицательно, второе и третье не зависят от Н(X). Поэтому оптимальная передаточная функция должна обращать в нуль (в нулевую матрицу) первое слагаемое в (Д.З), что и приводит к (1.19), (1.20). Передаточная функция X“z Н(X), как следует из (1.19), голоморфна в единичном круге, т.е. формула (1.19) определяет / -фильтр. ЗД.2°. Доказательство леммы 3.1.1. Множество (Я(Х)) д.-р.ф. можно рассматривать как гильбертово пространство со скалярным произведением 1 t d\ Я2> = —(Х)//2 (Л1) . 2ni X В этих обозначениях формула (1.66) запишется в виде _ |<Я(Х), G(X"l)>l2 *7вых(0 ~ ~ » <Я(Х), Я(Х)> где G (X) имеет вид (1.69). Максимизация 4ВЫХ (г) в классе произвольных д.-р.ф. {Я(Х)} имеет простой геометрический смысл: с точностью до нормировочной постоянной выполнено равенство Я(Х) - (/(X"1), что приводит в силу (1.63), (1.65) к формуле (1.67). Пусть теперь Я(Х) - устойчивая д.-р.ф. Тогда, представляя G(X) в виде (1.70), как и при доказательстве теоремы 3.1.1. убеждаемся, что 1 JX — ftf(X)G+(X)— =0 2ni X и, следовательно, _ |<Я(Х),С_(Х"1)>12 *7вых(0 ~ z • <Я(Х),Я(Х)> Максимизация по Я(Х) полученного выражения приводит к формуле (1.68). ЗДЗ°. Доказательство теоремы 3.2.1. Введем ошибку оценивания ef = xt (г0, t - 1) - xt. (Д.4) Используя (2.13); (2.5), убеждаемся, что €t удовлетворяет уравнению ef + i= [F,-K^t]et + Krvt - w,+1. (Д.5) Учитывая (Д.5), убеждаемся, что матрица (2.16) удовлетворяет соотно- шению (2.17). Установим связь матриц Kt и Pt. Для этого введем с.в. rit=^txt. (Д.6) 201
Тогда МУкУз = Myk(ris +vsy = Мукп’ +Mykv' = Mykrj' + Rv(s)8ks. Поэтому из (2.8) при г j = t + 1 получаем t Mxt + Vy*= S h (t + \,k)Mykn's + h (t + 1,$)Яи(5)> s=tOi...,t. k—t 0 Выберем здесь s = г. Тогда t + = 2 Л (r + \>k)Mykii* + h (t + l,r)flv(r). к — t 0 HoMxt + ly* = Afxf + 1(nf + u,)* = Mxf+17j* и потому M[xf + i -Xr + i('o.')]n‘r = h(t + l,t)Ru(f). (Д.7) Далее, используя (Д.5) и учитывая (Д.6), находим M[xf + i -x, + iGo.OJn’ = -Met + iyt = -—[Ft -Kt&t]M etiTt-KtM vtri* + Mwt + lr]‘ = = -[F,-К,Ф,]Ме,х;Ф;. (Д.8) поскольку Mvtrit = 0, Afwr+1i7* = 0. Учитывая, наконец, равенство Afetxt (to> t - 1)* = 0, получим Af €tx* = M€t [xr - xt (tQi t — 1)] * = -Pt> что с учетом (Д.7)^ (Д.8), (2.16), (2.14) приводит к соотношению КМ) = [Ft-Kr$t]P&. Разрешая его относительно Kt, приходим к (2.15). Теорема 3.2.1 доказана. ЗД.4°. Доказательство теоремы 32.2. Покажем, что неотрицательная функция -z*StL\Ztt (Д-9) где St - Pt-W М) + ФЛФГГФЛ, (Д.Ю) убывает на траекториях системы z, + 1 = [I (Д.11) Здесь Kt = ЛФИли(О + ФЛФгТ1- (Д12) Из (Д.11), (Д.12), (2.15) следует, что решениеxt уравнения (2.29) опре- деляется через zt по формуле xt = Ft_x ztt t = 1,..., Fo = L (Д.13) Воспользуемся формулой s;1 = pf-1 +Ф;ли(О’1Фг, (ДЛ4) следующей из (Д.10) применением матричного тождества (2.20). Из (Д.14) следует, в частности, положительность матриц St. Для функции 202
(Д.9) имеем b+is z,’+i [/7* + ♦;Ли(гГ'Фг]г, + 1 = z;+1P,-'zz+1 + + г;+1Ф;Яи(г)_1Фгг,+1 = z^P^Zt + i —г*+1Ф*К1)(г)~1Фг2г+1 + + 2г;+1Ф;Ли(г)-,Фггг + 1 « z,’+1Pf“1zf+1 -zf%^;/?w(O-,*rZf+1 + + 2z*+i[Sf* — Pf 1 ]zt +1 = — z*.nPt 1 zj+j + 2Zf+^Sf Zf + i — В силу формул (Д.12), (Д.10) справедливо равенство I-кгФ, = StP~'. (Д.15) Учитывая (Д.11) и вводя обозначение Ut = zr + 1 - Ft-iZt, (Д.16) получим Vt + i = -zf*+^/?v(0-^fzr + l -zr%iPr'*zr+1 +2z’,Ff*_1P/1zf + 1 - ~z*F*-i^t lFt-iZt + z* F*_\Pt lFt-iZt - = -2г\1Фг,Ри(г)~1Ф,гг + 1 - u*tPt~lut +z;Ft*^iPt~lFt_lzt. Формулу (2.19) с учетом (Д.Ю) можно записать так: Pr = Fr_15r_1r^1 + /?w(0, (Д.17) откуда следует неравенство Л> (Д.18) понимаемое, как обычно, в смысле неравенства для квадратичных форм. В силу (Д.13) вектор zt принадлежит пространству значений матрицы F, _ t. Учитывая этот факт и неравенство (Д.18), можем записать zt V t, что приводит к неравенству Им ” Vt < - 2f\^f^v(rr^fzf + 1 - u'tPt~'uti (Д.19) т.е. функция (Д.19) убывает на траекториях уравнения (Д.11). Сумми- руя (ДЛ9) и учитывая неотрицательность Кг, убеждаемся в справедли- вости неравенства 2 < ~. (Д.20) Из формулы (2.19) очевидным образом следует неравенство Pt + x<FtPtF't ♦ /?w(r + l) или Л + ^^МоЭЛЛЧМо) + 2 F(r, s)Rw (s + l)F*(r, s), где F(t, s) определяется по формуле (2.27). В силу равномерной по t 203
ограниченности матриц Rw(t) и условия (2.28) из последнего неравен- ства следует ограниченность по t матриц Pt, что означает равномерную по t положительность матриц Pf1. С учетом этого факта из (Д.20) получаем lim ut = 0, что в силу (Д.16) и сильной устойчивости уравнения (2.5) t -* °° влечет равенство lim zr = 0, и, следовательно, в силу (Д.13) независимо t -* °° от выбора начальных данных решение уравнения (2.29) стремится к нулю при t -►«>. Из (Д.20) также следует сходимость ряда ' = 'о Учитывая, что в силу (Д.11) выполняется zf + 1 = [/ -Kt$t]xt, убежда- емся в сходимости ряда '='о Из (Д.12) имеем Ф,к,ф, = Фг-Rv(t) №»(') + фгр,ф;]-‘ф,. Следовательно, выполняется неравенство s xW[Rv(t) + + <~- '='<> Отсюда элементарно следует неравенство (2.30). Теорема 3.2.2 доказана. ЗД.5°. Доказательство теоремы 3.2.3. Пусть Sj, S" - матрицы, отве- чающие по формуле (Д.10) соответственно матрицам Р/, Р/ С учетом (Д.14), (Д.17), (Д.16) имеем s;+1 -s;+1 = s't+1 {[57+1]-’ - [5;+1r*}s;'+l = =5;+l{ip;,+1r1 -(^+iF’js;'+1 = =s;+i = = [/-к;+1ф,+1и,(5; где через kJ, К"обозначены матрицы (Д.12), отвечающие Р/, Р”. Таким образом, s't+l -s;+l = z;+1(s;o - s7e)[z;'+1]*, (Д.21) где Z, + 1 = [/ - K,+ 10f + 1]F, ... [/ - + + Матрица Z, определяет соответствие между начальным данным zt0 и решением z, + 1 уравнения (Д.11). Согласно теореме 3.2.2 iim. Zj = lim Zr"= 0. В силу t — 00 f — 00 (Д.21) получаем теперь lim (5j - s”) = 0, а потому в силу (Д.17) убежда- t -* 00 емся в справедливости соотношений (231). Теорема 3.2.3 доказана. 3.Д.6°. Доказательство теоремы 3,2.4. Обозначим через/(Р) правую часть уравнения (2.36), так что уравнение (2.34) принимает вид Л + 1=ЛЛ). (Д.22) 204
Лемма 3 Д.1. Пусть Rv > 0; Тогда справедливы следующие утверждения: 1) если Р>0, то f(P) > Rw\ 2) если 0 < Л <Р2, то f(J\) < f(P2); 3) если 0 < < Р2, то /(Л) - /(А) < Ф (А) (А - А )Ф ЧА), гдеФ (Р) = Р-Х(Р)Ф, К(Р) = ЕРФ'(ФРФ* + Rv f1. 4) Пусть Pt - последовательность матриц, удовлетворяющая уравнению (Д.22) и условию Pi > 0. Если неотрицательное решение Р уравнения (2.36) единственно, то справедливо предельное равенство (2.35) с Рж = Р. Доказательство леммы. Первое утверждение следует из второго. Утверждение 2) доказывается сначала для положительных Pi и Р2, общий случай устанавливается предельным переходом. При поло- жительных Рь Р2 утверждение 2) следует из формулы /(Р) = Р(Р"! + + Ф*Р~'Ф)~1Е* + RWi проверяемой с помощью тождества (2.20). Ут- верждение 3) следует из соотношения /(А) - /(А) = Ф (А) (А - Р2)Ф *(А) + + [к (А) - Х(Р2)](ФР2Ф* + А>)[*(А) - Х(Р2)]*, следующего из определения функции /(Р): /(Р) = FPF* - К(Р) [ФРФ* + Rv ]К *(Р) + • Если Pi = 0, то Р2 = /(0) > Rw > 0 в силу утверждения 1) . Следовательно, Р2 > Pi. Отсюда следует, что Pt + i> Pt для всех г > 1 в силу утверждения 2). Таким образом, (Рг] - неубывающая последовательность функций, а по- тому существует lim Pt = Р« . Так как 0 = Pj <Р, где Р - неотрицатель- А “* °° ное решение уравнения (2.36), то/(Р) = Р > /(PJ = Р2, а потому/(Р) > >/(Рг) =Рз,т.е.Р, <РиР«> <Р.Так какРг >0,тоР«> > 0,следовательно, Р«=Р. Пусть теперь Pi > 0. Обозначим через {Pt} последовательность матриц таких, что Pt + i =f(Pt) и Pi =0. Тогда в силу утверждения 2) имеем Р, > А. В силу утверждения 3) получаем Pt ~Рг<Ф(А-1).. Ф(А)АФ*(А) .ФЧА-i). Так как по доказанному выше lim А = Р«> и известно [106], что Ф(Р«> )= t 00 = F — К (Роо) Ф - устойчивая матрица, то lim Ф(Р^) = Ф(Роо) и lim Ф(А).. .Ф(А)АФ*(Л) . .Ф*(А)= 0. Поэтому lim Pt = Р«>, что и требовалось доказать. t -* °° Приступим непосредственно к доказательству теоремы. Известно [106], что второе и третье условия теоремы обеспечивают существование и един- ственность неотрицательного решения уравнения (2.36), так что в условиях теоремы 32.4 условия леммы 3 Д.1 выполнены и, следовательно, первые 205
два утверждения теоремы 3.2.4 доказаны. При t > 1 введем матричную функцию Л (Г) = (Д.23) где матрица А определена формулой (238), и обозначим через ДЛП* матрицу Mttk = h(ttk) - h(t- к). (Д.24) Тогда в силу соотношении (2.12), (Д.24) получим ДЛ, + 1,Л = (Л+ДЯГФ)ДЛС* + ДХ,ФЛ(Г-*), (Д-25) где Д/Сг = Кж - Kt и к < t. Согласно доказанному выше lim Д/Сг = О t -* °° и lim h (г, t - 1) = Кж, поэтому из (Д.25) следует lim ДЛ G = 0. t -* °° t —> OO С учетом этого обстоятельства из (Д.25) выводится оценка |ДЛ, + 1.*|<С(г)/>'\ (Д.26) где р ~ положительная постоянная, меньшая единицы (определяемая спектральным радиусом матрицы (2.38)), и C(t) — положительная функ- ция, не зависящая от Л и убывающая до нуля при t Из оценки (Д.26) в силу (Д.24) следует последнее утверждение теоремы 3.2.4, если заме- тить, что Л (г) - весовая функция фильтра Винера-Колмогорова xt (-«>, t - 1) = 2 h(t k)yk = Z h(k)yt_k, к = -<* к-\ осуществляющего прогноз на такт вперед. Отсюда следует, чтоХ« = Л (1), и, следовательно, матрица является ковариацией ошибки оценивания в фильтре Винера-Колмогорова. Оценки (2.40), (2.41) легко следуют из неравенства (Д.26). Теорема 3.2.4 доказана. ЗД.7°. Доказательство теоремы 33.1. В силу (3.8), (3.1) имеем т хт+1 = ^т+1хт+1 = z\x\ + (^Z+i-4 + i ~ Ztxt) = Г = 1 т = Zfxt + 2 [Zf’+1(Ffx, + wf + 1) - Z*xt] = r = l T = Z*tXi+ 2 IZf‘+iWf + 1 + ЛгФ,х,]. t = 1 С другой стороны, в силу (3.4), (3.2) получим xr+i= 2 htyt = 2 (йгФ,х, + htvt). t-\ r=l Следовательно, A T xt+i = Z*xi + + i — (Д-27) r = i 206
Используя матричное неравенство Шварца, из (Д.27) найдем (*т+1 - (*г+1 - хт+1) * < rtQt* откуда sup | ~ *r+i 12 < г т Xqt, (Д-28) g gt Неравенство (Д.28) является точным. Действительно, пусть ат - норми- рованный собственный вектор матрицы QTi отвечающий собственному значению Тогда при выборе jq = ат RiZvaTi ur = -ат R2h*aT , = ат R3ZtaT, где аг = (г т равенство (Д.27) перепишется в виде аг(хт+1 ~ хг+1) = Лт°тйтат = аг ^QT = (гг Л» т.е. sup |хг+1 - xr+1|2 > rT\Q. g •J' EG у * откуда следует,что в (Д.28) имеет место равенство. Теорема 3.3.1 доказана. 3 Д.8°. Доказательство леммы 33.1. Преобразуем выражение ztQqzT + *T-lGiZr-l + Иг*_122«Г-1 = = (Ht-izt-i + Гг_1ыг_1)*$г(Яг_1гг_1 + rr-^r-i) + + ♦ wr-i02wr-i = [Нг_1$тНт_1 + Qi - ST_ Jzt- i + ♦ wr-i [Г/-+ 02]wr-i + zt-i ] ut-i + ♦ ut-l + zJ-__iSr_1zr_1. (Д-29) Выражение в фигурных скобках - неотрицательная квадратичная форма переменных zT_ltuT_lt Представим ее в виде { • )= («г-i + Lt-izt-i)*Rt-i (wr-i + Lr-izr-i)’ (Д-30) где Rt-l “ некоторые матрицы,Rt-i - симметричная, неотри- цательная матрица. Сравнивая (Д.29) и (Д.30), получим, что LT_t и Rr-i можно представить в виде = Я^_15ГЯГ_1 + Qi - STi Лг-1 = Гг-i^rFr-i + 2г» откуда получаем соотношения (3.13), (3.14). Итак, ztQozt + zt- т-1 + -lQluT -i = = («Т-1 + Lr-1ZT-1)* ^Т-1(«Т-1 + ^T-1ZT-1) + zT-l^T-l2r-l‘ 207
Повторяя эту процедуру (Г - 1) раз, преобразуем (3.10) к виду И'г = + Г-1 + Z (ut + LfZf)* [Гг*5г + 1 Гг + Q2 ] + Lt zt), r=i из которого непосредственно следует утверждение леммы 3.3.1. ЗД.9°. Доказательство теоремы 33.2. Подставляя (3.18) в (3.8), будем иметь zt = [f; - Ф;к;]гт^ zT^ = 1. (д.31) Обозначим через ZtiS квадратную матрицу, определяемую при t < s условиями • Zt,s = [г; - Ф* К* ]Zt + it s, Zss =/. (Д.32) Тогда решение системы (Д.31) можно записать в виде Zt = ZtyT^.i. Из (Д.32) следуют очевидные свойства матричной функции Zts: Zt + i, т+1 = + т2т, (Д 33) zr,f+1 = [f;- = f; - ф;*;. Используя эти свойства, перейдем к установлению рекуррентного соот- ношения для хт. В введенных обозначениях оценка (3.4) запишется так: Л г Г-1 xr+i = S Zt + i г+ xKtytt хт ~ S Z*¥lTKtyt. r=i Вычитая эти равенства и используя соотношения (Д.ЗЗ), получим Г-1 хг + 1 - хт = КтУт + (Z* + 1 г+1 - Z* + 1 Г)/Сгуг = Г = 1 Г-1 - Кт Ут г+1 О Z*t + i т Kty t = r = i Г-1 = КтУт + (^т г+1 ~ ^) 2 Z* + ! TKtyt = r = l — КтУт + (^г, Г+1 ~ f )*т = КтУт + (^г — Кт Фт — 1)%т » что совпадает с (3.21). В начальный момент t = 1, когда отсутствуют какие- либо наблюдения, минимуму функционала (3.5) отвечает оценка = 0 в силу симметричности относительно нуля допустимого множества xfFf1 < г т начальных данных. Вычислим теперь наименьшее значение функционала (3.5), или, что то же самое, функционала (3.6). Используя (3.15), имеем min Wт = min a*QTa = z^SqZq = a* Z;+1 PT+tZT+ia = a*PT^\at и {h} где a — произвольный нормированный вектор. Отсюда следует, что при оптимальном выборе весовой матрицы ht матрица Qt совпадает с Fr+i, 208
откуда в силу теоремы 33.1 следует равенство (3.24). Соотношения (3.22), (3.23) являются следствием соотношений (3.20), (3.11), (3.12). Теорема 3.3*2 доказана. ЗД.10°. Доказательство леммы 3.32. В соответствии с леммой 1.4.4 имеем т, = т + Тг S Ф* wit + Тг 2 фк ик > (Д-34) *=1 *=1 где матрица yt определяется формулой (3.34). В условиях леммы в силу теоремы 1.11.2 1 lim — Е Ф* = 0 г — « t к-1 и lim tyt <ХН I. Поэтому последнее слагаемое в (Д.34) с вероятностью 1 г -* °° стремится к нулю, и невязка (т, - т) определяется величиной t ft S' ф*к »к- Рассмотрим вместо (3.26) схему наблюдения Ут = Фгт + vt. Для нее также справедливы рекуррентные соотношения (3.31), в которых вместо yt следует подставить yt. Для так полученных оценок rt справед- ливо неравенство (см. (336)) Tim |? - т|2 < ХНС^ , t оо ' ” где число X определяется информационной матрицей (3.35). (Эта матрица не зависит от схемы наблюдения и полностью определяется данными ФГ). Применяя к оценке ft лемму 1.4.4, найдем, что t т~ = т+ 7t 2 Ф'кйк, к = 1 t т.е. | yt S < XelC-. С учетом этой оценки из (Д.34) следует нера- к-\ v венство (3.40).
ГЛАВА 4 НЕКОТОРЫЕ ЗАДАЧИ АДАПТАЦИИ Часто синтез оптимальных фильтров затруднен из-за отсутствия необхо- димых данных о свойствах полезного сигнала и помехи. Например, может быть неизвестна спектральная плотность стационарной помехи. В подоб- ном положении естественно попытаться совместить процесс собственно фильтрации с процессом восстановления либо оценивания спектральной плотности. Если плотность восстанавливается достаточно эффективно, то с течением времени процесс фильтрации приобретает оптимальные свойства; будем тогда говорить, что фильтр является предельно опти- мальным. Может оказаться недостаточной информация о других свойствах либо параметрах помехи или сигнала, что затруднит синтез фильтра в соответ- ствии с конструкциями гл. 3; тогда говорят, что имеется априорная не- определенность о помехо-сигнальной обстановке. Процесс совмещения оптимальных способов обработки принимаемого сигнала с процедурой восстановления недостающей информации называ- ют адаптивной фильтрацией, если так построенный фильтр обладает свой- ством предельной оптимальности. Только что приведенное понятие адаптивной фильтрации отвечает ин- туитивному представлению об адаптации как о процессе приспособления некоторой системы (в данном случае фильтра) к неизвестным условиям функционирования. Однако это определение недостаточно для форму- лировки точных утверждений. Ниже дается формальное определение адаптивной системы, позволяю- щее отвечать на вопрос: какое ’’приспособление” должно иметь место и в какой степени, чтобы можно было говорить об адаптивности. Формаль- ное определение ’’порождается” наличием систем, которые естественно отнести к классу адаптивных, далее кратко обсуждаются некоторые из них. Более подробно анализируются адаптивные фильтры. § 4.1. АДАПТИВНЫЕ СИСТЕМЫ Определение понятия адаптивности удобно дать для абстрактного объ- екта, функционирующего в некоторой среде и обеспечивающего выполне- ние определенной цели функционирования. 4.1.1°. Модели взаимодействующих объекта и среды. Предположим, что имеется ’’объект”, состояния которого описываются функцией t = = 0, 1, . . ., со значениями в множестве X. Не будем уточнять понятия объ- екта, но примем, что наше знание об объекте полное, если состояние объ- екта известно в каждый момент времени t. 210
Рассматриваемый объект взаимодействует с "внешней средой". Под внешней средой понимается нечто, полностью определяемое функцией z t со значениями в пространстве Z состояний среды. Взаимодействие объекта со средой означает, что состояния среды и объекта могут быть функционально связанными. Уточним характер их возможной связи. Примем, что изменение во времени состояния среды zt (эволюция среды) происходит в соответствии с соотношением zt = Zt(zfQ-\ Г), t =1,2,..., zo=Zo«c), (1-1) где Zq — фиксированная последовательность функций от соответствую- щих аргументов, число которых может изменяться с изменением t. Аб- страктный параметр $с, от которого зависят эти функции, будем интер- претировать как параметр неопределенности; множество Zc возможных значений параметра $с характеризует собой набор ’’внешних сред”, с ко- торыми может взаимодействовать объект. Среда также может оказывать влияние на состояния объекта. Далее нам придется иметь дело не с отдельным объектом, а с некоторым набором объектов. Удобно конкретный объект характеризовать абстрактным па- раметром 5°, множество значений л° которого определяет набор рас- сматриваемых объектов. Примем, что каждый объект функционирует во времени согласно соотношениям xt = 4 Tt, $°), Z=l,2..., x0=X0«°). (1.2) Здесь Xo - фиксированная последовательность функций от соответствую- щих аргументов. Эти функции зависят от предшествующих состояний среды, описываемой состояниями z“, и состояний объекта, определяе- мых значением параметра £°, а также от последовательности г? настраи- ваемых параметров со значениями из множества Т*) . С точностью до последовательности настроек тГ соотношения (1.1), (1.2) задают эволюцию во времени взаимодействующих среды и объекта, определяемых соответственно параметрами $с и $°. 4.1.2°. Стратегии настройки параметров и цель функционирования объекта. Предполагается, что каждый объект может производить выбор настраиваемых параметров (настроек) тГ и тем самым влиять на свою эволюцию. Выбор настроек производится из некоторого множества { г Г} допустимых настроек и направлен на обеспечение пели функцио- нирования объекта. Дадим формальное определение этим понятиям. Настройка параметров осуществляется по типу обратных связей с учетом данных наблюдения, доступных объекту. Будем характеризовать данные о среде и объекте, доступные в моменты времени Г, величиной yt, опре- деляемой соотношениями yt = У,(4, 4, Л-’, О, Г = 1,2,..., у0 = Уо(£, (1.3) В технических системах регулирования уравнение (1.2) может описывать гак называемый обобщенный настраиваемый объект, включающий в себя объект управления и некоторые элементы цепи обратной связи (см. п. 4.2 4°). В роли тг могут выступать, например, коэффициенты настраиваемой обратной связи (коэф- фициенты регулятора). 211
где Уо°° - некоторая последовательность функций от соответствующих аргументов со значениями в множестве наблюдений У, £ - совокупный параметр неопределенности, £ = (£°, £с), £' Е Z = Z° X 3е. Величину yt назовем сенсором объекта в момент времени Настройки rf будем формировать с помощью соотношений Tt = Л0’5, <’), t = 2,3,..., г, = Т}(у'о), (1.4) где ГГ - некоторая последовательность функций со значениями в Г. Последовательность Т“ называется стратегией настройки параметров. Предполагается фиксированным множество Тр = {ТГ} стратегий, которое назовем множеством реализуемых стратегий настройки параметров * *\ Фиксируем в (1.4) некоторую стратегию Т" Е Тр. Тогда в силу со- отношений (11), (1.4) однозначно определятся последовательности х" (£), zq (?) реализации достояний объекта и среды как функции параметра неопределенности £ = (£°, £с). Обозначим через х* ( * ), Zq ( • ) множество реализаций (ансамбль) состояний объектов и сред, отвечающих множеству неопределенности 2 = л° X Zc для фиксирован- ной стратегии Т~. При выборе другой стратегии ансамбль состояний объ- ектов и сред может быть другим. Пусть, наконец, заданы функционал W = И/[хо (), zo ( •), £] (1.5) и постоянная г(£), зависящие от параметра неопределенности £ = = (£°, ?с)***). Целью функционирования объекта, отвечающего параметру £° G Z0, является выбор стратегии ТГ Е Гр, для которой выполнено неравенство ИхГС ), ;?(•), |] < г-‘(П- (1.6) В некоторых случаях (1.6) удобно понимать как строгое неравенство. Функционал (1.5) и постоянную г(£) будем называть соответствен- но функционалом качества и уровнем качества функционирования объ- екта, отвечающего параметру £° и использующего стратегию ТГ настрой- ки параметров. Отметим, что уточнение задания функционала W на мно- жествах реализаций состояний объектов и сред определяет его как функ- В биологических системах сенсор представляет собой набор количественных данных, доставляемых органами чувств (зрение, слух, обоняние, осязание). В тех- нических системах сенсор доставляется измерительными устройствами (датчиками). Сенсорное уравнение (1,3) при этом может описывать работу измерительного устрой- ства. ♦♦) В содержательном смысле реализуемые стратегии должны определяться доступ- ными данными наблюдения (сенсорами) и не должны зависеть от неизвестных ха- рактеристик среды и объекта. ♦♦♦) Значения функционала (1.5) могут определяться не просто реализациями х^°(С), ’Г($) для того нлн иного параметра неопределенности а множеством подобных реализаций. В практических задачах вычисление функционала (1.5) может потребовать применения таких операций, как усреднение по множествам х~( ), z™ (•) (если на них задана вероятностная мера), либо выделение "наихудших” в ан- самблях реализаций и т.д. 212
цию используемой стратегии Т" и, возможно, параметра неопределен- ности £: И'ко ( •), Zo ( •),'!)] =Й>(7'Г,^). (1.7) Запись (1.7) подчеркивает, что функционал качества функционирования объекта G Z° может рассматриваться как функция примененной стра- тегии настройки параметров. 4.1.3°. Определение понятий адаптивной стратегии и адаптивной систе- мы. Каждый объект может обеспечивать цель функционирования выбором ’"своей” стратегии настройки параметров. Нас интересует задача выбора реализуемой стратегии, которая обеспечивает выполнение цели функцио- нирования каждого объекта из множества неопределенности £°. Во многих практических задачах процесс построения такой ’’универсаль- ной” стратегии носит характер ’’приспособления” к конкретным условиям функционирования объекта, часто включает в себя процедуры идентифи- кации либо аппроксимации тех или иных параметров и характеристик объ- екта и среды. Поэтому системе настройки параметров, описываемой урав- нением (1.4) и использующей подобную универсальную стратегию, ес- тественно приписать адаптивные свойства. Эти соображения приводят к следующему определению. Определение 4.1.1. Стратегия ТГ G Тр называется адаптивной в классе Z = i° X ic по отношению к цели функционирования, определяемой функционалом качества И'и уровнем качества г функционирования (или, для краткости, (Тр, W, г) - адаптивной в классе Z), если для каждого $ G Z выполнено неравенство (1.6). Устройство настройки параметров (1.4), использующее адаптивную стратегию, называется адаптивной системой настройки, или адаптером. Объект (1.1) совместно с адаптером (1.4) называется адаптивной систе- мой. Множество неопределенности Z в определении 4.1.1 иногда называ- ют классом адаптивности. В некоторых случаях, когда рассматриваются стохастические объекты или среды, параметр £ или некоторая его составляющая может являться элементарным событием со, при этом на выделенной а-алгебре подмно- жеств множества Г2 = {со} определена вероятностная мера Р. Функцио- нал качества и уровень качества при этом могут быть случайными величи- нами и неравенство (1.6) следует понимать выполненным с вероятностью 1, т.е. оно может нарушаться лишь при множестве параметров j, имеющих P-нулевую вероятность. 4.1.4°. Классификация целей функционирования объекта. Удобно при- нять следующую классификацию целей функционирования в зависимости от выбора уровня качества. 1. Диссипативностъ по функционалу FV: неравенство (1.6) должно выполняться при каком-нибудь уровне качества. В этом случае (1.6) можно переписать в виде Ифо ( ), zo ( ), ?] < (1.8) 2. Стабилизация по функционалу неравенство (1.6) обеспечивает- ся для заданного уровня качества. 213
3. Оптимизация по функционалу W: неравенство (1.6) должно быть выполнено для уровня качества г (О = гопт($) = inf fi/(77°,$) ,где Т д- уточняемое ниже множество допустимых стратегий. 4. Субоптимизация: уровень качества г (у выбирается из условия г(?) = Р’ЧО'-оптЮ. (1-9) где р($) - уровень субоптимальности, р($) > 1. В приложениях дисси- пативность является самой слабой из целей функционирования, в задачах управления она состоит в требовании устойчивости системы управления без каких-либо других ограничений на ее фазовые переменные. Наиболее сложные цели функционирования связаны с оптимизацией (либо суб- оптимизацией заданного уровня). В ряде случаев возможны гибридные цели функционирования: для разных составляющих состояний объекта и среды могут ставиться различные цели. Так, по одним составляющим может требоваться диссипативность, тогда как по другим - оптимизация и т.д. Уточним понятие оптимизационной цели функционирования объекта. Примем, что выделено подмножество Тд = {ТГ} множества неупреж- дающих стратегий, т.е. стратегий, функции Tt в которых не зависят от будущих значений процесса настройки: Tt = Tt(y'Q, тГ1, О, Г = 2,3,..., Т, = О. (1.10) Множество Тд назовем классом допустимых стратегий. Соотношения (1.10) показывают, что допустимые стратегии могут зависеть от пара- метра неопределенности $. Если устройство оценивания (1.4) использует стратегию ТГ £ Гд, то в соответствии с (1.7) функционал качества является функцией стра- тегии Г". Допустимая стратегия ТГ, для которой реализуется наименьшее в классе Гя значение функционала №(ТГ, %), называется (W, ТЛ)-опти- мальной. При этом формула <l(0 = Jnf 1₽(ГГ,5) (1И) 7’«етд определяет оптимальный уровень гопт($) качества функционирования. Таким образом, задание класса Гд допустимых стратегий настройки определяет уровень качества функционирования системы, который тре- буется обеспечить в классе Тр реализуемых стратегий. 4. 1.5°. Замечания. При выборе уровня качества в соответствии с (1.11) адаптивную в смысле определения 4.1.1 стратегию (а с ней и формирую- щую настройки систему) естественно назвать (И< Тр, Т*)-адаптивной в классе S, что однозначно характеризует свойство адаптивности рас- сматриваемой системы. Итак, в адаптивной системе "блок настройки", описываемый уравне- ниями (14), ”не знает” значения параметра неопределенности $ и полу- чает информацию о состояниях среды и объекта опосредованно через сенсоры yt. Тем не менее, он обеспечивает качество функционирования среды, определяемое функционалом не хуже, чем ’’блок настройки” (1.4), использующий (Й\ Тд)-оптимальную стратегию. Именно адаптор 214
(1.4) обеспечивает ’’целесообразное” поведение объекта, способность объекта адаптироваться к априори неизвестным условиям функциониро- вания. В биологических системах функции адаптора обычно выполняет мозг или высшие разделы центральной нервной системы. Если классы Тр и Тд совпадают, то задача синтеза адаптивной стра- тегии сильно напоминает задачу оптимизации. Если последняя имеет одно- значное решение (допускает единственную стратегию), то она либо явля- ется адаптивной стратегией, либо адаптивной стратегии не существует. Однако может оказаться, что существует много оптимальных стратегий, и тогда задача выбора из них адаптивной может оказаться далеко не три- виальной. Содержательность понятия ’’адаптивная система” зависит, разумеется, от конкретного вида функционала И'и классов Z, Тр, Тд. Так, если функ- ционал И7 не зависит от последовательностей х~, Zq, то любая реализуе- мая стратегия адаптивна. Основной задачей теории адаптивных систем является синтез адаптора при различных функционалах И7, классах Тр реализуемых и классах Тд допустимых стратегий. Осуществить такой синтез удается далеко не всегда, законченное решение получается обычно при достаточно специальных предположениях о классе неопределенности Ж, классах Тд и Тр допустимых и реализуемых стратегий, структуре исходных объектов и информативно- сти сенсоров {yt}. Характер этих предположений ниже иллюстрирует- ся на ряде простейших задач адаптации. Для отдельных практических задач адаптивная стратегия реализует сходящиеся настройки, т.е. настройки тГ, у которых существует предел Too = lim Tt, f -► оо При этом диссипативные, стабилизационные и субоптимальные цели функционирования обычно удается достигнуть в классе конечно-сходя- щихся настроек, у которых последовательность тГ достигает предела Too за конечное время (зависящее, вообще говоря, от $). Адаптивные стратегии могут определяться неоднозначно и тогда, воз- можно, возникнет задача выбора ’’наилучшей” из них в смысле какого- либо вспомогательного критерия. В качестве такого критерия может выступать требование простоты технической реализации адаптора, более быстрой сходимости настроек и т.д. Учет этих дополнительных ’’целей функционирования” может привести к рассмотрению адаптора как объ- екта, по отношению к которому исходный объект будет играть роль внеш- ней среды и т.д. Таким образом, возможна иерархия ’’адаптивных систем”, функционирующих в рамках единой системы. § 4.2. ПРИМЕРЫ АДАПТИВНЫХ СИСТЕМ 4.2.1°. Адаптивный классификатор. Рассмотренные в. § 1.1 модели обучаемой и самообучающейся систем -представляют собой адаптивные системы, если соответствующим образом определить цель функциониро- вания и описать условия неопределенности функционирования моделей. Покажем, как это можно сделать на примере детерминированной поста- новки задачи обучения, описанной в п. 1.1.6°. 215
а) Детерминистская постановка задачи обучения. Установим следую- щие соответствия между обозначениями, принятыми в § 4.1 и п. 1.1.6°, а: Г 5° 7* = СО1 (т9\ • • Tt *-* rt = col(rf(1),,.., 4°), Т «-> R', Zc<— Q, Z°«-* R', Z *-+ Rz X Q, z, <— xt (w), xt «-> col (т„ ft [r,, xt (w)]), yt <-* col (fl! [xt (w)l,..at [x, (<*>)], sign/, [r,, xt (co)]). Здесь co — элементарное событие, coG £2. Введем в обозначениях п. 1.1.6° а функцию 1, если х) X r^k^ak(x) < О, 0(Х,Т) = ‘=1 <2Л> О, если //(тф, х) S (х) > 0. Л=1 Пусть W = lim в [xr (со), тг]. (2.2) Функционал (2.2) в данном случае не зависит от ’’ансамблевых” свойств состояний объекта. Поскольку задание со полностью определяет трениро- вочную последовательность xf (со), то функционал представляет собой функцию настроек г Г и параметров тф, со: W - W(rf, со, тф). Выберем в качестве Гд множество всех неупреждающих стратегий оцени- вания параметров, т.е. единственным ограничением на функции 7), входящие в допустимые стратегии, является независимость от будущих сенсоров и настроек: Tt = Ttiyl, тГ1, а / = 2,3,..„ Г, = 7\(у10, О- (2.3) В классе Тд существуют различные W-оптимальные стратегий; например, оптимальной является стратегия настройки вида тг = т#, но она не явля- ется реализуемой, если множество Т возможных значений параметра не состоит из единственного вектора. Поэтому стратегия Tt = не может выступать в качестве адаптивной, поскольку не является W-оптимальной настройкой для обучаемых систем, у которых $° Ф т*. Замечательно, что в классе Тд могут содержаться и адаптивные стратегии. Действитель- но, такую стратегию могут породить конечно-сходящиеся алгоритмы, приведенные в п. 1.1.8°. Условия сходимости конечно-сходящихся алго- ритмов даются, например, в теореме 1.4.1. Для использования этих ал- 216
горитмов существенно, что величина sign [т„, xf(w)] (указания "учи- теля” о принадлежности изображения xf(co) к тому или иному классу изображений) входит в сенсор, т.е. известна. Фиксируя в качестве Тр множество стратегий, содержащих конечно-сходящуюся стратегию (в частности, выбирая Тр = Тд), убеждаемся в существовании адаптивной стратегии настройки. При этом класс адаптивности обычно определяется условиями, обеспечивающими конечную сходимость реализуемой страте- гии. В этом случае можно говорить об обучаемой системе как о (И', Гр, Тл)-адаптивном в классе Т X Q классификаторе. Минимизация функцио- нала (2.2) при этом достигается для каждого !• ё Rz X П, поскольку процедура обеспечивает предельное равенство lim 0 [xr (cj), rj = 0 (2.4) t -* °° при всех со € Q. Соотношение (2.4) как раз и означает, что адаптивный классификатор с некоторого момента времени t* = Г#($) начинает класси- фицировать поступающие изображения xf(cj) в полном соответствии с ’’указаниями учителя”. Поскольку момент t * окончания настройки не- известен, актуален вопрос об остановке процесса настройки (обучения). Напомним, что возможность безошибочной классификации была обес- печена довольно ограничительными предположениями о линейной раздели- мости классов изображений в пространстве признаков. б) Вероятностная постановка задачи обучения. Аналогично может быть описан адаптивный классификатор в рамках вероятностной постановки задачи обучения, изложенной в п. 1.1.6°,б. Именно, введем необходимое соответствие между обозначениями § 4.1 и п. 1.1.6°,б: Г (w, F), £° > т = argmin J (т), 7e/?z Z +-+ Rz X Q X (F) , F <-> Rz, zt xt <(о), xt *-> col (77, т), Ут *-> col (a [xr (w)J, s [xr (w)]). Здесь ! F} - множество возможных распределений на множестве X. Вве- дем функционал качества Ифо ( ), *о (О, 5] = to J(Tt) = _ ♦ г-00 = lim М | (т„ г (х,) - P(X,I z (х,))|2| т, f -> оо зависящий от ’’ансамблевых” свойств среды (так как содержит операцию условного усреднения). Пусть Тд - множество всех неупреждающих стратегий, определенное выше. (W, Тд)-оптимальная стратегия, как не- сложно видеть, определяется соотношениями Ь = т, (2.6) где т - решение уравнения grad J (т) = 0. Так как функционал J (т) за- 217
висит от неизвестного распределения F, то стратегия (2.6) не является реализуемой. Реализуемую стратегию настройки можно построить с по- мощью процедуры стохастической аппроксимации 7f+i =т,-7, [(т„ а(х?) - $(х,)] а(хг), (2.7) где yt — подходящим образом выбираемые неотрицательные числа. Ус- ловия сильной состоятельности настроек rf, определяемых процедурой (2.7), даются, например, в теореме 1.4.2 (стр. 58). Наряду с (2.7) реали- зуемые стратегии могут порождать рекуррентные модификации МНК, рассмотренные в п. 1.4.6°,в и г. Фиксируя тот или иной алгоритм сто- хастической аппроксимации, обеспечивающий состоятельность оценок, приходим к классу Гр реализуемых стратегий. Тогда обучаемую систему вновь можно рассматривать как (W, Гр, Гд)-адаптивный в классе х клас- сификатор, но теперь функционал качества W и множество стратегий Тр отличны от тех, что были в предыдущем примере. Адаптивный класси- фикатор теперь может не обладать свойством безошибочной классифика- ции. Заметим, что функционал (2.5), рассматриваемый как функция реализуемых стратегий, является случайной функцией, т.е. зависит еще и от параметра Поэтому в данном случае неравенство (1.6),определяю- щее цель функционирования, следует понимать с точностью до множества Л ! , имеющего нулевую вероятность в смысле вероятностной меры Р, связанной с пространством £2. Подобным же образом самообучающаяся система может рассматривать- ся как адаптивная в смысле определения 4.1.1. 4.2.2°. Адаптивные алгоритмы оценивания. В § 1.4 и гл. 2 изучались различные алгоритмы оценивания. Рекуррентный алгоритм можно трак- товать как эволюционное уравнение некоторой системы, состояние ко- торой совпадает с формируемой алгоритмом оценкой. Иногда оказыва- ется возможным параметры алгоритма перестраивать во времени, учиты- вая поступающие сигналы с целью, например, добиться улучшения ка- чества оценок, ускорения сходимости и тд. Таким образом, оказывает- ся возможным говорить о цели функционирования системы, определяе- мой алгоритмом оценивания, а также об адаптивности самого алгоритма оценивания. Поясним подробнее эту мысль на примере рекуррентной про- цедуры. р 7f+i = 7, + Y ф О, - s(xt, т,)] gradr s(x„ Tt) (2.8) робастного оценивания, введенной в п. 2.5.8°. Относительно процедуры (2.8) было выяснено (при выполнении пере- численных в теореме 2.5.2 условий, стр. 142), что оценки тг+1 сильно состоятельны. Матричные параметры Гг алгоритма условиями теоремы 2.5.2 не определялись единственно возможным способом, в их выборе оставался значительный произвол. В этом же пункте было показано, что выбор г, = г«) = [0«МГ* (2.9) обеспечивает не только состоятельность оценок, но и минимизирует асимп- тотическую матрицу ковариации оценок (АМКО), т.е. обеспечивает лучшее качество оценок, чем другой возможный выбор коэффициентов. 218
К сожалению, соотношение (2.9) определяет нереализуемую настрой- ку параметров алгоритма (2.8), и можно ставить вопрос о синтезе реали- зуемых настроек, обеспечивающих не только состоятельность оценок, но и минимизацию АМКО. В п. 2.5.8°, а было показано, что выполнение этой цели обеспечивает реализуемая настройка, определяемая соотноше- ниями (2.10) где выбор чисел и матриц At указан там же. Таким образом, если целью функционирования ’’системы” (2.8) выбрать условие минимизации АМКО, то соотношения (2.8), (2.10) определяют (при соответствующих условиях, указанных в п. 2.5.8°) адаптивную систему, адаптор (2.10) в которой представляет собой алгоритм настройки параметров Гг системы. Формальное соответствие с абстрактной схемой, приведенной в начале настоя- щего пункта, достаточно очевидно, и мы на этом останавливаться не будем. Итак, соотношение (2.8) (которое могло представлять собой уравне- ние адаптера для некоторой системы; целью функционирования этой системы могла быть, например, предельно оптимальная фильтрация либо какая-либо другая цель, заведомо выполняющаяся при состоятельных оценках {тг} ) само может рассматриваться как уравнение системы, которая совместно с ’’собственным адаптером” (2.10) является адаптив- ной, обеспечивая минимизацию АМКО в качестве цели своего функциони- рования независимо от значения параметра £ в (2.9). Именно в этом смысле можно говорить об адаптивности алгоритма оценивания (2.8) Возможны и другие варианты алгоритмов оценивания, которые в про- цессе ’’изучения статистики” обрабатываемых сигналов могут перестраи- ваться с тем, чтобы ускорить сходимость оценок. В том же смысле можно говорить и об адаптивном случайном поиске и т.д. Еще раз подчеркнем, что в соответствии с общей схемой говорить об адаптации можно, лишь если указано, что настраивается, с какой целью настраивается, каковы допустимые и реализуемые стратегии настройки. 4.2.3°. Адаптивное прогнозирование. Задача о прогнозировании в ус- ловиях неопределенности естественным образом укладывается в ’’адаптив- ную” схему. Обсудим ее, ограничиваясь прогнозом значения авторегрес- сионного процесса. Оптимальный прогноз в условиях ’’априорной опре- деленности” был реализован в п. 3.1.7° в виде линейного фильтра Ут+1 = Р<У)Ут, (2.П) где полином F(X) соответствующим образом строится по коэффициентам авторегрессионного уравнения fl(Wr = u„ (2.12) формирующего процесс . Все входящие в (2.11), (2.12) обозначе- ния пояснены в п. 3.1.7°. Предположим теперь, что все или часть коэффициентов уравнения (2.12) неизвестны, и, следовательно, воспользоваться формулой (2.11) для прог- ноза нельзя. Наметим путь, на котором может быть реализован адаптив- ный прогноз. 219
Обозначим через т набор неизвестных коэффициентов уравнения авто- регрессии: т = col atk). (2.L3) Оптимальный прогнозирующий фильтр (2.11) перепишем в виде yt+l = F(V, T)yt, (2.14) подчеркивая явную зависимость полинома F(X, г) от неизвестных коэф- фициентов (2.13) уравнения (2.12). Коэффициенты полинома Г(Л, т) являются известными функциями векторного параметра т и могут быть найдены в соответствии с процедурой, описанной в п. 3.1.7°. Теперь рассмотрим фильтр с настраиваемыми параметрами Уг+i = F(V- rt)yt. (2.15) При настройке т~, Tt = т, фильтр (2.15) совпадает с оптимальным фильтром (2 Л 4), но эта настройка не является реализуемой. Прежде чем переходить к вопросу о построении реализуемых настроек, уточним цель функционирования системы, состояниями которой являют- ся величины xt = и которая ’’взаимодействует” со средой zt - уt. Эволюция системы описывается уравнением (2.15). Ожидать, что теперь величина s, = y/M\yt+i - Л+/12' (2.16) будет минимальной при всех Г, нереалистично, поэтому цель функциони- рования системы отнесем к функционалу w = Ibn \/M\yt - yt\2', (2.17) Г -* ОО который надлежит минимизировать. Этот функционал содержит опера- ции над ансамблем реализаций состояний системы (настраиваемого фильтра) и среды (авторегрессионный процесс), поэтому в соответствии со сказанным выше настройку будем производить с помощью реализуе- мых стратегий. Несложно убедиться, что W> O„(^G2k)l>2, (2.18) к=\ где величина справа равна величине (2.16) при нереализуемой настройке Tt = т (см. п. 3.1.7°). В качестве класса Та допустимых стратегий вы- берем одноточечное множество тГ, тг = г. В качестве реализуемых стра- тегий можно выбрать какой-либо алгоритм рекуррентного оценивания, обеспечивающий сходимость (с вероятностью 1) настроек (тг) , lim rt = т. (2.19) Г оо Реализуемые настройки, обладающие свойством (2.19), как нетрудно видеть, обеспечат в (2.18) равенство, т.е. настраиваемый фильтр (2.15), дополненный подобным алгоритмом оценивания, будет обладать свойством адаптивности по отношению к функционалу (2.17) при произвольном значении параметра т G R* и почти всех элементарных событиях со. Таким образом, можно говорить об адаптивном прогнозе. 220
Поясним, как возникают алгоритмы оценивания в задаче адаптивного прогноза. По существу, это алгоритм идентификации ’’динамического объекта”, описываемого уравнением (2.12). Введем обозначения Ф,-1 = .... -yt-ik)> 'Pt-I =-2'^-1 (2.2°) 1 (штрих означает, что суммирование ведется по всем индексам, не вошед- шим <в набор, определяющий вектор (2.13)) для величин, которые опре- деляются через сенсоры. Тогда уравнение (2.12) можно записать в виде yt = Ф,_ it + + и,. (2.21) Соотношение (2.21) имеет привычный вид принимаемого сигнала ~ » состоящего из смеси полезного сигнала {фjr) и бело- шумной помехи {и,} . Полезный сигнал линейно зависит от неизвестно- го параметра т. Именно в такой постановке рассматривалась в гл. 2 задача об оценке параметра т полезного сигнала. Процедуру получения оценок rt неизвестного параметра т можно задать с помощью, напри- мер, МНК. Именно, rt предлагается находить из условия минимума эм- пирического функционала Wt (?) = £ \ук - - Ф*_17|2. (2.22) к=2 Для оценок МНК в п. 1.4.6° были получены рекуррентные процедуры. Существенная особенность рассматриваемой задачи состоит в тем, что в отличие от задач гл. 1 и 2 с.в. Фг, как следует из (2.20), не являют- ся стохастически независимыми. Это обстоятельство усложняет установ- ление сильной сходимости доставляемых процедурой МНК оценок. Более подробно вопрос о сходимости будет обсуждаться в § 4.3, где будут сфор- мулированы соответствующие условия сходимости. Итак, использование в настраиваемом фильтре (2.15) стратегии оцени- вания, основанной на сходящейся с вероятностью 1 процедуре МНК, позволяет в условиях неопределенности о значении параметра т и реализа- ции помехи { сформировать прогноз, который асимптотически (при t оо) не отличается от оптимального прогноза, осуществляемого линей- ным фильтром (2.11), синтезированным в условиях ’’априорной опреде- ленности” о значении параметра т. Подчеркнем последнее обстоятельство, типичное для многих задач адап- тации. Параметр неопределенности % в данном случае оказался состоящим из совокупности двух параметров - векторного параметра т, определяе- мого неизвестными коэффициентами уравнения (2.12), и параметра со, определяющего реализацию помехи {иг} . Адаптивная система обеспечи- ла подстройку (оценку) параметра т, тогда как в отношении параметра со такой попытки не делалось. хМожно сказать, что составляющая т пара- метра неопределенности £ = (т, со) оказалась существенным параметром, тогда как составляющая со - несущественным параметром. Способ раз- деления параметра неопределенности на существенную и несущественную компоненты широко используется в адаптивных системах управления. 4.2.4°. Адаптивные системы управления. Наиболее важным разделом теории адаптивных систем является теория адаптивного управления. Здесь 221
мы ограничимся лишь постановкой задачи адаптивного управления и обсудим некоторые особенности ее решения. В рамках теории управления исходным является понятие объекта управ- ления. Примем, что объект управления (ОУ) функционирует в дискрет- ном времени Z = 0, 1, ... и в момент t находится в состоянии xt, которое будем считать вектором евклидова пространства (пространства состоя- ний). Изменение состояний объекта во времени описывается уравнением xt = Х,(х$-’, и^1, и{«), П t = 1,2,..., х0 = Хо(|). (2.23) Здесь Xq - последовательность функций от соответствующих аргументов; - управляющее воздействие в момент времени t\ vt - возмущающее воздействие на ОУ в тот же момент времени; £ - абстрактный параметр из множества Z, характеризующий неопределенность об условиях функцио- нирования ОУ. Воздействия uf, vt являются входными, причем управление и$ может ’’выбираться” системой управления с целью изменить эволюцию объекта, тогда как и" является неконтролируемой последовательностью воздей- ствий, которую назовем помехой. Примем, что помеха и? полностью определяется заданием параметра £ и назовем uf (£) реализацией помехи. ОУ характеризуется также выходом yt = У,(хо, «о. Vo, а г = 1,2,..., Уо = Уо(хо, «о, ?). (2-24) который отождествим с сенсором, т.е. данными об условиях функциони- рования, доступными в момент времени t. В (2.24) Уо°° - фиксирован- ная последовательность функций от соответствующих аргументов, число которых может изменяться во времени. Далее предполагается, что введенные величины xt, ut, vt, yt - вектор- ные, но могут иметь различную размерность. Уравнения (2.33), (2.24) полностью описывают ОУ. Нетрудно увидеть аналогию между уравнением (2.23) и уравнением (1.2), если управляю- щие воздействия отождествить с настраиваемыми параметрами, а воз- мущающие воздействия — с состояниями внешней среды. Соотношение (2.24) при этом аналогично соотношению (1.3). Действуя в духе § 4.1, примем, что определен класс Up = {Uo°°} реа- лизуемых стратегий управления. Каждая стратегия Uo состоит из функций Uf вида U, = U, (и© 1, Уо) и определяет управление и? по правилу ut = Uf(4-', jJ), t = 1,2,..., «о = ио(Уо). (2.25) Фиксация стратегии U“ £ Up порождает реализациих” (5),«~ (l),Jo (I) состояний объекта, управления и выходов ОУ. Примем, что на множестве указанных реализаций Xq ( • ), Uq ( • ), у о ( • ) определена последователь- ность функционалов iv,(хо (• ),«“(•), к(•), о = м4(),4еы(-), а (2.26) Запись (2.26) означает, что, во-первых, каждый функционал Wt может содержать ’’ансамблевые” операции, и, во-вторых, не зависит от будущих 222
значений процесса управления. Соотношения (2.23), (2.24), (2.25) опре- деляют функционал качества управления W, $) = ЙЙГ и{0( ), у'о(), I) (2-27) t — * как функцию используемой стратегии и, возможно, параметра неопреде- ленности %. Целью управления объявим обеспечение неравенства ^(Uo, О < г’1 (О, (2.28) где г($) - уровень качества управления, возможно, зависящий от пара- метра {•. В применении к ОУ (2.23) определение 4.1.1 переформулируется следующим образом. Определение 4.2.1. Стратегия управления U* G £/р называется адаптив- ной в классе 2 по отношению к цели управления, определяемой функцио- налом качества W и уровнем качества г, если для каждого % G Z выполнено неравенство (2.28). Возможна дальнейшая конкретизация целей управления (диссипатив- ность, стабилизация, оптимизация) по аналогии с п. 4.1.4°. Приведем другую интерпретацию адаптивной стратегии, более близкую к формализации § 4.1 и позволяющую для широкого круга задач управле- ния определить ’’структуру” обратных связей. Во многих случаях множество Z естественным образом распадается в прямую сумму подмножества Т и ZZ = Т X д, причем множество Т является конечномерным векторным пространством или его частью. С содержательной точки зрения векторный параметр т G Т описывает параметры ОУ, тогда как параметр Е может определять реализа- цию помехи и Г и т.д. Вводится класс Ua допустимых стратегий, состоя- щий из последовательностей U* функций вида и, = и, O'Lt), которые могут зависеть от параметра т, но не %'. Минимизация функцио- нала (2.27) в классе допустимых стратегий приводит к задаче синтеза оптимального управления в условиях ’’достаточно полной” определен- ности о параметрах ОУ. Подобные задачи возникают, например, при управ- лении стохастическими ОУ, роль параметра здесь может играть эле- ментарное событие со. Можно сказать, что т является существенным па- раметром (значение его необходимо для определения оптимальной в классе Ua стратегии), а параметр V - несущественным. Предположим, что задача оптимального управления в классе £/д может быть решена для каждого т 6 Т, и соответствующее управление и™ опре- делится с помощью оптимальной стратегии соотношениями uf = Uf (yfQ, т), Uo е (/«. (2.29) Синтез оптимальной стратегии является основной задачей экстремаль- ного управления, она сама по себе обычно весьма содержательна и сложна, но мы на этом не останавливаемся и предполагаем функции Uf в (2.29) известными. Если значение параметра т неизвестно, то управления (2.29) 223
нереализуемы. Реализуемые управления условимся формировать по закону «г = тг), (2.30} где Tt - настраиваемые параметры, принимающие значения из множества Т. Уравнение (2.30) описывает регулятор с настраиваемыми параметрами, а совокупность уравнений (2.23), (2.30) - обобщенный настраиваемый объект. Задача свелась, следовательно, к формированию подходящих настроек . При этом в качестве допустимой стратегии настройки па- раметров можно выбрать стратегию Tt = т. Реализуемые настройки осу- ществляются с помощью соотношений Tt = T'fy’o, т^‘), 1=1,..., т0 = ТоОо), (2.31) где последовательности функций Т™ принадлежат классу Тр реализуе- мых стратегий настройки параметров. Теперь введены все необходимые понятия, чтобы в полном соответствии с определением 4.1.1 дать опре- деление адаптивной системы. Для этого заметим прежде всего, что по- скольку стратегия управления Uo в (2.30) определена однозначно с точностью до выбора стратегии Т™ настройки параметров в (2.31),то функ- ционал (2.27) может рассматриваться как функция стратегии Т™ настрой- ки параметров Ш", П = BW, $). (2.32) Сформулируем теперь определение адаптивной системы управления в следующей форме. Определение 4.2.2. Система управления (2.23), (2.30), (2.31) называ- ется (И\ /7Д, Т$)-адаптивной в классе Z =TXZ', если в (2.30) исполь- зуется реализуемая стратегия Т™ настройки параметров и при этом га- рантируется неравенство Й/(То°°, О < <1(П = ДпГ к и/(иг, $) (2.33) и0 е с/Д при каждом те Т и Z'. Введение класса Ua допустимых стратегий управления здесь не только определяет уровень качества управления, но и сводит синтез реализуемой стратегии управления к синтезу реализуемой стратегии настройки пара- метров. Можно определить понятие адаптивной системы управления и по от- ношению к другим (не обязательно оптимизационным) целям управления - в этом случае г (О может не быть максимально возможным уровнем качества управления. В стохастическом варианте задачи адаптивного управления неравенство (2.33) должно выполняться с вероятностью 1. Уравнение (2.31) в адаптивной системе управления описывает блок настройки, называемый адаптором. Совокупность уравнений (2.30), (2.31) описывает управляющую систему. При обеспечении неравенства (2.33) эту систему естественно назвать адаптивной в классе Z = Т X z!. При сопоставлении системы управления с абстрактным объектом, описанным в § 4.1, регулятор (2.30) с настраиваемыми параметрами оказался вклю- 224
ченным в объект и образовал совместно с ОУ обобщенный настраиваемый объект. В рамках адаптивных систем управления такое включение может оказаться нецелесообразным, поскольку в практических задачах приходит- ся осуществлять синтез не только адаптора, но и управляющей системы в целом, при этом построение оптимальной в классе Ua стратегии управ- ления может оказаться не менее сложной и содержательной задачей, чем синтез адаптора. Управление и™ , формируемое адаптивной в смысле опре- деления 4.2.2 управляющей системой, назовем W-оптимальным или пре- дельно оптимальным. Синтез реализуемых стратегий настройки параметров, определяющих работу адаптора, обычно основывается на идентификационных методах, с помощью которых в ряде случаев удается получить настройки т*, сходя- щиеся к неизвестному параметру т. Идентификационные методы пред- полагают, как правило, применение- рекуррентных процедур оценивания. Возможный путь привлечения идентификационных методов для получе- ния сходящихся настроек намечен в п. 4.2.3°. Обоснование большинства идентификационных методов в системах с обратной связью вызывает значительные трудности, поскольку в ка- честве одного из основных условий сходимости настроек выступает тре- бование равномерной во времени ограниченности состояний системы управления. Вместе с тем, управление в условиях априорной неопреде- ленности о параметрах ОУ этого свойства априори гарантировать не может, его выполнение обычно и является одной из целей управления. Указан- ная особенность замкнутых систем управления оказалась настолько су- щественной, что потребовала значительного развития методов рекуррент- ного оценивания. К сожалению, изложение соответствующей теории вы- ходит за рамки данной книги ввиду ограниченности ее объема. § 4.3. СИНТЕЗ АДАПТИВНЫХ ФИЛЬТРОВ В § 4.1 пояснялось, что понимается под адаптивной фильтрацией. В данном параграфе уточняется постановка задачи об адаптивной фильтра- ции и приводятся строгие результаты об адаптивных свойствах фильтра в случае, когда неизвестна дробно-рациональная спектральная плотность стационарной помехи. Задачу восстановления спектральной плотности можно рассматривать как задачу идентификации устойчивого динамичес- кого объекта, подверженного действию стационарной помехи. Подобная задача изучалась в § 2.4, где идентификация осуществлялась на основе метода эмпирического функционала. Ниже в качестве алгоритмов иденти- фикации приняты рекуррентные процедуры оценивания. Свойство состоятельности оценок, доставляемых этими процедурами, являет- ся центральным при установлении адаптивности синтезированных фильтров. 43.1°. Уточнение постановки задачи об адаптивной фильтрации. Ограни- чимся для простоты вариантом помехосигнальной обстановки, рассмот- ренной в п. 3.1.9° : наблюдается скалярная величина у t вида = + 1,2,..., (3.1) где {st} - полезный сигнал и {vt} — помеха наблюдения, которая пред- 225
полагается стационарной и порождаемой устойчивым фильтром a (V)v, = b'(V>r а'(0) = Ь'(0) = 1. (3.2) На вход фильтра (3.2) поступает процесс {w't} с независимыми значения- ми, причем Mw't = О, М[w']2 = o2w = lim— S [w*]2>0 (3.3) f->oo t fc=l (последнее соотношение понимается с вероятностью 1). Устойчивость формирующего фильтра (3.2) означает, что полиномы я'(X), 6'(X) не имеют корней в замкнутом единичном круге. Задача фильтрации, напомним, состоит в линейном преобразовании сигнала {yt} . Передаточная функция Я(Х) этого преобразования опре- деляется из условия экстремизации некоторого функционала (таким функционалом может быть отношение сигнал/шум либо среднеквадра- тичное уклонение оценки полезного сигнала от его истинного значения). Уточнение постановки задачи фильтрации зависит от того, является ли полезный сигнал (sf) детерминированной последовательностью или пред- ставляет собой стационарный процесс. Обсудим эти возможные ситуации по отдельности. а) Полезный сигнал - известная функция времени. Будем предпола- гать, что {sr} — известная детерминированная последовательность, у ко- торой лишь конечное число элементов отлично от нуля. В п. 3.1.9° был синтезирован линейный фильтр, максимизирующий отношение сигнал/шум на выходе фильтра. Передаточная функция Я(Х) этого фильтра вычислялась через спектральную плотность помехи {vt}, определяемую полиномами а (X), b'(X). Предположим теперь, что коэф- фициенты полиномов а'(Х),4'(Х) частично либо полностью неизвестны и, следовательно, воспользоваться формулами леммы 3.1.1 для синтеза фильтра нельзя. Обозначим через т набор неизвестных коэффициентов: т = C01(e'/t..a'ik, b'fl). (3.4) Тогда лемма 3.1.1 определяет передаточную функцию Я(Х) = Я(Х,т) (3.5) как функцию от неизвестного векторного параметра т. Обозначая через 0(Х, т), а(Х, т) соответственно числитель и знаменатель дробно-рациональ- ной по Х>функции (3.5), можем оптимальный фильтр записать в виде a(V, т)хт = 0(V, T)yt, (3.6) где xt - выход фильтра. Здесь отмечена зависимость коэффициентов уравнения от вектора неизвестных параметров. В ’’адаптивном” варианте задачи вместо фильтра (3.6) предлагается использовать нестационарный фильтр a(V,rf)x, = My,Tt)yt, (3.7) в котором коэффициенты зависят от настраиваемого параметра Tt. Этот параметр можно интерпретировать как оценку неизвестного вектора т. Таким образом, задача сводится к построению оценок {тг}, которые 226
должны обеспечить предельно-оптимальные свойства синтезированного фильтра. Уточнение этого свойства будет обсуждаться позднее. б) Полезный сигнал - стационарный процесс. Аналогично задача фильт- рации может быть поставлена в случае, если (st} - стационарный процесс с известной спектральной плотностью. Предположим, что (sf) формиру- ется устойчивым фильтром a'4V)s, = y'(V)w''r, (3.8) где {vv/} — белый шум с независимыми значениями, а"(X), Ь "(X) - по- линомы с известными коэффициентами. Предположим, что оптимальный фильтр предназначен для возможно более точного воспроизведения сигнала } , который получается из st с помощью линейного фильтра с известной дроб- но-рациональной передаточной функцией (7(Х). Если качество воспроиз- ведения сигнала характеризуется среднеквадратичным отклонением, то передаточная функция (3.5) оптимального фильтра синтезирована в п. 3.1.8°, а сам фильтр может быть представлен в рекуррентной форме (3.6), где теперь xt — воспроизведение сигнала xt в момент времени t. Если вектор т не известен, то воспроизведение сигнала следует осущест- влять в соответствии с уравнением (3.7), в котором настройки { т,} вы- бираются из тех или иных условий с тем, чтобы обеспечить предельно-оп- тимальные свойства синтезированного фильтра. Точный смысл оптималь- ных свойств фильтра будет установлен в п. 4.3.7°. 4. 32°. Схемы оценивания неизвестных параметров. Восстановление параметра т в схеме наблюдения (3.1) затруднено, так как зависимость сигнала и помехи от т нелинейная. Поэтому целесообразно перейти к дру- гой помехо-сигнальной модели, в которой зависимость наблюдаемого сигнала от неизвестных параметров будет линейной. а) Полезный сигнал - наблюдаемый процесс. Остановимся вначале на случае, когда значения сигнала st в каждый момент времени t известны (наблюдаемы). Случайность или детерминированность сигнала } при этом несущественна. В силу (3.1) в каждый момент времени t теперь известны значения величины vt, и приходим к задачей ос становления коэф- фициентов уравнения (3.2) по наблюдениям vt. Пусть а'(Х)= 1 +Ха\ + ... + XV„, b\X)=l+Xb\+... + Xnb'n (3.9) и |я'и| + |6'И| т£0. Обозначим „ , ' ч (3.10) JQ = COl(wf_b . . . ,W,_„), yt = st(T,xf)=[l -a'(V)]yt + [*'(V) — 1] w't. Тогда уравнение (3.2) можно переписать в привычном виде yt = sf(r,xf) + w'f, где sr(r,xf) интерпретируется как полезный сигнал, зависящий от век- 227
торного параметра т и марковского "паразитного” сигнала хг, определя- емого уравнением xf+i = Axt + О О 1 О ..00 ..00 1 0 0 ... 1 0 О Очевидно, в каждый момент времени t с.в. xt и w’t стохастически незави- симы. Если величины имеют плотность распределения ри,(у), а параметр т рассматривается как случайный с известной априорной плотностью, то для оценки марковского параметра = со!(т, xt) можно в соответствии с § 2.3 получить схему рекуррентного байесовс- кого оценивания для построения апостериорной плотности распределения с.в. Располагая этой плотностью, можно вычислять условное среднее параметра к г и тем самым получать точечную оценку тг. К сожалению, необходимость вычислять апостериорные плотности накладывает серь- езные ограничения на возможность практической реализации соответству- ющих вычислительных процедур. Поэтому естественно прибегнуть к дру- гим, не обязательно оптимальным схемам оценивания неизвестного па- раметра т. Приведем один из возможных способов такого оценивания, который позволяет в ряде случаев получать состоятельные оценки. Заметим, что функция (ЗЛО) линейна по каждому из аргументов т и xt. Поэтому при известном значении т можно реализовывать различные рекуррентные процедуры получения оценок xt. Параметры этих проце- дур будут, разумеется, зависеть от т. Обратно, если значения вектор-фун- кции xt известны, то можно получать линейные рекуррентные процеду- ры для оценок тт параметра т. Параметры последних процедур будут за- висеть от вектора хт. Представляется разумным в алгоритм оценивания векторных величин xt подставить вместо неизвестного параметра т его оценку, полученную к моменту времени Г, а в алгоритм для тт вместо xt подставлять найденную оценку xt. Реализация приведенной схемы оце- нивания, основанной на последовательном разделении получаемых оценок {rttxt} , может быть различной в зависимости от выбираемых алгорит- мов получения линейных оценок (МНК, MCA и тд.), но каждая из таких реализаций требует соответствующего анализа с целью установить полез- ные свойства полученных оценок. Уточним сказанное. Обозначим через xt вектор оценок сигнала хг = со1(н»'г_ь ... Пусть в момент времени t вектор xt известен. Тогда можно записать $г(т.£г) = ^1+ФГ~1 г, (3.11) где - скалярная величина, Фг_1 - вектор-строка, определяемые величинами L и т - набор (3.4) неизвестных коэффициен- 228
тов уравнения (3.2). Само уравнение (3.2) запишется в виде Zf = Ф,_ 1 т + [ft'(V) - 1 ] (w't - w't) + w't, (3.12) гдеzf = Соотношение (3.12) имеет стандартный вид, когда при- нимаемый сигнал (zt} состоит из полезного сигнала {Фг_1т)и помехи {[//(V) - 1] (wj - vVf) + w't}. При этом полезный сигнал линейно зави- сит от «параметра т, а помеха при w't = w't становится белошумной. Таким образом, схема наблюдения (3.12) при ’’удачном” выборе последователь- ности {w't} близка к стандартной схеме оценивания, рассмотренной в предыдущих главах, и по аналогии с ней для получения оценок парамет- ра т могут быть предложены различные рекуррентные алгоритмы. Их использование предполагает задание способа получения оценок { wt } • Алгоритм вычисления этих оценок будет обсуждаться позднее. б)'Полезный сигнал - стационарный процесс. Пусть теперь {sf} - стаци- онарный процесс с ненаблюдаемыми значениями, порождаемый формиру- ющим фильтром (3.8). Действуя на соотношение (3.1) оператором a'(V)a"(V) и учитывая (3.8), (3.2), получим a'(V)a"(V)yt = a'(V)b"(y)w"t + b'(V)a'(V)w't. (3.13) По наблюдениям за с.в. yt можно восстановить ее спектральную плот- ность, которая имеет вид b'(X)b'(X~') 2 b'WQC'} 2 SVV(X)-—---------—~ о„' + —--------——о*" >у а(Х)а(к-') а"(Х)а'\Х-’) ’ (3-14) где o2w" - дисперсия с.в. w". Знание спектральной плотности дает в из- вестном смысле полную информацию о стационарном центрированном процессе {уг}, но, вообще говоря, знание плотности не позволяет одноз- начно восстановить полиномы а'(Х), b'(X), а '(X), b"(X). Поэтому в схеме наблюдения (3.13) следует сделать дополнительные предположения, при которых такая ’’восстанавливаемость” имеет место. Мы будем предпола- гать, что известна спектральная плотность процесса : 5W(X) = d,,(X)f>,,(X~1) а"(Х>"(*’1) a2w" (3.15) т.е. известны коэффициенты уравнения (3.8). При известной функции (3.15) функция (3.14) однозначно определяет взаимнонесократимые устойчивые полиномы а'(Х), b'(k). Соотношение (3.13) удобно переписать в виде уравнения <3.2), когда на вход фильтра действует один процесс с некоррелированными значе- ниями. С этой целью определим устойчивый полином £(Х) из условия b'(X)b'(X~' )а '(X)a"QC' )а2„’+ + b"(X)b"(X~l )а'(Х)а (X’1 )о2,” = Ь(\)Ь(КХ). (3.16) Рассмотрим стационарный процесс {wt} , определяемый фильтром />(?>,= a'(V)b"(V)w"+ b\V)a'(V)w't. (3.17) В соответствии с (3.16) спектральная плотность процесса {wt} трждествен- 229
но равна единице. Это означает, что уравнение (3.17) определяет центри- рованный процесс с некоррелированными значениями. Учитывая (3.17), можем уравнение (3.13) переписать в виде *(V)j, = b(V)H>„ (3.18) где а(Х) = У(Х)У'(Х). (3.19) Знание полиномов а(Х), Ь(Х) полностью определяет функцию (3.14), а при известной спектральной функции (3.15), как уже говорилось выше, это однозначно определяет фильтр (3.2). Таким образом, вновь пришли к необходимости идентифицировать неизвестные коэффициенты фильтра (3.18) по наблюдениям {yt}- Если набор неизвестных коэффициентов уравнения (3.18) обозначить через т, то как и в случае уравнения (3.2), приходим к схеме наблюдения zt = Ф,_! т + [b(V) - 1 ] (wt - wt) + wtt (3.20) где величины zti Фг определяются так же, как и в схеме наблюдения (3.12) при замене в последней величин w/, w't и полиномов я'(Х), Ь'(Х) соответст- венно на wf, wt, а(Х), Ь(Х). Центрированные и некоррелированные с.в. { wt} , вообще говоря, могут не быть стохастически независимыми. Если {w,} , {w't' } - гауссовские процессы, то процесс гауссовский, а потому принимает незави- симые значения. Далее вне зависимости от того, являются ли процессы {w'f} , {w"} гауссовскими или нет, будем предполагать, что процесс {wt} принимает независимые значения и обладает теми же свойствами (3.3), что и процесс{ w't} . 4.3.3°. Идентификация авторегрессионного процесса при белошумной помехе. Прежде чем переходить к задаче идентификации общего уравнения (3.18), остановимся отдельно на хорошо изученной частной задаче, полу- чающейся из (3.18) при£(Х) = 1. Схема наблюдения (3.20) принимает вид zf = Ф,-1Т + и'г, (3.21) и нет необходимости введения величин wt. а) Оценки МНК. В п. 1.3.4° было показано, что для сигнала (3.21) оценка МНК имеет вид т, = ('s’ Ф*ФЛ)_| 'Ё* Ф*2Л+1, *=1 и, следовательно, может быть записана как т, = т+('Ё* Ф^Ф*)-1 Ф;™л + 1. (3.22) *=1 *=1 t —’ 1 * Здесь предполагается, что матрица S Ф* Ф^ обратима при рассматри- л= 1 ваемых I. В п. 1.4.6° было показано, что оценки (3.22) удовлетворяют 230
рекуррентным соотношениям МНК. Tt+I=rt+ (z,+ 1 -Ф,т,)» 7t +1 = 7г - 7г Ф*+1 Lt+1 Фг +17f, £,+ ,=(И-Ф,+ 17гФ;+1)’1. . (3.23) Как и в п. 3.3.5°, несложно установить, что определяемые процедурой (3.23) оценки rt состоятельны, если выполнены условия ♦ о 1 ' ♦ sup М |Ф, |2 <°°. lim — S Фк Ф* > 0. (3.24) t t к- 1 Первое из условий (3.24) следует из устойчивости полинома а(Х) в (3.18), второе условие (3.24) также справедливо, но его установление требует более тонких рассуждений. Сформулируем окончательный результат. Лемма 43.1. Предположим, что для уравнения (3.18) выполнены ус- ловия: 1. Полином я(Х) = я(Х, г) не имеет корней в замкнутом единичном круге и линейно зависит от векторного параметра г. 2. Ь(Х)=1. 3. Процесс [wt] состоит из независимых с.в., обладающих свойства- ми (3.3) (при w't = wt). Тогда оценки {rf} , доставляемые процедурой £3.23) при произволь- ном выборе начальной оценки тх и матрицы 71 > 0, с вероятностью 1 сходятся и lim тг = т. (3.25) r~*« Скорость сходимости оценки {rf} может быть уточнена теми же прие- мами, что использовались в п. 2.5.8°. При соответствующем выборе на- чальной оценки 71 и матрицы ?i процедура (3.23) определяет оптималь- ные в среднеквадратичном смысле линейные оценки. Если т - гауссовс- кая с.в. и белошумный процесс {wr} - гауссовский, то при соответству- ющем выборе начальных данных 7i,7i в процедуре (3.23) выполняется Т( = М(т\Ф[,у{), т.е. {тг}- наилучшие в среднеквадратичном смысле (см. лемму 1.3.1) оценки в классе произвольных неупреждающих оценок. При произволь- ном выборе Ti,7i оценки {rt} лишь асимптотически приобретают указан- ные оптимальные свойства. б) Оценки MCA. Оценки МНК требуют вычисления матриц 7f, что за- трудняет их использование в задачах, в которых вектор т имеет боль- шую размерность. Более удобными могут оказаться оценки MCA, опре- деляемые рекуррентной процедурой rt = Tt-i+ It-1 Ф*-1 (zf - Фг-1 rt-1), (3.26) где {7f} - последовательность неотрицательных чисел. 231
Лемма 4.3.2. Предположим, что в условиях леммы 4.3.1 помеха { wt} ограничена с вероя тностью 1, кг К Cw, (3.27) Cw - некоторое положительное число. Тогда оценки {rt} , доставляемые алгоритмом (3.24) при произволь- ном выборе начальной оценки и произвольных неотрицательных числах yt, удовлетворяющих условиям £ 7,=°°, £ 7?<°°, (3.28) t= 1 г= 1 с вероятностью 1 и в среднеквадратичном смысле сходятся при t-*<*>K неизвестному векторному параметру т. Предположение (3.27) возникло из-за детерминированного характера последовательности { yt}. Выбор yt как функции предыстории процесса фильтрации позволяет освободиться от этого ограничения (см. п. 4.3.5°). 4.3.4°. Расширенный МНК в задаче идентификации. Вернемся к схеме наблюдения (3..20), связанной с оцениванием с.в. wr. Если бы в каждый момент времени t величины w[~l (наряду с у{) были известны (наблю- даемы), то схема оценивания (3.20), по существу, ничем не отличалась бы от той, что была рассмотрена в п. 4.3.3° (достаточнотолько принять wrf1 = = wf“l). В частности, для оценки параметра т в этих условиях можно воспользоваться обычным методом МНК, что приводит к алгоритму (3.23) В алгоритме (3.23) величины zt, Фг будут теперь зависеть от с.в. wf”1. Использование в этом алгоритме вместо неизвестных с.в. wf-1 подходя- щих оценок Wi~1 делает процедуру оценивания реализуемой. Вектор- строка Ф, и скалярная величина zt, следовательно, определяются соотно- шениями Фг-1 = (- yf *7,,... , w7/), (3.29) Zt = - aWyt + [*(V) - 1)и>г - 1 Л (3.30) где, напомним, индексы /j,. .., ik ,... соответствуют номерам не- известных коэффициентов полиномов я(Х), &(Х) (см. (3.4)). Процедура оценивания будет полностью описана, если конкретизировать способ фор- мирования оценок {wt} . Алгоритм (3.23) совместно со способом форми- рования оценок {wt} называется рекуррентной процедурой расширенного МНК Оценку w, можно интерпретировать как прогноз с.в. wt по данным наблюдения т{, и>/_* ,у{. Возможны различные способы получения такого прогноза (например, учитывая линейность по xt функции st в (3.10), можно воспользоваться МНК, в котором вместо неизвестного вектора т используется полученная к этому преМени оценка тг). В дальнейшем ♦) Отметим, что в приложениях встречаются задачи, в которых имеется возмож- ность регистрировать (измерять) значения прошлых возмущающих воздействий. В таких случаях легко установить аналоги лемм 4.3.1,4.3.2. 232
ограничимся следующей относительно простой схемой прогноза wt=zt - Фг-1ТГ, (3.31) смысл которой ясен в силу соотношения (3.20). Соотношения (3.23), (3.29), (3.31) после задания начальных оценок 7i, vv0,vv_1, . . . пол- ностью определяют рекуррентную процедуру оценивания. Теорема 43.1. Предположим, что выполнены условия: 1. Полиномы aQ$,bQ() в уравнении (3.18) взаимнонесократимы, т.е. не имеют общих корней, и |aw| + \bn\ Ф 0, где п - степень этих поли- номов. 2. Полиномы а(\),Ь(К) не имеют корней в замкнутом единичном кру- ге комплексной плоскости, причем при всех |Х| = 1 и некотором д>1 выполнено неравенство 2Re&(X)>p|Z>(X)|2. (3.32) 3. Процесс {wt}e (3.18) принимает независимые значения и удовлет- воряет условиям (3.3) (npi/w'f = wz). Тогда оценки { Tt} , доставляемые процедурой (3.23), (3.29) - (3.31) расширенного МНК при произвольных начальных данных тх, ух> 0, w0, vv-j, . . . сильно состоятельны, т.е. с вероятностью 1 выполняется предель- ное равенство (3.25). Более того, lim Г1/2 |тг - т|2 = 0. 435°. Упрощенная процедура расширенного МНК в задаче идентифи- кации. В п. 1.4.6° при обсуждении МНК говорилось о сложности его реа- лизации из-за необходимости рекуррентного пересчета матриц yt. Там же был предложен упрощенный вариант МНК, когда, грубо говоря, пе- ресчитывается и используется в алгоритме оценивания не сама матрица уг, а ее след. Ниже приводится аналогичная модификация расширенного МНК. Вновь рассмотрим устойчивый фильтр (3.18), в котором некоторые или все коэффициенты полиномов я(Х), Z>(X) неизвестны, величины yt наблюдаемы, а с.в. wt стохастически независимы и обладают теми же свой- ствами (3.2), что и с.в. w't. Прогноз ненаблюдаемых с.в- wt вновь будем осуществлять в соответствии со схемой (3.31), где скалярные величины гги вектор-строки Фг~1 определяются по формулам (3.29) - (330). Однако вместо алгоритма (3.23) используем следующую процедуру MCA: Tf+1 =Tt+Lt । Фг*(2,+ 1 -Фр-Д 77+i=77+№j+il2, 7о = 1. (3.33) i,=(i +7f~i i<t>;i2)-’. При ряде дополнительных предположений удается показать, что асимпто- тически (при г~>°°) величины yt ведут себя как y/tc некоторой посто- янной 7>0, lim Lf = l, так что алгоритм (3.33) асимптотически совпа- Г~* оо дает с обычной процедурой MCA. Теорема 43.2. Пусть выполнены условия теоремы 4.3.1 при р = 0,тЕ G Т и Mw4t Со4 <°°. 233
Тогда для оценок ft, доставляемых упрощенной процедурой расширен- ного МНК, определяемой соотношениями (3.33), (3.29) - (3.31), неза- висимо от выбора начальных оценок rt GT,w0,w-i, . . .с вероятностью 1 и в среднеквадратичном выполняется равенство lim Tt = т. (3.34) г-* °° Сравнение условий теорем 4.3.1 и 4.3.2 показывает, что во второй из них частотное условие на полином Ь(Х) ослаблено. Видимо, алгоритм (3.23) более эффективен при малых t в смысле скорости сходимости оценок Tt по сравнению с алгоритмом (3.33), при t -*00 скорости сходи- мости этих алгоритмов становятся одинаковыми. К такому выводу при- водят результаты моделирования, однако строгий результат получить затруднительно, так как качество оценок, доставляемых алгоритмом (3.23), зависит от выбора начальной матрицы 7]. 4.3.6°. Процедура стохастической аппроксимации в задаче идентифика- ции. Вектор неизвестных коэффициентов фильтра (3.18) иногда удает- ся восстановить при использовании процедуры Роббинса - Монро (см. п. i.4.6°), если соответствующим образом выбрать минимизируемый функционал (1.4.39). Функционал должен обладать следующими свойст- вами: 1) его стохастический градиент (либо псевдоградиент) выражается через данные наблюдения; 2) множество стационарных точек функционала содержит неизвестный (оцениваемый) параметр; 3) на множестве стационарных точек функционал принимает наимень- шее значение. Выбор подобного функционала часто удается осуществить из анализа рассматриваемой задачи. На траекториях разностной проце- дуры, стохастически антиградиентной функционалу, он играет роль фун- кции Ляпунова и обладает свойствами, близкими к полумартингальным. Это обстоятельство позволяет воспользоваться теоремой 1 .ПЛ и устано- вить (при ряде дополнительных предположений о свойствах рассматри- ваемых процессов) сходимость в смысле функционала процедуры иден- тификации (см., например, теорему 1.4.2, стр. 58). В задаче идентификации существует общий прием построения нуж- ного функционала, что открывает возможность ее решения. Хотя полу- чение окончательных результатов о состоятельности оценок требует зна- чительных усилий, установление вида минимизируемого функционала является важным этапом решения задачи идентификации. Перейдем к описанию функционала минимизации. а) Функционал минимизации в задаче идентификации. Пусть ® = = {3(Х),Ь(Х)} - множество взаимно несократимых полиномов, облада- ющих свойствами 2(0) = 1, Ь(О) = Ь, Ь(Х)¥=О при |Х|<1, deg2(X)<dega(X), degb(X)<degb (X). (3.35) Здесь а(Х), h(X) — полиномы фильтра (3.18), deg обозначает степень со- ответствующего полинома, b — фиксированное число. Определим после- 234
довательность wt} уравнением b(V)wf=2(V)jr, (3.36) где .у, — выход фильтра (3.18), в котором относительно полиномов а(Х), &(Х) предполагаются выполненными условия а(0)= 1, а(Х)=# 0 при |Х| < I, £(Х) =#=0 при |Х| = 1, (3.37) а помеха { } принимает независимые значения и обладает свойствами Mwt = 0, Mw2 = o2w > 0, Mw4 < о4 < оо. (3.38) На процессе {wt} определим функционал W(t)= lim Mw2, (3.39) где через т обозначен набор коэффициентов полиномов а(Х), £(Х) (стар- шие коэффициенты, которые в соответствии с (3.35) выбраны равными J и Ь, в набор т не включаются). В силу устойчивое™ полиномов а (X), д(Х) процессы {yt}, {wf) при t -* °о экспоненциально быстро сходятся к стационарным процессам, спектральные плотности которых определя- ются полиномами я(Х), Z>(X), я(Х), &(Х). Это позволяет получить для функ- ционала (3.39) формулу jf/(T) -- j---------- x— ---------. (3.40) 2тп a(X)a(XH) ^(Х)Ь(Х’1) X Без ограничения общности набор т будем рассматривать как вектор раз- мерности degfl(X) + degZ>(X) — достаточно допустить наличие у полиномов я(Х), д(Х) нужного количества нулевых коэффициентов. Пусть с(Х) — произвольный полином, не имеющий корней при |Х|= = 1. Представим с(X) в виде с(Х) = с'(Х)с"(Х), где с,(Х):#:0 при jX| < 1, с"(Х)=£ 0 при |Х|> 1. Полином се(Х) = с'(Х) Х1с" (X’1), / = degc"(X), назовем устойчивой модификацией полинома с(Х). Очевидно, полином с»(Х) - устойчивый, причем се(Х) = с(Х) для устойчивого полинома с (X). Лемма 433. Функционал (3.40) достигает наименьшего в ^SSt зна- чения при А , a b а(Х) = а'(Х), —-У*(Х), (0) где а (X), b\ (X) - взаимно несократимые полиномы, однозначно опреде- ляемые соотношениями а(Х) я(Х) TTTfTTTv а (0’) = 1’ Ье(Х) £*(Х) и b, (X) - устойчивая модификация полинома b (X). При этом grad W(r) * 0 при T^TQ, где то - набор коэффициентов, отвечающий полиномам (3.41). (3.41) 235
б) Общая схема идентификации. Лемма 4.3.3 показывает, как следует строить стохастически градиентную процедуру для восстановления не- известного набора т коэффициентов фильтра (3.18). Для описания со- ответствующей схемы идентификации перепишем фильтр (3.18) в виде ^(VsrVf = />(V,T)wf, (3.42) указывая явно зависимость коэффициентов фильтра от неизвестного параметра т (в качестве т можно принять набор, составленный из неиз- вестных коэффициентов фильтра (3.18)). Предположим, что множество Т возможных значений параметра т явля- ется подмножеством некоторого евклидова пространства, причем при любом г Е Т полиномы я(Х) = я(Х, т), b(X) = Z>(X, т) удовлетворяют условиям (3.37). Пусть в некоторый момент времени известна оценка т Е Т параметра т. Введем полиномы А А А Ьф(Х, Т) ^(Х) = а(Х, т), b (X) = Ь* (0, т) и с их помощью определим стационарный процесс {wf(r)} уравнением b* (V, т) _ а ——r-w,(r) = a(v, r)yt, (3.43) (0, т) где {yt} — стационарный процесс, определяемый фильтром (3.42). Оценку т можно ’’улучшить”, сдвинув ее в сторону стохастического антиградиен- та функционала (3.40). Стохастическим градиентом этого функционала является величина V'r = 2й>(т) йг(т), (3.44) где вектор-функция КДт) =gradTwf(7) является стационарным (вектор- ным) процессом, определяемым согласно (3.43) уравнением £*(V, т)_ А Г Ь. (7,7)1 л л — ,п хт vt О’) = - gradr , . л/ (т) + [gradfa (V, т)] yt. (3.45) b, (0, т) L Ь. (0, т) J Очевидно, M[wf(r)]2 = V(r), Мфг = grad W(t). (3.46) Правые части уравнения (3.45) содержат операции взятия градиентов по 7 от коэффициентов соответствующих полиномов. Разумеется, следу- ет еще указать, насколько следует смещаться в направлении — дДг- Кроме того, использование стационарных процессов { wt), { Vt) неудобно, так как их получение связано с фиксацией параметра т. Однако эти затруд- нения носят скорее технический характер, и описанная идея ’’улучшения” оценки может быть реализована в виде рекуррентной процедуры следую- щим образом. Пусть известно замкнутое выпуклое множество Т' Э Т, причем Ь(Х, т^=£ 0 при т G Т, IX I =1. Проектор, сопоставляющий произвольной точке 7 ближайшую к ней точку т из множества Т', обозначим Рт , т' = = /*Г'7. Пусть Г1 = 1, г2, ^з» ••• ~ возрастающаяЛ последовательность, lim tk =°°. Определим последовательности {wr} , {Vt}9 {rt} с помощью 236
рекуррентных соотношений Ь*^’ Tt *t = а (V, rf_ j) у„ (3.47) b, (0, rr_i) MV, rf_,) л г b. (v. Tt_x)"I л ------------V, = - grad-------------- wr + Ь.(0, т,_.) I b.(0, Tf-OJ + [gradT a (V, rt_ ।)] yt, (3.48) Ttk+l = Рт' K- - 7kWtk+iVtk+i], (3.49) ft = Ttk при tk < t < rt+1. Здесь {jf} - выход фильтра (3.42) при т G Т, {ук} - последователь- ность неотрицательных чисел. Процедура идентификации (3.47) — (3.49) при задании начальных дан- ных w?, к?, 71 6 Т'и последовательности моментов времени {гА} опре- делена полностью. Начальные данные могут выбираться детерминирован- ными либо случайными величинами. В любом случае предполагается, что р Л РА S Mw? < ~, S М IKJ4 < с*», М\тх I2 < со. (3.50) i= 1 1=1 В моменты времени tk происходит коррекция оценки тг, при остальных t оценка не изменяется. Вообще говоря, оценки rt следует изменять до- статочно медленно с тем, чтобы нестационарные уравнения (3.47), (3.48) были устойчивыми. Сформулируем теперь предположение о сходимости оценок, достав- ляемых приведенной процедурой идентификации. Теорема 4.3.3. Предположим, что выполняются условия: \. Последовательность {ук} в (ЗА9) обладает свойствами 7* > 0, Z ук = о», Е yi < оо. *= 1 к= 1 2. Моменты {tk] коррекции оценок выбраны так, что lim (r*+1 - tk) = оо, lim tk = oo. k °° k —* °© 3. Множество T', в котором строятся оценки rt, - выпуклый компакт, причем Т С Т', и для любого т G Т' полином Ъ{\ т) не имеет корней при | X | = 1. 4. Для функции *(7) 2m Ъ (X, т) 2 а (X, т) 2 t/X а(Х, т) />♦(*,?) X 2 Ъ. (0, ?) Ъ. (0, т) при любых т', т” 6 Т' справедливо неравенство I И'(т') - И'(т) - (т” - тУ grad W(г') | < С|т" - /I2 с некоторой постоянной С < °°. 5. Существует уо > 0 такое, что для любых т 6 Т' и 0 < у < у0 для стационарных процессов {wf(r)} , {Vt (r)j , порождаемых уравнениями 237
(3.43), (3.45), выполнено неравенство [grad W (т)] *М{Рт [т - ywt (т) Vt (г)] - т | т I < < -*L[gradH'(?)]2. (3.51)’ Тогда для оценок {rt} , доставляемых рекуррентными соотношения- ми (3.47) - (3.49), независимо от выбора начальных данных (3.50) спра- ведливы с вероятностью 1 предельные соотношения lim р(т„ То) = 0, (3.52) t оо lim ИЧтг) = И'(т), lim = ^(т), (3.53) t —► ОО f —► оо где т € Т - параметр фильтра (3.42), порождающего наблюдаемый про- цесс {у t} , То = {т: grad И'(т) = О}. в) Замечания к теореме 4.3.3. 1) Последовательность {tk} можно выбрать удовлетворяющей условиям 1^+1 - tk | где Т — доста- точно большое число, при котором нестационарные уравнения (3.47) - (3.48) экспоненциально устойчивы. Существование конечного Т следует из компактности множества Т'. 2) Наиболее ограничительным и трудно- проверяемым (с точки зрения приложений) условием в теореме 4.3.3 явля- ется предположение о компактности множества Т', для векторов т из которого должно выполняться неравенство (3.51). Видимо, подобное предположение — необходимая ’’плата” за отказ от выполнения ’’частот- ного условия” (см. условие 2 теоремы 4.3.1). 3) В теореме 4.3.3 не ут- верждается, что фильтр (3.42) при использовании процедуры (3.47) - (3.49) идентифицируется: сходимость Tt к т места не имеет. Действи- тельно, последовательность {rt} в силу (3.52) - (3.53) - минимизирую- щая для функционала (3.40), а минимум последнего по лемме 4.3.3 одноз- начно определяет лишь полиномы а (к, т), b\(k, т) [У* (0, т)]”1, но не поли- номы я(Х, т), Ь(Х, т). Даже если полином Ь(Х, т) устойчив (тогда £*(Х, т) = = д(Х, т)) и не имеет общих корней с я(Х, т) (тогда а (к, т) = я(Х, т), Уе(Х, т) = д(Х, т)), то процедура (3.47) — (3.49) позволяет определить коэффициенты полиномов я(Х, т), Ь(Х, т) [д(0, т)]”1, т.е. для полной идентификации фильтра (3.42) следует еще фиксировать какой-нибудь коэффициент полинома д(Х, т) (если все коэффициенты этого полинома неизвестны). Последнее обстоятельство неудивительно: процедура (3.47) — (3.49) и доказательство ее сходимости никак не связаны с величиной дисперсии помехи {wt} . Поэтому без ограничения общности можно по- ложить Ь(0, т) = 1, ’’пронормировав”, если потребуется, помеху {wf} . Таким образом, в условиях теоремы 4.3.3 процедура (3.47) - (3.49) обеспечивает идентификацию фильтра (3.42) в предположении устой- чивости и несократимости полиномов а(Х, т), Ь(Х, т), удовлетворяющих условию нормировки а(0, т) = Ь(0, т) = 1. Если полином д(Х, т) неустойчив, то множество То = { т: grad W(t) = = О} существенно неодноточечное и без дополнительной информации о структуре полиномов а (к, т), Ь(к9 т) идентификация фильтра (3.42) невозможна. 4) Приведенная выше схема идентификации естественным образом обобщается на фильтры (3.42), в которых присутствует наблюда- 238
емое параметрическое возмущение, т.е. когда фильтр имеет вид a(^,r)yt = (т) + c(7,r)wf, (3.54) где стационарный процесс {фг(т) } ’’известен с точностью до параметра” т Е Т. Соотношение (3.54) используется для описания линейного объ- екта управления, при этом обычно = h(7,r)uf, (3.55) где {ut} - управление, Ь(Х, т) - полином, коэффициенты которого могут зависеть от неизвестного параметра т Е Т. В ряде случаев управление {ut} реализуется в виде линейной обратной связи »(V)Wr = (3.56) где а(Х), fl(X) - полиномы с известными коэффициентами. Обратная связь (3.56) называется стабилизирующей для объекта управления (3.54) - (3.55), если полином g (X, т) = а (X, т) а (X) - b (X, т) 0 (X) (3.57) устойчив. Если полином g (X, т) устойчив при любых т Е Т, то задача иден- тификации объекта (3.54) может быть сведена к уже рассмотренной. Действительно, из (3.54) — (3.57) следует, что g (V, г)yt = а (V) с (7, т) wtf (3.58) и мы приходим к уравнению вида (3.42), в котором роль параметра т играют неизвестные коэффициенты системы управления (3.54),. (3.55). Отметим, что при этом устойчивость объекта (устойчивость полинома я(Х, т) в (3.54)) либо его минимальная фазовость (устойчивость поли- нома Ь(Х, т) в (3.54)) не обязательны - важна устойчивость замкнутой системы управления (устойчивость полинома (3.57)). Полином а(Х)с(Х, т) при этом не обязан быть устойчивым. В реальных задачах управления объектами с неизвестными параметра- ми идентификация обычно представляет собой неотъемлемую часть про- цесса управления: текущие оценки неизвестных параметров используют- ся в цепях обратной связи. При этом стабилизирующие обратные связи часто неизвестны, более того, цель управления обычно содержит требо- вание построения стабилизирующих обратных связей. Обобщение рас- смотренной выше схемы идентификации на случай систем с настраиваемы- ми обратными связями далеко не тривиально, поскольку требует значи- тельных творческих усилий и дальнейшего развития теории адаптивных систем. г) Пример: задача идентификации при известной спектральной плотно- сти помехи. В качестве примера применения теоремы 4.3.3 остановимся на специальном случае фильтра (3.42), когда полином Ь(Х, т) от пара- метра т не зависит, т.е. коэффициенты этого полинома известны. Схема идентификации (3.47) — (3.49) тогда существенно упрощается и может быть уточнена. Покажем это. 239
Принимая в качестве т набор неизвестных коэффициентов полинома я(Х, т), т = col (а/ ,..aik), уравнение (3.42) перепишем в виде г, = Ф,_1Т + h(V)wf, (3.59) где Ф,-1 = (-Jr-z,..... -yt-ik\ z = a(v,r)yt - Ф,_1Т, (3.60) т.е. скалярная величина zt и вектор-строка Фг-1 определяются выхода- ми фильтра, доступными в момент времени т. Устойчивая модификация £Ф(Х) полинома Ь(Х) теперь известна, и в силу (3.59), (3.60) уравнения (3.47), (3.48) запишутся в виде b. (V) = zt - Ф,_ i rt_ i, b. (V) Vt = Ф?_! (3.61) (но^мирдрочный член Ьф(0) здесь несуществен). Таким образом, величи- ны wt и Vt получаются как результат фильтрации соответственно невязки zt - Ф^ХТ^\ = Фг_!(т - Тг_]) + b(v)wr И вектор-функции Ф*_], определяемой набором данных наблюдения (см. (3.60)). Уравнения (3.61) теперь устойчивы в силу устойчивости полинома Ье(Х), а вектор- функция Vt никак не зависит от выбора оценок {rt}. Поэтому можно ограничиться последовательностью tk = £, т.е. коррекцию оценок произво- дить в каждый момент времени. Выбирая в качестве Т' все евклидово пространство, запишем алгоритм идентификации в виде rf+i = Tt - 7,wf+ir, + i. (3.62) Анализ доказательства теоремы 4.3.3 показывает, что при установлении состоятельности оценок rt использовалось неравенство supMwJ+1 < ©о, (3.63) которое являлось следствием компактности множества Т' (см. (3.61)). Однако в данном случае компактности множества Т' не требуется. Дей- ствительно, к алгоритму (3.62) можно придти из следующих элементар- ных соображений. Предположим, что стационарный процесс {et}, опре- деляемый уравнением b*(v)et = £(v)wf, принимает независимые значе- ния (это будет заведомо так, если Ь(Х) - устойчивый полином, и тогда = wti либо если {wt} - гауссовский процесс). Обозначим через {yf} вы- ход фильтра Z\(V).Ff = yt. Тогда в силу (3.42) имеем h*(V) [a(V, r)yt - - ef] =0,т.е. = et + (3.64) где величина qt экспоненциально быстро стремится к нулю при t -* °°. Пренебрегая этой несущественной величиной, перепишем (3.64) в виде zt = Фг-iT + еъ (3.65) где в соответствии с обозначениями (3.60) ^(V)z, = zt, b.(V)*t-i = Фг-i- (3.66) Уравнение (3.65) имеет вид уравнения (3.21), а алгоритм (3.62), как несложно убедиться, совпадает (с точностью до обозначений) с алгоритмом (3.26). Из анализа доказательства леммы 4.3.2 следует (см. неравенство 240
(Д.8) ), что при выполнении условия supМ 1ФГ |4 < 00 t справедливы неравенства sup М I Tf — т |2 < °°, sup I Tf - т |2 < °°, t t т.е. оценки {rt} равномерно по t ограничены, что влечет выполнение усло- вия (3.63). Итак, алгоритм идентификации (3.61) - (3.62) при сделанных предположениях доставляет состоятельные оценки. 4.3.7°. Адаптивная фильтрация. Подведем итоги проведенного в пре- дыдущих пунктах исследования фильтров с настраиваемыми параметра- ми. Эти фильтры имели вид (3.7), где полиномы а(Х, т), 0(Х, т) зависе- ли от параметра т, определяющего свойства помехо-сигнальной модели. Полиномы строились так, что при известном значении параметра т фильтр (3.7) при Tt = т обладал оптимальными свойствами. В п. 4.3.1° были описаны два критерия оптимальности в зависимости от задачи фильтра- ции: максимизация отношения сигнал/шум на выходе фильтра (при на- блюдаемом полезном сигнале) и среднеквадратичная оптимизация вос- произведения ненаблюдаемого стационарного сигнала. Порядок разностно- го фильтра в первом случае зависел от порядка уравнения (3.2), форми- рующего помеху наблюдения, и продолжительности действия полезного сигнала {$г}. Во втором случае порядок фильтра определялся порядком уравнения (3.18) и свойствами передаточной функции G(X). Для нахождения оценок Tt были предложены различные рекуррентные процедуры, условия сходимости которых определены в леммах 4.3.1, 4.3.2 и теоремах 4.3.1 - 4.3.3. Осталось лишь пояснить, какими предель- но-оптимальными свойствами обладает фильтр (3.7), дополненный со- ответствующим алгоритмом оценивания. а) Задача предельной максимизации отношения сигнал/шум на выходе фильтра. Остановимся сперва на схеме наблюдения (3.1), в которой - последовательность наблюдаемых величин, причем отличными от нуля могут быть лишь элементы последовательности, отвечающие индексам t = 1, 2, . . ., Т. Отношение сигнал/шум (1.64) запишем в более подроб- ной записи как функцию <7вых('о>= <KtQ, Н, {s,}), (3.67) где Го — момент времени, в который вычисляется отношение сигнал/шум. Обычно в качестве Го выбирается момент наибольшего (пикового) значе- ния полезного сигнала {s J . Для натурального п обозначим через V~nT{st} сдвиг последователь- ности на время пТвперед, т.е. последовательность {$,) = по- лучается из {st} по формуле st = st+nT‘ (3.68) Из (1.64), (3.67) следует, что d(t0 + пТ, Н, V~nT {st}) = q(t0, И, (М), т.е. отношение сигнал/шум инвариантно к одновременному сдвигу во 241
времени полезного сигнала и момента вычисления этого отношения. Поэ- тому оптимальный фильтр, определяемый передаточной функцией (1.18), максимизирует функционал W(H) = lim q(t0 + пТ, Н, V~nT (3.69) п — *> Далее нас будут интересовать нестационарные фильтры. Передаточную функцию таких фильтров запишем в виде Н = Ht (X), (3.70) отмечая зависимость от Г. Вместо (3.69) рассмотрим функционал, завися- щий от нестационарной передаточной функции {Ht (X)}: УС {я, (X)}) = to q(to + n(t)T, Ht, V~nWr {st} ), (3.71) t — 00 где n(t) - кусочно-постоянная функция, определяемая формулами n(t) = = п при nT<?t < (п + 1)Г, п = 1,2,... Очевидно, для стационарного фильтра значение функционала (3.71) совпадает со значением функционала (3.69). Задача предельной максимизации отношения сигнал/шум может быть сформулирована как задача минимизации функционала (3.71) в классе нестационарных фильтров. При этом при каждом t передаточная функция Ht (X) может в зависимости от постановки задачи быть устойчивой, либо это требование может быть опущено. С другой стороны, отношение сигнал/шум (1.64) можно переписать во ’’временных” терминах I 2 h(t,k)sk\2 к = — 00 <7вых (0 =--------------------- , (3.72) М\ S *(Л*)и*|2 к- где h(t9 к) — весовая функция нестационарного фильтра. Если xt — выход нестационарного фильтра (см. (3.7)), то (3.72) запишется м |£.|2 9»«х(0-----------------------1. (3.73) о2 S Л2 (л к) к = -°* поскольку М\xt |2 = М I S Л (г. к) (sk + v*) |2 = = | S h(t, k)sk I2 + a2 E h2(t,k). k=-x k=~x Формула (3.73) позволяет выразить функционал (3.71) как функцию множества реализаций * ’’состояний объекта”, описываемого нестационар- ным уравнением (3.7), и ’’состояний среды”, определяемых уравнением (3.2). 242
Если спектральные характеристики помехи {vt} зависят от неизвестно- го векторного параметра т, то в соответствии с (3.4) оптимальный фильтр зависит от параметра т. В качестве нестационарного фильтра выберем фильтр (3.7) с передаточной функцией Ht(K) = Я(Х, т,), (3.74) где {т,} - настраиваемые параметры. Выбор настраиваемых параметров rt = т (3.75) определяет функцию (3.70), для которой функционал (3.71) принимает наибольшее значение. При этом передаточная функция Ht (X) оказывает- ся не зависящей от времени t. Соотношения (3.75) определяют одноэлементный класс Гд допустимых стратегий настройки параметров. Алгоритмы идентификации (3.23), (3.26), (3.33), (3.47) - (3.49) определяют класс Тр реализуемых стра- тегий настройки параметров (см. п. 4.1.2°). Множество неопределенности Z состоит из элементов {т, cj), где т - вектор параметров, о котором говорилось выше, и со - элементарное событие, определяющее реализа- цию помехи. В условиях лемм 4.3.1, 4.3.2 и теорем 4.3.1 - 4.3.3 фильтр (3.7), до- полненный соответствующим алгоритмом настройки параметров {т,}, является (И/, Гр. Гд)-адаптивным в классе S в соответствии с определе- нием 4.1.1 (см. п. 4.1.5°} Это свойство синтезированного фильтра явля- ется следствием предельного равенства lim т( = т. f —► оо Отметим, что в качестве класса Тр реализуемых стратегий настройки можно выбрать любое множество неупреждаемых стратегий, содержа- щее стратегии, определяемые алгоритмами (3.23), (3.26), (3.33), (3.47) - (3.49). Практическое решение задачи синтеза адаптивных фильтров тре- бует ’’конструктивного” задания адаптивной стратегии. б) Предельно-оптимальное воспроизведение ненаблюдаемого стацио- нарного сигнала. В схеме наблюдения (3.1) пусть теперь {s,} - ненаблюдае- мый стационарный процесс с известной спектральной плотностью. При известном параметре т, определяющем спектральную плотность помехи {vt}, оптимальный фильтр с передаточной функцией Я(Х) = Я(Х, т) ми- нимизирует функционал W(H) = M\xt - xt\2, (3.76) где xt - известная функция полезного сигнала их,- выход фильтра. В адаптивном варианте вместо (3.76) естественно рассмотреть функ- ционал И/( {Я,} ) = ton М I х, - xt |2, (3.77) , —* оо где {Я,} = Я, (X) - передаточная функция нестационарного фильтра (3.7). При выборе настраиваемых параметров в виде (3.75) этот фильтр мини- мизирует функционал (3.77). Далее почти Дословно повторяются рас- суждения, приведенные в предыдущем подпункте. Соотношение (3.75) определяет класс Гд допустимых стратегий настройки параметров. Класс Гр реализуемых стратегий выберем так, чтобы он включал алгоритмы 243
идентификации (3.23), (3.26), (3.33), (3.47) - (3.49).Класс адаптивно- сти вновь является прямым произведением Т X П множества Т возмож- ных значений параметра т и множества £2 элементарных событий. При выполнении условий лемм 4.3.1, 4.3.2 либо теорем 4.3.1 - 4.3.3 фильтр (3.7), дополненный соответствующим алгоритмом настройки параметров, является (И7, Тд, Тр)-адаптивным в классе Z = Т X 2 в соответствии с определением 4.1.1 п. 4.1.5°. § 4. Д. ДОКАЗАТЕЛЬСТВА ЛЕММ И ТЕОРЕМ 4ЛЛ °. Доказательство леммы 4.3.1. Введем вектор xt = col (yt. yt_ !.-Уг-л+1). (Д.1) где п - порядок полинома а(Х, т). В силу (3.18) при b(X) = 1 для xt справедливо уравнение ^г+1 = Лх* + (Д.2) в котором А = ~01 -02 • 1 0 .. • -On- 1 . 0 -On 0 , В = 1 0 (Д.3) 0 0 .. . 1 0 0 В силу первого условия леммы матрица А не имеет собственных значений в замкнутом единичном круге, т.е. является устойчивой. Из (Д.2) имеем *г+1 = A*xt + V AkBvt_k + l. (Д.4) fc = O Отсюда М lxt+1 I2 = 1Агх, I2 + *2* 8р4*5Я*(Л*)*а2. к = 0 Так как матрица А устойчива, то М'| < Ср* с некоторыми положительными постоянными С, р, р < 1. Поэтому sup М 1х, + 1|2 < <». Но так как компоненты вектора Ф, являются ком- t понентами вектора xt, то I ф? I2 < I Xt |2 и, следовательно, supAf 1Ф^ |2 < <», т.е. выполнено первое условие (3.24). t Умножим (Д.4) справа на xj+1, получим *r+i**+i = A ^xt-nxt-n(^)n 1 + + S AkBVf_k+ix*t_n(A*)n+l + Лл+,х,_„ S B*(A')kvt_k+i + к = О fc = 0 + f S AkBB*{A*)kVf_k^vt_k^. (Д.5) к = О к =0 244
Следовательно, — 2 x*+i*J+i >— 2 Z AtBvk_l+1xk_n(A*)n+i + t k= 2 t k = 2 1=0 + — 2 S Лп+,хк_„Л*и*)Ч-/+1 + t k = 2 1=0 + 2 E AlBB*(A*)1— E Ufc_/+it>fc_/'+i« 1=0 1=0 t k=2 В силу закона больших чисел (см. теорему 1.П.2) и независимости с.в. vk~i + i и хк^ п, при / = 0,..п с вероятностью 1 выполнено 1 t lim Е Vk-i +\Vk-f+\ “ °u &u'> t-> oo t k=2 lim — Ё Vk-i+\Xk_n =0, I = 0,1,..., n. t- oo t k = 2 Поэтому с вероятностью 1 выполнено предельное неравенство Jim — £ xk+ix*k+i > 2 AkBB*(A*?<$. (Д.6) t “* t k=2 k=0 П к к Матрица X A BB\A*) положительна, что является следствием полной к=0 управляемости пары {л, В}, определяемой формулами (Д.3). Поэтому, обозначая через д наименьшее значение этой матрицы, из (Д.6) получим 1 t Jun. — 2 X*+1X*+1 > t -* 00 t k = 2 где In - (n X и)-единичная матрица. Так как компоненты вектора Ф* являются компонентами векторах*, то отсюда следует неравенство 1 t Jim — 2 Ф*Ф* > olul > 0, t 00 t к = 2 где I - единичная матрица соответствующей размерности. Итак, уста- новлено второе условие (3.24). При выполнении условий (3.24) состоя- тельность оценок легко следует из формул г-1 т, = т + 7r7i Ti +7/2 Ф*и*+Ь *=1 выводимых из соотношений (3.29) (см. лемму 1.4.4, стр. 60). Лемма 4.3.1 доказана. 4Д.2°. Доказательство леммы 4.3.2. Из (3.26) с учетом (3.21) имеем 1тг - т|2 = I т,_! - т|2 + 2тг_1[Фг_! (т - Tf-j) + wj X х Ф,_!(тг_1 - т) + 1 [Фг_ 1 (rt_ 1 -т) + wf]2| ф;_,|2. (Д.7) 245
Учитывая, что с.в. Фг _ (Д.7) при условии ФI 1 и Ту _ 1 стохастически независимы с wr, и усредняя ’1, j 1, с учетом (3.3) получим Л/{| Tt-т|2 | Ф{-‘, = | Tf_, - т|2 -2?г_1 X X [Фг- 1(т,-1 -т)]2 +7?-i [Фг-1(тг_! - т)] 2| Ф*_,|2 + + 7?-| 'Ф?-1 *2 <>w- (Д8) В силу устойчивости полинома а(Х, т) и условий (3.27) существует положительное число Сф такое, что с вероятностью 1 выполняется не- равенство I ф? I < Сф. (Д.9) Учитывая (Д.9) из (Д.8) получаем ЛГ {I тг — г |2 | Ф?_ 1, </>'“*} < I т,_! - т|2 +Сф>2_| at> что в силу условия (3.28) и теоремы 1.П.1 означает, что с вероятностью 1 существует lim | Tt - т |2 = 0, (ДЮ) t °° где 0 - с вероятностью 1 конечная с.в. Производя безусловное усреднение в (Д.8) и учитывая (Д.9) и (3.28), убеждаемся в выполнении неравенства £ ytM [Фг(Т,-Т)]2 < оо. (Д.11) Г = 1 Несложно убедиться, что с.в. «г = 7r- IФ?-1 (Zt - Фг-1 Tt- 1) = 7r-1 Ф?_ I [Фг-1 (Т — тг_ t) + wt] удовлетворяют условию S М| bt |2 < «>. t = I Из неравенства (Д.11) в силу (Д.9) следует неравенство £ 7гМФг(Тг-л-т)[2 < - (Д.12) t = п + 1 при произвольном натуральном п. Из (Д.5) имеем Л/{хг+1х*+1 1х[~л ) = Лл+,хг_„х;_„(Л*)л+’ + + £ АкВВ* (А*)ко„ > O2wnl„ > О, л=о п . где Д - наименьшее собственное значение матрицы S А ВВ*(А *)*. Следо- к-0 вательно, ^{Фг-!*?-! М"” } > 246
и, используя свойства условного усреднения, находим М [Фг-, (тг_и_1 - т)]2 = = Л/[(тг_л_( - т)‘Л/{ф;_1Фг_11хГп} - т)] > > o2wfiM\Tt_n_x - т|2. Из неравенства (Д.12) теперь следует неравенство S ytM I Tt_n - 7 |2 < оо, t=n+l поэтому с вероятностью Г выполняется неравенство S 7г I Tf-Л - 7 |2 < оо. Г=Л + 1 В силу первого из условий (3.27) на некоторой подпоследовательности т fk -+т при к-+°°, а это означает, что 6 = 0 в (Д.10). Итак, сходимость тг -*т при t установлена с вероятностью 1. Средне- квадратичная сходимость легко устанавливается из неравенства Л/|7Г — 7|2 < М | Tt_ 1 - 7 |2 +у?_ |СфО^, получаемого усреднением (Д.8), и неравенства (Д11). Лемма 4.3.2 до- казана. 4Д.З.° Доказательство теоремы 4.3.1. Установим прежде всего ряд по- лезных свойств процедуры (3.23), которые будут использованы при дока- зательстве теоремы 4.3.1. Лемма 4Д.1.2? силу (3.20) справедливы соотношения 7г+1Ф*+1 ~^г+17гФ*+1 , (Д13) Ф/7/Ф?<1, (Д-14) 7,*' =7/1,+Ф>, (Д.15) S М£,Фп£?Ф;<28р7,1,г. (Д-16) t = 2 Здесь у,3/2 = yryz1/2 и у}/2 - положительный корень положительной мат- рицы yt. Доказательство леммы. Применяя второе равенство (3.23) к Ф*, получим 7/+1Ф/+1 =7/Фг+1 - 7гФг+1^г+1Фг+17гФг+1. Учитывая, что Ф/+17гФ/+ i^r+i = 1 — ^r+ь (Д17) приходим к (Д.13). (Д.14) следует из (Д.17) в силу (Д.13). Формула (Д.15) непосредственно следует из второго соотношения (3.23), если вос- пользоваться матричным тождеством (2.20). 247
Для вывода неравенства (Д.16) перепишем второе соотношение (3.23) в виде 7,- 7г+1=7|/2(7}/2 - 7ГЛ) + (7Г2 - 77Л >yj/2 " -(71,/2-7}/+21)2=М17А+1ФГ+17г Умножим полученное равенство слева и справа на у /,/4 7,/4(71/2 -7ГЛ)7;,/4 +7Ft/4(7}'2 -7f*;2l)71/4 - - 7F,/4(7,1/2 -7}/+2i)27,-’/4 =^+17Г4Ф1+1Ф;+17Г Учитывая соотношения SP7,t/4(7}/2 -7}/+2I)77,/4 =SP77,/4(y*/2 -7,/+21)7t/4 =Sp71/2 - Spy}'2,. 5р7ГФ,+ 1Ф;+17?/4=Ф,+ 17Г2Ф;+1. Sp7,-t/4(7,,/2-7}/21)277,/4>0( приходим к неравенству 2 (Spy1/2 - Spy/Д )>/.г+1Фг+1у/2Ф/+!, откуда s 1Фг+17(3/2Ф/+1 < 2(Spyt/2 - Spy/2,) < 2SpyJ/2. r= 1 что доказывает (Д.16). Лемма доказана Вычислим приращение функции ^’(^-тГу^^-т) (Д.18) на траекториях системы (3.23). Имеем И,+ 1 = |2 - 2e,+Ib(V)e,+ I + + 2w,+ 16(V)ef+1 - Фг7»-1Ф*й?+ь (Д 19) где введено обозначение Q+i =wf+1- vvf+1 (Д.20) и учтено, что в силу соотношений (3.31), (3.23), (3.12) выполняются равенства ИРХ/и =Фг(тг+1 - т), ФгО> - т) - 6(V)ef+1 - Фг7г-1 Ф*^г+1. ^r+i =?z+i - ФГ/+1 =A,(2,+ i -Фгтг). (Д21) Вычисляя в (Д.19) условное математическое ожидание, найдем Л/{И,+ | - |/>(V)ef+1|2 + 2ef+1Z>(V)er+1 |W0 = = Vt +2а^Ф,7,Ф? - - Ф,7г- 1Ф*иМ + (iv/+i - Ltwt+l )2]. (Д.22) 248
При выводе (Д.22) воспользовались формулами (Д.13), (Д.16) и учли,что c.b.w/+i - Ltwt+\ Hwr+j стохастически независимы, а помеха {wt} удовлет- воряет условию 3 теоремы. Введем функцию 2,= S [2екЬ(у)ек - р I*(V)q|2 -ре|], (Д.23) к- 1 где р - некоторое положительное число. Используя (Д.22), можем написать м{к,+, +е,+1 +/б‘4|иО < А = 1 <(И,+а+Р S + (Д.24) А'= 1 Лемма 4Д.2. В условиях теоремы 4.3.1 при достаточно малом р > 0 для произвольной числовой последовательности {q} выполняется неравенство \rfQt >-<*>, (Д.25) где величина Qt определяется формулой (Д.23) при р = 1. Доказательство леммы. Выберем р > 0 из условия inf [2 ReZ>(X) - р - | b(X)12 ] > О, (Д.26) 1X1=1 что возможно в силу (3.31). Введем величины yt = et- кЫ^уе,. ut = -ре, + к~'Ц$)е,, где обозначено к = p~l (1 — 1 — р). Очевидно, что у,, ut связаны соотно- шением [-р + к -1 d(V)b = [ 1 - k*(V)]m,. (Д.27) причем Qt = S y^Uk' (Д-28) k = 1 Согласно частотной теореме [19] для существования постоянной q, такой, что неравенство 2 Укик + <7 > О (Д.29) к= 1 имеет место при всех Г, достаточно выполнения частотного неравенства при всех X , | X | = 1. Неравенство (Д.ЗО) эквивалентно (Д.26). Из (Д.29) следует (Д.25). Лемма 4Д.2 доказана. 249
В силу леммы 4 Д.2 выполнено неравенство inf(Kf+1 +ef+i +р rs’e|)>-oo (Д.31) t с вероятностью 1. Разделим обе части неравенства (Д.24) на величину ( Sp yf1)1/2 . Поскольку (Sp 7,‘* )t/2 > (Sp 7,-21 ),/2 1Ф* Ф/7г-1Ф* хЛ,_1' " (Sp7,’2,),/2 ’ где Л,^ ] - наибольшее собственное значение матрицы 7,"2, , то в силу леммы 4.Д.1 выполнено неравенство S ML, t= 1 Ф/7г-1Ф* (SP7,-2i),/2 (Д.32) Тогда неравенство (Д.24) показывает, что сэ. Vt + Qt + Р 2 4 fc =------------ (SP7F‘)’/2 (Д.33) образуют последовательность, удовлетворяющую условиям теоремы 1.П.1. В соответствии с этой теоремой с вероятностью 1 существует lim Г, = Р,, (Д.34) 00 где с.в. V* с вероятностью 1 принимает конечные значения. Следовательно, с вероятностью 1 выполнены неравенства _ (т, - т)*7,-21(т, - т) 1ПП ; < о°, Г— (SP7t"2i)1/2 (Д.35) lim (Sp7/1)_,/2 S e2<°o. (Д.36) Лемма 4Д.З. В условиях теоремы 4.3.1. с вероятностью 1 справедливы неравенства Ci < lim y-Sp'y,1 < lim — Spyr-1 <C2 f-+ao * oo t (Д.37) где СС2 - некоторые положительные постоянные. 150
Доказательство леммы 4Д.З. Запишем соотношение (3.18) в виде JQ+1 = Bxt + ba($)yt+1, (Д.38) где xt =col(wr..Wr-W+1), -b\ —b2 1 о ~bn-i ~ьп о 0 1 0 0 В = 0 0 ... 1 0 Так как полином b(X ) не имеет корней в замкнутом единичном круге, то для матрицы В выполнены неравенства \Bf |<Qp', z= 1,2,..., (Д.39) с некоторыми положительными Сд, Р, Р < 1. Из (Д.38) в силу (Д.39) полу- чаем |хг+112 < 2\В<Х112 + 2 \ * \Bkba&)yt_k+x |2 < & = о _ - 1 2 < 2Сдр2,|Х| |2 + 2Сд ( S рк I ) < к=0 < 2С£р2'|х> |2 +2Ср max |а, |2 ('s 'рк S 1 А i к=0 1=0 Учитывая, что р < 1, после элементарных выкладок получаем оценку - S |хЛ|2<2С^|х,|2 —-—+- S 4 1 к=1 1 “Р t fc=i с некоторой положительной неслучайной постоянной С > 0, определяемой постоянными Cff, р и коэффициентами полинома а(Х). Переходя к пре- делу при Z со и учитывая очевидную оценку |хг | 2 > | wt I 2, получим, что с вероятностью 1 выполняется неравенство о2, = lim у S 11Ш Т ук. (Д.40) Г~>00 к = 1 00 к = 1 t t Поскольку Spyj*1 = S |Ф£|2 > S у2к, то первое неравенство (Д.37) к = 1 к = 1 установлено. В силу устойчивости формирующего фильтра (3.2) с вероят- ностью 1 при некоторых Cj > 0, С2 > 0 выполняется неравенство t t £ у^ С\ + С2 S к = 1 к = 1 251
Учитывая неравенства г t t S w2k < 2 S e'i + 2 S w2k, к = 1 к = 1 к = 1 Spy;1 = s |ф*12 + Spy-/ < S y2k + S w|+Spy]’, к = 2 к = 1 к = 1 можем утверждать, что неравенство / s' е‘\ Sp у,-’ 11—2 7 -1-— < С, + Сг s (Д.41) \ Sp у/1 ) к = j выполняется при некоторых постоянных Сь С2. Нов силу (Д.36) и перво- го неравенства (Д.37) lim (Sp 1 )-1 S е| = О, f-*°° к = 1 поэтому с учетом (3.18) из (Д.41) устанавливаем второе неравенство (Д.37). Лемма 4 Д.З доказана. В силу леммы 4.Д.З из (Д.35) следует, что Пт (г, - т)‘ (rt - т) = 0. (Д.42) I —* оо t ^{иже будет показано, что в условиях теоремы матрица Г1 yfj j предельно невырожденна, т.е. с вероятностью 1 выполняется неравенство JimrVj >0 (Д.43) Г-*оо (неравенство для матрицы понимается, как обычно, в смысле квадратич- ных форм). Из неравенств (Д.43), (Д.42) следует, что с вероятностью 1 выполняется предельное соотношение (3.25). Таким образом, для завершения доказательства теоремы осталось установить неравенство (Д.43). Докажем предварительно ряд вспомогательных утверждений. Лемма 4Д.4. Пусть {et} - произвольная последовательность скалярных независимых с.в. со свойствами Met=Q, Ме2=а2е>0, (Д.44) причем с вероятностью 1 выполняется предельное равенство limjs4 = o2. (Д.45) Г-*«» к = 1 Пусть {vt} - произвольная последовательность скалярных с.в. таких, что при каждом t с.в. vt и et независимы. Тогда при любом числе рс вероят- 252
ностью 1 выполнены равенства lim j- 2 [pekvk +1^] = lim у- S v2k, (Д.46) IM T S [Pekvk + vk] = lim 7 2 (Д.47) Г-**» ic = 1 t-*°° 1 k = 1 Доказательство леммы 4 Д.4. Достаточно рассмотреть реали- зации, для которых vt 4 0. Обозначим ( S Vkek) -------. (Д.48) t 3/2 ( S v2k +77* ) к = 2 В силу независимости с л. Vf+1 и имеем M{rr+11v'+1, е{ } < rt +-V-1±L^.----- . (д.49) Г+1 9 .3/2 к = 2 Еслив (Д.16) принять Фг = vt, то в силу (Д.15) t - 1 7;’= Sp^ + у]1, = , * = 2 2 к =2 и неравенство (Д.16) означает, что сходится ряд '=2 ( s h'Vp^ + t;1 )1/2 к=2 к=2 а потому выполнено неравенство 00 р? S м------------------ < со. (Д.50) t - 2 t ( s ,р|+7-11)3/2 к = 2 В силу теоремы 1.П.1 из (Д.50) и (Д.49) следует существование с вероят- ностью 1 конечного предела limrr=r#. (Д.51) f —*оо В силу (Д.51), (Д.48) на событии { S = 00} соотношения (Д.46), к =2 253
(Д.47) выполнены. На событии { S < 00} имеем в силу (Д.51), (Д.48) к=2 t s ekvk к = 1 при t -> т.е. вновь выполнены соотношения (Д.46), (Д.47). Лемма 4.Д.4 доказана. Перепишем уравнение (3.23) в виде a($)yt = [b(V) - 1 ]iv, + (b(V) - 1 ]er + wf. (Д.52) Вводя обозначения xt = col(^r_1...yt-n, wt-\>..., wr_n), (Д 53) = [b(V) — 1 ]ef, т?/ = Фг_ j (тг - г) (Д.54) и учитывая (Д.52), для вектора (Д.54) получим уравнение хг+1 = Лхг + Я(т?' + wr) + Cr?'/ , (Д.55) -Д1 -а2 .. • ~ап - 1 —дл ь, ••• ьп- 1 ьп 0 1 1 0 ... 0 0 0 . ... 0 0 0 0 0 1 ... 0 0 0 . .. 0 0 0 0 0 0 . . 1 0 0 . . . 0 0 ,с= 0 0 , (Д.56) 0 о . .. 0 0 0 . . . 0 0 1 1 0 0 . . . 0 0 1 . . . 0 0 0 0 0 0 . . . 0 0 0 . .. 1 0 0 0 Здесь учтено, что в силу (Д.21) wt = + l^(V) - 1]Q + Ф/_ j(Tt - T)=wt + ?i't rit9, Вейлу (Д.54), (Д.36) и (Д.21) с вероятностью 1 выполняются неравенства (sP7;,)-1/2 S i^i2<~, к - 1 [ф*-1 (т* - т)]2 < I I2 < max bj S I ek 12. i 1 = 0 Поэтому в силу (Д.54), (Д.36) с вероятностью 1 выполнено Шп (Sp у,’1 )’1/2 S | г/* |2 < Г-* « к = 1 254
Таким образом, для величины Vt=Bvi+Cv" (Д.57) с вероятностью* I выполнено неравенство lim (Sp Tf1 )~’/2 S | Vk I2 <°°-. (Д.58) «> k = 1 Итерируя уравнение (Д.55), можем записать 2п - 1 2 п - I хг =Л2"хг_2й + S AkBwt-k-\ + Е Akvt-k-i- (Д.59) /с~ О Л = 0 Умножая (Д.59) скалярно на произвольный вектор а, получим a*xt = vt + et + , (Д.60) где 2п-1 А2пХ[_2п> = S a A к=0 (Д.61) 2л-1 et = Z a*AKBwt_k_i. к = 0 С помощью элементарных выкладок имеем Z (а*х*)2>4 <Ук+ек)2-2 £ & (Д-62) К = 1 к=1 к=1 Из (Д.61) следует, что при каждом t с.в. и et независимы. Покажем, что в условиях теоремы 4.3.1 с.в.ег удовлетворяют условиям (Д.44) — (Д.45). Из (Д.57) следуетMet = 0. Далее, очевидно, что в силу (3.3) 2п~ 1 Ме2= S \а*АкВ \2о„ = о2 (Д.63) к=0 и с вероятностью 1 выполняется соотношение 1 00 lim -т S е2к = и2. к-1 Покажем, что а* > о Лемма 4Д.5. В условиях теоремы 4.3.1 пара {А, В}, определяемая фор* мулами (Д.56) .управляема, т.е. матрица Л = || В, АВ,..., А2'1-1 В II неособая. Доказательство леммы. Известно, что управляемость пары { А, В} эквивалентна следующему условию: матрица Л* не имеет ненуле- вых собственных векторов, ортогональных вектору В [19]. 255
Пусть г = col (г i, ...» г п, гп +1, г 2п) - некоторый собственный век- тор матрицы А * для собственного значения д: А *г = дг и . В* г = 0. (Д.64) Расписывая в силу (Д.56) покомпонентно первое уравнение (Д.64), получим +Г2 = ДП, ~аП-1Г1 + гп = -апг) = р.гп, Ь\Г 1 +6i + 2 = ЯгЯ + 1» (Д.65) Ь)1- 1^1 + Г2/1 - ДГ2И- 1» ЬпГ 1 = Мг2и- Отсюда, предполагая д Ф 0, находим ГЛ=-Д*-* S I = к И (Д-66) 2 bifi-'ri, к=\,...,п. 1 = к Следовательно, собственные значения д Ф 0 матрицы Л* определяются из уравнения X я/д_/ = 0, / = о и компоненты гf, I = 1, .., 2л, соответствующего собственного вектора г определяются соотношениями (Д.66) при произвольном выборе числа Г1 0. Второе равенство (Д.64) при этом (см. (Д.56) записывает- ся так: rj +гл + 1 = 0, и последнее равенство (Д.66) переписывается в виде X ^д"/ = 0, / = о т.е. число д -1 является совместным корнем полиномов а (Л), Ь(Х), что противоречит первому условию теоремы 4.3.1. Итак, при д Ф 0 не сущест- вует ненулевого вектора г, удовлетворяющего равенствам (Д.64). При д = 0 соотношения (Д.65) дают г i = 0 (поскольку |дг<| + |/>л|¥=0) и, следо- вательно, г2 - ... = гп = 0, гл+2 = гп + з = ...= г2п =б. Но второе соотно- шение (Д.64) дает гп +! = 0 и потому г = 0. Таким образом, соотношение (Д.64) не выполняется ни для какого ненулевого вектора г, что доказы- вает лемму 4.Д.5. 256
Итак, величина в (Д.63) положительна, поскольку в силу леммы 4 .Д.5 2и-1 S \a*Akb\2>XRR*\a\2, (Д.67) к = 0 где - наименьшее собственное значение положительной матрицы RR* . Учитывая формулы (Д.61) и неравенство (Д.62), в силу леммы 4.Д.4 получим неравенство lim у S (а***)2 >4 lim у 2 е2к - 3 lim у S Г-*°° к=1 к-\ t—°° к=1 Учитывая теперь соотношения (Д.58), (Д.37), (Д.63), (Д.67), убеждаемся в справедливости неравенства lim -J- S (a’xk)2>^XRR*o2w |а|2. (Д.68) к = 1 2 Поскольку вектор Ф* является частью вектора (Д.53), то из неравенства (Д.68) следует неравенство Jim 7 2 (Д-69) где / - единичная матрица соответствующей размерности. Из (Д.69) сле- дует (Д.43) в силу (Д.15), что завершает доказательство теоремы 4.3.1. 4Д.4.° Доказательство теоремы 4.3.2. В значительной степени доказа- тельство теоремы 4.3.2 повторяет конструкции, использованные при дока- зательстве теоремы 4.3.1 и лемм 4.3.1 - 4.3.2. Из (3.33) имеем | тг+1 - т |2 < | Tt - т |2 + 2Ltyt-i(zf+I - Ф»т,)Фг(тг - т) + + L 2t 7 К1 । Ф? I2 (*г+1 - W • (Д-70) Определяемый формулой (3.31) прогноз в силу (3.33) можно пред- ставить в виде w,+I =£f(zf+i - Ф,тг). (Д-71) Используя это соотношение и (3.33), несложно убедиться в справедливости формулы Ф,(т, - т) = b(V)Q +, - 7г-1 I ф? I2 , (Д.72) где Q+i =vvr+i - H'r+i- (Д-73) Формулы (Д.71) - (Д.73) позволяют переписать (Д.70) в виде |тг+1 - т|2 <|т,- т|2 +2yt~iWt+ib(V)et+i - - 27г_ 1 et+ld(V)e/+1 - 7?-1 IФ?I2 w2+1. (Д.74) 257
Также несложно проверить формулу M(wf+1ef+1 | w'} = Ltyt_i | Ф*|2с^. (Д-75) Вычисляя условное среднее в (Д.74) и воспользовавшись формулой (Д.75), получим М{| тг+| _ Т |2 | } <|Tf - т |2 +2£Г7?_! |Ф?|2aJ, - -?7f_IM{ef+1fe(V)ez+I | } -7?-i |Ф? I2w?+i - - P7f_iAf{ef+1 | wf }, (Д.76) где 6(Х) = 6(Х)-р/2 (Д.77) и положительное число р выбрано из условия Re£(X) > 0 при |Х | = 1. В силу условий теоремы 4.3.2 такое число р существует. Тогда функция (Д.23) при д = 0 будет удовлетворять неравенству (Д.25), т.е. существует число q такое, что при всех t выполняется неравенство S e*£(V)Q+?>0. (Д.78) fc= 1 Действительно, достаточно повторить доказательство леммы 4.Д.2 при yt = et, Uf = £(V) er. Рассмотрим теперь функцию Гг = |тг-т|2+27г-2[ £ (Д-79) к = 1 Используя (Д.76) и учитывая, что j <7г-2 и (Д.78), получим М{Гг+1 | w' } < Гг - p7r- |M(era+1 | w» } + + 2L,7r-i I Ф*124 - 7?-i I (Д-80) Лемма 4Д.1 применима и для скалярных 7/, определяемых (3.33), а потому S M£,7t-i 1Ф‘12 <«• (Д-81) 1=2 Из (Д.80), (Д.81) в соответствии с теоремой 1Л.1 убеждаемся,что lim Г, = Г„, S M7f_je2+i <оо, t=2 (Д-82) S M7?-i |Ф*12 w?+i <«- t = 2 Первое из этих соотношений выполняется с вероятностью 1 и в средне* квадратичном для некоторой конечной сл. Гф. Из неравенства (Д.82) 258
следует, что с вероятностью 1 выполняется предельное равенство lim Tt_2 =0. (Д.83) t -*00 Л= 1 Действительно, для установления (Д.83) рассмотрим функцию Vt = Тг-2 €I- *=1 С учетом (3.33) имеем , + Ъ-1 2 е2к = Л=1 = vt + (ъ~г ~ э7-1)^-1 2 €к. + < к = 1 <Vt~ |Ф;_112И, + 7г-|€?+1- Используя неравенство (Д.82) и теорему 1Л.1, найдем, что с вероят- ностью 1 выполнены соотношения lim Vt = S |Ф*|2КШ< оо. (Д.84) t -► 00 г = 1 В условиях теоремы 43.2 выполняется первое из неравенств (Д.37), а потому S | Ф*| 2 = lim у-1 = °° с вероятностью 1, что в силу (Д.84) Г = 1 - t -> 00 означает = 0, т.е. выполнено (Д.83) . Поскольку (2 €k€k-i)2 < S €* S €к-1> Ук < Ук — 1 к к к при каждом натуральном I, то из (Д.83) следует t lim т,_2[ S e*fe(v)ek + <?] = 0, t -* « /1=1 а потому равенство (Д.82) означает, что & вероятностью 1 существует предел lim |т,-т.Р = 0.. (Д.85) f —> оо Кроме того, равенство (Д.83) влечет справедливрсть утверждений лем- мы 4.Д.З для рассматриваемых скалярных yt (нужно лишь в конце до- казательства леммы вместо ссылки на неравенство (Д36) сослаться на равенство (Д.83) ). Поэтому с вероятностью 1 выполнено lim tyt > С (Д.86) t -* оо с некоторой положительной сэ. С. Из (Д.21), (Д.83) тогда получаем Ito — S [Ф*(т*+1 - т)Р = 0. (Д.87) t оо t /1=1 259
Покажем, что при любом натуральном I с вероятностью! выполняется также равенство Hm - S [Ф*(т*-/-т)]2 = 0. (Д.88) t -* 00 t к- 1 В силу (Д.87) для этого достаточно показать, что Tta — S [Ф*(тк+1 - т*_,)J2 = 0. (Д.89) t -* 00 t к~ 1 Из (3.33) с учетом (3.20), (Д.71) следует 1тг + 1 - Tf_,|2 < S Фк‘1212*+1 - Ф*т*12 = k-t-l = 2 7*-i1Ф£12, (Д.90) k=t-l где учтено, что ir(2r+i - ФгТг) = Wt + i. (Д.91) Из (Д.90), (Д.82) в силу последних неравенств получаем S М|т, + 1 - тг_/|2 < оо. (Д.92) r=z + i Неравенства (Д.92) и (Д.37) после очевидных рассуждений приводят к предельному неравенству (Д.89), выполненному с вероятностью 1. Таким образом, сротаошение (Д.88) установлено. Воспользуемся теперь конструкцией, примененной выше при уста- новлении неравенства (Д.43), но вместо постоянного вектора а в форму- лах (Д.60), (Д.61) и далее выберем нормированный, случайно изменяю- щийся во времени вектор at, а = at, |af|= 1. (Д.93) Вектор at будем предполагать независимым от св. wr~2zj+1. Для такого вектора величина et, определяемая формулами (Д.61), (Д.93), имеет положительную дисперсию: 2л — 1 Me2t = М S AkB\2G2„ > hRR*o2w , fc=0 где — величина из неравенства (Д.67). Однако теперь с.в. е2 не рас* пределены одинаково и мы не можем воспользоваться формулой, сле- дующей непосредственно за формулой (Д.63). Однако с учетом сущест- вования четвертых моментов у св. wt нетрудно убедиться в справедли- вости с вероятностью 1 неравенства ~ *?, ^акхк^ > ^RR*°l > °- (Д.94) 260
Поскольку вектор является частью вектора (Д.53), то можно так выбрать at, чтобы выполнялись соотношения Ф,(Гг-2»~ Т) I Tt-2n -Т | (здесь предполагается, что тг_2л т, в противном случае в качестве at можно взять произвольный нормированный вектор). Неравенство (Д.94) тогда принимает вид lim S t 00 t к- 1 |ФИП-2Я-Г)Р |Т,_2„-Т|2 0. (Д-95) Предположим теперь, что св. 0* в (Д.85) с положительной вероятностью отлична от нуля. На реализациях, где 6* > 0, неравенство (Д.95) преобра- зуется к виду .. 1 Z |Ф*(’Ч-2и - т)|2 lim— X "----------------- t 00 t к= 1 е что противоречит равенству (Д.88). Отсюда следует, что 0, = 0с вероят- ностью 1, т.е. установлена сходимость (3.34) с вероятностью 1 и в сред- неквадратичном. Теорема 4.3.2 доказана. 4Д.5°. Доказательством леммы433.Введем д.-р.ф.Я(Х) соотношением a(X)b~l (X) = Ь~1 + Х#(Х). (Д.96) Формула (Д.96) определяет в силу (335) соответствие между множеством SR и множеством произвольных устойчивых (т.е. не имеющих особеннос- тей при | Х| < 1) д.-р.ф. Я(Х). (Это соответствие взаимо однозначное.) Перепишем функционал (3.40) в виде /ч at t . JX И'(т) =—- f [Я(Х) + П(Х)Я(Х)] ^(Х-1) + П(Х”,)Я(Х”1)] —, 2тп X где П(Х) = [я'(X) , Я(Х) = X"1 П(Х)^”1. Здесь использовано соот- ношение Z>(X)Z>(X"1) = (Д97) непосредственно следующее из определения устойчивой модификации />Ш(Х) полинома Z>(X). Как и при доказательстве теоремы 3.1.1 (см. п. З.Д.1°), находим, что И'(т) достигает минимума при я = *'♦(*) - Ь'.Юа'Ю XZ>Z\(X) откуда в силу (Д.96) получаем равенство g(X) ^(0) а (X) £(Х) ь~ К»' 261
Таким образом, минимум И7 (т) достигается в ® и равен И'(то) = min W(t) = a2w(b',(0)b~1)2. ад Покажем, что grad =# 0 при т =# т0. Вычислим вариацию функционала (3.40) при варьировании Я(Х) в классе устойчивых д.-р.ф.: а о w SW(t) =---f 1U ^(Х)МХ-1) aV1) trrz44dX -------:--- ------0/7 (Л)--. *(W) S(X“!) х (Д.98) Если при Я = Я(Х) функционал (3.40) достигает стационарного значения, то SW = 0 для произвольной устойчивой д.-р.ф. 6Я(Х). Это означает, что д.-р-ф- г(Х) = ь'А*1) а'(Х-') (Д.99) не имеет особенностей при |Х|< 1. Пусть р = degZ>,(X), q = dega(X). Тогда в силу (335) функции Х₽6',(Х-1), Х₽Ь(Х"1) Х’д^Х"1), Хчл(Х~') являются полиномами степеней р n^q соответственно, причем все корни полиномов \РЬ'*()С'), \qa (X-1), Xpb (X”1) расположены в единичном кру- ге. Пусть Х^Х'1) = ХР>£(Х), XV(X”!) = XQ>2(X), (Д.Ю0) где для полиномов £> (X), а(Х) выполнено Ь(0) Ф 0, а(0) =# 0. Из устой- чивости д.-р.ф. (Д.99) в силу взаимной несократимости полиномов (Г(Х), Z?(X) следует, что все корни полинома £(Х) должны являться корнями полинома Х^'ДХ”1), т.е. \pb'JKx} = /3(Х)&(Х) (Д.101) с некоторым полиномом /?(Х), deg 0(Х) = рх. Аналогично убеждаемся, что должно выполняться соотношение \яа(Х') = <х(Х)а(Х) (Д.102) с некоторым полиномом а(Х), dega(X) = qx. Тогда функция (Д.99) при- нимает вид г (X) = Х-р»-«‘а(Х)0(Х). Так как dega(X) + deg 0(Х) = рх + qx, то функция г (X) не имеет особен- ностей при I Х| < 1 лишь если a(X) = a XQ1, 0(Х) = /?Хр», где а и/? - неко- торые постоянные. Из соотношений (Д.100)—(Д.102) выводим тогда \рЬ(Хх) = /Г1 Х^Х"1), XV (X’1) = a”1 Xя а (X1), откуда с учетом (3.35) следует, что 2(Х) = а (X), Ь(\) = [^(О)]’1* Ь'Ш(Х), т.е. стационарное значение функционала (3.40) достигается только в точке минимума. Лемма доказана. 4Д.6°. Доказательство теоремы 433. Предварительно докажем вспо- могательное утверждение. 262
Лемма 4Д.6. В условиях теоремы 4.3.3 для функций wf (т), Pf(r), Vt, определяемых уравнениями (3.43), (3.45), (3.47), (3.48), при любом т Е Т' выполнены неравенства sup М w?(r) < sup М | Vt (т)| 2 < °°, t t (Д.103) sup М | Wt (т)| 2| Vt (т)| 2 < оо, M^,k^Ttk) ~ <cptk> (Д.Ю4) <ср1к> (Д.Ю5) sup М |wfJ2| И,*|2 < oot (Д.Ю6) где Сир - некоторые положительные постоянные, р< 1. Доказательство леммы. Из уравнении (3.42), (3.43) следует соотношение а(У> т)Ь(У, r)wf(r) = a(V, r)Z>(V, r)wf. (Д.107) Передаточная функция Я(Х) уравнения (Д.107), Я(Х, т) = а(Х, т)Ь(\9 т) [а(Х, т)Ь(\, ?)]-*, устойчивая д.-р.ф., а потому Я(Х, т) = S йк(т)Х*, (Д.108) к=0 причем ряд в (Д.108) сходится равномерно при |Х|< 1 + е для неко- торого е > 0. Поэтому для wf (т) справедливо представление *,(?) = 2 hk(r)wt_k. (Д.109) *=о Из (Д.109) с учетом (3.38) находим М | wt (т)|2 = 2 Л2 (т), *=о М | (?)| 4 < а4 2 Л4(?) + а4 [ 2 Л*(т)]2< * = 0 fc = 0 Аналогичные рассуждения справедливы и для уравнения (3.45). Здесь также имеет место представление М?) = 2 Vk(r)wt_k, (Д.110) £ = 0 но коэффициенты Vk — векторные величины. Из (Д.110) находим М|И,(т)|2 = a2w S |Ик(т)Р. *=о М|Й,(?)|4<а4 S |Kk(?)|4+ a4w[ S | Ук(т)\2]2 < -• *=о к=о 263
Таким образом, 2М | w, (т)| 2| Г,(?)|2 <Л/|н',(т)|4 + М\ Йг(т)|4< “ и неравенства (Д.103) установлены. Если (yt) — стационарный процесс, определяемый уравнением (3.42), и {yt} - произвольная последовательность, удовлетворяющая этому же уравнению, то для с a. et =yt -yt имеем а (V, г) et = 0. В силу устойчивости полинома а (X, г) отсюда стандартными рассуждениями выводим оценки Af|jf-7rl2 < Ср(М 17, -J, |2, д t д (Д-Ш) М \yt-yt\ ^Ср’М |j1 -у, | 4 с некоторыми положительными постоянными С, р, р< 1. Используя (Д. 111) из уравнений (3.47) и (3.43) находим Z>. (V, (r,_|)-w,] = Z>. (0,rf_ i)a(V,rf_ i)ef . (Д.И2) Поскольку т^Т'иТ' — компакт, то коэффициенты полинома Ь* (0,т,_ i)a (X, Tt_ i) ограничены некоторой детерминированной постоян- ной, а потому функция v, = b, (G,Tt-i)a(V,rf-i)ef удовлетворяет неравенствам Mv2t<CpfMv\, Mvf^Cp'Mvt (Д. ИЗ) с некоторыми постоянными С, р, р < 1. Предполагая, что tк < t < tk + x. перепишем уравнение (Д. 112) в виде = Л (rtk)xt + Bvt+i (Д. 114) относительно векторах, = col (ё,, i,..., €,_р), где е, = vvf (r,fc) - w,. В силу устойчивости полинома b* (X, т,к)для матрицы А (т,*)при любом 5 > 0 справедливо неравенство МЧтг,)1 <Ckpt (Д.115) с постоянными Ckipk,pk <р< 1, зависящими от г,*. Итерируя уравнение (Д. 114) и используя неравенства (Д. 115), найдем lx,k+1 1<СНрЛ + * *1*г*1 + 2 pM^-JL (Д. 116) В силу компактности множества Т ? имеем sup Ск < °°, а поскольку к lim (rk+1 -rk)=«>,топридостаточнобольшихАгвыполнено Ckptk*{ ~ tk < < р/2 < 1. Поэтому из (Д. 116) с учетом (Д. 113) выводим неравенство M|x,k + 1 |2 <р2 М | xtk |2 +Ср,к--------- (T* + 1 -tk). 264
Итерируя полученное неравенство и учитывая вид вектора xti убеждаемся в справедливости неравенства (Д. 104) с некоторыми постоянными С, Р> р< 1 ( постоянная С, вообще говоря, зависит от выбора начальных данных в уравнениях (3.42), (3.47)0. Вычитая из уравнения (3.48) уравнение (3.45), для функции ег 3 Vt - Vt (Jtk) при tk < t < tk + i получим уравнение (V,rffc) Tt =r)t, где вектор-функция Г b. (V, тг.) ] _ Л т?г = 6. (О, Tt ) grad т ———[ wt (rt ) - w,] - L b,(O,rtk) J - b, (0, Ttk) [grad T a (v, t,*)) [ yt - yt] в силу (Д. Ill), (Д. 104) удовлетворяет неравенствам Л/|т?,12<Ср', М |TJrl4< Ср* с некоторыми постоянными С, р, р < 1. Далее, повторяя рассуждения, связанные с неравенством (Д. 104), убеждаемся в справедливости неравен- ства (Д. 105). Неравенство (Д. 106) является очевидным следствием неравенств (Д. 103) - (Д. 105). Лемма доказана. Приступим непосредственно к доказательству теоремы. Воспользуемся условием 4 теоремы при t' = tk, t" = tk + i: И'О* +1) < + [grad W(rtk)J * (rtk + J - Ttk) + + C |7ffc + 1 -Ttk |2. (Д. 117) В силу выпуклости множества Т' из (3.49) имеем 'г'* + 1 ~т'к 12<Т* 1^гЛ + 1 |2 | Vtk + i |2. В силу условия 1 теоремы и неравенства (Д. 106) убеждаемся, что Z у2к М |т,Л + 1 -тгк |2<°°. (Д.И8) Учитывая неравенство | РТ' г” - Р^т’ | < | г” - т |, справедливое для произвольных/, г" € Т'в силу выпуклости Т', можем получить следую- щую оценку второго слагаемого в правой части (Д. 117): (grad ^(т^), rffc + 1 - rtk)<, < [grad W (rtk)] *{ РГ [т,Л - yk wtk +1 (rtk) Vtk +, (rrjt)] - rtk } + + yk | grad W (rtk) 11 wtk + (rtk) Kk + , (r,A) - wtk +, V,k +, I. 265
В силу неравенства (3.51) при ук < ?0 с учетом (3.46) имеем М [grad » W(Ttk) ] * { [rfjk - yk wt (rtk) Vt - rtk} < < - у I grad И'(т,к)|?. Далее, в силу леммы 4Л6 справедливо неравенство м {I iv,k+i (rfk)Fffc+1 (T,k)-wffc + 1 Kffc + l 11 Ttk}< Cp,k с некоторыми детерминированными Ct p, p < 1. Поэтому M {[grad fV(rr/c)] ’ (Tfjt + j - Ttk) | Ttk } < < “ — I grad W(rt ) I2 + Cyk ptk , 2 K где учтено, что sup | grad W (т) | < С < °°. ?еГ Вычисляя условное математическое ожидание от обеих частей неравен- ства (Д. 117) и собирая полученные выше оценки, находим М ( w +,) I Tfk) < MW(Ttk) - у I grad W (Ttk) |2 + + ОИ|та + 1 -Ttk |2 + Сукр*к. (Д. 119) В силу неравенства (Д. 118) можно воспользоваться теоремой 1ЛЛ, поэтому с вероятностью 1 и в среднеквадратичном существует lim И/(т,)=И/*. t —► оо Из (Д. 119) следует также сходимость ряда I grad И'(т^)!2. В силу условия 1 теоремы на некоторой подпоследовательности, которую вновь обозначим {tk } , выполнено lim grad W (rtfc) = 0. Но в силу леммы 4.3.3 это означает, что lim p(rfv То) = 0, т.е. W* = W (т). Таким образом установлено предельное равенство (3.53). Опять воспользовавшись леммой 433, убеждаемся, что сходимость р(тг., То) -► 0 имеет место на любой подпоследовательности, т.е. выполнено (332). Теорема доказана
ПРИМЕЧАНИЯ И ЛИТЕРАТУРНЫЕ УКАЗАНИЯ К Введению Интересные соображения о роли рекуррентного оценивания и оптимальной фильт- рации в различных областях науки и производства содержатся в [88, 108, 124, 134, 136,147]. Частично эти соображения автором были учтены. Современная теория рекуррентного оценивания характеризуется разнообразными способами получения процедур оценивания и методами анализа асимптотического поведения доставляемых этими процедурами оценок. Почти каждая рекуррентная процедура может рассматриваться как (стохастически) градиентная либо псевдогра- диентная по отношению к некоторому функционалу (среднему риску) [119 6, в, 4, 109 а], и в этом смысле многообразие алгоритмов оценивания определяется разно* образием возможных ’’функционалов качества”. Среди основных методов анализа свойств оценок, доставляемых рекуррентными процедурами, можно выделить сле- дующие: 1. Метод упрощенных моделей. 2. Метод эмпирического функционала. 3. Метод функций Ляпунова. 4. Метод частотных неравенств. Выделение перечисленных методов произведено достаточно условно, между ними имеются значительные пересечения, в ряде случаев анализ свойств оценок использует и комбинации этих методов. Каждый из методов нашел отражение в основном тексте книги, но степень отраже- ния весьма различна. Постараемся восполнить этот недостаток кратким описанием особенностей методов и занимаемым ими положением в теории адаптации. Метод упрощенных моделей состоит в сопоставлении исходной рекуррентной про- цедуре разностного либо дифференциального уравнения, называемого ассоциирован- ным. Такая возможность предоставляется, если в исходной процедуре удается выде- лить '’быстрые” и ’’медленные” движения и выбрать достаточно малой величину шага процедуры. Ассоциированное уравнение получается из исходной процедуры пренебре- жением некоторых флуктуирующих членов, порождающих ’’быстрые движения”, и поэтому имеет более простую структуру (описывает динамику упрощенной модели). Между процессами, определяемыми исходной процедурой и ассоциирован- ным уравнением, имеется определенная близость, что позволяет в ряде случаев заме- нить анализ свойств оценок, доставляемых рекуррентной процедурой, анализом свойств более простого ассоциированного уравнения, и такая подмена (при должном ее обосновании) составляет сущность метода упрощенных моделей. Идейно метод упрощенных моделей близок к известному в нелинейной механике методу усреднений Крылова - Боголюбова, но роль малого параметра играет убы- вающая во времени величина шага процедуры оценивания, кроме того, усреднение ’’быстрых движений” происходит не во времени, а по ансамблю их реализаций. Пренебрежение флуктуирующими членами приводит к упрощенной модели, опи- сываемой разностным уравнением. Дальнейшее упрощение достигается переходом к непрерывной модели, описываемой дифференциальным уравнением, при этом су- щественно используется малость величины шага разностного уравнения. Основополагающей работой по обсуждаемой тематике является [11], где уста- новлена сходимость по вероятности траекторий исходного разностного уравнения к траекториям ассоциированного дифференциального уравнения при стремлении к нулю шага разностного уравнения. Аналогичное соответствие между траекториями при разностном ассоциированном уравнении получено в [71]. Последовательное исполь- 267
зование и развитие метода упрощенных моделей в теории рекуррентного оценивания и адаптивного управления начато работами [23 а -е, 156, b, d, е, 166, 152]. Особенно интересен результат о том, что при малом шаге алгоритма оценивания оценки могут сходиться лишь к устойчивым стационарным точкам непрерывной модели [ 156 f, h]. В п. 2.5.8°, а метод упрощенных моделей только намечен, причем возможность пере- хода к непрерывной модели даже не обсуждалась. Ассоциированное уравнение может быть выбрано и стохастическим, что позволяет исследовать более детально вероятностные характеристики решений исходного урав- нения [23 в]. Метод упрощенных моделей (и, в частности, метод непрерывных моделей) приме- нялся при анализе свойств различных алгоритмов идентификации статических и дина- мических объектов, алгоритмов случайного поиска и распознавания, адаптивных си- стем управления, алгоритмов децентрализованного распределения ресурсов, игр авто- матов, систем массового обслуживания и т.д. Соответствующие ссылки могут быть найдены в [23 д, е]. Метод эмпирического функционала следует рассматривать не как метод исследо- вания конкретных процедур оценивания, а скорее как общий способ минимизации заданного функционала (среднего риска), зависящего от набора параметров. Способ образования минимизирующей последовательности достаточно однозначен - это точки минимумов последовательности эмпирических функционалов, но возможны различ- ные алгоритмы построения минимизирующих точек. Более подробно существо метода описано в п. 1.4.5°, а его применение к задаче идентификации динамического объекта дано в § 2.4. Отметим, что характерной особенностью метода эмпирического функцио- нала является использование различных вариантов закона больших чисел при установ- лении сходимости эмпирических функционалов к функционалу среднего риска. Эмпи- рические функционалы обычно зависят от параметров, и требуется установить равно- мерную (по параметрам) сходимость. Существенные результаты в этом направлении получены в [15,16], где установле- на (равномерная по параметрам) сходимость по вероятности последовательности спе- циального вида эмпирических функционалов и получены экспоненциальные оценки скорости их сходимости. Использование таких оценок позволило развить методы ми- нимизации среднего риска на конечных выборках и на этой основе разработать свое- образные подходы к теории обучаемых систем и к решению общей проблемы вос- становления зависимостей по эмпирическим данным. Вопроса о возможности получе- ния экспоненциальных оценок скорости сходимости мы касаемся только в п. 1.4.6°, д при обсуждении свойств оценок МНК (см. теорему 1.4.5, стр. 65). В задаче идентификации и адаптивного управления функционалы среднего риска не обладают нужными специальными свойствами, и получение подобных оценок едва ли возможно. Поэтому приходится довольствоваться более слабыми результатами, доставляемыми предельно-оптимальными свойствами оценок. Так, в § 2.4 использу- ется лишь факт сходимости с вероятностью 1 эмпирических функционалов при каж- дом значении параметра, что при наличии единственности их минимумов позволяет установить состоятельность соответствующих оценок. Значительное развитие метода эмпирических функционалов получил в работе [156 g,d]. В основе проведенного здесь исследования лежит следующий результат Крамера - Лидбеттера [122, б]: для последовательности центрированных с.в. с корреляционной функцией Rt s = удовлетворяющей неравенствам при всех t > 0, s > 0 и некоторых С > О, 0 <2р < q < 1, с вероятностью 1 выполняется предельное равенство 1 t lim — - = 0. t k~\ Использование такого варианта закона больших чисел позволило в [156 g] установить равномерную (по параметрам) сходимость, с вероятностью 1 эмпирических функцио- налов достаточно общего вида и получить законченные результаты в задаче идентифи- кации устойчивых линейных стохастических объектов. 268
Состоятельность оценок методами работы [156 g] может быть установлена и для системы управления с обратными связями, если априори известна устойчивость зам- кнутой системы. При синтезе адаптивных управлений последнее условие представляет- ся весьма ограничительным, и анализ, проведенный в [156 d, h], может оказаться недостаточным для синтеза адаптивного управления. Метод функций Ляпунова сравнительно давно используется в теории адаптивных систем для анализа и синтеза различных алгоритмов оценивания и адаптации, но его возможности и универсальность в должной мере осознаются лишь в последние годы. Можно без преувеличения сказать, что почти каждый метод исследования свойств оце- нок рекуррентных процедур в той или иной степени опирается на свойства функций, не возрастающих (в среднем для стохастических систем) вдоль последовательностей оценок. Возможности метода функций Ляпунова этим далеко не исчерпываются: он широко применяется для синтеза систем адаптивного управления и самих алгорит- мов оценивания, обучения и адаптации. В теории адаптации существует значительное число методов, которые можно отнес- ти к разновидностям метода функций Ляпунова. Отметим среди них метод скоростно- го градиента, различные варианты метода самонастройки, используемые при синтезе адаптивного управления непрерывными объектами. Эти методы в данной книге не рас- сматриваются, подробное их обсуждение проводится в [110, 5 в], там же могут быть найдены ссылки на работы, в которых получили развитие эти методы. Метод рекуррентных целевых неравенств [126 б-г, 110], приводящий к исследова- нию сходимости рекуррентных процедур с поощрением [109 а], также существенно опирается на специальные функции Ляпунова при установлении свойства конечной сходимости процедур. Метод рекуррентных целевых неравенств лежит в основе свое- образного раздела теории адаптивных систем [126, б-г, 110, 12, 5 а, б, 21,80,97 а, б, 99 б, 102,109 а, 111 а,113]. Значительное развитие в последние годы получил стохастический вариант метода функций Ляпунова. Здесь рассматриваются функции, среднее приращение которых за один шаг на траекториях марковского процесса не возрастает [73], что влечет полумартингальное свойство (или близкое к нему) на траекториях процесса и в силу теоремы Дуба (см. § 1.П) их сходимость. Соответствующий способ установления и использования полумартингального свойства у последовательности значений функции широко применяется при установлении асимптотических оценок метода стохастичес- кой аппроксимации (в том числе процедур Роббинса - Монро и Кифера - Вольфов и - ца, различных модификаций процедур МНК и т.д.), а сам стохастический вариант метода функций Ляпунова превратился в один из основных способов установления адаптивных свойств разнообразных управляющих и обучаемых систем [4, 7, 29, 36, 37 а, б, 52 а, б, 55, 66, 82, 84 а, 99, 109 а, 110, И 1, 112, 113,163]. Этот метод неодно- кратно используется в § 1.4 и в главах 2,4. Метод частотных неравенств не столь универсален, как перечисленные выше мето- ды, и получил развитие в теории адаптивных систем относительно недавно. Частотные неравенства возникли первоначально в рамках теории абсолютной устой- чивости автоматических систем регулирования. Эти неравенства обычно описывают положительность вещественных частей передаточных функций при изменении их аргу- мента в некотором множестве комплексной плоскости (как правило, таким множест- вом является единичная окружность для дискретных систем и мнимая ось - для непрерывных систем). Выполнение частотного неравенства влечет существование функций Ляпунова со специальными свойствами, что позволяет устанавливать различ- ные свойства траекторий (устойчивость, диссипативность И т.д.) соответствующей системы [145]. В этом смысле метод частотных неравенств можно рассматривать как вариант метода функций Ляпунова, однако особенность здесь состоит в том, что при установлении нужных свойств системы часто достаточно самого факта существования соответствующей функции Ляпунова, но в ее построении нет необходимости. Анало- гичная идея свойственна теории гиперустойчивости. Подробности о частотных нера- венствах и гиперустойчивости могут быть найдены в работах [19, 110] и в приведен- ных там ссылках. Для синтеза адаптивного управления метод частотных неравенств был предложен в [154, а, Ь, с, 155], где сходимость алгоритма адаптации устанавливалась с помощью теории гиперустойчивости при отсутствии помех. В [156b] для стохастического ва- 269
рианта алгоритма идентификации, предложенного в [154 с], показано, что положитель- ность вещественной части соответствующей передаточной функции играет ключевую роль для сходимости оценок, доставляемых алгоритмом. Именно, если этой положи- тельности нет, то оцениваемый параметр может оказаться неустойчивой стационар- ной точкой ассоциированного дифференциального уравнения и, следовательно, сходи* мости может не быть. Более того, выявлены условия, при которых почти на всех реализациях сходимости нет. Свойство положительности вещественной части некоторых передаточных функций возникает и в схемах оценивания, отличных от предложенной в [154 с]. Так, напри- мер, это свойство использовалось при синтезе адаптивного управления (регулятора) и адаптивного оптимального прогноза в [140- 142] (см. также [ПО]), некоторые из подобных схем обсуждаются в [156b,d,e], и для них также выявлена важность свойства положительности вещественной части соответствующих передаточных функ- ций. В данной книге частотное неравенство существенно используется в § 4.3 (см. теоремы 4.3.1 и 4.3.2). Следует отметить, что привлечение частотных неравенств (т.е. наложение дополнительных ограничений на неизвестные параметры) является не- обходимым условием разрешимости задачи идентификации лишь в рамках некоторых фиксированных схем оценивания; при других схемах подобные ограничения могут оказаться излишними. Так, решение задачи идентификации в § 2.4 не предполагает выполнения частотного условия (см. теорему 2.4.1), сходимость рекуррентной процедуры в п. 4.3.6° установлена также без привлечения каких либо частотных условий. К главе 1 § 1.1. Приведенные здесь модельные примеры постановок задач обнаружения и выделения сигналов, оценивания их параметров, построения обучаемых систем и синтеза адаптивных управлений хорошо известны в литературе. Задача обнаружения сигнала и оценка его параметров в различных постановках изучается в работах [14, 22, 31,45, 44 а, б, 54, 59, 61, 85, 91, 98, 99 в, 100, 101 б, д, 105 ]. Математическая форму* лировка задачи о разладке дается в [122 а} (см. также [18]). Задача обучения и ее связь с задачей экстраполяции функции по значениям в наблюденных точках подроб- но обсуждается в [4, 109, а, 119 б, в]. Интересные соображения о проблеме обучения высказываются в [107 г]. Теории распознавания изображений и ее многочисленным приложениям посвящена обширная литература, насчитывающая несколько десятков монографий. Кроме уже указанных работ ограничимся ссылками на [16, 25, 27, 66 а, 72, 75, 76, 104, 114, 115, 126 а]. Задача самообучения обсуждалась в [4, 120, 123, 109 а, 60 а, б, 65). Ее обобщение на случай "размытых” классов изображений имеет- ся в [131]. Поток работ по идентификации и адаптации стал практически необозримым. Отме- тим лишь следующие работы по идентификации: [2,32,35,41а, 6,62,69,79,82,87, 88, 95, 117, 137, 138, 144, 149, 156 d,e, 159, 164, 168, 171] и адаптивному управлению [10, 12, 23, б, в, е, 38, 50, 51, 57 а, 70,74, 89 б, г, 93,94,97 а, б, 99, а, б, 102,107 а-в, 109 б-г, 110, 112, 113, 119 б, 126 б-г, 129, 140-142, 150, 154 Ь, с, 155, 158, 173]. Адаптивному управлению марковскими процессами посвящены работы [99 а, б, 20, 23], там же можно найти ссылки и на другие работы в этом направлении. § 1.2. Изложение п.п. 1.2.1°-1.2.3° следует [66 а, 109а), п. 1.2.4° основан на [61]. § 1.3. Приводятся в переработанном виде некоторые разделы работ [124, 92]. § 1.4. В п.п. 1.4.1° -1.4.5° приведены стандартные сведения из теории оценивания, которые в более подробном изложении можно найти, например, в [124, 23]. Леммы 1.4.1 и 1.4.2 даются в несколько ’’усовершенствованном” виде. Лемма 1.4.3 - простей- ший пример на применение стохастического варианта метода функций Ляпунова. П. 1.4.6° основан на работах [109 а, б, ПО]. Теорема 1.4.2 - незначительная моди- фикация основного утверждения из [84 а], теорема 1.4.5 получена в 111 б]. Иссле- дование процедур MCA при коррелированной помехе проводится в [5_ а, б, 121 а, б, 127,156 c-h,160а,Ь]. Теорема 1.4.4 представляет собой утверждение, хорошо известное в рамках факторного анализа. ’’Персептронная” интерпретация теоремы 1.4.4 (см. форму- лы (1.4.75)) дается, видимо, впервые. 270
К главе 2 § 2.1. Задача обучения представляется более простой по сравнению с задачей адап- тивного управления, поскольку в ней обычно допускается предположение о независи- мости ’’указаний учителя” от предыстории процесса обучения. В системах управления процесс адаптации существенно зависит от характера обратных связей в контуре управления, а само управление, по терминологии А.А. Фельдбаума, является дуальным (двойственным), так как ’’управляющие воздействия должны быть в известной мере изучающими, но в известной мере направляющими*' [107 в], а эти цели далеко не всегда согласованы. Если объект уже охвачен устойчивой обратной связью, то аспект управления отходит на второй план и остается задача идентификации. В задаче иденти- фикации текущие оценки не используются в процессе управления, что значительно облегчает их исследование. Исследование обучаемых систем позволяет не только полу- чать результаты при решении содержательных задач адаптации, но и подготовить почву для применения развитых здесь методов при решении более сложных задач адаптив- ного управления. В данном параграфе задача обучения решается в рамках метода рекуррентных целе- вых неравенств [126 г, 109 а], но упор делается на стохастический вариант задачи обу- чения. Материал § 2.1 представляет собой расширенное воспроизведение статьи [111а]. Случайный поиск с линейной тактикой и его связь с гомеостатом Эшби обсуждает- ся в [89 б, г] (см. также [81 а, 89 а, в, 90], где случайный поиск рассматривается как один из самых мощных способов оптимизации сложных систем). Теорема 2.1.2 явля- ется переформулировкой известных утверждений о марковских цепях с поглощаю- щим состоянием (см., например, [42,92, 122 б]). Применение цепей Маркова к рас- чету экстремального регулятора дается в [81 а, б]. § 2.2. В [120] задача самообучения примерно в той же постановке решалась в пред- положении одноэкстремальности функционала среднего риска, что неестественно для приложений (см. по этому поводу [109а], с. 180, 222). В частных случаях решение поставленной в п. 1.1.7° задачи самообучения получено в [4 60 а, б]. § 2.2 следует работам [66 а, б, 65], замечание о возможности доказательства теоремы 2.2.1 с по- мощью теоремы 1.4.2 принадлежит В.А. Бураго. § 2.3. Байесовская идеология полезна в различных задачах адаптации [8, 33, 47, 59, 91, 98, 101 д, 107 а-в, 108, 116]. Слабое место байесовского подхода - необ- ходимость знания априорного распределения - становится несущественной при не- ограниченном увеличении объема наблюдений: при достаточно общих условиях апо- стериорное распределение оцениваемого параметра асимптотически не зависит от априорного распределения. Один из первых результатов подобного рода получен С.Н. Бернштейном и Р. Мизесом (см. [59], кн. 3, с. 207, а также [132]). При иссле- довании адаптивных стратегий в управляемых марковских процессах подобный ре- зультат установлен в [33]. В § 2.3 приводится переработанное и дополненное изложение некоторых разделов монографии [98]. Рекуррентное вычисление отношения правдоподобия основано на установленном Р.Л. Стратоновичем законе преобразования апостериорных плотностей вероятности марковских процессов [101 а — г], представляющем собой центральный результат теории нелинейной фильтрации [14, 101 б, д, 103, 134, 153]. Лемма 2.3.2 может быть найдена в [24]. Теорема 2.3.2 существенно опирается на результаты работы [33], информационное число Кульбака - ЛеЙблера широко используется в математической статистике (см., например, [28]). § 2.4. Метод эмпирического функционала во многих отношениях можно рассмат- ривать как обобщение ММП. Плодотворность ММП для формирования разнообразных алгоритмов оценивания и адаптации ярко продемонстрирована в [ 156 d, е]. Теорема 2.4.1 получена А.М. Суровегиным и В.Н. Фоминым. Вопрос о требовании к входным сигналам, обеспечивающим состоятельность оценок ММП, обсуждался во многих работах (ссылки на некоторые из них могут быть найдены в [124], с. 536). Термин ’’условие постоянного возбуждения** заимствован из [124], там же имеется утверждение, аналогичное лемме 2.4.1. Результаты § 2.4 могут быть, вероятно, получены из общих результатов работы [ 156 d, е], но их вывод не кажется тривиальным. 271
§ 2.5. Оценивание параметров, равномерное по отношению к классу возможных распределений помехи, восходит к Хуберу [146 а]. Обзор состояния теории робастно- го (стабильного) оценивания имеется в [146b, 846,49]. Идеи стабильного оценивания глубоко проникли в теорию адаптации и все чаще используются для идентификации состояний и синтеза обратных связей в условиях неопределенности о параметрах объекта управления (10,43,51,57 а, б, 84 б, в, 119 г, 161,162]. Содержание § 2.5 следует, в основном, работам [84 б, 161, 119 г]. При доказатель- стве теоремы £.5.2 в значительной мере используются результаты работы [73]. К главе 3 § 3.1. В конце 30-х годов А.Н. Колмогоров исследовал задачу экстраполяции слу- чайного процесса в следующей постановке: пусть{Уг} - стационарная последователь- ность центрированных с.в. с известной корреляционной функцией. Требуется опреде- лить коэффициенты {h^} линейной оценки Л+/Л = Ihyt-l + • + h„yt^n, обеспечивающей минимум функционала Ли = ^1Уг+/ -Ут+l I1 • При фиксированных значениях / и п эта задача легко решается и определяет величину . Очевидно, при увеличении п величина не может возрастать. Поэтому суще- ствует гопт - г опт lim J 1П - J / . Л-* оо Результаты по определению этого предела и выявлению особенностей поставленной задачи экстраполяции были без доказательств опубликованы в [151] и с полными доказательствами в [46]. Нетрудно обнаружить тождественность этой задачи с зада- чей, рассмотренной в § 3.1. Опубликованные в [46] результаты получили развитие в [53 а, б, 24] (см. также [92,122 б]). В начале 40-х годов Н. Винер выполнил свои фундаментальные исследования по интерполяции и экстраполяции временных рядов. На время эти исследования были засекречены и получили широкую известность и развитие уже после окончания второй мировой войны [172]. В п. 3.1.1° -3.1.3° синтез оптимального фильтра осуществляется на основе выделе- ния "полного квадрата" в функционале качества, а не связан с рассмотрением урав- нения Винера - Хопфа. Представляется, что такой подход делает процедуру синтеза более прозрачной. Интерпретация процедуры синтеза оптимального фильтра, приведенная в п. 3.1.4° , изложена в [133] (см. также [176]). Эта интерпретация и основанная на ней методика синтеза оптимальных следящих систем (см. п. 3.1.8°) получила распространение среди инженеров-исследователей (см., например, [119 а], с. 677-683, [17], с. 108- 114). Сравнительно недавно был получен "управленческий” вариант теории Винера - Колмогорова по синтезу линейных оптимальных обратных связей в устойчивых сто- хастических системах (36, 6, 58, 78, 96 а, б, 109 г, 110,9 б]. Важный для теории Вине- ра - Колмогорова вопрос о факторизации д.-р.ф. рассматривался в ряде работ. Рекур- рентный алгоритм факторизации предложен в [128]. Задача максимизации отношения сигнал/шум в классе физически реализуемых фильтров впервые поставлена и решена в [169], в п. 3.19° дано другое решение этой задачи. § 3.2. Теория Винера - Колмогорова послужила мощным стимулом поиска новых путей синтеза оптимальных фильтров с целью избежать проблем, связанных с реше- нием уравнения Винера - Хопфа, а также решения проблемы практического синтеза теоретически оптимального фильтра. Преемником теории Винера - Колмогорова ста- ла теория оптимальной фильтрации Калмана - Бьюси - Стратоновича. Становление этой теории, ознаменовавшейся публикацией основополагающих работ [148, 135, 34, 101 a-в], подробно описано в [134]. В настоящее время теория фильтра Калмана - Бьюси в рамках линейной фильтрации представляет стройную и разработанную мате- матическую теорию, получившую широкое признание в прикладных исследованиях 272
[13, 14, 40, 50, 59, 64, 68, 77, 94, 98, 108, 109 б, 124, 134, 136, 147, 156 с, 164, 165, 173]. Нелинейная оптимальная фильтрация при гауссовских сигналах и поме- хах приводит также к фильтру Калмана-Быоси. Существенным достижением теории фильтрации является построение аналога теории Калмана-Бьюси для условно-гаус- совских процессов [64]. Существует несколько способов вывода уравнений фильтра Калмана - Бьюси, и большинство из них обсуждается в [147], где содержится богатый материал по рекуррентной фильтрации. Изложение п.п. 3.2.1°-3.2.4° следует [136], в п. 3.2.5° используются результаты [147]. Материал п. 3.2.6° в той или иной степени известен: существование положительного решения уравнения Риккати при различных условиях устанавливалось, начиная с Р. Калмана, различными авторами. Приведенная в п. 3.2.6° редакция теоремы 3.2.4 публикуется, видимо, впервые и принадлежит С.Г. Семенову и В.Н. Фомину. П. 3.2.7° навеян работой [40 а]. § 3.3. Минимаксная фильтрация в постановке, допускающей рекуррентное оцени- вание в виде фильтра Калмана-Бьюси, изучалась в [57 а, б, 43]. Возможность полу- чения рекуррентных соотношений основана на двойственности задач оценивания и оптимального управления, подробно изученной в стохастическом варианте [8,77,174]. Наиболее близка к материалу п.п. 3.3.1°-3.3.4° работа [43], где получены уравнения для минимаксной оценки состояния линейного объекта (в непрерывном времени). В п. 3.3.3° используется хорошо известный результат (см., например, [77]) о линей- ности оптимальной стратегии управления детерминированными объектами при квад- ратичном критерии качества. В случае стохастического объекта подобное утверждение в задаче управления на бесконечном интервале времени получено в [96а]. Теоре- ма 3.3.2 является обобщением соответствующего утверждения из [43], п. 3.3.5° осно- ван на работе [36]. К главе 4 § 4.1. В литературе имеются различные определения понятия ’‘адаптивная система” (см., например, обсуждение этого вопроса в [94]). В данной работе вводимое понятие адаптивной системы развивает и обобщает понятие, первоначально введенное в [ 126 б] при рассмотрении детерминированных объектов управления и распространенное в [99, а, б] на широкий класс стохастических систем. Соотношение между этими поня- тиями подробно обсуждается в [ 110]. Необходимость обобщения вызвана тем, что же- лательно было рассматривать адаптивные системы, не являющиеся системами управле- ния (обучаемые системы, адаптивные фильтры и тд.). Кроме того, в § 4.1 уточняется связь между свойствами адаптивности и оптимальности рассматриваемых систем, что потребовало введения понятий реализуемых и допустимых стратегий функционирова- ния. Проблема адаптации в близкой интерпретации (но, на наш взгляд, недостаточ- но формализованная) трактуется в [90, 89 г]. Своеобразный подход к построению адаптивных систем изложен в [30 б, в]. § 4.2. Следует отметить уточнения понятия адаптивной системы, даваемое опреде- лением 4.2.2. Уточнение связано с введением существенных и несущественных пара- метров. В неявной форме такое разделение параметров использовалось и раньше [110,109 а]. § 4.3. Задача адаптивного прогноза марковских процессов изучается в книге [99 а]. Здесь в § 5. гл. 4 установлена возможность предельно-оптимального адаптив- ного прогноза по отношению к широкому классу бинарных однородных марковских процессов и предложено семейство автоматов, реализующих е-оптимальную адап- тивную стратегию прогноза марковского процесса. В § 4 гл. 5 этой же работы для синтеза адаптивного прогноза стационарных последовательностей j|°° с дробно-рацио- нальной спектральной плотностью предложена процедура Роббинса - Монро. Путем моделирования на ЭВМ установлено, что в процедуре Роббинса - Монро вместо коэф- фициентов yt = at~l целесообразно выбирать случайные коэффициенты 7, =(2 fc-1 Теоретические преимущества подобного выбора коэффициентов процедур оценива- ния широко демонстрируются в данной монографии (см., например, § 4.3). 273
Среди рекуррентных процедур оценивания процедуры МНК занимают особое место и их исследованию посвящена обширная литература. Отметим лишь работы (63, 9 а, 26, 64, 95, 124, 133, 136, 139,143,147,163,170], оказавшие влияние на подход к про* блеме оценивания, принятый в данной работе. Последовательное применение МНК лежит в основе МГУ А [30 а - в] - метода эвристической самоорганизации (селекции, самоотбора), применимого к различным задачам классификации, распознавания обра* зов, прогноза и адаптивного управления. Несмещенность и состоятельность оценок МНК устанавливается при белошумных помехах. Для получения состоятельных оценок в случае коррелированной помехи был предложен расширенный МНК, в котором наряду с неизвестными параметрами оцениваются прошлые значения помехи. Свойства расширенного МНК и его упрощенных модификаций подробно изучены в работах [156 a-h, 157,160, 165,166], где обсуждается также возможность использо- вания соответствующих алгоритмов оценивания в задачах идентификации и адаптивно* го управления. Мощным методом исследования алгоритмов расширенного МНК и различных его модификаций является метод упрощенных моделей, описанный в при* мечаниях к Введению. Воспользуемся возможностью проиллюстрировать метод для процедуры оценивания (4.3.23), подробно изученной в § 4.3 методом функций Ляпу- нова. Предварительно перепишем процедуру в виде тг+1 - тг = у R~t ф г «г+1» *г+1 -Яг ж yyj (фг+1 фг+1 ~ЯГ], (Л.1) где «г+1 = 2г+1 “ фгтг (Л.2) - ошибка рценивания и R}1 - “нормированная” матрица ковариаций: R~tl = tyt. Здесь учтены соотношения (4.Д.13), (4.Д.15), остальные обозначения пояснены в § 4.3. В правых частях уравнений (Л.1) содержатся флуктуирующие члены (в пер* вом уравнении они входят в ошибку оценивания ег+>, во втором - в. матрицу Фг+ j Фг+1) • Выделим эти члены фг* «г+1 = /Игг) + фг+1фг+1 = Gt + где Л(тг) = М{Ф * (zf+1 - фгтг)|тг), ' (Л.З) Gt = М{Ф*+1 Фг+1 1тг) , так что М(r\t | тг) = 0, M(nt I тг) = 0. Пренебрежение этими флуктуирующими состав- ляющими п/. п'гв (Л.1) приводит к упрощенной модели, уравнения которой име- ют вид тг+1 ~ тг = 7" ft (т/), ‘ (Л.4) Л/+1 -Rt х ~ ‘ Ассоциированные уравнения (Л.4) более просты, чем исходные уравнения (Л.1), и их легче исследовать аналитическими либо численными методами. Разумеется, тре- бует решения вопрос о соответствии решений систем (Л.1) и (Л.4), и он изучен в от- меченных выше работах. Дальнейшее упрощение модели может быть достигнуто переходом от (Л.4) к диф- ференциальным уравнениям, что возможно при больших t, поскольку t (rr+i - гг) « 274
^dr/dt, (t + 1) (Rt+i “ Rt> * dR/dt при Г>1. Предположим, что существуют пре- делы /(7) = lim 4(7), G = lim Gt. (Л.5) f—>ов Г~ Тогда уравнения непрерывной модели имеют вид dr dR ---------- R~l ----= (G-R). (Л.6) dt-------------------------------------------------------------------dt Уравнения (Л.6) получены в [156 h] и там же проведен анализ сходимости решений к стационарным точкам. Отметим, что ассоциированные уравнения при соответ- ствующей интерпретации вектора /(г) и матрицы G также имеют вид (Л.6) для разно- образных алгоритмов оценивания и адаптации (алгоритм адаптации Ландау [154 с], алгоритм самонастройки регулятора [130], различные рекуррентные модификации МНК и ММП [166] и другие). Приведем и обсудим некоторые результаты, получен- ные в [156 h, 166]. Пусть (Л.1) - рекуррентная форма МНК, т.е. в уравнении (4.3.18) Ь(Х) = 1 и т - вектор неизвестных коэффициентов полинома а (X). Тогда имеем /f(Tf) = М{Ф? [Фг(г - rr) + wf]|Tf } = Gt(r-Tt), (Л.7) и система (Л.6) принимает вид -^=6-Я. (Л.8) dt dt Если det G * 0, (Л.9) то система (Л.8) имеет единственную стационарную точку 7= т, которая асимптоти- чески устойчива (все траектории т(г)-*тпри г->оо_ следствие положительности матрицы G%). В соответствии с [156h, 166] оценки тг, доставляемые процеду- рой (Л.1), сильно состоятельны. Нетрудно видеть, что (Л.9) означает предельную невырожденность информационной матрицы, существование пределов (Л.5) является следствием устойчивости полинома а(X) в уравнении (4.3.18), а сформулированный результат совпадает с леммой 4.3.1 Рассмотрим теперь расширенный МНК, изучаемый в [156 е, h, 166]. Здесь Фг » col (-уг ,..., • • • > wr-n+l> ег» • • •» ег-л+1)» (Л.10) т — вектор коэффициентов полиномов а(Х) - 1,,Ь(Х)- 1 (для простоты все коэф- фициенты этих полиномов предполагаются неизвестными, поэтому zt+i = >7+1 )> et определяется соотношением (Л.2). Учитывая (4.3.20), (Л.З),имеем /t(7)= G,(T-7) + МФГ (6(V) - 11 (и7+1 - ег+1). (Л.11) Наличие второго слагаемого в правой части (Л.11) осложняет анализ. Согласно [156 b,h] сильная состоятельность оценок убудет иметь место при выполнении следующих условий: 1. В уравнении (43.18) (wr) - стационарный, центрированный процесс с независимыми значениями, имеющий конечные моменты произвольных по- рядков. 2, Схема оценивания (4.3.23) сочетается с процедурой, обеспечивающей ’’удержа- ние” оценок {тг} в некоторой компактной области, в которой оценки bf(X) полино- ма Ь(Х) получаются устойчивыми полиномами. 3. Полином Ь(Х) удовлетворяет частотному неравенству 2 Red (X) > |6(Х)|* при |Х| = 1. 275
Отметим, что алгоритм расширенного МНК (4.3.23) в § 4.3 изучается при условии фг =col(-yf,. . , ~yt_n+b » «г-инЛ .... где wf+i =2f+i - Фгтг+1, что делает его несколько отличным от алгоритма при усло- виях (Л.10), (1.2) [167]. Если отвлечься от этих отличий, то сравнение приведенного утверждения с теоремой 4.3.1 показывает, что первое условие работы [156 Ь] можно ослабить, а второе условие излишне. Использованный в § 4.3 метод функций Ляпунова (в стохастическом варианте) позволяет получать эффективные условия сходимости оценок и в случае настраивае- мых обратных связей [110, 3, а, 9 а, б, 109 в, г]. Изложение п. 4.3.3° следует [За], где задача оценивания органически сочетается с оптимальным управлением. В п.п. 4.3.4° - 4.3.5° излагается работа [1]. В п. 4.3.6° в качестве функции Ляпунова выступает функционал, естественно связанный с задачей идентификации. Идея построения подоб- ного функционала хорошо известна (см., например, [130, 55 б]). Подобные идеи возникают при изучении задачи оптимального прогноза [119 д]. Схема оптимального прогноза последовательно применяется в [156 d, е] для построения широкого класса рекуррентных процедур адаптации. Близкие к теореме 4.3.3 утверждения можно найти в [55 б, 156 d]. В [171, 143] об- суждаются вопросы сходимости оценок коэффициентов регрессионных моделей, доставляемых MCA при наличии в этих моделях неустойчивых корней (ср. с п. 4.3.6° ).
ЛИТЕРАТУРА 1. Агафонов С А., Барабанов А.Е., Фомин В.Н. Адаптивная фильтрация случайных процессов. - В кн.: Вопросы кибернетики. Актуальные задачи адаптивного управления. М.: Научный совет по кибернетике АН СССР, 1982, с. 4-30. 2. Агафонов С А., Красулина Т.П., Фомин В.Н. Метод стохастической аппроксимации в задаче идентификации линейного динамического объекта. - Вестник Ленинград- ского ун-та, 1981, № 1, с. 5-10. 3. Агафонов С А., Фомин В.Н. а) Адаптивное предельно-оптимальное управление ли- нейным объектом при белошумной помехе. - Деп. в ВИНИТИ, № 3500-80, 1980. - 28 с.; б) Грубость метода наименьших квадратов по отношению к неста- ционарное™ помехи наблюдения. - Вестник Ленинградского ун-та, 1982, № 1, с. 5-11; в) Адаптивное предельно-оптимальное управление линейным стохасти- ческим объектом при коррелированной помехе. - Автоматика и телемеханика, 1982,№5,с. 117-126. 4. Айзерман МА., Браверман М.Э., Роэоноэр Л.И. Метод потенциальных функций в теории обучения машин. - М.: Наука, 1970. - 384 с. 5. Аксенов Г.С., Фомин В.Н. а) Синтез адаптивных дискретных регуляторов в задаче• о диссипативности многосвязных линейных систем. - Деп. в ВИНИТИ, № 3961- 79, 1979,26 с.; б) Конечно-сходящиеся алгоритмы в задаче о построении адаптив- ного регулятора. - В кн.: Вопросы кибернетики. Адаптивные системы. - М.: Научный совет по кибернетике АН СССР, 1974, с. 113-121; в) Метод функций Ляпунова в задаче синтеза адаптивных регуляторов. - В кн.: Вопросы кибернети- ки. Адаптивные системы управления. М.: Научный совет по кибернетаке АН СССР, 1979, с. 69-93; г) Синтез адаптивных регуляторов на основе метода функции Ляпунова. - Автоматика и телемеханика, 1982, № 6, с. 126-137. 6. Алиев Ф.А., Ларин В.Б., Науменко К.И., Сунцев В.Н. Оптимизация линейных ин- вариантных во времени систем управления. - Киев: Наукова думка, 1978. - 327 с. 7. Альбер Я.И., Шильман С.В. Неасимптотические оценки скорости сходимости сто- хастических итератавных алгоритмов. - Автоматика и телемеханика, 1981, № 1, с.41-52. З. Аоки М. Оптимизация стохастических систем. - М.: Наука, 1971. - 424 с. 9. Барабанов А.Е. а) Метод наименьших квадратов в задаче адаптивного оптималь- ного управления. - Деп. в ВИНИТИ, № 2842-80. - 22 с.; б) Оптимальное управ- ление линейным объектом со стационарными помехами и квадратачным крите- рием качества. - Деп. в ВИНИТИ, № 3478-79. - 21 с. 10. Бахшиян Б.Ц., Назиров Р.Р., Элъясберг П.Е. Определение и коррекция движения (гарантирующий подход). - М.: Наука, 1980, 360 с. 11. Бернштейн С.Н. Стохастические уравнения в конечных разностях и стохасти- ческие дифференциальные уравнения. - Собр. соч. в 4-х томах. - М.: Наука, 1964, т.4. 12. Бондарко ВА., Якубович В А. Метод рекуррентных целевых неравенств в теории адаптивных систем: результаты и проблемы. - В кн.: Вопросы кибернетики. Зада- чи и методы адаптивного управления. М.: Научный совет по кибернетике АН СССР, 1981, с. 19-39. 13. Брайсон А., Хо Ю Ши. Прикладная теория оптимального управления. - М.: Мир, 1972. - 544 с. 14. Ван Трис Г. Теория обнаружения, оценок и модуляции. - М.: Советское радио, т. 1 - 1972. - 744 с; т. 2 - 1975. - 343 с.; т. 3 - 1977. - 644 с. 277
15. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. - М.: Нау* ка, 1979.-447 с. 16. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. - М.: Наука, 1974.-416 с. П. Воронов А.А. Основы теории автоматического регулирования. - М.; Л.: Энергия, 1966. - 372 с. 18. Гак А.А. Синтез оптимальных стратегий в задаче о разладке. - Автоматика и телемеханика, 1978, № 5, с. 28-35. 19. Гелиг А.Х., Леонов Г.А., Якубович В.А. Устойчивость нелинейных систем с не- единственным положением равновесия. - М.: Наука, 1978. - 400 с. 20. ГЕсселъ М., Попов Ю.В., СраговичВ.Г. Адаптивное управление частично наблюдае- мыми марковскими цепями с доходами. - ДАН СССР, 1977, т. 237, № 4, с. 767- 779. 21. Гусев С.В. Один критерий сравнения конечно-сходящихся алгоритмов решения систем неравенств. - Деп. в ВИНИТИ, № 3781-78. - 15 с. П.Гуткин Л.С. Теория оптимальных методов радиоприема при флуктуационных помехах. - М.: Советское радио, 1972. - 447 с. 23. Деревицкий Д.П., Фрадков А.Л. а) Две модели для анализа динамики алгоритмов адаптации. - Автоматика и телемеханика, 1974, № 1, с. 67-75; б) Исследование дискретных адаптивных систем управления динамическими объектами с по- мощью непрерывных моделей. - Известия АН СССР. Техническая кибернетика, 1975, № 5, с. 93-99; в) Применение теории марковских процессов к анализу ди- намики алгоритмов адаптации. - Автоматика и вычислительная техника, 1974, № 2, с. 39-48; г) Анализ динамики некоторых алгоритмов адаптации. - В кн.: Вопросы кибернетики. Адаптивные системы. - М.: Научный совет по кибернети- ке АН СССР, 1974, с. 79-84; д) Метод непрерывных моделей в теории дискрет- ных адаптивных систем. - В кн.: Вопросы кибернетики. Задачи и методы адаптив- ного управления. - М.: Научный совет по кибернетике АН СССР, 1981, с. 66-87; е) Прикладная теория дискретных адаптивных систем управления. - М.: На^ка, 1981.-216 с. 24. ДубДж.Л. Вероятностные процессы. - М.: ИЛ, 1956. - 605 с. 25. Дуда Р., ХартП. Распознавание образов и анализ сцен. - М.: Мир, 1976. - 511 с. 26. Жданов А.И., Кацюба О А. Особенности применения метода наименьших квадра- тов для оценивания линейных разностных операторов в задачах идентификации объектов управления. - Автоматика и телемеханика, 1979, № 8, с. 86-92. 21. Загоруйко Н.Г. Методы распознавания и их приложения. - М.: Наука, 1972. - 206 с. 28. ЗаксШ. Теория статистических выводов. - М.: Мир, 1975. - 776 с. 29. Ибрагимов ИА., Хасъминский Р.Э. Асимптотическая теория оценивания. - М.: Наука, 1979. - 527 с. 30. Ивахненко А.Г. а) Метод Группового Учета Аргументов - конкурент метода стохастической аппроксимации. - Автоматика, 1968, №3, с. 57 - 73; б) Само- обучающиеся системы распознавания и автоматического управления. - Киев: Техника, 1969. - 392 с.; в) Системы эвристической самоорганизации в техничес- кой кибернетике. - Киев: Техника, 1971. - 370 с.; г) Принятие решений на основе самоорганизации. - М.: Советское радио, 1976. - 280 с. 31. Иголкин В.Н., Ковригин А.Б., Старшинов А.И., Хохлов В.А. Статистическая клас- сификация, основанная на выборочных распределениях. - Л.: Изд-во Ленин гр. ун-та, 1978. - 104 с. 32. Идентификация динамических систем/Под ред. А. Немуры. - Вильнюс: Минтис, 1974. - 285 с. 33. Казаринов Ю.Ф., Карелин В.В. Адаптивные оптимальные стратегии в управляе- мых марковских процессах. - Деп. в ВИНИТИ, № 843-81. - 23 с. 34. Колман Р.Е., Бьюси Р.С. Новые результаты в линейной фильтрации и теории пред- сказания (перев. с англ.). - Труды американского общества инженеров-механи- ков. Техническая механика, 1961, т. 83, сер. Д, № 1, с. 123-141. 35. Каминскас В., Немура А. Статистические методы в идентификации динамических систем. - Вильнюс: Минтис, 1975. - 197 с. 36. Катковник В.Я. Линейные оценки и стохастические задачи оптимизации. - М.: Наука, 1976. - 488 с. 278
31.Катковник В.Я., Кульчицкий О.Ю. а) Возможность применения методов типа сто- хастической аппроксимации для адаптивной стабилизации дискретной линейной динамической модели. - Автоматика и телемеханика, 1976, № 9, с. 113-123; б) Идентификация линейных динамических систем со случайными возмущениями прл неполном наблюдении вектора состояний. - В кн.: Кибернетика и вычисли- тельная техника. Дискретные системы. Л.: Изд-во Л ПИ, 1975, выл. 28, с. 18-22. 33. Катковник В.Я., Первозванский АА. Методы поиска экстремума в задаче синте- за многомерных систем управления. - В кн.: Адаптивные автоматические систе- мы. Советское радио, 1972, с. 17-42. 39. Катковник В.Я., Полуэктов РА. Многомерные дискретные системы управле- ния. - М.: Наука, 1966. - 416 с. 4Ъ. Катко вник ВЛ., Хейсин В.Е. а) Динамическая стохастическая аппроксимация полиномиальных дрейфов. - Автоматика и телемеханика, 1979, № 5, с. 89-98; б) Итеративные алгоритмы оптимизации для отслеживания дрейфа экстремума. - Автоматика и вычислительная техника, 1976, № 6, с. 34-40. 4\.Кац И.Я., Куржанский А.Б. а) Минимаксная многошаговая фильтрация в статис- тически неопределенных ситуациях. - Автоматика и телемеханика, 1978, № 11, с. 7-9; б) Минимаксное оценивание в многошаговых системах. - ДАН СССР, 1975,т. 221, №3, с. 535-538. 42. КемениДж., Снелл Дж. Конечные цепи Маркова. - М.: Наука, 1970. - 272 с. 43. Кириченко Н.Ф., Наконечный А.Г. Минимаксный подход к рекуррентному оцени- ванию состояния линейных динамических систем. - Кибернетика, 1977, № 4, с. 52-55. 44. Ковалевский В.А. а) Статистический подход к проблеме обучения распознаванию образов. - В кн.: Самонастраивающиеся системы. - М.: Наука, 1967, с. 225-230; б) Методы оптимальных решений в распознавании изображений. - М.: Наука, 1976.- 328 с. 45. Ковригин А.Б. Методы обработки наблюдений в навигационных задачах. - Л.: Изд-во Ленингр. ун-та, 1974. - 177 с. 46. Колмогоров А.Н. Интерполирование и экстраполирование стационарных случай- ных последовательностей. - Изв. АН СССР. Математика, 1941; № 5, с. 3-14. 41. Конев В.В.,Хазен Э.М. Построение байесовских оценок параметров линейных мар- ковских процессов. - Автоматика и телемеханика, 1970, № 10, с. 35 -46. 48. Котельников В А. Теория потенциальной помехоустойчивости. - М.: Госэнерго- издат, 1956. - 151 с. 49. Краснекер ВМ. Стабильные методы обнаружения сигналов на фоне помех (об- зор) . - Автоматика и телемеханика, 1980, № 5, с. 65-88. 50. Красовский АА., Белоглазов И.Н., Чигин Г.П. Теория корреляционно-экстре- мальных навигационных систем. - М.: Наука, 1979. - 447 с. 51. Красовский Н.Н. К задаче управления с неполной информацией - Изв. АН СССР. Техническая кибернетика, 1976, № 2, с. 3-7. 52. Красулина Т.П. а) О применении алгоритмов стохастической аппроксимации к задачам автоматического управления. - Автоматика и телемеханика, 1969, № 5, с. 104-107; б) Некоторые замечания о процессах стохастической аппроксима- ции. - Автоматика и телемеханика, 1975, № 7, с. 70-74. 53. Крейн М.Г. а) Об одной экстраполяционной теореме А.Н. Колмогорова. - ДАН СССР, 1944, т. 46, с. 306-309; б) Об основной аппроксимационной задаче теории экстраполяции и фильтрации стационарных случайных процессов. - ДАН СССР, 1954, т. 94, с. 13-16. 54. Куликов Е.И., Трифонов А.П. Оценка параметров сигналов на фоне помех. - М.: Советское радио, 1976. - 296 с. 55. Кульчицкий О.Ю. а) Достаточные условия сходимости алгоритмов стохастической аппроксимации для случайных процессов с непрерывным временем. - Кибернети- ка, 1979, № 6, с. 114-126; б) Алгоритмы типа стохастической аппроксимации в контуре адаптации дискретной стохастической линейной динамической систе- мы. - Автоматика и телемеханика, 1983, ч. 1 - №9, с. 102-118. 56. Кунцевич ВМ., Лычак М.М. Об оптимальном и адаптивном управлении динамичес- кими объектами в условиях неопределенности. - Автоматика и телемеханика, 1979, №1, с. 79-88. 279
51. Куржанский А.Б. а) Управление и наблюдение в условиях неопределенности. - М.: Наука, 1977, 392 с.; б) Динамические задачи принятия решений в условиях неопределенностиь - В кн.: Современное состояние теории исследования опера- ций. М.: Наука, 1979,с. 197-235. 58. Ларин В.Б., Науменко К.И., Сунцев В.Н. Спектральные методы синтеза линейных систем с обратной связью. - Киев: Наукова думка, 1971. - 138 с. 59. Левин Б.Р. Теоретические основы статистической радиотехники. - М.: Советское радио, Кн. 1 - 1974. - 550 с.; Кн. 2 - 1975. - 391 с.; Кн. 3 - 1976. - 285 с. 60. Левин М.Ю., Фомин В.Н. а) Рекуррентные процедуры в задаче о самообучении. - Вестник Ленинградского ун-та, 1974, № 19, с. 51-58; б)Доказательство сходи- мости рекуррентных процедур обучения без учителя. - Вестник Ленинградского ун-та, 1975,№ 7, с. 35-42. 61. Лезин Ю.С. Оптимальные фильтры и накопители импульсных сигналов. - М.: Со- ветское радио, 1969. - 445 с. 62. Ли Р. Оптимальные оценки, определение характеристик и управление. - М.: Нау- ка, 1966. - 176 с. 63. Линник Ю.В. Метод наименьших квадратов и основы математикостатистической обработки наблюдений. - М.: Физматгиз, 1958. - 334 с. 64. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974. - 696 с. 65. Лиховидов В.Н. О сходимости рекуррентного алгоритма самообучения. - В кн.: Вопросы кибернетики. Адаптивные системы управления. М.: Научный совет по кибернетике АН СССР, 1977, с. 123-Р5. 66. Лиховидов В.Н, Фомин В.Н. а) Математическая постановка задачи классифика- ции изображений. - Вестник Ленинградского ун-та, 1976, № 19, с. 61-68; б) К во- просу об оценке скорости сходимости рекуррентной процедуры в задаче само- обучения. - Деп. в ВИНИТИ, № 3-77. - 16 с.; в) Об одном подходе к задаче раз- деления смеси. - Деп. в ВИНИТИ, № 2277-77. -14 с. 67. Лозе М. Теория вероятностей. - М.: ИЛ, 1962. - 719 с. 68. Ляшко И.И., Диденко В.П,, Цитрицкий О.Е. Фильтрация шумов. - Киев: Наукова думка, 1979. - 232 с. 69. Медведев Г.А. Адаптивное оценивание по реализациям случайных процессов и полей. - Автоматика и телемеханика, 1978, № 10, с. 87-94. 10. Медведев ГА., Тарасенко В.П. Вероятностные методы исследования экстремаль- ных систем. - М.: Наука, 1967. - 456 с. И.Меерков С.М. Об упрощении описания медленных марковских блужданий. - Автоматика и телемеханика, 1972, № 3, с. 66-75; № 5, с. 63-67. 72. Миленький А.В. Классификация сигналов в условиях неопределенности. - М.: Советское радио, 1975. - 328 с. 73. Невельсон М.Б., Хасьминский Р.З. Стохастическая аппроксимация и рекуррент- ное оценивание. - М.: Наука, 1972. - 304 с. 74. Неймарк Ю.И. Динамические системы и управляемые процессы. - М.: Наука, 1978.- 336 с. 75. Неймарк Ю.И., Баталова З.С., Васин Ю.Г., Брейдо МД. Распознавание образов и медицинская диагностика. - М.: Наука, 1972. - 328 с. 76. Нильсон Н. Обучающиеся машины. - М.: Мир, 1967. - 180 с. И.Острем К.Ю. Введение в стохастическую теорию управления. -М.: Мир, 1973.- 321с. 78. Павлов В.А., Фомин В.Н. Спектральный метод синтеза оптимальных регулято- ров. - В кн.: Синтез регуляторов в некоторых задачах адаптивною управле- ния./Под ред. В.Н. Фомина. - Деп. в ВИНИТИ, № 1441 -77, с. 44-51. 19. Параев Ю.И. Введение в статистическую динамику процессов управления и фильт- рации. - М.: Советское радио, 1976. - 184 с. 80. Пенев Г.Д. Некоторые конечно-сходящиеся алгоритмы решения бесконечных сис- тем неравенств с высокой скоростью сходимости. - Вестник Ленинградского уН' та, 1978, №7, с. 43-48. 81. Первозванский А.А. а) Поиск. - М.: Наука, 1970, 263 с.; б) Случайные процессы в нелинейных автоматических системах. - М.: Физматгиз, 1962. - 351 с.; в) При- менение цепей Маркова к расчету установившейся ошибки экстремальных регу- ляторов. - Изв. АН СССР. Энергетика и автоматика, 1960, № 3, с. 64-72. 280
82. Позняк А.С. Сходимость алгоритмов стохастической аппроксимации при иденти- фикации параметров динамических объектов. - Автоматика и телемеханика, 1979, №8, с. 186-190. 83Пономаренко В.И., Якубович В.А. Метод рекуррентных целевых неравенств в за- дачах субоптимального адаптивного управления динамическими объектами. - В кн.: Вопросы кибернетики. Адаптивные системы управления. - М.: Научный совет по кибернетике АН СССР, 1977, с. 16-28. 84. Поляк Б.Т., Цыпкин Я.З. а) Псевдоградиентные алгоритмы адаптации и обуче- ния. - Автоматика и телемеханика, 1973, № 3, с. 45-68; б) Адаптивные алгорит- мы оценивания (сходимость, оптимальность, стабильность). - Автоматика и теле- механика, 1979, № 3, с. 71-84; в) Стабильное управление в условиях неполной информации. - В кн.: Вопросы кибернетики. Адаптивные системы управления. М.: Научный совет по кибернетике АН СССР, 1977, с. 6-15. 85. Прием сигналов при наличии шума / Под. ред. Л.С. Гуткина. - М.: ИЛ, I960. - 337 с. ‘ 86. Прохоров Ю.В.’ Распространение неравенства С.Н. Бернштейна. - Теория вероят- ностей и ее применение, 1963, т. 13,№ 2, с. 267-275. 87.Пугачев В.С., Казаков И.Е., Евланов Л.Г. Основы статистической теории автома- тических систем. - М.: Машиностроение, 1974. - 400 с. ЪЪ.Райбман Н.С. Идентификация объектов управления (обзор). - Автоматика и телемеханика, 1979, № 6, с. 80-93. Ъ9.Растригин Л.А. а) Экстремальное регулирование методом случайного поиска. - Автоматика и телемеханика, 1960, № 9, с. 1264-1271; б) Системы экстремаль- ного управления. - М.: Наука, 1976. - 630 с.; в) Структурная адаптация случай- ного поиска. - В кн.: Вопросы кибернетики. Случайный поиск в задачах Оптими- зации. М.: Научный совет по кибернетике АН СССР, 1978, с. 5-12; г) Адаптация сложных систем. - Рига: Зийатне, 1981. - 386 с. 9Ъ.Растригин Л.А., Puna К.К., Тарасенко Г.С. Адаптация случайного поиска. - Рига: Зинатне, 1978. - 242 с. 91. Репин В.Г., Тартаковский Т.П. Статистический синтез при априорной неопределен- ности и адаптация информационных систем. - М.: Советское радио, .977. - 432 с. 92. Розанов ЮЛ. Случайные процессы. - М.: Наука, 1971. - 286 с. 93. Ройтенберг Я.Н. Автоматическое управление. - М.: Наука, 1978. - 552 с. 94. Саридис Дж. Самоорганизующиеся стохастические системы управления. - М.: Наука, 1980. - 400 с. 95. Сейдж Э.П., Мелса Дж.Л. Идентификация систем управления. - М.: Наука, 1974. _ 246 с. 96. Семенов С.Г., Фомин В.Н. а) О линейности оптимального управления линейным дискретным объектом со стационарными помехами. - Вестник Ленинградского ун-та, 1980, № 19, с. 59-65; б) Предельно-оптимальное управление стохастически- ми объектами. - В кн.: Кибернетика и вычислительная техника. - Киев, 1982. 97. Соколов В.Ф., Фомин В.Н. а) Об адаптивном управлении линейным объектом, не являющимся минимально-фазовым. - Деп. в ВИНИТИ, № 1864-76. - 14 с.; б) Адаптивная стабилизация линейных систем с помощью регуляторов перемен- ной структуры. - Деп. в ВИНИТИ, № 1985-77. - 19 с. 98. Сосулин Ю.Г. Теория обнаружения и оценивания стохастических сигналов. - М.: Советское радио, 1976. - 320 с. 99. Срагович В.Г. а) Теория адаптивных систем. - М.: Наука, 1976. - 320 с.; б) Адап- тивное управление. - М.: Наука, 1981. - 384 с.; в) Об оптимальном обнаружении сигналов на фоне коррелированной гауссовой помехи. - Радиотехника и электро- ника, 1959, т. 4,вып. 5, с. 745-754. 100. Статистическая теория связи и ее практические приложения / Под ред. Б.Р. Леви- на - М.: Связь, 1979. - 287 с. 101. Стратонович Р.Л. а) Условные процессы Маркова. - Теория вероятностей и ее применения, 1960, т. 5, вып. 2, с. 172-195; б) Применение теории марковских процессов для оптимальной фильтрации сигналов - Радиотехника и электроника, 1960, т. 5, № 11, с. 1751-1763; в) Условные марковские процессы и их примене- ние к теории оптимального управления. - М.: Изд-во Московск. ун-та, 1966, 281
319 с.; г) Об оптимальных алгоритмах типа стохастической аппроксимации. - Изв. АН СССР. Техническая кибернетика, 1970, № 1, с. 24-32; д) Принципы адап- тивного приема. - М.: Советское радио, 1973. - 141 с. 102. Тимофеев А.В. Построение адаптивных систем управления программным движе- нием. - Л.: Советское радио, 1980. - 88 с. 103. Тихонов В.И., Кульман Н.К. Нелинейные фильтрации и квазиградиентный прием сигналов. - М.: Советское радио, 1975. - 704 с. 104. Ту Дж., Гонсалес Р. Принципы распознавания образов. - М.: Мир, 1978. - 411 с. 105. Тузов Г.И. Статистическая теория приема сложных сигналов. - М.: Советское радио, 1977. - 400 с. 106. Уонам М. Линейные многомерные системы управления. - М.: Наука, 1980. - 375 с. 107. ФельдбаумАА.з) Теория дуального управления. - Автоматика и телемеханика, 1960, № 9, с. 1240-1249; № 10, с. 1453-1464; 1961, № 1, с. 3-16; № 3, с. 129- 142; б) Основы теории оптимальных автоматических систем. - М.: Наука, 1966. - 623 с.; в) О проблемах дуального управления. - В кн.: Методы оптими- зации автоматических систем. М.: Наука, 1972, с. 89-108; г) Процессы обучения людей и автоматов. - Там же, с. 109-147. 108. Фильтрация и стохастическое управление в динамических системах / Под ред. К.Т. Леондеса. - М.: Мир, 1980. - 407 с. 109. Фомин В.Н. а) Математическая теория обучаемых опознающих систем. - Л.: Изд-во Ленингр. ун-та, 1976. - 236 с.; б) Рекуррентное оценивание в задаче син- теза адаптивного управления. - Деп. в ВИНИТИ, № 3868-76. - 20 с.; в) Синтез адаптивных регуляторов в задаче управления линейными дискретными система- ми. - Деп. в ВИНИТИ, № 2202-79. - 65 с.; г) Синтез адаптивных предельно-опти- мальных управляющих систем в задаче управления линейными стохастическими объектами. - В кн.: Вопросы кибернетики. Задачи и методы адаптивного управ- ления. М.: Научный совет по кибернетике АН СССР, 1981, с. 52-65. 110. Фомин В.Н., Фрадков А.Л., Якубович В.А. Адаптивное управление динамически- ми объектами. - М.: Наука, 1981. - 448 с. 111. Фомин В.Н., Холопов А.А. а) Среднее время сходимости рекуррентных алгорит- мов (с поощрением). - Деп. в ВИНИТИ, № 3867-76, 22 с.; б) О некоторых свой- ствах алгоритма метода наименьших квадратов. - В кн.: Вопросы кибернетики. Адаптация в системах со сложной организацией. М.: Научный совет по кибернети- ке АН СССР, 1977, с. 57-61. 112. Фомин В.Н., Хрящев С.М. Об одной задаче адаптивного управления линейным объектом в условиях случайных помех. - Автоматика и телемеханика, 1976, № 10, с. 109-117. 113. Фрадков А.Л. Синтез адаптивной системы стабилизации линейного динамическо- го объекта. - Автоматика и телемеханика, 1974, № 12, с. 96-103. 114. Фу К. Последовательные методы в распознавании образов и обучении машин. - М.: Наука, 1971.- 256 с. 115. Фукунага К. Статистическая теория распознавания образов. - М.: Мир, 1979. - 367 с. 116. Хазен Э.М. Методы оптимальных статистических решений и задачи оптимального управления. - М.: Советское радио, 1968. - 256 с. 117. Холопов А А. К вопросу о сходимости и скорости сходимости процедуры стохас- тической аппроксимации второго рода.-Деп. в ВИНИТИ, №2278-77,1977.- 15с. 118. Хрящев С.М. Оценивание параметров линейных систем в условиях коррелирован- ных помех. - Деп. в ВИНИТИ, № 3368-77,1977. - 17 с. 119. Цыпкин Я.З. а) Теория линейных импульсных систем. — М.: .Физматгиз, 1963. - 968 с.; б) Адаптация и обучение в автоматических системах. - М.: Наука, 1968. - 400 с.; в) Основы теории обучающихся систем. - М.: Наука, 1970. - 252 с.; г) Адаптивные алгоритмы оптимизации при априорной неопределенности. - Авто- матика и телемеханика, 1979, № 6, с. 94-108; д) Синтез оптимальной настраивае- мой модели в задачах идентификации. - Автоматика и телемеханика, 1981, № 12, с. 62-77. 120. Цыпкин Я.З., Кельманс Г.К. Рекуррентные алгоритмы самообучения. - Изв. АН СССР. Техническая кибернетика, 1967, № 5, с. 78-87. 282
121. Шилъман С.В., Ястребов А.И. а) Исследование сходимости одного класса много- шаговых алгоритмов адаптации. - Автоматика и телемеханика, 1978, № 8, с. 111- 120; б) Стохастические алгоритмы оптимизации при марковских шумах в изме- рениях градиента. - Автоматика и телемеханика, 1980, № 6, с. 96-100. 122. Ширяев А.Н. а) Статистический последовательный анализ. - М.: Наука, 1976. - 271 с.; б) Вероятность. - М.: Наука, 1980. - 574 с. 123. Шлезингер М.И. Последовательные алгоритмы самообучения. - В кн.: Распозна- вание образов и конструирование автоматов. Киев, 1969, с. 3-11. 124. Эйкхофф П. Основы идентификации систем управления. - М.; Мир, 1975. - 683 с. 125. Яглом А.М. Введение в теорию стационарных случайных функций. - УМН, 1952, № 5, вып. 7, с. 3-168. 126. Якубович В.А. а) Некоторые общие принципы построения обучаемых опознаю- щих систем.-В кн.: Вычислительная техника и вопросы программирования. Л.: Изд-во Ленинградского ун-та, 1965, вып. 4, с. 3-72; б) К теории адаптивных сис- тем. - ДАН СССР, 1968, т. 182, № 3, с. 518-521; в) Конечно-сходящиеся алгорит- мы решения счетных систем неравенств и их применение в задачах адаптивных систем. - ДАН СССР, 1969, т. 189, № 3, с. 495-498; г) Метод рекуррентных целе- вых неравенств в теории адаптивных систем. - В кн.: Вопросы кибернетики. Адаптивные системы. М.: Научный совет по кибернетике АН СССР, 1976, с. 32- 63. 127. Ястребов А.И. О сходимости одношаговых алгоритмов стохастической аппрокси- мации при коррелированных измерениях. - В кн.: Динамика систем. Межвузов- ский сборник. Горький, 1976, вып. 9, с. 60-72. 128. Anderson B.D.O., Hitz K.L., Diem N.D. Recursive algorithm for spectral factorization. - IEEE, Trans. Circuits Syst., 1974, v. CS-6, p. 742-750. 129. Astr6m KJ. Maximum likelihood and prediction error methods. - Automatica, 1980, No. 5,p. 551-574. 130. Astrtim KJ., Soderstrom T. Uniqueness of the maximum likelihood estimates of the pa- rameters of an ARMA model. - IEEE Trans. Aut. Contr., 1974, v. AC-19, No. 6, p. 769-773. 131. Bezdek J.C. Claster validity with fuzzy sets. - J. Cybernetics, 1974, v.3, No.3, p.32-57. 132. Blackwell D., Dubius L. Merging of opinions with increasing information. - Ann. Math. Statist., 1962, v. 33, No. 3, p. 882-886. 133. Bode H.W., Shannon C.E. К simplified derivation of linear least square smoothing and prediction theory. - Proc. IRE, 1950, No. 38, p. 417-425. 134. Busy R.S., Joseph P.D. Filtering for Stochastic Processes with Application to Gui- dance. - N.Y.; London: Int. Publ., 1968. - 195 p. 135. Busy R.S., Kalman R.E. New results in linear filtering and prediction theory. - J. Basic. Eng. ASME, 1961, v. 83, No. 1, p. 95-108. 136. Deutsch R. Estimation Theory. - N.Y.: Prentice-Hall, Inc. Englewood Cliffs, 1965. - 269 p. 137. Dugard L., Landau J.D. Recursive output error identification algorithms. - Theory and evaluation. - Automatica, 1980, No. 5,p. 443-462. 138. Fogel E. System identification via membership set constraint with energe constrained noise. - IEEE, Trans. Aut. Contr., 1979, v. AC-24, No. 5, p. 752-758. 139. Gelb A. Ed. Applied Optimal Estimation. - Cambridge: MA MIT Press,. 1974. - 374 p. 140. Goodwin G.C., Ramadge PJ., Caines P.E. Descrete-time multivariable adaptive cont- rol. - IEEE, Trans. Aut. Contr., 1980, v. AC-25, No. 3, p. 449-456.’ 141. Goodwin G.C., Sin K.S., Bitmead R.R. An adaptive d-step ahead predictor based on least-squares. - IEEE,Trans. Aut. Contr., 1980, AC-25, No. 6, p. 1161-1165. 142. Goodwin G.C., Sin K.S., Saluja K.K. Stochastic adaptive control and prediction. - The general delaycolared noise case. - IEEE, Trans. Aut. Contr., 1980, AC-25, No. 5, p. 946-950. 143. Graupe D. On convergence of least-squares identifier of autoregressive models having stable and unstable roots. - IEEE, Trans. Aut. Contr., 1980, No. 5, p. 999-1002. 144. Gustavsson I., Ljung L„ Soderstrom T. Identification of processes in closed loop-iden- tifiability and accuracy aspects. - Automatica, 1977, v. 13, No. 1, p. 59-75. 145. Hitz K.L., Anderson B.D.O. Discrete positive real functioning and their applications to system stability. - Proc. Inst., Elec. Eng., 1969, v. 116, p. 153-159. 283
146. Huber P.J. a) Robust estimation of a location parameter. - Ann. Math. Stat., 1964, v. 35, No. 1, p. 73-101; b) Robust statistics: a review. - Ann. Math. Stat., 1972, v. 43, p. 1041-1067. 147. Jazwinski A.H. Stochastic Processes and Filtering Theory. - N.Y.: Acad. Press, 1970. - 376 p. 148. Кд/тди R.E. A new approach to linear filtering and prediction problem. - J. Basic Eng. ASME, 1960, v. 82, No. 1, p. 35 -45. 149. Kashyap R.L. Identification and control of a clase stochastic systems with unknown parameters. - Int. J. Contr., 1970, v. 12, No. 6, p. 1041-1056. 150. Koivo H.N: A multivariable self-tuning controller. - Automatica, 1980, No. 4, p. 351 — 366. \5Ko lmogorov A.N. Sur I’interpolation et extrapolation des suites stationnaires. - C.R. Acad. Sci. Paris, 1939, No. 208, p. 2043-2045. 152. Kushner H.J. a) On the dynamical equations of conditional probability density functions with application to optimal stochastic control theory. - J. Math. Anal. AppL, 1964, v. 8, p. 322-334; b) Convergence of recursive adaptive and identification procedures via weak convergence theory. - IEEE Trans. Aut. Contr., 1977, No. 6, p. 921-930. 153. Lainiotis D.G. Optimal nonlinear estimation. - Int. J. Contr., 1971, v. 14, No. 6, p. 1137-1148. 154. Landau J.D. a) Estimation of’the real positivity condition in the design of parallel MRAS. - IEEE, Trans. Aut. Contr., 1978, v. AC-23, No. 6, p. 1015-1020; b) An ex- tension of a stability theorem applicable to adaptive control. - IEEE, Trans. Aut. Contr., 1980, v. AC-25, No. 4, p. 814-816; c) Unbiased recursive identification using model refrence adaptive techniques. - IEEE,Trans. Aut. Contr., 1976, vol AC-21, No. 2, p. 194-202. \5S. Landau JJD., Silveiro HM. A stability theorem with applications to adaptive control - IEEE, Trans. Aut. Contr., 1979, v. AC-24, No. 2, p. 305-312. 156. Ljung L. a) Consistency of the least-squares identification method. - IEEE, Trans. Aut. Contr., 1976, v. AC-21, No. 5, p. 779-787;b) On positive real transfer functions and the convergence of some recursive schems. - IEEE, Trans. Aut. Contr., 1977, v. AC-22, No. 4, p. 539-551; c) Asymptotic behaviour of the extended Kalman filter as a parameter estimator for linear systems. - IEEE, Trans. Automat. Contr., 1979, v. AC-24, No. 1, p. 36-50;d) Recursive identification. - Internal Report LFTH-ISY- 1-0417, Dept, of Electrical Engineering, Linkoping University, Sweden, 1980. - 35 p.; e) System identification - Internal Report LFTH-ISY-I-0457, Dept, of Electrical Engineering, Linkoping University, Sweden, 1981. - 18 p.; f) The ODE approach to the analysis of adaptive control systems - possibilities and limitations - Report LiTH-ISY-I-0371, Dept, of Electrical Engineering, Linkoping University, Sweden, 1980. - 9 p.; g) Convergence analysis of parametric identification methods. - IEEE, Trans. Aut. Contr., 1970, v. AC-23, No. 5, p. 770-783; h) Analysis of recursive sto- chastic algorithms. - IEEE, Trans. Aut. Contr., 1977, v. AC-22, No. 4, p. 551-575. 157. Moore J.B. On strong consistancy of least squares identification algorithms. - Auto- matica, 1978, v. 14, No. 5, p. 505-509. 158. Morse A. Global stability of parameter-adaptive control systems. - IEEE, Trans. Aut Contr., 1980, v. AC-25, No. 3, p. 433-439. 159. Nelson N.W., Stear E. The simultaneous on line estimation of parameters and states in linear systems. - IEEE, Trans. Aut.Contr., 1976, v. AC-21, p. 94-98. 160. Panuska V. a) A new form of the extended Kalman filter for parameter estimation in linear system with correlated noise. - IEEE, Trans. Aut. Contr., 1980, v. AC-25, No. 2, p. 229-234; b) A stochastic approximation method for identification on linear systems using adaptive filters. - Proc. Joint Aut. Contr. Conf., 1968. XfA. Poljak B.T., Tsypkin Ja.Z. Robust identification. - Automatica, 1980, v. 16, p. 53-63. 162.Poor H.V. On robust Wiener filtering. - IEEE, Trans. Aut. Contr., 1980, v. AC-25, No 3, p. 531-536. 163. Posnyak A.S. Estimating the parameters of autoregression processes by the method of least squares. - Int. J. Systems Sci., 1980, v. 11, No. 5, p. 577-588. 164. Saridis G.N. Stochastic approximation methods for identification of control a survay. - IEEE, Trans. Aut. Contr., 1974, v. AC-19, No. 6, p. 798-809. 165. Soderstrom T. Convergence properties of the generalized least squares identification me- thods. - Automatica, 1974, v. 10, p. 617-626. 284
166. Soderstrdm T, Ljung L., Gustavsson I. A theoretical analysis of recursive identification methods. - Automatica, 1978, v. 14, No. 3, p. 231-244. 167. Solo V. The convergence of AML. - IEEE, Trans. Aut. Contr., 1979, v. AC-24, No. 6, p. 958-962. 168. Stankovic S.S. On asymptotic properties of real-time identification algorithms based on dynamic stoclastic approximation. - IEEE, Trans. Aut. Contr., 1978, v. AC-23, No. 1, p. 58-61. 169. Steiglitz K., Thomas J.B. A class of adaptive matched digital filters. - Third Symposium on Adaptive Processes. The Institute of Electrical and Electronics engineers, Inc. N.Y.: 1964, p. 102-115. 170. Strejc V. Least squares parameter estimation. - Automatica, 1980, No. 5, p. 535-550. 171. Tsypkin Ya.Z., Avedfan E.D., Gulinskiy О. V. - On convergence of the recursive identi- fication algorithm. -IEEE, Trans. Aut. Contr., 1981, No. 5, p. 1009-1017. 172. Weiner N. The Extrapolation, Interpolation and Smoothing of Stationary Time Series with Engineering Applications. - N.Y.: Wiley, 1949. 173. Wittenmark B. Stochastic adaptive control methods: a survay. - Int. J. Contr., 1975, v. 21, No. 5, p. 705-730. 174. Wonham W.M. On the separation theorem of stochastic control. - SIAM J. Contr., 1968, No. 6, p. 312-326. 175. Young P.C., Shellswell S.H. and Neethling C.C. A recursive approach to time - series analysis, Dep. Ang., Univ. Cambridge, Cambridge, England, Teqhn. Note CN/70/1, 1970. 176. Zadeh L,A.t Ragazzmi I.R. Extension of Wiener’s theory of prediction. - J. Appt Phys., 1950, v. 21, No. 7, p. 645-654.
СПИСОК ОСНОВНЫХ СОКРАЩЕНИЙ И ОБОЗНАЧЕНИЙ д.-р.ф. - дробно-рациональная функция МНК - метод наименьших квадратов ММП - метод максимума правдоподобия MCA - метод стохастической аппроксимации с.в. - случайная величина (случайные величины) Р { • } - вероятность события {•} Р { • I G } -условная (при условии (?) вероятность М - математическое ожидание (среднее значение) М {• I (?) - условное (при условии (?) математическое ожидание F - распределение вероятностей р (•) - плотность распределения (вероятностей) р( • |z) - условная плотность распределения (при условии а-алгебры, порождаемой с.в. z) col (у,.....yt) - вектор-столбец с компонентами yt,... , yt •>£= t Уз...Уз}. t>t x“={ УиЪ....} =(•»} col (y^» zi) ~ вектор-столбец с компонентами {у 1,.. . , yt, z,.zt lim yt (lim у t) - верхний (нижний) пределы последовательности у t f —* оо f —* оо V - операция сдвига во времени на такт назад, vyt -yt_{ Т\Т0 - разность множеств Т и То {X: К}- множество элементов Ху обладающих свойством К gradr s (х, т) - градиент по т функции s (х, т) Sp Л - след матрицы А к - евклидово пространство размерности 7 х: ft -* RZ - отображение х множества П в пространство R1 cov - ковариация, cov £ = М (£ - Mt) U - МО* х* - вектор-строка, отвечающая вектор-столбцу х А * - матрица, сопряженная матрице А |х | - евклидова норма вектора х, |х|2 = х*х lA | - евклидова норма матрицы Л, |Л I2 = 8рЛ*Л 6/у - символ Кронекера, 6 ц = 1,^ = 0 при i det Л - определитель матрицы Л degtf (X) - степень полинома а (X)
Владимир Николаевич Фомин РЕКУРРЕНТНОЕ ОЦЕНИВАНИЕ И АДАПТИВНАЯ ФИЛЬТРАЦИЯ Редактор Ф.С. Петров Технический редактор В.В. Лебедева Корректоры Т.В. Обод, Т.А. Печко Набор осуществлен в издательстве на наборно-печатающих автоматах ИБР 12216 Сдано в набор 21.11.83. Подписано к печати 17.02.84 Т — 06228. Формат 60 X 90 1/16. Бумага тип №3 Гарнитура Пресс—Роман. Печать офсетная Усл. печ. 18,0. Усл. кр.-отт. 18,0. Уч.-изд.л. 19,51 Тираж 4650 экз. Тип. зак. 82. Цена 3 руб. Издательство ’’Наука” Главная редакция физико-математической литературы Москва, В—71, Ленинский проспект, 15 4-я типография издательства ’’Наука” 630077, Новосибирск, 77, ул. Станиславского, 25
ИЗДАТЕЛЬСТВО ’’НАУКА” ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 117071, Москва, В-71, Ленинский проспект, 15 Готовятся к изданию Бутковский А.Г., Самойленко Ю.И. Управление квантовомеханическими процессами. Зыков В.С. Моделирование волновых процессов в возбудимых средах. П у п ы р е в ЕЛ. Перестраиваемые автоматы и микро- процессорные системы. Цыпкин Я.З. Основы информационной теории иден- тификации. Серия ’Теоретические основы технической кибернетики” Кейн В.М. Оптимизация систем управления по мини- максному критерию. Розенвассер ЕЯ., Воловодов С.К. Колебатель- ные процессы в нелинейных системах: операторные методы.
3 р.