Текст
                    И. А. БОГУСЛАВСКИЙ
ПРИ ЛАДНЫ АДАЧ
ФИЛ. *А И
УПРА;Л Н •
9


ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ТЕХНИЧЕСКОЙ КИБЕРНЕТИКИ И.А.БОГУСЛАВСКИЙ ПРИКЛАДНЫЕ ЗАДАЧИ ФИЛЬТРАЦИИ И УПРАВЛЕНИЯ щ да МОСКВА «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 4 983
32.81 Б73 УДК 62-50 Прикладные задачи фильтрации и управления. Ко г у с л а в- ский И. А.—М.: Наука, Главная редакция физико-математической литературы, 1983.— 400 с. Излагаются методы определения оценок фазовых координат объекта управления в темпе реального времени (методы рекуррентной фильтрации) и методы использования этих оценок для достижения целей управления (методы стохастического управления). Алгоритмы решения задач фильтрации и стохастического управления движением рассматриваются при дискретных моментах измерения и управления, что важно при наличии ЭВМ в системе управления. Применение алгоритмов иллюстрируется примерами численного решения ряда модельных задач. Книга предназначена для специалистов в области теории управления, в частности — теории управления движущимися объектами. Табл. 11, илл. 15, библ. 63 назв. Иосиф Аркадьевич Богуславский ПРИКЛАДНЫЕ ЗАДАЧИ ФИЛЬТРАЦИИ И УПРАВЛЕНИЯ (Серия «Теоретические основы технической кибернетики») Редактор Д. С. Фурманов Техн. редактор Л. В. Лихачева Корректор Е. В. Сидоркина ИБ JS& 12413 Сдано в набор 27.09.82. Подписано к печати 02.06.83. Т-12859. Формат 84х1087з2. Бумага тип. № 2. Обыкновенная гарнитура. Высокая печать. Условн. печ. л. 21. Уч.-изд. л. 22,55. Тираж 3250 экз. Заказ 352. Цена 3 р.60 к. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 4-я типография изд-ва «Наука» 630077, Новосибирск, 77, Станиславского, 25 ©Издательство «Наука». *^«v,v,v,v,v,v, vw Главная редакция Б ПЕ>о/по\ go 177-83 физико-математической U5d(02)-oo литературы, 1983
ОГЛАВЛЕНИЕ Предисловие 9 Введение ... 15 Глава 1. Рекуррентные уравнения оптимизации дискретного стохастического управления . ... 19 § 1.1. Постановка задачи синтеза оптимального управления при неполной информации 19 § 1.2. Модели объекта управления, возмущающих шумов, ошибок измерений 22 § 1.3. Влияние обратной связи на качество управления 28 § 1.4. Основные леммы . 30 § 1.5. Уравнения оптимизации при полной информации о фазовых координатах 33 § 1.6. Уравнения оптимизации при неполной информации о фазовых координатах. Принцип разделения 35 § 1.7. Оптимальная оценка фазовых координат и дуальное управление 40 § 1.8. Уравнения оптимизации при ограничениях на энергетику ' 42 § 1.9. Уравнения оптимизации при ограничениях на энергетику и число участков управления . . 46 § 1.10. Уравнения оптимизации при* случайном моменте остановки процесса измерений ..... 48 § 1.11. Уравнения оптимизации при отсутствии ограничений на последнее управление 51 § 1.12. Задача оптимального управления при случайном терминальном моменте 52 § 1.13. Задача оптимизации при случайном и управляемом терминальном моменте 55 1*
4 ОГЛАВЛЕНИЕ Глава 2. Численные методы оптимизации стохастического управления при полной информации ... 58 § 2.1. Общая схема численной оптимизации ... 58 § 2.2. Многомерная линейная интерполяция ... 59 § 2.3. Определенные матрицы и выпуклые функции . 61 § 2.4. Оценка накопления ошибок из-за линейной интерполяции 63 § 2.5. Некоторые свойства функций условных рисков . 68 § 2.6. Методы нелинейного и стохастического программирования 70 § 2.7. Оптимизация с вычислением стохастических квазиградиентов 81 § 2.8. Оптимизация терминального управления с вычислением стохастических градиентов 86 § 2.9. Постановка задачи оптимизации методами нелинейного программирования 91 § 2.10. Многомерное нормальное распределение ... 92 § 2.11. Уравнения эволюции статистических характеристик в нормальном приближении 93 § 2.12. Общий численный метод определения статистических характеристик 98 § 2.13. Алгоритм извлечения квадратного корня и исправление к. м 105 § 2.14. Алгоритм оптимизации управления .... 109 § 2.15. Параметрическая оптимизация нелинейных систем автоматического управления . . 111 Глава 3. Оптимизация стохастического управления линейной системой ИЗ § 3.1. Объект управления 113 § 3.2. Прогнозируемые фазовые координаты . . . 116 § 3.3. Симметризация области допустимых векторов управления 118 § 3.4. Оптимизация методом стохастического программирования ... 119 § 3.5. Оптимизация методом нелинейного программирования 121 § 3.6. Функции условных рисков при терминальном управлении 122 § 3.7. Структура оптимального терминального управления 130 § 3.8. Оптимальное скалярное стохастическое управление ...... 134
ОГЛАВЛЕНИЕ § 3.9. Особенности численной оптимизации терминального управления 135 § 3.10. Области достижимости детерминированного терминального управления . 136 § 3.11. Оценка областей случайных перемещений . . 139 § 3.12. Определение областей оптимизации Stfk 140 § 3.13. Оптимизация одномерного управления ... 142 § 3.14. Оптимизация терминального управления при ограничении числа участков управления . . . 144 § 3.15. Оптимизация терминального управления при случайном моменте остановки измерений . . . 155 § 3.16. Области «нечувствительности» терминального управления при учете энергозатрат 157 § 3.17. Оптимизация управления при квадратичных функциях потерь и отсутствии ограничений . 163 Глава 4. Рекуррентная фильтрация фазовых координат линейной системы . 167 § 4.1. Основные предположения 167 § 4.2. Параметры условного нормального распределения 168 § 4.3. Стохастическая наблюдаемость 174 § 4.4. Последовательный алгоритм 176 § 4.5. Алгоритм лаквидации особенности к. м. . . . 178 § 4.6. Условные распределения марковской последовательности и оценки по произвольному критерию 179 § 4.7. Марковская последовательность достаточных статистик 184 § 4.8. Априорная и апостериорная точность оценки алгоритмов ОРФ 185 § 4.9. Стохастическая наблюдаемость при последовательных измерениях 189 § 4.10. Алгоритм ОРФ при измерениях модели 1 (алгоритм Калмана) 191 § 4.11. Достаточные статистики при измерениях модели 1 199 § 4.12. Условия неособенности условных к. м. . . . 199 § 4.13. Стохастическая наблюдаемость при измерениях модели 1 ...... 201 § 4.14. Влияние частоты измерений модели 1 203 § 4.15. Предельное условное распределение .... 205 § 4.16. Сходимость алгоритма ОРФ — «оценивателя» при измерениях модели 1 210 § 4.17. Алгоритм ОРФ при измерениях модели 2 . . 216
6 огЛаёЛёййё § 4.18. О сходимости алгоритма ОРФ при измерениях модели 2 220 § 4.19. Формирующий фильтр 221 § 4.20. Алгоритм ОРФ при зависимых ошибках измерений 225 § 4.21. Достаточные статистики при измерениях модели 2 230 § 4.22. Рекуррентная фильтрация при измерениях смешанной модели 232 § 4.23. Проверка программы алгоритма ОРФ . . . 233 Глава 5. Алгоритмы ОРФ в некоторых задачах инерци- алыюй навигации . § 5.1. Особенности компонент вектора измерений . . 235 § 5.2. Задача математического согласования систем координат (математическая выставка) .... 237 § 5.3. Задача математической выставки при смешанной модели векторов измерений 244 § 5.4. Согласование географической системы координат и системы координат гироплатформы перед началом движения 245 Глава 6. Рекуррентная фильтрация при ошибках априорных данных и вычислений 249 § 6.1. Априорная и апостериорная точность оценки при ошибках статистических характеристик . . . 249 § 6.2. Сходимость алгоритма НОРФ при измерениях модели 1 255 § 6.3. Анализ влияния вектора «ухода нулей» и формирующего фильтра случайных возмущений . . 258 § 6.4. Анализ влияния вектора «ухода нулей» методом моделирования 261 § 6.5. Анализ влияния формирующего фильтра случайных ошибок измерений 262 § 6.6. Анализ влияния ошибок модели динамической системы 265 § 6.7. Влияние ошибок вычисления фундаментальной матрицы уравнений модели 268 § 6.8. Оценка влияния ошибок вычислений на БЦВМ 268 § 6.9. Защита от «больших выбросов» 273
ОГЛАВЛЕНИЕ 7 Глава 7. Алгоритмы квазиоптимальной рекуррентной фильтрации 274 § 7.1. Основные предпосылки 274 § 7.2. Уменьшение размерности путем перехода от модели измерений 1 к модели измерений 2 275 § 7.3. Уменьшение размерности путем преобразования вектора измерений 280 § 7.4. Алгоритм КОРФ, нечувствительный к «уходам нулей» датчиков информации 283 § 7.5. Двухчастотная рекуррентная фильтрация . . 286 § 7.6. Суммирование — первичная обработка поступающей информации 295 § 7.7. Аналого-дискретная рекуррентная фильтрация . 296 § 7.8. Две структуры алгоритмов КОРФ 300 § 7.9. Модельная задача инерциально-допплеровской навигации 303 Глава 8. Оптимизация стохастического управления линейной системой при неполной информации . 308 § 8.1. Уравнения и методы оптимизации .... 308 § 8.2. Оптимизация при терминальном управлении . 312 § 8.3. Аналитические решения задачи синтеза стохастического управления 316 § 8.4. Задача фактической выставки ЗСК . . . . 318 § 8.5. Численный синтез оптимального управления при и. = 2 (модельная задача мягкой посадки) . . 319 § 8.6. Минимизация средних энергозатрат при неполней информации 328 § 8.7. Качество стохастического управления при ошибках априорных статистических характеристик . 332 § 8.8. Уравнения синтеза стохастического дуального управления 335 Глава 9. Алгоритмы нелинейной фильтрации .... 338 § 9.1. Задача нелинейной фильтрации 338 § 9.2. Алгоритмы НЛРФ в нормальном приближении . 339 § 9.3. Адаптивный алгоритм оценивания в нормальном приближении 344 § 9.4. Моменты и семиинварианты 349 § 9.5. Параметры условного распределения в ненормальном приближении ♦ . • . 353
8 ОГЛАВЛЕНИЕ § 9.6. Уравнения эволюции статистических характеристик в ненормальном приближении .... 358 § 9.7. Аппроксимация плотности вероятности вектора фазовых кординат 360 § 9.8. Алгоритм НЛРФ в ненормальном приближении 368 § 9.9. Адаптивный алгоритм в ненормальном приближении 369 § 9.10. Алгоритм конечнозначной адаптации и квазиоптимальное управление при многих гипотезах . 372 § 9.11. Алгоритм минимаксной рекуррентной фильтрации 381 Литература ..«..«,.••• i i • *98
ПРЕДИСЛОВИЕ В последние три десятилетия прикладная проблема навигации и управления движением при наличии случай- пых возмущений и ошибок измерений породила большое число исследований, результатами которых оформились в самостоятельное научное направление методы получения оценок в темпе реального времени (методы рекуррентной фильтрации) и методы использования этих оценок для достижения целей управления (методы стохастического управления). В данной книге, основанной на работах автора последних лет [6] —[14], прикладные задачи фильтрации и управления рассматриваются при дискретном времени (дискретных моментах измерений) — ситуации, имеющей наибольший практический интерес для систем управления с ЦВМ (решения задач с непрерывным временем в реальных системах управления неприменимы). Главы 1—3, 8 посвящены задачам выбора дискретного стохастического управления, а главы 4—7, 9 — задачам выбора алгоритмов дискретной рекуррентной фильтрации. В главе 1 для различных постановок задач синтеза оптимального стохастического управления (при ограничениях на векторы управлений, на энергозатраты, на число участков управления, при случайных моментах окончания измерений и управления) выводятся рекуррентные уравнения для функций условных рисков (функций Беллмаиа) в предположении существования марковской последовательности достаточных статистик векторов фазовых координат оптимизируемой стохастической системы в моменты измерений. Это предположение позволило в общем случае сформулировать принцип разделения, обычно излагаемый лишь для линейных систем при квадратичном критерии качества, рассмотреть задачу оценивания как частный случай задачи управления, получить уравнения дуального управления. В главе 2 изучается задача численного решения рекуррентных уравнений при использовании многомерной
10 ПРЕДИСЛОВИЕ линейной интерполяции и проводится анализ накопления ошибок. Рассматриваются алгоритмы оптимизации, основанные на методах стохастического программирования при вычислении стохастических квазиградиентов и стохастических градиентов и на методах нелинейного программирования при численном интегрировании уравнений эволюции статистических характеристик в нормальном приближении, сочетаемом с алгоритмом извлечения квадратного корня из корреляционных матриц и их исправлением. Для произвольных видов нелинейностей правые части этих уравнений могут вычисляться с помощью многомерного обобщения квадратурных формул наивысшей алгебраической точности. Численный пример дает представление о точности такого вычисления. В главе 3 методы главы 2 применяются в задаче оптимизации стохастического управления линейной (в разомкнутом состоянии) стохастической системой при условии, что ее координаты в дискретные моменты времени измеряются без ошибок. Проводится качественное исследование вида функций условных рисков и структур оптимального терминального управления в скалярном и векторном случаях, облегчающее применение численных методов, описываются методика определения областей оптимизации и особенности алгоритма численной оптимизации терминального управления. Рассматриваются два случая аналитического решения задачи синтеза: при одномерном, симметрично ограниченном управлении и четной функции потерь, не убывающей при положительном аргументе, и при отсутствии ограничений на вектор управления и квадратичной функции потерь. Для задач оптимизации терминального управления при ограничении числа участков управления, при случайном моменте окончания измерений, при ограничении на энергетику управления описывается методика определения областей «нечувствительности» управления и даются рекомендации по построению алгоритмов оптимизации. Приводятся результаты численной оптимизации в функции числа измерений стратегии одноимпульсыого управления в случае, когда условный риск является вероятностью непопадания в заданный отрезок. В главе 4 выводятся различные варианты алгоритмов рекуррентной фильтрации фазовых координат линейной стохастической системы, выходом которых при нормальном распределении первичных случайных факторов слу-
ПРЕДИСЛОВИЕ U жат условные математические ожидания этих координат — векторы оценок, оптимальные по среднеквадратичному критерию. Эти варианты соответствуют случаям независимых ошибок измерений (модель 1), отсутствию ошибок измерений (модель 2), ошибкам измерений, получаемым на выходе некоторого формирующего фильтра (модель 2), смешанной модели ошибок измерений. Показывается, что эти алгоритмы являются той или иной формой алгоритма Калмана и получаются в результате применения леммы о параметрах условного нормального распределения при определении достаточных статистик марковской последовательности случайных векторов, у которых часть компонент измеряется без ошибок. Выводится последовательная форма алгоритмов, не требующая обращения матриц. Рассматривается стохастическая наблюдаемость, достаточным условием выполнения которой служат, например, известные условия детерминированной наблюдаемости Калмана. Для ряда случаев модели 1 исследуются параметры предельных условных распределений, получаемых при неограниченном увеличении числа измерений или интервала между измерениями. Изучаются параметры локального распределения — распределения ошибок оценки при фиксированных произвольных начальных условиях, характеризующие сходимость алг^ритма-оценива- теля в среднем или среднеквадратичном; численный пример дает представление об изменении в функции числа измерений спектральной матричной нормы, позволяющей судить о скорости убывания модуля вектора ошибок оценки. В главе 5 алгоритмы главы 4 используются для решения возникающей в иыерциальной навигации задачи оценки углов рассогласования и относительных уходов зависимой и базовой систем координат в предположении, что ошибки измерений на выходах интеграторов ускорений образуют винеровский случайный 'процесс. Численный пример дает представление об эволюции относительных ошибок оценки при некотором периодическом законе движения базовой системы координат. В главе 6 точность оценки алгоритмами главы 4 исследуется при ошибках в априорных статистических характеристиках первичных случайных факторов, ошибках модели динамической системы, ошибках вычислений и показывается несовпадение в этих ситуациях характеристик априорной и апостериорной точности. Рассмотрение
12 ПРЕДИСЛОВИЕ параметров локального распределения доказывает устойчивость алгоритмов по отношению к ошибкам априорнда статистических характеристик — сохранение свойств оце- нивателя для широкого круга условий. Выводятся рекуррентные уравнения, позволяющие последовательно рассчитать параметры распределений векторов ошибок оценки, возникающих из-за наличия непредусмотренных математической моделью системы вектора «ухода нулей» аппаратуры, формирующих фильтров ошибок измерений и случайных возмущений. Описывается приближенная методика определения ошибок условных корреляционных матриц, возникающих при вычислениях на БЦВМ с фиксированной запятой. В главе 7 рассматриваются способы построения квазиоптимальных алгоритмов рекуррентной фильтрации, более удобные в реализации, чем оптимальные алгоритмы главы 4. Излагаются способы уменьшения размерности векторов и матриц, основанные на преобразовании вектора измерений и переходе от модели измерений 1 к модели измерений 2, выводятся рекуррентные уравнения для расчета параметров распределений векторов ошибок оценки квазиоптимальных алгоритмов. Приводится численный пример изменения в функции числа измерений спектральной матричной нормы, иллюстрирующей сходимость квазиоптимального алгоритма-оценивателя, и численный пример изменения относительных ошибок оценки при использовании ква-зиоптимального алгоритма, нечувствительного к «уходам нулей» аппаратуры датчиков информации. Излагаются варианты квазиоптимальпых алгоритмов двух- частотной и аналого-дискретной рекуррентной фильтрации, уменьшающие требования к производительности БЦВМ. Рассматриваются модельные примеры использования квазиоптимальных алгоритмов при решении задач инерциально-допплеровской навигации и орбитальной навигации по данным от высотомера. В главе 8 излагаются методы оптимизации стохастического управления при неполной информации, основанные на использовании алгоритмов главы 3, в которых роль векторов фазовых координат в дискретные моменты измерений играют векторы достаточных статистик, поставляемые алгоритмами оптимальной рекуррентной фильтрации главы 4. Проводится численный синтез (определяются линии переключения и линии уровня функций условных рисков) двумерного оптимального стохастического управ-
ПРЕДИСЛОВИЕ 13 ления мягкой посадкой, в которой условный риск представляет собой вероятность непопадания в заданную область высоты и вертикальной скорости в терминальный момент. В функции числа измерений определяются области «нечувствительности» оптимального импульсного управления, у которого последний импульс ответствен за точность, а предшествующие — за уменьшение среднего значения энергозатрат. Излагается методика определения качества управления, оптимального при среднеквадратичной функции потерь, если алгоритмы оптимальной рекуррентной фильтрации используются при ошибках априорных статистических характеристик первичных случайных факторов. — Глава 9 посвящена алгоритмам нелинейной фильтрации, решающим задачу приближенного определения векторов условных математических ожиданий фазовых координат, если при нормальных распределениях первичных случайных факторов ненормальны условные распределения этих координат. Излагаются алгоритмы нелинейной фильтрации и адаптивные алгоритмы в нормальном приближении и приводится численный пример использования адаптивного алгоритма при неизвестной постоянной времени. Алгоритмы нелинейной фильтрации в ненормальном приближении строятся при использовании гипотезы «урезания» (считаются равными нулю априорные и условные семиинварианты порядка выше 4). Для дискретных моментов времени решается задача определения параметров ненормального условного распределения (вектора математического ожидания и центральных момен'ЛЬ), если известны результаты измерений и параметры априорных ненормальных распределений. Последние определяются численным интегрированием уравнений эволюции статистических характеристик динамической системы между измерениями в ненормальном приближении, являющимися обобщением уравнений главы 2. При вычислении правых частей этих уравнений используется аппроксимация плотности вероятности фазовых координат отрезком ряда из многомерных полиномов Эрмита, умноженного на плотность вероятности некоторого многомерного нормального распределения. Задача вычисления коэффициентов этого ряда (квазимоментов) решается с помощью полученных иптегральпого тождества и рекуррентного уравнения, которые сводят ее к вычислению многомерных интегралов, нужных для численного интегрирования уравнений нормального приближения
14 ПРЕДИСЛОВИЕ главы 2. Излагается алгоритм конечнозначной адаптации, в котором априорные данные о задаче адаптации сведены к нескольким моделям линейных стохастических систем и линейных измерений, одна из которых совпадает с истинной моделью. Численный пример иллюстрирует уверенную идентификацию в условиях, когда дисперсия ошибок измерений неизвестна и заданы лишь ее возможные, априори равновероятные значения. Излагается методика решения задачи минимаксной фильтрации в статистически- неопределенной ситуации, когда наряду со случайными возмущениями и ошибками измерений существуют неопределенные (нестатистические) возмущения и ошибки измерений, для которых из априорных соображений заданы лишь области существования. Для овладения материалом книги читатель должен хорошо знать основы математического анализа, теории вероятностей и линейной алгебры в объеме курсов втуза. Дополнительные сведения из математики, необходимые для понимания материала, излагаются в соответствующих местах книги. Автор благодарит А. Е. Егорову за апробацию ряда описанных алгоритмов и Г. Г. Богуславскую за большую помощь при оформлении рукописи. Список литературы ни в коей мере не является библиографией по рассматриваемым в книге вопросам и содержит лишь работы, упоминаемые в тексте. Январь 1981 г. И. Богуславский
ВВЕДЕНИЕ При решении широкого круга прикладных задач управления динамическими системами возникает проблема оптимизации стохастического управления. Термином «стохастическое управление» обычно называют закон или алгоритм управления динамической системой, выбираемый (синтезируемый) с учетом случайных факторов, возмущающих движение динамической системы, и случайных ошибок датчиков, которые снабжают контур управления обратной связью — статистической информацией о текущих фазовых координатах системы (рис. В.1). Поэтому в системах стохастического управления с обратной связью в Объект управления Датчики информации Шумы Шумы Контур управления БЦВМ \ ^ лсэ *> 55 £ И «*> Рис. В.1. момент назначения управления учитываются как априорные представления о законах распределения первичных случайных факторов, так и поставляемые датчиками сведения о текущем динамическом «портрете» системы —- ее текущих фазовых координатах. Если эти сведения очень
16 ВВЕДЕНИЕ грубы — информация о текущих фазовых координатах поступает с большими ошибками или датчики информации вообще отсутствуют, то система стохастического управления с обратной связью становится системой стохастического программного управления. В таких системах вектор управления является функцией времени, которая выбирается с учетом априорных представлений о распределениях вектора начальных фазовых координат и случайных возмущений так, чтобы был наибольшим некоторый средний эффект управления. Динамическая система и датчики информации могут быть таковы, что измерение нужных для стохастического управления с обратной связью фазовых координат происходит с точностью, позволяющей не учитывать ошибки измерений при синтезе алгоритма вектора управления. В этом случае можно говорить о стохастическом управлении по полной информации о фазовых координатах. Однако в прикладных задачах (например, в задачах управления движением различных объектов) часто возникают ситуации, в которых нет возможности непосредственно измерить нужные для управления фазовые координаты, а величины, связанные с ними функциональной или операторной связью, измеряются с заметными случайными ошибками. В этом случае говорят о стохастическом управлении по неполной информации о фазовых координатах. Так, например, при управлении движением задача стохастического управления по неполной информации возникает из-за того, что для управления надо знать текущий вектор скорости объекта, а для непосредственного измерения доступны (причем с ошибками) лишь его текущие линейные или угловые координаты. При стохастическом управлении по неполной информации общая задача управления содержит задачу оценки фазовых координат по результатам измерений, которую часто называют задачей фильтрации. Обычно оптимальное (или по крайней мере практически целесообразное) управление с сопутствующей ему фильтрацией требует использования достаточно сложных алгоритмов для переработки первичной информации, поступающей от датчиков, и вычисления сигналов управления; эти алгоритмы, по-видимому, могут быть реализованы лишь применением в замкнутой системе управления бортовой цифровой вычислительной машины (БЦВМ), которая в дискретные моменты времени отбирает от датчиков первичную информацию, перерабатывает
ВВЕДЕНИЕ 17 ее и в дискретные моменты времени подает новые сигналы управления на входы контура управления объектом. При большом объеме информации и сложных алгоритмах фильтрации и управления ограниченная производительность современных БЦВМ препятствует решению задач фильтрации и управления с большой частотой (т. е. с малой дискретностью), позволяющей использовать алгоритмы фильтрации и управления при непрерывном времени (применение этих алгоритмов при решении различных задач описано, например, в [2], [3], [10], [341, [50], [56]). По этой причине не удается использовать известный алгоритм Калмана [27], [46], решающий задачу оптимальной фильтрации при непрерывном времени и записываемый в виде стохастического дифференциального уравнения. Наличие БЦВМ в системе управления и относительно малая частота (т. е. большая дискретность) решения упомянутых выше задач оправдывают специальное рассмотрение задач с дискретным временем — задач дискретного стохастического управления и дискретной фильтрации, которым посвящена эта книга. Основное внимание уделено численным методам оптимизации алгоритмов управления и фильтрации при использовании ЦВМ, а также примерам, иллюстрирующим применение этих методов для решения некоторых модельных задач навигации и управления движением. Автор отчетливо понимает, что в инженерных задачах существует достаточно плавная зависимость эффективности управления от «степени оптимальности» методов управления и фильтрации. Поэтому стремление использовать в алгоритмах управления реальной системы результаты решения задачи оптимизации представляется зачастую ничем не оправданным. Однако инженер-исследователь должен быть убежден, что эффективность выбранного к реализации варианта алгоритма управления близка к эффективности оптимального алгоритма управления, который поэтому целесообразно пытаться синтезировать, несмотря на «проклятие размерности» и «априорную опасность» — так обычно называют основные трудности, ожидающие исследователя па тернистом пути оптимизации стохастических систем. Впрочем, «априорная опасность», возникающая из-за отсутствия априорных данных о статистических характеристиках случайных факторов в важных инженерных задачах (например, задачах управления движением, задачах навигации и обработки результатов наблюдений), часто
18 ВВЕДЕНИЕ преувеличивается, так как исследователь на основании накопленного опыта в проектировании и испытании аналогичных систем достаточно уверенно оценивает максимальные случайные ошибки, максимальные случайные возмущения, максимальные разбросы начальных условий, максимальные интервалы корреляции и, пользуясь в соответствии с неравенством Чебышева правилом «2о» или «За», без значительных погрешностей может назначать первые два момента случайных величин и корреляционные функции случайных процессов, входящих в описание математической модели системы управления; известный закон больших чисел обычно позволяет без значительной идеализации считать первичные случайные величины нормально распределенными. Эти соображения, конечно, не исключают необходимости исследования чувствительности эффективности стохастического управления и фильтрации к вариациям априорных статистических характеристик. Методики проведения такого исследования в книге обсуждаются достаточно подробно. Следует отметить также, что быстрый рост производительности и объемов памяти БЦВМ, наблюдаемый в последние годы, позволяет надеяться на постепенное преодоление трудностей «проклятия размерности» и на аппаратурное обеспечение реализации сложных и близких к оптимальным алгоритмов управления и фильтрации. В книге систематически используются прикладная теория статистических решений и «байесовский подход», оценивающие эффективность управления и фильтрации средними значениями некоторых величин, вычисляемых по априорным распределениям первичных случайных факторов. Информированность исследователя о характере априорных распределений позволяет при байесовском подходе синтезировать более естественные алгоритмы управления и фильтрации, чем при максималистском минимаксном подходе.
ГЛАВА 1 РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ОПТИМИЗАЦИИ ДИСКРЕТНОГО СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ § 1.1. Постановка задачи синтеза оптимального управления при неполной информации Существует большое число различных постановок задач синтеза оптимального управления динамической системой, возмущаемой случайным процессом шумов, в условиях, когда измерения фазовых координат системы или величин, от них зависящих, производятся или точно, или со случайными ошибками. Рассмотрим достаточно общую постановку задачи при фиксированном времени управления и для нее получим рекуррентные уравнения, определяющие оптимальное дискретное стохастическое управление с обратной связью. Управление производится на отрезке времени [t0, Т], где t0, Т заданы. У динамической системы тг-мерный вектор фазовых координат х удовлетворяет уравнению x = f(x, и, h, t), (1.1) где и — 7П-мерный вектор управления, h — v-мерный вектор случайных шумов, возмущающих систему, / — заданная вектор-функция соответствующего числа переменных. В моменты времени t0, ..., tkj ..., tN (tN < T) измеряются Z-мерные векторы обратной связи у0, ..., 1/А, ..., yN, несущие информацию о векторе х. Векторы yk имеют вид yk = mtk,xk, Ы, (1.2) где xk = x(tk), |ft — Z-мерный дискретный случайный процесс ошибок измерений, Н — заданная вектор-функция соответствующего числа переменных. Называть yh векторами обратной связи естественно, так как, далее, векторы управлений зависят от ук и, следовательно, как видно из (1.2), зависят от текущих xh. Поэтому векторы и влияют на текущие xh, а последние — на векторы и. В задаче стохастического управления при полной информации компоненты векторов хк измеряются без
20 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 ошибок и, следовательно, yk = xh. (1.3) Далее, вектор управления на интервале [tk, tk+i) обозначается через ИьСт). Синтез в момент tk должен назначить вектор управления uk(i), который в каждой конкретной реализации процесса управления должен быть неслучайной (нерандомизированной) функцией т и зификсирован- ных векторов обратной связи 1/0, ..., j/ft, ... (обоснование использования нерандомизированного управления приведено, например, в [51]). Ожидаемое качество управления на интервале Т характеризуют величиной среднего риска S: S = M [ |><(*ь Щ) + ®(*г)1 (1.4) где хт = х{Т); ©*, ю — неотрицательные функции от хи хт и неотрицательные функционалы от функций ик(т). В (1.4) осреднение производится по всем возможным случайным векторам х0, gfc (/с = 0, ..., Л0, случайным процессам hit). Осреднение по случайным процессам можно понимать, например, следующим образом. В [43] показано, что достаточно общий случайный процесс может быть представлен его каноническим разложением: линейной комбинацией неслучайных функций времени с коэффициентами, которые неслучайны в данной реализации случайного процесса, но случайны на множестве реализаций. Тогда осреднение по возможным случайным процессам hit) означает осреднение по множеству этих случайных коэффициентов. Функции, стоящие в квадратных скобках правых частей равенства (1.4), обычно называют фу ищи- ями потерь. Наиболее часто используются квадратичные функции потерь: юЫ =?xTRx, (dkix, и) = xTRkx + uTQku, (1.5) где R, Rky Qk — матрицы соответствующей размерности. Далее, верхним индексом «т» всегда обозначаются транспонированные векторы-столбцы и матрицы. В приводимых ниже примерах синтеза оптимального управления часто используется следующий специальный вид функции ш(#), облегчающий численную оптимизацию и дающий четкое физическое представлепие о качестве управления: со(лг) = 0, если для каждой компоненты х* (£«*1, . ,м п) вектора х справедливо |я*|^й<; (&(х) *= 1 в
§ 1.1] СИНТЕЗ УПРАВЛЕНИЯ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ 21 противном случае. Область, в которой юЫ — О, будет п- мерным прямоугольным параллелепипедом, симметричным относительно начала координат. Очевидно, что в этом случае величина среднего риска S = М [о (%т)] есть вероятность непопадания вектора хт в этот прямоугольный параллелепипед. Функцию о)Ы в (1.4) обычно называют терминальной функцией потерь. Если в (1.4) ©«(#, и) вэ 0, i = 0, ..., N, то средний риск S называется терминальным. В этом случае векторы управлений ответственны лишь за среднее значение функции от вектора конечного состояния динамической системы. Везде далее считаем, что качество управления тем выше, чем меньше величина среднего риска S. Поэтому задача оптимизации стохастического управления заключается в выборе оптимальных управлений и0,... ..., ц*, минимизирующих величину среднего риска. На множества допустимых векторов управлений uk обычно наложены ограничения uk e °Uh, где % — выпуклые области, содержащие вектор, равный нулю (напомним, что область выпуска, если она содержит все точки отрезка, концы которого ей принадлежат). Далее, яг-мерное евклидово пространство будем обозначать через <Sm. Если °Uh — &т, то ограничения отсутствуют. Для применимости при оптимизации мощных вычислительных методов нелинейного и стохастического программирования, далее, на интервалах [£*, tk+i) считаем векторы управления uk(r) постоянными: uk(r) = uh. Это условие не является принципиальным ограничением, так как в случае необходимости можно вектор uh(r) считать постоянным на нескольких интервалах, составляющих интервал [tk, tk+l), и путем расширения вектора управления прийти к случаю uh(r) = uk = const. Поэтому S = S(u0, ..., uN). Минимальную величину среднего риска и соответствующие ей оптимальные управления будем обозначать верх- пим индексом «О»: S0 ии^. Задачу оптимизации сформулируем в следующем виде: найти векторы Wq, ..., и% и число S0 из условия S° = S (ut • • •, и%) = min {S (м0, ..., uN) | u0 <= <U^... ...,г/л<=ад. (1.6) (Строго говоря, символ min в (1.6) надо было бы заменить
22 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 на символ нижней грани inf, так как минимума функции S(u0, ..., uN) в принципе может и не существовать. Однако везде далее сохраняется символ min, так как вычисли- оо тельный алгоритм определения векторов щ, ..., un практически использует конечное число шагов и обычно не достигаются ни минимум (если он существует), ни нижняя грань.) К описанной постановке задачи с помощью множителей Лагранжа сводится задача на условный экстремум среднего риска. Так, например, пусть стохастическое управление должно минимизировать терминальный средний риск S — М [со (%т)] при условии М [г|) (хт)] = 0, где г|)(#) — некоторая положительная функция. Образуем средний риск Q = М [со (хт) + Ад|) (#т)], где % — неопределенный множитель, и найдем зависящие от X оптимальные управления, минимизирующие Q. После этого величину Я надо определить из условия М[г|)(яг)] = 0. § 1.2. Модели объекта управления, возмущающих шумов, ошибок измерений Разработка математической модели (уравнений движения) объекта управления, а также математических моделей случайных процессов возмущений hit) и ошибок измерений |ft, «удобных» при исследованиях на ЦВМ и в то же время «похожих» на реальный объект управления и реальные случайные возмущения и ошибки измерений,— сложная экспериментальная и теоретическая задача, решение которой в каждой прикладной ситуации предшествует оптимизации управления. Несмотря на упомянутые во введении правила «2о» или «За», построение моделей для hit) и £ftB ряде случаев осложняется тем, что их устойчивая статистика может не существовать из-за ее зависимости от неопределенных (нестатистических) факторов. Иногда указанная статистика более менее достоверно находится лишь при проведении специальных экспериментальных исследований серийно выпускаемых систем управления и датчиков информации, что делает ее определение затруднительным. В то же время обычно оптимизация управления должна быть проведена на стадии проектирования при отсутствии надежных экспериментальных данных о hit) и |fc. Поэтому указанные модели выбираются из прагматических соображений «удобства» работы на ЦВМ и интуитивных сообразщь
§ 1.2] МОДЕЛИ ОБЪЕКТА, ШУМОВ, ОШИБОК ИЗМЕРЕНИЙ 23 ыий соответствия реальным случайным величинам и процессам в аналогичных системах, прошедших экспериментальную отработку и испытания. Как известно, в состав математического обеспечения современных ЦВМ входит стандартная программа генерации случайных, нормально распределенных, независимых чисел. Поэтому приемлемые для исследований на ЦВМ математические модели hit) и £ft являются некоторыми операторами (обычно их называют формирующими фильтрами), которые из этих чисел арифметическими действиями и операциями присвоения образуют случайные процессы возмущений и ошибок измерений. Далее используется следующее определение марковского векторного случайного процесса: zit) — марковский векторный случайный процесс, если pizit)/zixh), ..., zi%0)) = pizit)/zixh)), где £>Tft> ...> т0; pizit)/...) —условные плотности вероятностей вектора zit). Для обеспечения возможности использования мощных теоретических и численных методов анализа и синтеза стохастических систем будем требовать, чтобы при фиксированных векторах управлений uk (например, при uft = = 0) была марковской случайная последовательность х01 хи ..., xkJ ... векторов фазовых координат объекта управления, описываемого уравнением (1.1). В терминах теории автоматического управления это означает, что в разомкнутой динамической системе (вектор управления uk не зависит от векторов обратной связи у0, ..., yN) векторы xh образуют марковскую последовательность. В замкнутой динамической системе (управления — функции векторов обратной связи) марковости векторов xk обычно не существует. Исключением служит случай дискретного стохастического управления по полной информации. Если случайные процессы Ш), возмущающие систему на непересекающихся интервалах времени [£*, U+i) и [tj, fj+i), статистически независимы, то последовательность xh — марковская. Действительно, в этом случае, как следует из дифференциального уравнения (1.1), распределение вектора xk+i зависит только от xk (вектор xh+l полностью определен вектором начальных условий xk, некоторым фиксированным вектором uk и случайным процессом hit) при t^[tk, th+i)7 независимым с й(т) при %<tk).
24 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 Примером случайного процесса hit), обладающего указанным выше свойством, служит широко используемый в прикладных исследованиях дискретный белый шум. Последний строится следующим образом. Все интервалы времени [£*, £*+1) делим на интервалы длиной б, на каждом из которых случайный вектор hit) постоянеп, его компоненты нормально распределены и статистически независимы, имеют равные нулю математические ожидания и дисперсии, равные б"1. При б -*• 0 hit) переходит в некоторую математическую абстракцию, называемую белым шумом. Дискретный белый шум является допредельной моделью белого шума. Из допредельной модели следует, что если hit) — белый шум, то М [hl(t)hl(i)] = б(£ — т), где Л'Ш — i-я компонента hit); б(t) — дельта-функция. Так как преобразование Фурье от б-функции равно (2л)~1/2, то компоненты белого шума имеют единичную спектральную плотность. Далее всегда дискретный белый шум, постоянный на интервалах времени длиной б, обозначаем через /г6Ш, а белый шум, получаемый при б ->■ 0, обозначим через hit): hit) = h0it). Если анализ и синтез стохастического управления производятся только о помощью прямых численных методов: анализ •— методом Монте-Карло, синтез — методом стохастического программирования (см. главу 2), то модель объекта управления можно описывать широким классом уравнений вида я = /(:г, ц, hit), t) (1.7) при условии выполнения требования: для достаточно малых величин б статистические характеристики векторов хк (например, первые два момента) практически не должны зависеть от б. Но для исследований на ЦВМ математическая модель в виде (1.7) задана лишь, если задан метод численного интегрирования уравнения (1.7). Принципиально выполнение требования: на интервале длиной б постоянства вектора h6it) численное интегрирование уравнения (1.7) производится каким-либо численным методом (например, методом Эйлера с шагом, существенно меньшим, чем величина б, или методом Рунге — Кутта с автоматически выбираемой в функции заданной точности длиной шага), в процессе применения которого учитывается переменность вектора #, удовлетворяющего (1.7) при постоянном векторе h6(t). Поэтому даже при сколь угодно малой величине б недопустимо, например, применение в
§ 1.21 МОДЕЛИ ОБЪЕКТА, ШУМОВ, ОШИБОК ИЗМЕРЕНИЙ 25 общем случае метода Эйлера с шагом, равным б, который вектор x((i+l)8) определит формулой *((*+1)6)-*(Й)+ /(*(«), щ ЬьШ, Ш, (1.8) где кьШ) равен случайному вектору h^t), постояппому при t e [jS, (i+ 1)8). Использование этого метода со сколь угодно малым шагом 8 применительно к уравнению вида (1.7) вызывает, вообще говоря, появление принципиальных ошибок в статистических характеристиках вектора х. Так, пусть в (1.7) fix, и, h&it), t)=*Ax + g(x)hb(t). Тогда из (1.8) " " хШ + 1)8) = (1 + А6)хШ + g(x(ib))h6Ub)6. (1.9) Осредняя обе части (1.9), получим, что величины mi = = М [х (гб)] определяются рекуррентным уравнением mi+l = (l + A8)mh (1.9') так как М \g (х (18)) h& (£8)1 = 0 (случайные величины g(x(iS)) и Мй) независимы, и М [йб (*8)] = 0). Однако в действительности ^%***Ш* 4 f x(Q)dQ \+M\h(tS) f g(*(e))d9 (1.10) Так как функция #Ш непрерывна, то второе слагаемое в правой части (1.10) при малой величине б приближенно можно считать равным Ат$. Однако третье слагаемое в (1.10) всегда не равно нулю, так как #(0) зависит от Mift) при 6^ [£8, (£+1)8]. Поэтому, если методом Монте-Карло определять т,, интегрируя много раз уравнение х — Ах + + g(x)h6 методом Эйлера с шагом б и осредняя затем результаты интегрирований, то получим неверные значения т{\ правильные величины т{ найдём, если числа #((£+1)8) будем определять, например, интегрированиями этого уравнения от t = i8 до t = (i + 1)8 методом Рунге — Кутта при начальном условии x(i8) с шагом, автоматически выбираемым из условия достижения заданной точности, или методом Эйлера с шагом, существенно меньшим величины б. Правда, как следует из материала § 2.12, для уравнения вида x = f(x, и, t) + g(zt и, t)hM) (1.11)
26 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. i метод Эйлера с малым шагом б дает в принципе правильные результаты, если этим методом численно интегрировать не первоначальное уравнение (1.11), а вспомогательное уравнение x = f*(x, и, t) + g(x, щ t)h(t), (1.110 где вектор-функция /*(#, и, t) определена в § 2.12. Вышеизложенное проиллюстрируем на примере уравнения £ = — ах + bxh6(t). (1.12) Из материала § 2.12 следует, что при S -> 0 величина т (t) = М [х (t)] удовлетворяет уравнению ^ = (-a + -i-ba)j и, следовательно, m(t) = m (0) ехр {(- а + \ bA *}. (1.13) Определение величины т(1) методом Монте-Карло при числе опытов N = 1000 и численном интегрировании уравнения (1.12) внутри интервалов длиной б методом Рунге — Кутта показало при а = 1/2, 6 = 1, что в соответствии с формулой (1.13) равенство 7?г(1) = т(0) выполняется с ошибкой, не большей 5% при б < 0,01. Если (1.12) интегрировать методом Эйлера с шагом б, то методом Монте- Карло получим, что m(l) ~ т(0) ехр (— 1/2) и, следовательно, значительна ошибка определения т(1). Итак, модель объекта управления включает уравнение вида (1.7) и метод его численного интегрирования. Из-за необходимости использования сложного метода численного интегрирования на каждом интервале длиной б время расчета на ЦВМ каждой реализации процесса управления может быть немалым, что потребует больших затрат времени работы ЦВМ для анализа и синтеза управления методами Монте-Карло и стохастического программирования. Запись модели объекта управления в виде уравнения (1.11) позволяет приближенный анализ системы управления проводить не методом Монте-Карло, а более экономно — путем численного, а иногда и аналитического интегрирования уравнений, которым приближенно удовлетворяют законы изменения статистических характеристик вектора x(t); правда, оценка степени приближения, вооб-
§ 1.21 МОДЕЛИ ОБЪЕКТА, ШУМОВ, ОШИБОК ИЗМЕРЕНИЙ 27 ще говоря, неизвестна и может быть достоверно найдена лишь сравнением с результатами применения метода Монте-Карло. Вместо стохастического программирования синтез законов управления проводится более экономными методами нелинейного программирования. Следует отметить, что так как в правую часть уравнения (1.7) входит быстро меняющийся вектор /гбШ, дисперсии компонент которого равны б"1, то при малой величине 6 велика дисперсия по крайней мере некоторых компонент вектора x(t) и траектория движения точки x{t) в фазовом пространстве содержит быстрые изломы. По этой же причине некоторые компоненты вектора x{t) в (1.11) при замене ht(t) на hit) имеют бесконечно большую дисперсию. Поэтому модели вида (1.7) или (1.11) дают довольно грубую идеализацию «природы», у которой фазовые траектории обычно достаточно гладки. Эта идеализация — плата за обеспечение марковского свойства у последовательности векторов хк. Рассмотренные выше случайные возмущения следует считать «быстрыми» возмущениями динамической системы. Кроме них, на систему часто действуют «медленные» случайные возмущения, имеющие физический смысл «уходов нулей» усилителей мощности исполнительных элементов контура управления, «уходов нулей» датчиков информации, угловых скоростей «дрейфа» гироплатформ инер- циалыюй навигации и т. д. Обычно компоненты векторов этих «медленных» возмущений считают полиномами от t с неизвестными, но постоянными в данной реализации управления случайными коэффициентами. Дополняя этими коэффициентами вектор фазовых координат системы, получим «расширенную» динамическую систему, на которую действуют только «быстрые» случайные возмущения. Для дискретного случайного процесса ошибок измерений £fc широко используются модели двух видов. Модель 1: в (1.2) ^ — последовательность случайных независимых векторов. Модель 2: 1* = £(£*), где £U) — процесс, задаваемый формирующим фильтром вида 6 = F(S, Г, *>, (1-14). где |' — вектор белых шумов. Образовав из компонент векторов х и | вектор фазовых координат новой динамической системы, а из векторов h и £' — вектор нового возмущающего белого шума, получим,
28 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 что модель 2 соответствует случаю, когда динамическая система описывается уравнением вида (1.1), в котором случайные возмущения являются белым шумом, а компонентами векторов обратной связи служат измеряемые без ошибок функции от компонент вектора фазовых координат; yk = Hk(tk, xh). (1.15) § 1.3* Влияние обратной связи на качество управления Покажем, что измерение векторов обратной связи i/o, ..., Ун позволяет уменьшить величину среднего риска S при оптимальном синтезе векторов управлений. Пусть вначале полезные измерения отсутствуют. Подобная ситуация возникает, например, если ошибки измерений очень велики (измерения не несут информации о векторе фазовых координат). Средний риск S запишем в виде S = S (и01 ...л uN) = J R (xor .. .j xT, u0, .. .± uN) p (xor ... .. #1 xTl uQl, ..., hjv) dx0.. .dxTl (1.16) где p{...) — плотность вероятности векторов x0l ..., хт, зависящая от векторов щг ..., uN как от параметров, 'N R (х0, ..., xTl иог ..., uN) = 2 со (хи щ) + со (хт). 1=0 Интегрирование в (1.16) проводится по {N+ 1) X тг-мерно- му пространству возможных последовательностей векторов х0, ..., хт (в дальнейшем часто встречаются многомерные интегралы типа (1.16), являющиеся формальной записью величины математического ожидания; для сокращения формул область интегрирования не указывается, если она совпадает со всем евклидовым пространством соответствующего числа измерений). Оптимальные управления и|>> • • ч u°n найдутся при решении задачи (1.6): минимизации правой части (1.16) при ограничениях uk^°Uk. В результате минимизации получим оптимальные программные управления и& = и0 (к) Векторы ul зависят лишь от моментов управлений, могут быть найдены до начала управления динамической системой и занесены в память БЦВМ.
§ 1.3] ВЛИЯНИЕ ОБРАТНОЙ СВЯЗИ НА УПРАВЛЕНИЕ 29 Пусть теперь существуют случайные векторы t/0, ..., J/jv, статистически связанные с векторами xQj ..., хт. Это означает, что существует их совместное распределение, причем р (#о> • • м *Г| и0, • • -2 un) = J P ixox • • -i хт/Уо, ... • •., Уя)р{Уог • • ч yN)dy0.. .dyN, (1.17) где /?(.../...) и /?(...) — зависящие от щ, ..., uN условная (при фиксированных у0, ..., yN) плотность вероятности векторов х0, ...у хт и плотность вероятности векторов j/o» ..., Ум* Подставляя (1.17) в (1.16) и меняя порядок интегрирования, получим S(u0i . .м зд) = J J(y0> ..., yNxUQr ..., uN)dy0...dyN, (1.18) где положено J (У or • • •, yNt uor ...,uN) = p (y0, ..., yN) J R (x0l ... ..., xT% uQ, ..., uN)p{x0, .../...., j/iv)^0 ••• ^r. (1.19) Допустим, что в каждой реализации векторы j/0, •.., У к фиксируются, так что и0, ..., и* можно строить функциями компонент этих векторов. Для минимизации S(u0, ... ..., uN) надо минимизировать подынтегральную функцию в (1.18); оптимальные управления ul = ul{yQ,...xyN) (1.20) получим при определении минимального среднего риска S0: S° = S(u°0l ..., и%) = Jmin{/(y0l ...,yNl u0, ... ..., uN) | uh e °Uk} dyQ... dyN. Ho min{j/(j/0? ...,i/iv, uQ1 ...tuN)dyQ.... dyN\uk^°U^^ > J min {/ (yQ, ..., у^, u0, ... i/jv) | wA e= %} dy0 ... dyN. (1.21) Поэтому средний риск при оптимальном программном управлении (этот средний риск — величина в левой части (1.21)) больше, чем средний риск при оптимальном управлении (1.20), использующем информацию о векторах об-
30 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. i ратной связи у0, ..., yN. В (1.21) неравенство переходит в равенство, когда векторы х0, ..., хт и векторы г/0, ..., У и статистически независимы. Действительно, в этом случае в .(1.19) р{х01 . . ., Хт/уо, . . ., yN) = />Uo, . . ., #г, Но, .. ., UN) и (1.18) перейдет в (1.16), так как Следует отметить, что в (1.20) вектор оптимального управления в момент th является функцией как прошлых, так и будущих векторов обратной связи и физически нереализуем. Для обеспечения физической реализуемости везде ниже требуем выполнения условия Иа=Иа(Уо. ...,Уа)« (1.22) Второй (интегральный) множитель в правой части (1.19) можно назвать «средним риском в данной реализации векторов» уо, ..., yN- Минимизация выбором векторов управлений ид, ..., uN среднего риска в данной реализации еще не гарантирует минимизации среднего риска S(u0, ..., uN), так как от этих векторов зависит еще и распределение векторов обратной связи у0, ..., yN, описываемое в (1.19) функцией р(у0, ..., yN). В задачах оптимизации оценки фазовых координат динамической системы можно ограничиться минимизацией среднего риска в заданной реализации, так как функция р(у0, ..., yN) не зависит от результата оценки (если, конечно, результаты оценки не используются при построении векторов управлений). § 1.4. Основные леммы Чтобы добиться замкнутости изложения и избежать ссылки на стохастический принцип оптимальности Бел- лмана, намеченный в [51 и названный автором «интуитивным» [5, стр. 105, 108], вывод рекуррентных уравнений оптимизации дискретного стохастического управления с обратной связью будем основывать на двух простых леммах. Лемма 1.1. Обозначим J (г|>, z) = min { J г|> (х) f (х, z, и) dx + Ф (z, и) \ и е °U), (1.23) где if, /, ф — положительные функции, a z — некоторый вектор. Тогда, если я^Ы < г|?2Ы, то Дг|?1, z)</(i|>2, z).
§ i.4] ОСНОВНЫЕ ЛЕММЫ 31 Действительно, пусть /(i|?i, z) и Дф2т z) достигаются соответственно при и = u±(z) и и = u2(z). Тогда справедливость леммы сразу следует из неравенства J №v z) = J 1>i (x) f (*. z> u°i (z)) dx + <p (z, u\ (z)) < < j ti (x) f (x> z, ul (z)) dx + ц (z, u%(z)) < < J N>1 (X) + A (*)] / (*i 2, ^2 (2)) d* + ф (*, И? (Z)) = = J(^>2, z), где ДЫ = г|)2Ы — t|)i(#) > 0 по условию. Лемма 1.2. Пусть Jr — функционал от функций щ — =*и{(хи ..., £0) (ui^°Ui, J = 0, ..., г) определяется фор- мулой Jr = J 0 (агг+1) /г (arr+i, агг, кг) .. ./0 (а^, ar0, и0) / (ж0) rfa:r+i... ... dx0 -f" J сог (#r, wr) /r_i (#г, д?г-1, wr_i) ... /о (#i, #o> wo) X X / (x0) dxr ...dx0+ ... + \(o1 (xv ux) /0 (xv Xq, Uq )X X / (x0) dxxdx0 + J o)0 (a?0, и0) / (a?0) Ar0, (1.24) гдг о), o)f, /f, /— положительные функции. Тогда J? — минимум Jr достигается на функциях и\(х\)> £ = 0, ... ..., г, определяемых рекуррентными уравнениями J г (хг) = min {J со (жг+1) /г (жг +1, Жг, Wr) dxr+i -f- + «г fan Mr) | Wr S <2/r}i (1.25) Jr-г (sr-i) = min {J Jr (xr) /r-1 (жГ1 жг_ь Иг-х) Arr + + COr_! (^r_b Wr_i) I Wr_! G= 3/r-l}, (1.26) /0 (я0) = min {J J1 (xx) /0 (x^ x0, u0) dxx + + co0 (x0, u0) I u0 <= 3/0}> (1-27) •f? = J-M*o)/(*o)**o- (I-28)
32 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ (ГЛ. 1 Доказательство проведем по индукции. При г = 0 ...j*v>^» /0 = J о (хх) /0 (xv x0, u0) f (x0) dxxdx0 + + J о)0 (а?0, г/0) / (а?0) йя0 = J [ J со (я?!) /0 (slf x01 и0) йхх + + ю0 (я?0, и0)] / (а?0) cte0. (1.29) Для мипимизацпи /0 достаточно для каждого х0 выбором функции и>1(х0) минимизировать функцию от х0, заключенную в квадратные скобки в правой части (1.29). Поэтому /0 (х0) = min {j* о (хх) /0 {xv x0, щ) dxx + + со0(;г0, и0) | и0 € <W0}, Л = J J0(*o)/(*o)"d*o и лемма доказана при г = 0. Допустим, что лемма справедлива при r = fc. Покажем ее справедливость при r = fc + l. Из (1.24) видно, что величина/г зависит от функций о, о)г, ..., со0. Поэтому для любого г можно записать /г = /г(й), ог, ..., о)0). Из (1.24) при г = /сиг = /с + 1 видно, что /А+1(о), 0А+1, ..., о)0) = Л(г|>, о)л, ..., ю0), где . •ф = -ф (#А+1, ил+1) =* = J 0 (Xk+ъ) fk+l (#ft+2> #ft+l» ^ft+l) dXk+2 + Ю/t+l (#fc+i, Mft+i) В соответствии со сделанным допущением о справедливости леммы при г ==■ к получим, что величина Jt — минимальное при фиксированном иА+1 значение Л(г|), o)ft, ..., о)0) определится цепочкой уравнений (1.25) — (1.28), если положить г = Тс и (д(хк+1) —тЗр(хк+и uk+i); при этом величина /° будет зависеть от uk+i. J\ = Jk(uh+i)- Из леммы 1.1, применяемой последовательно снизу вверх к упомянутой цепочке уравнений (1.25)—(1.28), следует, что для достижения минимума функции Jk(u>k+i) параметр uk+l надо выбирать из условия минимизации функции \|>(#ft+1, uk+l) и, следовательно, он должен быть функцией только xh+l: uh+i = uh+l(xk+i).
§1.5] ОПТИМИЗАЦИЯ ПРИ ПОЛНОЙ ИНФОРМАЦИИ 33 Обозначив через Jk+i (xh+i) минимум ty(xk+i, uk+i), получим, что при г = к +1 первым в цепочке рекуррентных равенств должно быть равенство Jl+1 (xk+1) = min { j о (яА+2) fh+1 (Жл+21 Жл+Ь Mfe+1) rf^+2 + + 0fe+i (Xk+1, Uk+1) I Ufe+1 S %+i}. Лемма доказана. § 1.5. Уравнения оптимизации при полной информации о фазовых координатах Найдем вначале уравнения оптимизации терминального стохастического управления. В этом случае со* = О и S = М[©(#у)]. Обозначим р{хт), р(х0) плотности вероятностей векторов хт, х0] р(хт, xN, ..., х0) — совместная плотность вероятности векторов хт, xN, ..., х0. Тогда S = S (и0, ..., М = J со {хт) р (хт) dxT, где Р [хт) = ) Р (xTi xN, ..., х0) dxN ... dx0. Но в соответствии со сформулированным в § 1.2 условием на случайные шумы hit) при фиксированных векторах управления последовательность случайных векторов #о, ..., xNj хт должна быть марковской. Поэтому р\Хт, Xjsr, . . ., Xq) = =*pT(xT/xNi ия)ря(Хн/Хп-ь UN-i) ...piiXi/Xo, Щ)р0(х0) и, следовательно, S (и0,..., ил) = J о) (жг) рг (яг/sjv, uN) pN (xN/xN-l7 uN^)... ... Pi (xjx* Щ) p? {x0) dxT .. .dx0. (1.30) В (1.30) все подынтегральные функции положительны. Кроме того, считаем, что в моменты th, k — N, ..., 0Т зафиксированы векторы обратной связи #0, ..., хк и, следовательно, вектор управления может быть их функцией: Uh — Mfctefc, . . ., Xq). Для минимизации величины среднего риска S(u0, ... ..., uN) применим лемму 1.2, в формулировке которой функции (o(xr), fk(xh+u xk, uk) следует заменить соответственно На С0(#г), Pk+l(xk+i/xh, Uh) И ПОЛОЖИТЬ G)t = 0. 3 И. А. Богуславский
34 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. i В результате получим, что векторы оптимального управления и\ являются функциями только векторов xk: u°k = u°k(xk), Л = 0 ЛГ, (1.31) и определяются рекуррентными уравнениями Sjv (%n) = niin jj о (x) pT (x/xN, u) dx \ и е %v/, (1.32) S°n-i (zn-i) = min {J S% {x) pN (лг/зд-ь и) dx \ и s %v-i}, (1.33) S°Q (xQ) = min {j 5? (a?) p2 (a?/a?0, u)dx\u<= <U0). (1.34) Минимальные средние терминальные потери S° определяются соотношением S° = §S°0(x)p0(x)dx0. (1.35) Рассмотрим теперь уравнения оптимизации при использовании общего критерия (1.4). В этом случае S (и0, ..., uN)=J о (хт) рт (хт) dxT -f + J cojv (*jv, wjv) Pn (sjy) dsjv + ■. - + J ©oK» Mo) Po (*o)d*0= = J о (sr) Pr {xTlxNy uN) ...p± (xjxv u0) p0 (x0) dxT. ..dx0+ -f J о (xN, uN) pN (xn/xN-u ujv-i) ... p± (xx/x0, u0) p0 (x0) x X dxN ... dx0 + ... + J Oi (a?i, их) px (V^o» wo) P(xo)dxxdx0+ + J ©o (*o. wo) Po (*o) d*o- (1-36) Применяя при минимизации лемму 1.2, получим (1.31) и Sjv (#jv) = min {J ю (#) рг (#/#iv, и) do: + + on (*jv, и) | u <= <2/*}, (1.37) S#-i (sjv-i) = min {J S% (x) pN (x/xn-i, u) dx + i}> (1-38) 5? (a?0) = min {j 5? (ж) ^ (x/x0, u) dx + + co0(s0, и)|!*е1/0}. (1.39) Величина 5° определится формулой (1.35).
§ 1.6] ОПТИМИЗАЦИЯ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ 35 Из вышеизложенного следует, что величина Sk(x) равна среднему риску при управлении на интервале времени (tk, T\ с использованием оптимальных управлений ulj ..., и% и при условии того, что в момент tk вектор фа-» зовых координат равен х. Поэтому в дальнейшем функции Sm(x) будем называть минимальными условными средними рисками. Этот же термин (без слова минимальный) сохраним и для функций Sh(xk), получаемых при использовании каких-то (неоптимальных)? управлений uh, ..., uN. Часто функцию Si (x)^ называют функцией Беллмана задачи (1.6). § 1.6. Уравнения оптимизации при неполной информации о фазовых координатах* Принцип разделения Найдем уравнения оцтимизации стохастического управления при поступлении в моменты времени f0, ... ..., tkl ..., tN статистической информации о фазовых координатах: Z-мерных векторов обратной связи у0, ... ••■•» Ук, ..., 1Jn, статистически связанных с векторами #о, ..., xkj ..., xN. Последнее означает, что рЫУь ..., Уо) Ф р(хк), к = 0, ...., N. В общем случае, по-видимому, невозможно построить рекуррентный процесс определения оптимальных векторов управления uk в виде u°k = u°k(yk,...,y0). (1.40) Кроме того, формула (1.40) описывает и\ функцией увеличивающегося числа переменных, что делает нереальным ее использование при решении прикладных, задач управления. Рекуррентные уравнения оптимизации и векторы оптимальных управлений в виде, пб крайней мере в принципе, пригодном для решения прикладных задач, удается получить при выполнении следующих условий: 1. Условная плотность вероятности p(xjykl ..., у0) — носитель всей информации о векторе хк, содержащейся в векторах измерений ук, ..., j/0, может быть представлена некоторой известной функцией от хк и вектора Dk, зависящего от ук, ..., у0: рШУъ ..., yo)=pk(xk/Dk), (1.41) 3*
36 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ., 1 где Dk = Dk(ykj ♦.., у0). Вектор Dh совпадает с определяемым в математической статистике вектором достаточных статистик: на множестве векторов у0, ..., yh, сохраняющем постоянным вектор Dh, распределение вектора xh остается постоянным. Если, например, условное распределение яА — нормальное, то компонентами Dh служат компоненты вектора условного математического ожидания (м. о.) и элементы условной корреляционной матрицы (к. м.). В более сложном случае компонентами вектора Dk могут быть, например, семиинварианты — коэффициенты разложения в степенной ряд логарифма характеристической функции условной плотности p(xk/ykl ...,yQ) или квазимоменты — коэффициенты ее разложения в ряд по полиномам Эрмита многих переменных, ортонормиро- ванных относительно некоторой многомерной нормальной плотности вероятности. 2. При фиксированных векторах ик последовательность векторов Dk является марковской: ph+l(Dk+l/Dk, ..., Do) = PwWk+i/DJ. (1.42) Легко видеть, что (1.42) выполняется, если векторы Dh определяются рекуррентными формулами Dk+i = D(yk+ilDh, uh), (1.420 и в (1.2) igk — независимые случайные векторы (модель 1) или !к = 0 (модель 2). Действительно, в соответствии с (1.1) #А+1 = ф(ял, ик, h, fA), (1.43) где ф — некоторая функция от xh, ик, th и функционал от белых шумов /г, возмущающих динамическую систему на интервале (£А, £л+1). Тогда из (1.42'), (1.2) Dk+l=D(H{tk+u <pUA, ик, h, tk), gfc), Dkl uk). (1.44) Но по условию (1.41) условное распределение xh зависит лишь от Dk. Отсюда следует (1.42). Формулы вида (1.420 можно назвать алгоритмом рекуррентной фильтрации. «Полнота» использования зафиксированной к моменту tk информации (векторов у0, ..., ук) не уменьшится, если векторы и^ искать не в виде (1.40), а в вцде u°k = ul(Dkf...,DQ). (1.45) Равноценность (1.40) и (1.45) следует из (1.41).
§ 1.6] ОПТИМИЗАЦИЯ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ 37 Вывод рекуррентных уравнений оптимизации проведем вначале для терминального критерия. Из (1.41), (1.42) следует, что р(хт, DN, ..., D0) =pT(xT/DN, uN)pN(DN/DN^, uN-x)... ...PilDJDo, и0)РоШ, (1.46) где pT (xT/DN, uN) = J pT {xtIxn, un) p (xn/Dn) dxN. (1.47) Отсюда S (uN, ..., u0) = J со (хт) р (xT) dxT = = J со (xT) p (xT, DN, ..., D0) dxTdDN ... dDQ = = J со (xT) pT (xT/DNl uN) pN (Dn/Dn-ц i/iv-i) . • • ... рЛВД>о. "o) Po (Do) dxTdDN ... dD0. (1.48) Из (1.48) следует, что для минимизации S(uN, ..., щ) можно использовать лемму 1.2, если положить функции G)0rr+1), /r(#r+i, xr, uN), fh(xh+l, xh, uN) в (1.24) соответст- венно равными (д{хт), pT(xT/DN, uN), ph+i(Dk+l/Dk, uk) и u), = 0. Тогда получим, что оптимальные управления имеют вид ul = ul(Dh) (1.49) и определяются рекуррентными уравнениями S°n (DN) = min {j* со (#) рт (x/DN, u)dx\u s^jv}, (1.50) Si.!фл-О = min{§S°N(D)pN{DIDN-x, u)dD\u<= <UN-i}, (1.51) S°0 (Ц) = min {j Si (D) px (£>/£>„, u)dD \ и <= °U^. (1.52) Минимальный средний терминальный риск S° определится формулой S* = $S°0(D)p0(D)dD. (1.53) Частный случай рекуррентных уравнений (1.50)— (1.52) (для линейных динамических систем) был получен в [81.
38 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ 1ГЛ. i Найдем рекуррентные уравнения оптимизации при использовании общего критерия (1.4). При этом наряду с (1.47) учтем, что р{хк, Dk, ..., D0) = = pk{xk/Dh)ph(Dk/Dh-u uk-i) ...piiDJDo, u0)p0(Dt) и, следовательно, P Ш = J Ph {XklDh) pk {DklDu-ъ Wft-i) ... ...px {DJD„ щ) p0 (D0) dDk... dD0. Тогда получим S (и0, ..., uN) = J со (хт) р (xT) dxT + + J o)jv (xN, uN) p (xN) dxN + ... + J o)0 (xQ, u0) p (x0) dx0= = J © (*г) Рт (xt/DNj un) pN (DNfDN-U uN^x) ... ... p± (D±/D0, u0) p0 (D0) dxTdDN ... dD0 + + J ®n{Dn, uN)pN (DN/DN-U un-x) ... ... Pi (DJD» u0) Po (D0) dDN...dD0+ ... ... + j 5X (Du ux) Pl (Dx/D0% u0) Po (D0) dDxdD0 + + j co0 (D0, u0) pQ (D0) dD0, где положено «a (Dk, uk) = J coA (x, uh) pk (x/Dk) dx. (1.54) Из леммы 1.2 следует, что векторы оптимального управления (1.49) определяются при последовательном решении рекуррентных, уравнений S% (DN) = min {j со (x) pT (x/DNl и) dx + + cojv(DN, u)\ue= 3/jv}, (1-55) Sjlr-i (Dn-г) = min {j S% (D) pN (D/DN-19 u) dD + + COiV-i (DN-1, W)|WG <Un-1 }, (1-56) S°0 (Z)e)=min{J S? (D) Pl {DID,, u) dD + w0 (Dot u)\u e= ^„} (1.57)
§ 1.6] ОПТИМИЗАЦИЯ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ 39 Минимальный средний риск S0 определится формулой (1.53). Функция SkiDk) в дальнейшем называется условным средним риском, так как она представляет средний риск при управлении на отрезке [th, T] с использованием векторов управлений г/°, ..., и% и при условии, что в момент tk вектор достаточных статистик равен Dh. Эту функцию (как и введенную в § 1.5 функцию S0k(xk)) называют также функцией Беллмана. Итак, показано, что выполнение условий 1, 2 для произвольных динамических систем, возмущаемых белыми (или дискретными белыми) шумами при измерениях векторов обратной связи со случайными независимыми векторами ошибок измерений, обеспечивает применимость так называемого «принципа разделения»: общий алгоритм оптимального дискретного стохастического управления делится на алгоритм обработки поступающей информации и алгоритм принятия решения (рис. 1.1). "и Алгоритм принятия решения БЦВМ Р(Вк„/ик,Вк) ~3 Х- ^з ^з £ ^ 2 § 5 g jH,~>y,>g0 Рис. 1.1. Первый алгоритм должен последовательно определять векторы достаточных статистик Dh+i в соответствии с рекуррентной формулой (1.420 и условные плотности вероятностей pk+i{Dh+i/Dh,uh); второй алгоритм должен строить векторы оптимальных управлений путем последовательного решения рекуррентных уравнений (1.55) — (1.57) при co(Z)A, ик) из (1.54). Отметим, что для задачи стохастического управления линейными системами принцип разделения впервые был сформулирован в [60].
40 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 § 1.7. Оптимальная оценка фазовых координат и дуальное управление В изложенной выше трактовке задача синтеза оптимального стохастического управления не требует постановки и решения задачи оценки фазовых координат. Задача оценки зависит от выбранного критерия качества оценивания и, как видно, непосредственно не связана с задачей управления (по крайней мере в формальном плане). Поэтому задача оценки решается для того, чтобы «знать», а не для того, чтобы «управлять». Однако умение определять векторы достаточных статистик позволяет решать задачу оценивания, оптимального по произвольному критерию. Пусть векторы управлений — произвольные функции векторов обратной связи и качество оценки вектора хк определяется средним значением положительной функции потерь coUfc, z), где z — вектор оценки вектора xh: z = z(yo, ..., yh). (1.58) Тогда вектор оптимальной оценки zk решает задачу S°=*mm{Sk(z)\z = gn}, (1.58') где Sk(z) = M [©(**,*)]• (1.59) Но Sk (z) = М [М [со (*„, z)/y0, ...> ук]] (1.60) и из (1.41) М [со (zh, z)/y0, ..., yh] = М [со (xhl z)/Dk], (1.61) где в (1.60) и далее символ M[..JW] означает осреднение при фиксированном W. При выбранных управлениях векторы у о, ..., ук не зависят от векторов оценок. Поэтому из (1.60) и (1.61) получим, что вектор оптимальной оценки zk (Dh) определится при решении задачи S°k (Dk) = min {M [со (xh, z)/Dk) \ z g= <Tn}. (1.62) Итак, если решена задача определения достаточных статистик Dk и условных плотностей вероятностей p(xh/Dk), нужных для вычисления М [со(^, z)lDh]> то задача оптимальной оценки сводится к относительно простой задаче (1.62), численно решаемой, например, методом стохастического программирования, если на ЦВМ су-
§ 1.7] ОЦЕНКИ И ДУАЛЬНОЕ УПРАВЛЕНИЕ 41 ществует программа, генерирующая случайные векторы xh при фиксированном векторе Dk (см. главу 2). Наиболее часто ©(я?*, z) = to - z)TR(xk - z), (1.63) где матрица i? положительно определена (определение и необходимые свойства подобных матриц изложены в § 2.3). Обозначим через zh условное (после фиксации векторов i/o, ..., yh) м-о- вектора xk\ zk = N[[xk/Dk]. Покажем, что zl = zh. (1.64) Представим (1.63) в виде со to, z) = to — zk)TR{xk — zk) + + 2UA- zk)TR(zk- z) + izk-zrR(zh- z) и, следовательно, M [со (a*, z)/Dk] = M [to -**)T# i*k - **)/Ad + + M[to-~z)Ti?to~z)/Z)ft]. (1.65) Первое слагаемое в правой части (1.65) от z не зависит, а второе — минимально при z = zkj что доказывает справедливость (1.64). Поэтому zk называют вектором оценки вектора xk, оптимальным по среднеквадратичному критерию. Этот вектор не зависит от конкретного вида матрицы R. Вектор zk — наиболее важная вектор-функция вектора достаточны^ статистик. Выше предполагалось, что вектор оптимальной оценки определяется при заданных функциях — векторах управлений. Однако можно поставить задачу управлять системой так, чтобы получить вектор оценки, оптимальный на множестве допустимых управлений. При этом, конечно, надо задаться некоторым фиксированным моментом времени th, для которого ищется вектор оценки 4» оптимальный на множестве допустимых управлений щ, ... ..., wA-t. Пусть для определенности k=*N, в (1.4) положим uN = z и 0)0(Яо, Щ) =»-... —G)jv-i(#tf-i, Un-i) — (b{xT)=*0, (1.66) CdUjv, UN) =G)Utf, z). (1.67) Из (1.55) —(1.57) следует, что вектор оптимальной оценки zn (Dn) и векторы оптимальных управлений и0 (Djv-i),
42 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ 1ГЛ. 1 ..., u0(D0) определяется при последовательном решении уравнений S% (DN) = min {j со (яг, z) pN {x/DN) dx\ze= gn), (1.68) S%^ (Z^-i)=min {j S% (D) PN {DIDN-X, u)dD \ и e= ^/jv-i}, (1.69) Si (D0) = min {J S? (D) px (D/DQ, u)dD\us= <U0}. (1.70) Заметим, что векторы оптимальных управлений u%~i (Z?iv~i)» ..., ^о (^о) можно было бы по терминологии [51] назвать векторами дуальных управлений, так как оптимальные управления выбираются из условия достижения наилучшей оценки —наилучшего «узнавания» фазовых, координат системы в момент tN, в которые, конечно, могут быть включены неизвестные параметры, характеризующие динамическую систему. Если в (1.68) величина S% (Djv) не зависит от DNl то управления и0, ... ..., uN-i не влияют на среднее значение о (xN, z%) и дуальных управлений не существует. § 1.8. Уравнения оптимизации при ограничениях на энергетику В некоторых динамических системах (примером их служат самолет, ракета, корабль с двигателем) процесс управления сопровождается уменьшением скалярной величины W, которую можно назвать энергетикой системы. В момент t0 система располагает некоторой начальной энергетикой VF0, далее, эйергетика уменьшается в моменты, когда и Ф 0. Если в некоторый момент т W{x) =*■ = 0, то, далее, W(t)=0, u{t)=0 при ^е[т, Я и динамическая система не управляется на этом интервале. Связь W и и можно представить уравнением TT^-YU, и), (1.71) где W{t0) -»Wo] Ч? — заданная положительная функция, описывающая удельный расход энергетики и такая, что W(x, 0) = 0.
§ 1.8] УЧЕТ ОГРАНИЧЕНИЙ НА ЭНЕРГЕТИКУ 43 Пусть .%(W) = 1, если W¥>0\ %(И0 = 0, если W = 0. Вектор управления представим в виде u=%(W)u, (1.72) где и — вектор, который надо определить при оптимизации с учетом располагаемой энергетики, постоянный между моментами получения информации. Приведем примеры функций ЧРЧж-, и). а) Пусть W— масса топлива, затрачиваемого на управление движением в космическом пространстве центра масс ракеты с жидкостным реактивным двигателелх или электрическим реактивным двигателем малой тяги; в обоих случаях и — вектор тяги двигателя. В первом случае удельный расход топлива ^¥(х, и) = с\и\; во втором случае Чг0г, и) — сМ2. Здесь |и| — модуль вектора тяги. - б) Пусть W — масса топлива, затрачиваемого на движение в атмосфере аппарата с турбореактивным двигателем, с вектором тяги и. Удельный расход зависит как от М, так и от фазовых координат аппарата (высоты, скорости, угла атаки). Вид функции Чг(х, и) определяется тяговыми характеристиками двигателя. Если величина W0 настолько велика, что исследование гарантирует W>0 при произвольном допустимом управлении за время T — t0, то ограничения на энергетику отсутствуют и справедливы приведенные выше уравнения синтеза. Однако в общем случае выбор оптимального управления надо проводить с учетом ограниченной энергетики. В соответствии с (1.71) Wit) при любом и является случайным процессом, так как зависит от случайных векторов я, и. Поэтому случаен первый момент выполнения условия W(t) =0, а значит, и случаен момент, начиная с которого и = О — момент прекращения управления динамической системой. В этом — основная специфика' управления при учете энергетики. Рассмотрим динамическую систему, вектор фазовых координат которой получен объединением компонент вектора х и величины W. Система описывается уравнениями i = /U, %{W)U, ft, t), (1.73) W=>-W(x, х(ИОи), (1.74) в которых, и играет роль вектора управления. Будем считать, что в моменты tk измеряются точно хк и Wh = = W(tk). Как следует из леммы 1.2, оптимальные векторы
44 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 и%, минимизирующие терминальный средний риск, имеют вид ul = ul{xh,Wh) (1.75) и определяются из уравнений S%(xN, Wk) = niinjj <а(хт) р (xT/xN, Wn, и) dxT | и е €=<UN], (1.76) S%-i (xn-ъ Wii-i) = min {J S% (xN, WN) P (xn, WJxn-i, Wn-i, w) dxNdWN | й <= <Un-i}, (1-77) S°0 (*„ W0) = min {j Sj fo, Wx) p (xv WJx„ W0, u) X xdxldW1\~ut=<U^, (1.78) причем S» = S° (W0) = J S°0 (*0, W0) p (x0)dx0. (1.79) Условные плотности вероятностей p(xk+i, Wk+i/xkj Wh, uk) определяются (при фиксированном векторе uh) системой уравнений (1.73), (1.74), рассматриваемых при начальных условиях xk, Wk, и статистически учитывают возможность прекращения управления внутри интервала ith, th+l). Как и следовало ожидать, минимальный терминальный риск зависит от начальной энергетики W0. S°(W0) — убывающая функция положительного аргумента W0 (чем больше располагаемая энергетика, тем управлением можно сделать меньшим средний риск). С увеличением W0 функция S°(W0) стремится к S0(°°) — среднему риску, получаемому без ограничений на энергетику. Из физических соображений ясно, что для системы, управления которой uh определены в некоторых ограниченных областях °Uk, должны существовать некоторые W*(xh), обеспечивающие для данных хк достижение минимальных средних рисков Sl(xk), которые нельзя уменьшить увеличением располагаемой энергетики Wh. Поэтому при Wk > Wk {xk) величины Si (%h, Wk) равны величинам Sh(xh) из уравнений (1.32)—(1.34) и, следовательно, существует Wo такое, что S°(W0) = S°(oo) приИл0>И^0.
§ 1.81 УЧЕТ ОГРАНИЧЕНИЙ НА ЭНЕРГЕТИКУ г45 Рассмотрим встречающийся в ракетной технике случай, когда ¥(*, и) = 7(и). (1.80) В этом случае можно уменьшить размерность интегралов, входящих в уравнения оптимизации (1.76) —(1.78). При выводе лемм 1.1, 1.2 и следующих; из них рекуррентных уравнений оптимизации не использовалось предположение о постоянстве векторов uk на интервалах [tk, th+i). Поэтому приведенные ранее уравнения применимы и если ик=-ик(ч) Ф const при T^lA, tk+i). Будем выбирать оптимальные управления из функций ик(т) вида и*(т)=-const при tg[^, tJ; uk{%) =>0 при x^[rk,th+i), rk&[tk, tk+i]. Из-за (1.80) при фиксированном векторе uk(tk) не случайна функция W(r), tg[^, tk+i), и не случаен момент возможного прекращения управления. Положим г(ик)= f V(uh(x))dx. Так как Wk+i = Wk — e(uk), то вектор ик(т) должен удовлетворять условию Wk — г(ик) > 0. Уравнения оптимизации при оговоренном выше виде допустимых функций ик(т) имеют вид S%(xn> Wn) = min {J со(x)pT(x/xN, u)dx\u^ °UN, И^-е(и)>о}, (1.81) S°N-1 (XN-1, H^jv-i) = = min {J S°N (x, WN-i — e (u))pn (я/zjv-i, u) dx \ и <= <%v-i, TFjv-i-e(u)>o}, (1.82) = min {J Si (x, W0 — 6 (w)) /?! (яЛг0, w) dx \ и s <?/0, ^о-е(в)>'0). (1.83) В результате получим uZ = u°h(T,xh,Wh). (1.84)
46 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ (ГЛ. 1 Уравнения оптимизации при использовании критерия общего вида среднего риска выписываются аналогично. Обсудим теперь задачу получения уравнений оптимизации с учетом энергетики при неполной информации о фазовых координатах. В соответствии с изложенным ранее для системы (1.73), (1.74) и информации вида (1.2) должны быть найдены рекуррентные уравнения для вектора достаточных статистик Dk вектора хк (величины Wk считаем измеряемыми без ошибок; нетрудно избавиться от этого ограничения): Dh+l = D(yh+i, Dk, Wh, uk). Уравнения оптимизации получим, если в (1.76) — (1.78) заменить xk на Dk; аналогичные уравнения при этой замене получим из уравнений (1,81)—(1.83). В некоторых задачах энергетика может быть вектором, составленным из нескольких положительных величин, каждая из которых; уменьшается, если не равна нулю соответствующая часть компонент вектора управления. При управлении ракетой в космическом пространстве часто маршевый двигатель ракеты, направление вектора тяги которого неподвижно относительно ракеты, и двигатели стабилизации, поворачивающие этот вектор в нужном направлении, работают на разных видах топлива. Массы обоих видов топлива образуют вектор энергетики. Обобщение уравнений оптимизации на случай векторной энергетики очевидно. § 1.9. Уравнения оптимизации при ограничениях на энергетику и число участков управления В ряде прикладных задач наряду с ограничением энергетики существует ограничение числа интервалов lA, tk+i) между измерениями, на которых может происходить управление. Пусть в момент t0 задано v0 — допустимое число участков управления. Очевидно, v0 < N + 1 (при v0 = N +1 управлять можно на каждом интервале, что соответствует ранее рассмотренным случаям). Заметим, что ограничение на число участков управления равносильно ограничению времени управления: если положить . Д = tk+i — tk, то время управления должно быть не больше VoiA. Обозначим через vh допустимое число участков управления в момент th. Введем новый управляющий параметр vk, принимающий значение 1, если на интервале те
§ 1.9J УЧЕТ ЭНЕРГЕТИКИ И ЧИСЛА УЧАСТКОВ 47 е [thJ tk+i) разрешено управлять динамической системой (ик(т)Ф0), и принимающий значение 0 в противном случае. Очевидно, что Vb+i = Vft-i;ft. (1.85) Величину Vfc можно считать целочисленной, положительной дискретно меняющейся во времени фазовой координатой расширенной динамической системы, вектор фазовых, координат которой составлен из вектора х и величин W, V*. Для упрощения формул считаем, что выполнено условие (1.80). Уравнения расширенной системы состоят из (1.85) и уравнений ««/(*, и, /г, Й, (1.86) 1^—ТЫ. (1.87) Будем считать, что компоненты вектора xh измеряются без ошибок, и оптимальные управления w°, v\ ищем в виде Uh = u°k (xk, Wh, Vft, т), v\ = ul (xk, Wk* vA)f учитывая, что при уа==0 выполняется равенство ил = 0. Из условия минимума терминального среднего риска рекуррентные уравнения оптимизации принимают вид S% (xN, Wn, Viv) = min |J со (х) Pt(x/xn, u)dx\u& <UN, uN e= 0,1, WN - 8 (u) > 0, v* - vn > 0}, (1.88) Sn-i (zn-u Wn-ъ Viv-i) = = min {J S°N {x, PFjv-i — 8 (u), vN-x — Зд-i) X XPn(x/zn-i, u)dx\u<= °Un-ix ^jv-iSO, 1, Wjv-i—e(u)>0? v^-i^-i^o}, (1.89) 5S(«o«^o.v0) = = min {J 5? (a, W0 - e (и), v0 - u0) X X Pi (s/s0, и) dx | it e= <Uw v0 <= 0,1, W0 — 8 (u0) > 0, v0-^>0}. (1.90)
48 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 Минимальный средний риск S° будет функцией заданных W0, v0 и определится формулой S° (W0, v0) = J S°0 (x0J W» v0) p (x0) dx0. Функции Sk(XkiWk,Vk) обладают свойством: при vk > >N+1 — к (число располагаемых участков управления в момент tk не меньше оставшихся участков управления) величина S°k (xh, Wk, vk) равна S°h (xflJ Wk) — среднему риску при отсутствии ограничений на число участков управления. Рекуррентные уравнения оптимизации для общего вида среднего риска, а также в случае, когда по статистической информации хк определяется марковская последовательность достаточных статистик Z)A, выписываются аналогично. § 1.10. Уравнения оптимизации при случайном моменте остановки процесса измерений Рассмотренные выше уравнения оптимизации определяли как оптимальные векторы управлений, так и оптимальные случайные моменты остановки управления: в § 1.8 и 1.9 это были или случайный момент полного израсходования энергетики ТУ0, или случайный момент полного израсходования числа участков управления v0. Рассмотрим ситуацию, в которой наряду с векторами оптимальных управлений надо определить правило оптимальной остановки процесса измерений, если по-прежнему заданы моменты t0, ..., tN, в которых могут проводиться измерения (возникающая при этом задача относится к числу задач последовательного статистического анализа L21J, [241, [57]). Пусть без ошибок измеряются в моменты th векторы фазовых координат xk, задана терминальная функция потерь ы(хт) и известно, что стоимость затрат на измерения в момент tk равна cofc. Оптимальное управление должно сделать минимальным среднее значение числа, зависящего как от терминальной функции потерь, так и от затрат на измерения. Поэтому естественно определить средний риск формулой S = М [со (хт) + сод + со,.! + ... + ю0],' (1.91) где tq — случайный момент прекращения измерений. Пусть Si (xi) —минимальный условный средний риск: S°i {х{) = min {М [со (хт) + сод + ... + coj) (1.92)
§ 1.10] СЛУЧАЙНЫЙ МОМЕНТ ОСТАНОВКИ ИЗМЕРЕНИЙ 49 при условии, что x(U)=Xi, tq>ti, в момент tk возможны два альтернативных решения. Решение 1. После измерений в момент tk компонент вектора хк и уплаты за это стоимости затрат coft измерения не прекращаются и, следовательно, в будущий момент tk+i будет зафиксирован некоторый вектор хк+1. Решение 2. Измерения в момент хк компонент вектора хк являются последними измерениями. Обозначим через S\(xk) и S\{Xk) минимальные условные средние риски, если x(tk) = xh и выбраны решения 1 или 2 соответственно. Очевидно, что Sl(xk)=min{ j Sk+i(xk+i)p(Xk+i/xk, и) dxk+1 \ и е= %} + ®*t (1.93) S|(sfc)=min{ J со (хт) р (xT/xk, uh, ..., uN) dxT \ uk e= e %,..., uN e= <UN) + coft. (1.94) При выборе решения 1 из (1.93) определяется оптимальный вектор управления uh(xk)\ при выборе решения 2 из (1.94) определяются оптимальные векторы управлений на интервале (tk, T\. u\(xk), .., u%(xk). Ясно, что Sl(xk) = = min [S\ (xk), Si (xk)}. Поэтому, если Si (xk) < S% (xh), то Uk{xh) = Uk{xk)n в момент tk известно, что измерения должны быть продолжены по крайней мере до момента th+i; если5лЮ>5^(^), то u°h(xk) = ul(xk), ..., u°N{xk)=: = uN\Zh) и известно, что после момента tk целесообразно измерения не производить. Гиперповерхность, определяемая уравнением Sk(xk) = Sk(xk), вырезает в <£п область оптимальной остановки процесса измерений. Рекуррентные уравнения оптимизации имеют вид ■ S%(xN)= S%(xN), . Sn-i (zjv-i) = minfiS^ (зд-i), Sft-x (xn-i)), S°0 (x0) = min [Si (x0), Si (x0)} П (1.95) *). *) Значок □ перед номером формулы означает, что этот номер относится к группе формул, перед первой из которых стоит значок Ш.(Прим. ред.). 4 и. А, Богуславский
50 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 Минимальный средний риск S° = ^S00(x0)p0(x0)dx0. Если вместо марковской последовательности векторов хк измеряются векторы yk и алгоритмом обработки информации генерируется марковская последовательность векторов достаточных статистик 2)л, то уравнения оптимизации не изменяются, если в (1.93), (1.94) векторы хк и xk+i заменить соответственно на Dk и Dk+i. Из уравнений (1.95) нетрудно получить рекуррентные уравнения для определения zt — вектора оптимальной оценки вектора хт при учете стоимости измерений и положительной функции (o(xTj z), определяющей качество оценивания. При этом предполагается, что векторы управлений динамической системой — некоторые заданные функции векторов достаточных статистик: uh=*uh(Dk). Средний риск представляется формулой S = М [со {xTl z) + cog + Щ-i + ... + со0], (1.96) где z — некоторая функция результатов измерений, производимых последний раз в случайный момент tq остановки измерений: z = z{yq, ..., у0). Пусть S? (А) — минимальный условный средний риск: S°i(Di) = min {M [со (хт, z) +aq+... + Щ] \ z е= <ГП}, (1.97) вычисляемый при условии, что в момент U вектор достаточны^ статистик вектора Xi равен D^ а стоимость затрат на измерения до момента U не учитывается (при определении Si(Di) приходится считать, что измерения проводились, начиная с момента t0i так как В{ = 0{(уи ...Гу0)). Определим функции Sl{Dk) и Sl(Dh) формулами Si (Dh) = j 5J+1 (D) Pk+1 (D/Dk) dD + coA,' (1.98) Si (Dk) = min {j* со {x} z) pT {x/Dh) dx \ z e= <ГП} + Щ (1.99) и учтем, что Sn{Dn) = S%(DN). Тогда функции Sk(Dk) последовательно определяются из уравнений вида (1.95),
§ i.li] ОТСУТСТВИЕ ОГРАНИЧЕНИЙ НА УПРАВЛЕНИЕ 51 в которых xk заменен на Dk. Алгоритм последовательного статистического анализа в момент tk сравнивает величины Si(Dk) и S2k(Dk). Если SKDJ^SKDb), то решение вопроса об оптимальной оценке будущего вектора хт откладывается по крайней мере до момента th+i. Если S\{Dk)>S\(Dk), то после момента tk измерения не производятся и оптимальной оценкой вектора хт принимается вектор St (Dh), определяемый при операции минимизации в правой части (1.99). В этом случае при вычислении функции p{xT/Dk) необходимо считать, что векторы управлений iiftT ..., uN являются некоторыми функциями вектора Dk. По аналогии с уравнениями (1.68)— (1.70) нетрудно выписать рекуррентные уравнения для задачи, полученной объединением задачи дуального управления и задачи последовательного статистического анализа. § 1.11. Уравнения оптимизации при отсутствии ограничений на последнее управление В некоторых задачах терминального управления движением (например, при импульсном управлении движением) целесообразно считать, что отсутствуют ограничения на вектор последнего управления uN. В этом случае при специальном виде условной плотности вероятности p{xT/xN, uN) вектор uN несет всю ответственность за качество терминального управления — доставляет минимум величине 5, а предшествующие векторы управлений uN-u ..., щ ответственны за уменьшение потребной энергетики. Действительно, пусть функции (я(хт) и p(xT/xNl uN) таковы, что Sn (xn) = min | J со (x) рт (х/хю и) dx \ и e &m\ = C. (1.100) Так как JPk+i(xlxh> uk)dx = i, то из уравнений (1.81)—(1.83) следует, что в этом случае S°k(xk,Wh) = S°0(W0)^C (1.101) и, следовательно, управления uN~u ..., щ не влияют на 4*
52 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 качество терминального управления. Их надо выбрать так, чтобы возможно меньшей была затрачиваемая на управление энергетика. Пусть справедливо равенство (1.80), и допустим, что из (1.100) найдено оптимальное управление и% = u%(xN). Тогда суммарная энергетика, затрачиваемая на управление, определяется формулой W = (d(xN) + (Dtf-iU^-i) + . . . + О)о(Ио), где со (xN) = V (u°N (xN)) (T - tN), ..., (ok (uk) = Будем выбирать управления из условия минимума средних энергетических затрат: W0 = min {М [со (xN) + cojv-i (uN-i) + ... +<о0 {и0)] \ uN е <=°UN, ..., u0<=<U0}. (1.102) Как видно, критерий оптимизации является частным случаем общего критерия, описываемого средним риском вида (1.4). Векторы оптимальных управлений и°(яА), к = = 0, ..., N—1, определяются из рекуррентных; уравнений вида (1.37)—(1.39). Проводя рассуждения, аналогичные вышеизложенным, можно получить рекуррентные уравнения для оптимальных управлений, минимизирующие суммарную требуемую управлением энергетику, максимальную с заданной вероятностью [7]. § 1.12. Задача оптимального управления при случайном терминальном моменте Рассмотрим ситуацию, в которой случаен интервал управления Т —10. Для сокращения записи считаем tQ = = О И Т = г А, где А = tk+l — tk\ r — целое случайное число. Пусть случайные числа r = rk, & = 0, 1, ..., генерируются некоторым случайным механизмом в моменты 0, £1? ... ..., £А, ... и для каждого к известно распределение pft(c)— вероятность того, что rh = с, где с — целое число и с е <= [а, Ы\ а, Ъ — заданные целые числа. Считаем случайную последовательность гк такой, что при всех к а < ^ гА ^ Ь и для каждой реализации этой последовательности найдется такое единственное целое число а, что га = а. (1.103)
§ 1.12] СЛУЧАЙНЫЙ ТЕРМИНАЛЬНЫЙ МОМЕНТ 53 Величина а—конечно, случайная. Условие (1.103) означает, что случайная дискретно изменяющаяся величина Т в некоторый единственный момент времени равна текущему времени гаД. Простой пример описанной модели получим, если величина г постоянна в данной реализации процесса управления (но, конечно, неизвестна при синтезе управления) и случайна на множестве реализаций с заданным распределением Р{г). При этом Р{г) задает распределение г на интервале [а, Ь] так, что a^r^b с вероятностью 1. Рассмотрим задачу синтеза управления, минимизирующего средний терминальный риск 5 = М[ю(яг)], где символ М включает в себя и осреднение по случайным моментам Т. В этом случае векторы управлений должны минимизировать средний риск при случайном времени управления. Подчеркнем, что в рассматриваемой постановке сигнал «окончить управление» поступает «извне», прекращение управления «неожиданно» для системы и не зависит от процесса управления. Пусть функция \xiz) такова, что |л(0) = 1, |i(z) = 0 если z¥*0. Учитывая оговоренные выше свойства случайного целого числа г, легко убедиться в справедливости равенства ы(хт) = (oUa)|i(ra — а) +... + a){xk)\i(rk — &) + ... ».. + ©U)|i(?b-b) (1.104) и, следовательно, S = M[(d(xa)\i(ra — а)+ ... + со (zh) |i (rk — к) + ... ... +ю(я?ь)|*(гь —Ь)]. (1.105) Случайные векторы хк не зависят от случайных целых чисел гк. Поэтому в (1.105) можно вначале провести осреднение по гл, а потом — по хк. Учитывая, что М[ц(гл-*)] = ?(*), получим S = M[(o(xa)P(a)+ ...+<s>(xh)P(k)+...+u(zb)P(b)]t (1.106) где символ М означает осреднение no xh, а < к < Ь. Итак, задача свелась к рассмотренной ранее задаче минимизации среднего риска вида (1.4) при фиксированном времени управления, равном (Ь — а)Д, и частном ви-
54 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 де функций со*. При общем виде среднего риска (1,4) выкладки не меняются. В формуле (1.105) все множители w(xk) следует заменить на множители вида со0(#о, в0) +... + coft_1(a:ft-1, uh-i) + co(xk). Для упрощения вида формулы среднего риска положим а = 0. Тогда простой подсчет показывает, что уравнения оптимального синтеза должны минимизировать средний риск вида S = М[о)0(х0, U0) + ... + С0/Д#А, Uk) + ... ...+ ©ь-Дяь-!, Ub-i) + d){xb)P(b)], где _ b ^h{xk,uh) = ^(xh)P{h)+ii)k{xh,uk) 2 P(0- Могут быть использованы и другие модели генерации случайного терминального момента. Так, например, в некоторых прикладных задача^ случайное число г определяется условием г = г2, где rl& — первый дискретный момент времени, в который выполнится неравенство |р(гХД)-гКД|<Д, (1.107) р(£.) — некоторый непрерывный случайный процесс, обычно являющийся результатом прохождения белого шума через заданное динамическое звено. Методика построения среднего риска остается старой. Из физических соображений на терминальный момент задается ограничение a<rk<b. (1.107') Функцию |i(z) определим условием цЫ — 1 при Ы<1; fxU) =0 при \z\ > 1. Справедливо равенство S = М [со {хт)\ = М [со (ха) \х (z'a — а) + ... ... +a>(xh) \i{zh - к) + ... +(o{xb)(zb - b)]. (1.108) Здесь zk= z' (tk); случайный процесс z'it) конструируется следующим образом: z'(t) =*-p(t)A~l при £< г°Д; z'(t)= = 6 + 1 при £>г°Д. Осредняя в (1.108) почленно с учетом независимости xk и zk, получим формулу вида (1.106), где Р(к) — вероятность выполнения первый раз неравенства Ip(fcA) — йД| <Д,
§ 1.13] СЛУЧАЙНЫЙ, УПРАВЛЯЕМ. ТЕРМИНАЛЬН. МОМЕНТ 55 § 1.13. Задача оптимизации при случайном и управляемом терминальном моменте В ряде прикладных задач возникает необходимость выбора управления из условия минимизации среднего терминального риска S = М[со(яг)], если Г —первый момент выполнения некоторого условия, положенного на фазовые координаты системы. В задачах управления движением значительный практический интерес имеет, например, случай, когда Т — случайный момент достижения минимума заданной функцией фазовых координат Qix). Приведем примеры подобных постановок. Пусть выбирается система управления ракетой из условия возможно более точного попадания в цель. Тогда естественно минимизировать_среднее значение терминальной функции потерь от промаха — минимальной дальности между ракетой и целью. Терминальным моментом является момент достижения величиной текущей дальности d минимума. Текущая d выражается через фазовые координаты: d = d(x). Поэтому в данном случае Q(x) = = d{x) и S = М [со (d (xT))]; T — момент достижения функцией d{x) минимума. Другой пример получим, рассматривая задачу стыковки космических кораблей. Здесь в терминальный момент Т — момент достижения минимума дальности между кораблями — должны быть малы как дальность d, так и величина вектора скорости относительного движения V, являющаяся -функцией вектора фазовых координат: V=>V(z). Поэтому S = M[co(dOrT), V (хт))]. Здесь, как и в предыдущем примере, Т — момент достижения минимума функцией d(x). Дифференцируя по t функцию ЯЫ, получим, учитывая уравнение (1.1): Q = Ql (x) f (х, и, h, t) = Qt (x, и, h, t), где QK — вектор градиента функций Я. Потребуем, чтобы функция £1(х) имела единственный минимум. Для этого достаточно монотонного изменения функции ЯДя), для чего необходимо отсутствие явной зависимости Qt(#) от вектора белых шумов h. Поэтому Qi = Qt(;r, и, t). Задачу оптимизации рассмотрим при точном измерении векторов xh. Строго говоря, терминальный момент определяется условием Qt = 0. Одпако из-за дискретности измерений терминальным моментом Т считаем момент
56 ОПТИМИЗАЦИЯ ДИСКРЕТНОГО УПРАВЛЕНИЯ [ГЛ. 1 tr = г А, в который первый раз выполнится условие lGi(a*, uh, th)\<E. (1.109) Малая величина е выбирается из эвристических соображений. Эта величина должна быть достаточно велика, чтобы обеспечить в некоторый момент гА выполнение (1.109) с учетом скачков величин \Qi(xk+i, uk+i, th+i) — — Qi(xk, uh, th)\, возникающих как из-за дискретности моментов tk, tk+u так и из-за возможных скачков векторов управлений. С другой стороны, величина 8 должна быть мала, чтобы обеспечить выполнение условия (1.109) в единственный момент г А. Впрочем, невыполнение последнего условия, как следует из излагаемых, ниже соображений, не должно сильно влиять на величину среднего риска. Величины а и Ъ в неравенстве (1.107') выбираются из соображений грубой оценки пределов изменения возможных величин Т. Определим функцию \i(z) условием \x{z) = 1 при Ы < < е; \x(z) = 0 при Ы > 8. Справедливо равенство со (хт) = М [со (ха) ц (Qx (xa9 иа9 ta)) + ... ... +Q>(xh)\L(Q1(xhi uk,tk))+ ... ... + <u(xb)\i(Q1(xb, ub,tb))] и, следовательно, рассмотренные ранее рекуррентные уравнения должны определить оптимальные управления из условия минимизации среднего риска вида S = М [<ох (ха, щ) + ... + % (xh, uk) + ... + соь (xb, ub)], (1.110) где ^. 0ftUA, uJ^cdixJixiQiixk, uk, tk)). Последнее управление, влияющее на S, есть ub-i, поэтому в (1.110) иь = 0. Алгоритм управления наряду с реализацией синтезированных управлений должен в моменты измерений проверять условие (1.109) и при его выполнении вырабатывать команды прекращать управление. Заметим, что если величина 8 в (1.109) окажется такова, что условие (1.109) выполнится для нескольких последовательных, моментов, то качество управления не должно ухудшаться. В этом случае управление минимизирует среднее значение суммы нескольких функций потерь, векторы аргументов
§ 1.13] СЛУЧАЙНЫЙ, УПРАВЛЯЕМ. ТЕРМИНАЛЬН. МОМЕНТ 57 которых близки к вектору точки достижения минимума функцией Q(x). При измерении статистической информации о векторе фазовых координат проверка алгоритмом управления выполнения условия (1.109) невозможна, так как векторы xk не измеряются. Так как векторы достаточных статистик Dk характеризуют условную плотность вероятности вектора xh, то в каждой точке tk может быть рассчитана Рк — вероятность выполнения условия (1.109). Алгоритм управления должен последовательно рассчитывать величины Phi монотонно увеличивающиеся вплоть до момента достижения минимума функцией £1(х), и в момент достижения максимума прекращать управление.
ГЛАВА 2 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ ПРИ ПОЛНОЙ ИНФОРМАЦИИ § 2.1. Общая схема численной оптимизации Рекуррентные уравнения (1.32)—(1.34) или (1.37)— (1.39), последовательно определяющие векторы оптимальных управлений иЦх), в ситуациях, имеющих прикладное значение, аналитически не решаются, кроме двух случаев, рассматриваемых в главе 3. Общая схема численного решения этих уравнений такова. Пусть установлено, что поиски вектор-функций и% (х), ..., ul (х), ..., wjj (x) имеет смысл производить, если соответственно х е gfcNl ... ..., х&$вк, ..., х^$(?0, где 3?N, ..., $вк, ..., #?о — некоторые принадлежащие <$п области, которые определяются специальной процедурой, подробно рассматриваемой в главе 3 для линейных (в разомкнутом состоянии) динамических систем. Выражение «имеет смысл» означает, что при заданных распределениях вектора х(0) и случайных возмущениях hit) в уравнении (1.1) маловероятно событие x(tk) Ф- S6h или в этом случае оптимизация управления тривиальна. Области $вК содержат изолированные точки xh — узлы решетки, разбивающей $въ на n-мерные параллелепипеды, ребра которых параллельны осям координат. 1-й шаг оптимизации состоит в численном решении, уравнения (1.37) для всех xN и занесении в память ЦВМ чисел S% (xN) и компонент вектора u%(xN). 2-й шаг оптимизации состоит в численном решении уравнения (1.38) при всех xN-i. При этом для вычисления интеграла, входящего в правую часть (1.38), необходимо путем интерполяции функцию S%(u) ti])hju¥*xn заменить некоторой функцией SN (v) такой, что SN (xN) = = Sn (xn) для всех xN. Поэтому на 2-м шаге оптимизации будут найдены не S%-i(x) и и%-г(х), определяемые (1.38), а некоторые Ял-Дя) и н^-Дя), определяемые
§ 2.21 МНОГОМЕРНАЯ ЛИНЕЙНАЯ ИНТЕРПОЛЯЦИЯ 59 уравнением Sn-i (х) = min {J SN (и) pN (v/x, u) dv + + cdjv-i (x, u)\ue °Un-i\- (2.1) Это уравнение численно^ решается для всех х = xN-i и соответствующие числа SN-iixN-i) и компоненты вектора u(xn-i) заносятся в память ЦВМ. Дальнейший процесс оптимизации проводится аналогичным образом. После N — к шагов в память ЦВМ занесены Sk+i(xh+i) и u{xh+l). На (N — к + 1)-м шаге при всех х = хк решается уравнение Sk (x) = min {jX+1 (и) рк+г (v/x, и) dv + + (ok(x1u)\ue=Wh}, (2.2) где Sk+i(u) — функция, получаемая путем интерполяции так, что при u — xk+i ee_ значения равны занесенным в память ЦВМ числам ~Sk+i(xk+i). Полученные Sk(xk) и uk(xk) заносятся в память ЦВМ и используются на следующем шаге. Из вышеизложенного следует, что для оптимизации стохастического управления необходимо: 1) определить области $?о, ..., #?*, ..., Я?*; 2) производить интерполяцию для построения Sh(v) по числам Sk(xk); 3) решать уравнения вида (2.2). § 2.2. Многомерная линейная интерполяция Пусть в узлах xk решетки области S6h найдены числа Sh{xh). По какому закону следует строить величины Sk{x), если x^xj Для определенности положим, что область 8вк — параллелепипед в <£п (в противном случае вокруг $Въ описываем параллелепипед и заменяем им первоначально найденную область <Э?Л). Обозначим через х\, х\, ..., х\ъ (& = 1, ..., п) i-e координаты узлов решетки области S&k- Считаем, что узлы расположены равномерно так, что вдоль каждой координатной оси постоянен шаг координат узлов: х]+1 - *\ = A», i = 1, • •., Aft - I- (2-3) Общее число узлов Mh = М\, ..., Мп- Пусть х\ хг, ...
60 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 ..., хп — координаты точки х удовлетворяют соотношению 4,<^<4+ь (2.4) где & = 1, ..., п, ri — произвольные целые числа, удовлетворяют условию г*<; М\ — 1. Неравенство (2.4) означает, что точка х принадлежит элементарному параллелепипеду, который определяется целыми числами г4, ..., г„. Его вершины — узлы решетки области 86к имеют координаты xli+a , ...» ж?п4-ап> где аг = 0 или а{ = 1. Поэтому каждой вершине параллелепипеда соответствует ata2... an — число в двоичной системе счисления, имеющее п цифр 0 или 1. Количество этих чисел, а значит и число вершин элементарного параллелепипеда, равно 2П. Обозначим ^ = (4^г-х1)(1^Г\ (2.5) ^^(^-^(АлГ1. (2.6) Очевидно, что Пусть в вершинах элементарного параллелепипеда заданы величины Sk (xk) = 5л(а£1+0б1, ..., £?n+an), где at, ... ..., On независимо_ принимают значения 0, 1. Определим величину Sk(x) = Sh(x\ ..., л:71) равенством Sk(x\ ...,*«) = = ^ ^r.+a, • • • Vn4-an«Sft(b^r+a1-» • • •» жгп+ап). (2.8) ах an=o,l * В (2.8) суммирование проводится перебором всевозможных двоичных чисел вида ai<x2.. .an. Поэтому число слагаемых в (2.8) равно 2\ Из (2.5), (2.6) следует, что в (2.8) правая часть является линейной функцией от каждой из величин х\ Поэтому (2.8) можно назвать формулой многомерной линейной интерполяции. Приведем частные случаи этой формулы. При п = 1
§ 2.3] ОПРЕДЕЛЕННЫЕ МАТРИЦЫ И ВЫПУКЛЫЕ ФУНКЦИИ 61 При п = 2 Sk (х , х2) == Kr^Kr^k {xriXr2) + hri+ikr2Sk v^+ь xr2) + + ^r^ro+l^A \xrv xr2+l) + V1+Ar2+l^(:z:r1+l> #r2 + l/« Нетрудно по индукции проверить справедливость следующего соотношения, используемого ниже: 2л К.+сс. • . . Кп+ап = 1. (2.9) ах ап=о,1 При я = 1 (2.9) соответствует (2.7). Допустим, что (2.9) выполняется при замене п на п — 1. Но тогда «£l ^r -f-a • • • ^гп+ап = а1,...,ап=о,1 = 2-1 ^4-»! • • • Vn_1+an_1 (Лгп + Vn+l) = а1,..,,ап=о,1 = 2j ^1+0^ • • • ^rn_1+an_1 = 1- a1,..f.an_1=oil § 2.3, Определенные матрицы и выпуклые функции Изложим основные свойства неотрицательно и положительно определенных матриц и выпуклых функций, используемые в дальнейшем рассмотрении. 1. Пусть А — квадратная матрица. Если для любого вектора х Ф 0 хтАх > 0 или хтАх > О, то А называют соответственно неотрицательно определенной или положительно определенной матрицей и обозначают А>0 или Л>0. Если А > О, то А — неособенная. Действительно, в противном случае найдется вектор хФО такой, что Ах = 0, откуда хтАх = 0. Наоборот, если А > 0 и неособенная, то А > 0. Действительно, пусть найдется вектор х Ф 0 такой, что XеАх = 0. Но тогда U + кхУА (z + Ы = zTAz + 2lzTAx > 0, где z — произвольный вектор, X — произвольное число. Так как zTAz>0, то, положив Я = — hdsign[zTAx], где К0 достаточно велико, получим Ах = 0, что противоречит условию. Если А симметрична, то существует представление А = ДЛВТ, где В — ортогональная матрица (ВВТ = /), Л -— диагональная матрица, составленная из ^ — собственных
62 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ {ГЛ. 2 чисел матрицы А, которые все вещественны и, если А > > 0, неотрицательны. Положив х = By, получим а?Ах = у*Ау = уху\ + ... + ynyl (2.10) Так как \х\2 = хгх=±уту = \у\2, то из (2.10) следует хтАх<^\х\2, (2.11) где ^ — наибольшее собственное число матрицы А. 2. Функция Six) называется выпуклой вниз, если XSixJ + (1 - X)Six2) > SiXx{ + (1 - Х)х2), (2.12) где 0<Я^1. Если в (2.12) стоит знак строгого неравен- - ства, то функция Six) называется строго выпуклой. Обозначим через Sx и £** вектор градиента и матрицу вторых частных производных выпуклой функции Six). Тогда Sxx>0. Пусть Six) определена в выпуклой области $в. Используя формулу Тейлора, получим S (х2) - S (х±) - (х2 - хху Sx (xL) = = \ ix2 - х,у Sxx \хх + 9 (х2 - хх)) ix2 - xx), (2.12') где 0 ^ 9 < 1 (#i + Qix2 — х0 ^ #?? так как SB — выпуклая область). Учитывая (2.11) и то, что «S^^O, получим 0 < S (х2) - S (х±) - (х2 - xxf Sx (хг) < -J- у | х2 - хх I (2.13) где ^ — максимум собственных чисел матриц Sxxix) при x^se. 3. Если функция Siz, ft) выпукла вниз по z, то выпукла вниз и Siz): S{z) = $S(z,h)p(h)dh, если pih) > 0. Действительно, XS (Zl) + (1-K)S (z2) = j [XS (z19 ft) + + (1 - X) S (ztf ft)] p (ft) dh > j S (Я*! + (1 - Я) z2, ft) X Xpih)dh = S (Ux + il-l)z2). 4. Если Six, u) — функция, выпуклая вниз по х и и, и е ф/, где ^2/ — выпуклая область, то выпукла вниз и
§ 2.4] ОШИБКИ ИЗ-ЗА ЛИНЕЙНОЙ ИНТЕРПОЛЯЦИИ 63 Six): Six) = min{Six, u)\u^°U}. Действительно, пусть Six, и) минимальна при и = uix) e <U. Тогда XSixd + ii-X)Six2) = = XSixu uixi)) + il-X)Six2, uix2))> > SiXx{ + (1 - X)x2l Xuix{) + (1 - X)uix2)) > > min {SiXxA + (1 - X)x2j u) Iи s оц) = 5»^ + (1 _ ЯЬ2). 5. Если Жя) — выпуклая вниз функция, то выпукла вниз по х, и функция Siax+bu + h). Действительно, XSiaXi + Ъщ + h) + (1 - X)Siax2 + bu2 + h)> > Siliaxi + Ъщ + h) + (1 - X)iax2 + bu2 + h)) = = SUitei + (1 - X)x2) + ЫХщ + i 1 - Я)н2) + h). Аналогично получим, что функция Siax + bu + h) выпукла по х при фиксированном векторе bu + h и выпукла по и при фиксированном векторе ах + h. 6. Если Six) — выпуклая вниз, четная iSix) =Si—x)) функция, то S(0) = min {Six)}; Six) > SiXx) при X е- [0,1]; Siyxo) в функции y неограниченно возрастает, если Six0)>SiO). Действительно, S(0) = s(±x + ±(-x)^±S(x) + ±S(^x) = Six), XSix) + il-X)S(0)^S(Xx), откуда XiSix) - SiXx)] > (1 - X)[SiXx) - S(0)] > 0. Положив 7 = Я"1, получим Siw) > Six0) + (7 - l)[Six0) - 5(0)]. (2.14) Поэтому Siyx0) -* 00 при y -* °°- § 2.4. Оценка накопления ошибок из-за линейной интерполяции Численная оптимизация управления является многошаговым процессом, на результаты которого влияет линейная интерполяция, вызывающая появление дополнительных ошибок — функций 4]kix): r]kix)='Skix)-S0kiz), * = l,...,tf. (2.15) Здесь функции Shix) определяются последовательным
64 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 точным решением уравнений вида (2.1), (2.2) в узлах решетки областей 9Bh с использованием формулы многомерной линейной интерполяции, а функции S\ (x) определяются последовательным точным решением уравнений вида (1.37) —(1.39) при замене х на и, хк на х. Допустим, что функции Sl(x) выпуклы вниз, и оценим функцию гк(х), определяемую равенством ах ап=о,1 (2.16) где ги ..., гп — заданные целые числа, х(а) — точка с координатами х} +а^ ...» х?п+ап- Учитывая (2.9), получим Ч (х) = 2 £1+аг ■ • • tfn+«n [Si (x (a)) - S°h (x)]. а1,...,ап=о,1 (2.17) Применяя формулу (2.12'), найдем Si (х (а)) - S°h (х) = S (4+«i - **) а* + г=1 + ±(x(a)-~xyS°kxx&(*))(x(a)--x\ (2.18) где а* — компоненты вектора Six {х)\ х (a>)=x+Q (х (а)~х). Подставляя (2.18) в (2.17), получим после перемены порядка суммирования: п е„ (г) = S «* 2 #1+в1 • • • C„+an (4i+ei - я*) + г=1 а1,...,ап=о,1 + 4" 2 ^i+«i • • • #»+«» (* («) - *)т X ах ап=о,1 х4И«))М«)-4 (2.19) Так как X*i(x*i-a5i)+Xji+1(x*i+1-xi) = 0, (2.20) ТО Zj Яг +а- • • • Vn+an \хг{+а{ X ) = а1,...,ап=о,1 2а1 лг-l лг+1 Аг +ах • • • Ar1_1+ai_1A.ri+1+ai+1 • • • <xv... .а^.а^,...,ап=о,1 • • • Яп«ы К «- *') + Xji+1 (4W -**)] = 0 (2.21)
§ 2.4] ОШИБКИ ИЗ-ЗА ЛИНЕЙНОЙ ИНТЕРПОЛЯЦИИ 65 и, следовательно, равен нулю первый член в правой части (2.19). Используя неравенство (2.13), найдем О<(х(а)-х)*SLc(x(a))(x(a)-x)*<yk\x(<%)-*|2, (2.22) где yft — наибольшее собственное число матрицы Slxx (#)• Из (2.19) и (2.22), учитывая (2.21) и (2.9) при замене п на п — 1, получим п 0<eft(*)<A 2 2 K1+ai. ■ Л?п+ап(х1.+щ-х1У= i—ia1 an=o,l п г=1 n = -~7Г" ^j Аг^гЛгл + 1 • (2.23) Но максимальное значение произведения Яг^+i равно 1/4. Поэтому окончательно п 0<8ЛИ<^2А?- (2-24) г=1 Пусть для всех xk — узлов решетки области S?k справедливо неравенство 4fc(^) = 3fc(^)-5j(«fc)<T|k1 (2.25) где T]ft — верхняя грань чисел r]ft(a:fe). Оценка (2.24) позволяет оценить сверху функцию r\k(x) при x¥=xh. Для этого учтем, что T|ft (X) = Sk(x) - Si (X) = 2 ti.+a. ... a1,...,an^o,l . .. Кп+ап [Sk (x (a)) - Si (x (a))] + гк (х). (2.26) Используя оценку (2.24) и (2.25) и учитывая, что ^ч+°ч ^ 0> получим п %И<% = % + ^-2А^- (2.27) г=1 Из (2.27) видно, что задача получения r\k — оценки сверху для функции г\к(х) сводится к задаче получения цк — оценки для r\h(xk)t Далее используется очевидпое ут- 5 И. А. Богуславский
66 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 верждение: для произвольных функций а(х) и Их) справедливо неравенство min la(x) + Их)} < а(х*) + Ь(х*), где а(х*) = min {а(х)}, Их*) = min {Их)}. (2.28) Найдем связь между % и т],1+1. Из (2.2) получим, используя (2.28): Sk (xk) = min {j* [S?l+l (v) + Tjft+i (y)] /^ (y/sfcf и) <fc + + ю^*л,и)|ие=Ц<$(*л) + + j Лл+1 И ^ (*/**, ^ (**)) *>• (2.29) Из (2.29) видно, что если r)fc+1(a:) > 0, то О <5fc(*k)-S2 (xk)<t|fcI а значит, и r]ft(^)>0, как следует из (2.26). Но r\N(x) = = е*Ы^0. По индукции получим т]АЫ^0, kj=N, ... ..., 0. Тогда из (2.29) следует неравенство T]ft^rjft+1 и из (2.27) найдем п г=1 Но п Используя последовательно (2.30), получим оценку для rjft: JV n л*<42?*2А&- (2-31) j—/г г=1 Неравенство (2.31) показывает, что с увеличением числа шагов оптимизации (уменьшением числа к) происходит увеличение оценки для разностей Sk (х) — S° (x), вызванных конечным числом узлов решеток областей й?*, используемых при линейной интерполяции. Однако эти разности имеют второй порядок малости относительно величин At7l, определяющих длины ребер элементарных параллелепипедов, на которые разбиваются области S?h.
§ 2.4] ОШИБКИ ИЗ-ЗА ЛИНЕЙНОЙ ИНТЕРПОЛЯЦИИ 67 Процесс оптимизации завершается вычислением величины S = jS0(v)Po(v)dv, (2.32) где Ро(х) — плотность вероятности априорного распределения вектора х(0). Разность S — S0 (5° — величина среднего риска, получаемая при использовании векторов оптимальных управлений и* (#), найденных при точном решении рекуррентных уравнений (1.37) —(1.39)) оценивается неравенством, получаемым из (2.31) при к = 0: N п s - 5° < 4- 2 vi 2А^ < х ynNA2> (2-33) г=о г—1 где 1 — максимальное из собственных чисел матриц Skxx при к = О, ..., N; А — максимальная длина ребер элементарных параллелепипедов. Из (2.33) видно, что величина S — S0, возникающая из-за линейной интерполяции, не будет возрастать с ростом N, если длины ребер элементарных параллелепипедов пропорциональны N~in. В результате вычислений в память ЦВМ (память контура управления динамической системой) для /с = 0, ... ..., N будет занесено т компонент векторов uk(xh). Ясно, что величина S имеет смысл среднего риска при следующей конструкции стохастического управления: если в момент tk измеряемый без ошибок вектор фазовых координат х совпал с одним из узлов xhy то на интервале lA, tk+i) вектор управления равен занесенному в память вектору uk(xk)\ если х не совпал с хк, то uk(x) определяется решением относительно и уравнения Sk (х) = J Sk+1 (v) pk+1 (v/x, и) dv + ®* (x, u), (2.34) где функция Sk(x) определяется формулой (2.8). Только в этом случае неравенство (2.33) дает оценку величины ухудшения качества управлений из-за того, что используются не векторы оптимальных управлений щ{х), а векторы ик(х), сконструированные выше. Конечно, определять лри х¥= xk векторы uh{x) из (2.34) нереально. В этом случае естественно использовать многомерную линейную интерполяцию вида Uk (х) — 2j кгг+ал • • • hrn+anUk \ХТ +0,^ • • • > хгп+ ап)• а1,...,ап=0»1 (2.35) 5*
68 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 Средний риск при управлении по формуле (2.35) должен быть близок к S из (2.32), так как вектор ик(х) из (2.35) близок к ик(х) из (2.34) (при x = xk эти векторы совпадают, а решение уравнения (2.34) должно непрерывно меняться при движении от узла хк к точке х внутри элементарного параллелепипеда). § 2.5. Некоторые свойства функций условных рисков Для оптимизации стохастического управления необходимо на каждом шаге решать задачу Si (x) = min{Sh (х, u)\u<= %1к), (2.36) где Sh (х, и) = j 5j+i (v) Ph+i {vlx, и) dv + со/, (х, u), (2.37) причем S%+i(x) = (д(х). Конкретизируя свойства функций потерь соЫ, соА(#, и), А: = iV, ..., О, можно получить некоторые свойства функций условных рисков £/?(#), полезные при численном решении рекуррентных уравнений. Сделаем следующие допущения: 1. Функции соЫ, (дк(х, и) — четные: coU) = со(—х), сок(х, и) = (ок(—х, — и). Примером таких функций могут служить со (х) = -х- xTRx, coft (х, и) = -у (xTRkx + uTQx). 2. Области °Ык симметричны относительно начала координат: если u^°Uh, то —u^°Uk. 3. Правая часть уравнения (1.1) динамической системы — нечетная функция х, и, h: fix, и, h, t) = -/(-ж, -и, -h, t). (2.38) Примером может служить fix, и, h, t) =A(x)+B(u) + ch, где Aix), ВЫ) — нечетные функции. Докажем по индукции, что если справедливы допущения 1, 2, 3, то функция Si (х) — четная, а вектор-функция Uk (x) — нечетная. Запишем решение уравнения (1.1) в момент tk+i при начальном условии x(tk) =x и uit) = и в виде xk+i = xk+i(x, и, h6), (2.39)
§ 2.5] СВОЙСТВА ФУНКЦИЙ УСЛОВНЫХ РИСКОВ 69 где h6 —- вектор, составленный из нормально распределенных компонент векторов h6(tk), h6(tk + 8), ..., h6(tk^.i — 8), входящих в конструкцию допредельного белого шума. Так как м. о. вектора К равно нулю, то p{h6) — его плотность вероятности — четная функция: p{h6) = p{—h6). Так как х х (t) = х + J / (х (т), и, h6 (т)) dx, (2.40) tk то из (2.38) и (2.40) следует ■ xk+l(x, щ hb) = — xh+i(—x, —и, —Ы). (2.41) Учитывая (2.39), перепишем (2.36), (2.37) в виде Si (x) = min {J Sh+1 (xh+x (яг, и, h6)) p (йб) <йб + + М*. m)|mg=%}. (2.42) Сделаем в (2.42) замену х==—х', и = —и\ h6 = —hb. (2.43) Учитывая (2.41) и четность функций p{ht), (oh(x, и), получим S°k (— х1) = min {j Sj[+1 (— хк+1 (х', и', h'6) p (h'6)) dh'b + + ®k(x',u')\-u'f=<Uh}, (2.44) причем интегрирование по каждой компоненте вектора /?б (как и интегрирование по каждой компоненте вектора h6 в (2.42)) проводится в пределах ±оо. Так как по условию область °Uk симметрична относительно начала координат, то минимизацию в правой части (2.44) можно проводить при условии и е °Uh. Допустим, что Sk+i (x) — четная функция; тогда правая часть (2.44) с точностью до обозначений станет равна правой части (2.42) и, следовательно, S°h(x) = S°h(-x). (2.45) Учитывая второе из равенств (2.43), получим u°h(x) = -uU-*)- (2.46) Но функция со (х) — четная по условию. Рассуждая по индукции, получим, что равенства (2.45), (2.46) справедливы при к = N, ..., 0. Эти равенства позволяют в два
70 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ {ГЛ. 2 раза уменьшить число точек x = xh, в которых надо решать задачу (2.36). Рассмотрим случай, в котором нетрудно доказать выпуклость вниз соответственно по х и х, и функций Sk (x) и Sh(x, и), что обеспечит сходимость алгоритмов стохастического и нелинейного программирования. Допустим, что <й(х) и G)ft(#, и) — выпуклые вниз функции, а уравнение (1.1) линейно. Тогда вектор xk+i в (2.39) и равенство (2.37) можно представить соответственно в виде xk+1 = Ax + Bu + ghb, Sk (я, и) = J S°+1 (Ax + Ви + gh6) p (h6) dh6 + coft (x, и), (2.47) где А, В, g — некоторые матрицы. Пусть Sk+i(x) — выпуклая вниз функция. Тогда по свойствам 5 и 3 выпуклых функций первое слагаемое в правой части (2.47) — выпуклая функция х, и. Но сумма выпуклых функций — функция выпуклая. Поэтому Sk(x, и) — выпуклая функция #, и. На основании свойства 4 выпуклых функций получим, что Si (x) — выпуклая вниз функция. Так как со(х) — выпуклая, то, рассуждая по индукции, получим, что Si (х) и Sk {х, и) — выпуклые вниз по х и х, и. Из свойства 6 выпуклых функций следует, что Si (0) — минимальное значение Si (x) и для любого вектора х0 величина Sk{ax0) является неубывающей функцией <х. Если Si {х0) > Si (0), то Si (ax0) неограниченно возрастает с увеличением а и не медленнее, чем функция S°k (х0) + (а — 1) [S°k (х0) — Si (0)]. Поэтому при выполнении перечисленных выше условий поверхность в <zfn+i, соответствующая функции Sk{x), похожа на поверхность некоторой воронки. § 2.6. Методы нелинейного и стохастического программирования Основные трудности при попытках аналитического решения рекуррентных уравнений оптимизации возникают из-за того, что нельзя аналитически найти условные плотности вероятностей Pk+i(xk+i/xh, uk), если динамическая система описывается нелинейным дифференциальным уравнением (1.1), не удается получить аналитические
§ 2.6] МЕТОДЫ ПРОГРАММИРОВАНИЯ 71 выражения для функций минимальных условных рисков Sk{xk) (или S°k(xk, Wk), или Sk{xk, Wh, vk)) и найти векторы uk, минимизирующие многомерные интегралы в рекуррентных уравнениях главы 1. Поэтому далее рассматриваются два возможных метода численного решения задачи синтеза: метод, основанный на сочетании цифрового моделирования динамической системы и стохастического программирования (в частном случае — стохастических аппроксимаций), и метод, основанный на нелинейном программировании. Изложим вкратце основы нелинейного и стохастического программирования в виде, используемом в дальнейшем. Пусть дана скалярная функция Q{u), зависящая от т переменных — элементов вектора и, и необходимо найти вектор и0: Q(u°) = min iQia)\u&<U), (2.48) где °U — выпуклая область, Q'(u) — строго выпуклая вниз дифференцируемая функция. Задачу (2.48) называют задачей нелинейного (выпуклого) программирования. Если °и=&т, то необходимое и достаточное условие экстремума имеет вид Qu(u°) = 0, (2.49) где Qu(u) — градиент Q(u) в точке и. Последовательность векторов ив, сходящихся к вектору и0, строят с помощью градиентного алгоритма us+i = us — \isQu(us), (2.50) где \xs — последовательность матриц, выбираемая из условия достижения возможно большей скорости сходимости алгоритма. Так, например, быстрая сходимость обеспечивается, если \xs — матрица, обратная матрице вторых производных функции Qlii) при и = us (многомерный аналог метода Ньютона). В этом случае вектор и0 определяется за одну итерацию, если Q(u) — квадратичная функция компонент вектора и. Однако обычно эту матрицу найти сложно (или невозможно). Простейший градиентный алгоритм получим, положив \xs равным \х — постоянному, достаточно малому числу. Известно (см., например, [31, [42]), что обеспечится линейная сходимость |ns — ю°|->0 (в функции s \us — u°\ убывает как член некоторой геометрической прогрессии:
72 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 <7<1, \uk— u°\ ~ cqh), если величину fx определить формулой *г~2ам + Лт)-\ (2.51) где Хм и Лт — соответственно максимальное и минимальное собственные числа матрицы вторых производпых строго выпуклой вниз функции Q(u)\ максимум и минимум собственных чисел определятся на некоторой области, окружающей и0. При выполнении (2.51) Q ~ \км — Ат)\Ам "Т" Am' • Для увеличения быстроты сходимости и для ликвидации незатухающих колебаний элементов векторов us (зацикливания) в [42] рекомендуются градиентные алгоритмы, в которых реализуется принцип обратной связи: величины (или матрицы) \xs делаются функциями \Qu(ua)\. Однако в задачах, имеющих прикладное значение, часто функция Q(u) задается алгоритмически, вычислить элементы вектора градиента Qu(u) не представляется возможным и градиентный алгоритм в виде (2.50) нереализуем. В этом случае градиент определяется приближенно с помощью конечных разностей. Пусть в\ — орт, направленный по i-й оси системы координат в &т. Тогда вектор приближенного градиента (квазиградиента) определяется формулой т On (Us) = ^^ilQ(Us + As^) - Q (Us)] вг. (2.52) s i=l В [42] описаны градиентные алгоритмы, использующие векторы Qu(us) и определенную логику последовательного уменьшения величин Д8, и доказана их сходимость. Уменьшение величип Д8 может привести к увеличению случайных ошибок реальных вычислений из-за деления друг па друга малых величии в (2.52). Если Q(u) — гладкая функция, аппроксимируемая в окрестности и0 квадратичной функцией, то, начиная с некоторого Д.,, далее, их величины уменьшать не надо при использовании вместо (2.52) формулы т Qu Ы == 2J. 2 IQ (^ + A.*i) -Q(U9- Asei)] Si. (2.53) si=l Легко показать, что Qu(us) = Qu(ua), если Q(u) — квадратичная функция. Действительно, допуская соответст-
§ 2.6] МЕТОДЫ ПРОГРАММИРОВАНИЯ 73 вующую дифференцируемость (Ни), получим т 2J 2 [<? <"• + As£?{) -<?("«- A'ei)l «i = = <?ЦЫ + ^К)А*, (2.54) где л^4-2^(ц;+39Ае^ь o<e,<i. (2.55) ^ ^^ пи - i=l uusi Для квадратичной функции Л8э.О и, следовательно, квазиградиент равен градиенту. Заметим, что, используя разности более высоких порядков и усложняя вид правой части (2.52), можно получить точный градиент, если Q(u) — полиномиальная функция любой заданной степени от компонент вектора и (см. [28]). Если ттг —число элементов вектора и велико, а расчет функции Q в каждой точке осуществляется сложным алгоритмом, то определение вектора Qu(us) по формуле (2.52) или (2.53) может требовать большого объема вычислений на ЦВМ. В этом случае при определении вектора квазиградиента целесообразно пользоваться методом случайного поиска, определив случайный вектор Qu(us, f}8) соотношением Qu (Us, Ps) = ~- 2 t<? ("■ + A*M - Q (Us)) P.i, (2.56) где fi8i — случайные векторы, элементы которых являются независимыми случайными величинами $1ц каждая из которых равномерно распределена на отрезке [—1, 1], ks — число независимых статистических испытаний на 5-м шаге итерационного процесса (для сокращения объема вычислений число к$ должно быть заметно меньше числа ттг). Используя в (2.56) первые три члена разложения функции Q(u) в ряд и учитывая, что м[&•&] = о, 1Фк, м[(pii)2] = нетрудно показать [25], что М [Qu (us, p,)/Ul] = -^ Qu (u.) + A As, (2.57)
74 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 где As — вектор, элементы которого зависят от вторых частных производных функции Q(u). Из (2.57) видно, что вектор Qu(us, ps) является случайным вектором, условное м. о. которого линейно связано с градиентом Qu(us) минимизируемой функции Qu(us). Такие случайные векторы называются далее стохастическими квазиградиентами [25]. Если условное м. о. вектора совпадает с градиентом минимизируемой функции, то этот вектор называется стохастическим градиентом (общее определение стохастического квазиградиента, используемого, если минимизируемая выпуклая вниз функция не имеет непрерывных производных, дано в [25]). Алгоритм минимизации функции Q(u) имеет вид (2.50) после замены векторов градиентов Qu(us) на случайные векторы стохастических квазиградиентов Qu(usi ps). Условия сходимости к и0 в некотором статистическом смысле случайных векторов us приводятся ниже. Учтем теперь ограниченность области допустимых векторов и: и^°Ы и для определенности примем, что квазиградиент дается формулой (2.52). Алгоритм выпуклого программирования [25], [42] имеет вид us+i = ПиЫа — iisQuius)), (2.58) где вектор tiuiz) определяется формулой и-ЯсЛг)|2 = тт{|г-в|2|юе=<гД. (2.59) Соотношение (2.59) описывает операцию проектирования произвольного вектора z на оболочку выпуклой области °U: Ttu(z) — точка на °U, расстояние которой до произвольной точки z минимально. Ясно, что Tiu(z)=z, если ze?/ (рис. 2.1). В приложениях часто область °Ы~ прямоугольный параллелепипед. Тогда а{<и{^Ь\ i = l, ..., т, где и{ — i-и. элемент вектора и; а\ Ъг — заданные числа. Тогда (2.59) запишем в виде m m 2 (z* - nv (г)*)8 = 2 min {(z* - uj \ a{ < и*< b{], г=1 г=1 откуда I a\ если 2г^аг, Ku (z)1 = I z\ если а1 < z% < b\ [Ьг, если zl^bl.
§ 2.6] МЕТОДЫ ПРОГРАММИРОВАНИЯ 75 Алгоритм выпуклого программирования вида (2.58) называется методом проектирования градиента (или квазиградиента). Метод проектирования стохастического квазиградиента описывается алгоритмом us+i = ttu(us — [XsQuiusy pe)). (2.60) Из общих теорем, приведенных в [25], следует (теорема 1 на стр. 97), что при получении векторов Qu(usi (1.) из (2.56) случайные векторы us из (2.60) сходятся к и0 почти наверное (с вероятностью 1), если выполнены условия ро оо 8=1 8=1 ОО 2 [1.А. < оо (2.61) и ограничены вторые частные производные минимизируемой выпуклой вниз функции Q(u). Последнее условие обеспечивает ограни- рис< 2.1. ченность компонент векторов As в (2.57) и ограниченность условных (при фиксированных и0. ..., юв) дисперсий случайных величин \Qu(ut, [UI. Условия (2.61) выполнятся, если, например, а<1, 2а >1, ар>1, \xs = as~a; As = bs-p (а, Ь>0). (2.62) Требуемую (2.61) интенсивность уменьшения величин Afe можно сделать менее значительной (это целесообразно для уменьшения ошибок реальных вычислений), если вместо (2.56) определить вектор Qu(uSy ps) формулой Qu (Us, Pa) = 2Д" 2 К? (us + Aspsi) — Q {Ue — Aspsi)] Prf. 4=1 (2.63) После разложения в ряд найдем *8 QU(US, P.)- 2 [(9uMTpsi)psi+^si(He, P.) A?], (2.64) M [(&(и., р.)/и,)] ~ ^ <?м (и.) + 4.А5. (2.65)
76 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 В (2.64) и (2.65) Asi(us, ($*) и As — векторы, зависящие от третьих частных производных функции Qiu), -компо-г ненты которых считаем ограниченными. При использовании стохастического квазиградиента в форме (2.63) последнее условие в (2.61) можно заменить условием 2 |ЛаД!<00. (2.66) В этом случае сходимость почти наверное обеспечится, если в (2.62) условие оф > 1 заменить условием 2сф > 1. (2.67) Заметим, что если считать Q(u) функцией, достаточно точно аппроксимируемой в окрестности и0 квадратичной функцией, то в (2.64) \Asi\ = 0, стохастический квазиградиент не зависит от As и совпадает со стохастическим градиентом. В этом случае, начиная с некоторого s, величины As можно не уменьшать. Следует отметить, что метод проектирования градиента — лишь один из большого числа эффективных численных методов выпуклого программирования, прошедших апробацию при решении широкого круга задач практики. Выше изложен именно этот метод из-за его тесной связи с рассматриваемым далее методом стохастического программирования. Пусть Ли) — функция вектора и, определяемая формулой J(u) = M[Q(u,h)/u], (2.68) где h — случайный вектор, Q(u, h) — функция соответствующего числа переменных. Распределение вектора h может моделироваться — существует программа ЦВМ, которая при каждом фиксированном векторе и выдает независимые случайные векторы, имеющие условную плотность вероятности p{h/u). Функцию Ли) обычно считают строго выпуклой вниз по и (что обеспечивает существование единственного минимума) и имеющей непрерывные и ограниченные вторые производные. Надо построить последовательность случайных векторов щ, ..., uh, ..., которая в некотором статистическом смысле сходится к и0 — вектору, доставляющему минимум функции Ли): J (и0) = min {M [Q (и, h)/u] \ua<U). (2.69
§ 2.6] МЕТОДЫ ПРОГРАММИРОВАНИЯ 77 Наиболее естественный и «добротный» способ нахождения вектора и0 состоит в приближенном определении методом статистических испытаний (методом Монте-Карло) величины Ли) — среднего значения случайной величины <?(и, h) для каждого фиксированного и и применении, далее, градиентного алгоритма, в котором Qu(u8) заменен на 7u(us) — вектор квазиградиента функции Ли) при и = us. Однако в этом «прямолинейном» способе очень велик объем вычислений на ЦВМ. Действительно, для осуществления одной итерации надо определить вектор 7и(ик), который, например, в соответствии с формулой т Ju (uk) = 2д- 2 W (м* + Д^) — J ("л — Д'^)] ех (2.70) k i=l требует применения метода Монте-Карло 2т раз (для определения значения Ли) и в 2т точках). Экономию объема вычислений дает метод стохастического программирования, в котором несколько сотен статистических испытаний, нужных для уверенного определения Ли) при данном векторе и, заменяются одним испытанием — вычислением одной из реализаций случайной величины (Хи, h). Ранее подчеркивалось, что в изложенном варианте метода случайного поиска применяется градиентный алгоритм (или алгоритм проектирования градиента) при замене вектора градиента вектором стохастического квазиградиента — случайным вектором, условное м. о. которого линейно зависит от вектора градиента минимизируемой функции. Та же идея используется и в методе стохастического программирования: для минимизации функции Ли), заданной (2.68), применяется тот или иной вариант градиентного алгоритма, в котором вместо квазиградиента 7и(и), определяемого в результате большого объема вычислений, используется стохастический квазиградиент функции 'Ли). Допустим вначале, что (?(и, h) — гладкая по и функция и имеет соответствующее число производных и при дифференцировании по и равенства (2.68) операции дифференцирования и осреднения перестановочны (производная по параметру интеграла, подынтегральная функция которого зависит от параметра, равна интегралу от производной этой функции по параметру). Тогда M[Qu(u,h)/u] = Ju(u), (2.71)
78 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ ГГЛ. 2 где Qu(u, h) — градиент по и функции Q(u, h) и, следовательно, Qu(u, h) — стохастический градиент функции Ли). Если вектор Qu(u, h) не может быть найден точно (функция Q(u, h) задается алгоритмически), то в градиентном алгоритме на итерации с номером s используется его приближенное выражение — квазиградиеит, например, вида (2.53) (вектор hs фиксирован): т ~ 1 "V1 Qu (и«, hs) = 2д- 2d № (Ws + As^' h$) — Q(u* — д^г, hs)] eu si=l (2.72) где hs — случайная реализация вектора fe, имеющего плотность вероятности p(h/us). Вместо одного вектора hs можно в (2.72) использовать и независимую выборку hsi, i = 1, ..., 2т. Аналогично (2.54) получим Qu (uSi hs) ~ Qu (us, hs) + As (us, hs) A* (2.73) и M [Qu (us, hs)/us] = J и (us) + ASM, (2.74) где As — вектор, компоненты которого ограничены, если допустить ограниченность третьих частных производных функции Q(u, h) по и. Аналогичные выражения для стохастического градиента получим при использовании процедуры случайного поиска в описанном выше варианте. Алгоритм метода стохастического программирования имеет вид us+i = Ku(us — \xsQu(us, hs)), (2.75) где h0, ..., fes, ...— последовательность случайных, независимых векторов с плотностями вероятностей p(h/u0), ... ..., p(h/us), ... Векторы us из алгоритма (2.75) сходятся к и0 почти наверное, если выполнены условия (2.61) с заменой последнего из них менее жестким условием (2.66) и справедливо представление (2.73), а условные дисперсии случайных величин \Qu(us, hs)\ и \A8(us, hs)\ ограничены [25]. Однако часто функция Q(u, h) недифференцируема по и и представления (2.73), (2.74) не существуют. Такая ситуация возникает, если, например, Q(u, h) — характеристическая функция некоторого множества элементарных событий (равна 0 или 1) и Ди) — вероятность
§ 2.6] МЕТОДЫ ПРОГРАММИРОВАНИЯ 79 выполнения некоторого сложного события. Поэтому обычно требуют лишь ограниченности условий дисперсии величины \Q(u, h)\. Тогда из (2.72) для условной дисперсии случайной величины \Qu(us, hs)\ следует лишь оценка M[\Qu(us,hs)\2/us]^cM\ В этом случае условия сходимости алгоритма (2.75) имеют вид [25] оо оо Щ>0, 2^ = °о, 2] 0х5Дз + |^Л72)<оо. (2.76) s=i s=l Нетрудно проверить, что (2.76) выполнится, если \is = as~a, As = 6s~p, где 3/4 < a ^ 1, 1 - a < p < a - 1/2. Отметим, что при отсутствии ограничений на векторы и алгоритм стохастического программирования имеет вид us+i = us — \xsQu(us, hs) и носит название метода стохастических аппроксимаций (метод Кифера — Волъфовица); условия сходимости этого метода обычно записываются в виде (2.76) [20]. Рекомендуется использовать о&= 1, Р = 1/4. Если функция Q(u, h) в (2.68) задана аналитически и вектор Qu(u, h) в (2.71) может быть определен для любых us, fes, то алгоритм стохастического программирования получим из (2.75) после замены Qu(us, hs) на Qu(us, hs). Условия его сходимости почти наверное состоят из первых трех условий в (2.61). Для убыстрения сходимости алгоритма (2.75) можно с методом стохастического программирования комбинировать усеченный метод Монте-Карло, осуществляемый при относительно малом числе статистических испытаний. В этом случае стохастический квазиградиент Qu(us, hs) заменяется Qu(us, hsl, ..., hsr) — его средним за г независимых статистических испытаний: г ~ 1 ^^ ~ Qu \Uss hsi, • • • » hsr) — "— ^ VU \Ц$ч hsj)- i=i При r>100 Qu(us, hsU ..., hsr) ~ Ju(us) и соответствующий г = 1 алгоритм (2.75) переходит в детерминированный алгоритм метода проектирования градиента. Выби-
fcU ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 рая г из условия 1 ^ г < 100, можно ценой не очень значительного увеличения вычислений добиться улучшения сходимости итерационного процесса. Когда следует прекращать итерационный процесс? В дальнейшем всегда вектор и имеет физический смысл вектора управления динамической системой, обычно реализуемого с точностью, не превышающей 5%. Поэтому итерационный процесс можно было бы прекратить, па- пример, после того как выполнится неравенство М [ | и, - и°.|] < ее |<|, . <%Х0,05. ****** В реальных ситуациях судить о близости us и и0 можно, сравнивая сглаженные каким-либо цифровым фильтром значения величин |ms+i — us\ и alwj. В ряде случаев наряду с определением оптимального вектора и0 необходимо найти величину г (и0) = = М [R (и0, h)/u°], где R — заданная функция соответствующих переменных. В частном случае может быть Щи, Ю = Q(u, h) и, следовательно, г(и°) = J (и0). Носяе того как и0 определен, величину г{и°) легко найти методом Монте-Карло: N гк)~4г2д(к0>^)«" где N достаточно велико. Однако можно поступить более экономно. Построим последовательность случайных чисел, сходящихся к величине г(гг°), в процессе определения алгоритмом стохастического программирования вектора и0. Именно, определим упомянутую последовательность алгоритмом rs+i = nL(rs - %s(R{us, hs) - г.)), (2.77) где 2 — отрезок, внутри которого из априорных соображений должно находиться число г(гг°). Обозначим М[Д(и,А)/и] = г(и). Тогда М [R (us ,h) — r] = r (us) — г, где г — некоторое число. Поэтому случайные величины R(usi ha) — г, s=l, 2, ..., являются стохастическими градиентами по г функций V2(r(we) — г)2, которые выпуклы вниз по г и равномерно (при ге^) по г сходятся к функции 72(г(в°) — г)2, когда иа -+• и0. Тогда из [25]
§ 2.7J ВЫЧИСЛЕНИЕ КВАЗИГРАДИЕНТОВ 81 следует, что при оо оо 2Ua=<X>, 2U2s<00 (2.76') последовательность rs, определяемая алгоритмом (2.77), почти наверное сходится в величине г(и°) — точке минимума функции (r(uu) — г)2. Поэтому одновременная реализация алгоритмов (2.75), (2.77) приведет к построению вектора и0 и величины г(и°) с помощью одной и той же последовательности случайных независимых векторов hs. § 2.7, Оптимизация с вычислением стохастических квазиградиентов 1. Описание вычислительного процесса определения оптимальных управлений проведем, разыскивая последние в классе векторов управления, которые при фиксированном векторе хк постоянны между моментами измерений: UhJ(Xh > Т) = Uh (Xk), ^< тКА+1» Далее предполагаем, что существует цифровая модель (программа ЦВМ), процессы в которой описываются уравнением (1.7). Входом модели для интервала [thJ th+l) сйужат вектор начальных условий хк<1 вектор управления и и реализация белого шума Мт), которая на этом интервале заменяется допредельной моделью белого шума /гб(т) — ступенчатой функцией времени со случайными векторными ординатами, описанной в главе 1. Эти ординаты образуют случайный вектор размерности vUfc+i — tk)b~\ обозначаемый через hb(tk, tk+i). Далее будет использоваться и h6(th, T) — случайный вектор, составленный из всех векторных ординат, образующих допредельный белый шум на отрезке [tkl T]. Численно интегрируя с шагом б уравнение (1.7) от tk да th+u с учетом требования § 1.2 получим вектор x(tk+i): x(tk+i) = xk+i(xk, щ h6(th1 tk+i)). (2.78) Как выбирать величину б? По-видимому, величина 6 может считаться приемлемой, если ее уменьшение, например, в два раза не вызовет заметного изменения первых двух моментов компонент случайных векторов #UA+i),
82 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 получаемых методом Монте-Карло при фиксированных Xk, U. Фиксируя векторы хк и и и возмущая модель динамической системы различными реализациями допредельного белого шума, будем в моменты th+i получать случайные векторы x(tk+l) с условной плотностью вероятности pk+i(x/xh, и). Далее считаем, что конкретная реализация допредельного белого шума может быть занесена в память ЦВМ и подана на вход модели динамической системы любое число раз. Этим обеспечится возможность получать векторы x{th+i) при разных векторах и, но при одной и той же реализации случайного вектора /г6(^, th+l). В существующей литературе описано много примеров применения метода стохастического программирования и его частного случая — метода стохастических аппроксимаций для решения задач управления, оценивания, распознавания [31, [52], [53J. Ниже этот метод применяется для определения векторных параметров ик, минимизирующих средний риск S путем последовательного численного решения рекуррентных уравнений (1.37) —(1.39): S% (xN) = min {М [со (хт (xN, и, Ы (tN, T)))] + + COiV (XN, И) | И €= ^iv}, (2.79) Sh{xk) = min {M [Sl+1 (хк+1(хк, и, h6(th, tk+1)))] + + <*k{xklu)\us=<Uk}, (2.80) где xk — узлы решетки, покрывающей определенные ранее области 8вк. Если не учитывать рассмотренные выше ошибки многомерной линейной интерполяции, то из (2.79), (2.80) будут найдены функции минимальных условных рисков Sk (Xk) и векторы оптимальных управлений u>h(xh). Можно наметить несколько способов численной оптимизации управления, основанных на методе стохастического программирования. 2. Способ 1. Пусть SN (xN, и) = М [со (хт (xN, и, h6 (tN, T)))] + cojv (xN, и), (2.81) итерационный процесс, сходящийся к вектору и% (х^) и
§ 2.7] ВЫЧИСЛЕНИЕ КВАЗИГРАДИЕНТОВ 83 величине S% {xn), определим алгоритмами Hs+1 = TCUn (us — \ls («и + COjv.u {XNi Ws))), Sl+i = S\ — Xs (со (xT (xN, us, hs6)) — S\), Ss+i = Ss+i + COiV (#JV? Ws+1), где m — со (агг (zjv, as — A«*i, &б))] *ь (2.84) hl = hh(tNiT). Для определения со^ — вектора стохастического квазиградиента по us функции SN(xN, us) — (un(xn, и) и вектора xt(xn, и8, йб) необходимо 2т+1 раз численно проинтегрировать от tN до Т уравнение (1.7) при фиксированном начальном векторе xN, постоянном для данной итерации случайном векторе hs и различных векторных параметрах и. Начальными условиями для рекуррентных уравнений (2.82), (2.83) надо принять вектор и% (xn) и величину S0(xti), найденные для узла решетки од, ближайшего к узлу xn' и0 = и% (xn), S0 = S% (#n). Вектор u%(zn) и величина S° (xn) заносятся в память ЦВМ, после чего аналогичный вычислительный процесс производится для остальных узлов решетки области %?N. В результате для всей области $б\ будут найдены и% (xn) и Sjv (arjy). Дальнейший вычислительный процесс проводится по аналогичной схеме. Пусть на предыдущем шаге в узлах xk+i решетки области S?h+i определены и занесены в память ЦВМ векторы Uk+i(zk+i) и величины Sk+1(Xfl+1). Для различных векторов xk — узлрв решетки области §6h необходимо найти вектор uk(xk), минимизирующий величину Sh (xk, и) = ЬЛ [Sk+i (xh+1 (xk, u, hb (tk, fe+i)))] + + со/, (xk, u), (2.85) гло осреднение проводится по случайным векторам ht(tky th+i), возмущающим динамическую систему на ин- Ь* (2.82) (2.83)
84 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 тервале [th, tk+l). Итерационный процесс, сходящийся к вектору ul (xk) и к величине Si (xh) = min {Sk (xkl и) | и е s %}, определим алгоритмом ^s+l = Пик (us — V>s (Sk+Uu + (Oft.u 0*A, We))), (2.86) S\+1 = 5j — A,s (SJ!+1 (^л+i (#*> w«> *S)) — S]), (2.87) iSs+i = Ss+1 + «л (д?л, ws+1), (2.88) где m 8 i=l — 52+i (afc+i (sft, us — Aseu кб))]ви (2.89) Ад = A-e (*a, ^+i). При определении 5л+ifU — вектора стохастического квазиградиента по и функции Sk(xk, и) — (di£xk, и), а также при определении Sjl+i (xk+i (х^ us, hi)) необходимо, как видно из правых частей (2.86), (2.87), знать значения функции £j+1 (x) в точках х, не совпадающих, вообще говоря, с узлами решетки области 8?k+i. Эти значения надо определять путем интерполяции по формуле (2.8). На каждом шаге итерационного процесса при фиксированных xk и h6(tky th+i) надо 2т +1 раз проинтегрировать от tk до tk+i уравнение (1.7) для определения векторов х,{+1 (хк% us ± Aseu hi), i = 1, ..., т, и хш (xkj u8, hi). Итерационный процесс при данном хк можно закончить, когда в процессе итераций начнет мало изменяться длина вектора, полученная в результате прохождения через цифровой фильтр случайных чисел |ив|. Начальными условиями (2.86), (2.87) принимаем uk(xk), Sk{x\), где х\— узел, ближайший к узлу хк. Вектор ик{хк)я величина Sk (Xk) заносятся в память ЦВМ. 3. Способ 2. Применяется при оптимизации управлений по терминальному критерию. Описанный выше способ 1 численного синтеза требовал на каждом шаге интегрирования (1.7) лишь на обычно малом интервале [tk, th+i), что является его достоинством. Однако в каждом узле хк решетки области $Вк надо не только провести численный синтез оптимального управления (найти
§2.7] ВЫЧИСЛЕНИЕ КВАЗИГРАДИЕНТОВ 85 Uk(xk)), но и необходимо определить минимальный условный риск Sk(xk). Опишем способ, в котором ценой интегрирования уравнений (1.7) на отрезке [А, 74 удается отказаться от определения и использования величин S$(xk). На первом шаге синтеза, используя способ 1, находим векторы un(xn) и заносим их в память ЦВМ. Пусть теперь на предыдущих шагах синтеза найдены и записаны в памяти ЦВМ векторы оптимальных управлений и%(хн), ..♦ ..., uh+i (xk+1), а в точке xk задан некоторый вектор и управления системой на интервале [th, tk+l). Так как вектор-функции и% {xn), ..., *4+i (^4-1) определены ранее, то вектор хт, получаемый численным интегрированием уравнений (1.7) на отрезке [tk, Т] при условии x(tk) = = xk, будет функцией вектора и и случайного вектора hb(tk, T) — ступенчатой случайной вектор-функции, являющейся одной из реализаций допредельной модели белого шума на отрезке [tk, T]. Поэтому хт = хт(хк, и, h6(tk, T)). (2.90') Очевидно, что справедливо соотношение S7(xk, и) = М [со (хт (**, и, fcSJ(fc, ТШ> (2-91) где Sk(xk, и) — условный средний риск, получаемый при заданных векторах хк, и и использовании найденных ранее оптимальных управлений Un(xn)> ..., 1^4-1(^+1) на отрезке [tk+u T]. Поэтому вектор оптимального управления Uk(xh) найдется из уравнения S°h (Xh) = Sh (xk, ul (xkj) = min [Sk (xk, u) | uk <=]<Uk] " (2.92) методом стохастического программирования. Алгоритм синтеза имеет вид ив+1 = nUk (u8 — |liso>u) , (2.93) где m 8 г=1 — со (xT (xk, us — &seu hi))] en h*b = h6\tk,T). (2.94)
86 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 Для определения стохастического квазиградиента Ой необходимо 2т раз на интервале [tk, T] численно проинтегрировать уравнение (1.7) при фиксированном x(tk) = = xk и постоянном для данной итерации случайном векторе h6(tkl T). Последний заносится в память ЦВМ и используется во всех 2т интегрированиях уравнения (1.7). Заметим, что получаемые при интегрировании на интервалах lth9 tk+l), ..., [tN, T) векторы «Зц-i, #*+2i ••• ..., x}f не совпадают, вообще говоря, с узлами решетки областей S&k+U $&h+2, ..., $&n и, следовательно, необходимо интерполировать занесенные в память ЦВМ вектор-функции Uk+i (Xh+l), Wft+2 (Zh+2)f ---<>Un (Xn)- § 2.8. Оптимизация терминального управления с вычислением стохастических градиентов Описанный алгоритм оптимизации управления методом стохастического программирования (способ 1) основывался на определении вектора стохастического квазиградиента S£tu разностной формулой (2.89), в которую входят интерполированные значения функции условных рисков iSfe.fi (я), найденной на предыдущем шаге в узлах xh+i решетки области J2?A+i. Теоретический анализ точности алгоритма, по-видимому, невыполним. Однако можно предположить, что с уменьшением величины As в (2.89) все более заметными станут ошибки определения стохастических квазиградиентов, вызываемые ошибками ЦВМ и ошибками интерполяции. Последние могут стать недопустимо большими, если векторы хк^г(хк1 us± ± As^i) К) в правой части (2.89) находятся внутри одного и того же элементарного w-мерного параллелепипеда решетки области Я?л+1. Аналогичную потерю точности можно ожидать в способе 2 при вычислении стохастических квазиградиентов по формуле (2.94). Если допустить гладкость функции .fix, и, fee, t) в правой части (1.7) по х и и, то в формулах алгоритма стохастического программирования стохастический квазиградиент можно заменить стохастическим градиентом, определяемым численным интегрированием некоторой системы дифференциальных уравнений. Рассмотрим вначале методику определения градиента по и функции (u(xt(xn, и, h6(tN, T))). Зафиксируем
§ 2.8] ВЫЧИСЛЕНИЕ СТОХАСТИЧЕСКИХ ГРАДИЕНТОВ 87 /г6(т) — реализацию случайной вектор-функции допредельной модели белого шума па интервале [tN, T]. Наряду * с уравнением (1.7) рассмотрим сопряженное уравнение ф = -£(*, и, АЛ,*)Ф, (2.95) где fx — матрица, у которой dfi/dXj — элемент, принадлежащий i-й строке и 7*-му столбцу. Пусть вектору и дано малое приращение Ьи. Тогда соответствующее приращение 8х удовлетворяет уравнению 8х = /*U, и, hb, t)8x + fu(x, u, fee, t)8u, (2.96) где /u — матрица с элементами dfi/ди5. Из (2.95), (2.96) получим (f4te) = fbx + yf8x = ^T/UU, и, йв, *)6и. (2.97) Интегрируя (2.97) от 0 до t, получим, считая би = const, t г|)т (t) 8x (t) - \f (9) 8х (9) - f фт/« (я?, г/, /г6, т) dx 6и. (2.98) о Положим 6#(9) = 0; if>(0 = cd*U(£)), где сох — вектор градиента функции со (ж). Тогда бсо (#(£)) = J i|)T/u(#, и, йб» t)dx8u e и, следовательно, ©u (*(*)) = J /uK и, /гб, т)г|)йт, (2.99) 0 где couUU)) — вектор градиента по и функции coUU)); вектор и на отрезке [9, t] постоянен. Положив 9 = tN, t = Т, получим следующую методику определения вектора градиента (ou(xT{xN, и, /г6)), используемого в алгоритме стохастического программирования: и*+1 = tcUn {us — \is(uu (#г (#iv, us, hi (tN, T)))). (2.100) 1. В память ЦВМ заносится некоторая реализация на отрезке [tN, T] случайной ступенчатой функции Мт); численным интегрированием уравнения (1.7) от tN до Т при фиксированных u8j x{tN) = xN, h6(i) определяются векторы я(т) и для моментов tN, tN + б, .. ., Т (б — шаг интегрирования) заносятся в память ЦВМ.
88 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 2. Уравнение (2.95) численно интегрируется от Т до tN при условии г|)(Т) = х(Т), фиксированном us и занесенных ранее в намять ЦВМ функций х(т) и /гб(т); векторы г|з(£) заносятся в память ЦВМ в моменты Г, Т — б, ..., tN. 3. Вектор градиента ©п(.г(71)) определяется путем вычисления векторного интеграла в правой части (2.99) при 0 = tN, t = Т и использования занесенных в память ЦВМ векторных функций я(т), яр(т), Мт). Вектор G>u(#r(#iv, и8, hl(tN, Г)))является стохастическим градиентом по и функции SN(xN, и) в смысле [25], так как, допустив перестановочность операций дифференцирования по и и осреднения по случайному вектору h6(tNl T), получим Snu (sjvi u) = M [<Ou(zn, и, h6 (tN, T))]. Алгоритм (2.100) обеспечит сходимость почти паверное us к вектору оптимального управления u%(xN), если коэффициенты \xs удовлетворяют условиям (2.76') и функция SN{xN, и) выпукла вниз по и. Для проведения последующих шагов численного синтеза надо в соответствии с уравнением (2.86) определять стохастические градиенты по и функций SN-x{xN-h и), ... ..., Sk(xk, .и), ..., которые являются градиентами по и соответственно функций Sn(zn(xn-u и, Аа, (*jv-ii tN))), ... ..., iSfc+i (xk+i (xkl и, he (hi ^ft+i))), . .. Векторы этих градиентов S%,u (•)» • • •» $h-i,u (• )> определяются формулой вида (2.99), в которой последовательно положено 0 = tN-{, t = tN, ..., 0 = th, t = fft+1, ..., а векторы \f(x) определяются численным интегрированием от tN до ts-й • • •» от ^л+i Д° ^, • • • сопряженного уравнения (2.95) при начальных условиях * Ы = SL (xN (•)),..•, Ф («л+0 = 5?+1|Ж (*ft+1 (•))>•••> где S%x(x), • • •» Sk+itX (я), ...— векторы градиентов по х функций S%(x), ..., 5°+1(#), . •• Возможны два способа определения векторов этих градиентов по х. Способ 1 рассмотрим вначале применительно к задаче определения вектора Snx> используя на 1-м шаге вычислений наряду с алгоритмом (2.100) алгоритм (2.87). В результате в
§ 2.8] ВЫЧИСЛЕНИЕ СТОХАСТИЧЕСКИХ ГРАДИЕНТОВ §9 узлах решетки области $&N помимо векторов и%(х^) будут найдены и занесены в память ЦВМ величины S% (xn)- Пусть на 2-м шаге вычислений (определение и%-г (#iv-i)) из уравнения (1.7) найден вектор x}j — xN (##_!, u8i hi (tN-i,tN))- Вектор градиента Snx{xn) определяется приближенно разностной формулой п S%x \Xn) ~ S%x (xN) ~ 2dlC~ №n {XN + AiJV^i) — — SN(xN — /iiNei)]eu (2.101) где xN — узел решетки области %?N, ближайший к точке xn] Aiiv и вг — числа, входящие в формулу (2.4), и орты в <?fn. Как уже отмечалось, формула вида (2.101) не дает систематических ошибок вычислений градиента, если функцию SN(x) в окрестности точки можно аппроксимировать квадратичной функцией. Заметим, что вектор Snx\Xn) можно найти более точно, если по формуле (2.101) найти градиенты SNx(x^) для всех вершин элементарного параллелепипеда, внутри которого лежит точка хп, и провести интерполяцию. По аналогичной методике определяются градиенты Sn~i,x, ..., Sk,x> • • • для последующих шагов численной оптимизации. Рассмотрим способ 2 определения векторов градиентов Sk,x, не требующий применения разностных формул. Сделаем предварительное замечание. Уравнение (2.95) будем интегрировать п раз от t до 0 при п векторах начальных условий, которые образуют 1п — единичную диагональную матрицу размерности пХп. При каждом интегрировании от t до 0 получаем векторы ifU, 0), образующие Ф$и, 0) — фундаментальную матрицу линейного уравнения (2.95). Положим в (2.96), (2.97) 8а = 0, а в (2.97) вместо ifU, 0) подставим Фф(^, 0). Тогда (Ф*(*. Q)T8x(t)Y = 0, Фф(*, e)4te(t) = const и, следовательно, 8яШ=Ф*и, 0)т6я(0), (2.102)
90 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 SNx(x, u) = M так как Ф^(9, 9) = /п. Из (2.102) следует, что Й^ = ф^,0)т, (2.103) где левая часть (2.103) означает матрицу, у которой £-й строке и /-му столбцу принадлежит элемент дх*Шдх>(й). Перейдем к определению градиента Snx- Дифференцируя SN{x, и) по х, получим, используя (2.103) при 0 = ts, t = T: [(■Й")Т(0*^)] = М[Ф^(Г, tN)<*x(xT)}. (2.104) В (2.104) хт = хт{х, и, hitx, T7)), матрица Ф^Г, tN) получена и-кратным интегрированием (2.95) при фиксированных х(х) и Мт). Образуем случайную последовательность векторов а0, ..., as алгоритмом as+1 = as - Я5(ФФ(Г, tN)s<dx(xT)s - а.), (2.105) где верхний индекс s в правой части (2.105) означает, что при интегрировании (1.7) и (2.95) положено u = us. Эта последовательность сходится почти наверное к вектору градиента S%x(xn) = SNx(xn, u%(xn))- Таким образом, на первом шаге численного синтеза наряду с определением и^ (xn) производится «заготовка» для второго шага: определяются и заносятся в память ЦВМ компоненты вектора S%x(xn)- Методика определения векторов Sk,x(Xk) аналогична. Из соотношения (2.91) следует, что Skx (х, и) = М [Ф^ (fe+i, tk) S°k+i,x (s*+i)L где xk+l = xk+l{x, и, h6(tk, tk+l)), матрица 0*(fk+i, th) получена тг-кратпым интегрированием (2.95) от tk+i до tk при фиксированных х{т) и /&6(т). Вектор Sl-\-i,x(x) был «заготовлен» на предыдущем шаге численного синтеза, если только х совпадает с одним из узлов xk+i решетки области 8?k+i. В противном случае надо провести интерполяцию или считать, что Sh+lyX(x) ~ Sk+i,x(xh+i), где xk+i — узел, ближайший к х. К вектору Skx(xk) сходятся векторы ав, определяемые алгоритмом as+1 = as — Ks (Фф (tk+1, th)sSl+ltX (xk+1)s — as).
§ 2.9] МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 91 Итак, особенность изложенного способа 2 определения векторов градиентов состоит в том, что на Ы — Ю-м шаге численного синтеза наряду с определением щ{хь,) производится «заготовка» для следующего шага: определяются и заносятся в память ЦВМ градиенты Six (#&)• § 2.9. Постановка задачи оптимизации методами нелинейного программирования Описанные выше способы вычислений оптимальных управлений требуют в каждой точке th, хк фазового пространства реализации итерационного процесса стохастического программирования, который, вообще говоря, сходится достаточно •медленно. Поэтому целесообразно рассмотреть методику оптимизации управления, основанную па вычислении величины тг-мерного интеграла в правой части уравнения (2.2) при фиксированных векторах х, и (или вычислении величины градиента по и этого интеграла) и последующем применении алгоритмов нелинейного программирования. При этом следует ожидать увеличения скорости сходимости, если величина шага в направлении аптиградиента зависит от величины модуля градиента. Для использования методов нелинейного программирования необходимо: а) найти условную плотность вероятности pk+i(u/x, и) в функции v при фиксированных векторах х, щ б) найти упомянутый выше интеграл (или его градиент по и), если на предыдущем шаге оптимизации в узлах решетки области <2?A+i найдены величины Sk+iiXk+i) (или компоненты вектора градиента Sk+i,x(xk+i))- Далее рассматривается частая в задачах практики ситуация, в которой модель объекта управления может быть представлена уравнением х = /U, щ t) + g(x, щ t)h6(t), (2.106) где fug — соответственно вектор и матрица размерностей п X 1 и п X v. Показывается, что в нормальном приближении и при малой величине б характеристики функции pk+i(v/x, и) определяются расчетом на ЦВМ по рекуррентным формулам, аналогичным формулам численного интегрирования дифференциальных уравнений. Иногда эти характеристики могут быть найдены анали-
92 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 тически, если допустить, что x{t) — диффузионный случайный процесс и модель объекта управления имеет вид х = /U, и, t) + gU, щ t)h(t), (2.107) где h{t) — вектор размерности v X1 независимых, нормально распределенных белых шумов с равными 1 спектральными плотностями. Как видно из (2.107), дисперсии некоторых компонент вектора х бесконечно велики. При б ->- 0 вектор x(t) из (2.107) является предельным для вектора x(t) из (2.106) в смысле, определяемом теорией стохастических дифференциальных уравнений, которая для уравнений, записанных в виде (2.107), основывается на понятии «симметризованного стохастического интеграла», введенного Р. Л. Стратоновичем [46]. Следует подчеркнуть, что статистическая природа вектора x{t) из (2.106) при конкретной (хоть и малой) величине б не требует какого-либо особого обоснования при заданном методе численного интегрирования на ЦВМ внутри интервалов времени длиной б, на которых постоянны случайные компоненты ступенчатой векторной функции h6{t). . § 2.10. Многомерное нормальное распределение Напомним свойства многомерного нормального распределения, используемые далее. 1. Распределение случайного вектора х называют нормальным, если его характеристическая функция (х. ф.) Ф (X) = М [ехр{атл:}] (2.108) имеет вид ф (%) = exp li)Jx-1 %тсА (2.109) где х — вектор математического ожидания (вектор м. о.), С — корреляционная матрица (к. м.) вектора х: я = М [х], С = М [(х — я) (х — я)т]. Матрица С симметрична и неотрицательно определена {С > 0, так как М [(ат(х - х))2] = М [ат (х —%){х — х)та] = атСа > 0, где а — произвольный вектор). Вектор м. о. и к. м. называются параметрами нормального распределения.
§ 2.11] ХАРАКТЕРИСТИКИ В НОРМАЛЬНОМ ПРИБЛИЖЕНИИ 93 2. Если к. м. О 0 (существует С"1), то вектор х размера п X 1 имеет плотность вероятности р (х) = ап ехр \— 1 (х - xfC-1 (x - 3)1 (2.110) где ап = (2пяп|С|)"1/2; \С\ —определитель к. м. С. В этом случае распределение называется неособенным и отлична от нуля вероятность попадания точки х в шар произвольно малого радиуса, окружающего любую точку <$п. 3. Если к. м. С —особенная (|С| =0), то упомянутая выше вероятность отлична от пуля лишь для точек х, принадлежащих некоторой гиперцлоскости, размерность которой равна КО — рангу к. м. С. Тогда говорят, что «распределение вектора х локализуется в этой гиперплоскости». § 2.11. Уравнения эволюции статистических характеристик в нормальном приближении 1. Найдем рекуррентные уравнения, которым удовлетворяют x(t) и C(t) — вектор м. о. и к. м. случайного вектора x(t), считая, что и в уравнении (2.106) — некоторый постоянный вектор. Сделаем предварительное замечание. Пусть х = ф(#, t). Тогда б x(t + 8) = x(t) + J<p(a?(*+e), t+Q)dQ (2.110') о и при малой величине б, 0 ^ в ^ б, и соответствующей гладкости функции <р(х, t) на интервале времени длиной б справедливо приближенное соотношение фЫ* + 9), £ + 9) ~ф(а?Ш, t) + + 9*UW, t)x(t)Q + (pt(x(t), г)9 = фЫ*), t) + + [q>,(*(*), t)q>(*(*), t) + q>,U(t), №, (2.111) где фя — пХ^гматрица частных производных компонент вектора ф(я, t) по компонентам вектора х\ ф* — вектор частных производных компонент вектора ф(я, t) no t. Подставляя (2.111) в (2.110'), найдем *(t + 8)~x(t) + <p(x(t), t)8 + ±[cpm(x(t), t)cp(x(t), t) + + <Pt(*(t)tt)]V. (2.112)
94 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 На интервале [t, t + б] функция h6(t) постоянна и равна некоторому случайному вектору h&; кроме того, положим / = /UU), и, t), g = g(x(t), и, t), (ghd)x — матрица частных производных компонент вектора gh6 по компонентам вектора х, fx = fx(x, и, t), ft=ft(x, и, t), gt=gt(x, щ t). Подставим в правую часть (2.112) вместо ф(я, i) правую часть уравнения (2.106). Тогда получим х (t + 6) ~ х (t) + (/ + gh6) б +. i (gh6)xghb • б2 + + 4 R (x,h6) б2, (2.113) где ДU, W = /,(/ + gh6) + (gh6)xf +ft + gihb. Осредним обе части (2.113) no h6 и x{t), учитывая, что по определению М[Ал] = 0, M [h6hl] = 8~% (7V — единичная матрица размерности vXv) и случайный вектор x(t), зависящий от случайных векторов hbit—8), h6(t — 2&), ..., не зависит от случайного вектора h6, который возмущает объект управления на интервале it, £ + 6J. Кроме того, после осреднения отбросим слагаемые, пропорциональные б2. В результате найдем приближенное рекуррентное уравнение для векторов x{t): x(t + &)=ztt)+F(u, *)6, (2.114) где F(u,t) = M[F(x(t), u,t)], (2.115) F (x, M) = / (z, M) + 4" * (*» u> ')■ (2-116) g — вектор размерности wXl, у которого ^ — компонента с номером к (к = 1, ..., п), определяется равенством n v ft = 2 2 gkUgju (2.117) где gji — элемент матрицы g\ ghij — частная производная элемента gki no х>.
§ 2.11J ХАРАКТЕРИСТИКИ В НОРМАЛЬНОМ ПРИБЛИЖЕНИИ 95 Вычтем из (2.113) равенство (2.114); полученное приближенное выражение для x(t + б) — х(1 + б) умножим справа на (x{t + б) — x(t + б))т и осредним по h6 п x(t), учитывая, что М[А?] = 0, М [ftf] = Зб~2, где hi — i-я компонента вектора hb. Отбрасывая слагаемые, пропорциональные величине б в степени выше первой, найдем приближенное рекуррентное уравнение для к. м. C(t): где C(t + б) = СИ) + [Р(щ t) + РЫ, t)T + G(u, *)]6, (2.118) Р(и, t) = М [F(x(*), и, t) (x(t) - х(и, t)f], (2.119) G{и, t) = M[g(x(*), и, t)g(x(t), и, t)T]. (2.120) Уравнения (2.114) и (2.118) дают алгоритм последовательного вычисления x(t) и C(t), если известен способ вычисления функций F, Р, G и в некоторый начальный момент т заданы х(г) и С(т). Однако для сокращения времени расчетов на ЦВМ целесообразно в (2.114) и (2.118) после деления на б перейти к пределу при б -+■ 0 и определять x(t) и C(t), численно интегрируя от т до t уравнения x = F, C = P + P* + G, (2.121) например, методом Рунге — Кутта с автоматическим выбором шага. 2. Если в (2.106) вектор fix, и, t) и g{j — элементы матрицы g(x, и, t) — линейные функции вектора х, то уравнения (2.121) записываются в замкнутом виде без каких-либо предположений о законе распределения вектора x(t). Так, пусть / = Ах, gij (х) = сих = S <*фхг, (2.121') где матрица А и вектор-строка Сц могут зависеть от и, t. После простых выкладок, используя выражения для
96 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 g, Р, G, получим, что х и С удовлетворяют уравнениям х = (А + Ч2а)х, (2.122) С = (А + V2a) С + С (А + V2a)T + + g & и, 0 йг & М)т + С (С), (2.123) где atJ и Gtj — элементы матриц а и G(C) определяются формулами я v п r=i ft=i ft=l Так как матрица А может быть устойчивой, а матрица А + 72# — неустойчивой, то «шумящие» пропорционально х коэффициенты линейного объекта управления, устойчивого при отсутствии шумов, могут сделать его неустойчивым. 3. Пусть теперь / и g в (2.106) — нелинейные функции х. Уравнения (2.121) будут замкнутыми (их правые части будут зависеть лишь от х, С, и, £), если считать нормальным с параметрами х и С закон распределения вектора х, используемый при вычислении /, Р, G. Если компоненты вектора fix, и, t) и элементы матрицы g(x, и, t) — полиномы относительно компонент вектора х, то явные зависимости F и Р, G от компонент вектора х и элементов матрицы С найдем, используя известные выражения моментов высших порядков нормального распределения через компоненты вектора м. о. х и элементы к. м. С. Так, если в компоненты вектора / входят степенные слагаемые вида (#г) * X ... X (#п) п, то их м. о. можно найти из формулы М [(x^fi X ... X (*П)Ч = (- ф+-+*п х Х-Т — expUvk-4-^cx I , (2.123х) которая следует из формул (2.108), (2.109). Искомое м. о. будет некоторым полиномом от компонент х и элементов С. К этому же случаю придем, если допустить, что fix, и, t) можно разложить в ряд Тейлора по степе-
§ 2.11] ХАРАКТЕРИСТИКИ В НОРМАЛЬНОМ ПРИБЛИЖЕНИИ 97 ням компонент вектора х — х и ограничиться конечным числом членов. В общем случае для определения F и Р используем выражение (2.110), считая, что к. м. С — неособенная: F = F(x, С, u,t) = an$F(x, и, t) X X ехр [— -у- (х — я) С~х (х — хЦ dx. (2.124) Продифференцируем правую часть (2.124) по компонентам вектора х и учтем, что = С-1 (х — х) ехр [— \ (х — ху С'1 (х — Щ. Тогда получим следующее выражение для матрицы Р: Р = Р{х, С, u,t) = an§F (х, и, t) (х — ху X X ехр [— ~y (х — ху С'1 (х — Щ dx = Fx (х, С, и, t) С, (2.125) где Fx(x,C,u,t)=<?^C>u't) _1в?*^-«)[ дх I дхх Уравнения (2.121) примут следующий замкнутый вид: я = £и, С, щ *), (2.126) C = CFx(x, С, щ tr + Fx(x, С, и, t)C + G(x, С, и, t). (2.127) Эти уравнения надо численно интегрировать от т до t при начальных условиях я(т), С(т). Выражения величин F, Fx и G через экспоненциальную функцию и функцию интеграла вероятностей Ф (и) = -тр erf (и/ "j/^2) приведены в [26] для большого числа нелинейных функций fix) одной переменной и некоторых функций двух переменных. Обычно размерность вектора h существенно меньше размерности вектера х (на многомерную динамическую систему случайные воздействия часто действуют в одной-двух точках) и матрица G в (2.121) — осо- 7 И* А. Богуславский
98 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 бенная. Поэтому при начальном условии С(т)=Оип*) следует ожидать, что особенной будет и матрица С, удовлетворяющая (2.121). В этом случае плотность вероятности р(х) в виде (2.110) не существует и незаконно представление вектора F и матрицы Р несобственными интегралами в правых частях формул (2.124) и (2.125). Однако уравнение (2.127) остается справедливым. В этом можно убедиться предельным переходом, устремляя к нулю добавляемые к элементам к. м. С слагаемые, которые делают ее неособенной. § 2.12. Общий численный метод определения статистических характеристик При определении статистических характеристик сложных нелинейных динамических систем аналитические формулы через затабулироваиные функции для вектора F и матрицы Р (или матрицы Fx), входящие в правые части уравнений (2.121) или (2.126), (2.127), иногда получить не удается; осложнения в вычислениях возникают, если к. м. С — особенная (или плохо обусловлена); в ряде случаев аналитические формулы очень сложны и непригодны для конкретных вычислений. Так, например, если хх = х2 и fix) = fixu x2) — характеристика нелинейного элемента типа «люфт» или «люфт с насыщением» (нелинейности № 19 и № 17 в [26]), то формула для величины F = М [f (х19 х2)] занимает в [26] более страницы, а формулы для FXl и Рх вообще не приведены из-за их громоздкости. Величины F, FXin Fx обозначены в [26] соответственно ф0,К±\К{р и названы «коэффициентами статистической линеаризации». Заметим, что если вектор-функция fix, и, t) задается не аналитически, а алгоритмически, то аналитические выражения для вектора F и матрицы Р в принципе получены быть не могут. Изложим способ вычислений F и Р на ЦВМ, основанный на определении многомерных интегралов в правых частях (2.124), (2.125) с помощью приближенных *) Далее, матрицы размерности пХщ все элементы которых равны нулю, обозначаются через 0Пт.
§ 2.121 ОБЩИЙ ЧИСЛЕННЫЙ МЕТОД 90 квадратурных формул. Пусть к. м. С записана в виде С = ТТ\ (2.128) где Г —матрица размерности пХКС), условно называемая «корнем квадратным из С». Это название естественно, так как С можно представить в виде (2.128) тогда и только тогда, когда С > 0. Способ построения матрицы Г = С1/2 будет изложен ниже. Представим случайный вектор х в виде * = £+У2Г!\ (2.129) где v — случайный вектор, составленный из г(С) независимых, центрированных нормально распределенных случайных величин с дисперсиями, равными 1/2. Тогда вектор F и матрицу Р из (2.124) и (2.125) можно записать в форме F (я, С, и, t) = (я)"г(С)/2 j / (х + /2IV, иу t) exp (- v^v) dv, (2.130) Р (х, С, и, t) = У2 (я)"г(С)/2 j / (х + VlYv, щ t) утГт X Хехр(— iFv)dv. (2.131) Подчеркнем, что преобразование (2.129) уменьшило с п до. г(С) размерность подлежащих вычислению интегралов. Интегралы в правых частях (2.130), (2.131) будем вычислять, проводя простое обобщение на многомерный случай квадратурных формул наивысшей алгебраической точности. Напомним методику -получения этих формул для вычисления однократного интеграла J = j ф {х) ехр[(— x2)dxf где ф(я) — заданная функция. При приближенном вычислении / заменим ф(я) полиномом L{x), принимающим значения ф(#,-) в заданных точках х{ U" = l, ..., Z). Тогда i L(x)= Sj<P(*i)M*). г=1 где 1{{х) — интерполяционный полином: h(x) (х - хг) ... (х - х^г) (х - gi+1) ... (х - хг) (хг -xi)-- {xi - *i-i) (*i - *i+1) • • • {xi - xl)
100 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 Тогда / (приближенное значение Л имеет вид J = S ^гфг 0*4), г=1 (2.132) где Ai= j Zi(#)exp(— x*)dx. (2.133) — 00 Ошибку вычисления интеграла / найдем из формулы оо ДУ = /-/= j R (х) ехр (- ж2) Лг, (2.134) — ОО где Д(ж) = фЫ — Ых), причем R(xt) = 0. Пусть хи ..., д?| — вещественные нули полинома Эр- мита Hi(x), определяемого формулой Нг (х) = (- 1)' ехр (я2) -^- ехр (- л:2). (2.135) dx Из (2.135) видно, что Ht{x) — полином степени Z; легко доказать, что все нули Ht(x) — вещественные. Пусть cpU) — полином некоторой степени. Тогда R{x) — полином, нули которого равны хи ..., xh и он делится на Ht{x): R{x) = gU)#,U), где q(x) — некоторый полином. Но из (2.135) интегрированием по частям легко убедиться, что оо j xhHt (х) ехр (х2) dx = О, — оо если к<1. Поэтому правая часть (2.134) равна нулю, если q(x) — полином степени, меньшей Z, и, следовательно, R{x) — полином степени, не большей 21 — 1. Так как L(x) — полиномы степени 1—1 {1—1 — степень полиномов Uix)), то степень R(x) не больше 21— 1, когда не больше 21 — 1 степень полинома ф(#). Итак, квадратурная формула (2.132) дает точное значение интеграла /, если хи ..., xi — нули Ht{x)y а степень полинома ср(х) не более 21—1. Величина хч ..., xt и определяемые (2.133) величины Аи ..., Ах для разных значений I приведены в [30]. Пусть теперь / — многомерный интеграл: / = j ф (vv ..., vr) ехр (— v\ — ... — vl) du± ... dur,
§ 2.12] ОБЩИЙ ЧИСЛЕННЫЙ МЕТОД 101 где Ф(^1, ..., иг) — функция г переменных, являющаяся по каждой переменной (при зафиксированных остальных переменных) полиномом степени, не большей 21 — 1. Но, применяя квадратурную формулу наивысшей алгебраической точности (2.132), получим, что r-мерный интеграл / может быть представлен линейной комбинацией интегралов размерности г— 1: J = J J Ф (иь •' *» Vr-^ Vr) exp ("" $ dVr X X exp (— v\ — ... — vf-г) dvx ... dvr^ = = J I 2^гФ(^1, --м^г-1, Xi)exv(—vl— ... — Vr-г) X X^i'... dvr-!, где хи ..., Xi — нули полинома Ht(x). Применяя далее аналогичную процедуру понижения размерности интеграла, получим / = 2 Ai± ... АХФ {xiv ..., xir), (2.136) где iu i2.. in — всевозможные «слова» из «букв» 1, 2, ... ...» Z» по г «букв» в каждом слове. В (2.136) число слагаемых равно г*. При заданной величине I квадратурная формула вида (2.136) используется при замене функции Ф(у4, ..., vr) на компоненты вектор-функции fix + У2Г*;, и, t) и элементы матричной функции f(x + l2Tv, и, t)uT. Вектор / и матрица Р при данных я и Г будут найдены тем точнее, чем точнее полиномами от г переменных уь ..., иг степени по каждой переменной, не большей 2Z — 1, можно аппроксимировать функции-компоненты вектора /U+V2]>, щ t) и элементы матрицы /(я + У2Гр, и, t)uT. Так как при фиксированном векторе и вектор м. о. х и к. м. С — плавные функции времени, то численное интегрирование уравнений (2.126), (2.127) целесообразно производить методом Рунге —- Кутта с автоматическим выбором шага по критерию точности; в этом случае автоматически будут назначаться моменты времени, в которые с помощью квадратурной формулы вида (2.136) надо определять правые части этих уравнений.
102 ЧИСЛЕННЫЙ МЕТОДЫ ОПТИМИЗАЦИИ {ГЛ. 2 Часто в практических задачах вектор / в уравнении (2.106) является суммой вектора, нелинейно зависящего от некоторых (обычно далеко не всех!) компонент вектора х, и вектора, линейно зависящего от х: i = /iUi, и, t)+A(u, t)x + g{u,.t)h, (2.137) где Xi — вектор, составленный из некоторых компонент х; fi(%i, и, t) — нелинейная вектор-функция от х{\ А{и, t) — некоторая матрица размерности пХп. Обычно значительная часть компонент вектора /iUi, и, t) равна 0. Уравнения (2.126), (2.127) примут вид z=?iU, С, и, t)±A{u, tfx, . (2.138) Xi) C/9 llj tY + АЫ, t)C + + CA(u, tr + G(u, t), (2.139) где /i &, Cr u, t) = (n)-rm/2 J fx (x, + /2I>, щ t) X Xexp(— v*v)dv, (2.140) Px{xu C, u, t) = /2 (я)"г(С)/2 J Д (хг + /2I>, u, t) ^ X X exp (— v^v) dv, (2.141) Xi и I\ — соответственно вектор, составленный из некоторых компонент вектора х, и матрица, составленная из некоторых строк матрицы Г, удовлетворяющие записи x^Xi + l/YTiV. Обычно значительная часть компонент вектора /4 и матрицы Pi равны нулю. В этом случае квадратурные формулы вида (2.136) используются лишь при вычислении небольшого числа компонент вектора / i и элементов матрицы Р^ Кроме того, нетрудно проверить, что размерность интегралов в правых частях (2.140), (2.141) уменьшается на число столбцов матрицы 1\, составленных из элементов, равных; нулю. Как известно [30], квадратурные формулы наивысшей алгебраической точности дают хорошие результаты, когда подынтегральная функция — достаточно гладкая. Поэтому, если нелинейная функция в (2.137) — разрывная по некоторой переменной, то подынтегральные функции • в (2.140), (2.141) целесообразно «сгладить» интегрированием по частям, проводя интегрирование функции
§ 2.12] ОБЩИЙ ЧИСЛЕННЫЙ МЕТОД 103 fi{xi + y2rivJ и, t) по этой переменной и дифференцирование по той же переменной функции ехр i—vTv) в (2.140) и г;Ттехр (—vTv) в (2.141). Это интегрирование выполняется особенно просто в важном для целей практики случае, когда /Дя, и, t) — кусочно-линейная функция, разрывная в некоторых точках. Рассмотрим следующий поучительный пример. Пусть fiixi) описывает релейный с зоной нечувствительности нелинейный элемент: fiixi)*=0, если \xi\<d\ fiixj = = sign#i, если \xt\ > d. Обозначим oo /„ = 4=- j U (x + V2av) exp (- i*) do. (2.142) * —OO Проводя интегрирование по частям один раз и два раза, можно величину J0 записать соответственно в виде формул оо /2 = l/ i—L \ F, (х + V"2ov) v ехр (- у2) do, (2.143) оо J [F%@+V2m)-F(x)]x X {2v* - 1) ехр (- г;2) dv, (2.144) где при \v\<d Fiiv) = F2iv) = 0; при v > d Ftiv) = v — d, F2iv) = l/2iv-d)2; при v<-d FW^-v-d, F2iv) = = —i/2(v + d)2. Функции Fiiv) и F2iv), в отличие от функции /i(y), не имеют разрывов, однако F2iv) — более гладкая функция, чем Рг (у): Fxiv) имеет разрывы при v = ± d, a F2 iv) разрывов не имеет. Дальнейшими интегрированиями по частям можно сколь угодно сильно «повысить гладкость» подынтегральной функции. Точное выражение для величины / имеет вид X erf ix) = —^г- \ ехр (-— и2) du. v о Для приближенного вычисления / используем квадратурные формулы вида (2.132), где xt — пули полипома
104 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 Эрмита при I = 9, и обозначим через /0, /1? /2 результаты вычислений, если величину / определять соответственно формулами (2.142), (2.143), (2.144). В таблице 2.1 приведены величины /, /0, /4, /2, найденные для разных величин o/d и x/d. Из таблицы 2.1 видно, что Таблица 2.1 o/d 1 10 0,1 х /d 0,10 0,25 0,50 1,00 2,00 3,00 0,10 0,25 0,50 1,00 2,00 3,00 0,10 0,25 0,50 1,00 2,00 3,00 J 0,0483 0,1209 0,2417 0,4772 0,8399 0,9772 0,0079 0,0198 0,0396 0,0792 0,1577 0,2346 0,0000 0,0000 0,0000 0,5000 1,0000 1,0000 Jo 0,2441 0,2441 0,2441 0,6504 0,7003 0,9472 0,0000 0,0000 0,0000 0,4063 0,4063 0,4063 0,0000 0,0000 0,0000 0,7031 1,0000 1,0000 Jl 0,0533 0,1246 0,2434 0,4810 0,8605 0,9800 0,0072 0,0181 0,0362 0,0724 0,1446 0,2174 0,0000 0,0000 0,0000 0,5000 1,0000 1,0000 J* 0,0474 0,1187 0,2382 0,4793 0,8374 0,9792 0,0084 0,0209 0,0419 0,0839 0,1658 0,2437 0,0000 0,0000 0,0000 0,5000 1,0000 1,0000 1 в ряде случаев величина /0 довольно значительно отличается от /; величина Див особенности величина /2 совпадают с /с приемлемой для практики точностью. На примере нелинейного элемента типа «люфт» проиллюстрируем сглаживание подынтегральной функции двух переменных, разрывной по одной из них. В случае «люфта» обычно принимают fix, х) = х — d, если х>0, и fix, x)=x + d, если i<0; функция fiwu w2) разрывна no w2, и надо, используя квадратурную формулу вида (2.136), вычислить величину /: оо J = J J / & + aHVl + ^12^2, *2 + Я21У1 + а22^2) X —оо X ехр (— v* — vi) dvxdv2. (2.145)
§ 2ДЗ] АЛГОРИТМ ИЗВЛЕЧЕНИЯ КВАДРАТНОГО КОРНЯ Ю5 Переходя к промежуточным переменным wy = a^Vi + + а^г, w2 = a2iWi + «22^2 интегрируя по частям по и\ и переходя обратно к переменным ии и2, представим J в виде оо / = 2 J J [F (xn + апих + al2v2, х2 + а21и± + a22v2) — — оо — Р(хг + апих + a12v2l х2)] {c12v1 + c22v2) X X exp (— v\ — vl) dvxdv2, (2.146) где F{wu w2) = (Wi — d)w2, если w2 > 0; F(w{, w2) = = (Wi + d)w2, если w2<0, с12 = —а12а"\ с22 = аца~\ a = ayia22 — ai2a2l. В (2.146) не имеет разрывов подынтегральная функция, являющаяся множителем перед функцией exp (— v\— v\). Поэтому запись величины / в виде (2.146) следует использовать в квадратурных формулах наивысшей алгебраической точности. § 2.13. Алгоритм извлечения квадратного корня и исправление к. м. 1. Алгоритм определения матрицы Г = С1/2 будем основывать на обобщении на случай ОО известной процедуры представления случайного вектора с заданной к. м. С > 0 линейным преобразованием случайного вектора с некоррелированными компонентами, описанной, например, в [43] и аналогичной процессу ортогонализа- ции заданного базиса. В этом параграфе обозначим х центрированный случайный вектор размерности п X1, имеющий к. м. С и компоненты хи ;.., хп, а ТУ —некоторое вспомогательное случайное число, которое последовательно принимается равным или 0, или определяемым ниже случайным независимым величинам 72, ..., Vr (г = г(С)). Допустим, что Си Ф 0, положим хх = Vt (М [V\] = сп), х2 = £21^1 + W, определим g2l из условия М [VtW] = 0: ci2 = fti^n- Пусть М [W2] = с22 — glxcn = 0 и, следовательно, W = 0. Положим х3 = g3\У{ + W, определим g3l из условия М [VyW] =0: с13 = g31cn. Пусть М [W2] = с33 —. ~ #31^11 ^ ^ и» следовательно, W = 0.
Юб ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ (ГЛ. 2 Продолжая этот процесс далее, получим, что найдется ЧИСЛО Vil Xi = gnVi ii = 1, ..., vt), cH = gi{ciU но a?v1+i = ft^+iVi + ТУ, ^,v1+i = «rvj+i.i^n и ТУ =^ 0, так как M [ТУ2] = cVi+1>vi+1 - gl1+ltlcn ф 0. Положим W =V2 и, следовательно, #vx+i = ^+1^1+ У 2- По построению M [У1У2] = 0 и M [Vl] = М [ТУ2], М [XjV2] = ^>v.+1 — gVl+i.i*ii (/ = vx + 2, ..., тг). Положим arVl+2 = ^+2,1^1 + ^+2,2^2 + W и определим «rv1+2,i и gVl+2,2 из условий М [УхТУ] = М [У2ТУ] = 0: М К+2^] = ^1+2ДМ [У2Х], M [*v1+2F2] = ?v1+2,2M [У?]. Пусть М [ТУ*] = cv1+..v1+i - sVi+MM [У?] - gv1+2,2M [У5] = 0 и, следовательно, W = 0. Продолжая процесс далее, получим, что найдется число v2* *i = gtiVi + g&V2 (i = vx -f 1, ..., vx + vj), M lar^J = *йМ [Vl], M [a^J = giiM [V\], HO M [W2] = CVi+v2+1,v1+va+l — gVj+v.+LlM [F2i] — -g2vl+Vi+1>2M[yn^o. Положим ТУ = У3 и, следовательно, По построению М [УхУз] = М [V2V3] = 0 и М [У^]= М [ТУЧ, * М [^У3] = cj|Vl+v2+i— gVl+v2+i,iM ИУх]—gvi+vj+i^Mlarjyj. В результате получим разбиение компонент вектора х на г(С) групп. Группа с номером к (к = 1, ..., КО) состоит из vA последовательных компонент вектора х,
§ 2.13] АЛГОГИТМ ИЗВЛЕЧЕНИЯ КВАДРАТНОГО КОРНЯ 107 представляемых линейными комбинациями некоррелированных случайных чисел Vu V2, ..., Ffe с не равными нулю дисперсиями. Коэффициенты этих линейных комбинаций gn и дисперсий М [Vi\ выражены через элементы к. м. С. Можно записать x = gV, (2.147) где g — матрица размерности пХг(С), составленная из элементов gtj и нулей; V — вектор, составленный из компонент Vu ..., Vr. Из (2.147) следует, что C = gDgr, где D = М [VV\ — диагональная к. м., элементы которой равны M[F?], i = l, ...,r(C). Отсюда получаем, что матрица Г в (2.128) определяется формулой T = gZ)1/2, (2.148) где Di/2 — диагональная матрица, элементы которой равны (М [F?])1/2, i = 1, ..., г{С). Если к. м. С — неособенная (г(С) = w), то Vi =v2=.. .= vn = 1 и матрица g, а значит, и матрица Г становятся трехугольными матрицами — матрицами, у которых равны нулю все элементы, лежащие над или под главной диагональю. 2. Матрица СШ, получаемая в результате численного интегрирования уравнений (2.126), (2.127), должна обладать свойством корреляционной матрицы — быть неотрицательно определенной. Однако опыт расчетов показывает, что иногда нормальное приближение, использованное при вычислении матриц Р в (2.121), (2.125), а также накопление ошибок интегрирования довольно быстро приводят к потере свойства неотрицательной определенности. Особенно заметно это явление при использовании для расчетов БЦВМ с уменьшенной длиной разрядной сетки. Потеря матрицей С свойства С ^ 0 приводит к тому, что при определении элементов gi} описанным выше алгоритмом будут возникать Ситуации, в которых М [W2] = е < 0. В этом случае можно положить М [И^2] = = | е | или М [W2] = 0 и продолжать процесс. Найденная матрица Г позволит построить по формуле С = ГТТ «исправленную» матрицу С, для которой всегда выполнится условие С>0. Такое «исправление» надо проводить периодически в процессе численного интегрирования уравнений (2.126), (2.127), принимая «исправленную» матрицу начальным условием длд последующего интегрирования,
108 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ [ГЛ. 2 3. Так как правые части уравнений (2.126), (2.127) выражаются через матрицу Г = С1/2, то в принципе можно вообще отказаться от интегрирования матричного уравнения (2.127), заменив его системой дифференциальных уравнений, которым удовлетворяют rtJ — элементы матрицы Г. Опишем методику последовательного получения этих дифференциальных уравнений, считая для упрощения, что C{t) > 0 при То ^ t ^ т. В этом случае матрица Г — трехугольная, все диагональные элементы ее положительны и Tij = 0 при i < /. Из равенства ГГТ = С получим, что элементы матрицы Г удовлетворяют рекуррентным уравнениям S TkjTv = chU i = К •. •> Щ к = 1, ..., п. (2.149 ) Например, ft == *» •*■ и = cw> * ц12i = ^12? А ц131 = ^13, ...; К = Z, ^ 21 ~Г -*- 22 = ^22> 1 21^ 31 ~Г А 22* 32 ~ ^23? • • • » & = 3, Г31 + Г32 + Г33 = е3з> Г31Г41 + Г32Г42 + Г 1^33^43 == С43» • • • Дифференцируя последовательно (2.149) при /с=1, 1=1, ..., п, при к = 2, 1 = 2, ..., гс, при /с = 3, i=3, ... ..., п и т. д., получим дифференциальные уравнения для элементов матрицы Г: I . 1 * 1 11 = -рр £ц, 1 21 ~ "of ( С12 ^ 11^ 2l)» • • • Z111 Z1ll • • • » 1 22 == "of (C22 ^1 21 ^ 2l)? Z122 j ^ 32 = f~~ (^23 — Г21Г31 — Г21 F3i), ... и т. Д. x22 Правые части дифференциальных уравнений определяются последовательно. Если левая часть уравнения равна Thj (/<&), то в правую часть входит ckj — элемент, принадлежащий к-й строке и левому столбцу матрицы — правой части уравнения (2.127) (конечно, после замены С на ГГТ), и Tir при i < к — правые части дифференциальных уравнений, найденных на предшествующих шагах.
§2.14] АЛГОРИТМ ОПТИМИЗАЦИИ УПРАВЛЕНИЯ Ю9 § 2.14. Алгоритм оптимизации управления Рассмотрим алгоритм оптимизации терминального управления, основанный на многомерных квадратурных формулах и аппроксимации условного распределения с плотностью вероятности pk+i(x/xkJ и) нормальным распределением. Пусть на предшествующих шагах оптимизации в узлах xk+i решетки области S?k+i найдена функция Sl+i(xh+i). Вектор оптимального управления иЦх) в узлах xk решетки области 8?к определится при решении уравнения (2.2). Если для интервала [4» 4+i) назначен вектор управления и, то, интегрируя (2.126), (2.127) от 4 до 4+i при начальных условиях x{tk) = xk, C(4) = 0nn, получим #(4+i) = #m-i и C(4+i) = Cft+i— параметры условной плотности Pk+i(x/xk, и) в нормальном приближении. Используя алгоритм извлечения квадратного корня, получим представление Ck+i в виде Cfe+i = I\+iI\+i> где rft+i —матрица размерности nXrk+i (rk+i = r(Cfe+1)). Величину Sk(x, и) найдем, воспользовавшись квадратурными формулами наивысшей алгебраической точности Sk (xk, и) = pft+1 J Sk+1 (xk+i + /2 Tk+1u) exp (— vTu)du + + G)ft (xk9 u) ~ % 2 A\x ... A^ Sl+г (xk+i + + /2 Tft+i^ (iL, ..., hk+1)) + ®k (Xk> u), (2.150) где rfe+i Ра+1 = (я) 2 , и(н,...,1гшУ =Pi»--'i;?fclf11I- Величины Sk+r (xk+1+ У 2 Tk+1v (...)), входящие в (2.150), получим, выразив их с помощью интерполяционной формулы через величины Sk+i(xh+1), найденные на предшествующем шаге оптимизации. Так как Sk(xh, и) может быть вычислена для любого вектора и, то вектор оптимизации управления ul(xk), минимизирующий функцию Sh(xk, и), определяется применением одного из алгоритмов нелинейного программирования — например, метода проекции градиента: Us±i = Пи& (uS ~ \ls (Sbu (Xkr Щ) ■+ ©ftu (Xkr u$)))r
НО ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ 1ГЛ. Я TReSku(xk,u) —-вектор квазиградиента функции Sh(xk,u)~ — a)h(xh, и), получаемый применением разностной формулы вида (2.52) или (2.53). Иной способ определения вектора градиента Ь^кх^, и) можно наметить следующим образом. Пусть на предшествующих шагах оптимизации в узлах xh+i найден и занесен в память ЦВМ Sk+itX (x) — вектор градиента функции 5°+1 (х). Дифференцируя по и (2.150), найдем Sku = Ра+1 J Ф/i+i (и, v) exp (— vTv) dv + coAu (xhi и) ~ ~ Pa+1 2 ^ . . . ilirfc+1*A+i (U, V (ilf . . ., irfc+1)) + + (Oku(Xk,u), (2.151) ГДе <Da+i(m, v) = (Sfc+i.u + /2 rfc-+lftti;)T5ft+if»(Sfc+1 + + ./2IW), (2.152) xk+it u и Гй+1> u — матрицы, составленные соответственно из производных компонент вектора xh+i и производных элементов матрицы Гл+1 по компонентам вектора и. Элементы матриц xk+itu и Th+itU в принципе можно найти, дифференцируя по компонентам и левые и правые части уравнений (2.126), (2.127). Интегрируя от tk до th+l совместно полученные уравнения и исходные уравнения, найдем матрицы xh±i% „ и Ch+lt u. Дифференцируя по и обе части равенства Ck+i = = ГА+1Г*+1, получим — систему линейных уравнений, решая которую, найдем 1 k+l, и. После того как алгоритмом минимизации найден uk{xk), необходимо для следующего шага определить и занести в память ЦВМ вектор градиента 52|Ж(ял), Этот вектор определяется формулой, аналогичной (2.151) при замене в (2.151), (2.152) нижнего индекса и на х. По аналогии со способом 2 главы 2 возможен способ оптимизации управления методом нелинейного программирования, не требующий занесения в память ЦВМ величин S\ (xk)l к = iVj .. f, 0, Способ осцозан на пред-
§ 2.15] ПАРАМЕТРИЧЕСКАЯ ОПТИМИЗАЦИЯ Ш ставлении функции Sk(xk, и) формулой (2.91) и определении вектора м. о. х(Т) и к. м. С(Т) численным интегрированием уравнений (2.126), (2.127) на отрезке ltk, T] при использовании вектора управления и на интервале lAi *a+i) и векторов оптимальных управлений и%(х^)г ..., u°k+i(Zk+i) на отрезке itk+u TVr § 2.15. Параметрическая оптимизация нелинейных систем автоматического управления Изложенные выше варианты алгоритмов оптимизации, основанные на методах стохастического или нелинейного программирования, конечно, могут применяться и для решения более простой задачи выбора оптимальных параметров (коэффициентов усиления, постоянных временя фильтров, величин пороговых сигналов) нелинейной системы автоматического управления заданной структуры, описываемой, например, уравнением вида (1.7), в котором и — вектор постоянных параметров. К этой же задаче сводится и синтез оптимального программного управления, так как постоянные векторы ик1 & = О, ..., JV, молено объединить в вектор постоянных параметров. Пусть предъявляемые к системе требования будут удовлетворены, если выбором вектора и будет минимизирован терминальный риск S = М [со (хт(и))], где вектор-функция хтЫ) задана алгоритмически: для любого заданного вектора и и данной реализации случайного вектора x(t0) и случайного процесса h^t) на ЦВМ можно найти хт, интегрируя уравнение (1.7) от U до Т. Тогда вектор оптимальных параметров и0 может быть найден численным процессом стохастического программирования при использовании одного из описанных выше способов определения стохастического градиента или квазиградиента. Если использовать нормальное .приближение для плотности вероятности случайного векторного процесса #U), удовлетворяющего (2.106), то при фиксированном и па- раметры распределения вектора хт (вектор м. о. х(Т) и к. м. С(Т)) заданы алгоритмически — определяются численным интегрированием от t0 до Т уравнений вида (2.126), (2.127) при заданных x(t0), C(t0) — параметрах априорного распределения вектора x(t0). В инженерной практике терминальную функцию потерь часто прини-
112 ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ {ГЛ.. 2 мают равной квадратичной форме со (хт) = хтАхт, где Обычно терминальная функция потерь зависит не от всех фазовых координат динамической системы. Поэтому матрица А составлена из блока положительно определенной матрицы и блоков из нулей. Учтем тождество хттАхт = Тг (АхтхУ), где ТгВ —след матрицы В равен сумме диагональных элементов матрицы В. Тогда S = М [х*тАхт] =Tv (AM [xTx*T]) = х(Т)тА2 (T)+TvAC{T). Так как 5 —явная функция вектора м. о. х(Т) и к. м. С(Т), а зависимость х(Т) и С(Т) от вектора и — алгоритмическая, то методами нелинейного программирования, например численным методом проектирования градиента, можно найти вектор оптимальных параметров и0, минимизирующий величину S. Если число компонент вектора и велико, то, как показывает опыт расчетов, минимизацию величины S следует проводить методом случайного поиска.
ГЛАВА 3 ОПТИМИЗАЦИЯ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ ЛИНЕЙНОЙ СИСТЕМОЙ § 3.1. Объект управления 1. Будем считать, что вектор фазовых координат х удовлетворяет линейному уравнению x = Ax + Bu + F+gh, (3.1) где Ait) — матрица пХп; Bit) — матрица пХт; Fit) — вектор тгХ1; git) — матрица nXv; hit)— вектор vXl белых независимых, нормально распределенных шумов единичной интенсивности: M[MPWT] = 6(f-T)/v, (3.2) где /v —единичная матрица vXv; bit) —дельта-функция. Далее используются следующие свойства линейных дифференциальных уравнений. Вектор xit), удовлетворяющий однородному уравнению х = Ах, связан с xix) соотношением #Ш=Ф(£, тЫт), где Ф(£, т) — фундаментальная матрица, определяемая матричным уравнением -£-Ф(*,т) = Л(*)Ф(*,т) при начальном условии Ф(т, т)=/„. Матрица Ф(£, т)— неособенная, так как Ф(г, т)Ф(т, t) = in. (3.3) Дифференцируя (3.3) по f и умножая результат справа на Ф(т, t), получим ±ф(х,1)=-Ф(т,1)АЦ). (3.4) Решение уравнения (3.1) в момент й при заданном векторе ж(т) описывается формулой Коши хШ = ФЦ, i)x(x)+.b(t, т)\+ф, т), (3.5)
114 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 где t Ъ (г, т) = [ф (t, v){B {и) u{v) + F (v))dv, (3.6) t t n(tt%) = $0(t,V)g{v)h(v)dv. (3.7) Если динамическая система стационарна (A(t)=A = = const), то Ф(£, т) = Ф(£ - т). Заметим, что термин «линейная динамическая система» справедлив лишь при отсутствии управления с обратной связью, когда и — вектор-функция времени, используемая при программном управлении. Если же в результате синтеза вектор и стал функцией текущего х (производится управление с обратной связью) и по условию ограничен, то динамическая система, описываемая уравнением (3.1), нелинейна. Однородное уравнение, сопряженное уравнению (3.1), имеет вид г|; = -Лтг|>. (3.8) Транспонируя обе части уравнения (3.4), убеждаемся, что Фф(£, т) — фундаментальная матрица сопряженного уравнения имеет вид Ффа, т) = Ф(т, t)\ (3.9) Формула Коши (3.5) и условие и(т) = и при т = ^ [tk, tk+i) позволяют первоначальную непрерывную динамическую систему заменить дискретной динамической системой, описываемой рекуррентным уравнением x(th+i) = ahx(th) + bhu + fk+i[]kJ (3.10) где *a+i aft = <D(tfc+llk), bk= j 0(tk+liT)B(T)dxr (3.11) «A /,= J Ф (*Л+1, T)F(T)dT, tk (3.12) *A+1 r\h= j ®(tk+i,t)g{t)h(%)dT. Так как справедливо (3.3), то матрица aft— неособенная.
§3.1] ОБЪЕКТ УПРАВЛЕНИЯ 115 Пусть b\, ..., Ь™ — векторы-столбцы матрицы Ък, а и1, ..., ит — компоненты вектора и. Тогда bku = Ь^1 + ... + Ъ%ит. Пусть Ь\ и bi — линейно зависимые столбцы матрицы ЬА : Ь{ + сЪ\ = 0. Тогда Положив и* — си3 = й\ видим, что путем исключения линейно зависимых столбцов матриц bk и соответствующего уменьшения размерности вектора и (конечно, с соответствующим изменением областей Шь) придем к задаче синтеза управления при линейно независимых векторах-столбцах матриц bk. Аналогичный вывод получается, если равна нулю линейная комбинация не двух, а нескольких векторов-столбцов матрицы bk. Итак, в дальнейшем считаем, что т^п и r(bft) — ранг матриц Ък равен т. 2. Пусть в момент tk зафиксированы векторы x(tk) и и. Тогда вектор x(tk+i) имеет условное нормальное распределение с параметрами (вектором условного м. о. x(tk+i) и условной к. м. C(tk+i))y получаемыми интегрированием от tk до th+i уравнений x^Ax + Bu + F, (3.13) C = AC + CA* + G, G = gg* (3.14) *•* при начальных условиях x(tk) = x(tk)1 CUJ = 0nn. Эти уравнения следуют из (2.126), (2.127), если положить в (2.106) fix, u, t) = Ax + Ви + F. Решение уравнений (3.13), (3.14) имеет вид я (tk+1) = akx(tk) + bku + /ft, (3.15) С (ffc+1) = M hftitf] = J Ф (**+i, t) G (t) Фт («fc+1, t) dx, (3.16) который можно использовать, если фундаментальная матрица имеет простое аналитическое выражение. 3. При оптимизации стохастического управления линейной системой методами стохастического программа 8*
116 оптимизация линейной системы {гл. з рования генерация случайных векторов xitk+i) производится по формуле xitw) = x(tk+i) + Tk+iv, (3.17) где Г/t+t = (C(tk+l))i/2 — матрица размерности п X r(C(tk+i)), определяемая алгоритмом извлечения квадратного корня из к. м.; и — вектор размерности r(C(tk+i)) X 1, составленный из центрированных независимых случайных компонент, дисперсия каждой из которых равна 1. 4. Иногда при планировании вычислительного процесса полезно заранее знать, что к. м. C(tk+i) — неособенная (r(C(tk+i)) = п). Докажем, что это можно гарантировать, если матрица G(x) = g(x)g(x)T непрерывна по т и неособенная хотя бы в одной точке 0: Q^lthy th+il. Из условия непрерывности следует, что существует интервал 0 — е < т ^ 0 + е, в котором G(x) > 0. Умножая (3.16) слева на хт, а справа — на х, получим XTC(tk+i)x = Hth+il 0 + 8) + Л0 + 8, 9 ~ 8) + Л0 - 8, tk), где J (0i, 02) = I ^ТФ (*л+1. *) G (х) Ф (tk+11 xfx dx. Но по условию Л0 + 8, 0 - 8) > 0, J(tk+U 0 + 8) > 0, Л0- 8, tk) > 0. Поэтому при любом векторе х xrC(tk+l)x>0 и, следовательно, C(tk+i) > 0 и C(tk+i) — неособенная. § 3.2. Прогнозируемые фазовые координаты При оптимизации линейной динамической системы по терминальному критерию (критерию минимума М [со (х {Т))]) удобно перейти к прогнозируемому при отсутствии управления и возмущений (гг = 0, й = 0) на момент Т вектору фазовых координат х, определяемому уравнением [81 г х (t) =, Ф (7\ t) х (t) + j Ф (7\ т) F (т) dr. (3.18) i Дифференцируя (3.18) и учитывая (3.3), получим x = Bu + gh, (3.19) где Bit) = Ф(Г, t)B(t), git) - Ф(7\ t)g(t), ■
§ 3.2] ПРОГНОЗИРУЕМЫЕ ФАЗОВЫЕ КООРДИНАТЫ 117 Так как Ф(Г, Я=/», то х(Т) = х(Т). Поэтому задача оптимизации по первоначальному терминальному критерию равносильна задаче оптимизации управления динамической системой, описываемой (3.19), по критерию минимума М [со (х (Т))\. Часто функция соЫ есть функция \i (ii<n) переменных, которые можно считать первыми ц компонентами вектора х. Обозначим через р вектор, составленный лз [х первых компонент вектора х. Так как М [о (х (Т))] = М [со (х (Т))] = М [со (р {Т))}% то задачу оптимизации можно решать для «усеченной» |ы-мерной динамической системы, описываемой уравнением p^Biii + gih, (3.19») где Ви gx ~ матрицы, составленные из \л первых строк матриц В, g. Соответствующая дискретная динамическая система опишется рекуррентным уравнением p(f*+i) = p(*fc) + bku + г)Л, (3.20) где bk = j Вг (т) dx, Tjft = ) gx (т) h (т) dt, C(^+i) = M[ti,ti,t]= j fo(T)fo(x)TrfT. Из (3.20) видно, что вектор p(tk+l) имеет условное (при фиксированных p(th) и и) нормальное распределение с условной к. м. C(th+l) и условным вектором м. о. p(tk+i) = p(tk) + bku. Из (3.13), (3.14) найдем, что уравнения для р и С —вектора м. о. и к. м. вектора р имеют совсем простой вид: p^Siii, C^gigh (3.22) Уравнения интегрируются от tk до th+i при начальных условиях p(tk) = p(th), C(th) = Ощь
118 оптимизация линейной системы {гл. з § 3.3. Симметризация области допустимых векторов управления Часто область допустимых векторов управления является /n-мерным параллелепипедом, несимметричным относительно начала координат, так что на вектор и наложены условия -?«(*) <tt(*)<Tfi(*), (3.23) где Yi^)> Tz(rt -" заданные m-мерные вектор-функции. Неравенство (3.23) означает, что v\» и\ Чъ — i-e компоненты векторов ^i, и, ^2 должны удовлетворять условиям — yl < и1 < т1, причем Vi > 0, ?2 > 0. Заметим, что несимметричные ограничения вектора управления возникают, например, при управлении ЛА с экипажем. В этом случае модуль допустимых отрицательных перегрузок существенно меньше, чем допустимые положительные перегрузки. Аналогичная ситуация возникает и при синтезе корректирующего управления в окрестности номинальной траектории, когда, например, путем решения соответствующей детерминированной вариационной задачи оптимальное номинальное управление определяется некоторой функцией времени. В этом случае ограничен модуль суммы корректирующего управления и этой функции времени и ограничения, накладываемые на корректирующее управление, несимметричны. Объем вычислений при оптимизации заметно уменьшается, если симметрична область допустимых управлений. Для ее симметризации положим и = и - \ (уг - у2). Вектор и симметрично ограничен, так как — у < и < Yi где V = -4"(Yi +Yt)- Уравнение (3.1) динамической системы примет вид x = Ax + BU + F + gh, где ]?B=F + 4-(Ti-V2) Далее считаем, что симметризация проведена и ректор и в (3.1) симметрично ограничен,
§ 3.4] МЕТОД СТОХАСТИЧЕСКОГО ПРОГРАММИРОВАНИЯ 119 § 3.4* Оптимизация методом стохастического программирования 1. При оптимизации управления линейной динамической системы методом стохастического программирования (способ 1, § 2.8, п. 2) на каждом шаге решается задача определения вектор-функции uk (х): S°k (x) = min {Sk (яг, и) | и е= ЭД, (3.24) где из (2.79), (2.80) и (3.15), (3.17) 8к (х, и) = М [S°k+1 (akx + bhu + fk + ГЛ+11;)] + со/, (я, и), (3.25) причем к = N — 1, ..., 0 и SN (х, и) = М [со (а^я + bjvw + /iv + Г^+1у)] + cojv (х, и). (3.26) В (3.25), (3.26) осреднение производится по ранее определенному, случайному вектору у, имеющему размерность соответственно r(C(tk+i)) X 1 и г(Ст) X 1. Ранее (§ 2.6) было показано, что функции SA(#, и) выпуклы вниз по и (при выпуклости вниз функций о), со*, ..., ©ft), что гарантирует в определенном ранее смысле сходимость процесса стохастического программирования, описываемого алгоритмом (2.82) —(2.89). Реализация этого процесса для линейных динамических систем существенно проще, чем для систем нелинейных. Это объясняется простотой модели, генерирующей для разных векторов щ меняющихся в процессе итераций, случайные векторы x(th+i) по формуле (3.17), в которой характеристика рассеивания (матрица 1\+1) не зависит от й и, следовательно, постоянна на данном шаге процесса оптимизации. Вектор Sl+iiu (•) — вектор градиента по и функции Sfe+i(«) (вектор стохастического градиента функции Sk(xy и) по и равен £2+i.u(e) + + ®к,и(х, и)), необходимый на каждой итерации, определяется формулой 5j+i,u (я** + Ъки + fk + Tk+1v) = = blSl+ltX{akx + bku + fh + Th+1v)t где S°h+itx (•) — вектор градиента функции Sl+i (• )• Этот вектор можно найти по приближенной разностной
120 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ (ГЛ. 3 формуле, если в память ЦВМ занесены величины Sk+i (#fc+i), найденные в узлах решетки области £&k+i на предыдущем шаге процесса оптимизации. 2. При оптимизации методом стохастического программирования способом 2 (аналогичен способу 2 в § 2.8, п. 3) можно ценой расширения размерности моделируемого случайного вектора избавиться от необходимости определять величины 5^(^), ..., «S^+i (^+i) в узлах решетки областей $&Nj ..., S?ft+i. Положим Фк (х, uf Vk) = (dk (х, и) + (dk+1 {x (fe+i), u°k+1(x (th+1))) +... ... + (Djv {X (tN), U% (X (tN))) + 0) (xT)t где x(th+i), ..., x(tN), xT -— случайные векторы, определяемые рекуррентными соотношениями x(th+i) = ahx + bhu + fh + Tk+luk+u X (tN) = dN-\X (tN-l) + bN^uSf-i {X (tN-l)) + /iV-l + Г^ЗД, xT = a^x (£jv) + b№N {x (tN)) + /iv + Tiv+i^iv+i. Здесь vh+u ..., vN+i — случайные векторы, составленные из случайных, независимых, нормально распределенных компонент v\: М [v{] = О, М [(v))2] =1; Vh — составленный из i;ft+i, ..., vN+l случайный вектор размерности (r(Ch+t) +... + r(CN) + r(CN+i))Xl. Из определения условного среднего риска следует, что Sk (хх и) = М [Фк (хг щ V)] + щ (х, и). Пусть на предшествующих шагах оптимизации найдены и занесены в память ЦВМ векторы оптимальных управлений u%(xn), ..., ul+i {xk+i) в узлах решеток областей 9SN, ..., S8k+i. Вектор оптимального управления uk(xk) найдем в результате применения алгоритма стохастического программирования вида Us+1 = nUft (us — рз (3>A+i,u + 0)ft,u {Xk, Uk)))t где m Фа+i.u = 2Д" 2 1Ф* (*** Us + Д**** У$ ~ s 1=1 — Фа (Xki us — As*u Vk)]9
§ 3.5] МЕТОД НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 121 Vl — некоторая реализация случайного вектора Vh. Векторы и°(хШ)у i = ft+l, ..., N, при несовпадении хШ и Хг определяется интерполяционной формулой. Иногда рационально использовать следующее выражение для градиента функции Фк по и: mir = bkPk^ + —ей—• Вектор ph+i определяется в результате последовательного решения (при фиксированных векторах х, и, vh, ..., vN) рекуррентных уравнений дискретной неоднородной сопряженной системы: PN+1 = %Г 0) (ХТ), PN=(aN+bNu0N,x (x(tN))yPn+i~\-57 ®N[x(tN), u%{x{tN)))t Pk+i = (a*+i + bk+iu°k+i,x (x {tk+1))Ypk+2 + + 17 ®*+i (ж (**+i). M*+i (* («л+i)))- § 3.5. Оптимизация методом нелинейного программирования При использовании метода нелинейного программирования функция Sk(x, u)r входящая в формулировку задачи (3.24), представляется гл+1-мерным интегралом (rk+i = r(Ck+i)), рассчитываемым с применением рассмотренных ранее приближенных квадратурных формул вида (2.150): Sh (х, и) = $k+i f SZ+1 (ahx + bku + fk + V2Tk+lv) x Xexp ( — vTv) du + ©A (x, u). (3.27) Вектор градиента Shu(x, и) вычисляется применением приближенных квадратурных формул к интегралу: Shu (х, и) = pft+1 J blS°k+i,x (akx + bku + fk + V2Tk+1v) x X exp (— v*v) du + G)fcU (x, u). Вектор градиента Sfc_j-1)3C(.) определяется приближенной разностной формулой.
122 оптимизация линейной системы [гл. з Заметим, что если в данном конкретном случае оказалось возможным последовательно рассчитать матрицы производных по х от векторов оптимальных управлений: и%,х{х)> u%-hx(x), ..., то векторы градиентов Six (#) последовательно могут рассчитываться по рекуррентной формуле S°kx (x) = pft+1 J (ak + bhu°hx (x))TSl+ltX (akx + bkux (x) + + fk + VWh+iv) exp (- vTv) dy + _ ©fc (x, ul (x)), где S8r+if*(') = M0* & = #, tf-1, ... Векторы градиента £ftuGr, u) наиболее просто определяются, если гл+1 = 7г. В этом случае трехугольная матрица Гй+1 в (3.27) — неособенная и в (3.27) целесообразно провести замену переменных , akX'+bku + fk + l/2Tk+lv = w. Тогда v = v(x, щ w) и формулу (3.27) запишем в виде Sk (х, и) = pft+1 -д fsJ+iM exp (— v^x, и, w) v (x, и, wj) x ХГД1Л0+©*(*, u). (3.27') Дифференцируя (3.27') по вектору и и проводя обратную замену переменных (w через v), получим Sku (z, и) = 1 p,+1bj (ГД0Т (ГЙО Ь* J иЯ+i (а** + + hu + fh + V2TkHv) exp (- v*v) dv + cdku {x, u). (3.28) Интеграл в правой части (3.28) вычисляется с помощью квадратурных формул наивысшей алгебраической точности. § 3.6. Функции условных рисков при терминальном управлении Используя рекуррентные уравнения вида (3.24), (3.25) при (oft(;r, и) ез 0, можно получить некоторые свойства функций Sl(x), полезные при численной оптимизации терминального управления. Далее считается, что функция потерь о)Ы — выпуклая вниз, четная положительная функция такая, что в любом направлении, проведенном из начала координат, существует х0: ы(х0) >
§ 3.6] РИСК ПРИ ТЕРМИНАЛЬНОМ УПРАВЛЕНИИ 123 >о)(0). Тогда (й(х) неограниченно возрастает с ростом Ы. Примером такой функции может служить квадратичная форма (д(х) = xrRx при R > 0. 1. Пусть произведен переход к р —вектору, составленному из |х прогнозируемых фазовых координат, и проведена симметризация областей допустимых векторов ик: -?*<«*<?*. (3-28') Задача оптимизации (3.24) записывается в виде S°k (p) = min {Sh (p + М | и е %}« (3.29) где Sk (р) = J Sg+1 (p + Thnv) ph+1 (v) dv, (3.30) SN (p + bNu) = J o) (p + bjyw + TN+lu) pN (v) dv, (3.31) Pi(v) = n 2 exp(— vTv), n = r(Ci), v — вектор размерности r(Ct); С, —к. м., полученная интегрированием от £t-i до £»• уравнения (3.22) или рассчитанная по явной формуле (3.21); функция потерь о)(я) заменена на функцию потерь со(р). В соответствии с изложенным в § 3.1 далее считаем, что r{bh) = т и m ^ [г. Из свойств выпуклых функций и рассуждений по индукции, приведенных в § 2.5, следует, что Skip) и Sk(p) — четные, выпуклые вниз функции. 2. Лемма 3.1. Пусть S(p) — четная, выпуклая вниз, полооюительная функция такая, что в любом направлении, проведенном из начала координат в <8^ найдется вектор р0, при котором S(p0)>S(0) и, следовательно (см. § 2.3), S(p) неограниченно растет с ростом Ipl. Определим функцию ф(р) формулой <p(p) = §S(p + Tv)p(v)dv, (3.32) где p(v) — четная положительная функция г переменных, причем J p(v)dv = 1. Тогда ф(р)>5(р). (3.33)
124 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 Доказательство. Последовательной заменой переменных легко проверить, что как при четной, так и нечетной величине г §f(v)dv = ll(-v)do% (3.34) где f(u) — произвольная функция г переменных. Так как p(v) =p(—v) и j S (р + Tv) р (и) dv = §S(p — Tv)p (и) dv, то из (3.32) получим ф(р) = §{jS(p + Tv)+±S(p + Tv)}p{v)dv=* = §(^S(p + Tv)+^S(p-rv))p(v)dv>§S(p)p(v)dv. Отсюда найдем ф(р) > S(p). (3.35) Докажем от противного, что в (3.35) знак равенства быть не может. Пусть для некоторого р справедливо/ ф(р) = 5(р). (3.36) Равенство (3.36) выполнится тогда и только тогда, когда равенство __ _ _ 5(р■+ Tv) + S(p - Tv) = 25(p) (3.37) окажется справедливым для всех уе^г. Пусть Яе [0,1]. Используя выпуклость функции Six), можно записать ^5(р-Ш)+т^5(р + Г1;)>5(й1 (3.38) KS (р - Tv) + (1 - X) £ (р) > S (р - KTv). (3.39) Неравенство (3.38)^ усилится, если в его левую часть подставим вместо S(p — КТи) левую часть (3.39). Тогда получим _ __ _ S(p'j-Tv),+ S(p-Tv)>2S(p). (3.40) Но в соответствии с (3.37) в (3.40) должен быть знак равенства, что возможно лишь, если в (3.38), (3.39) вместо знаков неравенств стоят знаки равенств. Поэтому 5(р - ХТи) = Шр"- Tv),+ (1 - Ш(р). (3.41)
§ 3.6] РИСК ПРИ ТЕРМИНАЛЬНОМ УПРАВЛЕНИИ 125 Положим в (3.41) f = Х~\ Vq = Xv. Тогда получим S(p - Г^о) = ftStp - 14) - 5(р)] + 5(р). (3.42) Так как всегда S(p) > О, а величина ^ в (3.42) может быть сколь угодно велика, то S(p-ri70)-S(p)»0. (3.43) Но из (3.37) при замене v на ^v0 получим 5(р + IVo) = 25(р) - 5(7- Тци0) = = 5(p)-^5(p-ri;o)-5(p)]. (3.44) Из_(3.44) видно, что при достаточно большой ^ величина S(p + TfVo) останется положительной, если только 5(р-Гг;о)-5(р)<0. (3.45) Сравнивая (3.43) и (3.45), получим SCp)=S(p-Tvu). (3.46) В (3.46) v0 — произвольный вектор, принадлежащий &г. Поэтому 5(р) - 5(р) (3.47) для всех векторов р, принадлежащих гиперплоскости, образованной векторами вида р = р + Tv, длина которых может быть сколь угодно велика. Но по условию величина S(p) неограниченно возрастает с ростом |р|, что противоречит (3.47). Поэтому (3.36) выполниться не может. Следовательно, справедливо (3.33) и лемма 3.1 доказана. Лемма 3.2. Пусть выполнены условия леммы 3.1 и, кроме того, г = jx (ранг матрицы Г в (3.32) равен [д,). Тогда р = О — единственный вектор, минимизирующий ф(р): ф(0).<<р(р) (3.48) для любого вектора р. Доказательство проведем от противного. Пусть при некотором р выполняется ф(р) = (р(0). (3.49) Но по п. 6 из § 2.3 ф(Яр) ^<р(р) и, следовательно, фйр) = <р(0), Ье[0, П. (3.50)
126 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 Из (3.32) V{P)~v(0)^^{jSCp + Tv) + ^S(-p + Tv)- — S(Tv)\p(v)dv9 (3.51) но 5(р) — выпуклая функция и, следовательно, ±S(p + Tv) + ±S(-~p + Tv)^S(Tv). Поэтому (3.49) выполнится, если тождественно (для всех v) справедливо равенство £(р + Tv) + S(-p + Tv) = 2S(Tv). (3.52) Равенство (3.52) совпадает с (3.37), если поменять местами векторы р и Tv. Поэтому для векторов р и Tv из (3.52) справедливо следующее из (3.37) равенство (3.41), если в нем поменять местами векторы р и Tv. Итак, из (3.52) следует соотношение S(Tv - Яр) = KSiTv - р).+ (1 - K)S(Tv), (3.53) где Я^[0, 1]. Из-за равенства (3.50) вектор р в (3.53) можно заменить любым вектором р, удовлетворяющим условию р = Jiip, Xi e [0, 1]. Поэтому S(Tv - Яр) = KS(Tv - р).+ (1 - K)S(Tv). (3.54) Зафиксируем в (3.54) вектор Яр, положив Яр = р0 и 7 = Я"1. Тогда р = 7Ро и (3.54) примет вид S(Tv - 7Po) = S(Tv) + >i[S(Tv - pe) - S(Tv)]. (3.55) Здесь величина у может меняться в пределах ' l<T<Tt-/|J- (3.55J Далее считаем вектор р0 таким, что fo > 2. Покажем, что равенство (3.55) справедливо для сколь угодно больших величин у (3.55) выполняется при всех Tv е= <§ГЙ. Заменим в (3.55) вектор Tv на вектор Tv — Чф0> где 1 ^ Yi ^ То ~~ 1- Из (3.55) получим S(Tv - (f + Ti)po) - S(Tv - Yipo) + + tlSiTv - (1 + 7t)p0) - S(Tv - fiPo]). (3.56) Формулы для S{Tv — ^tpo) и 5(Гу —(1 + YiVo) получим
§ 3.6] РИСК ПРИ ТЕРМИНАЛЬНОМ УПРАВЛЕНИИ 127 в (3.55), если последовательно заменить у на ifi и 1 + ft. Подставляя в (3.56), получим S(Tv - <у'ро) = S(Tv) + f[S(Tv - ре) - S(Tv)], (3.57) где ^' = y + Ti- Величина if' может меняться в пределах 1^7'<2yo-1. (3.58) Сравнивая (3.554) и (3.58), видим, что максимальная величина у' больше максимальной величины к в (3.55). Продолжая замену векторов Tv, подобную вышеописанной, получим, что максимальная допустимая величина if в равенстве (3.55) может быть сделана сколь угодно большой. Так как всегда S(Tv — «ур0) >Д то из (3.55) получим S(Tv-po)-S(Tv)>0. (3.59) Равенства (3.49), (3.50) справедливы при замене р на —р. Поэтому, заменив в (3.55) р0 на —р0, получим S(Tu + <уро) = S(Tv) + f[S(Tv + po) - S(Tv)]. (3.60) Из (3.60) при достаточно большой величине if следует S(TV+p0)-S(Tv)>0. (3.61) Из (3.59), (3.61) и (3.52) при замене р на р0 получим S(Tv + po) = S(Tv) = S(Tv - po) и из (3.55), (3.60) при сколь угодно большой величине к найдем S(Tv - Wo) = S(Tv + 7р0) = S(Tv). (3.62) Но (3.62) противоречит условию неограниченного возрастания 5(р) с ростом Ipl. Поэтому (3.49) выполниться не может и, следовательно, доказана справедливость (3.48). Лемма 3.2 доказана. 3. Вернемся к рассмотрению задачи (3.29). Допустим, что для функции Sl+i (p) в любом направлении в <8» существует вектор р0, для которого 5j+i(Po)>5S+i(0). (3.63) Тогда выпуклая четная функция Sl+i (p) неограниченно возрастает с ростом Ipl. Положим в (3.32) 5(р) = = SJ?+I(p), p(v) = pk+i(v), T = Tk+i. Тогда из (3.30) получим, что ср(р) =«Sft(p). На основании леммы 3.1
128 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 справедливо неравенство £*(p)>S2+i(p). (3.64) Из свойств выпуклых четных функций и из (3.29), (3.30) следует, что Sl(0) = Sk(0). . (3.65) Поэтому из (3.64) получим Й(0)>5Л+1(0). (3.66) Кроме того, из (3.64) Sk{p + bku)> S°k+i{p + bku), и из (3.29) получим S°k (p) = min {Sh (p + bku) \uz=Wk}> >min{Sl+1{p + bku)\ue<Uk}. (3.67) Так как область возможных векторов bku в (3.67) (область достижимости ЧКк, к+D) ограничена, то из неограниченного, возрастания функции 5/ц-1 (р) при увеличении Ipl следует, что тем же свойством обладает функция вектора р: min {«S°+1 (p + bku) \ и е %}. Но тогда из (3.67) следует, что функция S\ (p) неограниченно возрастает с ростом | р|: | р |->- оо, S°(p)-> oo. Заметим, что геометрическая иллюстрация описанного свойства функции Si (p) заключается в следующем: поверхности уровня функции Sk(p)—- геометрические места точек в <2?м, удовлетворяющие условию Si (р) = с для любого числа с, являются ограниченными выпуклыми поверхностями. Для проведения индукции достаточно учесть, что по условию терминальная функция потерь со(р) наряду с выпуклостью и четностью обладает свойством, аналогичным (3.63): в любом направлении в <S^ существует вектор р0, для которого о)(р0) > о)(0). После этого, проведя рассуждение по индукции, из (3.66) и (3.67) получим 4>(0)<S0N(0)<...<S0h(0)<...S°0(0), (3.68) S°N (р) > min {со (р + bNu) | и е= <UN), Si (p) > min [S%+1 (p + bku) \u<=<Uk\, (3.69) S°0(p)>min [Si(p + b0u) \u&<U0).
§ 3.6] РИСК ПРИ ТЕРМИНАЛЬНОМ УПРАВЛЕНИИ 129 Неравенства (3.64), (3.68), (3.69) полезны для проверки отсутствия грубых ошибок при проведении численных процессов оптимизации. 4. Используя лемму 3.2, проведем качественное рассмотрение вида функций условных рисков и векторов оптимальных управлений, если r(d) = \i (условие применимости леммы 3.2) и, кроме того, т = jx. Так как r(bh) = m, то последнее условие означает, что матрицы bh — неособенные. Обозначим через <?/(&, к + 1 область в ^Гй, в которой может оказаться вектор bku, если компоненты и удовлетворяют ограничениям (3.28'). Эта область— Рис. 3.1. симметричный относительно начала координат, выпуклый многогранник в &^ размерность которого равна \i. Область °U(к, к+1) — частный случай областей достижимости, методика определения которых рассматривается далее. Положим в (3.32) S(p) = Sj+i(p), p(v) = pk+1(v), T = Tk+1, <p(p) = Sfc(p).. Тогда (3.32) перейдет в (3.30) и по лемме 3.2 Sh(0)<Sh(p). (3.70) Пусть ре<2/(&, к+l). Из (3.70) следует, что решение задачи (3.29) удовлетворяет условию р + bkul (р) = 0 и, следовательно, оптимальное управление линейно зависит от р: "°(Р) = -6Г1Р- (3.71) 8 этом случае Sl(p) = Sk(0). Пусть еа — произвольный единичный вектор в ЙГЦ, а %ке0 — вектор, достигающий границы области ^(&Д+1), 9 И. А. Богуславский 5°о(кр0) Sfopo) S°N(bpB)
130 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 При A,e=[0,'Aj имеем S°k (Хе0) = S°k (0) = Sk (0). При % > К величина Sk (ке0) монотонно и неограниченно возрастает в функции А,. Примерный вид функций Sk (А,р0) представлен на рис. 3.1, где учтены неравенства (3.68) и неравенства Хп < ... <К < • • • < ^и которые следуют из того, что области <2Л#, N+1), ..., °U{k, & + 1), ... ..., <2Л0, 1) оказываются вложенными друг в друга. При р^ <?/(&, /с + 1) вектор оптимального управления uh(p) лежит на поверхности параллелепипеда в 8^ определяемого неравенствами (3.28'). § 3.7. Структура оптимального терминального управления Используя полученные выше представления о характере функций условных рисков, проведем качественное рассмотрение особенностей оптимального терминального управления в общем случае. Напомним, что т — размерность вектора управления и равна рангу матрицы Ьк: m = r(bk), причем ттг<|и. Величина т равна размерности 8{Ъки) — гиперплоскости, образованной векторами bhu, где и^8т. Область достижимости °U(k, k+ 1) — область векторов bhu при и^°Ык лежит в 8{Ъки). Рассмотрим общий случай, в котором т < [А. В этом случае любой вектор р е 8» единственным образом можно представить в виде p = Zfc+M, (3.72) где 1к — вектор, перпендикулярный гиперплоскости 8{Ъки), что описывается условием llbh = 0. Векторы 1к образуют пространство размерности \i — га. Известно, что минимум выпуклой вниз функции достигается на выпуклом множестве, на котором функция постоянна. Поэтому при фиксированном векторе lh минимум по и выпуклой по и функции Sh{lh+bhu) (и^8т) достигается на векторах p(lk) = lk + bhu(lh), (3.73) принадлежащих некоторому выпуклому множеству Q(Zft), лежащему в гиперплоскости 8(lh+ Ьки). Из свойства |р| -^ оо, Sh(p) -> оо следует, что Q(lk) — ограниченная область. Ясно, что Q{lh) является областью точек касания гиперплоскости 8(1к+Ьки) поверхности уровня выпуклой
§ 3.7] СТРУКТУРА ТЕРМИНАЛЬНОГО УПРАВЛЕНИЯ Щ вниз функции Sh(p) (поверхности, определяемой уравнением 5fc(p) = c). Заметим, что эта поверхность находится в <%^ по одну сторону от гиперплоскости <o(lk+bhu), так как область Sh{p) ^ с выпукла. Если поверхность Sk(p) ^ < с не содержит линейчатых элементов, то область Q(lh) состоит из одной точки. Нетрудно показать, что Sh(p(lk) + Xbhu) — неубывающая функция Я^[0, 1]. Действительно, Шр(4) + Ьки) + (1 - X)Sh(p(lh)) > Sh(p(lh) + Xbku), или X(Sk(p(lk) + bhu) - Sh(p(lh) + Uhu)) > XI- X)(Sh(p(lh) + Uhu) - Sh(p(lh))). Но по определению вектора p(lk) Sk(p(lk))^Sk(p(lh) + bhu). Поэтому Sh(p(lk) + bhu) > Sh(p(lh) + Uhu). (3.74) Рассмотрим задачу (3.29) минимизации функции Sh(p + bhu), если вектор р представлен в виде (3.72). Так ' как векторы lh образуют в 8^ семейство, зависящее от jui — m параметров, то уменьшается множество принадлежащих (о^ точек р, в которых стохастическим или нелинейным программированием приходится минимизировать по и функцию Sh(p + bhu). При каждом векторе lh вначале минимизируется по и (без учета ограничения на и) функция Sh(lh + bhu) и находится минимизирующий вектор и0. Вектор lh + bhu° является одним из векторов семейства р(/ь). Возможно несколько ситуаций. 1. Пусть p^Q(lh). Ясно, что в этом случае ul (р) = 0, (3.75) так как Sh(p) — минимум функций Sh(p + bhu). 2. Пусть найдется вектор p{lh) ^ Q(Zfe) такой, что Р ~ p(ZJ ^°Uik, к+1). Это означает существование вектора и' такого, что p-p(W = bki*' (3.76) при и е= %1к% Так как Sh(p + bhu) = Sh(p(lh) + р - p(Zfc) + bku), 9*
132 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ {ГЛ. 3 то решением задачи (3.29) является вектор оптимального управления и£ для которого P-p(h) + bkul = 0. (3.76J Такой вектор существует, и из (3.76) ul = — и'. Чтобы получить явное выражение для и£ = и°(р), рассмотрим следующую задачу. Пусть Ъ — матрица пХт Ы>т) имеет ранг т и первые т ее строк линейно независимы. Векторы Ъи порождают в <Sn m-мерную гиперплоскость S*(bu). Существует Р — ортогональная матрица пХп такая, что у матрицы РЪ строки с номерами т + 1, ..., п состоят из равных нулю элементов. Для этого достаточно, чтобы т первых векторов-строк матрицы Р лежали в гиперплоскости &>{Ъи), а последние п — т векторы-строки матрицы Р были перпендикулярны <%(Ъи). Первые т векторов-строк матрицы Р являются ортонор- мированным базисом в пространстве <Sm, совпадающем с гиперплоскостью &(Ьи), а первые т строк матрицы РЪ, составляющие квадратную матрицу Ьи являются координатами в этом базисе т линейно независимых векторов- столбцов матрицы 6. Поэтому матрица Ь4 — неособенная. Если z^<%{bu), то у вектора Pz равны нулю элементы с номерами т + 1, ..., п, а первые т элементов образуют вектор Zi. Пусть необходимо решить относительно и совместное уравнение z+bu=Q. (3.77) Умножим слева на Р и получим z4 + btu = 0, откуда и = - ЬГЧ- (3.78) Чтобы получить решение (3.77) в явном виде, умножим его слева на ЬТ и учтем, что матрица brb — неособенная. Получим и-ЧЬ'Ь)-1^*. (3.79) Докажем, что правые части (3.78), (3.79) равпы. Действительно, учитывая, что РРТ = /, получим (tfbyVz = [(Рьу(РЬ)]-г(Рь№ = (blbJ^bW = b^z. Итак, (3.79)—явное решение (3.77). • Применяя (3.79) к уравнению (3.764), получим ul (р) = - (ъУь)-% (р - р (k)). (3-80)
§ 3.7] СТРУКТУРА ТЕРМИНАЛЬНОГО УПРАВЛЕНИЯ 133 Следует подчеркнуть, что оптимальное управление м°(р) неоднозначно зависит от вектора р, если £2(4) — область, отличная от точки. Действительно, в этом случае существует, вообще говоря, множество векторов p(ZJ, удовлетворяющих при данном р соотношению (3.76), и, следовательно, существует множество векторов оптимального управления и% (р)> определяемых (3.80). Итак, при р — p(lk) e<?/(&, к + \) и оптимальном (линейном!) управлении по формуле (3.80) величина функции Sk (p) минимальна, причем Slk(9) = Sh(p(lk)). 3. Пусть теперь вектор р — p(lk) не принадлежит Щ{к, /с+1) при любом p(lh)^Q(lk). В этом случае методами нелинейного или стохастического программирования численно решается задача (3.29) — задача минимизации выпуклой функциц Sk(p + bhu) от и на выпуклой области °Uk. Ясно, что вектор и% (р) принадлежит границе области °Uh (вектор bkul (P) принадлежит границе области <Ш?, & + D). Итак, при р -— p(Zft) &°U{k, к + l) (для любого р(4) е еЙ(4» оптимальное управление и°(р) релейно (модуль хотя бы одной из компонент вектора и°(р) достигает предельного значения у\) и Si (р)> Si (p(4))- Вид функций минимальных условных рисков Sk(p) в общем случае достаточно сложен. Основываясь на вышеизложенном, можно лишь утверждать, что на множестве векторов р, принадлежащих гиперплоскости 8(lk + + bhu), функция Si (p) принимает постоянное (минимальное) значение Si (p (h)) при векторах р, определяемых условием p = p(U + M, (3.81) где ие%, p(lh) ^Q(lb). Ясно, что векторы р, удовлетворяющие (3.81), образуют выпуклую область. В рассмотренном ранее случае \i = m гиперплоскость 8{р + bhu) совпадает с 8», /л = 0, а минимум Sh{p) на 8» равен 5Л(0). Поэтому область Q(lk) состоит из одной точки р = 0.
134 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 § 3.8. Оптимальное скалярное стохастическое управление Рассмотрим подробнее структуру оптимального управления линейной динамической системой, осуществляемого изменением скалярной величины и, симметрично ограниченной: I^J^^o. В этом случае m = l, lh — векторы, перпендикулярные векторам bhl гиперплоскость <%{lk+ bhu) — параллельная вектору bk прямая, пересекающая конец вектора lk. Область Q(lh) векторов pllk) будет отрезком на прямой (o(lh + bhu), векторы концов которого обозначим через р4(/л), р2(4). Из ранее изложенного следует, что оптимальное управление описывается следующей логикой: 1. Ищется вектор lh (и соответствующие векторы Pi(/ft), p2(Zj), для которого точка р лежит на прямой (o{lh+bhu)\ этот вектор должен удовлетворять равенству Ы2 = Йр. (3.820) 2. Проверяется условие sign {[(р - рЮШ[(р - p2(Zfc))T6J> - -1. (3.82) Если (3.82) выполнено, то точка р лежит на прямой (o(lh + bhu) между точками pi(lk) и p2UJ, оптимальное управление неоднозначно и можно, например, положить «Х(р) = 0. (3.83) 3. Пусть точка р лежит вне отрезка £l(lk) (условие (3.82) не выполнено), и обозначим через р£ тот вектор рД/ft) или p2(U, для которого \р-р1\ = тт{\р-Р1(к)1 |P-P,(WI>- (3.84) Очевидно, что р° — ближайшая к точке р точка отрезка QUJ. Из неравенства (3.74) при p(lk) = ph следует, что для минимизации по и функции Sh{p+bhu) надо выбрать и так, чтобы точка p+bku была возможно «ближе» к точке р°. Поэтому при условии Ip-p2|<yaIM (З-85) оптимальное управление линейно и такое, что p + bku°k(p) = pi-
§ 3.9] ОСОБЕННОСТИ ЧИСЛЕННОЙ ОПТИМИЗАЦИИ 135 Отсюда и2(р)—т^-«(р-р2)- (3.86) При условии |р-р2|>Т*1Ч (3.87) оптимальное управление релейно: ul (р) = - sign (Ы (р - pj)) Y/, (3.88) Итак, оптимальное терминальное скалярное управление определяется формулами (3.83), (3.86), (3.88). Задача численного процесса оптимизации: для данного вектора lk найти векторы piUfc) и p2(U, входящие в формулы для uk(p). Далее, простым перебором определяются величины и{ и щ такие, что при щ < и < и2 Sk(lk+bhu)~Sh(lh + bhu°). Очевидно, что рДк) = lh + bhu, i = 1, 2. Заметим, что для численного поиска величины и0 можно использовать известные методы одномерного поиска, не требующие вычисления производных от минимизирующих функций и позволяющие рационализировать стратегию последовательных «проб» — последовательного выбора величин и. Эти методы (например, метод дихотомии, метод «золотого сечения» [49]) используются для поиска точек экстремума унимодальных функций и применимы в рассматриваемом случае. Прямые &{lk-\-bhu) касаются поверхности уровня Sk(p) = с по отрезкам Q(lh) (может быть, состоящим из одной точки), которые образуют на поверхности уровня замкнутую «ленту». Границы этой «ленты» — замкнутые кривые, образованные векторами p4(U и р2(4), можно назвать «линиями переключения знака» оптимального скалярного управления. При изменении величины с упомянутые линии образуют в <8^ «поверхность переключения знака управления». § 3.9. Особенности численной оптимизации терминального управления При т < [х целесообразно на каждом шаге к численной оптимизации с помощью ортогональной матрицы Ph1 аналогичной описанной в § 3.7, переходить к системе
|36 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 координат, у которой первые т ортов принадлежат <§{Ъки). В этой системе векторы pft —узлы решетки области $въ можно представить в виде pft = lh + wh1 где lh e ^^V-m, Wh^&ibbU), пространство <э»-т ортогонально <g(bhu). Решая численно задачу (3.29) при фиксированном 1к и разных wk, найдем, используя материал § 3.7, выпуклую область векторов wk, на которых функция Sk принимает постоянное (минимальное) значение, а вектор и>1 определяется или (3.75), или (3.80). В остальных точках wft, принадлежащих SB к и &{Ъки)у функция Sk определяется при соответствующем численном процессе минимизации, a uh принадлежат границе области °11к. § 3.10. Области достижимости детерминированного терминального управления Для назначения областей оптимизации 9вк в &^ в которых содержательна задача синтеза оптимального стохастического терминального управления, необходимо уметь оценивать области достижимости детерминированного терминального управления и области случайных перемещений. Пусть отсутствуют случайные возмущения (в (3.19) /г = 0). Оценим область Ш{к, $)е=^и, в которую может попасть в момент ta вектор p(t8) = р5, если на «усеченную» [д,-мерную динамическую систему, описываемую уравнением (3.20) при /г = 0 и p(^) = pft = 0, на интервалах [ff, ti+l) действуют постоянные векторы управлений и{. Область Ш(к, s) называется «областью достижимости» при Ui^°Ui% Из (3.20) при г)г = 0, положив р«=рл,„(и), получим S-1 РмМ= 2Мг. (3.89) i—k Из (3.89) видно, что область °U{k, s) вложена в пространство, образуемое возможными линейными комбинациями |ы-мерных векторов Ь\ — векторов-столбцов матриц bi (/ = 1, ..., т). Размерность этого пространства (а значит, и размерность области (Ы(к1 s)) равна рангу матрицы размерности р,Х (ттгХ (s — к— 1)), составленной из всех матриц bu i = к, ..., s — 1. Если Ui^°Ui, где <?/* —выпуклые области, то и °U{k, s) — выпуклая область. Действительно, пусть
§ 3.10] ОБЛАСТИ ДОСТИЖИМОСТИ 137 pfcti(n')e<?/(fc, s) и pK»{u")^°U(k, s), причем и* е <%, щ<=%1{. Вектор %рь,а(и') + (1-Х)(>к>3Ы") (0<U1) тоже принадлежит °U(k, s), так как Xpk,s(u')+(1-X)pk,s(u") 2 Ь{ (Хи[ + (1 — 1)щ), (3.90) a kiii -\- (1 — X)Ui ^ °Ui из-за выпуклости °Ui. Поэтому область °U(k, s) — выпуклая. Для оценки °U{к, s) используем опорные плоскости к 4/(к, s) — гиперплоскости, содержащие только граничные точки области °U(k, s). Из-за выпуклости области °U{k, s) последняя всегда находится по одну сторону от опорной плоскости. Напомним методику определения точек, принадлежащих границе выпуклой области. Пусть х° — граничная точка выпуклой области *& (рис. 3.2). Пусть в этой точке найдется опорная плоскость ОЯ, перпендикулярная некоторому единичному вектору /?, проведенному из начала координат О. Из рис. 3.2 видно, что вектор х° удовлетворяет равенству ргх* = тъх{ртх\х&Ф). (3.91) Заметим, что для некоторых векторов р (перпендикулярных сторонам многоугольника на рис. 3.2) существует бесконечно много векторов х°, удовлетворяющих (3.91). Определяя векторы х° из (3.91) для различных р, получим все граничные точки рис з.2. области *&. Пусть р — единичный вектор в &it. Определим вектор Ph,s(u{p)) соотношением PTPk,s(u(p)) =?= max{pTpkif(w)|n,e<2/f, i = k, .. .,V=>4}. (3.92) Из вышеизложенного следует, что конец вектора Ph.shiip)) — точка на грайице области °Ukt8 такая, что опорная плоскость, проведенная в этой точке, перпендикулярна вектору р.
138 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ (ГЛ. 3 Из (3.89) получим pV*(к) = 2 (p'bli + • •. + p%i)u\+... ...+(p1ul«+... +Р%т)щ, (3.93) где b)r — элементы матрицы Ъ\ (/ = 1, ..., [i; г = 1, ..., га); ul — j-я компонента вектора щ (/= 1, ..., М-); /?г — г-я компонента вектора р. Пусть области °Ui симметричны и задаются условиями — Х{<и|<М". (3.94) Из (3.92) и (3.93) следует, что вектор рк,8Ы(р)) определится равенством s-l Рм (и (р)) = 2 Мг (р), (3.95) где м? (р) — /-й элемент вектора иДр) имеет вид и? (/>) = %{ sign (p^blj + ... + р%). (3-96) если р%} + ...+р%}фО. (3.97) При р%1+...+р%} = 0 (3.98) ,J величина и* произвольно меняется в пределах, задаваемых условием (3.94). Из сказанного выше следует, что область <£/(/?, s) является многогранником в <§V (размерность многогран: ника может быть, конечно, меньше \i). Вершины многогранника определяются формулой (3.95), если вектор р таков, что для всех i, j выполняется условие (3.97). Геометрически условие (3.97) означает, что вектор р не перпендикулярен ни одному из га векторов, образованных столбцами матрицы fct. Если вектор р таков, что для некоторых г, / выполняется условие (3.98), то для данного р равенству (3.92) удовлетворяет множество векторов pk> 8Ы(р)). Эти векторы образуются при изменении в пределах (3.94) соответствующих и\. Полученное множество образует гиперплоскость некоторой размерности — грань многогранника <U(k, s). Из (3.92), (3.96) видно, что ph. 8(м(р)) = рК а(и(—р)) (3.99)
§ 3.11] ОЦЕНКА ОБЛАСТЕЙ СЛУЧАЙНЫХ ПЕРЕМЕЩЕНИЙ 139 и, следовательно, область °U(k, s) симметрична относительно начала координат. Для получения в дальнейшем областей SPh возможно более простой формы, заменим °U(k, s) прямоугольным параллелепипедом П(&, s), который описан вокруг области <16(к, s) и имеет грани, перпендикулярные осям координат. Для этого введем вектор Pj (/ == 1, ..., \i) — единичный вектор, направленный по /-й оси координат. У вектора pj р}=...= РГ1 = Р?1 =...==Р?-=0, /4 = 1. (3.100) Пусть OIIj — опорная плоскость, перпендикулярная Pj. Очевидно, что OIIj является гранью искомого прямоугольного параллелепипеда П(&, s), так как она касается °U(k, s) (ей принадлежат граничные точки °U(k, s), и вся область <U{k, ,s) находится ио одну сторону от П(&, s)). Расстояние еДЛ, s) от начала координат до плоскости OIIj определяется равенством *j (k> S) = p]pk,s (U (Pj)), / = 1, . . ., Ц. Как видно из (3.93), *j (*, S) = 2 Ь\хи\ (Pj) + . . . + ЩтЩ (Pj), (3.101) где из (3.96) и? (Pj) = %\ sign Ь^, ...,щ (pj) = ?С sign b]w. Параллелепипед П(&, s) определится условиями -е№, s) < pj ^ е}(к, s), у = 1, ..., |ы. (3.102) § 3.11. Оценка областей случайных перемещений Пусть p(£j = 0, управления отсутствуют (щ = 0, i== = ft, ..., 5—1), на динамическую систему действует лишь белый шум случайных возмущений h(t). Оценим область случайных перемещений, в которую может попасть вектор p(ts). Обозначим этот вектор через h(k, s). Вектор h(k, s) нормально распределен, M[h(k, s)] = 0, к. м. М [h (к, s) h (к, sf] = С (к, s) может ^ыть найдена по формуле (3.21) (при замене th+i на t„) жхя численным интегрированием от th до t8 уравнения (3.22) при C(th) = = 0. Диагональные элементы С(к, s) равны о\ (к, s), ... • • •> °ц (К s) — дисперсиям случайных величин АЧА, 5),...
140 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 ..., №(к, s) — компонент вектора М&, s). Известно, что с вероятностью а выполнится неравенство —n(a)Oi(k, s) ^ /гЧ&, s) ^ ю(а)о<(А, s), i = 1, ..., р,, (3.103) где Например, п(а) = 2 при а« 0,95. Неравенство (3.103) определяет в &» параллелепипед, в котором вектор hik^s) окажется с вероятностью JP(/c, s), причем Р(к, *)»сЛ (3.104) В (3.103) равенство достигается, если С(к, s) — диагональная матрица. Упомянутый параллелепипед назовем «областью возможных случайных перемещений» и обозначим через 2ё(к, s). § 3.12. Определение областей оптимизации <$h Ранее подчеркивалось, что при реализации того или иного численного метода оптимизации (стохастического или нелинейного программирования) важно уметь определять области !%к — области векторов фазовых координат, для которых содержательна задача синтеза и% (р) — вектора оптимального стохастического терминального управления. Ясно, что чем меньше области #?й (чем с меньшим «запасом» они определены), тем быстрее проводится численная оптимизация управления. Пусть р — вектор фазовых координат динамической системы в момент tk и известны будущие (на отрезке [tkl T]) ее случайные перемещения, описываемые последовательностью векторов h(k, к + 1), ..., MiV — 1, N), h(N, iV+1). Далее, эту последовательность обозначаем через %h. В такой постановке задача оптимизации не стохастическая, а детерминированная. Решая ее одним из известных детерминированных методов, найдем зависящее от х* оптимальное терминальное управление ил(р,Хь) и соответствующую минимальную величину со(#т(р, xJ). Заметим, что при выборе ик(р, %k) надо учитывать, что в будущие моменты случайные последовательности Xft+i» • ...i %n — «хвосты» случайной последовательности %к известны и используются при выборе будущих оптимальных управлений wA+1(p, %k+i\ ..., и*(р, %n).
§ 3.12] ОПРЕДЕЛЕНИЕ ОБЛАСТЕЙ ОПТИМИЗАЦИИ 141 Выделим в пространстве возможных случайных последовательностей Хл область ^А, которой они должны принадлежать с близкой к 1 вероятностью Р0. Пусть вектор р таков, что-для всех %h^9k оптимальные управления uh(f), %k) не зависят от %k: uk{p, %к) = щ(р)- Область таких р в ^Гц обозначим через Qk. Вернемся теперь к задаче синтеза оптимального стохастического управления. Пусть решены соответствующие рекуррентные уравнения, найдены оптимальные управления и° (р), ..., и% (р) и при их использовании с конкретной последовательностью %h функция потерь примет значение о)°(#т(р, Хь))- Ясно, что всегда так как управления u>k, ..., и% не учитывают конкретную последовательность %h. Для р <= Qh задачу оптимального стохастического управления приближенно решает равенство и°(р) ~ »*(р). (3.106) Стохастическое управление в соответствии с (3.106) — «почти» наилучшее, так как при его использовании «почти» для всех последовательностей %h (%k^??k) величина функции потерь достигает своей нижней грани (неравенство (3.105) становится равенством). Это следует из того, что управление, начатое в момент tk при pe^ft, с вероятностью Р0 будет достигать в моменты tk+l, ..., tN фазовых координат, входящих в области <?fc+1» • • •» G£n, Для которых рекомендуется использовать и°+1 (р) ~ uk+1 (p), .. ..., un(p)~un(p). Итак, для p^Qh задача оптимизации стохастического управления несодержательна, так как сводится к детерминированной задаче. Поэтому целесообразно областью стохастического синтеза считать область Я?л, дополнительную в &ъ к области Qh. Применим изложенные эвристические соображения к случаю, когда средний риск — вероятность непопадания в параллелепипед &\ — d{ < рг* < d{ (см. § 1.1). Найдем область Qh векторов р в момент th таких, что вектор р(Т) останется вне параллелепипеда 5? и, следовательно, со(жт(р, %л)) = 1 при оптимальном использовании управлений wfe, ..., uN и при наиболёе~£лагоприятной («помогающей» достигнуть параллелепипеда 3) случайной последовательности Хй-
142 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ. 3 Областью $?h примем Ж(к1 N+ 1) — параллелепипед возможных случайных перемещений за время Т — th. Из (3.103) область Ж(к, N +1) определится неравенствами -п(а)вг(к, N+lXp'^ п(а)Ог(к, N + 1). В момент Т вектор случайных перемещений h(k, N + I) окажется внутри Ж{к, N + 1) с близкой к 1 вероятностью Р{к, N+D, удовлетворяющей (3.104). Если из каждой точки границы параллелепипеда 3? как из начала координат построить Ж{к, N + 1), то получим параллелепипед, определяемый неравенствами -п(а)вг(к, N + 1) - й<рг" <й + п(а)вг(к, N+1). (3.107) С вероятностью Р(к, N+Л) точка, лежащая вне этого параллелепипеда, не достигнет i? в результате случайных перемещений. Из каждой точки параллелепипеда, описываемого (3.107), как из начала координат построим параллелепипед Ш/г, 7V+1), аппроксимирующий (с некоторым «запасом») область достижимости при управлении на отрезке [th, Т]. Получим параллелепипед, определяемый неравенствами -еАк, N + 1) - п(а)ъ(ку N + l)-d{<p1'< < di + п(аЫк, N+D+ е,(&, N + 1), (3.108) где величины е{(к, N+ 1) определяются из (3.101). С вероятностью Р(к, N + 1) точка, лежащая вне этого параллелепипеда, не достигнет i? как в результате наиболее «благоприятных» случайных перемещений, так и в результате оптимального детерминированного управления. Поэтому на всех таких точках юЫЮ) = 1 и стохастический синтез несодержателен. Область содержательного синтеза <%\ определяется неравенствами (3.108). Такими же неравенствами (при di = 0) определяются области 95\ и в других случаях (например, когда терминальная функция потерь — квадратичная форма). § 3.13. Оптимизация одномерного управления Рассмотрим оптимизацию одномерного стохастического управления {\i = m = 1). Область достижимости °U(/с, к + 1) — симметричный относительно точки р = 0 отрезок, определяемый условием -IWy^p^IW'Y*. (3.109) В этом случае задача оптимизации (3.29) решается в явном виде [8]. Из изложенного выше следует, что Sh(p)
§ 3.13] ОПТИМИЗАЦИЯ ОДНОМЕРНОГО УПРАВЛЕНИЯ 143 монотонно увеличивается с ростом |р|. Поэтому оптимальное управление ик должно минимизировать |р + Ьли|. Если p = pUft) удовлетворяет (3.109), то оптимальное управление линейно: a'(p) = --«-psignbA. • (3.110) В противном случае оптимальное управление достигает ограничения и° (р) = —Yft sign p bk. (3.111) Формулы (3.110), (3.111) следовали из формул (3.86), (3.88), применимых для функций £*(р), если о)(р) — четная, выпуклая функция вектора р. Однако, если р — скаляр, то эти формулы остаются справедливыми при замене требования выпуклости функции со(р) менее жестким требованием: со(р) •—четная и неубывающая функция от |р|. Именно этими свойствами обладает терминальная функция потерь: со(р) = 0, если Ipl^d; о)(р) = = 1, если |p|>d, при использовании которой условный средний риск равен вероятности не попасть точке р(Т) в отрезок [—d, d], если в момент th координата усеченной динамической системы равна р. Докажем следующие леммы. Лемма 3.3. Пусть оо Ф (Р) = J S(p+Tv)p(v)dv, — ОО p{v) — четная и убывающая функция \и\, 5(р) — четная и неубывающая функция |р|; тогда ф(р) — четная и неубывающая функция |р|. Доказательство. ф(р) = <р(--р), так как piv) = = /?(—v), S(p) =S(—p). Кроме того, оо <p<Pi)-<p(Pi>= I[s(£it^+iv)_ -а(_ь^ь+л)]4-ь+ь)*- ОО о -p(v+4^)]dv- (з-112) Из свойств функций 5(р) и p(v) при v>0, pi>p2>0
144 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ, 3 следует, что неотрицательны оба сомножителя, образующие подынтегральную функцию в правой части (3.112). Поэтому <р(р4) ^ ф(р2) и лемма 3.3 доказана. Лемма 3.4. Пусть Sip) — четная и неубывающая функция |р|, я|;>(р) — нечетная и неубывающая функция р. Тогда S{^{p)) — четная и неубывающая функция |р|. Лемма очевидна. Доказательство оптимальности (3.110), (3.111) проведем по индукции. Пусть S/.+i (р) — четная и неубывающая функция |р|. Заменив в (3.30) р на p + bku и положив Sk (р) = ф (р), S°k+i (р) = S (p), pk+1 (и) = р (v), получим в соответствии с леммой 3.3, что Sh(p) — четная и неубывающая функция Ipl, оптимальное управление должно минимизировать \p + bhu\ и, следовательно, описывается (3.110), (3.111). Функция р + bk,ul(p), как видно из (3.110), (3.111),— нечетная и неубывающая функция р. Поэтому по лемме 3.4 функция Sj!(p): • S°k(p) = Sk(p + bku°k(p)) будет четной и неубывающей функцией |р|. Но со(р) по условию — четная и неубывающая функция |р|. По индукции получим, что (3.110), (3.111) описывают оптимальное управление при k = N, ..., 1, 0. Пример. Пусть стохастическая система описывается уравнениями Xi = хг + #1^ь *2 = хъ + #2^2, Хз — и + £з^з, а минимизации подлежит величина (o(xi(T)). В этом случае 1 Ф(Г,*) = Тогда в фо! 1 T~-t —{T-ty о; 1 т — t 0 0 1 )мулах (3.110), (3.111) *(*) = т — t l § 3.14. Оптимизация терминального управления при ограничении числа участков управления 1. Примем, что допустимое число участков управления меньше числа интервалов [tiy ti+l), & = 0, ..., N: v0 < <iV+l, ограничения на располагаемые энергозатраты не учитываются, но векторы управлений ограничены и
§ 3.14] ОГРАНИЧЕНИЕ ЧИСЛА УЧАСТКОВ УПРАВЛЕНИЯ 145 постоянны между моментами [tu ti+i). Подобная ситуация возникает при рассмотрении модельных задач коррекции космического полета, в которых число коррекций ограничено, так как каждой коррекции предшествует сложная операция ориентации и стабилизации. В момент tk фазовыми координатами динамической системы являются p(tk) — вектор упрежденных фазовых координат размерности \i X 1 и vh — допустимое число участков управления на отрезке ltkl T]. Уравнения движения системы имеют вид p(tk+i) = p(ffc) + bhu + г]л, vh+i = vk- %Ы)9 где %(и) = 1, если и ФО; %Ы = 0, если и = 0. Из (1.88)—(1.90) следует, что векторы оптимальных терминальных управлений определятся рекуррентными уравнениями, которые описывают эволюцию 5°(р&, v&)— минимальных условных средних рисков, зависящих от фазовых координат phl vh: ■ SoN(pNl0) = M[«>(pN + TN+1v)]1 S% (Pjv, v) = min {M [© (pN + bNu + TN+1v)] \ и e= °Un), где v = 1, v<v0; S#-i(Pn-i, 0) = M [S&(Pjv-i + TNv, 0)], S%-i (Piv-i, v) == min {M [S°N {pN-t + bN-xu + + r,M-xH)]UG%-i}. □ (3.H3) где v = 1 -T-2, v ^ v0; Si(pk, 0) = M[5j+i(Pfc + IW, 0)], S°k (рл, v) = min {M [S°k+1 (pk + bku + Tk+1v, v — -x(u))]\ue<Uh}t где v = 1, ..., N + 1 — к, у ^ v0 и т.. д. Если в функции Si (p, v) v — N + 1 — к, то число разрешенных участков управления равно общему числу интервалов [£г, £1+1), i = k1 ..., N, содержащихся в отрезке [tk, T]. Тогда получаем ранее рассмотренную задачу оптимизации терминального управления при отсутствии дополнительного ограничения на число участков управления и можно положить S°h(9, v) = Sl(p). (3.113J Ю И. А. Богуславский
146 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ.. 3 Основная особенность задачи оптимизации при v < < N + 1 — к состоит в существовании области «нечувствительности» — окружающей точку р = 0 области, при попадании в которую вектора p(tk) надо на интервале [th, th+i) положить и = 0 — отложить до момента tk+l принятие решения об управлении. Изложим эвристические соображения, обосновывающие существование области «нечувствительности ». Ясно, что 5?(р, v)<5?(p, v — 1) при v^N+1-i, так как величина М [(о(р(Г))/р(^)] тем меньше, чем больше участков управления допускается на отрезке [th, Г]. Отсюда при i = к + 1, заменяя р на р + Th+lv и осред- няя по у, получим М [SUi (Р + IW, v)] < М [$+1 (р + rfc+1i;f v - 1)]. (3.114) Строгое неравенство (3.114) справедливо для всех р, в том числе и для р = 0, а правая и левая части (3.114) — непрерывные функции р. Поэтому в <S^ существует некоторый шар Q с центром в точке р такой, что если pj — — р е Qf то М [S°k+i (р + ?k+iv, v)] < M [S°k+l (Pl + Tk+1vr v - 1)]. (3.115) Положим . ■-■■*щ^?^^щ ^ \ Si (p, v) - min [М [5А°+1 (р + Ъки + Tk+lv,v - 1)] | гге=%}, (3.116) Й(Р, v) = M [S°k+i(9 + W, v)], (3.117) и пусть при операции минимизации в (3.116) найдена непрерывная по р вектор-функция uh(p), причем uh(0) = = 0. При достаточно малом |р| bhuk(\p) ей. Поэтому, положив в (3.115) р» = р + bhuh(p), получим, что 5*(p,v)<Sj(P,v)f (3.118) по крайней мере, если bhuk(p)^Q. Но из (3.113) следует, что в этом случае и°(р) = 0. При достаточно большом [р| естественно допустить, что Sl(p, v)> Sl(p, v); (3.119) при большом |р| целесообразно, несмотря на случайные
§ 3.14] ОГРАНИЧЕНИЕ ЧИСЛА УЧАСТКОВ УПРАВЛЕНИЯ 147 возмущения на интервале [tk, tk+i), «истратить» этот интервал на управление, положив w°(p) — uk (p). Поэтому (3.118) и (3.119) высекают в &^ область ^k(v) — окружающую точку р = 0 область «нечувствительности» оптимального терминального управления, в которой и°(р) = 0. Итак, вектор оптимального управления и/г(р) и функция Sk (p, v) определяются соотношениями р е $>к (v), ul (p) =;0f Si (p, v) = Si (p, v), (3.120) p^^fc"(v)f Mj(p) = Mfc(p)l5j(p>v) = Sj(pfv). (3.121) Функцию Sk (p> v) можно записать еще и так: Sl(p, v) - min (Sj(p, v), 52(р, v)}. (3.122) Размеры области «нечувствительности» тем больше, чем больше элементы матрицы Th+i (при больших случайных возмущениях системы на интервале [th, th+i) нерационально «тратить» участок управления на управление по вектору фазовых координат р, замеренному в момент tk). Заметим, что, последовательно используя (3.113), получим $J(pf0) = M[©(p + ufc)], (3.123) где wh = TN+iv0 +...+ Th+ivN-k, v0, ..., vu ...-— векторы размерности г(С^+1)Х1, ..., r{CN+i-i) X 1, составленные из независимых центрированных случайных величии с дисперсией 1. 2. Методику численной оптимизации рассмотрим в случае одномерного управления (\i = m = I), при ограничении ItfJ^'Y/t, положив вначале v0 = 1 и считая, что терминальная функция о)(р) — четная и не убывает с ростом |р|. Кроме того, положим, что Ък"\к — монотонно убывающая функция к: ЬоТо > > Ь*Ть > > М* > 0. (3.124) Условие (3.124) означает, что чем раньше используется участок управления, тем сильнее управлением может быть изменена упрежденная фазовая координата динамической системы. В рассматриваемом случае шар Q является некоторым отрезком, середина которого лежит в точке р, а в (3.115) 10*
148 оптимизация линейной системы 1гл, з надо положить, как следует из (3.113), M.[SJ+1 (Pl + Tk+1v, 0)] = М [ю (Pl + okv)], где ok = ГА+1 -f- ... + Tiv+i и M [5j+i (P +M + Гл+iV, 0)] = М [ю (р + bku + а^)]. (3.125) По лемме 3.3 правая часть (3.125) — неубывающая функция |р + Ьли|. Поэтому функция и(р), минимизирующая (3.125), определяется формулами (3.110), (3.111). При достаточно малой величине |р| величина bh\uk{p)\ сколь угодно мала. Поэтому существует величина Р*(1) такая, что если Ipl <Pft(l), то выполняется М [5j+i (р + Тк+1и, 1)] < М [со (Д (р) + а^)], (3.126) где р + М(р) = Л(р) = 0 при lpl<fcbV, Д(р) = = Р — bh"ih sign p при \p\>bk^h. Соотношения (3.120), (3.121) примут вид I p|<P*(l): uj(p) - 0, S°k(Pv 1) = М [5j+1(p + Г,+1г;, 1)]; (3.127) I р | > Ph (1): ul (р) = uA (p), S°k (р, 1) = М [о (Д (р) + ahv)]. (3.128) При выполнении (3.128) М [sUi (Р + IWi>, 1)] > М [о (Д (р) + ahv)]. (3.129) Заметим, что величина РА(1) может быть сколь угодно велика и, следовательно, величины р, удовлетворяющие (3.129), могут, вообще говоря, отсутствовать. Так, если Ькук = bk+i^h+i + e, где е.—малая величина, а число 1\+1 велико по сравнению с 1\+2, ..., TN+l (малы возмущения системы на отрезке ltk+i, T] по сравнению с возмущениями на интервале [tk1 tk+i)), то при любой величине |р| решение об управлении целесообразно принимать после момента th+l. В этом случае при всех р выполнено (3.126) и 5й(р, 1) = м [s2+i (р + гл+117, i)J. Пусть теперь величина bh^k заметно превышает Ьл+11[л+1 и 1\+1, ,.., TN+i — величины одного порядка. Тог-
§ 3.14J ОГРАНИЧЕНИЕ ЧИСЛА УЧАСТКОВ УПРАВЛЕНИЯ 149 да при большой величине |р| должно выполниться (3.129): выгоднее возможно значительнее уменьшить величину |р| управлением и°(р), чем отложить решение до момента th+i. Итак, при малых |р| выполнится (3.126), а при больших |р| —(3.129), что обосновывает существование Pkil) — корня уравнения М l#+i (Р + Г,+1г;, 1)] = М [со (Д (р) + ahv)]. (3.130) Величины Ph(l) в функции к определяют границу области «нечувствительности» оптимального терминального управления при v0 = 1. Докажем по индукции, что S°k (p, 1) — четная и неубывающая функция р. Пусть этим свойством обладает функция Sl+i (р, 1)- Из (3.127) в соответствии с леммой 3.3 получим, что при | р | ^ ^ Рк (1) Sk (p, 1) — четная и неубывающая функция |р|. Аналогичный вывод, учитывая леммы 3.3 и 3.4, получим при Ipl >Phil) из (3.128), так как Д(р) и М [со(р + + ога^)]— соответственно нечетная и четная неубывающие функции Ipl. Учитывая (3.130), получим, что S°(р, 1)— четная и неубывающая функция Ipl. Но по леммам 3.3 и 3.4 S°N (р, 1) = S°N (р) = М [о (fN (р) + Г*+11;)] — четная и неубывающая функция Ipl. Индукция закончена. Заметим, что Si (p ,1) — вообще говоря, невыпуклая функция р, что иллюстрируется рис. 3.3. Вычислительный процесс определения чисел Д(1)при & = N — li ..., 0 начинается с расчета численным интег-
150 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [I7L 3 рированием величин S% (р) = М [со (/jv (р) + Г#+1^)] в точ~ ках р = pN > 0, лежащих внутри половины отрезка 8$N, и засылки их в память ЦВМ. Далее, например, методом «секущих» находится Pjv-i(I) — корень уравнения М [S% (р + I»] - М [со (/jv-i (Р) + ajv-i*;)]. После этого в точках р = р^-ь лежащих внутри половины отрезка SSN-U в соответствии с (3.127), (3.128) вычисляются величины S^-xip, 1) и засылаются в память ЦВМ. Дальнейший процесс вычисления производится аналогично. 3. Вычисления упрощаются при квадратичной функции терминальных потерь: со(р) = р2. В этом случае S% (p) - f% + iVi и & (р) + aj = М [со (fk (p) + akv)]. При k = N — 1 получим, что М [fN(9 + I»] + T2N+1 = М [S%(p + I»], (3.131) fl-i (Р) + T% + T%+1 - M [со (fN^ (p) + aN^v)]. (3.132) Так какД(Г^г;)<Г^г;2,то из (3.131) и (3.132) при р - О и k==N—l получим неравенство (3.126), найденное ранее из эвристических соображений. Используя асимптотику -wexp(-4)(i-7+7) можно показать, что при большой величине |р| M[fit(p + TNv)]~fN(p) + T%. Но по условию (3.124) /Sr(p)>/5r-i(p). Из (3.124) следует, что если велика Ipl, то при /с = 7V — 1 выполнится неравенство (3.129), справедливость которого при некоторых р была ранее предположена. Поэтому по крайней мере при к = N — 1 существует PN-i(l) — корень уравнения (3.130),
§ 3.14] ОГРАНИЧЕНИЕ ЧИСЛА УЧАСТКОВ УПРАВЛЕНИЯ 151 4. Рассмотрим алгоритм вычислений величин Ph(l), если со(р) = 0 при Ipl < d; о)(р) = 1 при Ipl > d. В этом случае оптимальный участок управления должен сделать минимальной вероятность непопадания точки р в отрезок [— d, d]. Однако для некоторого сокращения используемых формул целесообразно решать задачу максимизации вероятности попадания точки р в отрезок [— d, d]. Тогда *52(р, 1) — максимальная вероятность попадания точки р в этот отрезок, если произвести оптимальное управление на некотором оптимальном интервале [tu ti+i) при k<KN. Из (3.108), п(а) = 4 следует, что при произвольном управлении М [S°+i(p+6feM+I\+1i;, 1—х(и))]~0, если Ipl > ahl где ah = d + bh«\h + 4ал. Это обстоятельство облегчает вычисления, так как определять и заносить в память ЦВМ величины S^ (p, 1) надо лишь при Ipl <ah Определим функции Qh (P) = — где k = N, . ^iV-l(p) = • erf fk(9) + d •)—(J^-)} <3133> Mp) 1/2я ♦fc (P) = ^TTkz J Ыр + Г^) exp (-■£)*;, (3.134) ' -P) J ^fe+i (p + IW>) exp (—■^-) ^ + -М-р) яа+1(р) ,-^+1(-p) 1/2я Pfc+i(-P) + J fffc+i (P - rfc+1i;) exp (— i-J dy + *a+i<-p) Pa+i(p) + j ?fc+i(p —rfc+1i;)exp(—i-j di? **+i<p) (3.135) где Л = ^—2 1, рЛ(р) = riT^a*- P), К (Р) = ГГ1 X X(pft(l)—p). Величины qk(p) при любых Аир рассчитываются использованием стандартной программы ЦВМ, При определенной выше функции потерь Sn (р) = qN (р), М [со (fk (p) + okv)] = qk (p)
152 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ {ГЛ. 3 и, следовательно, qh(p) ~ 0 при |р| > ал. Тогда из (3.134) получим М(^(р+Г^)]-^-1(р) и численно находим P^-id) — корень уравнения t|br-i(ip) — ^jv-i(p) = 0, причем t|)jv-i(p) > ?jv-i(p), если |р| ^ /V-i(l); ^jv-i(p) < g*-i(p), если |р| >7Vi(D. В процессе определения PN-i(l) величины ^л-Др) находим численным интегрированием. Так как решается задача максимизации среднего риска, то S%^1(p, 1) = i|)jv-i (р) при | р |< Pn-! (1); 5Sr-! (p, 1)= д*-1 (р) при | р \>PN-i (1). Далее, для точек pjv-i, входящих в отрезок [0, PN-i(Dh численным интегрированием рассчитываются величины t|V-i(p*-i) и заносятся в память ЦВМ. Учтем, что S%-i (p» 1) ~ О при 1р1<алг-1. Поэтому из (3.135) при k = N — 2 получим M[^1(p + rJV-1^)]-^iv-2(p) и численно найдем Pjv_2(1) — корень уравнения i|)iv-2 (р)— — giV-2 (Р) = 0. SjV-2 (р, 1) = l|?JV-2 (Р) ПРИ | р К Р;у-2 (1),' S°N-2 (pi 1) = gjV-2 (p) ПРИ I p I > Pjy-2 (1). ДЛЯ ТОЧвК pjv-2, входящих в отрезок [(), /V-2(l)], численным интегрированием рассчитываются величины чр^-гСр^-г) и заносятся в память ЦВМ. Дальнейший процесс определения границ области «нечувствительности» производится аналогично. В таблице 3.1 для 7V = 11, 21, 31, представлены результаты расчетов по описанной методике величин /\(1) в условиях, когда d = l, oN = Г^+i = 0,5, 6^7^ = 0,3, V-jYa-i = bk4h + a (к = 0, ..., N), a = 0, 1, Г,- = const и Г| = 0,09, 0,045, 0,03 соответственно при N = 11, 21, 31. При TV = 11 расчет Pft(l) был проведен также и при а = = 1. Из таблицы 3.1 видно, что величины Рк(1) практически линейно увеличиваются с уменьшением к. При а = = 1 величины Рл(1) значительно больше, чем при а = 0, 1: увеличение эффективности управления (увеличение величин bh^h) раздвигает границы области «нечувствительности», позволяя при больших величинах откладывать управление на будущее. Расчет показал, что 5л(р, 1) — плавные функции р. Это позволило при вычислении величин г|>г(р) использовать вместо (3.134), (3.135) квадратурные формулы наивысшей алгебраической точности. 5. Выше подробно рассмотрен алгоритм численного определения границ области «нечувствительно-
§ 3.14] ОГРАНИЧЕНИЕ ЧИСЛА УЧАСТКОВ УПРАВЛЕНИЯ 153 сти» управления при одном участке управления (vo^D. Описанный алгоритм без изменений используется и в общем случае определения вектора оптимального управления и°(р)и границ области «нечувствительности», когда задано произвольное число v0 участков управления. Пусть на предшествующих шагах оптимизации найдены и занесены в память ЦВМ в точках рА функции »5j? (pft, v — 1) (и соответствующие числа Pk(v — — 1)) и доказано, что £°(р, v — 1) — четная и неубывающая функция |р|. При этом, конечно, k^N — v, так как Таблица 3.1 к k(i) к км к kd) 1 1,56 9,44 2,39 3,33 9 0,60 1,43 1,58 2,53 2 1,44 8,35 2,29 3,23 10 0,46 0,49 1,48 2,43 17 0,75 1,73 3 1,34 7,44 2,19 3,13 11 . 1,38 2,33 18 0,64 1,63 4 1,22 6,44 2,09 3,03 12 1,27 2,23 19 0,52 1,52 5 1,10 5,44 1,99 2,92 13 1,17 2,13 20 0,40 1,42 6 0,98 4,43 1,88 2,82 14 1,06 2,03 23 1,12 7 0,86 3,44 1,78 2,73 15 0,96 1,93 27 0,70 8 0,74 2,44 1,68 2,63 16 0,86 1,83 30 0,37 а од 1,0 од 0,1 а од 1,0 0,1 од а 0,1 1,0 0,1 0,1 в противном случае располагаемое число участков управления в момент th не меньше числа интервалов [tu £t+1) (& = &, ..., Л0, выполнено (3.113i) и отсутствует область «нечувствительности». Вычисления начинаются с определения и занесения в память ЦВМ функцииSiv+i-vU*' v) = = S'#+i-v(P)> определяемой равенством S&+1_v (р) = М [S?/+2-v (/tf+x-v (Р) + IW-v*)].
154 оптимизация линейной системы ггл. s Так как М [iSjv+i-v (p + Ьм-vV + IVn-v^ v — 1)] по условию — четная и неубывающая функция I p + ее минимум равен М [Sjv+i-v (/jv-v (p) + Fiv+i-v^, v — l)J и достигается при и = и^_у(р), определяемой (3.110), (3.111). Величина PN-VM находится в результате численного решения уравнения М [$Sr+1-v(p + TN+X-Vv)] - М [^+1_v(/iv-v.(p) + + Г;у+1-г^ V —1)], и тогда | р | < PN-V (v): iA-v (p) = 0, S°N.V (p, v) = = M[5Sr+1-v(p + riV+1-vy)]; | р | > Piv-v (v): u%-v (p) = г/jv-v (р), S°N-v (Pi v) = - M [S°N+i-v (/iv-v (P) + TN+l-vv, v - 1)]. Функция Sjv-vCp, v) «склеивается» из двух четных и неубывающих функций lipl и поэтому обладает этим же свойством. Значения ее рассчитываются и заносятся в память ЦВМ в точках pjv-v. Дальнейший процесс определения границ области «нечувствительности» производится аналогично. На предшествующих шагах вычислений определяется и заносится в память ЦВМ Sk+1 (p, v) четная и неубывающая функция |р|; ранее была определена и занесена в память ЦВМ функция «S°+1(p,v — 1), обладающая тем же свойством. Из леммы 3.3 следует, что минимум функции М [S°k+i (p + bku + I\+1y, v — 1)] равен М [S°+1(/ft (p) + Tk+Xv, v — 1)1 и достигается при в=юл(р), определяемой (3.110), (3.111). Величина РкМ находится в результате численного решения уравнения М [Sl+1 (р + Tk+1v, v)] = M [SUi (h (P) + Tk+1v, v - 1)]. При|р|^РА(у) < (Р) = 0, Si (p, v) = М [52+1 (Р + Th+lv, v)]; при Ipl >PA(v) ul (p) = uh (p), St (p, v) = M [S°h+1 (fh (P) + Tk+1v, v)], £°(р» v)— четная, неубывающая функция Ipl. Ее значения рассчитываются в точках ph и заносятся в память ЦВМ.
§3.15] СЛУЧАЙНЫЙ МОМЕНТ ОСТАНОВКИ ИЗМЕРЕНИЙ 155 Из физических соображений ясно, что при данном к величины Pfe(v) с ростом v уменьшаются и делаются равными нулю при v = N + 1 — к. Поэтому чем больше v, тем меньше область «нечувствительности» управления. При непрерывном врехмени вопросы оптимального стохастического управления рассматривались в [40], [16], [18], [55] и сводятся к исследованию некоторых краевых задач для уравнений в частных производных параболического типа. § 3.15. Оптимизация терминального управления при случайном моменте остановки измерений В § 1.10 было показано, что ситуация управления динамической системой со случайным моментом остановки измерений возникает, если в минимизируемую величину среднего риска входит стоимость затрат, расходуемых на измерения. Альтернативные решения о прекращении измерений после момента tk (решение 1) или о продолжении этих измерений по крайней мере до момента 4+i (решение 2) принимаются в зависимости от знака величины ASk (р) = Si (р) — S* (р), где р = р (tk), a Si {xk) и Sl{xh) определяются формулами (1.93), (1.94). Если Д5А(р)>0, то принимается решение 1; если ASh(p) < 0, то принимается решение 2. В рассматриваемом случае величины S\{p) и Sl(p), как следует из (3.19t), (3.20), имеют вид Si (p) = min {M [Sln (p + Ъки + Th+lv)] | и е= <Uh) + cofe, (3.136) f Г / т ?2 Sk (p) = min'jM со p + 12?! (т) и (т) dx + + Л(**.Л и(т)е=Щ(т)} + щ, (3.137) где матричная функция 2?i(t) была определена в § 3.2; граница области, на которой величина ASk(p) меняет знак, определяется уравнениями Sl(p) = Sl(p) (3.138) и 5j(p) = minl5i(p)f5j(p)}. (3.139)
156 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ ТГЛ. 3 Так как величина T — th может быть достаточно велика при принятии решения 1 в момент th, то нецелесообразно считать вектор управления постоянным на отрезке [th, T]. Поэтому операция минимизации в (3.137) должна определить вектор-функцию и°(р, т), те [tk, T]. Рассмотрим задачу оптимизации при одномерном управлении, считая о)(р) четной, неубывающей функцией |р|. В этом случае, как и в § 3.15, индукция и лемма 3.3 сразу определяют явные формулы оптимального управления и численные методы применяются лишь при решении уравнения вида (3.138). Пусть t е [tkl Я, — yit) ^ u(t) ^ fit) и положим т ak = ( I #i Ы I У Ы dx, th т Рл(р, ") = Р + \B1(T)u(x)dn. Из принятых свойств функции со(р), леммы 3.3 и (3.137) следует, что если Д£л(р)>0, то оптимальное управление должно сделать возможно меньшей величину |pfe(p, в)|. Поэтому, если Д5л(р)>0, то при |р| > ак и% (р, т) = - y(t) sign (РВг (т)) (3.140) и h (р, и* (р, т)) = р — ал sign p. При |р| <ah функция и°(р, т) — любая функция, удовлетворяющая условию рл (р, щ) = 0; например, и° (р, т) = — а^у (т) р sign B± (т). (3.141) В данном случае Sl (р) = М [со (pfc(p, ul) + afci;)] + со,. Так какр (р, в?) —нечетная, неубывающая функция |р|, то из лемм 3.3 и 3.4 получим, что S\ (p) — четная и неубывающая функция |р|. Итак, если ASh(p) ^ 0, то оптимальное управление определяется (3.140), (3.141). . Пусть теперь ASk(p) < 0, и допустим, что «S°+1 (p) в (3.136)—четная и неубывающая функция Ipl. Тогда из
§ 3.16) ОБЛАСТИ «НЕЧУВСТВИТЕЛЬНОСТИ» УПРАВЛЕНИЯ 157 леммы 3.3 и (3.136) следует, что в этом случае оптимальное управление определяется формулами (3.110), (3.111) и Si (р) = М [Sj+1 (fk (и) + rfc+1i;)] + cv Из лемм 3.3 и 3.4 получим, что Si (p) — четная и неубывающая функция |р|. Считая, что Sl(p), Sl(p) — непрерывные функции р, найдем, учитывая (3.139), что Sk(p)— четная и неубывающая функция |р|. Так как SSr(p): S% (р).- М [со (fN (р) + TN+1v)] + <о„ — четная и неубывающая функция |р|, то, рассуждая по индукции, получим, что этим свойством обладают функции Sh(p) при&-Л-1, ..., 0. Из физических соображений следует, что при близкой, к нулю величине |р| (и, следовательно, близкой к нулю величине программного управления w°(p, t))> не очень больших затратах на измерения в моменты tk+u ..., tN и не очень малых случайных возмущениях динамической системы на отрезке [tk, T] (не очень малой величине oh) нецелесообразно прекращать измерения после момента th и тем самым ограничиться после этого момента действием на возмущаемую систему близкого к нулю программного управления и°(р, т).Поэтому при малом |р| в типовых ситуациях должно быть Д5л(р) < 0 и, следовательно, принимается решение 2 о продолжении измерений. Пусть pi — единственный корень уравнения (3.138). Тогда область непрекращения измерений после момента th определяется условием | р | <! р£; наоборот, если | р | > р°, то измерения в момент th должны быть последними. Процесс последовательных вычислений величин р£ практически ничем не отличается от подробно описанного в § 3.14 процесса последовательных вычислений величин pft(l). Процесс организуется наиболее просто, если о)(р) = 0 при Ipl ^ d\ о)(р) = 1 при |р| > d. § 3.16. Области «нечувствительности» терминального управления при учете энергозатрат Рассмотренные в § 3.14 и 3.15 задачи оптимизации стохастического терминального управления приводили к раз- - рывным управлениям. Скачки в величинах управлений происходили при пересечении границы области «нечувст-
158 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ: 3 вительности» или границы области прекращения измерений. 1. При специальном виде терминальной функции потерь о)(р) еще один пример разрывных оптимальных управлений дает описанная в § 1.11 задача минимизации энергозатрат, если отсутствуют ограничения на векторы управлений, а величина энергозатрат пропорциональна сумме модулей векторов управлений [7]. Пусть о)(р)— четная, выпуклая вниз положительная функция переменных такая, что о)(р) неограниченно растет с ростом |р|. Кроме ТОГО, ПОЛОЖИМ, ЧТО On — неособенная матрица; для применимости леммы 3.2 такой же считаем и матрицу IVm-' ix = т = r(bN) = KCjv+i); риск S является терминальным: S = о)(рт). Но S% (р) = min{М [о (р + bNu + TN^v)] | и е <Гт}. (3.142) Из (3.142) и леммы 3.2 найдем и% (р) = - Ь^р. S°N (р) - М [со [TN+1v)] = const. (3.143) Поэтому минимальный терминальный риск 5° равен S%(p), не зависит от векторов управлений в момент Jjv-i, . . ., t0 и эти векторы следует использовать для минимизации средних энергозатрат на отрезке [£0, Т]. Положим, что в (1.80) ^Хх, и) = с I и I, U — ^-i = А и, следовательно, энергозатраты на интервале [tk, th+i) равны сД|ил|. Поэтому суммарные энергозатраты, например масса топлива, израсходованного при управлении двигателем ракеты, пропорциональны величине W: W = | ЬЛгр (tN) | + | и*-1 (Р (tN-i)) | + ... + К (Р (*о)) |. Величину W следует считать риском, ответственным за энергозатраты, а для выбора минимизирующих W векторов управлений в моменты tN-i, ..., t0 используем рекуррентные уравнения главы 1, которые в данном случае примут вид Wl (р) = min {Wk (p + М I и е= &т), (3.144) Wk(р) = М [\VUi(р + Т^)] + \и\, (3.145) ^(р) = |Ь^р|| k = N-l, ...,0, \и\—четная, выпуклая вниз функция и; таким же
§ 3.16] ОБЛАСТИ «НЕЧУВСТВИТЕЛЬНОСТИ» УПРАВЛЕНИЯ 159 свойством обладает функция W%(p), так как | Ьй1 (Яр, + (1 - Я) ра) | < Я | 6^pi I + (1 - Ь) I Л21- Поэтому, следуя индукции, проведенной в § 2.6, найдем, что И^р + bhu) — выпуклая вниз функция и, что обеспечивает сходимость алгоритмов нелинейного или стохастического программирования при минимизации в задаче (3.144); выпуклой и четной будет и функция VF°(p.) Покажем, что существует окружающая точку р = О область «нечувствительности» Qk оптимального управления: если р е Qk, то и% (р) = 0. Положим Fh (p) = = M[W°M(p + Th+1u)]. Так как Fh{p) —выпуклая вниз функция, то по известному свойству таких функций Fk (р + Ъки) - Fk (р) > Fn (РуЪкщ (3.146) где Fk(p) — градиент функции Fk(p). Из (3.145) и (3.146) получим Wh(p + bku) = Fk(p + bku)-Fk(p) + Fk(p) + \u\^ ^Fh(p) + F'k(pybhu + \u\. (3.147) Положим и= \и\е, где е — произвольный единичный вектор в <§Гц. Тогда из (3.147) Wh(p + bhu)>Fk(p) + | и\ [1 + F'h(prbhe]. (3.148) Пусть Qfe — область векторов р, для которых | Fk (p)T bk |^ ^ 1. Если р е fife, то при любом векторе е (любом направлении вектора и) положительно второе слагаемое в правой части (3.148). Это слагаемое минимально (равно 0) при м — 0; в этом случае неравенство (3.148) переходит в равенство Wh(p, 0) =Fh(p). Итак, если р ^ Qft, то функция И^(р, и) достигает минимума при и = ик(р) = 0 и, следовательно, Qh — область «нечувствительности» управления. Остается показать, что область Qk непуста. Учтем, что F'k (р) = М [W°k+1 (p + Tk+1v)], (3.149) где W°h+ (р) — вектор градиента функции Wk+i (p) Так как Wl+X (р) = Wk+i (— p), то, дифференцируя это равенство, получим, что Wk+i(p)— нечетная вектор-функция:
160 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [I7L 3 — Wk+i (p) = Wh+i (— p). Отсюда получим F'h(0) = М [1<+1(Г,+1г;)] = 0, (3.150) так как из (3.34) J И#+1 (rfc+1i;) p(v)dv=-l Wl+i (Гл+ii;) р И rfi; - 0. Итак, точка р = 0 принадлежит Qk. Так как компоненты вектора Fk(p) непрерывно зависят от р, то Qk является некоторой областью, окружающей начало координат. Границы области Qk приближенно описываются уравнением \F'h(p)4k\ = l. (3.151) Если разложить вектор-функцию Fh (p) в ряд в окрестности точки р = 0, то, учитывая (3.150), приближенно можно записать Fk (p) ~ Akp, где Ah — некоторая матрица. Поэтому Qh приближенно является эллипсоидом в <&^ если (3.151) переписать в виде PTAlbhbkAkp = 1 и допустить, что AlbkblAk>0. Из (3.151) видно, что с уменьшением элементов матрицы 1\+1 (с уменьшением случайных возмущений на интервале [th, tk+l)) элементы матрицы Ah увеличивается и, следовательно, область Qk стягивается в точку. Это соответствует следующим интуитивным представлениям: если известно, что система незначительно возмущается на интервале [thy th+i), то для экономии энергозатрат незачем откладывать управление до момента th+i. Пусть р ^ Qft; ill — вектор оптимального управления, минимизирующий Wh(p, и); Ьи- вектор с малой величиной |6в|. Так как т | и + bu | ~ | и | + -у^-р 6и, то Wk (р + Ък (и°к + bu)) = Fk(p + bk {ul + bu)) + | и + bu | - ~ Wk (p + bkuf) + (F'h (p + bkulY bh + j^y I bu. (3.152) Так как Wh(p+ bhu) выпукла вниз по и, то из (3.152) видно, что необходимым и достаточным условием оптимальности вектора и" служит равенство ui=-\ui\ blF'h (p + bhuf)t (3.153)
§ 3.16] ОБЛАСТИ «НЕЧУВСТВИТЕЛЬНОСТИ» УПРАВЛЕНИЯ 161 соответствующее |ы алгебраическим уравнениям относительно компонент вектора и\. Из (3.153) видно, что К(р + м2(р))Ч| = 1. Поэтому при р & Qh вектор оптимального управления Uk(p) таков, что конец вектора р + bkUk(p) находится па границе области Qk. Поэтому, если вектор р удовлетворяет уравнепию (3.151), то и°(р) = 0 и, следовательно, (3.151) — точное уравнение для границы области fife. Следует подчеркнуть, что существование области «нечувствительности» управления явилось следствием пропорциональности энергозатрат на интервалах [tk, thAri) модулю векторов управлений; если энергозатраты пропорциональны квадрату модуля, то легко показать, что векторы оптимальных управлений линейно зависят от векторов p{tk) и области «нечувствительности» отсутствуют. 2. Задача оптимизации терминального управления при учете ограничения на располагаемую энергетику W, общая постановка которой описана в § 1.8, также имеет область «нечувствительности» оптимального управления, если энергозатраты связаны с управлением использованной выше зависимостью. Из общих уравнений (1.76) — (1.78) видно, что для линейных динамических систем рекуррентные уравпепия оптимизации имеют вид Sl(p,W) = mm{Fh(p + bhu,W—a\u\)\W--a\u\^0} где а — коэффициент пропорциональности, Fk (p, W) = М [S°k+1 (р + Tk+1v, W)l S% (p,W) = min{M [со (p + bNu + TN+lv)]\ W — a \ и |> 0}, co(p)'— четпая, выпуклая вниз терминальная функция потерь. Разложим функцию Fk(p + b'hu, W — а\и\) в ряд и окрестности точки р, W, считая малой величину Ы: Fh(P+ bhu,W-a\u\)~ ~ Fk (P, W) + FA,P(p, Wf Ъки - aFKW(p,W)\u\ = = Fk (P, W) +-| и | (Fht9 (p, wy bke - aFhtW (p, W)), (3.154) где Ffcp(p, W) и Fh)W(p, W) — соответственно градиент по p и производная по W функция Fh(p, W); е — произволь- 11 И. А. Богуславский
162 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛ, 3 ный единичный вектор в $V Ясно, что Fkt w(p, W) — величина отрицательная: с увеличением располагаемой энергетики и при отсутствии ограничений на управления величина среднего терминального риска S = М [со (рт)] должна уменьшаться. Отсюда получим, что если вектор р содержится в области Qh(W)1 для которой \Fk,P(P>Wfbh\ то минимальное значение второго слагаемого в правой части (3.154) равно 0, достигается при uk(p, W) = О и, следовательно, Qh(W) — область «нечувствительности» оптимального терминального управления. Эта область непуста, так как Sl+i (р + I\+1i\ W) — четная функция р (легко доказывается по индукции), iS°+liP(p + I\+1i>, W) — градиент S°k+1 (р + rfe+1y, W) является нечетной функцией р и, следовательно, FK p(0, W) = 0. Поэтому область Qh(W) содержит точку р = 0 и ее граница описывается уравнением Кр<р.И0Ч| 3. Наметим решение рассматриваемой задачи при наиболее часто встречающемся на практике случае и. > т. Здесь выкладки существенно усложняются. Пусть ф(р) — функция из леммы 3.1, ф°(р) = ==min {ф(р + Ьи)\и^&>т}, г(Ъ)=*т, а —матрица размерности р X g, p> q, r(a) ^ q, Р(а) — матрица размерности рХ(р — г(а)), у которой столбцы — единичные векторы, перпендикулярные друг другу и столбцам матрицы а: Р(а)та = 0Р-Г(а))<7. При заданной а матрицу Р(а) легко найти по известным правилам линейной алгебры. Так как ограничение на вектор и отсутствует, то из (3.73) следует, что функцию ф°(р) можно представить в виде фЧр)==ф(Р(Ь)Тр), (3.154,) где ф(...) — некоторая функция \х — ЛЬ) переменных. Рассмотрим теперь задачу (3.29) при °Uh = &m, r(bk) = m и последовательно будем использовать (3.154!). Найдем S% (р) = SN (P (bNy p), где ~SN (...) — функция \i-rn переменных. Тогда S°N.X (p) = min {M [SN (P (bNY (p + bN^u +
§ з.17] КВАДРАТИЧНЫЕ ФУНКЦИИ ПОТЕРЬ 163 Допустим, что Р (bNy bN-i ф (V_w,m, rx = r (P (bNy Ья-г) < |i - т. Отсюда получим 5Хг_! (р) = Sjv-i (Р (Р (Ь„)* Ья-гУ р), где Sn-i(. ..) — функция ii — m — ri переменных. Если при этом i\ < т, то оптимальное управление, минимизирующее SN-i(p + bN-iu), будет определять не т компонент вектора и, а их ri линейных комбинаций. Продолжая описанный процесс, далее получим некоторое число I, для которого матрица Р(Р(.. .{P(bN)TbN-i)\ . .)TbN-i+i)TbN-i имеет ранг, равный числу строк. В этом случае Sn-i (p) = const (аналогично тому, как ранее S%(p) = const при |n = m). Поэтому минимальный терминальный риск 5° равен Sn-i и не зависит от векторов управлений в моменты ^-г-i, ..., t0. Эти векторы, а также компоненты векторов управлений в упомянутых выше линейных комбинациях используются для минимизации средних энергозатрат на [t0l T\. Если бы столбцы матрицы bN-i линейно зависели от столбцов матрицы bN, то P{bN)TbN^i = (V-m>m, управление в момент tN-t не влияет на 5#-i и может быть использовано для уменьшения энергозатрат. Аналогичная ситуация возникает, если при некотором i столбцы матрицы Ьг—± линейно зависят от столбцов матрицы bi. Намеченный путь синтеза оптимального управления по векторному критерию (по критерию точности и по критерию энергозатрат) легко конкретизируется, если ау(х) = = xTRx, R > 0. Он может быть использован при решении задачи § 3.17 npni?ft = 0nn, (?ft = 0mm. § 3.17. Оптимизация управления при квадратичных функциях потерь и отсутствии ограничений Выше было показано, что задача оптимизации терминального одномерного симметрично ограниченного управления решается в аналитическом виде, не требующем привлечения численных методов. Второй случай аналитического решения получим, если считать, что все функции потерь, входящие в критерий оптимальности, являются квадратичными формами, а ограничения на вектор управления отсутствуют.
Ш ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ {I\Jt 3 Рассмотрим задачу (3.24), если % = ^w и (д(х) = xTRx, ghU, и) = #т/?л# + uTQhUy где /? ^ 0, Qh>0, Rh> О, матрицы Л, <?ft, Rk симметричны. Рассмотрение основывается на следующих замечаниях: 1. Пусть W— случайный вектор такой, что М [W] = 0; ^4 — некоторая матрица. Тогда М [WTAW] = ТгЛМ [HWT]. (3.155) 2. Пусть А>0; Г — произвольная матрица. Тогда Тг4Г.Гт>0. (3.156) Выражепие (3.156) следует из .(3.155), если W = Tv, М [vvT] = I и учесть, что всегда WTAW>0, так как по условию А ^ 0. 3. Пусть А>0, Q>0. Тогда неособенна матрица Л: Л=ЬтАЬ + <2, где Ь — матрица соответствующей размерности. Матрица Л > 0, так как для любого вектора х хтАх = xTbTAbx + xTQx > 0. Тогда, как было показано в § 2.3, матрица Л — неособенная. Перейдем к решению задачи (3.24) по индукции, приняв для упрощения выкладок, что Д = 0. Пусть в результате предшествующих шагов оптимизации установлено, что «S/1-f 1 (х) имеет вид S°h+1 (x) = x*Ak+1x + 4+i, (3.157) где Ah+1 = AUly Л+1>0, dfe+1>0. (3.158) Из (3.157) получим, учитывая (3.25) и то, что М [v] = 0: Sk (x, и) = (ahx + bkuy Ak+1 (ahx + bku) + WQhu + + x-Rkx + dh+1 + TrAk+1Tk+1TUv (3.159) Так как Qk> 0, то Sh(x, и) — строго выпуклая вниз функция и имеет единственный минимум. Приравнивая нулю градиент ^(я, и) по и, получим, что вектор оптимального управления ul определяется равенством ul (x) = - А^Ь1Ак+1акх, (3.160)
§ 3.17] КВАДРАТИЧНЫЕ ФУНКЦИИ ПОТЕРЬ 165 где Ак = ЫАь+фъ + Qh. Матрица Л/Г1 существует вследствие замечания 3, так как по условию Qh > 0, а по предположению Ak+l ^ 0. Подставляя (3.160) в (3.159), получим минимальный условный риск St°k{x) = x'rAhx + dk, (3.161) где dk = dk+1 + TrAk+1Ck+u (3.162) А = а1 [А+1 - Ak+1bh (blAh+1bh + Qj)'1 blAk+1]ah + Rk; (3.163) при этом Гл+хП+i = Cft+t; С^+1 = C(^+i)v определяется выражепием (3.16). Сумма трех квадратичных форм в правой части (3.159) неотрицательна (так как Ah+i >0,Rk> 0, Qh > 0) при любом векторе х и любом векторе и, в том числе и при Uh(x), в соответствии с формулой (3.160). Поэтому квадратичная форма в правой части (3.161) неотрицательна при любом векторе х и, как видно из (3.162), неотрицательно число dh. Следовательно, для матрицы Ah и числа dh справедливы формулы Ak = Al Л„>0, dk>0. (3.164) Из (3.26) и формулы (3.159) при k = N следует, что AN+l=R, dN+i = 0. (3.165) Поэтому формулы (3.162), (3.163) являются рекуррентными соотношениями, которые позволяют последовательно определять матрицы Ак и числа СА, если учесть начальные условия (3.165). Матрицы Ак при k^N+1 неотрицательно определены, так как по условию R > 0, а из условий (3.158) были получены условия (3.164). Решение (3.160) задачи оптимизации не изменится, если положить (?ь = 0 (критерий оптимальности не «заботится» об уменьшении энергозатрат), по R>0, Rk>0. Допустим в (3.157), что Ak+i>0. Так как по условию r{bh) = m, то матрица ^1Ак+1Ьк>0 и, следовательно, неособенная (действительно, при любом векторе у е &т УЩА^ФъУ > 0, так как ЬкуФ0, если у¥=0). Поэтому в (3.160) Л, = blAk+1bk. (3.166)
166 ОПТИМИЗАЦИЯ ЛИНЕЙНОЙ СИСТЕМЫ [ГЛЬ 3 Заметим, что если вектор ahx лежит в гиперплоскости <э(Ъки), то вектор ul из (3.160) при Ah из (3.166) является решением уравнения akx + bhu = 0 (в этом убедимся, если положим ahx = bhuu где ц4 — некоторый вектор, и получим и° = — щ). Матрица Ah в (3.161) определится из (3.163) при Qh = 0. Так как по условию Rh>0, то и Ah>0. Учитывая (3.165) при R > 0, по индукции получим, что Ак> 0. Матрица Ah в (3.166) —- неособенная, и (3.160) для к = = N, ..., 0 решает задачу оптимизации и при Q = 0. Если т = п, то ик (х) = — bk ahx, Ak = Rk. В этом случае xk = 0, ц£ = 0 при к = 1, ..., iV. Оптимальное управление (3.160) доставляет минимум S0 критерию S: S = S(u0, ..., uN) = N м (3.167) Из (3.161) следует, что 5» = м [^2 (*„)] = м [х;лЛ] + d0 = тм0св + ^, где Са — априорная к. м. векторов #U0), а матрица Л0 и число d0 определяются рекуррентными уравнениями (3.162), (3.163) при начальных условиях (3.165). Как видно из (3.160), векторы оптимального управления iih{x) не зависят от матриц 1\, определяющих стати- стические характеристики случайных возмущений. Поэтому векторы (3.160) решают задачу оптимального детерминированного управления дискретной линейной системой xh+i = ahxh+ bhu, минимизирующего критерий N S == S{u0, ...,uN) = xTN+1RxN+1 -f 2 (xjRiXi -f ulQiU1). При этом 5° = xIA0Xq.
ГЛЛВА4 РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ ФАЗОВЫХ КООРДИНАТ ЛИНЕЙНОЙ СИСТЕМЫ § 4.1. Основные предположения В главе 1 было показано, что для синтеза оптимального стохастического управления объектом в условиях, когда поступает дискретная статистическая информация о его текущих фазовых координатах, надо знать достаточные статистики — характеристики условных распределений векторов фазовых координат. В данной главе рассматривается случай, когда объект управления линеен — описывается линейными дифференциальными уравнениями вида (3.1), а векторы измерений yk линейно зависят от векторов фазовых координат x(th) = xh. От векторов измерений у0, ..., ук могут зависеть матрицы ah, bh, входящие в уравнение (3.10) дискретной линейной системы, эквивалентной объекту управления в моменты £о, • •., thl ..., tN, T, матрицы, описывающие линейную связь векторов yh и xh, корреляционные матрицы случайных векторов возмущений и ошибок измерений. Предполагается, что нормально априорное распределение вектора х0 и нормальны апостериорные (после фиксации векторов измерений) распределения векторов возмущений и ошибок измерений. Тогда векторы хк имеют нормальные условные (апостериорные) распределения при произвольной зависимости векторов управлений от рацее зафиксированных векторов измерений,, а достаточные статистики — векторы условных м. о. и условные к. м. векторов хк определяются рекуррентными уравнениями, которые называются «алгоритмами оптимальной рекуррентной фильтрации» («алгоритмами ОРФ»). Из § 1.7 следует, что векторы условных м. о., последовательно определяемые алгоритмом ОРФ, являются оценками векторов фазовых координат, оптимальными по среднеквадратичному критерию. При отсутствии зависимости от векторов измерений матриц описания моделей динамической системы ц
168 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 измерений алгоритм ОРФ, определяющий векторы условных м. о., является дискретным линейным оператором над векторами измерений, оптимальным по среднеквадратичному критерию. Но предложенный в [27] (см., также [19], [36], [44]) алгоритм Калмана, применимый при измерениях модели 1, тоже является дискретным линейным оператором, оптимальным по среднеквадратичному критерию и полученным в рамках корреляционной теории (используются первые два априорных момента без предположений о виде распределений случайных векторов возмущений и ошибок измерений; алгоритм Калмана не изменится, если эти распределения считать нормальными). Из единственности оптимального линейного оператора (см. также теорему В. С. Пугачева [43, стр. 768]) следует, что алгоритм Калмана и алгоритм ОРФ при измерениях модели 1 должны совпадать. Поэтому, далее, этот алгоритм ОРФ называется «алгоритмом ОРФ Калмана». В общем случае алгоритмы ОРФ разной структуры (в том числе и алгоритм Калмана) выводятся далее при рассмотрении измерений модели 2. Следует отметить, что способ вывода алгоритмов оптимального оценивания как алгоритмов определения параметров условных нормальных распределений существенно проще способа получения этих же алгоритмов как линейных операторов, оптимальных по среднеквадратичному критерию. Поэтому ниже систематически используется именно этот способ вывода (использование способа в различных статистических ситуациях было проведено в [10]), основанный только на известных в теории вероятностей [1] свойствах условного нормального распределения. § 4.2. Параметры условного нормального распределения Простой вывод алгоритмов ОРФ для различных моделей векторов измерений (векторов обратной связи) целесообразно, как уже упоминалось, основывать на формулах для параметров условного нормального распределения. 1. Предварительно изложим некоторые свойства нормального распределения, используемые в этой главе. 1) Пусть случайный вектор х имеет вектор м. о. я, к. м. С, причем АС) <п. В этом случае к, ВД. С и цен-
§ 4.2] ПАРАМЕТРЫ УСЛОВНОГО РАСПРЕДЕЛЕНИЯ 169 о ^ трированный случайный вектор х = х — х можно представить в виде ь v^-v о Вхг\\ о где хг — вектор КС) XI; Сг — пеособейная к. м. вектора о хг\ В — некоторая матрица (п —АО)Хг(С). Действительно, в матрице С можно выделить неособенную матрицу Сг ранга г(С) и расположить ее в левом верхнем углу матрицы С. Но тогда строки находящейся под ней прямоугольной матрицы (п — г(О) Хг(С) являются линейными комбинациями строк матрицы Сг и матрица имеет вид ВСг, где В — матрица, составленная из коэффициентов этих линейных комбинаций. Так как С симметрична, то матрица в правом верхнем углу матрицы С равна СГВТ. Матрица в правом нижнем углу матрицы С равна ВСГВТ, так как ее строки являются линейными комбинациями строк матрицы СГВТ. Из представимости матрицы С в виде (4.1) следует о представимость вектора х в виде (4.1). Итак, если к. м. С —особенная, то п — г{С) компонент вектора х связаны функциональной линейной зависимостью с его первыми г(С) компонентами и, следовательно, не случайны, если эти г(С) компонент зафиксированы. 2) Пусть совместное распределение векторов хх и xq размерности / X 1 и q X 1 нормально. Тогда условное (при фиксированном хд распределение вектора xq нормально. 3) Если векторы xh xq не коррелированы: М [(xt —lei) (xq — lzqf] = 0lq, то упомянутое условное нормальное распределение вектора xq совпадает с безусловным. Это означает, что некоррелированность нормально распределенных векторов равносильна их статистической независимости. 2. Дальнейшее рассмотрение основывается на следующей лемме. Лемма 4.1. Пусть совместное распределение векторов xh xq нормально и даны хг = М [хг], \ = М [zq], M [(хг — xt) (xi — ж/)т] = <?, М [(xq —.#e) (xq — 3g)*] = Cq, M [(xq — xq) (xi — 9j)T] = L. C = всТвс'&Ь T , Г И X =
170 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [Ы. 4 Допустим, что к. м. Q — неособенная, а вектор х{ зафиксирован. Тогда параметры условного распределения вектора xq — вектор условного м. о. zq и условная к. м. Cq определяются формулами zq = xq + LQ~l(xi — xi), (4.2) Cq = Cq-LQ-4\ (4.3) Учитывая важность формул (4.2), (4.3), приведем два их доказательства. 1) Образуем нормально распределенный вектор v: v = xq — Axi, (4.4) где матрицу Л выберем так, чтобы векторы v и xt были не коррелированы [1]: М [{xq — Axt — \ + Axt) (xt — xtf] = 0ql. (4.5) Отсюда AQ = L, (4.6) или A = LQ-1. (4.7) Так как v и xt не коррелированы, то на основании свойства 3) фиксация Xi не меняет нормальное распределение вектора v и, следовательно, его параметры одинаковы до и после фиксации. До фиксации вектора xt М [v] = *fl — Axh (4.8) М [(v - М [v]) (v - М [и])т] = = М [(xq — !cq — Л (xt — xt)) (xq —Icq—A^i — sz))T] = = с - LAT - ALT + AQAT = C- LQ~lL\ (4.9) После фиксации вектора xt M [v] = zq- Axh (4.10) M[{v-M [v]) {v-M [v])T] = M [(xq - zq) (xq - Zqf] = Cq. (4.11) Приравнивая правые части (4.8) и (4.10), (4.9) и (4.11), получим формулы (4.2), (4.3). 2) Дадим другое доказательство формул (4.2), (4.3). Это доказательство основывается на некоторых предположениях, но более «прямое», чем приведенное выше,
§ 4.2] ПАРАМЕТРЫ УСЛОВНОГО РАСПРЕДЕЛЕНИЯ 171 Кроме того, его методика используется далее при рассмотрении задачи нелинейной дискретной рекуррентной фильтрации. При доказательстве обозначение M[-/xt] означает осреднение при фиксированном xh Необходимо найти zq и Cq: Zg=M [Xq/Zi\, Cq=M [Xqxl/Xi] — ZqZq. Очевидна справедливость тождеств M [М [хч1хг]\ = М [zq] - \, (4.12) М [М [ядж'/я/]] = М [М [xq/xi]x]] = M [zqxj] = L + xqxj. (4.13) Для доказательства (4.2) допустим, что zq имеет вид zq = A0 + Axh (4.14) где Л0 и Л — неизвестные неслучайные вектор q X 1 и матрица qXL Подставляя zq из (4.14) в (4.12), (4.13), получим систему линейных уравнений относительно вектора Ло и матрицы Л: Л0 + Лж/ - xq, (4.15) A0xJ + A(Q + хЗ) = L + xqxj. (4.16) Умножая (4.15) справа на х] и вычитая из (4.16), получим AQ = L. Так как () —неособенная, то Л = LQ~l и из (4.15) Л0 = 'xq — LQ^Xi. Подставляя найденные Л0 и Л в (4.14), получим формулу (4.2). Учтем теперь тождество М [М М/хД] = М [Cq + zqz\] = Cq +ЯЯТ. (4.17) Подставляя в (4.17) zq из (4,2), получим MlCJ^Cq-LQ-'L*. (4.18) Допустим, что к. м. Cq не зависит от х{. Тогда М [Сд] = Сд (4.19) и (4.18) перейдет в формулу (4.3). Осталось доказать, что вектор м. о. zq и к. м. Cq, определяемые формулами (4.2), (4.3), полученными при
172 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 предположениях (4.14) и (4.19), действительно являются искомыми параметрами условного нормального распределения. Для этого достаточно проверить, что <p'(ta, Xq) — х. ф. распределения векторов xh xq, полученная с помощью условной х. ф., соответствующей найденным zq, Cq, совпадает с cpOw, Xq) — х. ф. распределения векторов Xi, xq, соответствующей заданным параметрам априорного распределения векторов xi, xq. Здесь Xh Kq — векторы IX 1 и q X 1. Действительно, ф (hi Яд) = М [exp {iX]xi + iXTqxq}] = = exp liK]xi + iXTqxq — ^{^iQh + 2Я^ + Я^Л)]» (4.20) ф' (Яь hq) = M [exp [iXjxi + iX\xq}] = = M [exp {ikjxi} M [exp {ujrg}/^]] = = M [exp htfxi + i)Jqzq - 1 XlCq\X\. (4.21) Подставляя в (4.21) zq и Cq из (4.2), (4.3), убедимся, что <р(Я*, Яд)=ф'(Я*, Xq), 3. Далее используется тождество [22, стр. 58], сводящее вычисление определителя матрицы к вычислению определителей матриц меньшей размерности. Пусть квадратная матрица А разбита на блоки: it Л '• А II 1-9 \л -.л Ь где Аи Ak — квадратные матрицы, причем А{ — неособенная. Тогда \А\ = \А1\\А1-АаА?Аш\. (4.22) В справедливости (4.22) легко убедиться, вычитая из второй строки А ее первую строку, умноженную слева на -А.АГ1. Пусть теперь С0 — к. м. априорного распределения векторов Xiy xq. По условию С0 разбита па блоки: II Lt Ч II
§ 4.2] ПАРАМЕТРЫ УСЛОВНОГО РАСПРЕДЕЛЕНИЯ 173 Обозначим: U — i-я строка матрицы L; сц, су — элементы матриц Cq и СЯ1 принадлежащие i-м строкам и /-м столбцам этих матриц. Из формулы (4.3) следует, что элементы ci} условной к. м. Cq определятся равенством Cii=7ti-k<r% (4.24) Обозначим: Lu Си Си С? — матрицы, составленные соответственно из элементов первых i строк матрицы Z, элементов первых i строк и столбцов матриц С^и Cq, элементов первых I + i строк и столбцов матрицы С0. Матрицы Си Си С\ служат главными минорами матриц Cq, Cq, С°. Из (4.24) следует, что d = Ci - Ь£-гЫ (4.25) Положив А = С?, Ах = Q, А3 = Lh А2 = Ц, А± = Си из (4.22) и (4.25) получим \C$\ = \Q\\Ci-LiQ-1L'!\ = \Q\\Ci\. (4.26) Пусть к. м. С0 положительно определена: С0 > 0. Тогда положительно определена и условная к. м. Ся и, следовательно, неособенно условное распределение вектора xq при фиксированном хи Действительно, из С0 > 0 следует, что положительно определены все главные миноры матрицы С0, а значит, и положительно определены все матрицы С?. Так как |С?|>0, то из (4.26) получим, что |СгГ>0, i=l, ..., гг — Z. Но если положительны определители всех последовательных главных миноров матрицы, то она положительно определена. Поэтому из С°>0 следует, что Cq>0 (если, конечно, \Q\ >0). Заметим, что величины \Q\ci} являются определителями миноров, окаймляющих матрицу Q. 4. Пусть Z=l, W — корень • квадратный из к. м. С0 (C°=WWT) и матрица W разбита на блоки Wlh Wtq, Wqh Wqqi причем Q = Wb+[WlqWjq, L = WnWql + WqqW}q, Cq = WqlWlt + WqqWqq. (4.26J Тогда формула (4.3) может быть записана в другой
174 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 форме, из которой явно видно, что Cq > 0: Cq = WqlWTql + Wq,WTq2, (4.262) где Wql = Wql - Q-WuL, Wq2 = Wqq - Q~iLWlq. Если Wqi = 0q/, то из (4.3) C9 = Wqq (/, - ^W^,,) Й^9. (4.263) Найдем матрицу И^ — корень квадратный из к. м. Cq. Определим матрицу Wq формулой W^Wnilt-VQ-iWlftu,). (4.26J Тогда равенство Сд = WqW\ (4.26.) выполнится, если /, - Q-'w^w^ = (/, - w^wiw^) (iq - VQ-'wlsW^y. Отсюда (1 _ Q-Щ) p2 _ 2p + 1 = 0, или P = Q (Wt.Wl)-1 (1 ± (?" W). (4.26.) Формулы (4.262) и (4.265) могут оказаться более удобными для вычислений элементов к. м. Cq, чем формула (4.3), так как при произвольных ошибках вычислений гарантируют неотрицательность диагональных элементов матриц Cq (из-за ошибок вычислений эти элементы могут стать отрицательными, если близки по величине элементы обоих матричных слагаемых в правой части (4.3)). § 4.3. Стохастическая наблюдаемость Показателем ценности информации, получаемой в результате фиксации вектора xh будет вектор х{ — xh Если этот вектор близок к нулю, то зафиксированный х{ не несет какой-либо новой, по сравнению с априорной, информации о векторе xq и, как следует из (4.2), zq = xq. В противном случае вектор Xi — xt после умножения на матрицу соответствующих весовых коэффициентов прибавляется к xq и, следовательно, zq отличается от xq.
§ 4.31 СТОХАСТИЧЕСКАЯ НАБЛЮДАЕМОСТЬ 175 Формула (4.3) также допускает подобное толкование. Из вышеизложенного следует, что матрица LQ^L* является априорной к. м. вектора LQ^Xi. Тогда диагональные элементы матрицы LQ~lLT являются дисперсиями компонент этого вектора и некоторые из них положительны, а некоторые равны нулю. Из равенства (4.3) следует, что диагональные элементы условной к. м. Cq (условные дисперсии), имеющие те же номера, что и положительные диагональные элементы к. м. L^_1Z,T, будут меньше соответствующих диагональных элементов априорной к. м. Cq. Это означает, что соответствующие компоненты вектора xq «стохастически наблюдаемы», так как условные дисперсии этих компонент меньше их априорных дисперсий. Остальные компоненты xq «стохастически ненаблюдаемы» (их условные дисперсии равны априорным дисперсиям). Вектор будем называть стохастически наблюдаемым, если при данных измерениях будут стохастически наблюдаемы все его компоненты. Справедлива следующая лемма о стохастической наблюдаемости. Лемма 4.2. Обозначим p(xq) число стохастически наблюдаемых компонент вектора xq\ Q(L) — число строк матрицы L, у которых есть не равные нулю элементы. Тогда справедливо равенство pUg) = G(L). (4.27) Пусть U — строка матрицы L такая, что U¥=0 (у U есть элемент, не равный нулю). Из (4.24) получим Сц = С\х 1{\/ 1Ь. Так как(?_1>0, то /г^_1/1>0и, следовательно, сц<сц. Поэтому, если U Ф 0, то г-й элемент вектора xq стохастически наблюдаем. Значит, величина p(xq) равна числу тех строк матрицы L, у которых есть элементы, не равные нулю, и справедливо (4.27).. Ранг матрицы не больше числа ее строк (и числа столбцов), не равных нулю, и, следовательно, ВШ>гШ. (4.28) Неравенство (4.28) иногда используется для оценки снизу величины 6(£). Из леммы 4.2 следует, что для стохастической наблюдаемости вектора xq необходимо и достаточно выполнения условия 0(£) = д и достаточно, чтобы q = r(L).
176 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 / § 4.4. Последовательный: алгоритм Алгоритм определения параметров условного распределения, представленный формулами (4.2), (4.3), в общем случае неприменим, так как требует, чтобы к. м. Q была неособенной. Кроме того, даже при неособенной Q алгоритм неудобен, так как требует обращения матрицы Q порядка IX I, что при большой величине I может вызвать вычислительные трудности. Опишем предложенный в [10] последовательный алгоритм (ПА) определения параметров условного распределения, свободный от отмеченных недостатков алгоритма (4.2), (4.3). ПА основан на следующих очевидных соображениях. Пусть х], .. .,х\— компоненты вектора хх и надо найти функцию условного распределения F(xq/x], ...,#{). Для этого зафиксируем х\ и найдем F (xq, х\, #?, ..., xlJx}); далее зафиксируем х] и найдем F (xq, xf ,...,#// х), xf) и т. д. На 1-м (последнем шаге ПА) зафиксируем х\ и из F(xq, xjx),..., х{~г) получим условное распределение F (xq/x], ..., xt) и его параметры: вектор м. о. zq и к. м. Cq. ПА оканчивается на Z-м шаге, если к. м. Q — неособенная. В противном случае ПА оканчивается за меньшее число шагов. Пусть после s шагов ПА произошла фиксация компонент х]у .. .,xbs(ks^s) и получены z(k8) и С(к9) — параметры условного распределения вектора, СОСТаВЛеН- ^в*1 l гл ного из компоненту ,...,#/, и вектора xq. Этот вектор имеет размерность (л —ft.) XI, так как Z + g=w; обозначим его через х(п — к8). Допустим, что в к. м. C(ks) оказались равны нулю элементы, принадлежащие первым li8 столбцам и, из-за симметрии C(ft«), принадлежащие первым ее \х8 строкам (из неотрицательной определенности к. м. С(к8) следует, что для этого достаточно равенства нулю первых \i8 диагональных элементов к. м. С(к8)). 1 ^8 Это означает, что при фиксированных xt, ..., хх не случайны первые \хг компонент вектора хЫ — к8) (они являются линейными комбинациями х], ..., xtsJ и их исключение (если к8 + \х8< I) из вектора хь не изменит искомого условного распределения вектора xq. Обозначим: z(k, + + (xf) — вектор U — к, - ц,) X 1 и С(к8 + ц,,) — матрица
§ 4.4] ПОСЛЕДОВАТЕЛЬНЫЙ АЛГОРИТМ 177 (п — к8 - \i8) X (п — к8 — |л.), полученные вычеркиванием из z(k8) и С(к8) соответственно первых \.i8 компонент и первых \ia строк и столбцов; zl(k8 + \i8) — первая компонента вектора z(ft8 + p,J; z(k8 + \i8 + 1) — вектор (п — ft8 — — \и — 1) X 1, полученный вычеркиванием из z(ks + \х») компоненты zx{k8 + \х8); сп(к8 + р,8) — первый диагональный элемент матрицы C(k8 + \ia) (по условию Сц(к8 + + |ы8)>0); 1(к8 + \ха) —вектор (п — к8 — \л8 — 1) X 1, полученный вычеркиванием элемента Сц(к8 + 1х8) из первого столбца матрицы С(к8 + р,,); C(fte + |ыв + 1) — матрица (гс — ка — \х8 — 1) X (п — А, — \х8 — 1), полученная вычеркиванием первых столбца и строки матрицы C(ks + \xs). Перед 1-м шагом ПА ка = 0, и в соответствии с принятыми обозначениями надо положить С0 = С(0) п обозначить z(0) вектор, составленный из компопепт векторов Xi, xq. Далее, от С(0) и z(0) переходим к C(\i0) и z([x0), где |л0 — число первых равных нулю диагональных элементов к. м. С(0). Фиксируем компоненты х], ..., Х\ °, хх ° (элементых}, .. . ,#г°не случайны) и по формулам (4.2), (4.3) при / = 1 находим параметры условного распределения вектора д: (гг — jut0 — 1): z (h> + 1) = «(Но + 1) + си (Но)"1' (И-о) (—^ Ы + Ъ0*1), (4.29) C(fx0+ 1) - C(|io+ l) - c11(fi0)-1/(^o)«fio)T, (4.30) где [Хо + 1 = к. Дальнейшие шаги ПА определяются рекуррентными формулами *(Л. + 1)=*(Л. + ц. + 1) + *и(Л.+ + 11*Гг1 (кл + |i.)(-I1 (ft. + ц.) + *"8+Д5+1), (4.31) С (fc,+1) = С (ft, + ц, + 1) - *u (ft, + + lis)"1! (ft. + |l.) Z (*. + ЦзГ, (4.32) где ft8+i = ft.+ fx.+ 1. ПА закончится на шаге s0> если 1) ks = I или ft, < Z, но 2) fts -f u, = / или 0 ' 0 *2 и. А. Богуславский
178 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 3) л.о + \1$о > i. В случаях 1) и 2) искомые параметры условного распределения вектора xq определятся соответственно равенствами Zq = z(&,0), Cq = C(kSo), Zq = z (kSo + ^o), Cg = С (/Сзо + |i,o). В случае 3) вектор zq и матрицу Cq получим, вычеркивая из вектора z (&S()) и матрицы С (&s0) соответственно их первые I — ks компоненты и первые I — ks столбцы и строки. Заметим, что в случае 3) в матрице Cq равны нулю элементы первых А:5() + Н«0— Z столбцов и строк и, следовательно, первые ks -f \is — I элементов вектора xq связаны функциональной (линейной) зависимостью с элементами вектора xt. При s0 = I (\Хо = |Hi =.. .= \ii = 0) к. м. Q — неособенная. Число шагов ПА sQ равно r(Q). Как видно из вышеизложенного, ПА определяет параметры условного распределения вектора xq для произвольной (в том числе особенной) к. м. Q, не используя операцию обращения матриц. § 4.5. Алгоритм ликвидации особенности к. м. Используя часть формул ПА, можно построить и несколько иную схему определения параметров условного распределения. Пусть к. м. Q — особенная: ее ранг r(Q) меньше I. Ранее было показано, что в этом случае можно найти r(Q) элементов вектора xh имеющих неособенную к. м. Остальные I — r(Q) элементов xt являются их линейными комбинациями, не несут никакой дополнительной информации о векторе xq, и их исключение из элементов xt не повлияет на условное распределение xq. В результате размерность вектора хх уменьшится и первый вектор будет составлен из линейно независимых случайных элементов с неособенной к. м. Алгоритм выделения из Xi линейно независимых случайных элементов условно назовем «алгоритмом ликвидации особенности к. м.» (АЛО). Схема АЛО достаточно очевидна. Вначале с помощью формул вида (4.30), (4.32) определяются числа Mo» Ми • • •> М« -ь после чего можно утверждать, что у случайного вектора х\. линейно независимы элементы,
§ 4.6] МАРКОВСКИЕ УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 179 имеющие номера |ы0 + 1> |bt0 + Mi + 2, ..., |ы0 + Mi + • • • • • • + M«0-i *+ 50- Остальные элементы вектора хг исключаются. Из матрицы С0 вычеркиваются столбцы и строки, имеющие номера линейно зависимых элементов вектора хи В результате первоначальная к. м. С0 переходит ВС — к. м. линейно независимых случайных элементов вектора xt и элементов вектора xq с размерностью (HQ) + q)X(r(Q) + q). К. м. Q, размерности r(Q)Xr(Q)1 расположенная в левом верхнем углу этой к. м.,— неособенная. Поэтому для определения параметров zq и Cq может быть использован алгоритм вида (4.2), (4.3). Какой способ определения zq и Cq требует меньше вычислений: применение ПА или применение АЛО с последующим использованием (4.2), (4.3)? Простой подсчет показывает, что количество элементарных арифметических действий (сложений и умножений) меньше при использовании ПА, так как АЛО требует обращения матрицы Qu Тот же вывод остается справедливым, если заранее известно, что к. м. Q — неособенная и применять АЛО не надо. Заметим, что, положив I = п, где пХп — размерность произвольной, симметричной неотрицательно определенной матрицы В, можно с помощью ПА найти ее ранг. Если В — произвольная прямоугольная матрица, то ее ранг найдем, применяя ПА к матрице ВТВ (или ЯВТ), которая симметрична, неотрицательно определена и имеет ранг, равный рангу 5. § 4.6. Условные распределения марковской последовательности и оценки по произвольному критерию 1. Рассмотрим последовательность (Z + qO-мериых случайных векторов *go V xih xqh определяемых стохастическими уравнениями Xlh = йц\К — D#f, k-i » + а п{к — l)xq, й-i + bi(k — l)Hfc-i + г]/, A_i, xqk = aql(k- l)£i.fc-i + + aqq{k— i)xqtk-i + bq(k — l)Bfc_i+T|eik-i, (4.33) (4.34) (4.35) где a«(ft—1), alq{k—l), aql{k — l), аи(Л—1), Ь/(А: — 1), 12*
180 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ ГГЛ. 4 bq(k — 1) — матрицы размерностей 1X1, IXq, qXl, qXq, IXm, qXm. Векторы xl0, xq0 независимы с векторами ц10, r\q0 и имеют параметры априорного нормального распределения: М [хш] = я/0, М [%>] = %,, М [{х10 — я,0) (х10 — ^10У] = Q0, М l\%q0 — %qo) \%q0 — Xqo) J == ^g0> M'[(a?go— «eoX^o — ^o)T] = Ar Векторы tiza, ri^ (ft = 0, 1, ...) образуют последовательность условно независимых нормально распределенных векторов с параметрами М [T)lft/*Hb • • • > *№] = М [I\qk/Xl0> • • > ^Zft] '= °» М [i\ihi\li/xio, • • •, *ift] = Уп (ft) бм, М [%tW*zo> • • > *iftl = = Ygi (А) 6fti, M [Л^дг/Ж/О, • • • , *Zft] = %« (^) 6fti, (4.35x) где 6ftft=l, 6At = 0 при ft^i, 1 = 0, ..., ft. Векторы управлений uk-i — некоторые зафиксированные векторы. Пусть зафиксирована конкретная реализация случайных векторов х10, ..., xlh: xl0 = у0, Хп = Уи • •., xlh = j/fc. Рассуждая по индукции, докажем, что условное (при фиксированных у0, ..., yk) распределение вектора xqk нормально.'Допустим, что данное утверждение справедливо при замене & на ft —1 и, следовательно, условное (при фиксированных у0, ..., ук-д распределение вектора xqth-i нормально и имеет параметры М [Xqth-ily0, ..., 2/ft-i] = 2д,л-ь М [{Zq,k-1 — ^^-^(Жд^-х — Zqtk-if/y0, • . . , J/ft-l] = Cgfft-i. Из (4.34), (4.35), (4.35i) сразу следует, что векторы #7ffc_i и riz.fc-i, t\q,h-i условно независимы и условное (при фиксированных г/о, ..., Ук-i) совместное распределение векторов Xik, xqh нормально и имеет параметры М [xlkly0, ..., ун-i] = *xik = an (ft — 1) Ук-i + + alq(ft - 1)zq-k-! + Ъг(к-1) uh-ly (4.36) M [xqk/y0, ..., yh-i\ == sg* = agZ (ft — 1) y^ + + agg (ft - 1) zq^x + bq (ft - 1) ил_ь (4.37)
§ 4.6] МАРКОВСКИЕ УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 181 М [{xlh — 1си) (xlh — xlk)T/yQ, ..., yk^\ = Qk = = alq (к - 1) Cqtk^alq (к - 1)т + Vu Q* - 1), (4.38) M [(xqk — xqk)(xlh — 'хщУ/Уо, ..., г/л-i] = Lk = = ag5 (A: — 1) C.^ia^ (& — 1)T + ^г (/с — 1), (4.39) M [(xqk — Xqk) (xqh — Xqh)/y01 . . . , ук-г] = Cqh = = aqq (к - 1) C^-^ (* - 1)т + 4qq (к - 1). (4.40) Перед моментом фиксации вектора yk эти параметры описывают априорное (доопытное, если опытом считать фиксацию вектора х1к = ук) распределение векторов xlh и xqk. Из леммы 4.1 и формул (4.36) —(4.40) следует, что при к > 1 условное (при фиксированных у0, ..., yh) распределение вектора xqk нормально и, если матрица Qh — неособенная, имеет параметры zqk1 Cqk\ zqk = xqk + LbQb1 (yk — я№), (4.41) Cqk = Cqk^LkQ^Ll (4.42) При к = 0 формулы (4.36) —(4.40) не используются и zq0, Cq0 сразу определяются по априорным данным формулами (4.41) и (4.42). Если матрица (?* —особенная и имеет ранг гк < /, то, используя описанный выше ^-шаговый АЛО, исключим из вектора х:к I — rh компонент, функционально связанных (при фиксированных Уо, ..., Ук-i) с остальными случайными элементами вектора xlk. В векторах yk, х1к необходимо исключить компоненты, соответствующие исключенным компонентам вектора xlh, а в матрицах Lh1 Qk надо исключить соответствующие строки и столбцы. Меньшее число арифметических операций надо затратить на определение параметра zqk, Cqh, если использовать описанный выше ПА. Векторы х[к и xqh образуют вектор zA(0), а матрицы Qh, Lki Cqh образуют матрицу Ch(0) — параметры априорного (перед фиксацией ук) распределения вектора хк, составленного из векторов х[к, xqh, zqk, и Cqk определяются в результате последовательного применения формул типа, (4.29) —(4.32). Так как по условию априорное распределение векторов Ж/о, xq(i нормально, то по индукции следует, что при любом к нормально условное (при фиксированных */о, ..., ук) распределение вектора xqk.
182 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [IYL 4 Уравнения (4.34), (4.35) описывают эволюцию векторов xlk, xqh — фазовых координат некоторой линейной дискретной стохастической системы, если матрицы в правых частях (4.34), (4.35), а также векторы управлений uh-i и векторы Н/й_1, r\qyh-i пе зависят от фазовых координат. Очевидно, что в этом случае нормально априорное (до фиксации векторов 7/„, ..., у hi распределение вектора xqh. Пусть теперь упомянутые матрицы и векторы являются произвольными нелинейными функциями векторов х[0, ..., х1>к-!. В этом случае xik, xqh — фазовые координаты некоторой нелинейной дискретной стохастической системы и априорное распределение вектора xqk, конечно, ненормально. Однако условное (при фиксированных х[0 = у0, • •., Ъь. = У hi распределение этого вектора нормально и его параметры определяются формулами (4.41), (4.42), причем от векторов измерений г/о, ..., Ук зависит не только вектор условного м. о. zqh, но и условная к. м. Cqk, Формулы (4.41), (4.42) являются частным случаем полученного в [10] алгоритма рекуррентной фильтрации, используемого, если векторы измерений принадлежат модели 2. Однако методически целесообразнее, наоборот, алгоритмы рекуррентной фильтрации для всех видов векторов измерений получать из (4.36) —(4.42). Эта точка зрения последовательно проводится далее. Рекуррентный алгоритм, описываемый формулами (4.36) —(4.42), можно назвать алгоритмом оптимальной рекуррентной фильтрации (алгоритмом ОРФ), так как он последовательно определяет векторы условных математических ожиданий — векторы оптимальной оценки векторов xk по среднеквадратичному критерию качества вида (1.63). 2. При 1= 1 определим матрицы Wu(k), Wlq(k), Wql(k), Wqq(k) соотношениями, аналогичными (4.26i), а к. м. Cq,k-i представим в виде Тогда, как следует из (4.39), (4.40), Шк) = Wu(k)»\ W[q(k) = alq(k - l)Wq, h-u а матрицы Wql{k), Wqq(k) определятся из квадратных матричных уравнений, следующих из (4.39), (4.40). В этом случае к. м. Cqh может быть представлена в виде
§ 4.6] МАРКОВСКИЕ УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 183 (4.262), предпочтительном при наличии ошибок вычислений. Пусть теперь 4rqt = 0qh Ygg = 0qq. Тогда Wql(k) = 0qh Wqq(k) = aqq(k -l)Wq> ^ и из формулы (4.264) получим рекуррентную формулу для матрицы Wqh — корня квадратного из к. м. Cqh: Wqh = Wqq (к) (Iq - hQ^Wlq (k) Wlq (kf), где h = Qk {WlqWlq (к))'1 (1 ± (Wu (к) С/Г1)172). Полученная формула для Wqk является рекуррентной, что делает излишним в алгоритме ОРФ определение к. м. Cqh по формуле (4.42). 3. Нормальность условного распределения векторов xqh в ряде случаев позволяет несложно найти оценки компонент этих векторов, оптимальные по достаточно общему критерию. Пусть надо для величины х — некоторой компоненты вектора xqk найти z° — оптимальную оценку, минимизирующую М [со {х, z)], где coU, z) — заданная положительная функция потерь двух переменных. Обозначим zqj cq соответственно компоненту вектора zqh и диагональный элемент матрицы Cqk, являющиеся параметрами условного распределения величины х. N Как следует из (1.62), величина z° определится при решении задачи S°(zq) = min {S(zq, z)\ztE&i}1 где oo S(zqiz)= \ ы(х, z)exp|— — (x — zq)2\dx. (4.42x) Эта задача имеет простое решение, если '©(#, z) = = (£>(x — z) и со(р)— четная неубывающая функция |р|. Именно к такому классу функций потерь принадлежит использованная в главе 3 терминальная функция: со(р)=0, если Ipl^d; co(p) = l, если |p|>d. Оценка z°, минимизирующая среднее значение этой функции потерь, максимизирует вероятность того, что \х — z°\^d. Перепишем (4.424) в виде оо S (zq, z) = S {zq — z) = \ со (zq — z + v) exp I — —- y2| dv.
184 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 Из леммы 3.3 следует, что S(zq—z) является неубывающей функцией |гд —z| и, следовательно, z° = zq. Поэтому компоненты вектора zgft, последовательно определяемые алгоритмом ОРФ (4.36) —(4.42), являются оценками компонент вектора xqk, оптимальными не только для квадратичной функции потерь, но и для функций потерь достаточно широкого класса. § 4.7. Марковская последовательность достаточных статистик Ниже рассматривается случай, когда от векторов измерений не зависят все матрицы, входящие в (4.34), (4.35). Тогда векторы, составленные из векторов xth, xqh последовательности (4.33), имеют условное (при фиксированных г/о, ..., Уъ) распределение, полностью определяемое числом к (условная к. м. Cqh зависит лишь от к) и векторами условных м. о. yh, zqh (так как xlh = г/л, то условное распределение вектора xtk вырождено — его плотность вероятности — Z-мерпая дельта-функция). Поэтому векторы Dh: Ak=|r| (4.43) IIVII являются достаточными статистиками векторов xihl xqh. Обозначим ■8* = % - *<*. (4.44) Из определения условного м. о. zqk и условной к. м. Cqk следует, что для к = О, 1, ... условное (при фиксированных г/о, ..., Уъ) распределение вектора бл нормально и М [8k/y0, ..., yk] = О, М [ЬЛ/Уо, • • •, Ук] = Cqh. (4.45) Используя (4.34) —(4.37) и (4.41), получим yh = ап(к - 1)уь-1 + alq(k - l)zq> ft_t + bt(k - \)ик-, + eA, (4.46) Чъ = а>яАк — l)yk-i + aqq(k — l)zQt h-i + bq(k — 1)в*-! + Aheh, (4.47) где при к = 1, 2, ... eft = — alq (к — 1) 8^ + T|,ift_lf (4.48) Ah « LhQp. (449)
§ 4.8] АПРИОРНАЯ ТОЧНОСТЬ ОЦЕНКИ АЛГОРИТМОВ ОРФ 185 Положим 1 _Ki(*-i)!V*-i)| ■а*-» — 15™<л — ЧТГ^Т* —"1) Г Используя обозначение (4.43), стохастические уравнения (4.46), (4.47) запишем в виде Dk = 4_А-1 + Ьа-1^л-1 + Gaba, (4.51) устанавливающем связь векторов достаточных статистик Dk и ZV-i. Пусть зафиксированы векторы у0, ..., yk-i и, значит, зафиксирован и вектор Dh-^ Тогда векторы 6A_i и v[i,k-i в (4.48) независимы, условное распределение вектора eh нормально и, используя (4.45) при замене к па к — 1, получим, учитывая (4.38): М [В*/у0, . . . , Ул-i] - О, М [блЕл/Уо, . . . , IJh-l] = <?*• (4.52) Кроме того, далее, в § 4.8 доказывается независимость векторов eh и е*-,- (формула (4.69)). Итак, в (4.51) при фиксированном векторе Dh-i распределение вектора еА зависит лишь от целого числа к. Поэтому из (4.51) при /с = 1, 2, ..., к, ... следует, что последовательность достаточных статистик Д,, Dt1 ..., Dk, ...— марковская, если только в (4.51) uh = uh(D'h\ к = 0, 1, ... (4.52,) В линейной системе при квадратичном критерии качества оценки вида (1.63) дуальных управлений вида (4.52!) не существует, так как из (1.65) и (1.68) при замене хк и х на xqN и zh и z на zqN следует, что S°N (DN) = М [со (xqN, zqN)/DN] = Tr (RCqN) и, следователрлю, 6% (Д/v) не зависит от DN. § 4.8. Априорная н апостериорная точность оценки алгоритмов ОРФ Выше отмечалось, что алгоритм (4.36) —(4.42) и непосредственно следующие из него далее алгоритмы определения векторов условных м. о. при измерениях вида 1 иди % естественно называть «алгоритмами ОРФ». Од- bLi bt(k-l)\ ьЖ-Щ
186 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 ределяемый (4.44) вектор бл можно называть «вектором ошибок оптимальной оценки», a Cqk — условная к. м. этого вектора может называться «к. м. ошибок оценки». 1. Как уже подчеркивалось, к. м. Cqk описывает апостериорную точность оценки вектора xqk вектором zqh (описывает рассеивание вектора ошибок оценки Ьк = = zqh — Zqh) — точность оценки с точки зрения исследователя, который произвел измерения векторов z/0, ..., yk и после применения алгоритма ОРФ (формулы (4.41), (4.42)) вычислил вектор zqh. Поэтому в данной реализации (после фиксации у0, ..., ук) вектор zqh не случаен и Zq*. = %(Уо, ..., ys, ys+i, ..., yk). (4.53) Однако для проектных исследований необходимо знать ожидаемую точность оценки вектора xqk в будущих реализациях, когда известно, что алгоритм ОРФ будет применяться к еще не зафиксированным (или к частично зафиксированным) результатам измерений. Точность оценки в описанной ситуации условно будем называть «априорной (доопытпой) точностью оценки». Итак, пусть зафиксированы лишь векторы у0, ..., ys (s < к), a zqh по-прежнему определяется рекуррентной формулой (4.41), при последовательном использовании которой надо векторы ys+l, ..., yh заменить нефиксированными (случайными) векторами xlt s+i, ..., х1к. Тогда вектор zqk случаен и вместо (4.53) следует записать zqk = zqh(y0l ..., г/8, xtt s+u • • .i s/k). (4-54) Обозначим Ok\S) = zqb\yo, • • ., Ув, Xit s+1, . . ., Xlh) — Xqh, 8h(s) — вектор прогнозируемых на момент th ошибок оценки, если измерения проводились от момента t0 до момента ts. Определенный ранее равенством (4.44) вектор 6ft совпадает с вектором 8к(к). Вектор априорной ошибки оценки 8ка определяется равенством O/ta == Zqh\XiQ^ . . ., Х(к) Xqh. Докажем, что для всех s, к > s ^ О, M[6k(s)/y0,...,Va] = 0, (4.55) М [6k (s) 8k (s)T/y0J ..., у,] = Cqkl (4.56) где матрица Cqh определяется рекуррентной формулой (4.42). Равенства (4.55), (4.56) означают, что все нор-
§ 4.8J АПРИОРНАЯ ТОЧНОСТЬ ОЦЕНКИ АЛГОРИТМОВ ОРФ 187 малыш распределенные векторы блЫ, 5 = 0, ..., ft, статистически эквивалентны, так как имеют одинаковые м. о. и к. м. При s = к равенства (4.55), (4.56) совпадают с (4.45). Доказательство справедливости (4.55), (4.56) для всех s < к проведем по индукции. Пусть число s зафиксировано и (4.55), (4.56) доказаны при некотором k — l^s. Из (4.41) получим 6,(5) = ГА-|(*) - %,*-! Н-ЛаТ)!,*-,, (4.57) где Th = aqq(k-i)-Ahalq(k-l), Ah = LkQ^\ (4.58) Так как к — 1 > 5, то фиксация у0, ..., ys не повлияла на распределение случайных векторов г\д>к-и Ц1,к-\ и эти векторы независимы с вектором 6ft_i(s). Осредняя обе части (4.57) при фиксированных г/0, ..., Уз и учитывая сделанное предположение о справедливости (4.55) при замене к на ft—1, получим, что (4.55) доказано. Умножая (4.57) справа на 6fe(s)T и осредняя при фиксированных т/о, ..., Уз, получим, учитывая сделанное предположение о справедливости (4.55), (4.56) при замене к на ft—1: м [б, (s) бЛ (*)7уо. • • • > у в] = TkCqJk-ift + vqq (ft -1) + + АкУп (ft — 1)Л1 — Wql (ft - 1)M - A*Y„(ft - 1). (4.59) После простых выкладок, учитывающих формулы (4.38), (4.39), получим, что правая часть (4.59) равна Cqh и (4.56) доказано. Но так как при любом s>0 (4.55), (4.56) правильны при ft = s, а по индукции следует справедливость этих равенств при любом ft ^ s, то (4.55), (4.56) доказаны для всех s таких, что s ^ ft. Дословно так же доказывается, .что если ни один вектор у{ не зафиксирован, то М [вЛв] = 0, М [bhabla] = Cqh. (4.60) Равенства (4.52), (4.55), (4.56) и (4.60) означают, что во всех ситуациях априорная и апостериорная точность оценки вектора xqk при применении алгоритма ОРФ одинакова. Поэтому далее, опуская индексы «5» и «а», ъек- тор ошибок оценки обозначаем через 6&.
188 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 2. Изучим теперь статистические свойства случайных векторов eh(s) = xih-xlk (4.61) при фиксированных векторах у0, ..., у3. Заметим, что должно быть s < к — 1, так как вектор гк{к) = ук — xth не случаен. Из (4.34), (4.36) и (4.57) получим, что гк(к — 1) равен введенному ранее равенством (4.49) вектору ек: eh(s) = -alq(k - l)8k-M + Ц1> fc_lf (4.62) 6k(s) = -aqq(k - 1)6*-,Ы + Aheh(s) + r)g> fc_le (4.63) Из (4.62) и равенств (4.55), (4.56) следует, что статистические свойства случайных векторов eh(s) от s не зависят (фиксация векторов измерений у0, ..., уа на них не влияет). Поэтому, осредняя обе части (4.62) и матрицу ek(s)eA(s)T, при фиксированных у0, ..., у3 получим ЬЛ[гк(8)/у0,...,у9] = 0, (4.64) М[гк(8)гк(8)т/уо, ...,»J = ^. (4.65) Умножим (4.62) справа на ek-i(s)r и осредпим, учитывая правую часть (4.62) и осредпим при фиксированных г/о, ..., ys. Получим М [б, (8) гк (s)T/y0, ..., ys] = 0ql (О < 8 < к - 1), (4.66) так как - alq (к - 1) С^-Л - Ygi (к - 1)т + + Vu(k-i)AZ = -Ll + Ll = Oql. Умножим (4.62) справа на гк-Мт и осредпим, учитывая (4.66) при замене ft па 4-1 и независимость случайных векторов eh-i(s) и r[itk-i- Получим М [ek (s) ел-! (s)4y0, ..., ys] = 0. (4.67) Подставим в (4.62) б^Ы из (4.63), заменив в (4.63) ft па к — 1. Получим e*(s) = сА-гЫ + c2eft-i(5) + с3цд> 7i_2 + r]/t ft_i, (4.68) где ct, c2, cs — некоторые матрицы. Умножим справа (4.68) на ек-2Ыт и осредпим. Учитывая (4.66) при замене ft на ft —2, (4.67) при замене ft на ft—1 и независимость
§ 4.91 СТОХАСТИЧЕСКАЯ НАБЛЮДАЕМОСТЬ 189 Ця,к-2, r\i,h-i и ел_2Ы, получим М [ел (s) ел_2 (s)T/y0, ..., Ihl = Он. Поступая аналогично (используя (4.63) при замене к на /с — 2, & — 3, ..., (4.66) при замене к па к — 3, & — 4, ... и т. д.), получим М [е, (s) вл_« (s)7y0, ..., у.] = Он (4.69) при Ui^i-s-1, Итак, векторы efc(s)f efc-iU), ... (s<ft —1) образуют последовательность случайных независимых нормально распределенных векторов, статистические характеристики которых от s не зависят и определяются (4.64), (4.65). Аналогичный вывод получается, если не зафиксированы все векторы у0> ..., Ук. § 4.9. Стохастическая наблюдаемость при последовательных измерениях В соответствии с принятым выше определением вектор xqk стохастически наблюдаем при измерениях у0, ... ..., yk, если каждый диагональный элемент его условной к. м. Cqh меньше соответствующих диагональных элементов его априорной к. м. Cq(k, 0), вычисляемой, когда векторы Хю, Хщ ..., хл не измеряются, а векторы управлений отсутствуют. Поэтому на практике вопрос о стохастической наблюдаемости при использовании алгоритма ОРФ (4.36) —(4.42) (и при использовании следующего из него алгоритма ОРФ Калмаиа) решается до конца простыми расчетами на ЦВМ: надо рассчитать по (4.42) к. м. Cqk и рассчитать к. м. С\и, получаемую из (4.42) при Qk1 = 0 и (QU1 — 0ц соответствует отсутствию измерений — бесконечно большим диагональным элементам K.M. Yj. Если i-и диагональпый элемент к. м. Cqh меньше г-го диагонального элемента к. м. С\и, то стохастически наблюдаема i-я компонента вектора xqh. В противном случае для уменьшения размерности векторов и матриц алгоритма ОРФ целесообразно уменьшить число оцениваемых компонент вектора xqk. Получим признак стохастической наблюдаемости, не требующий расчетов по формулам алгоритма ОРФ. Обозначим через xt(k)f x0i r), векторы, составленные
190 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 соответственно из элементов векторов xi0, xlu ..., xlk, из элементов векторов х[0, xq0 и из элементов векторов r\u, Y)qi. Нетрудно проверить справедливость соотношений ■ х10 = ах (0, 0) х0, х1х = а/(1, 0)x0 + al(l, 1)т|0, хц = ai(i, 0)x0 + ai(i, l)r\0+ ... + М*\ s)r\s-i + ... ... +ai(i, i)t\i-i, xik = al(k,0)x0 + al(k, 1)т|0+ ... ... + аг (ft, 5) rje-i + ... + at (ft, ft) rift-!, ^ = «g (*, 0) x0 + aq (ft, 1) T)0 + ... ... + ag (A, 5) Tie-! + ... +aq(k, ft) Tift-x, П (4.70) где ai{i1 j) и agU, у) — матрицы, составленные соответственно из первых I строк и следующих за ними q строк матриц a(i, j) размерности (I + q) X (I + q), определяемых равенством a(i, j) = a(i — 1)... a(j), a(i, i) = //+g. Здесь a (ft) — матрица, имеющая в качестве двух верхних и двух нижних блоков соответственно матрицы atl(k), alq(k) и матрицы aq!(k), aqq{k), входящие при замене ft на ft-1 в (4.34), (4.35). Из (4.70) видно, что Q(k, 0) — к. м. вектора xt{k) составлена из блоков-матриц QiU определяемых равенствами Qij = al(i,0)Caal(j,0)T + minuj) + 2 а, (*,«) ¥._!<*,(/,*)', i,/ = lf...,fc, (4.71) (?oi = а, (0, 0) Caat (i, 0)T, £;„ = (ft, i = 0, ..., ft. (4.72) Кроме того, к. м. Cq(k, 0) определяется равенством С,(ft, 0) = aq(k, 0)Caag(k,O)T + + 2e,(M)^(M)', (4.73) s==l a L(ft, 0) — взаимная к. м. векторов xqh и #/(ft) является блочной матричной строкой, последовательными элементами-блоками L(i) (i = 0, ...., ft) которой служат
§ 4.10] АЛГОРИТМ КАЛМАНА 191 матрицы НО) = aq(k, 0) Cefl£(Of 0)\ (4.74) г L (i) = о, (Л, 0) Caat (i, 0)т + 2 «в (*, «) Ф-iej (i, s)T- (4.75) Выше в (4.71) — (4.75) Ca — априорная к. м. вектора я0, составленная из блоков (?0, £о» CV, ^s — к. м. случайного вектора r]s, составленная из блоков Ч^Ы, Ч^Ы, Ч^Ы = = Ч\Ы\ Wqq(s). Пусть теперь вектор xt(k) зафиксирован (хю = у0, ... ..., x,h = yh), а к. м. Q{k, 0) — неособенная. Тогда, применяя лемму 4.1 к векторам xt(k) и xqh, найдем, что Cqh — условная к. м. xqh определится равенством Cqh = Cq(k, 0)-L(k, 0) Q(k, 0)-fL(fc,.0)\ (4.76) Из леммы 4.2 следует, что вектор xqh стохастически наблюдаем после измерений к + 1 векторов х,0, ..., xih, если 0(L(&, 0)) = g (условие необходимое и достаточное) или если ранг матрицы L(k, 0) не меньше q (условие достаточное). Если к. м. Qik, 0) — особенная, то L(&, 0) надо заменить на матрицу L(&, О)1, полученную из L(k, 0) вычеркиванием некоторых столбцов при применении АЛО. Пусть, например, ап{к — 1) = /,, aq>{k — 1) = 0qh aqq(k— 1) = Iq (оценке подлежит вектор постоянных чисел); Wqq = 0qq, Wqi = 0qt; к. м. XVи — неособенная. Из (4.71), (4.72) следует, что к. м. Q{k, 0) — неособенная, а из (4.74), (4.75) получим вид матрицы L(&, 0): L(k,0) = \\L0\L0 + Cqoalq(0),t\...\L0 + ^+Cqo(alq(0)+ ...+a„(ft-l)),|. (4.76x) Если L0 = 0qi, Cq0 — диагональная к. м., a,q(i) =atq = const, то из условия 0(L(&, 0)) = 7 и из (4.76J следует очевидное утверждение: для стохастлческой наблюдаемости вектора xq необходимо и достаточно, чтобы в матрице alq не было столбца, состоящего из нулей. § 4.10. Алгоритм ОРФ при измерениях модели 1 (алгоритм Калмана) 1. Пусть линейная (при отсутствии управления) динамическая система вида (3.1) возмущается нормальным белым шумом hit), а векторы обратной связи в моменты
192 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 tk имеют вид ylh = Hhxh + lk, (4.77) где & = 0, 1, ...; xh = z(tk); Нк — матрицы IX п; 1к — независимые векторы случайных ошибок измерений. Как следует из (3.10) (положив fk = 0 или обозначив bhu + fk через Ъки), векторы хк удовлетворяют соотношениям хк = flfc-i^-i + bk-iuk-i + rjb-i. (4.78) Далее полагаем, что вектор х0 распределен нормально с априорными параметрами — вектором м. о. х0 и к. м. С0, а векторы r^-t и £ft условно (при фиксированных у0, ... ...» Vh-i) нормально распределены, причем М [Ци-г/Уо, ..., Jto-i] = 0, М [^/г/0, ..., ук-г] = 0, М [r\h-ii\Vy0, .... Ук-i] = Чк-А-1,и (4.79) М [gftT|i/y0f ..., ^_i] = M [£i+itift-i/»ot • • • t ^-il = = Vk8k-ltU (4.80) M [gftEf+x/Vo. • • •. Vk-i] = Rk*k-i.u (4.81) где i = 0 — к — 1; 4^-1, Vk, /?fe — заданные к. м. соответствующих размерностей. Заметим, что к. м. Чгк _1 равна правой части (3.16) при замене к на к— 1. Для определения условного (при фиксированных Уо, ..., Уъ) распределения вектора хк воспользуемся рекуррентными соотношениями § 4.6, положив х1к = Нкхк + \к, xqh = xh. (4.81i) Подставив в (4.81i) хк из (4.78), получим, что xlh, xqh удовлетворяют (4.34), (4.35), если положить аи(к - 1) = On, alq{k - 1) = Нкак-и (4.82) aql(k - 1) = 0*, agg(& - 1) = ал_ь (4.83) 6i(fc-l)=#A-i, bff(ft —l) = bfc-i, ^ (4.84) T|Zi A_i = /Алл-! + gfc, rig, ft-i = Tjft-t. (4.85) Считая независимыми £0 и х0, получим Cgo = C0, Ь0 = С0Щ, Qo = HodoHl + R0. (4.86) Из (4.79)-(4.81) найдем ЧГН (A -1) = H^k^Hl + #fcVj -f W + Rk, (4.87) ihi (Л — 1) = ЧГл-х^ТЕ + VJ, ¥3g(A-l) = 4W (4.88)
§ 4.10] АЛГОРИТМ КАЛМАНА 193 Так как xk = xqk, то в соответствии с доказанным в § 4.6 условное распределение вектора xk будет нормальным. Его параметры zh и Ck (zk = zqh, Ch = Cqh) определятся формулами вида (4.41), (4.42), в которых, как следует из (4.36) —(4.40), надо положить 21к = КкЬк-\Ък-\ + Hkbk-iUk-i = Hh^k, (4.89) Xqh = *а = ah-iZk-i + bk-iUk-i, (4.90) Cqh = Ck = a^C^al^ + ЧЪ-ь (4.91) Lh=dhHl + K (4-92) Qk = HkCkHl + HkVl + VkHl + Rh. (4.93) Формулы (4.41), (4.42) примут вид Zh = xk + LhQu1(yh — Hbxh), (4.94) Ck = Ch-LhQZlL\. (4.95) Они определяют алгоритм ОРФ при измерениях модели 1. Первый шаг алгоритма определяется (4.94), (4.95), если положить к = 0 и учесть (4.86). Величины хк и Ск целесообразно определять по формулам (4.90) и (4.91), если нетрудно найти явные выражения для aft_i — фундаментальной матрицы уравнения (3.1) и для к. м. Ч^-ь В противном случае хк и Ch надо определять численным интегрированием. 2. Из (4.90) следует, что xh.= x(th), где x(t) удовлетворяет уравнению *x = Ax + Buh-u (4.96) которое численно интегрируется от tk-{ до tk при начальном условии x{th-i) =zk-i. Аналогично, из (4.91) следует, что Ch = C(th), где C(t) удовлетворяет уравнению C = AC + CA* + gg\ (4.97) которое численно интегрируется от th-i до th при начальном условии C(tk-i) = Ск-1. Иногда вместо численного интегрирования для сокращения объема вычислений целесообразно использовать 13 ц. д. Богуславский
194 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 приближенное представление фундаментальной матрицы отрезком степенного ряда. При соответствующей дифференцируемое™ матрицы A(t) матрицу Ф(£, т) можно разложить в ряд по степеням t — т: Ф(*,т) = Ф(т,т)+-£ф (t-xf + . .. t=x dt Но ^-Ф((,т) = 4(г)Ф((,т), -£■ Ф (t, х) = А (t) Ф (t, х) + А> (t) Ф (t, x) и т. д. Отсюда получим Ф(*,т) = /» + A(j){t -х) +±(А(х) + A(xf)(t- т)+ • • • Поэтому, например, для стационарной системы Ы = 0) ak-1 = In + Ab + ±AW+ ..., где ^ = tk- th-t. Ниже будет изложена методика численного анализа влияния на параметры условного распределения ошибок учета фундаментальной матрицы, возникающих из-за ошибок численного интегрирования. 3. В основополагающей работе [27] алгоритм ОРФ найден при независимости случайных векторов г)* и r]j, £* и %j для i Ф /, г[{ и £,• для всех i, /, что соответствует замене равенств (4.79) —(4.81) их частным случаем: М [тмЯ = % М [Ш] = R&,, М [glT,5] = <W Соответствующий алгоритм ОРФ получим, если в (4.92), (4.93) положим Vh = 0/п. Именно такой алгоритм и называют обычно «стандартным дискретным фильтром Калмана». Заметим, что в [44, стр. 282] «обобщенным дискретным фильтром Калмана» назван алгоритм, учитывающий возможную корреляцию случайных векторов £л и r\h (алгоритм ОРФ (4.89) — (4.95), учитывает возможную корреляцию векторов £к и т)л_!, задаваемую (4.80)). Учет корреляции векторов |л и к]к производится следующим способом [19, стр. 460J: в правую часть (4.78) добавляют равный нулю вектор Вк(ук-1 — Нк^хк-^ — £fc-i), в котором матрцца Bk выбирается из условия некоррелированности
§ 4.10] АЛГОРИТМ КАЛМАНА 195 векторов rife-! = т^-! - Bklh-i заменяется уравнением и gfe-i. Уравнение (4.78) xh = (flfc_i - BhHk-{)xh-{ + bfc-iUA-i + Bhyh-X + T|k-i и для оценки векторов xh по измерениям (4.77) используется стандартный дискретный фильтр Калмана. 4. Выше алгоритм ОРФ Калмана был получен как частный случай алгоритма (4.36) —(4.42). Покажем, что, наоборот, алгоритм ОРФ (4.36) —(4.42) может быть найден как вырожденная форма алгоритма ОРФ Калмана. Пусть n = l + q. После очевидного разбиения векторов и матриц па соответствующие блоки уравнения динамической системы (4.78) можно записать в виде уравнений (4.34), (4.35). Тогда к. м. 4Vi в (4.79) может быть разбита на блоки, определяемые (4.35i). Векторы измерений равны измеряемым без ошибок векторам xik: Ук^Ък- Алгоритм ОРФ для оптимальной оценки компонент векторов xqh получим из алгоритма ОРФ Калмана (4.89)-(4.95) при Л* = 0„, Vk = 0lq, Я, = Я=11/,:(у1. Временно в этом алгоритме матрицы Lh и Qk обозначим через Lhi и Qkl. Докажем по индукции, что в данном случае к. м. Ch имеет вид Ch = °и\°1я\ %1\СФ\\ (4.98) Со априорную к. м. вектора х0 разобьем на блоки: 11/0 ■ Гт I t/ft — ;•.""""' yq0 Тогда из (4.92), (4.93) ^oi — СцН (?oi = #(А#Т = Q0. Из (4.95) при к = 0 С0 = Lq ! Cq0 п~1\\ п '• /"т11 — V0 II Vo : ьо || — ulq 4\C*-L№lLl Итак, равенство (4.98) доказано при к = 0, прнчем ^0 'до * 13*
196 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 Пусть (4.98) справедливо при замене к на /к —1. Тогда пз (4.91) — (4.93) найдем Lk\Gql -ftl Qhi = Qur где матрицы (?л, LA, Cqh определяются формулами (4.38)—(4.40). Подставляя соответствующие матрицы в (4.95), найдем, что справедливо (4.98), причем к. м. Cqk определяется формулой (4.42). Рассмотрим, какой вид имеют формулы для векторов zqh — векторов оптимальной оценки векторов xqk. Учтем, что в данном случае II Уъ-л II ^ II ~Г -1 LhiQki hQk1 *q,k-l\ Xh = \ Я.Щ где xlh, xqh определяются (4.36), (4.37). Подставляя соответствующие векторы в (4.94), найдем Ч Ук ZQh где Zqh = Xqk —" LkQk (Ук — Xlh) Итак, из алгоритма ОРФ Калмана получен алгоритм ОРФ (4.36)-(4.42). 5. Свойства алгоритма ОРФ Калмана как оценивате- ля неизвестных чисел (компонент вектора xh) целиком определяются матрицей LkQ^ (матричным множителем перед вектором yh — Hhxh в (4.94)), и поэтому нежелательны ошибки вычислений ее элементов. Если высока априорная точность измерений (малы дисперсии ошибок измерений — диагональные элементы к. м. Rh), а случайные возмущения динамической системы малы или отсутствуют, то через несколько шагов алгоритма ОРФ порядок величин элементов матрицы Lh начинает резко отличаться от порядка величин элементов матрицы Qu1 (точнее, надо было бы говорить о резком различии порядков норм матриц Lk и Qk1: обычно норма Lh мала', а норма QiT1 велика), что приводит к появлению ошибок при вычислении произведения LkQ^1. Поэтому целесооб-
§ 4.10] АЛГОРИТМ КАЛМАНА 197 разно применять измененный алгоритм ОРФ, который мы условно назовем «нормированным». Пусть из эвристических соображений выбраны нормирующие множители а0, <Xi, ..., ай, ... Нормированные априорные к. м. введем соотношениями Матрицы Си определим рекуррентной формулой (при к> 1) Ch== Ykuk-iCk-i^k-i + х fe-i, Ук=(^к-.1ак , а матрицы Ch определяются (4.95), если ChJ Lhy Qh заменить на СА, Lft, Qk\ матрицы Lk, Qk определя- s~± ^ *>• «•*# ются (4.92) при замене Cfe, Vh, Rk на Ch, Vh, Rh. По индукции легко проверить справедливость формул Ck = ak С^, Ch = aft Cfe, ■^ft = afe Lk, Qk = ak Qh. Поэтому LhQk = LkQu и, следовательно, не изменился ответственный за оценивание матричный множитель в правой части (4.94). Обычно диагональные элементы к. м. Rh имеют одинаковый порядок. Выбирая ak равным одному из диагональных элементов к. м. Rh, можно сделать близкими порядки чисел, являющихся элементами матрице и Qul. Нормированный алгоритм ОРФ легче масштабируется, чем первоначальный алгоритм при реализации на БЦВМ с фиксированной занятой. Аналогично вышеизложенному записывается в нормированном виде и алгоритм ОРФ (4.36) —(4.42) и далее получаемые алгоритмы ОРФ при измерениях модели 2. 6. При I = 1 и Vh = 0in алгоритм ОРФ Калмапа можно представить формулами, в которые входит не условная к. м. 6\, а матрица Wh — корень квадратный из к.м. Ch [63]: ch = wkwl
198 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 Допустим, что получена матрица Wk — корень квадратный из к. м. Ck- Ck = WhW\. Тогда при 1 = 1 и Ун = Оы формулу (4.95) перепишем в виде, аналогичном (4.263), если матрицы Cg, Wqq, Wlq соответственно заменить Ch, W}„ Пк, Wh. Из (4.264), (4.266) найдем Wh = Wh(In- hQk'WlHlIhWk), где к = Qh (Qk - Л/0"1 (1 ± (RkQk1)112)- Матрицу Wk, вошедшую в приведенные выше формулы, найдем из (4.91), если па предшествующем шаге вычислений получена матрица Wk-{ — корень квадратный из условной к. м. Сь-!. При xFft_i = Onn из (4.91) сразу получим Иначе, Wk = W(th), где W(t) удовлетворяет уравнению W = AW, которое численно интегрируется от tk-i до th при начальном условии W{th-t) = Wk-{. При x¥h-i¥= ¥= 0nn необходимо использовать алгоритм извлечения квадратного корня из матрицы ah--[Wk-iWl-i^h-i +xFa-i (например, аналогичный описанному в § 2.14) или из матрицы, полученной численным интегрированием уравнения (4.97). Иначе, Wk=W{tk), где W(t) удовлетворяет уравнению W = AW + AU которое численно интегрируется от th-i до th при W(tk-i) = Wh-i. Матрица А{ удовлетворяет линейному матричному уравнению AXW^ + + WAl=ggT, которое имеет единственное решение, если матрицы W и — W не имеют одинаковых собственных чисел (для этого матрица W не должна иметь собственных чисел, равных нулю и равных по модулю, но раз- пых знаков). Алгоритм ОРФ Калмана в изложенной форме считается более предпочтительным для реализации на ЦВМ, чем алгоритм в форме (4.94), (4.95). Однако пока в известной литературе отсутствует доказательство того, что ошибки вычислений при использовании матрицы Wk меньше ухудшают точность оценивания, чем при использовании матрицы Ck.
§ 4.12] УСЛОВИЯ НЕОСОБЕННОСТИ УСЛОВНЫХ К. М. 199 § 4.11. Достаточные статистики при измерениях модели 1 При измерениях модели 1 из (4.82) —(4.84) следует, что уравнения (4.46), (4.47) примут вид yk = #ftaft-1zfc-1 + #A-iHfc-i + eft, (4.99) zh = ah-izh-i + fcfc-iZJfc-i + Акгк, (4.100) где во, 6i, ..., 8ft, .. .—последовательность независимых случайных, центрированных векторов, к. м. которых равны Qk. Условное нормальное распределение вектора xh характеризуется вектором условного м. о. zh и числом /с, определяющим рекуррентной формулой (4.95) условную к. м. Ск. Поэтому Dk = zh и стохастическое уравнение (4.51), порождающее последовательность векторов достаточных статистик, принимает вид Dk = afc_ A-i + Vi^-i + Акгк. (4.101) Векторы управлений должны быть функциями векторов достаточных статистик: uk = uh(zh). (4.101^ В этом случае последовательность векторов zh будет марковской. Из ранее изложенного следует, что векторы zh — векторы оценок векторов хк, оптимальных по среднеквадратичному критерию. § 4.12. Условия неособенности условных к. м. Когда заведомо известно, что к. м. Qk, определяемая (4.93), будет неособенной и, следовательно, при использовании формул (4.94), (4.95) алгоритма ОРФ Калмана процедуру АЛО примепять не надо? В ряде случаев ответ на этот вопрос дает следующая лемма, при формулировке и доказательстве которой индекс к опущен. Лемма 4.3. Матрица Q — неособенная, если а) V = Oin, R — неособенная; б) V=0in, С—неособенная, Н {порядка IX п, 1^п) имеет ранг ЛИ) = /; в) определяемая (4.104) матрица С\ > 0. Доказательство, а) В этом случае Q = HC№ + R. (4.102)
200 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 Так как по условию R>0 и НСНт>0 (к. м. С>0), то <?>0. б) Среди столбцов матрицы Н есть I линейно независимых, и, следовательно, для любого не равного 0 вектора у размерности 1X1 IFy^O. (4.103) Тогда HCW > 0, если С > 0. Действительно, пусть НСНТ — особенная; тогда найдется вектор у^О такой, что НСНту == 0, или y'HCWy = {WyYCiWy) = 0. Так как С>0, то Ятг/ = 0, что противоречит (4.103). Итак, #СЯт>0. Но R>0. Поэтому из (4.102) следует <?>0. в) Очевидно тождество Q = НСНТ+ HV + VrHT+R=H1C1Hl где #i = KiW ^ v\ с (4.104) Но r(Hi) — l. Повторяя с замепой Н на #i и С на С4 рассуждения пункта б), получим, что H1ClHl = Q> 0. Далее будет полезна лемма 4.4, которая основана на известном матричном тождестве и позволяет в ряде случаев гарантировать неособенность условной к. м. С, определяемой формулой (4.95) (индекс к опущен). Лемма 4.4. Пусть в (4.93) V = 0,п, матрицы С и Я — неособенные. Тогда к.м. С — неособенная и C-'^C-' + WR-'H. (4.105) Матрица HCW + R — неособенная, так как по условию R > 0 п ПСНТ > 0. Поэтому справедливо матричное тождество HrR-lH=нт-чнст+ r) uicir + m-ln = = (С"1 + №R-4I)Ctr(HCIP + R)-4L (4.106) Так как по условию С_1>0 и HTR-4I>07 то матрица
§ 4.13] СТОХАСТИЧЕСКАЯ НАБЛЮДАЕМОСТЬ ПРИ МОДЕЛИ 1 201 С"1 + HTR~lH — неособенная. Поэтому из (4.106) получим 1РШС1Р+ю-1н = с-'(с-1 + нт-%т-чгн-1н, или стнсн* + ю-'нс = (с-1 + нт-{т-1н^-1нс. (4.107) Используя (4.107), равенство (4.95) при F —0/п перепишем в виде С = с - (С-1 + H*R-lH)-lITR-lHC. (4.108) Умножим обе части (4.108) слева на матрицу С""1+ + WR^H и получим (C-' + ITR-WC^In, что доказывает справедливость (4.105). Лемма 4.5. Матрицы Chi Ск (к = 1, 2, ...) — неособенные, если Vh = 0ш и С0 и Rk — неособенные. Доказательство проведем по индукции. Пусть Ch-t — неособенная. Но тогда неособенной будет так как в (4.91) ak-i — неособенная (ak-i — фундаментальная матрица), а к. м. 4^-1 >0. Далее, из леммы 4.4 следует неособеиность Ch. Но С0 — неособенная по лемме 4.4, так как по условию иеособеппая к. м. С0. По ип- дукции заключаем, что при всех к к. м. Сл, Ск — неособенные. § 4.13. Стохастическая наблюдаемость при измерениях модели 1 Рассмотрим стохастическую наблюдаемость вектора xh при к+1 измерениях z/0, ..., Ук — векторов модели 1, предполагая, что к. м. Яг — неособенные, a Ft=0,n U = = 0, ..., к). Учитывая (4.82) — (4.88), получим, что векторы и матрицы, входящие в (4.70) — (4.76), имеют вид ■ ах (0, 0) Саа{ (0, 0)т = Я0С0Я J + Я0, ах (i, 0) Саах (/, 0)т = Н,а (*, 0) 6> (у, 0)ТЯ?, ах (гЛ s) Ws-idi (/, s)T = Hid (j, s) Ws-ta (/, s)T H]t at (i, i) %-iai (i, if = ffiYi-xtfJ + Ru
202 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ, 4 aq(k, 0)Caal(i1 0)T = а(к, 0)C0a(i, 0)тЩ, aq (ft, s) 4rs-idi (i, s)T = а (к, s) 4rs-xa (i, 8)ТЩ. □ (4.109) Выше a(i, y') = OU.-, £,), где OU, т) — фундаментальная матрица уравнения динамической системы, из которого получено соотношение (4.78). Рассматривая с помощью (4.109) матрицы (^- — элементы матрицы Q(k, 0), являющейся при измерениях модели 1 априорной к. м. случайного вектора, составленного из векторов Н0х0 + £0 , ..., Hhxh + gft, можно проверить, что (Hft, 0) — неособенная, если матрицы ^ — неособенные. Однако легче в этом убедиться, если учесть, что векторы аДО, 0)х0, Я/U, i)v]i-i, i = l, ..., А:, имеют вид аДО, 0)x0 = H0xQ + lo, ъИ, i)r\i-i = Hiif]i-i + li. Так как по условию независимы компоненты случайных векторов #о, £о, r)f-i, ^г, то, как видно из (4.70), независимы компоненты случайных векторов xi0, ...,. xlh и, следовательно, их к. м. (?(ft, 0) — неособенная. Из (4.74), (4.75) и (4.109) следует, что матрица L имеет вид Z = a(ft, 0)L\ (4.110) 1 А" Г1 _ II Г ! : Г ! i : Г 1 II Ь — II Ь0 ■ ь1 \ • • • : L'h \\, L\ = C0Hl L\ = (С0а (1, 0)т + а (0, 1) Т0) //I, Ы = (£0« (ft, 0)т + а (0, 1) Ч> (ft, 1)т + ... + а (0, ft) X хЧЪ^а (*, *)') Ял- Необходимое и достаточное условие стохастической наблюдаемости имеет вид Q(L) = n. Так как матрица а{к, 0) — неособенная, то ранг матрицы L равен рангу матрицы U размерности пХ (к+ 1)1 и, следовательно, по лемме 4.2 вектор хк стохастически наблюдаем при фиксации векторов у0, ..., yh, если r(Ll) = n. Для этого, конечно, необходимо, чтобы (ft+ l)l> п. Если 4ft = 0„n (случайные возмущения не действуют на динамическую систему), то L = a(ft, 0)CoI*, (4.111) где L*=\Hl\a{it 0)T//Ij...;a(ft,0)T#l|.
§ 4.14] ВЛИЯНИЕ ЧАСТОТЫ ИЗМЕРЕНИЙ МОДЕЛИ 1 "', 203 Так как априорная к. м. С0 — неособенная, то достаточное условие стохастической наблюдаемости примет вид r(L*) = 7i (4.112) и совпадает с необходимым и достаточным условием детерминированной наблюдаемости Калмаиа [21. Следует подчеркнуть, что стохастическая наблюдаемость предъявляет к системе менее жесткие требования, чем детерминированная наблюдаемость. Так, например, пусть при £ = 1, ..., п a(i, 0)=In {х0 — хи £ = 0, ..., к), C0 = In, Hi — H, все элементы матрицы Н не равны нулю. В этом случае при любой величине к все строки матрицы L в (4.111) не содержат нулевых элементов, Q(L) — п и, следовательно, выполнено условие стохастической наблюдаемости. Однако матрица L* составлена из одинаковых столбцов, KZ*) = 1 и условие детерминированной наблюдаемости (4.112) не выполнено. В прикладных задачах иногда надо знать, несет ли данный состав измерений информацию, например, о хи — /-м элементе вектора хк (часто хдк — величина «ухода нуля» аппаратуры, постоянная в данной реализации и случайная на множестве реализаций; эту величину хотят оценить в процессе рекуррентной фильтрации). Из (4.76) и (4.110), (4.111) следует, что измерения г/о, • •., Ук не несут информацию о величине х{, если равен, нулю результат умножений /*-й строки матрицы а(к, 0) на каждый столбец матрицы U или (при \Р\- = = Опп) равен нулю результат умножения /-й строки матрицы а(к, 0)С0 на каждый столбец матрицы L*. Что можно сказать о стохастической наблюдаемости при измерении вектора yh? В условиях леммы 4.5 матрицы Ch — неособенные. Тогда, если ранг матриц Hh равен Z, из (4.92) при Vh = 0;п видно, что ранг матриц Lh равен I. Из леммы (4.2) (неравенство (4.28)) следует, что при измерении вектора ук стохастически наблюдаемо будет не менее I элементов вектора хк. § 4.14. Влияние частоты измерений модели 1 В частном случае отсутствия шумов, возмущающих динамическую систему (в (4.91) ^h-t = 0nn), формула (4.105) позволяет провести приближенный анализ влил-
204 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 ния на к. м. условного распределения частоты измерений. В этом случае сг1 = (ф (tk, ь-о ск.,Ф (th, fc-oT1 = = 0(tft-i,*fc)TCr-1i®(^-b*ft)t так как Ф(£, т)_1 = Ф(т, t). Поэтому из (4.105) получим рекуррентное уравнение Си1 = HlR^Hk + Ф (tA_lf ttf СГЛФ (**-i, **)• (4.ИЗ) Из (4.113), считая для упрощения выкладок, 47oRh = ==/?, Hk = H, найдем связь Ch и Ck+8, применяя (4.113) при последовательной замене к на к + 1, ..., & + 5: С^6 - Ф (tk+1, tk+s)T H'R^HO (tk+l9 tk+s) + ... ... +0(tk+s, ^+8)тЯтЛ"1ЯФ(^+з, fe+s) + + Ф (**, fe+s)T СГФ (**, **+.). (4.114) Будем считать, что величина Д = ^ — tk-i невелика, и в первых слагаемых правой части (4.114) приближенно положим Ф(^+г, к+8) ~ In, i= 1, ,. ., 5 - 1. Тогда получим CuU~ Ят(4)*"1 Н + Ф(fc, ^+S)TСкгФ(th, tk+s). (4.115) Допустим, что не производятся измерения в моменты th+u ..., th+8-i, а элементы к. м. ошибок измерений R уменьшены в 5 раз. Тогда после измерения (вслед за моментом th) в момент tk+8 условная к. м. Ck+S вектора xh+s имеет вид СД. = Ят (-5-)"1 Н + Ф (tk, tk+s)T С^Ф (th, tk+s). (4.116) Из сравнения (4.115) и (4.116) следует, что Ck+S ~ ~ €h+s. Это означает, что уменьшение в s раз интервала времени Д между измерениями влияет на условное распределение в фиксированный момент времени t = г'Д приблизительно так же, как и уменьшение в Уs раз ошибок измерений в модели измерений 1. Поэтому, если к. м. Rh можно представить в виде R = Д-1До, где R0 — некоторая матрица, обладающая свойствами к. м., то при
§4.15] ПРЕДЕЛЬНОЕ УСЛОВНОЕ РАСПРЕДЕЛЕНИЕ 205 малых величинах Д в фиксированный момент t (кратный Д) условная к. м. C(t) практически не зависит от величины Д. Предельный переход при Д •->- 0, проведенный, папример, в [10] для различных моделей измерений н для общего случая наличия случайных шумов, возмущающих динамическую систему при условии 4V= = A~1XF, показывает, что рекуррентное уравнение (4.95) переходит в матричное дифференциальное уравнение С ='АС + САТ + (С1Г + Ут) Щ1 (СЯТ> Ут)т, где А, 4я, i?0, У —заданные матричные функции t. § 4.15. Предельное условное распределение В предположении, что отсутствуют шумы, возмущающие динамическую систему, а матрицы Ск и Ch — неособенные (см. лемму 4.5), рассмотрим условия, при которых с увеличением интервала времени, на котором производятся измерения (при этом число измерений может быть мало, но не менее двух), или с увеличением числа измерений (при этом упомянутый интервал времени может быть постоянным) условная к. м. стремится к нулевой матрице. Это означает, что плотность вероятности условного распределения стремится к w-мерной дельта- функции, а вектор условного м. о. стремится к вектору фазовых координат. 1. Пусть фундаментальная матрица Ф(£, т) такова, что для любой единичной вектор-функции x(t) (Ы£)| = = 1) выполнено условие: при f-*oo |ф(т, *Ы*)| ->оо. (4.117) При Ф(*> т) = Ф(£—т) (стационарная система, описываемая уравнением (3.1) при и = 0) условие (4.117) выполнится, если отрицательны действительные части собственных чисел (корней характеристического уравнения) матрицы А в (3.1). В этом случае все элементы Ф(т, t) состоят из линейных комбинаций экспонент, неограниченно возрастающих при £-*-«>. Условие (4.117) равносильно условию: при *->оо 1ф(*, тЫ*)|->0 (!*(*)! = 1), (4,118) выполняемому у асимптотически устойчивых систем. Действительно, из тождества я = Ф(т, t)y, где z =
206 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 = |OU, тЫ-1я, у = |Ф(*, x)x\-iO(t, т)х, видно, что I//I — 1, а |z|->°° при t-+o°, если справедливо (4.118). При этом выбором x(t) (\x(t)\=l) единичная вектор- функция y(t) может быть сделана произвольной, так как матрица Ф(£, т) — неособенная. Покажем, что если выполнено (4.117), то с увеличением интервала времени, на котором производятся измерения, условная к. м. стремится к нулевой матрице. Выражение (4.114) умножим слева на хт, а справа — на я, где х — произвольный единичный вектор. Получим хтСн+*с = (0(tk, tk+a) xf СйхФ (th, th+s) x + )THrrR-1HO(tk+1,tk+s)x+ ... ... +xTHTR~1Hx. (4.119) Так как второе и последующие слагаемые в правой части (4.114) — неотрицательно определенные матрицы, то второе и последующие слагаемые в правой части (4.116) — неотрицательные числа и, следовательно, хтС^>угСн1у9 (4.120) где 2Г=Ф(*к; tk+s)x. Симметричные положительно определенные матрицы Ck+s и Cj^1 можно представить в виде Ck+s = Hk+skk+sRk+s, Ck = ПДЛ Щ, (4.121) где nft+s, Uh — некоторые ортогональные матрицы; Хй+8, Xk1 — диагональные матрицы, элементы которых положительные числа : (kl+s)1, - -., (K+s)1 и (X,J)~\ . . ., (^)~\ причем Xk+s, к\ (i = 1, ..., п) — собственные числа матриц Cfc+s, Ch. Подставляя в (4.120) правые части (4.121), получим W+...+«)!>«>!+...+«>:, (4.122) Ak+s Ч + s Ak Ak где х\, у[ (i = 1, ..., п) — элементы векторов хи уи определяемых равенствами Xi*=nk+8x, yi = Uky. (4.123)
§ 4.151 ПРЕДЕЛЬНОЕ УСЛОВНОЕ РАСПРЕДЕЛЕНИЕ 207 Так как матрицы Uh+S, Uh ортогональны, то la^I = 1, Пусть Kl+S > kl+s > ... > Х?+. > 0. (4.123!) Определим вектор х так, чтобы вектор х{ был равен d — 1-му орту (у е{ 1-й элемент равен 1, а остальные элементы равны 0). Из (4.123) видно, что х = nl+sev (4.124) Тогда (4.122) примет вид ^>(f+...+(f. (,125) Пусть момент tk зафиксирован, a th+s -*- °°. Из-за условия (4.117) \yi\-+°° и правая часть (4.125) неограниченно возрастает. Поэтому ^+s-^0. Из-за (4.123i) для i = = 1, ..., п получим, что Xk+s-+0. Но если все собственные числа симметричной матрицы Ch+S стремятся к нулю, то стремятся к нулю и все ее элементы. Итак, если выполнено условие (4.117), то Ch+s -> 0nn при th+s -> oo. (4.126) Пусть теперь Ф(£, т) такова, что найдется некоторый (не любой!) единичный вектор x(t), при котором |Ф(т, t)x\ -> oci если t -> оо. (4.127) В этом случае можно лишь утверждать, что левая часть неравенства (4.122) неограниченно возрастает при th+s-+ ->■ оо. Поэтому существует хотя бы одно собственное число матрицы Ch+S, которое стремится к нулю при th+s -*- -*• оо, и, следовательно, при выполнении (4.127) предельное условное расп'ределение будет локализироваться в некоторой гиперплоскости <§ГП. Матрица OU, т) вида И *-т|| Ф(*,т) О 1 — фундаментальная матрица уравнений it = х2, х2 = О служит примером случая, в котором условие (4.127) выполняется для произвольного постоянного вектора х с элементом х2^0, а (4.117) не выполняется для любой
208 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 единичной вектор-функции x(t). Действительно, взяв x(t) с элементами *,(*)=- .»! + <?-'>».. _. [(y1 + (t—t)vi)t + yl]1/t' где г/2 ^ 0, получим, что (4.117) не выполняется, так как при £->°о |ф(т, t)x(t)\->-0. Легко проверить, что утверждение (4.126) несправедливо, например, при двух измерениях в моменты U и ti (& = 0, 5 = 1) как при # = =|| 11 01|, так и при #=| 0 111. В обоих случаях при tt -> оо условная дисперсия элемента х{ не стремится к нулю, а условная дисперсия элемента х2 к нулю стремится. Поэтому в рассматриваемом примере при f А -> «> стремится к нулю лишь одно собственное число условной к. м. Пример показывает, что условие (4.117) нельзя заменить менее жестким условием (4.127). 2. Для замены условия (4.117) менее жестким условием будем считать, что в разомкнутом состоянии (при и = 0) динамическая система стационарна (Ф(£, т) = «=OU — т)), U+i — ti — А и существует число v, при котором r(Ll) = n, (4.128) где L1 = || Ят! Ф (Д)т#т!... i Ф ((v - 1) А)т Нт ||. (4.1280 Заметим, что (4.128) является упомянутым выше условием Калмана детерминированной наблюдаемости, обеспечивающим определение без ошибок вектора x((v — 1)Д), если в моменты 0, Д, ..., (v —1)Д измеряются без ошибок векторы Hx(iA) (г —0, ..., v —1). Положим, что s кратно v (s = v-a, где а — некоторое целое число), к = = 0 и £о = 0. Тогда соотношение (4.114) можно переписать в следующем виде: С71 - Ф ((1 - av) Д)т PvO ((1 - av) Д) + + Ф ((1 - (а - 1) v) Д)ТЛ,Ф ((1 - (а- 1) v) Д) + . . . ... +Ф ((1 - v) Д)т iVP ((1 - v) Д) + + Ф (- avA)TC^ (- avA), (4.129)
§ 4.15] ПРЕДЕЛЬНОЕ УСЛОВНОЕ РАСПРЕДЕЛЕНИЕ 209 где Pv = Нт^Н + ФШЧГН-'НФШ + ... ... +0((v - 1)A)T//Ti?~^0((v - 1 )Д). (4.130) Так как R~l > 0, то матрица Pv — сумма неотрицательно определенных матриц. Но из-за условия (4.128) для любого вектора х (\х\ = 1) найдется матрица Ф(гА)тЯт (0^= ^i<v —1) такая, что HO(iA)x¥= 0. Поэтому хтРхх>0 и, следовательно, Pv>0. (4.131) Пусть f — минимальное собственное число матрицы Pv (из-за (4.131) f>0) и фундаментальная матрица Ф(£) такова, что \<b(-t)x(t)\>d>0 (4.132) для любого t и любого вектора x(t), у которого \x(t)\ = <= 1. Так как xT0(-t)TPMt)x > d2y > 0, то из (4.129) получим xTC71x>d2ya. При s -*• <» будет а -> оо и хтС7гх -»- оо. Рассуждая аналогично вышеизложенному, получим 1 —-^оо при s-^oo, где ?ij — максимальное собственное число матрицы С3 и, следовательно, к]-*- 0, г = 1, ..., гс. Отсюда С8 -*■ 0 при 5 -^ оо. Итак, выполнение условия (4.128) и условия (4.132) (менее жёсткого, чем условие (4.117)) обеспечивает сходимость к нулю элементов условной к. м. при увеличении числа измерений s. Из приведенных выкладок следует, что эта сходимость по крайней мере не менее быстрая, чем сходимость к нулю величины S"1 (в том смысле, что отношение AJA"1 ограничено). Если задан интервал наблюдений [0, t'], 0^i&<t', и увеличение числа наблюдений s происходит из-за уменьшения интервала A = t/s, то в (4.132) O^t^t' и (4.132) выполнится при любой фундаментальной матрице (из-за ее неособешю- сти). С увеличением s условная к. м. С8 сходится к 0П«, если для yis) — минимального собственного числа матрицы P(s) выполняется неравенство t(s)>t>0 (4.133) 14 и. А. Богуславский
210 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. /* при любых s. Здесь P(s) — матрица, получаемая при замене в (4.130) Д на t'/s. Приведем пример, показывающий, что нельзя ослабить условие (4.128). Пусть в (4.128J ФШ = In, n > 2, АН) = 1<п. Тогда условие (4.128) не выполнено, так как при любом v имеем r(L') = 1<п. Заменяя множество фиксированных векторов уи = Нх0 -\- %k (М [lull] = R) одним вектором — средним арифметическим векторов yh, получим, что с увеличением числа измерений уменьшаются ошибки измерений компонент вектора у = Ex. Поэтому при достаточно большом числе измерений можно считать, что вектор у — HxQ измерен без ошибок. Из (4.95) получим, что предельная условная к. м. С не равна 0пп и определяется формулой С = С0 - С01ГШС0Н*)-Ч1С0. § 4.16. Сходимость алгоритма ОРФ — «оценивателя» при измерениях модели 1 1. Стохастическое уравнение для марковской последовательности векторов ошибок оценки 8k при измерениях модели 1: 8h=zh-xh (4.134) получим из (4.57), если учесть условия (4.82) — (4.85): б, = ГЛ-t + Ын + (AkHh - 1п)цк-и (4.135) 6o = r0Uo-zo)+A0£o, (4.136) где 1\ = (1п -^ A/i#fc) ak-i, T0 = In — Л0Я0, Ak = LhQh . (4.1360 Из (4.55), (4.56) и (4.60) следует, что во всех статистических ситуациях М [8fc] = 0f ,М[«;] = С, (4.137) где к. м. Ch определяется рекуррентной формулой (4.95). При этом осреднение в (4.137) может производиться как при фиксации векторов г/0, ..., Ук или некоторых из них, так и если все эти векторы не зафиксированы. Из (4.59) при учете (4.82) — (4.85) получим, что при измерениях модели 1 к. м. Ch удовлетворяет рекуррент-
§ 4.16) СХОДИМОСТЬ АЛГОРИТМА ОРФ ПРИ МОДЕЛИ 1 211 ному уравнению Cft = rft(Cft-i + ^-i)rH-Z?ft (4.138) при начальном условии С0 = Г0С0Г0 + £>0, где Bk = AflRhAl + AkVk (AkHh - /n)T + (AkHk - In) VjAj. (4.139) Простыми выкладками легко проверить, что уравнение (4.138) равносильно (4.95). Далее положим Ffe = 0/n. В (4.137) осреднение производится в том числе и по случайным векторам начальных условий х0. Однако при исследовании возможностей применения алгоритма ОРФ для решения прикладных задач оценивания интересно знать эволюцию в функции к параметров распределения вектора ошибок оценки 8к в каждой конкретной реализации при фиксированных (хоть и неизвестных) векторах xQ. Это распределение условно назовем «локальным». Так как вектор х0 произволен, то свойства локального распределения определяют качество алгоритма ОРФ как «оценивателя» фазовых координат системы при любых начальных условиях, в том числе и «невероятных», для принятого априорного распределения векторов х0. Положив mh = M[8k!x0], (4.140) получим из (4.134), (4.135) mk = Tkmh-u то = Т0(хо — х0). (4.141) Так как х0 — х0 Ф 0, то в каждой реализации шкФ0 и, следовательно, zfe —вектор смещенной оценки вектора^. Рассеивание векторов Ьк относительно тпк определит к. м. С'к\ Ck = М [{bk — mk) (8ft — mk)T/x0]. Из (4.134), (4.135) следует, что Ck удовлетворяет тому же рекуррентному уравнению, что и Ск: C'h = Г, (C,U + Tfc_i) П + Bh, (4.142) 14*
212 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 но при начальном условии Со = В0. (4.143) Если для любого начального вектора х0 выполняются два условия: |wfc|-^0, А-^оо или ^->оо, (4.144) C'k-^Onn, к->оо или 4-^оо, (4.145) то считаем, что алгоритм ОРФ сходится. Если же выполняется лишь условие (4.144), то будем говорить, что алгоритм ОРФ сходится в среднем. Так как М [ | б, |2До1 = М [Ь1Ьк/х0] = | тк |2 + Tr & то при выполнении условий (4.144) и (4.145) М[|6ь|2Ло]-^°> к^оо или *л-*оо. (4.146) Поэтому сходимость алгоритма ОРФ означает, что в каждой реализации (при произвольном начальном векторе х0) последовательность случайных векторов zk сходится к последовательности случайных векторов xh в среднеквадратичном. 2. Покажем, что алгоритм ОРФ сходится, если Ch ->■ 0nn, к -> оо или th -+ оо. (4.147) Из (4.141) и (4.140) следует, что mh = Th...T0(x0-Xo), (4.148) а из (4.138) получим ch=Th.:. г0с0 (гк... г0)т + г*.. л\ (в0+%) (г*... ...Г1)т+...+Гй(5А_1 + ^_1)Г^ + 5й. (4.149) Все матрицы в правой части (4.149) — по крайней мере неотрицательно определенные. Поэтому при выполнении (4.147) каждая из этих матриц должна стремиться к нулевой матрице 0пп (в этом легко убедиться, если (4.149) умножить слева на хТ, справа на х, где х — произвольный единичный вектор). Отсюда Гк... Г0-* 0„„, /с->оо.или th-*<*>, (4.150) и, как видно из (4.148), справедливо (4.144). Из (4.142), (4.143) следует, что С'к = Ск-Тк... Т0С0 (1\ ... Г0)т. (4.151) Поэтому из (4.147) и (4.150) видно, что выполнится (4.145).
§ 4.16] СХОДИМОСТЬ АЛГОРИТМА ОРФ ПРИ МОДЕЛИ 1 213 В § 4.14 было получено несколько вариантов достаточных условий, выполнение которых гарантирует справедливость (4.147) и, следовательно, гарантирует сходимость алгоритма ОРФ. Заметим, что (4.147) при У¥к-1Ф Ф Опп может выполняться лишь в особых случаях. Так, пусть 4^ = ^, //* = #, Rk = R, ал-! = Ф(Д). (4.152) Из (4.95) при к -> оо следует, что необходимым условием для (4.147) служит равенство которое в принципе выполпимо, лишь если г(у¥)^1. 3. Пусть теоретически или расчетом показано, что при к ->- оо к. м. Ck сходится к некоторой предельной матрице С, не равной 0пп: Ch-+C, к-+оо. (4.153) •Систему и случайные факторы считаем стационарными, так что справедливы соотношения (4.152) и 4ffe=4f. Наметим доказательство того, что из (4.153) следует (4.150). Допустим, что 1\...Г0-Г, ft->oo, (4.154) Причем Г Ф 0„п. Так как выполнены условия применимости леммы 4.5 и, следовательно, к. м. Ск и Ch — неособенные, то ГА = (Ск- Ьк<КгЫ)CkW-i = C/A~4-i (4.155) п все матрицы Г0, ..., Г\ — неособенные.. Тогда матрица Г в (4.154) — неособенная. Поэтому положим Р = Т~\ Д=(Г,...Г0)-1. (4.156) Умножив (4.149) слева па Ph и справа — па Р£, получим PhChPl = С0 + Р0 (V. + Д0) Р1 + • •' • ... + iVi (V + Вь-г) РЦ-1 + PkBhPl, или PkCkPl = PkCk-iPl + Pk-^Pl-i + PuBkPl (4.157) Так как Bk^CH'Q-iRQ~lHC = B, k^<*>,
214 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 Ще С = Ф(Д)СФ(Д)Т + Ч', Q = HCW + R, то из (4.157) при /с->°о получим, учитывая (4.153) и (4.156): РСРТ = РСРТ + P(W+ B)P\ (4.158) Умножая (4.158) слева на Г, а справа — на Гт, найдем 0ПП = ¥+'£. (4.159) Однако f^O и В>0 и (4.159) невозможно, так как VF, В — ненулевые. Поэтому (4.154) невозможно и из (4.153) следует, что I\...r0 + Onn, /с + ~. (4.160) Итак, если справедливо (4.153), то выполняется (4.144) и алгоритм ОРФ сходится в среднем. При этом, как видно из (4.151) и (4.153),С&->С\ к ->- оо. Поэтому, если Ск сходится к С при увеличении числа наблюдений, то в каждой реализации случайные векторы zk в среднем сходятся к случайным векторам xh (в смысле стремления к нулю величины | М [Zk — хп/х0] | )• При этом рассеивание векторов zk вокруг хк стремится к предельному рассеиванию, имеющему к. м. С. Заметим, что в прикладных задачах альтернативы равенствам (4.147) или (4.153) нет, так как в противном случае с ростом к условное рассеивание «расплывается» и увеличение числа наблюдений бессмысленно. Поэтому во всех имеющих прикладное значение задачах алгоритм ОРФ должен сходиться или сходиться в среднем. 4. Как оценить в данной реализации скорость убывания величины ImJ? Для этого используем спектральную матричную норму — наименьшую матричную норму, согласованную с евклидовой векторной нормой (длиной вектора). Как известно (см. [35]), \А I — спектральная матричная норма квадратной матрицы А определяется равенством IAI = УК^(АТА), где Ям(5) — максимальное собственное число матрицы В. Заметим, что ХМ(АГА)> ^ 0, так как для любой А АТА > 0. Справедливы соотношения: если у = Ах, то |г/|^|Л|Ы и |Л2?| < |Л||2?|. Поэтому из (4.148) \mh\ < \Tk... Г01 \х0 — х0\ и скорость убывания величины |ГЙ...Г01 в функции к может служить для оценки скорости убывания величины ImJ. При большой величине к последовательное вычисление матрицы Тк... Го может быть затруднено. В этом
§ 4.16] СХОДИМОСТЬ АЛГОРИТМА ОРФ ПРИ МОДЕЛИ 1 215 случае можно попробовать использовать оценку |1\...Г01 сверху: |Г,...ГоК1Г,{|...|Г0|. (4.161) Если 4яh-i = 0пп, то нетрудно получить явное выражение для матрицы Г\...Г0. Из (4.136t) при & = 0, ..., *, ... ,.., к, учитывая, что ciida] = CHl, (aft_! . .. а0)-1 = Ф (t0, tk), получим гА...г0 = сйФ(г0, thfc^\ (4.1б1в) Приме р. Пусть уравнения системы и измерений имеют вид Xi === Х2.4 Хч ==: Х$) Хз === Х^ Xii === U, 14.lbli/ Ук = хМ + 1ь, tk - th-i ■= Д. (4.1612) В этом случае Я=.||1 0 0 0 Рассмотрим уравнения алгоритма ОРФ при условиях 103 0 0 0|| о ю3 о о о о ю3 о Г 0 0 0 103II (4.1614) В таблице 4.1 для различных к приведены величины ITJ и I Гл... Го I. Как видно, с ростом & спектральная норма I Гй... Г01 быстро падает, что обеспечивает быструю сходимость алгоритма ОРФ (за 100 измерений длина вектора первоначальных невязок уменьшилась не менее чем в 660 раз). Однако все спектральные нормы |TJ>1 и, следовательно, оценка (4.161) является очень грубой. Целочисленная функция /Ш = 1Г*... Г01 служит характеристикой алгоритма ОРФ как «оценивателя». Чем быстрее убывает /Ш, тем быстрее оцениваются при отсутствии ошибок измерений векторы x(th). Заметим, что вычисление спектральной матричной нормы может быть затруднено при отсутствии отработанной 1 А А2/2 0 1 А 0 0 1 0 0 0 А3/б А2/2 А 1 (4.1613) А = 0,1, R = М [62] = 1, С0 =
216 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 программы ЦВМ для вычисления максимальных собственных чисел симметричных матриц. Тогда следует использовать любую другую матричпую норму, согласованную с евклидовой векторной нормой. Например, при последовательном определении матриц 1\... Г0 легко вычисляется ah — элемент матрицы 1\... Г0, имеющий максимальный модуль. Но число пак — норма матрицы Г\... Г0, согласованная с евклидовой векторной нормой. Поэтому целочисленная функция nah может служить характеристикой Таблица 4.1 h 0 10 20 30 40 50 \Tk\ 1,072 8,664 5,043 2,115 1,420 1,209 |V..r.| 1,072 8,472-10"1 1,148-10"1 1,547.10-2 4,073- Ю-3 1,587-10"3 k 60 70 80 90 100 Г*1 1,130 1,095 1,083 1,075 1,074 IV--r°| | 7,846-10-4 4,535-10"4 2,920-10~4 2,034-10"4 1,502-10"4 (конечно, более грубой, чем функция |ГЛ...Г01) алгоритма ОРФ как оценивателя. Пусть 4Vi = 0nn, а Ф(£, т) =?/„ (алгоритмом ОРФ оценивается вектор постоянных величин). Тогда из (4.1610) следует, что качество алгоритма ОРФ — оценивателя можно грубо описать после умножения на п максимального модуля элементов матрицы СьРй1. § 4.17. Алгоритм ОРФ при измерениях модели 2 Найдем алгоритм ОРФ, если векторы измерений соответствуют модели 2. В этом случае ошибки измерении отсутствуют и выражение для векторов измерений имеет вид yk = Hhxh. (4.162) Случай достаточно актуалеп, так как, например, соответствует ситуации,в которой ошибки измерений статистически зависимы. Далее считаем, что все матрицы Нк порядка IX п имеют ранг /. В противном случае некоторые строки IIk будут липейпо зависимы от остальных строк. Это означает, что соответствующие компоненты вектора yh линейно зависимы от остальных компонент, не влияют на условное распределение вектора xh и могут быть исключены из состава вектора yh.
§ 4.17] АЛГОРИТМ ОРФ ПРИ МОДЕЛИ 2 217 Искомый алгоритм в принципе можно было бы полу- чить из (4.94), (4.95), положив в (4.92), (4.93) Rk = 0lh Vk — Oin и проводя процедуру АЛО. Однако, используя зависимости (4.36) — (4.42), можно уменьшить объем вычислений, понизив максимальный порядок входящих в формулы матриц с пХп до (n-l)X(n-l). Так как по условию ранг матрицы Нк равен Z, то существует в ее составе неособенная матрица Н1к порядка / X /, которую соответствующей нумерацией компонент вектора хк можно поместить в левой части матрицы Нк. Тогда матрица Нк разобъется на блоки вида Hk = lHlh\Hqkl (4.163) где q = n — l; Hqh — матрица порядка IX q. С помощью линейного неособенного преобразования перейдем от вектора Xk к xk: Xk = Phxk1 (4.164) причем Ри= Hih\H, %\та Гь = HTu1 о, ql HlklHqh (4.165) "Умножая (4.78) слева на Pk, получим, что векторы хк удовлетворяют соотношениям x'k = aA-i^-i + Ьл-iMfc-i + %-i, (4.166) где а^_х = Рка^Рй-!, Ъи-г = Рфи-ъ Цк-i = РьУ\к-1- (4.167) Распределение вектора х0 нормально и имеет параметры х0 — *qXq, С о =*• .гоСог0. Из (4.79) получим М Wk-i (щ-iY/Vo, ■ • •', Vk-i] = Vk-i = W PI t f Векторы x^ xh, x\k можно представить в виде (4.168) (4.169) Xk = *ih\ Lqh\ Xk = Llk Lqk Чк где $lk = HlkXlk + HqhXqk (4.170)
218 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 и, следовательно, Vk = *!*• (4.171) Векторы Xik, xqk удовлетворяют уравнениям *lh = all (к ~ 1) x\th-l + alq (к - !) xQ,k-l + + М* - 1) "*-i + л!,л-1> (4.172) Xqh = agZ (ft — 1) я1|Л_1 + flgg (ft — 1) ЖдЛ_! + + 6, (ft - 1) ик-г + Лд.Л-1- (4.173) Матричные коэффициенты в правых частях (4.172), (4.173) являются соответствующими блоками матриц ak-1 и Ък-Ъ определяемых (4.167): (к—\\ II . II ЪАк — \\ II (4.174) *U (4.175) ак~г ~ |Г^№"-"1)Та^"№--"Г) I' ^ ~ |"Ь™(АГ—"1)" К. м. и взаимные к. м. векторов r\itk-i и v)q,h-i найдем при разбиении на блоки к. м. ^-ьопределяемой (4.169): \Уц(к-1)\Ч1д(к-1)\ Q0, Cq0, L0 — априорные к. м. векторов xt0 и xq0 Lq — их взаимную к. м. получим из разбиения на блоки матрицы С0, определяемой (4.168): c; = |&|3|f (4.176) причем x'lo = Hia*io + HqoXqo, ^l = || *?о j *JoI- (4.177) Итак, в рассматриваемой ситуации векторы обратной связи вида (4.162) являются, как это следует из (4.171), фиксируемыми векторами xtk, связанными с векторами xqh соотношениями (4.172), (4.173). При этом априорное распределение векторов хш и xqo нормально. Но ранее было показано, что случайные векторы xqh такого класса имеют нормальное условное распределение, параметры которого zqh и Cqh определяются формулами вида (4.41), (4.42) при начальных условиях из (4.176), (4.177). Для определения ztk и Cih — параметров условного нормального распределения вектора xth и Sh — его условной
§ 4.17] АЛГОРИТМ ОРФ ПРИ МОДЕЛИ 2 219 взаимной с xqh к. м. учтем, что Я Ik — Hlh (ifk — HqkXqh)- Отсюда получим * ik = IIIk {Уk — HqkZqk), (4.178) (4.179) Сlk = HIk Hqlfiqk \Hlk Hqk) , Sk = M [(xqh — zqk) (xlk — zlk)T/y0, ..., yk] = = -Cqk{HTkHqk)\ (4.180) Если через zh и Ch обозначить параметры искомого условного распределения вектора xh, то можно использовать следующую компактную запись: Zk = Ph Ун Pk1 0,i J 0I4| {P^)\ (4.181) Рекуррентные формулы (4.41), (4.42) и (4.178), (4.179), (4.180) (или (4.41), (4.42) и (4.181)) полностью определяют эволюцию параметров условного распределения векторов хк при измерениях модели 2 и являются алгоритмом ОРФ в этом случае Из (4.181) видно, что матрицы Ck-t — всегда особенные (имеют ранг не более q). Поэтому трудно что-либо сказать о ранге матриц Ск, а значит, и о ранге матриц Qkl кроме очевидных частных случаев (например, если х¥ц(к—1)> >0, то, как видно из (4.38), (^ — неособенная). Поэтому весьма вероятна необходимость применения АЛО или ПА при использовании рекуррентных формул (4.41), (4.42). Формулы (4.36) — (4.42) применимы, если удается получить аналитические выражения для матриц ah, bkJ Ч^, по которым в соответствии с (4.167), (4.169), (4.174), (4.175) можно получить аналитические выражения для матриц в правых частях формул (4.36) —(4.40). Однако часто эти выражения получить трудно и необходимо найти систему векторных и матричных дифференциальных уравнений, из которых векторы xth, xqk и матрицы Qk, Lh, C(Jh, входящие в правые части (4.41), (4.42), определяются численным интегрированием при соответствующих начальных условиях. Пусть в момент ^_j найдены векторы zh h-u zqi ft_i, составляющие zh-i — вектор условного м. о. вектора xh~u и матрицы Ct> ь-i, Sh-U Cqx h-i — блоки Ch-V — условной к. м.
220 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 вектора xk-i. Численно интегрируя от th-i до th при начальных условиях zh-u Cfc-i уравнения (4.96), (4.97), получим xk, Ck — параметры априорного (до фиксации вектора yk) распределения вектора xh. Тогда векторы xth, xqk и матрицы Qh, Lh, Cqk определятся при разбиении на блоки вектора Phxk и матрицы PhChPl: ШЧ PkXu =-- xqh\ РкСкП = Lk ! Cqk При измерениях j/0, ..., yh модели 2 исследование стохастической наблюдаемости можно провести, рассматривая структуру матрицы L, описываемой (4.74), (4.75), в которых a(i, j) = Ф(и, t>), где Ф(£г-, tj) — фундаментальная матрица, соответствующая уравнениям (3.1). § 4.18. О сходимости алгоритма ОРФ при измерениях модели 2 При измерениях модели 2 вектор ошибок оценки состоит из вектора 8qh: bqk = zqh-xqh (4.182) и вектора 6^: §lk = Zlk — Xik= — Щи HqkSqk. (4.183) Из (4.183) видно, что далее можно интересоваться лиш*> вектором 8qh. Вычитая из (4.41) равенство (4.173), получим, что векторы 8qh удовлетворяют уравнению (4.57) при условии бдо = (/«— A0Hq0)(xq0 — xq0) — A0HiQ(xio — хю). (4.184) Из (4.59) получим, что Cqh — к. м. вектора 8qh удовлетворяет уравпению Cqh = ThCqth^rk + Bh, (4.185) где Bh = Vqq(к - 1) + ЛкЧи (к — 1)Л1— Vql (к - 1)Л1 - -AhVlq(k-l), a Cq0 — линейная комбинация блоков, на которые разбивается С0. Нетрудно проверить по индукции, что правая часть (4.42) равна правой части (4.185) и, следовательно, матрицы Cqh в (4.185) и (4.42) одинаковы.
§ 4.19] ФОРМИРУЮЩИЙ ФИЛЬТР 221 Аналогично вышеизложенному, параметры локального (при фиксированном векторе xq0) распределения вектора Sqk. Щк = М [Sqk/Xqo], Cqk = М [{8qk — mqk) (8qk ~ ЩьУ/Zq0] определятся формулами mflfc = rfc...rl890f (4.186) Cqk = Cqk -Тк.:.ТгСд0(Tk...Ttf. (4.187) Из (4.185) получим Сqk — Tk-..Г^Сдо (Г/i...Гх) + Гл...V^B1 (Гь...Г2) ' + • • • ... + ТкВк^Ц + Вк, (4.188) В{ ^ 0. Поэтому, если теоретически или расчетом на ЦВМ установлено, что Cefc-*0W> fc-^oo, (4.189) то Тк...Т^0т9 ft-><*>, (4.190) и, как видно из (4.186), (4.187), ™>qk-+Oq, Ck-^Oqq, ft->00. (4.191) Поэтому, если справедливо (4.189), то алгоритм ОРФ при измерениях модели 2 сходится. Однако (4.189) может выполняться лишь в специальных случаях, требующих^ па- пример, выполнения равенства ^¥qq = Ч^Ч^1^' реализуемого при x¥qq = Oq(h 4*qi = Oqi. Свойства алгоритма ОРФ как оцепивателя при измерениях модели 2 описывает матричная спектральная норма матрицы ГА... Г0: /(ft) = I Th... Г01. § 4.19. Формирующий фильтр Пусть в дискретные моменты-времени векторы ошибок измерений £ft в (4.77) определяются соотношением £)k = = £(£fe), где £Ш — непрерывный случайный векторный процесс, удовлетворяющий уравнениям l = A„6 + A„v + &Ef (4.192) v=Ap,l+APPv + gJi. (4.193) Здесь v — /ьмерный вспомогательный вектор, h — вектор белых шумов единичной интенсивности, Л^, Л*р, Лрг, Лрр,
222 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 gh Sv — заданные матрицы соответствующей размерности. Эти матрицы далее считаем постоянными. Уравнения вида (4.192), (4.193) обычно называют «уравнениями формирующего фильтра». Например, если анализ непрерывного случайного процесса ошибок измерений показал, что корреляционную функцию этого процесса с достаточной точностью можно представить выражением £(т) = о2ехр(-а|т|), (4.194) то уравнение формирующего фильтра имеет вид i = -a% + gh, (4.195) где g = У2ао, I = 1, р = 0. Если К (т) = а2 ехр (— а | т |) (cos Ъ% + j sin b | т |1 (4.196) то уравнение формирующего фильтра имеет вид t = v, у = - (а2 + Ъ2)1 - 2av + gh, (4.197) где g = 21/а(а2 + Ь2)а, I = 1, р = 1. Так как формирующий фильтр стационарен, то фундаментальную матрицу уравнений (4.192), (4.193): ФЛШ при t — tk — £*_! = А можно разбить на блоки <fc(A), d/p(A), d„f(A), ^„„(А). Тогда вместо (4.192), (4.193) уравнения дискретного формирующего фильтра запишем в виде U = d„( Д )!*-! + 4P(A)v*-i +_ть (4.198) vfe = dp,(A)£fc_i + йРр(Д )vft-i + rip, (4.199) где vfc = v(£ft), а т]?, r\P — случайные векторы порядка IX 1 и р X 1, описывающие эффект действия на формирующий фильтр случайных возмущений gth, gvh на интервале [th, tk-i\. Их корреляционные и взаимные корреляционные матрицы^ Уц = М [л/лП^рг = у/р = М [vH/L ^рр = = М [лрЛр] определяются явными формулами, если только матрицы dn(A), й/р(Д), йр/(Д), с/РР(Д) найдены в аналитическом виде. Формирующий фильтр всегда устойчив, а белый шум считается поданным на его вход достаточно давно. Тогда можно считать, что переходные процессы в фильтре за- каичились и R(t) — к. м. случайного вектора, составленного из векторов v(t), §(£), от t не зависит. Поэтому в
§ 4.19] ФОРМИРУЮЩИЙ ФИЛЬТР 223 уравнении л=лл + #лт + с л, (4.200) л = 'Pi А 1р рр\\ GA = надо положить R = 0. В результате получим для R матричное уравнение AR+RAT + GA = 0, (4.201) эквивалентное системе (1 + р){1 + р + 1)/2 линейных алгебраических уравнений относительно неизвестных элементов матрицы R. Матричное уравнение (4.201) имеет однозначное решение, если у матриц Ли -Лт нет общих собственных значений. Но это будет всегда, если только матрица Л устойчива (не имеет нулевых собственных значений и двух собственных значений таких, что одно равно другому, взятому с обратным знаком). Разобъем к. м. R на блоки: л = R.iA^iv (4.202) умножим (4.198) на Ц и vj, a (4.199) — на v£- После осреднения полученных соотншений найдем искомые формулы х¥ц = Rn — diiRndTii — dnRipdip — dlpRpidu ~~ — dipRppdip, (4.203) ^ip — Rip — duRudpi — dipRpidpi — diiRiPdpp — dtpRppdppi (4.204) ■ dpp-KppU'pp Урр — Rpp — dPiRndpi — dppRpidpi dpiRipUpp ■ _ _ (4.205) где положено dn = du(&), dlp = d(p(A), dpl=^dPi(A), dpp = dpp(A). Заметим, что знание к. м. R позволяет несложно найти блоки корреляционной матричной функции формирующего фильтра: Ка (т) = М [| (t + х) | (tf], Klp (т) = М [I (t + х) v (*)*], , KPi (т) = KiP (т)т, KVP (т) = M [v (t + x) v (*)*].
224 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 Наибольший интерес представляет матричная функция Кц{%). Эту функцию найдем, написав уравнение вида (4.198) при замене tk на t + т, tk~i на t, умножив его справа на £U)T и осредиив: Ки{%) = dH( Ы )Д« + dlp( I т| )Rpl. (4.206) Рассмотрим примеры. 1. Уравнение формирующего фильтра имеет вид (4.195), и du(x) =exp(— ат). Из (4.201) и (4.203) получим R»=g2 = ^ T„ = £(l-exp(--2aA))f (4.206J а из (4.206) следует (4.194). 2. Уравнение формирующего фильтра имеет вид (4.197), и du (t) = exp (— at) (cos bt + ~sinbt), dlp (t) = -- exp (— at) sin bt, dPi (t) = — exp (— at) i-^T b) sinbf, dpp (t) = exp (— at) ( — y sin bt + cos Ш. Из (4.201) и (4.203) - (4.205) найдем „2 Rn = , , f , .v , Я,р = Л„, = 0, Лрр = (a2 + Ь2) Ли, 4a va + Ъ ) 4% = — Д„ (rf^rfpz + (a2 + b2) dlpdpp), Wpp = Ди (a2 + b2 - <#, - (a2 + б2) d2p). Формулу (4.196) получим из (4.206). Иногда случайные векторы gfc представимы в виде £fc == Pft, o£fc + P/t-l, 15/1-1 + • • . + P/t-s, aZh-s, — заданные числа, а случайные вектор :ы. Введем векторы vhi уравнениями V/i0==Sfc, Vftt ^Vfc-i.o,-..., V*. =* Vjb-lf e_i. (4.2062) Тогда Ун => Hhxh + fo oVAO + ... + p*-,, .v*,. (4.2063) где 5, pt> j — заданные числа, а случайные векторы £< и £,- независимы. Введем векторы vftt уравнениями
§ 4.20] АЛГОРИТМ ОРФ ПРИ ЗАВИСИМЫХ ОШИБКАХ 225 Уравнения (4.2062) являются дискретным формирующим фильтром для вспомогательного вектора vA, составленного из векторов Vfto, ..., vfee. По измерениям (4.2063) алгоритм ОРФ должен оценивать векторы хк и vfe. § 4.20. Алгоритм ОРФ при зависимых ошибках измерений 1. Для получения уравнений алгоритма ОРФ, если векторы xk удовлетворяют (4.78), векторы измерений имеют вид (4.77), а векторы случайных ошибок измерений удовлетворяют уравнениям дискретного формирующего фильтра вида (4.198), (4.199). Введем векторы хгк, xqk, x\ (q = = р + п): 3. xqh Тогда Vh = HiKXiK + Hqhxqk, где Htk = 11, Hqk = || 0ip\Hk ||. Итак, задача рекуррентной фильтрации при зависимых ошибках измерений свелась к рассмотренной ранее задаче определения параметров условного распределения векторов х\ при векторах измерений ук модели 2. Переходя от х% и xk, с помощью линейного неособенного преобразования Рк (см. (4.164), (4.165)) получим, что векторы xth = %к + Hhxk и xqk связаны соотношениями вида (4.172), (4.173), в которых аа (к — 1) = du (A), aiq (к — 1) : I dip (А) !#*<!*_!— -rf„(A)#*-ib (4.207) aql (к — 1) = 14 «qq (к-1) <*РР(Л); *ptW*i ft-1 пр Ч-i bl(k-i) = Hhbh-1, bq(k-i)=\ рт °h-l Эти формулы следуют из матричных равенств |*H(A)!VA){ °т аи(к —1)]^ (к —i)i *Я1 (k~i)\aaa(k-l) qqy dpl(A)\dppW\ Jnl V : «i pn 'ft-1 (4.208) (4.209) Ph—1» 15 и. А. Богуславский
226 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. \ J h (к - 1) |_™„... Из матричного равенства = Ри Jlm *и *Р1 Ощ • pp : ^np Of» 1 °pn *k-l\ PI следуют выражения для к. м. и взаимных к. м. векторов t]i, fe-ь Ця, fe-i" Y„ (ft - 1) = ?„ + ЯЛ_АТ , Wlg (ft - 1) = ¥,г (ft - 1)\ (4.210) I % Ye/ (Л.—i) = к--- kU, 4V(ft-i) = Y i 0 PP : pw °np : ^/i-1 (4.211) Из соотношений вида (4.168) и £0 = 0, v0 = 0 найдем, что параметры априорного распределения векторов xi0, xq0 определятся равенствами xl0=H0x0, xl0==\\o;\x0\l Q0 = Ru+H0C0Hl (4.212) Д vi О — II Г /7Т II °оло , Cqo = L : j* • (4.213) II np; uo II Параметры условного распределения вектора xqk и дивектор его априорного (в момент tk) м. о. представим в виде Zqk = *pk » kgfc ^pfe | Sk *k\Ck !» ^-gfe — рч" , (4.214) где zph, Cpk — параметры условного распределения вектора vfe, которые мы вынуждены определять вместе с zh, Ch, a Sk — условная взаимная к. м. vk и xk. Из (4.36), (4.37) и (4.207)^(4.209) найдем 'xtu = dn (Л) (yfl-i — Hu-tfk-г) + Ht^Xh + dip (A) zp,ft-i, (4.215) vk = dpi (A) (yk-i — Hk-iZk-i) + dpp (A) zPfft-lf (4.216) \ = ah-xzh-x + bk-iuk -i. (4.217)
§ 4.20] АЛГОРИТМ ОРФ ПРИ ЗАВИСИМЫХ ОШИБКАХ 227 Из уравнения (4.41) получим zPk = v* + Lk^Qh1 (у к — я/л), (4.218) zh = \ + LknQh1 (Ук — «л). (4.219) где Lftp, Lkn — матрицы, составленные соответственно из р и п последовательных строк матрицы Lh. Матрицы Qk, Lk, Cqh определяются формулами (4.38) —(4.40). Все матрицы, входящие в эти соотношения, приведены в (4.207) —(4.209) и (4.210), (4.211). Определив матрицу Cqk, из (4.18) найдем, в соответствии с разбиением на блоки в (4.214), Ск — правый нижний блок матрицы Cqk. Начальные условия для применения рекуррентных формул (4.218), (4.219), (4.42) получим из (4.212), (4.213). Иногда полезно иметь выражения для параметров условного распределения всего вектора х\, составленного из элементов векторов £fe, vfc, xh. Учитывая вид матрицы Р/71, нетрудно получить следующие разбиения на блоки z\ и (4.220) Выше рассматривалась распространенная ситуация, в которой векторы белых шумов h и h в уравнениях (3.1) и (4.192), (4.193) не имели общих элементов. В противном случае путем соответствующего расширения матриц g, gh gP целесообразно считать, что h = h. Тогда матрицы ^qiik—l) и Wqqik—l) в (4.211) примут более сложный вид. 2. Полученные выше формулы алгоритма ОРФ (эти формулы иным способом были получены в [10]) показывают, что при зависимых ошибках наблюдений и формирующем фильтре общего вида (4.192), (4.193) определение параметров условного распределения вектора хк сопровождается вынужденным определением параметров условного распределения случайного вектора, составленного из вспомогательного вектора vh и вектора xh. Если в формирующем фильтре отсутствует вспомогательный вектор v (/? = 0), то алгоритм ОРФ при зависимых ошибках измерений по объему вычислений (по порядку входящих в 15* с\- 4 = условных \Vh — Hkzh\ zpk zk 1 м. о. и к Г° — . м. вектора я£: HhckHl \ — Hksl I — skHu 1 cpk \-скв1\ si \ -*нксл Sk \ ck
228 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 формулы алгоритма векторов и матриц) не отличается от алгоритма ОРФ Калмана. Действительно, при р = О alq (к — 1) = Hkah-X — dn (А) Ял_1? Wql(k-l) = Wk.1Hl Wqq(k^l)]=Wk^ Lkn = Lh и формулы алгоритма ОРФ примут вид Zk = ^k + LkQk1 (yk — dn (A) (yfe_! — Hk^Zk^) — Hhxk), (4.221) Ck = Ck — LkQk1^, (4.222) где £ь = ak-iCk-xHl + Wk-iHh Qk = HkCk-iHl + + ?„ + ял_1я1, Cft = аъ-xCk-ial-i + Tft-i, Яй = Hhak-X — d/j (А) #а_ь а #ь определяется (4.217). Первый шаг алгоритма, как следует из (4.212), (4.213), имеет вид , ^#^ *о = ^о + С0/Л (Д«, + ЯоЗД)"1 (Уо - #о*о). (4.223) С0 = С0-С0Щ(Н11 + Н0С0Ы1)-1Н0С0. (4.224) Наиболее часто в прикладных задачах для ошибок измерений используют формирующий фильтр вида (4.195). В этом случае в приведенном выше алгоритме (4.221) — (4.224) надо положить du(A) = ехр (— аД), а величины Ч^ и Ru взять из (4.206i). 3. При Z-1, Vfc-O»» алгоритм ОРФ (4.221), (4.222) нетрудно записать в виде, содержащем не к. м. Ch, а матрицу Wh — корень квадратный из матрицы Ch. ^ __ Пусть Ск-1 = Wk-iWl-i- Положим ak-1Wk-i=Wh, Hka,kli = Hk (матрица ajT-i существует, так как ak-i — фундаментальная матрица). Тогда Lh = WhWThHl Ch = WkWl, Qk = IIlWhW№l+4u. Из (4.222) получим Ch = WhWl, Wk = Wk (/„ - %Q^WlHlHhWk),
§ 4.20J АЛГОРИТМ ОРФ ПРИ ЗАВИСИМЫХ ОШИБКАХ 229 4. Рассмотрим случай, когда не удается получить аналитические выражения для фундаментальных матриц уравнений формирующего фильтра и динамической системы. Пусть в момент tk-i получены вектор zk-\ и матрица Ck-n определяемые при замене к на к — 1 формулами (4.220). Определим матрицы А0 п Gn разбиением на блоки: 1 \ ^ k/i°«,.;A , G° = , д° = 10,1 1 и 1 и найдем вектор априорного (для момента tk) м. о. xk и априорную к. м. С% численным интегрированием от 4-t до th уравнений х = А°х + В°и, d = A°C + C(A°y + G° при начальных условиях х {tu-\) = 2/,-i, C(^-i) = Cft-i- Тогда #£'= .т (/fc), С)? = б1 (/^). Векторы #/*, vk, xh и матрицы (J/t, Lk, Cqk, необходимые для использования формул рекуррентной фильтрации (4.218), (4.219), (4.42), найдутся из равенств рЛ = 5. При зависимых ошибках измерений легко получить частные условия стохастической ненаблюдаемости. Так, из формул (4.224), (4.222) следует, что при отсутствии шумов, возмущающих динамическую систему (Ч^-! = 0пп), во всех измерениях (кроме измерения в момент t0) векторы хк стохастически иенаблюдаемы, если Hk = duH^a^. (4.225) Действительно, при выполнении (4.225) Нк = 0 и, следовательно, £ь = 0, Ск = Ск. Равенство (4.225) выполнится, например, если//* = #= /n, du = ак1г. Вектор х0 при этом имеет не менее / стохастически, наблюдаемых компонент, если к. м. С0 — неособенная, а ранг Н0 равен I (в этом случае L0 составлен из I линейно независимых векторов- столбцов, а к. м. Q0 положительно определена). Итак, в рассмотренном случае условные вектор м. о. и к. м. постоянны после поступления первого вектора об- ст Vh PkClPl Qui К Jqh
230 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 ратной связи г/0. Пусть теперь ^-i = 0nn, к. м. Ч^п иС0- неособенные, а ранг матриц Нк равен I. В этом случае к. м. Qk, Ск1 Ск — неособенные (следует из лемм 4.3—4.5 при замене к. м. Rh и матрицы Нк на к. м. 4я н и матрицу Нк) и справедливы доказанные ранее для измерений модели 1 положения о стохастической наблюдаемости и условиях сходимости условного распределения. 6. В заключение отметим, что в литературе [19, стр. 457] алгоритм рекуррентной фильтрации при зависимых ошибках измерений получают искусственным путем, образуя линейную комбинацию векторов двух последовательных измерений, причем молчаливо предполагается, что найденный алгоритм является оптимальным. Однако алгоритм [19] отличается от приведенного выше алгоритма ОРФ (4.221), (4.222). Поясним это в частном случае, когда Ч'Ч^Опп (на систему не действуют случайные возмущения) и система стационарна (afc-i = а, Нк = Я). В этом случае, как следует из формул на стр. 460 [19], в алгоритме [19] к. м. Ск в принятых выше обозначениях определяется рекуррентным уравнением Ск = аСк-,ат - aCh-iaTHT(HaCk-iaTHT + ^цУ'НаС^а", Н^На-ЪШН, в то время как в алгоритме ОРФ из (4.222) к. м. Ск в развернутой форме имеет вид Ск = аСк-,с? - аСк-,НЛНСк-,Н" + Чи)-'НСк-,а\ Кроме того, в алгоритме [19] в формуле вида (4.221) для вектора оценок zh векторы ук и ук-^ заменены соответственно на векторы yk+i и ук. Поэтому алгоритм [19] выдает векторы оценок с запаздыванием на интервал времени А. Не является алгоритмом ОРФ вида (4.221), (4.222) и алгоритм, приведенный в [44, стр. 333]. § 4.21. Достаточные статистики при измерениях модели 2 Векторы xh, связанные с хк линейным соотношением (4.164), имеют, как следует из § 4.7, векторы достаточных статистик Dh:
§ 4.21] ДОСТАТОЧНЫЕ СТАТИСТИКИ ПРИ МОДЕЛИ 2 231 % A Kh = LhQu\ (4.227) удовлетворяющие уравнению, аналогичному (4.51): D'k --= ah-xtih-i + 6ft_ii*A_i + GhEh. (4.226) В (4.226) ah-x и Ь/4_1 определяются (4.167), причем М [efteft] = Qh, M [e;ej] = 0„ при 1ф], М [eft] = 0. (4.227,) Матрицы Lft, Qh определяются рекуррентными уравнениями (4.38) — (4.40), (4.42), в которые входят матрицы, содержащиеся в блочных представлениях (4.174), (4.175). Очевидно, что Dk — вектор достаточных статистик вектора хк связан с Dh линейным соотношением (4.164), которым xh связан с xh: Dh = PkrDh. Умножая (4.226) слева на гь и учитывая (4.167), получим, что при измерениях модели 2 векторы достаточных статистик векторов фазовых координат порождаются стохастическим уравнением Dh = ал-!^-.! + Ьл-хИл-1 + P^G^, (4.228) причем Dh = *ih Zqk (векторы Zik связаны с векторами zqh формулой (4.178)). Чтобы последовательность векторов Dh была марковской, векторы управлений ик должйы быть функциями Dh и числа к. Конечно, достаточными статистиками для хк можно считать и вектор Dh В этом случае ик должпы быть функциями Dh. Пусть теперь векторы ошибок измерений £fe зависимы п даны уравнения формирующего фильтра (4.192), j(4.193) пли (4.198), (4.199). Достаточными статистиками Dh векторов хк, составленных из векторов £>к, vh,_xh, будут векторы, составленные из zth, zph, zh. Векторы Dk при фиксированных векторах управлений образуют марковскую последовательность, порождаемую стохастическим уравнением вида (4.228), если матрицы /V\ Gk, ak, Gk заменить на матрицы Р/Г1, Gkl a>k>bk, определяемые следующими блочными
232 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 представлениями: pi -1 hlK Ih Jpl\ "рп %l ! ®np : Gh hpQk1 hnQk1 ak = dn \ diP ; °m I dpl : dPP : ®pn °nl i °npj ak 1 |°im| bh | где матрицы Lfep, Lfen, ()ft определены при построении формул (4.218), (4.219) алгоритма ОРФ при зависимых ошибках измерений. Вектор zh является вектором условного м. о. вектора хк после фиксации векторов измерений #о, ..., ук и вместе с условной к. м. Ск (с блоком матрицы Счк в соответствии с (4.214)) служит параметром условного нормального распределения вектора хк. Поэтому zh — вектор достаточных статистик вектора хк: Dk = zk. __ Учитывая блочную структуру матриц -Р/Г1, Gky аи, bh, из стохастического уравнения для Dk получим, что векторы Dh порождаются стохастическим уравнением Dk = ah-ADk-i + Ьл-!^-! + Акгк, (4.229) где Ak = LknQk1- При фиксированных векторах управлений или при uh = u{Dk) векторы Dk образуют марковскую последовательность, так как гк — последовательность независимых случайных векторов. Сравнивая уравнения (4.229) и (4.101), видим, что достаточные статистики векторов хк как при зависимых, так и при независимых ошибках измерений образуют при фиксированных векторах управлений марковскую последовательность, порождаемую одинаковыми (по форме записи) стохастическими уравнениями. § 4.22. Рекуррентная фильтрация при: измерениях смешанной модели Иногда одна часть компонент векторов обратной связи принадлежит модели 1, а другая часть — модели 2. В этом случае ук можно представить объединением компонент вектора ук1 вида yhi = Hhixh + £м и вектора ук2 вида ук2 — Нк2хк. Покажем, что подобная ситуация возникает, если будет особенной матрица R — к. м. вектора \к в измерениях вида 1 (см. (4.77)).
§ /«.23] ПРОВЕРКА ПРОГРАММЫ АЛГОРИТМА ОРФ 233 Ранее было показано, что в этом случае случайный вектор §я можно представить в виде £ II wu II где Г — некоторая матрица, а к. м. вектора |Л1 — неособенная п ее ранг равен рангу матрицы Rh. Тогда II Ukl II IIHkl II II Jk2 || \\nk2 II причем У in = Hhlxk.+ lkl, (4.230) »Л2 = Я^л + Tgftl. (4.231) Умножая (4.230) слева на матрицу Г и вычитая из (4.231), получим Ук2 = Ум — Г#ы = #Л2*л. (4.232) где Hk2 == Hk2 — TIIkl. Векторы Уы и ук2 однозначно определяют вектор ук2\ наоборот, векторы yhi и ук2 определяют вектор ^-Поэтому условное распределение вектора хк не изменится, если считать, что вектор измерений принадлежит смешанной модели и составлен из компонент вектора уки принадлежащего модели 1, и компонент вектора 1/м, принадлежащего, как видно из (4.232), модели 2. Для определения параметров условного распределения вектора хк естественно поступить следующим образом. Вначале, считая измеренным вектор yhi, с помощью алгоритма вида (4.89) —(4.95) определяем параметры соответствующего условного распределения — условные м. о. zhi и к. м. Cki. Далее, считая это распределение априорным, а результатом измерений — вектор ук2, алгоритмом вида (4.36) —(4.42) или (4.215) — (4.219) определяем параметры условного распределения вектора хк при измерениях вектора ук смешанной модели. § 4.23. Проверка программы алгоритма ОРФ Если достаточно велика размерность п оцениваемого вектора фазовых координат, то алгоритм ОРФ реализуется на ЦВМ программой большого объема, в которой возможны ошибки. Как проверить программу ЦВМ, реализую-
234 ЛИНЕЙНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 4 щую алгоритм ОРФ, если на ЦВМ без ошибок реализованы модели линейного объекта и векторов измерений? Вследствие линейности алгоритмов ОРФ вектор ошибок оценки 6fe линейно зависит от вектора начальных фазовых координат х0: 8h = zh-xk = Bhx„ + 6fci, (4.233) где Bh — матрица коэффициентов влияния компонент вектора х0 на компоненты вектора 6ft; бы — случайный-вектор ошибок оценки, возникающих из-за наличия случайных векторов возмущений r\i (O^i^k — 1) и ошибок измерений £г (0 ^ i ^ к). Элементы матрицы Bh могут быть определены экспериментально расчетами на ЦВМ. Так, из (4.233) видно, что ;-й столбец матрицы Вк равен определяемому на ЦВМ вектору ошибок оценки, если в моделях объекта и измерений положить равными нулям векторы случайных возмущений и ошибок измерений, ;-й элемент вектора х0 положить равным 1, а остальные элементы этого вектора положить равными нулям. Поэтому матрица коэффициентов влияния Bh определяется расчетом на ЦВМ п реализаций процесса оценивания в условиях, описанных выше. Из (4.233) получим Ch = ВкС0В1 + М [8hl8lil (4-234) Так как матрица М [б/цб^] неотрицательно определена, то при всех / (1</<я) должно выполняться неравенство {Ch)i>{BhC,Bt)h (4.235) где (A)j — у-й диагональный элемент матрицы А. Выполнение неравенства (4.235) при всех j{0^j<n) является необходимым условием правильности программы, реализующей на ЦВМ алгоритм ОРФ. Если исследователь имеет возможность провести на ЦВМ статистический эксперимент, то следует проверить выполнимость следующего из (4.234) равенства (Cfc)i = (BhC0Bl)j + °Ь о где Oj — определяемая экспериментально дисперсия у-й компоненты вектора 6ftl.
ГЛАВА 5 АЛГОРИТМЫ ОРФ В НЕКОТОРЫХ ЗАДАЧАХ ИНЕРЦИАЛЬНОЙ НАВИГАЦИИ § 5.1. Особенности компонент вектора измерений В существующей обширной литературе по применению алгоритмов рекуррентной фильтрации для решения прикладных задач оценки и управления обычно рассматриваются случаи, в которых входной информацией служат измерения модели 1 и алгоритмом ОРФ является алгоритм Калмана. Поэтому может показаться неоправданным большое внимание, уделенное выше алгоритмам ОРФ при измерениях модели 2. Но, как уже выше подчеркивалось, алгоритм Калмана является частным случаем этих алгоритмов. Кроме того, инженерная практика располагает важными примерами, в которых рационально применять именно алгоритмы ОРФ при измерениях модели 2. Подобная ситуация возникает при рассмотрении задач инерциальной навигации движущихся объектов. В этом случае основную информацию выдают три акселерометра — три измерителя ускорений объекта, возникающих от негравитационных сил. Акселерометры устанавливаются на гироплатформе или непосредственно на объекте управления, их оси чувствительности взаимно перпендикулярны и образуют приборную систему координат. Но в БЦВМ вводятся не ускорения, а интегралы от них, получаемые при подаче измеренных ускорений на электромеханические или цифровые интеграторы. Пренебрегая случайной, но постоянной в данной реализации масштабной ошибкой, будем считать, что измеренные акселерометром ускорения являются суммой фактического негравитационного ускорения, случайного, но постоянного в каждой реализации «ухода нуля» акселерометра, быстро меняющихся шумов, моделируемых белыми шумами. Поэтому во вводимых в БЦВМ с выходов интеграторов величинах должны содержаться случайные ошибки в виде интеграла от белого шума.
236 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ. 5 Обозначим V(t) интеграл от выхода акселерометра, введенный в БЦВМ в момент /; ait) — проекцию вектора негравитационного ускорения в момент t на ось чувствительности акселерометра; а — «уход нуля» акселерометра. Тогда «л V(th) = V(tk.1)+ j а(т)Л + аД + Ь-1. (5.1) tk-i В (5.1) A = tk — tk-u ^A-i —интеграл от белого шума на отрезке lth-u th]; поэтому £0, £i, •-, £л — последовательность независимых случайных величин. Специфика той или иной конкретной задачи инерци- алыгой навигации учитывается при записи интеграла в правой части (5.1) через фазовые координаты математической модели этой задачи, в число которых входит и величина V(t). Обычно»используются результаты интегрирования выходов 2 или 3 акселерометров. Поэтому в задачах инерциалыюй навигации вектор измерений имеет две или три компоненты со структурой, описываемой (5.1), которая аналогична структуре векторов x,k в (4.34). Итак, в системах инерциальной навигации, у которых результатами измерений являются выходы интеграторов сигналов акселерометров, векторы измерений (или по крайней мере часть компонент этих векторов) принадлежат модели 2 (образуются без ошибок). Это утверждение, конечно, верно лишь, если пренебречь быстро меняющимися ошибками самих интеграторов, которые из-за различных технических причин могут добавляться к результатам идеального интегрирования. Так, при цифровом интегрировании быстро меняющимися ошибками следует считать ошибки, вызываемые квантованием по уровню. Аналогичные ошибки появятся при вводе в БЦВМ аналоговых сигналов выхода интеграторов. При учете ошибок от квантования по уровню векторы измерений принадлежат уже модели 1, так как для алгоритмов ОРФ, реализованных в БЦВМ, компоненты вектора измерений состоят из величин вида VUk), сложенных с дискретным белым шумом, которым моделируются ошибки квантования по уровню. Однако для современных систем ошибки от квантования по уровню обычно очень малы и их можно не включать в модель случайных ошибок, влияющих на структуру алгоритмов ОРФ.
§ 5.2] ЗАДАЧА СОГЛАСОВАНИЯ СИСТЕМ КООРДИНАТ 237 § 5.2. Задача математического согласования систем координат (математическая выставка) 1. Пусть транспортная система состоит из двух ступеней, на каждой из которых имеется система инерци- альной навигации. Примером такой транспортной системы может служить корабль (ступень 1) и стартующий с него самолет (ступень 2). Ортогональные правые системы координат гироплатформ ступеней 1 и 2 называются соответственно «базовой» и «зависимой» системами координат (б. с. к. и з. с. к.) [38]. Оси б. с. к. и з. с. к. далее обозначаются соответственно через 1, 2, 3 и 1', 2', 3' и совпадают с осями чувствительности троек акселерометров, установленных на каждой из гироплатформ. Ииерциальыая навигация ступени 2 после ее отделения от ступени 1 происходит при начальных условиях, равных параметрам движения центра масс ступени 1 перед стартом ступени 2. Поэтому должна быть проведена математическая выставка — определены в функции времени углы ориентации з. с. к. относительно б. с. к. Ги- роплатформа ступени 2, материализующая з. с. к., обычно заметно грубее (имеет существенно большие уходы), чем гироплатформа ступени 1. Поэтому вспомогательной задачей математической выставки следует считать задачу определения параметров случайного ухода (дрейфа) з. с. к., определяемого в предположении, что дрейф б. с. к. отсутствует: после старта дрейф з. с. к. может быть учтен в алгоритмах инерциальной навигации ступени 2. 3. с. к. может быть совмещена с б. с. к. последовательными поворотами вокруг оси 1' на угол 0Ь вокруг оси 3' — на угол 03, вокруг оси 2' — на угол 02. Часто углы 6i, 02, 03 обозначают соответственно у, г|>, Ф. Угол 0г > 0, если для совмещения надо поворачивать з. с. к. по часовой стрелке вокруг оси V ii = 1, 2, 3). Матрица М(0) — ортогональная матрица направляющих косинусов з. с. к. относительно б. с. к. имеет следующие элементы т^\ ■ тп = cos 02 cos 0з, mi2 = sin 0i sin 02 — cos 0i sin 03 cos 02, rriis^ cos 0i sin 02 + sin 0i sin 0з cos 02, m2i = sin03, m22 = cos 0i cos 03, m2Z = —sin 04 cos 03, m3i = — cos 0з sin 02, m32 = sin 0i cos 02 + cos 0i sin 02 sin 03, ra33 = cos 0i cos 02 — sin 04 sin 0г sin 03. D (5.2)
238 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ. 5 Пусть г — вектор в б. с. к. и г — тот же вектор в з. с. к. Тогда г = Ж8)г', г = Же)г' + М(9)г'. (5.3) Соотношение связи производных векторов г и г' в проекциях на оси з. с. к. имеет вид 7t/(0)V = r, + [o)Xr,J, (5.4) где о — вектор угловой скорости з. с. к. относительно б. с. к., заданный своими проекциями на з. с. к. Пусть г' = const (r' = 0). Умножим (5.4) слева на Л/(8) (Л/С0) X ХД/(6)Т = /3) и, сравнивая с (5.3), найдем Ж9)г' = М(8)[о)Хг']. (5.5) Положим в (5.5) последовательно вектор г' равным векторам-столбцам единичной матрицы /3; получим известное матричное линейное дифференциальное уравнение, которому удовлетворяют функции Шц (уравнение Пуассона): Ж0)=Д/(е)Ф, (5.6) где Ф = 0 Ш8 W2 -<°а 0 <°1 Ш2 -Ш1 0 (5.7) 0)г — компоненты вектора о в з. с. к. Аналогично доказывается, что Ш&)т = -М№)тФи где Oj имеет вид (5.7), если (ог — компоненты вектора со в б. с. к. Заметим, что шесть уравнений в (5.6) следуют из трех уравнений, так как з з 2 m\j = 1, 2 ™>\кЩи = 0. j=i fe=i Кроме того, при использовании матричного уравнения (5.6) следует учитывать, что элементы одного из столбцов матрицы Жв) выражаются через элементы двух других столбцов. Так, например, т13 — т21т32 — т22гпзь т23 = т31т12 — тпгпг2,, Ш33 = Ш^Ш^ч — mi217l2\. Обозначим через Q* и Q* проекции соответственно на оси б. с, к, и з. с. к. векторов абсолютной угловой
§ 5.2] ЗАДАЧА СОГЛАСОВАНИЯ СИСТЕМ КООРДИНАТ 239 скорости б. с. к. н з. с. к., являющихся известными функциями времени, et — проекцию на ось V случайного вектора угловой скорости дрейфа з. с. к. Тогда в (5.7) надо положить со* = Qi — иг!^ — m2iQ2 ~~ та&з + еь £ = 1, .. ., 3, (5.8) и матричное дифференциальное уравнение (5.6) становится нелинейным, содержащим в правых частях полиномы 2-го порядка относительно неизвестных гпц. Обозначим ai, di сигналы выходов акселерометров б. с. к. и з. с. к., Vi и V\— интегралы от а\ и ^являющиеся вводимыми в БЦВМ сигналами выходов интеграторов б. с. к. и з. с. к., <Хг — уходы нуля акселерометров з. с. к., hi — белый шум, моделирующий быстро меняющиеся ошибки в измерениях я*. Выражая а* через щ и элементы матрицы МО1), получим а\ = тц^ + m2ia2 + m3iaz + a{-\-hu i = 1, ..., 3. (5.9) Далее, для определенности считаем случайные величины Ei и a.i постоянными в каждой реализации: ег = 0, аг = 0. (5.10) Интегрируя обе части (5.9) от 0 до th и считая, что величины тцМ мало меняются при T^UA-i, tkl, получим yi(*) = yi(ft-i)+ 2^(*-1)(^(*)- -Viik-ty + Oib + U-!, i = 1 3, (5.11) где V\ (ft) = V\ (th), Vi (ft) = V (th), mH (th) = mH (ft); U-i - интеграл от й*(т) в пределах от tk-i до tk. Вектор xih, составленный из компонент Vi(k), i = 1, ..., 3, измеряется без ошибок и удовлетворяет (5.11). Оценки компонент вектора xq, составленного из девяти элементов матрицы Л/С0), трех компонент 8*, трех компонент а*, удовлетворяющих нелинейным (5.6), (5.8) и линейным (5.10) дифференциальным уравнениям, требуют применения рассматриваемых далее алгоритмов нелинейной рекуррентной фильтрации, которые решают задачу математической выставки при произвольных величинах углов между з. с. к. и б. с. к.
240 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ, 5 2. Для линеаризации задачи предполагается, что некоторыми аппаратурными средствами произведена «грубая выставка», углы в* стали малы и можно положить cos 6г ~1, sin Од ~ 6i. Тогда из (5.2) М(0) = -е. 3 1 — "2 "1 Из (5.6), (5.8), пренебрегая величинами 2-го порядка малости в выражениях для m2i, rhm, т23, получим • f г Ш 01 = i^l — «1 — 63^2 ~Ь 02^3 Н~ 81Ш • / / 02 = «2 — й1% — 6i^3 -f" 63^1 ~Г $21 е3 = из - ^з — е А + OxQs + 83. п Уравнения (5.11) можно записать так: Xlh = Xl% h-l "•" dlq\k — L)Xqt k-i '"Г"- Ъ1, k-1» где вектор xih, компоненты которого x]k измеряются без ошибок, имеет размерность 3X1 И = 3) и х\и = V* (2А) — — FiUJ; вектор ^refe, компоненты которого должен оценивать алгоритм ОРФ § 4.6, имеет размерность 9X1 (д = = 9) и его первые три компоненты равны 9<(fft), вторые три компоненты равны ег, третьи три компоненты равны а*; вектор £/,ft-i имеет компонентами й—i, (5.12) (5.13) <to (А — 1) = О До О 2: - А, I О, О зз А/. bi = Vi(tk)-Vi(tk-1). (5.14) Для получения из (5.10), (5.12) уравнений связи векторов xqh и Xqtk-i учтем малость величины А, а также то, что Qi и Qi малы. Тогда приближенно xqh = aqq(k — l)xq> k-i + Xk-i, где (5.15) a<ra (ft — 1) = 1 Фз Фз 1 Ф2 Фх iA/0 "зз ^Л-1 = Ф1 - Ф1 Ф2~Ф2 Фз-Фз " о ф* = Q Д, ф, = Q*A. el (5.16)
§ 5.2] ЗАДАЧА СОГЛАСОВАНИЯ СИСТЕМ КООРДИНАТ 241 Из (5.13) и (5.15) видно, что задача разработки алгоритма математической выставки — алгоритма, входом которого служит последовательность измеряемых без ошибок величин V\(h), V\ (tk), i=l, ..., 3; к = 0, 1, .. .,а выходом — оптимальные оценки величин (Mfc), e<, а<, решается алгоритмом ОРФ, описываемым формулами (4.36) — (4.42) при ац{к — 1) = /з, aqiUc — 1) = 003; матрицы aiq(k — - 1) и aqq(k~l) приведены в (5.14), (5.16); Ч^Л—1) = = 063, \FOT(& — 1) =066; Ч1*//(к — 1) — диагональная матрица, i-и диагональный элемент которой равен ст^Л, j = = 1, ..., 3; величины о\ назначаются по данным экспериментов и интерпретируются как интенсивности белых шумов в выходах акселерометров. В формуле (4.36) бД/с — 1)ггА_! = 03i; в формуле (4.37) вектор bq(k — l)uk-i заменяется вектором %h-i; элементы матрицы Ч^/с — 1) будут не равны нулю, если в правых частях уравнений (5.10) будут присутствовать некоторые белые шумы. Часто ось 2 б. с. к. ориентирована по местной вертикали, и двухступенчатая транспортная система движется горизонтально. Тогда вертикальное ускорение а2М = g и в (5.14) A2 = gA. Из-за ряда технических соображений в алгоритме математической выставки обычно не используется информация от интегратора вертикального ускорения; в этом случае из хгк и матрицы aiq{k — 1) надо исключить соответственно 2-ю компоненту и 2-ю строку. Следует отметить специфику алгоритма математической выставки, заключающуюся в том, что элементы матрицы alq(k — 1) априори неизвестны и определяются фактически движением (вектором фактического ускорения) двухступенчатой системы, которое в принципе можно выбирать из условия достижения наивысшей точности выставки при учете заданных ограничений на движение [15J. Эти элементы, вообще говоря, являются «шумящими», если учитывать, что выходы интеграторов б. с. к. имеют случайные быстро меняющиеся составляющие из- за наличия быстрых шумов в ' выходах акселерометров б. с. к. Качество алгоритма ОРФ как оценивателя неизвестных QM) и ег- иллюстрируют рис. 5.1 и 5.2, где в функции времени представлены относительные ошибки оценки: 6ft(0 = (ei(0-4(*))(e*(0)r1, бе* (t) = (е, - z\+i (*)) еГ1, * = 1, ..., 3. 16 и. А. Богуславский
242 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ. 5 Оценивание проводилось в предположении отсутствпя at («уходов нулей» акселерометров) 6-мерпым нормированным алгоритмом ОРФ (4.36) —(4.42) при условиях Д = 1с, а? = 1. Закон движения б. с. к. в гравитационном поле соответствовал a2(t) = g и а№), a3(t) на too t(cex) tfce/f) Рис. 5.1. рис. 5.1 и 5.2. Из этих рисунков видно, что наиболее медленно оценивается величина е2 («азимутальный дрейф»). 3. При использовании для математической выставки алгоритма ОРФ Калмана часто считают, что входом алгоритма являются разности выходов интеграторов з. с. к.
§ 5.2] ЗАДАЧА СОГЛАСОВАНИЯ СИСТЕМ КООРДИНАТ 243 и б. с. к., измеряемые со случайными ошибками, независимыми для моментов U и ts (i¥=j). Векторы измерений ук соответствуют модели 1: yk = Hxk + lk, где дивектор, составленный из векторов xlh и xqk (компоненты векторов xk, xk-t удовлетворяют уравнениям (5.13), (5.15)), %k принадлежит последовательности независимых Рис. 5.2. случайных векторов, Н = || /3i039||. Этот алгоритм требует большей производительности БЦВМ, чем алгоритм, основанный на представлении векторов измерений моделью 2, так как размерность оцениваемых векторов равна 12 (или 11) вместо 9. 16*
244 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ. 5 § 5.3. Задача математической выставки при смешанной модели векторов измерений На осях карданных узлов гироплатформ 1-й и 2-й ступеней обычно расположены датчики углов ориентации б. с. к. и з. с. к. относительно связанных систем координат 1-й и 2-й ступеней. Выходы этих датчиков ^i(tk) и 7г (h) вводятся в БЦВМ. Считая, что оси карданных узлов приблизительно перпендикулярны плоскостям углов 8г, можно, учитывая малость углов 0», расширить вектор измерений, включив в него величины Vi {h) — Vi (*i)> связанные с величинами 6<(£fc) уравнениями Vi (th) - Уг (tk) = 9i (tk) + Pi + h (h), (5.17) где i = l, ..., 3, Pi —малые неизвестные постоянные углы, определяющие истинную ориентацию связанной системы координат ступени 2 относительно связанной системы координат ступени 1, £*(£*) — случайные, независимые величины, являющиеся суммой случайных ошибок измерения вышеупомянутыми датчиками углов ориентации. Вектор измерений 3X1 (или 2X1), состоящий из компонент вектора xtk, обозначим через Уи »вектор измерений 3X1, состоящий из величин Vi (h) — Vi (h)> обозначим через г/д2); кроме того, дополним (5.10) уравнениями [Зг = 0, включив компоненты вектора [J 3 X 1 в состав компонент вектора xqk. Расширение вектора xqk не меняет разностных уравнений (5.13) и (5.15); изменятся лишь матрицы aiqlk — l) и aqq(k — l): в a[q(k—l) добавится крайний правый блок 033; в aqq(k — 1) блоки 063, 033, h соответственно заменятся блоками 093, 036, h. Вектор г/&2) можно, как следует из (5.17), представить в виде уР^Нх^ + Ъъ, (5.18) где Н — \1.6\ 036; /3||, вектор \h составлен из \№к). В рассматриваемой ситуации весь вектор измерений принадлежит смешанной модели, так как уъ* принадлежит модели 2, а Уь принадлежит модели 1. Алгоритм ОРФ, используемый в момент th, разбивается на два алгоритма. Вначале применяется алгоритм ОРФ, описываемый формулами (4.36) —(4.42), который с учетом формул § 5.2 определяет вектор м. о. zqh и к. м. Cqh — параметры услов-
§ 5.4] СОГЛАСОВАНИЕ СИСТЕМ КООРДИНАТ 245 ного (при фиксированном векторе измерений у^) распределения вектора xqk. Далее применяется алгоритм ОРФ Калмана, для которого это распределение является априорным. Поэтому в формулах (4.92), (4.95) следует положить Hk=H, Ck = Cqkl xk= Zqh, yh = y{u\ Vk = 0, Rk = Ry где R — диагональная матрица, элементами которой служат дисперсии случайных ошибок датчиков ориентации. В результате получим вектор м. о. zh и к. м. Ck — параметры условного (при фиксированных векторах измерений у£ и уи ) распределения вектора xqk. Это распределение является априорным при определении в момент tk+i, после того как зафиксирован вектор J/ь+ъ вектора м. о. zq,h+i и к. м. Cqtk+i по формулам вида (4.36) —(4.42), в которых число к— \ заменено на к. При этом вектор zqk в (4.36), (4.37) заменяется вектором zh, а матрица CQt ft_i в (4.38), (4.40) заменяется матрицей Ck. § 5.4. Согласование географической системы координат и системы координат гироплатформы перед началом движения «Географической системой координат» (ГСК) называем правую ортогональную систему координат XYZ, ось Y которой направлена вверх по местной вертикали и совпадает с направлением отвеса в данной точке, а ось X — по меридиану на север. Точка начала ГСК имеет угол широты ф — угол наклона к плоскости экватора местной вертикали. В пнерциальном пространстве ГСК вращается вместе в Землей. Поэтому со*, (оу, со2 — проекции на оси ГСК вектора ее угловой скорости имеют вид со* = со cos ср, о)у==со81пф, со2==0, (5.19) где со — угловая скорость Земли. Оси X', Y', Z' системы координат гироплатформы (ГПСК) самолета или корабля образуют правую ортогональную систему координат и аналогичны ГСК. Оси ГСК и ГПСК аналогичны осям б. с. к. и з. с. к. Положение ГПСК относительно ГСК характеризуем углами if, я|>, #, которые соответственно аналогичны углам Qu 6'2, 03, использованным в § 5.2. Перед взлетом самолета или перед началом плавания корабля необходимо для последующей инерциальной навигации выставить оси ГПСК по осям ГСК — сделать оси ГПСК параллельными осям ГСК и, следовательно, до-
246 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ. 5 биться, чтобы if = г|) = О = 0. Задача выставки является, вообще говоря, задачей стохастического управления, для решения которой надо, используя алгоритм ОРФ, проводить оптимальную оценку текущих углов у, г|), Ф. Как видно из (5.12) и (5.19), в предположении малости величин у, ф, Ф эти углы удовлетворяют уравнениям ■ у = со* — ых — gv& + гх, lj) = (й'у — (ду + (Datf — 0)^7 + 8г/, ф = ©^ — ©яг|, -f ®'уу + ez, D (5.20) где (x)x, toy, (dz— известные функции времени —. угловые скорости ГПСК вокруг осей х , у', z', задаваемые системой управления, е*, е у, ez — угловые скорости дрейфов ГПСК, удовлетворяющие уравнениям (5.10). Информацию для оценки величин у, г|>, Ф дают Vx н Vz — выходы интеграторов ускорений, получаемые соответственно интегрированием ускорений gd и — gy и белых шумов, моделирующих быстро меняющиеся шумы выходов акселерометров. Величины Vx{th) и Vz(th) считаем компонентами вектора xtk (к = 2), который удовлетворяет стохастическому уравнению (5.13); вектор xqk, компоненты которого должен оценивать алгоритм ОРФ § 4.6, имеет размерность 6X1 (д = 6), и его первые три компоненты соответственно равны ^, ф, #, вторые три компоненты равны гх, €у, ez. Матрица aiq{k — l) имеет вид 0 0 gA 0 0 011 -£Д 0 0 0 0 0Г flig (A — 1) Вектор xqh удовлетворяет рекуррентному уравнению (5.15), где «от(* —1) = 1 -Фз Фг 0 1 -Фх о33 -Ф. <Р 1 А/о X'i-i = 1 Wi-fi\ Ф2-Ф2 / Фз-Фз °81 1 ф1 = (Ox (th-l) А» ф2 = Wy (*fe-l) А, Фз = ©z (^^х) Д, ф2 = со cos фД, ф2 = со sin фД, фз = 0. При заданных функциях со*, со^, сог задача получения оце-
§ 5.4] СОГЛАСОВАНИЕ СИСТЕМ КООРДИНАТ 247 нок величин у, г|), О, ех, £У, £* решается алгоритмом ОРФ (4.36)-(4.42). Отметим, что при согласовании осей ГПСК и ГСК функции 0)х, (х)у, coz играют двойственную роль. С одной стороны, эти функции входят в элементы матрицы aqq{k — — 1) и, следовательно, влияют на точность оценки вели- ' ' ' чин у, а|), О. С другой стороны, угловые скорости (ох, ыу, coz должны управлять ГПСК так, чтобы был возможно меньшим критерий качества, ответственный, например, за среднее значение (осреднение, конечно, проводится и по множеству векторов измерений) функции потерь yz + + г|>2 + О2 в момент Т. Поэтому задача выбора оптимальных функций соя, со^, coz является задачей оптимизации дуального управления, которая в принципе может рассматриваться с помощью уравнений, приведенных ниже — в § 8.7. Если гироплатформа принадлежит к типу «свободных в азимуте», то необходимо лишь знать оценку угла я|> и не нужно добиваться его близости к нулю. В этом случае угол г|) не мал по величине и уравнения (5.20) заменятся уравнениями у == ы'х — co^cos гр — ыуЪ + гх, г i •ф = (Ну — (йу + ©я COS l|jft — C0Z7 + 8у, 0 = ю, — юж sin я|> + ^Л + ez- (5.20!) Обычно функции (Оя, coz выбираются пропорциональными линейным комбинациям выходов акселерометров и интегралов от них, что обеспечивает близость к нулю величии ■у, Ф. Уравнения (5.20!) нелинейны, и при заданной функции (Оу задача оптимальной оценки углов у, я|>, О приближенно решается алгоритмами рекуррентной нелинейной фильтрации, рассматриваемыми в главе 8. Дисперсия ошибок оценки угла г|) — соответствующий диагональный элемент к. м. ошибок оценки в заданный момент Т является функционалом от функции (оу. Используя принцип максимума, можно с учетом ограничений на (ну найти функцию со^ (t)° (0 <! t <[ Г), минимизирующую дисперсию ошибок оценки угла ф в момент Т. Оптимальную функцию (Ну (t)° можно назвать программой оптимального гирокомпасирования.
248 АЛГОРИТМЫ ОРФ В ЗАДАЧАХ НАВИГАЦИИ [ГЛ. 5 Положим в правых частях уравнений (5.20t) if = г|?„ + + 6^o + ey£, Tf~*~0» гАе "Фи ^ — <^ + (o^; фп(0) —номинальная величина фактического угла я|>(0); б^0 = = г|)(0) — i|)n(0). Кроме того, примем, что гироплатформа переведена в режим интегральной коррекции, при котором соде = VJR, «2 = — Vx/R, где /? — радиус Земли. Считаем малой функцию 6if0 + &yt и пренебрегаем влия- нием на со^., coz случайных шумов в выходах акселерометров. Решая после линеаризации правых частей уравнений (5.20t) соответствующие линейные уравнения 2-го порядка, найдем, что измеряемые па выходе интеграторов величины Vx, Vz могут быть представлены в виде Vx (t)=---a (t) + cos Qt (Vx (0) -..£* (0)) + -§- sin QW0 + + X (l - cos Qt) ez - Ь (0 вф0 - d (*) ey + k (*), У2 (*) = b(t) + cos Q* (Fz (0) - & (0)) - — -£- sin Q^70 — -^ (1 — cos Qt) гх — a (t) 8% — C(t)Ey+£z(t), где t a(t) = g-~ sin if>n (x) sin Q (£ — т) rfv, о t b(t) = g-£ cos i|)n (t) sin Q(t — %) d% о t С (t) = g -gp. 1 T sin г|эп (t) sin Q (* — t) dxx о t d (t) = g -^ т cos i|}n (t) sin Q (t\— т) йт, 0 Q2 = g/#, £*U), £«(*) — шумы в выходах интеграторов. Из приведенных выражений видно, что величины Vx(t), Vz(t) приближенно являются линейными комбинациями шумов и постоянных величин £х(0), £2(0), d0, ifo, s*, ey, ez, б-фо — компонент постоянного во^ьмимерного вектора. Для оценки этого вектора при выбранной функции соу (t) используются алгоритмы ОРФ главы 4.
ГЛАВА 6 РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ И ВЫЧИСЛЕНИЙ § 6.1. Априорная и апостериорная точность оценки при ошибках статистических характеристик Изложенные в главе 4 алгоритмы ОРФ в приложениях точно не реализуются из-за (а) отсутствия точной априорной информации о статистических характеристиках случайных возмущений и ошибок измерений и точного математического описания динамической системы; (б) ошибок вычислений на БЦВМ формульных зависимостей алгоритмов; (в) сознательного использования неточных (упрощенных) формульных зависимостей, сокращающих объем вычислений. Поэтому при решении прикладных задач фильтрации и управления всегда существует разница между истинными и вычисляемыми параметрами условных распределений; используемые алгоритмы лишь формально совпадают с алгоритмами ОРФ и не дают векторов оценок, оптимальных по среднеквадратичному критерию. 1. При исследовании точности оценки алгоритмами неоптимальной рекуррентной, фильтрации (алгоритмами НОРФ) следует учитывать, что параметры распределений априорных (в смысле определения, данного в § 4.8) и апостериорных векторов ошибок оценки не совпадают (в § 4.8 было показало, что при использовании алгоритмов ОРФ оба распределения совпадали), и поэтому далее будем различать априорную и апостериорную точность оценки. Рассмотрим последовательность случайных векторов (4.33) и допустим, что матрицы аи, aiq, aqh aqq, b,, bq в правых частях (4.34), (4.35) известны точно, а причины, перечисленные выше в пп. (а), (б), (в), привели к замене в (4.41) матрицы Aft = LhQ^x на некоторую отличающуюся от нее матрицу Ak. Обозначим через zqh, Cqh соответствующие вычисляемые (неправильные) параметры
250 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. G условного распределения, а через хШ1 xqh обозначим векторы, полученные, если в (4.36), (4.37) заменить zqh на zqk (xlh, xqk, конечно, уже не будут априорными м. о. векторов xlk, xqk перед фиксацией вектора yk). Для x,h, xqh получим выражения Xik = au(k— l)yk-i + aiq(k — l)z<lth-l + bt(k — l)uh-u (6.1) xqk = aql(k — l)yh-i + aqq(k — l)zq> h-i + bq(k — i)uh-it (6.2) Как следует из (4.41), (4.42), алгоритм НОРФ имеет ввд \к = xqh + LkQk1 (yk — xlk), (6.3) Cqk —Cqh — LkQk Lk, (6.4) где матрицы Ek, Qk, Cqh определяются формулами вида (4.38), (4.39), (4.40) при замене к. mJF„(A- 1), 4V&-1), WqqUc—l) на неверные к. м. \Fh(u — 1), 4я <,,(& — l), 4?qq(k — 1). Кроме того, xq0l xw, Q0, Г0, Cq0 — неправильные параметры априорного распределения векторов Xqo, Xiq. Обозначим через 8qk вектор априорной (до фиксации векторов г/о, ..., Ун) ошибки оценки вектора xqk алгоритмом НОРФ: Ogfc =:: Zqk — Xqh. \Ь,и) Как уже отмечалось, распределение векторов априорной ошибки оценки полезно знать при проектных, исследованиях. Вычитая из (6.3) вектор xqk и учитывая (4.34), (4.35), получим, что векторы $qk образуют марковскую последовательность 8qk = ГДг, ft-i - r\q> k-i + Akr\lt ft-i, (6.6) где Гл = aqq(к - 1) - Khalq(к - 1), Ak = LkQbX (6.6^ и 6g0 = ZqO — %) + A0 (xl0 — Xl0). (6.7) Пусть вектор м. о. mqh и к. м. Cqh — параметры априорного распределения вектора 8qh: ™>qk = М [6qk], Cqk = М [(6qk — mqk) (8qk — /TCgftf]. Из (6.6) и (6.7) следует, что mqk и Cqh удовлетворяют
§ 6.1] АПРИОРНАЯ И АПОСТЕРИОРНАЯ ТОЧНОСТЬ ОЦЕНКИ 251 рекуррентным уравнениям Щк = 1\Щ,к-Ъ Cgk = ГьС^-гП + Vqg (к-1)+ AhWn (к - 1) Л£- -Vq,(k-l)7il-7lhyql(k-lf, причем mq0 = xq0 — xq0 + Л0 (хю — xlQ), (6.10) Cq0 = Cq0 - L0AS - A0L'o + A0C/0AJ. (6.11) Из (6.8) следует, что из-за наличия 8xq0 = xq0 — xq0 и 8хю = Хю — Хю — ошибок знания априорных, м. о. векторов хчо, Xi0 вектор щкФ0 и априорная оценка вектора xqh алгоритмом НОРФ является смещенной. Кроме того, из (6.9) и (6.11) видно, что; Cqk — априорная к. м. ошибок оценки не равна матрице Cqkl определяемой алгоритмом НОРФ (6.4), и, конечно, отличается от к. м. Cqk, определяемой алгоритмом ОРФ. Рассмотрим теперь апостериорную (после фиксации у0, ..., Ук) точность оценки алгоритмом НОРФ вектора xq\, оценив параметры апостериорного распределения вектора 8qk. Из (6.5) найдем М [6gft/y0, . . . , Ук] = Agfc = \к — Zqk, (6.12) М [(6gft - Aqk) (6qk - Ддл)7»о» ..., Ун] = Cqk. (6.13) Так как 8qk — Agft = zqk — xqk, то Cqh в (6.13) — условная к. м. вектора бдА, описывающая апостериорное рассеивание вектора 8qk относительно вектора АдА, совпадает с к. м. Cqh, определяемой алгоритмом ОРФ в (4.42). Из (6.8), (6.9) и (6.12), (6.13) видно, что неодинаковы параметры априорного и апостериорного распределений вектора ошибок оценки 8qh, возникающего при использовании алгоритма НОРФ. 2. Характеристиками априорной точности оценивания алгоритмами НОРФ и ОРФ служат_ соответственно матрица вторых моментов М [в^б^] = mqkmlk + Cqki получаемая из (6.8), (6.9), и к. м. Cqk, получаемая из (4.12). Ухудшение точности оценивания, возникающее из-за ошибок априорных данных, определяет матрица ACqk: ACqk = ТПфШф + Cqk — Сф. Однако непосредственный расчет матрицы Cqk — Cqh часто (6.8) (6.9)
252 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 неудобен из-за ошибок вычислений при малых ошибках априорных, данных. Покажем, что где Cqb(k) — к. м. случайного вектора Aqk —>zqh — zh. Найдем стохастичесЕюе уравнение для векторов Aqk, считая, что в (4.36), (4.37) и (6.1), (6.2) одинаковы векторы, обозначенные через i/h, Uh-i. Прибавляя и вычитая из правой части (6.3) векторы AhXih, AhXik, получим Zqk =' xqk + Ah(yk - xlh) — Ak(xtk - xlh) + ЬАк(ук - xj, (6.14) где положено SAfe = Aft — Ak. Вычтем из (6.14) равенство (4.41), учитывая, что Xqh Xqk =' Ciqq\K 1)/\q> fc-i, Xlh #/A ~ ulq\fc *-' Aq> fc-i. Тогда получим стохастическое уравнение, описывающее механизм образования векторов Aqk: х ^ Aqk = fkA4t k_! + 6Afeeft, (6.15) где Bk = yh — xlk и Ago ==l ^go — *£<?o "•" Jvo^Xi'o Xiq) T" ОЛ060. Уравнение (6.15) удобно для рассмотрения свойств векторов Aqk, так как е0, ..., е*, ...— последовательность независимых случайных, векторов, изученная в § 4.8, параметры нормального распределения которых даны формулами (4.64), (4.65). Поэтому последовательность Aq0, ..., Aqk, ...— марковская. Векторы м. о. векторов Aqk совпадают с векторами mqk, удовлетворяющими (6.8) при начальном условии (6.10). Ся&{к)— к. м. векторов Aqk определится, как следует из (6.15) и (6.8), рекуррентным уравнением С^ (к) = T\CqA (к - 1) П + 6AhQk8M (6.16) при условии CqA (0) = 6A0(?06A2. Найденные из (6.8) и (6.16) компоненты вектора mqk и элементы матриц СдАШ характеризуют рассеивание векторов неоптималыюй оценки zqk относительно векторов оптимальной оценки zqk, возникшее из-за ошибок
§ G.1] АПРИОРНАЯ И АПОСТЕРИОРНАЯ ТОЧНОСТЬ ОЦЕНКИ 253 априорных данных. Учтем что М [бд/гб^] = mqkm\h + Cqk^M [(Zqh ~ %qh + Zqk — Zqk) X X (zqk — xqk + lqk — Zqkf] = Cqk + mqhmTqh + СдД (к) + + Vk + Vfc, где Vk = M [б/iAjfe], б/г ••= Zqk — Xqk. Умножим уравнение (4.57) справа на транспонированное уравнение (0.15) и осредним, учитывая (4.00) (индекс s в (4.57) и (4.00) опускаем, так как рассматриваются априорные векторы 6А, 6ft). Получим vk = Tkvk^Vl (6.16,) Но непосредственной проверкой убеждаемся, что v0 = М [(xq0 — xq0) {xl0 — я/0)т + + Л0 (ж/о — xl0) (xl0 — xiof] 8Al = Onn- Рассуждая по индукции, из (6.16t) получим, что Vft = 0nn и, следовательно, равенство (6.13i) доказано. Поэтому ухудшение точности оценивания полностью определяют решения рекуррентных, уравнений (6.8) и (6.16). 3. Рассмотрим точность оценки векторов фазовых координат алгоритмом НОРФ при измерениях модели 1. В этом случае алгоритм НОРФ использует формулы (4.91) —(4.95) алгоритма ОРФ, в которые вместо матриц С0, \Ffc-i, Rh, Vk подставляются матрицы С0, 4^-1, Як, Vh, обладающие всеми свойствами корреляционных и взаимных корреляционных матриц (причем С0>0, Rk>0), но отличающиеся от истинных; zh и Ск — неправильные параметры условных, распределений определяются (4.94), (4.95), в которых zk, xk, Ch, Ck, Lk, Qk заменены соответственно на 2а, xh, Ch, Ch, Lk, Qh. Вектор априорной ошибки оценки 8h = zh — xk удовлетворяет стохастическому уравнению (4.135) при условии (4.136), если матрицы Гку Ак заменить на Тк, Ак: Г* = (1п — AkHk) ак-ъ Ak = LkQk1, T0 = In — A0H0; (6.17) Ck ~ априорная к. м. ошибок оценки удовлетворяет
254 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 (4.138), если Ch, 4Vi, Д*, Vh, Ak заменить на СА, 4*1-1, Д/t-i, Vk, Aft. В это же уравнение перейдет рекуррентное уравнение (6.9) для Cqk. Из (6.8) видно, что тк — вектор м. о. вектора 6А удовлетворяет уравнению тк = Тктк-{ (6.18) при условии т0 = Т0(х0 — х0). Вектор ДА = Zft — Zft удовлетворяет при aqq(k — 1) = = flfc-i, alq(k — 1) =Hhah-i стохастическому уравнению (6.15), в котором вектор Aqk заменен на АА. Векторы mh и матрицы Сд(&) — параметры распределения векторов Aft определяются рекуррентными уравнениями (6.18) и (6.16), если в (6.16) СдДШ заменить на СДШ. В общем случае не удается получить аналитических, оценок каких-либо норм векторов Шк и матриц Сд(й) в зависимости от возможных разностей Ч1*» — Ч1**, Ri — Ri, Vi — Vu 6C0, 6я0. Поэтому в конкретных исследованиях чувствительности надо после выбора априорных х0, С0, Ri, 4?i, Vi провести по уравнениям (6.18), (6.16) расчеты векторов mh и матриц СДШ при различных, назначаемых из эвристических соображений, отклонениях от априорных данные Заметим, что в частном случае описания этих отклонений в виде д0 = а£о, £ft = oflft, Ч\ = ссЧ\, Fft = ccFft, где а —некоторое число (обычно 0,5<а<1,5), получим ич ич Cft = aCft, ГА = aLft, Qh =' aQk и, следовательно, Л*—Ал. Поэтому 6ЛА = 0, СдШ ='0ПП, Ch~Cft= (a— DCft. В этом случае единственной причиной, вызывающей отличие zft от zk, является вектор 8х0. 4. Пусть теперь алгоритм НОРФ используется при измерениях модели 2. В этом случае Д* = *л-** = рН-;-Ц (6.19) IIVII где эволюция параметров распределения случайных векторов АдА, порождаемых (6.15), определяется рекуррентными уравнениями (6.8), (6.16). Матрицы aqq(k— 1), alq(k— 1), входящие в (6.64), содержатся в блочном представлении (4.174), а матрицы Ah = LhQ^x и Ад = Lh Q^
§ 6.2] СХОДИМОСТЬ АЛГОРИТМА НОРФ ПРИ МОДЕЛИ i 255 определяются при использовании рекуррентного уравнения (4.42) соответственно с неправильными и правильными априорными статистическими данными. По-прежнему через fnh и Сл(&) обозначим м. о. и к. м. векторов A7t и учтем, что параметры распределения случайных векторов Aqh в (6.19) определяются рекуррентными уравнениями (6.8), (6.16). Тогда из (6.19) получим mh = Ph -1 °и °«;°i9 (^)т. (6.20) Формулы (6.20) и уравнения (6.8), (6.16) позволяют провести численный анализ точности оценок при измерениях модели 2 и алгоритме НОРФ. 5. Итак, информацию об ухудшении точности оценивания алгоритмом НОРФ по сравнению с алгоритмом ОРФ можно получить: (1) вычисляя и сравнивая между собой диагональные элементы матриц Ch и Ch или: (2) вычисляя диагональные элементы матриц Сд(/с). Так как матрицы СЛШ непосредственно зависят от матриц 8Ak, то способ (2) представляется более наглядным и он используется ниже в §§ 6.3 — 6.6 для анализа влияния на точность НОРФ различных «усечений» модели системы. § 6.2. Сходимость алгоритма НОРФ при измерениях модели 1 1. Покажем, что алгоритм НОРФ практически всегда (при любых «разумных» ошибках, априорных статистических характеристик) сохраняет полезные свойства алгоритма ОРФ, являясь «оценивателем» фазовых координат системы при любых, ее начальных условиях. Как и в § 4.15, рассмотрим эволюцию локальных распределений векторов априорных ошибок оценки алгоритмом НОРФ — эволюцию априорных распределений векторов 6fe при фиксированном векторе х0. Из уравнения (4.135), в котором Th и Ak заменены па 1\, Ад, следует, что векторы м. о. локальных распределений ошибок оценки алгоритмом НОРФ — векторы mk, определяемые формулой, аналогичной (4.140), удовлетворяют рекуррентному уравнению mk = rWft_i (6.21) при условии т0 = Г0 (х0 — х0). Для выполнения условия,
256 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 аналогично' (4.144) (условия сходимости алгоритма НОРФ в среднем), достаточно, чтобы lV...P0-*0nn, &^oo. (6.22) Но матрицы Тк связаны с матрицами Ск, получаемыми формальным применением рекуррентного уравнения (4.95), уравнением вида (4.138), в котором Ск, I\, Ак, ^h-u Rh, Vh заменены соответственно на Ск, I\, Ак, 4^-1, /?ft, Ffe, и следующим из него уравнением вида (4.149). Поэтому аналогично § 4.15 получим, что равенство (6.22) выполнится, если £*-*<)„., *-*«>, (6.23) или Ck-+C, ft->oo. (6.24) Альтернативы равенствам (6.23), (6.24) нет, так как о применении в БЦВМ алгоритма НОРФ при увеличении числа измерений имеет смысл говорить, лишь если матрица Ск (неправильная условная к. м.) стремится к некоторой предельной матрице. Напомним (см. § 4.13), что (6.23) и (4.147) выполнятся при любых матрицах С0 > 0, Як>0 (и любых С0 > О, Яь>0), если на систему не действуют случайные возмущения и справедливы (4.117) или (4.128), (4.132) или (4.133) при ограниченном интервале измерений. Из равенств (6.21), (6.18) и формулы (6.22) следует, что при /с -> оо 7я*-*0, mi-^O. (6.25) Итак, практически всегда векторы хк в среднем сходятся к векторам zk и при любых фиксированных х0 векторы zt в среднем сходятся к векторам хк. 2. Рассмотрим ситуацию, когда при произвольном х0 случайные векторы гк сходятся к хк в среднеквадратичном. Учтем, что М [ | lk — xh \2/x0] < М [ | zk — xk \2/x{)] + М [ \~zk — zh \2/x0] = = \mk\2 + lrCn + \mkf + lrC^{k). (6.26) Пусть выполнены равенства (4.147) и (6.23). Как было показано в § 4.15, при /с-^оо к нулю стремятся величины 'liHfcl, TrCfc (равенства (4.144), (4.145)), обеспечивая сходимость алгоритма ОРФ; к нулю стремится и величи-
§ 6.2] СХОДИМОСТЬ АЛГОРИТМА НОРФ ПРИ МОДЕЛИ 1 257 на \тк\ (6.25). Но равенства (4.147) и (6.23) при отсутствии случайных возмущений и стационарности динамической системы гарантируют, что при fc-^oo к матрице 0nt стремятся матрицы Lh, Ek, а следовательно, и матрица 6iV, матрица 1\, как видно из (6.17), стремится к матрице аА_1 = Ф(А). Из (6.16) следует, что матрица СдШ стремится к предельной матрице Сд, удовлетворяющей уравнению Сд = Ф(Л)СдФ(Д)т. (6.27) Отсюда Ф(А)-1Сд-СдФ(Д)т. (6.28) Уравнение (6.28) является матричным уравнением относительно матрицы Сд, которое, как известно [22], имеет лишь тривиальное (нулевое) решение, если отсутствуют одинаковые собственные числа матриц Ф(Д)-1 и Ф(А) (у матриц Ф(Д)Т и Ф(А) собственные числа одинаковы). В этом случае Сд = Опп и, следовательно, в (6.26) при &->оо ТгСд (й)->0Пп«- Пусть х — Ах — однородное стационарное уравнение невозмущаемой системы, для которого ФШ — фундаментальная матрица. Тогда 0(t) = In + £t+...+^-tk+...=eAt. (6.29) Если Х(А) — собственное число матрицы А, то, используя (6.29) и равенство К(Ак) =-А,С4)\ нетрудно проверить, что Х(ФШ) — собственное число матрицы Ф(£) определится равенством Я(Ф(*))=*еХ(А>'. Поэтому собственные числа матриц ФСА)""1 = Ф(—А) и Ф(Д) имеют вид Я(Ф(-Л)) = *-Х(А,А> Я(Ф(Д)) = ^(А)Л. (6.30). Из (6.30) видно, что матрицы Ф(А)-1 и Ф(А) не могут иметь одинаковых собственных, чисел, если, например,4 все Х(А) имеют отрицательные действительные части и, следовательно, система асимптотически устойчива в разомкнутом (неуправляемом) состоянии. Для такой системы выполнится равенство Тг СА (оо) = 0Пп и, следовательно, при любом х0 случайные векторы zh сходятся в среднеквадратичном к случайным векторам хк, если только справедливы равенства (4.147) и (6.23).
258 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 Из приведенных результатов следует, что алгоритм ОРФ при измерениях модели 1 обычно обладает статистической устойчивостью по отношению к ошибкам априорных; статистических характеристик: переходя в алгоритм НОРФ, он сохраняет свойства «оценивателя» для широкого круга имеющих прикладное значение условий. Свойства алгоритма НОРФ как «оценивателя» в сред- нем^ характеризуются скоростью убывания функции f(k)— = |1\...Г01; свойства алгоритма НОРФ как «оценивателя» в среднеквадратичном характеризуются скоростью убывания функции f(k) и функции ТгС& + ТгСд(/с). § 6.3. Анализ влияния вектора «ухода нулей» и формирующего фильтра случайных возмущений 1. При выборе математической модели системы, используемой в алгоритмах рекуррентной фильтрации, часто возникают различные альтернативы из-за возможного существования медленно меняющихся случайных, возмущений, обычно называемых «уходом нулей» аппаратуры системы. Примером «ухода нулей» служат, например, три угловые скорости «дрейфа» гироплатформы системы инерциальной навигации, которые часто считают случайными на множестве полетов летательного аппарата, но постоянными в данном полете. «Уходы нулей» аналогичной (или более сложной) модели существуют у усилителей мощности исполнительных элементов системы управления, у измерителей — датчиков информации и т. д. Обозначим через v вектор «увдда нулей» размерности р X 1 и рассмотрим общий случай, когда вектор v(t) действует и на динамическую систему, и па результаты измерений. Тогда вектор измерений и уравнение системы можно представить в вцде yk = Hkxk + Tvk + lk, (6.31) x = Ax + Bu + Dv + gh, (6.32) где Т и D — некоторые матрицы соответствующей размерности. Имеется много альтернатив при выборе формирующего фильтра для вектора v. Так, если принять, что v — постоянный в данной реализации вектор, то описание формирующего фильтра имеет вид г> = 0. (6,33)
§ 6.31 АЙАЛИЗ ЙЛЙЯЙИЯ ВЕКТОРА «УХОДА НУЛЕЙ» 259 Описание вектора «ухода нулей» станет более «надежным», если расширить класс допустимых функций v(t), приняв, что упомянутым свойством обладает не вектор v, a v. Тогда v = Wi w = 0. (6.34) Определение zk, Ch — параметров условного распределения векторов хк при учете формирующего фильтра вида (6.33) или (6.34) или более сложного осуществляется алгоритмами ОРФ с расширенными векторами фазовых координат, полученными объединением векторов х и и или х, v, w и т. д. В принципе усложнение формирующего фильтра должно увеличить в некотором смысле «надежность» определения zk и Ск (конечно, при наличии правдоподобных представлений о дисперсиях векторов u(t0) или u(tQ) и w(t0) и т. д.). Однако «проклятие размерности» получаемых при этом векторов и матриц может привести к обратным результатам. Поэтому целесообразна постановка следующей задачи. Пусть «природа» определяет векторы z/fe, xk уравнением (6.31) и хк = ак-{хк-.{ + bfc-jttft-i + dh-iVk-i + r\k-u (6.35) причем уравнение для дискретного формирующего фильтра имеет вид vh =* dvk~i + ■£*-!. (6.36) Для сокращения объема вычислений используем не алгоритм ОРФ, а алгоритм НОРФ с упрощенной моделью «природы»: не будем учитывать векторы «ухода нулей», положив в (6.31) T = 0ip и в (6.35) ^-1==0пР. Надо найти дисперсии элементов вектора ошибок AA = zA — zA, где zfe и zk — векторы условных м. о. векторов xh, полученные при использовании в алгоритме соответственно упрощенной и полной моделей «природы». Для сведения поставленной задачи к рассмотренной в § 6.2 задаче анализа чувствительности векторов условных м. о. к ошибкам априорных статистических данных примем, что ^o = MW = 0, M[v0vl] = Cvo, M[bS] = Ttf (6.37) и введем следующие векторы и матрицы:
260 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 *fc_X i ^fe_! pn с„;о„р О : Г II Ф* : О ? * к— 1 ""А" у\¥>"' II Upn ;*£ , ДХ = |Ял|Г1, п (6.38) Вектор Zk получим из уравнений вида (4.89) —(4.95), если zft, aA_t, Ук-^и С0 заменить на zj, а°_х, ¥}[_!, CjJ (пере- обозначив^, Сл, LA, ^, СА, ЛА на sj, С°, Lj, $, С?, Л®), а вектор zjj найдем, если в этих уравнениях матрицы 4*2 _х и Со заменить на ^2-1 и CJJ, полученные при ■Ч^ =Сг>о = 0рР. Таким образом, упрощенная модель «природы» получается из полной модели, если специальным образом изменить априорные статистические характеристики вектора #jj и вектора случайных возмущений динамической системы, порождающей векторы xh. Из (6.38) найдем Л° ^ „О ^k Afe = Zh — Zh= ;■- и, следовательно, для определения дисперсий элементов векторов Aft достаточно найти к. м. вектора Д&; тп\ (к) и Сд (Л) — вектор м. о. и к. м. вектора Aft будут удовлетворять уравнениям вида (6.8) и (6.16): mi(ft) = fjj-1mi(ft-l), (6.39) С°А (ft) = flUd (ft - 1) (FJU)T + bAlQl (бЛ2)т, (6.40) где ^ Гл-i = (/n+p ~ A°#2) aj-x, Ад = £д \Qh) • Так как i;0 = 0, то (6.39) используется при m\ (0) = 0и, следовательно, ml (ft) =; 0, Рекуррентное уравнение (6.40) используется при начальном условии С°д (0) = bA°0Q°0 (ЙЛ0°)Т. Заметим, что матрица Л? имеет вид
§ 6.4] АЙАЛИЗ МЕТОДОМ МОДЕЛИРОВАНИЯ 261 где матрицы L Qkx рассчитываются по формулам (4.91) — (4.93), (4.95). Производя расчет по (6.40), получим последовательность матриц Сд(/с), у которых левые верхние блоки размерности п X п являются матрицами СЛШ — к. м. векторов Afe. Сопоставляя диагональные элементы матриц С^к) с первыми диагональными элементами матриц С°, можно оценить значимость ошибок определения векторов условных, м. о., возникающих при переходе от полной модели к упрощенной. 2. По аналогичной методике проводится анализ влияния неучета формирующего фильтра случайных возмущений. Пусть, например, в упрощенной модели случайные векторы %-i в (4.78) считаются независимыми и имеющими к. м. Ч^-м, а в полной модели для них существует формирующий фильтр T)k=="tfr|k-i+ £*-!, причем £л-1 независимы и имеют к. м. "ЧР;. Для сокращения вычислений вместо алгоритма ОРФ используем алгоритм НОРФ с упрощенной моделью, уменьшающей с 2п X 1 до п X 1 и с 2/г X 2п до п X п размерность векторов и ряда матриц. Полная модель «природы» при uk = 0 опишется уравнениями *л = аъ-iXk-x + т)А_1 + т)Л_1, r\k = dr\k-i + lh-\, где ^k-i = М [y]k-i (r]ft-i)TJ = 0nn. Упрощенная модель имеет вид Xh = dk-iXk-i + V\h, где ?U = 4W К. м. соответствующих векторов Afe находим по изложенной выше методике, положив р = п, dft-i ^ In, Т = = 0/п, Cv0 = С-пои ■щО пп i "пп *л-1 п I'm"" II пп : т £ ^k-i ; ^nnI ^nn :^nn £"nn — Vn § 6.4. Анализ влияния вектора «ухода нулей» методом моделирования Описанный анализ влияния вектора «ухода нулей» дает статистические характеристики векторов zh — zk и требует программирования достаточно громоздких, фор-
262 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. Г> мул (формул алгоритма ОРФ для полной модели «природы», формул алгоритма НОРФ для усеченной модели «природы», формул (6.39), (6.40)), содержащих векторы и матрицы размерностью п + р и (п + р) X Ы + р). Формулы анализа существенно упрощаются, если интересоваться статистическими характеристиками не векторов Zk — Zk, а векторов zk — zh, где zu — вектор оценки, который дает алгоритм ОРФ при vh = 0p (при совпадении полной и усеченной моделей «природы»). Обычно в модели вектора «ухода нулей», описываемой уравнением (6.36), отсутствует вектор случайных возмущений. В уравнения (6.31) и (6.35) векторы uh входят линейно, и, кроме того, алгоритм НОРФ, определяющий векторы zh, производит линейные операции с результатами измерений. Поэтому, учитывая (6.36) при ■ £ь-1 =0, получим zh — Zk = = Pkv0 и, следовательно, к. м. вектора Zk — zhi являющаяся одной из возможных характеристик ухудшения оценивания из-за вектора «ухода нулей», определяется равенством М [{zk - z'k) (zfc - Z;)T] = PkCVoPl Заметим, что i-й столбец матрицы Pk равен вектору zfe, если в модели динамической системы и измерений положить #0 = 0, w^=0, т] = 0, £ = 0 (в этом случае zk==0t а у вектора v0 i-я компонента равна 1, а остальные — нули). Поэтому определение матрицы Ph потребует р расчетов по формулам алгоритма НОРФ при yh = Tuh, uh = = dvh-i. § 6.5. Анализ влияния формирующего фильтра случайных ошибок измерений Пусть в полной модели «природы» \к — векторы ошибок измерений зависимы и порождаются некоторым дискретным формирующим фильтром вида (4.198), (4.199). Для сокращения объема вычислений используется не алгоритм ОРФ, а алгоритм НОРФ с упрощенной моделью, в которой векторы ошибок измерений приняты независимыми. Надо найти дисперсии компонент векторов Afe='Zft — zfe, где zk и zk — соответственно неправильный и правильный векторы условных м. о., фазовых координат xh.
§ 6.51 АНАЛИЗ ВЛИЯНИЯ ФОРМИРУЮЩЕГО ФИЛЬТРА 263 Покажем, что поставленную задачу нетрудно свести к исследованной ранее задаче анализа чувствительности к ошибкам априорных статистических данных. Из уравнений (4.198), (4.199), (4.78) полную модель запишем системой уравнений U = dulh-i + dlPvh^ + lit ft_i, (6.41) vA =■ dpfeb-i + dppvh-i + £P, л-!, (6.42) xk = flft-iXft-! + rift-,. (6.43) Известно, что |0 = 0, v0 = 0; заданы матрицы R° — к. м. вектора, составленного из |0, v0, Ч^и, ЧЛР, 4яРР — к. м. и взаимная к. м. векторов £* и £р, xFA_i — к. м. вектора цк-и я0, С0 — параметры априорного распределения вектора х0. Используя (6.43), векторы измерений yk, определяемые (4.77), представим в виде Ук = rfz/|k-i + dlpvh-i + H^^Xk-i + £,, ft_! + #Аги-1. (6.44) Введем вектор xqh: xlk = \\lk\vk\xli q = l + p + n, и вектор Xik, равный правой части (6.44). Тогда полную модель можно записать уравнениями вида (4.34), (4.35), в которых, an (к — 1) = Он, alq (к — 1)== \\dn \ dlp \ Hkak^ ||, aqi (к — 1) = 0qh aqq (к — 1) = du j diP I °in pi; pp; pn lkk-i °n* j ®pp \ ah-l Tfo.ft-l = sP,k—1 Г\1Л_Х = Hu^h-i + lith-!. Обозначим Zqk 4h *Vk Zqk *qk Zqk Zqk 4k *Vk (6.45) Вектор zqh и матрицы Qk, Lk, Ah = LkQh г получим по рекуррентным формулам (4.36) —(4.42), в которых х¥ц{к —
264 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ 1ГЛ. 6 i) = HhVh-1Hl + Wll, II да li x I %1(к-1) = у vi Vk-гЧ V„(ft-1) = V„ W : О чг. vi i*F : О ; рр : wpn un/ unp: Tft-i при начальных условиях %qQ — О;- 'qO R° М°»р Jln "рп с" Для построения упрощенной модели достаточно следующим образом изменить априорные статистические данные: Cq0 надо замеЕшть па Cq0, получаемую из Cq0 при R° = 0/+Pt /+p; ^qqUc — 1) надо заменить на 4?qq(k — 1), получаемую из 4%д(&— 1), если положить "Ч^^ = О/,, W 1р ==• = 0,р, Ч/,Рр = 0рР; ЧМ/с—1) надо заменить наЧ*н(&—1) = = HlVh-1Hl +Jtk\ Vql (ft-1) - 4V (ft-1). Входящие в выражение для Ч^/Д/с—1) матрицы Rh служат к. м. векторов |л, когда они в соответствии с упрощенной моделью являются последовательностью независимых случайных векторов. Если формирующий фильтр стационарен, то Rk совпадает с Ru — левым верхним блоком размерности 1X1 у матрицы R°. Расчет по формулам (4.36)—(4.42) для новых априорных статистических данных дают вектора zk и матрицы Qk, Lk, Ak = LkQk1- Заметим, что у матрицы Eh верхний блок размерности (1 + р)Х1 равен 0,+Р)?, а нижний блок размерности пХ1 и матрица Qk равны матрицам Lk и Qk, получаемым при расчете по формулам (4.91) —(4.95). Параметры распределения случайных векторов Д#, определяемых (6.45), найдем, пользуясь уравнениями (6.8), (6.16). В рассматриваемом случае тядХк) = 0, так как по условию £и = 0, v0 = 0. Из уравнения (6.16) найдем последовательно матрицы СдЛ(/с), у которых правый нижний блок размерности пХп является СА(к) — к. м. случайного вектора ДА. Сопоставляя дисперсии вектора Ак — диагональные элементы к. м. СА(к) с последними п диагональными элементами к. м. Cqkj можно сделать заключение о целесообразности учета или неучета формирующего фильтра случайных ошибок измерений.
§ 6.6] АНАЛИЗ ВЛИЯНИЯ ОШИБОК МОДЕЛИ СИСТЕМЫ 265 § 6.6. Анализ влияния ошибок модели динамической системы 1. Для некоторых задач анализа «надежности» результатов рекуррентной фильтрации недостаточна описанная выше методика исследования чувствительности к ошибкам априорных статистических данных. Так, требуется специальная методика для анализа влияния ошибок в параметрах и структуре формирующих фильтров ошибок измерений и случайных возмущений; ошибок численного интегрирования на интервалах ltk-i, th] уравнений вида (4.96), (4.97); ошибок, возникающих из-за сознательного (для сокращения объема вычислений) «усечения» динамической системы путем отбрасывания части фазовых координат, зависящих от остающихся фазовых координат (случай, когда отбрасываемые фазовые координаты влияют на оставшиеся, но от них не зависят, обслуживается, как было показано в § 6.3, описанной ранее, методикой). Рассмотрим последовательность случайных векторов (4.33) и будем считать, что векторы управлений отсутствуют, а из-за упомянутых ошибок в уравнениях рекуррентной фильтрации (4.36) —(4.42) вместо матриц аи(к — 1), aiq(k-l), aql{k — \), aqq(k — l) используются отличающиеся от них матрицы аи(к — 1), aiq{k — l), (iqiik—1), (iqqik — 1). Эти матрицы считаем неслучайными и такими, что разности Ьап = аа — ащ 8aiq =■ aiq — diq, 8aqi = =*аЯ1 — аЧ1, 8ciqq=]aqq — aqq могут быть рассчитаны в функции к. Использование неправильных матриц приведет к замене xlh, xqh, Cqh, LA, Qh на xlk, xqk, Cqk, Ek, Qk и к расчету Zqk, Cqk — неверных параметров условных распределений. Из (4.36), (4.37), положив Aqh = zqh — zqh, получим 8xth = xik — Xih = aiqik — l)Aq> ft_t + bauyh-i + 8alqzqt h-u 8xqh = xqh — xqh = aqq{k — 1)Aq> h-i +" baqiyh-i + 8aqqZqt k-i. Используя (4.41) и учитывая, что на векторы результатов измерений и векторы xqh не повлияли ошибки модели, найдем стохастическое уравнение для векторов Agft: Аяк = fhAq, h-i + 'бД/b - l)yh-i + 8q(k - l)zqt h-i + 8Ahek, (6.46)
266 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 где Гл = aqq(ft - 1) - Akalq(ft - 1), Kh = LkQb\ 6, (ft - 1) - = 8aqi — Ah8alh 8q (ft — 1) = 8aqq — Ak8alq, 8Ak = Aft — Aft. Если .r/0, #go известны точно, то Ддо^О^; в противном случае А0о " б^оо — А0бХ,о. (6.47) Из (6.46) видно, что вектор Aqh случаен и нормально распределен. Для определения вектора м. о. mgA(ft) и к. м. CgA(ft) — параметров распределения вектора Aqk учтем, что векторы, составленные из компонент векторов Aqk, Уь zqh, образуют, как это следует из уравнений (6.46) и уравнений (4.46),-(4.47) при 1/л_± = 0W1, марковскую последовательность. Осредняя левые и правые части уравнений (6.46), (4.46), (4.47), получим, что векторы niqtXq) определятся рекуррентными уравнениями mqAk) = lkmqt,{k — 1) + 6,(ft — i)xit fe-i + 8q(k — l)x4t h-u (6.48) Xik — ац(к — l)xlt h-i + ciiqik — l)x9t ft-i, (6.49) xqk = aqi(k — l)xi>h-i + aqq(k — l)xq>h-u (6.50) причем, если 8xq0=-0qu 6#/0 = 0a, то тд(0)=0в1, Хю =* = д?ю, xq0='XqQ. В (6.48) —(6.50) xih, xqh — векторы безусловных м. о. векторов xlh, xqh. Учитывая (6.46), (4.46), (4.47) при uh-i = 0mu а также (4.64), (4.65), получим, что к. м. CqJ<k) расположена в левом верхнем углу матрицы Sh размерности (2д +1) X X (2q + l), удовлетворяющей рекуррентному уравнению Sk = Mk-iSh-iMl-i + GhQhGl, где матрицы Mk, Gk имеют вид (6.51) Mk = °аа \%l(k)l%aW "qq »ql qq * 6ЛЬ При этом, если Ago = 0, то So = 0«!09i!-0«
§ 6.6] АНАЛИЗ ВЛИЯНИЯ ОШИБОК МОДЕЛИ СИСТЕМЫ 267 Рассмотрим частные случаи рекуррентных формул (6.48)-(6.50) и (6.51). 2. Пусть имеем измерения модели 1. Рассматривая вместо Ддь вектор Ak=-zk — zk и учитывая, что 8aqt = 0qh ban = О/г, q ==:' n, получим Th=*(In-rkQ-lBk)uh-i, «,(fc-D=G, (6.52) 6e(A -1) = «a*-t - Ак8(Нкак-{) = бп(й - 1), (6.53) где положено 6(i/ftflrft-i) = Bkak-i — Нкак-{. Векторы т^Ш определятся рекуррентными соотношениями тМ = ГктЛк - 1) + 6П(& - 1)хк-и (6.54) яА = ак-{хк-1. (6.55) При б^о = 0 тд(0) = — Л08Н0х0, х0 = х0; к. м. Сд(/с) расположена в левом верхнем углу матрицы Sk размерности 2п X 2п, удовлетворяющей рекуррентному уравнению (6.51), в котором ISAJI М1 = lh+l Ьп(Щ Gh = S0 = о„ (6.56) (6.57) 3. При измерениях модели 2 вектор м. о. гпьШ и к. м. СА(к) рассчитываются по формулам (6.20), в которых mqA(k) определяется из (6.48) —(6.50), а Сф{к) — блок матрицы Sk, определяемой (6.51). Матрицы аи(к— 1), alq(k — 1), aql(k — l), aqq(k — 1), входящие в (6.49), (6.50) и в матрицу Affc_i, содержатся в блочном представлении (4.174). Для получения матриц аи(к — 1), alq(k — l), aqi(k — l), aqq(k—l), нужных для определения матриц Ак по формулам (4.36)—(4.42) и матриц 6аа, 8aiq, baqt, 6aqq, необходимо воспользоваться блочным представлением (4.174), в котором а'(к — 1) заменяется на а'(к — 1), получаемую из равенства Матрицы Ph n Pk1 Hihl Hqn ца Я^, #^, получаются из (4.165) при замене
268 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 § 6.7. Влияние ошибок вычисления фундаментальной матрицы уравнений модели Рассмотрим методику численного анализа влияния на параметры условного распределения ошибок учета фундаментальной матрицы, соответствующей системе дифференциальных, уравнений модели системы. Такие ошибки возникают, например, из-за ошибок численного интегрирования уравнений (4.96), (4.97). Пусть для сокращения объема вычислений эти уравнения интегрируются простым методом Эйлера с шагом Д = £А — th-u Легко проверить, что это соответствует использованию фундаментальной матрицы ak-i в виде суммы двух первых членов степенного ряда (4.98). Если принять, что величина Д невелика и правильное представление о фундаментальной матрице дают первые три члена степенного ряда, то приближенно из (4.98) получим и, следовательно, из (6.53) Ьп (к - 1) = -1 (1п - LkQ^Hk) AW. Из (6.54), (6.55) получим для векторов тЛЮ рекуррентное уравнение /яд (к) = (1п — LkQ^Hk) ^ak-1mA (к — 1) — у Л2^.^, (6.58) где Xk^cik-iXk-i. Кроме того, тд(0) =0, х0 = >х0. Если х0 = 0, то xh = 0 и из (6.58) яглШ = 0. Последовательное определение к. м. СЛ(/Ь) получим при расчете по формулам (6.51) с учетом (6.56), (6.57). § 6.8. Оценка влияния ошибок вычислений на БЦВМ Исследования по реализации алгоритма ОРФ Калма- на в виде программы БЦВМ, производящей арифметические действия с фиксированной запятой при сравнительно малой длине разрядной сетки (по опубликованным в литературе данным наиболее часто в БЦВМ число разрядов 1 + /? = 16, из которых один — знаковый), показывают, что в ряде случаев возможно быстрое накопление
§ 6.8] ОЦЕНКА ВЛИЯНИЯ ОШИБОК ВЫЧИСЛЕНИЙ НА БЦВМ 269 ошибок вычислений, вызывающее резкое ухудшение точности оценки. Имеющийся опыт показывает, что наиболее быстро ошибки вычислений «деформируют» к. м. Ck, определяемое рекуррентными уравнениями главы 4, так что, начиная с некоторой величины fc, эти матрицы теряют основное свойство корреляционных матриц: условие Ск> ^ 0 перестает выполняться и точность оценки существенно ухудшается. В литературе [31], [57] описанное явление часто называют «расходимостью фильтра Калмана» и один из эффективных способов его ликвидации состоит в использовании подпрограмм вычислений с удвоенной точностью. При этом, конечно, время вычислений резко увеличивается и повышаются требования к производительности БЦВМ. Детальные исследования вопросов точности оценки по формулам алгоритма ОРФ при различных схемах организации последовательных вычислений на БЦВМ можно производить с помощью ИНТЕРПРЕТАТОРА — программы, которая на универсальной ЦВМ моделирует процесс вычислений на БЦВМ. Однако предварительные данные об искажениях матриц Cfe, возникающих из-за вычислений с фиксированной зацятой, можно получить и без ИНТЕРПРЕТАТОРА по излагаемой ниже методике. Как известно, основные особенности вычислений на БЦВМ с фиксированной запятой состоят в том, что а) модули всех постоянных и переменных величин, входящих в формулы, реализуемые программой БЦВМ, должны быть не более 1; б) числа, получаемые в БЦВМ после реализации каждой арифметической операции, являются числами вида а = а£-1 + ... + ар2~р, (6.59) где а,- равны 0 или 1, а р — заданное целое число, определяющее длину разрядной сетки БЦВМ. Далее, числа вида (6.59) называем «/^-разрядными». Если число а в регистрах БЦВМ оказывается g-разрядяым, где q>p, то далее оно округляется — переводится в ближайшее р- разрядное число а по формуле а = 2-*[2*а + 2-1], (6.60) где [х\ — целая часть числа х. Если а — /7-разрядное число, то а = а. Нетрудно проверить, что ошибка округления \Ьа\ всегда удовлетворяет неравенству \8a\ = \a-a\<-2-(p+i\ (6.61)
270 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 Так как результаты сложения, вычитания и деления р- разрядных чисел также являются р-разрядными, то при этих действиях, операция округления не используется и вычисления в БЦВМ ошибок не вносят. Произведение двух р-разрядяых чисел является числом 2р-разрядным, производится операция округления, и, следовательно, при умножении вычисления на БЦВМ происходят с потерей точности. Пусть А ж а — некоторые матрица и вектор, размерностей пХп и пХ1. Тогда Аа — вектор, компоненты которого — р-разрядные числа, вычисленные при использовании операции округления. Так как (АаУ — i-я компонента вектора А а определяется формулой п 5=1 то {8АаУ — i-я компонента вектора ошибок округления 8(Аа) =Аа — Аа имеет вид п Ш* = % 6(ДУ). (6.62) 3=1 Из (6.61) следует, что №АаУ\<п2-{р+1). (6.63) Поэтому при большой величине п компоненты вектора 8(Аа) могут быть достаточно велики и, следовательно, умножение в БЦВМ вектора на матрицу может происходить с заметными ошибками. Аналогичные выводы получим при умножении матрицы А на матрицу В. Очевид- но, что б(AB)ij — элемент матрицы ошибок 6(АВ) = = АВ' — АВ оценится формулой \8(AB)ij\<n2-^i). . (6.64) В алгоритмах ОРФ, изложенных, в главе 4, много операций умножения векторов и матриц. Поэтому естественно ожидать быстрого накопления ошибок при расчетах на БЦВМ по формулам алгоритмов ОРФ, производимых не с удвоенной точностью. При расчетах с удвоенной точностью ошибки вычислений резко уменьшаются, так как в (6.63), (6.64) число р надо заменить на 2р. Далее примем, что выбором соответствующих масштабных коэффициентов для компонент вектора фазовых ко-
§ 6.8] ОЦЕНКА ВЛИЯНИЯ ОШИБОК ВЫЧИСЛЕНИЙ НА БЦВМ 271 ординат и вектора измерений в формулах алгоритма ОРФ удовлетворено требование п. (а), а исследования накопления ошибок при вычислениях на БЦВМ происходят па универсальной ЦВМ с плавающей запятой. Тогда достаточно полное представление об искажении условных к. м. из-за накопления ошибок вычислений получим, если при вычислениях, например, по формулам алгоритма ОРФ Калмана (4.91) —(4.95) после каждого умножения двух; чисел производить операцию округления по формуле (6.60). Сравнение найденных матриц Ск с к. м. Ск, полученными при точных вычислениях, позволит провести подробное исследование процесса накопления ошибок вычислений. Однако при этом программа универсальной ЦВМ усложняется и заметно увеличивается время вычислений. Поэтому целесообразно иметь рекуррентные формулы для приближенной оценки накопления ошибок. Для сокращения записи формул' считаем I = 1 (используется последовательный алгоритм § 4.4), ак-{ = = Ф(4, tk-i) =In (оптимальной оценке подлежит вектор постоянных параметров), ЧГА_1 = 0ПП (случайные возмущения системы отсутствуют), #h —#, Rk = R. При идеальных вычислениях (с разрядной сеткой большой длины) к. м. Ск определяется рекуррентным уравнением Ck = Ch-X +;№-! + R)'1 (P*-i$-i), (6.65) где fo-i «£*-!#*. Пусть на (к — 1)-м шаге алгоритма ОРФ определилась матрица €к-и отличная из-за ошибок вычислений на БЦВМ от к. м. Ск. При определении матрицы Ск дополнительные ошибки возникнут из-за использования операции округления при умножении вектора Ят на матрицу Ck-i, умножении слева вектора €k-iHT на строку (Ck-iHT)T, умножении слева строки Я на вектор Ck-iHT. Положим Cft_i#T =*-ak-i и учтем, что ok-i =:afc^i + 6aft_lr a*_io£-i = а^осл-х + б (a^al-i) = a^aa-i + Положив приближенно б (а^_1а^_1)^б (afc-iaft-i) и считая малой величину Н8<хк~и получим из (6.65) Ск = Ск-г - {Нак-г + ДуЧ-юЯ-! + вл-ь (6.66)
272 ФИЛЬТРАЦИЯ ПРИ ОШИБКАХ АПРИОРНЫХ ДАННЫХ [ГЛ. 6 где +6afc_16aA_i+fi(a*-iaA-i)—(ЯаЛ-1+Д)"1ал_1ал-1Я6аЛ-1). (6.67) В (6.66) используются Я и Л вместо Я и R, так как ошибки априорного задания Я и R на порядок больше матриц Н — Н и R — R. Рекуррентное уравнение (6.66), описывающее эволюцию матриц Cfc, отличающиеся от матриц-СА из-за наличия векторов ошибок 6afe-i и матриц ошибок б (ak-i<xl-i), последовательно используется при тех же начальных условиях, что и (6.65). Из (6.66) и (6.67) видно, что матрицы Ch должны быть симметричны. Обозначим через Ак матрицу ошибок вычислений на БЦВМ элементов условных к. м. Ak = Ch — Ch. Вычитая (6.65) из (6.66) и считая малыми элементы Aft, получим Л* = Аь-г - (ЯрЛ_х + Я)"1 (Рл-хЯДл»! + Д^Яр^ + + А^ГНА^) + (ЯрЛ-! + Д)-2р,.1рт,-1ЯД/г_1Ят + б,_!, (6.68) причем До ■=()„„, а при вычислениях элементов матриц 6fe-! вектор otft-i заменяется на pft-i, определяемый из (6.65). Как видно из (6.68), матрица Ah удовлетворяет нелинейному неоднородному рекуррентному уравнению, исследование решений которого может быть проведено, по-видимому, лишь численно. Грубые оценки влияния ошибок вычислений найдем, если компоненты векторов 6aA_i и элементы матриц б \(^k-i^l,-i) заменим их верх,- ними гранями в соответствии с (6.63), (6.64). Рекуррентные формулы, аналогичные (6.66), (6.68), нетрудно получить для общего случая Z>1, ah~^In, Wk-i Ф 0nn, а также для оценки влияния ошибок вычислений на определение векторов оптимальных оценок zk. В литературе описан ряд эвристических способов борьбы с расходимостью алгоритмов ОРФ, основанных на добавлении к матрицам Ch некоторых матриц, интерпретируемых как корреляционные матрицы случайных векторов ошибок вычислений [60], умножении первого слагаемого в формуле (4.95) на коэффициент, больший 1 [48], и т. д. К числу таких способов можно отнести и метод исправления корреляционных матриц, рассмотренный в § 2.14.
§ 6.9] ЗАЩИТА ОТ «БОЛЬШИХ ВЫБРОСОВ» 273 § 6.9. Защита от «больших выбросов» В § 4.7 было показано, что в алгоритмах ОРФ измерений моделей 1 или 2 случайные векторы невязок eft = =*yk — Hkxk в (4.94) или гк = ук — х1к в (4.41) имеют векторы м. о., равные нулю, и к. м., равные матрицам Qk, если, конечно, статистические характеристики случайных, векторов Яо, %, £ь при измерениях модели 1 или статистические характеристики векторов Хю, xq0, v\ikl r\qk при измерениях, модели 2 известны точно и входят в формулы алгоритмов ОРФ. Тогда с вероятностью, практически равной 1, должно, например, выполняться неравенство [*н\<уУя*ш (6.69) где г\ —i-я компонента вектора е^; q\ — расчетная дисперсия случайной величины г\ (i-й диагональный элемент к. м. Qh)\ «у ~ 3 — 4. Если при создании алгоритмов рекуррентной фильтрации достаточно достоверно известны модель динамической системы, статистические характеристики случайных векторов, а вычисления производятся достаточно точно, то невыполнение условия (6.69) в процессе фильтрации означает, что в измерениях из-за непредусмотренной (нестатистической) причины произошел «большой выброс», данный вектор измерений аномален и его использовать нельзя. Поэтому в алгоритмах (4.94), (4.95) и (4.41), (4.42) целесообразно при изолированном невыполнении условий (6.69) резко уменьшать модули элементов матрицы Lh (например, считать их равными нулю). Следует отметить, что невыполнение (6.69) несколько раз подряд может служить признаком начала расходимости процесса рекуррентной фильтрации и возникает из-за отказа соответствующих, датчиков информации или явной неадекватности природе уравнений динамической системы и принятых статистических характеристик случайных векторов. В этом случае необходимо использование адаптивных способов, некоторые эвристические варианты которых, изложены в главе 9, а также в [31], [481, [61]. Так как М [ | Zk\2] = Tr Qk, то мерой расходимости алгоритма может служить величина 1 гк |2 18 И. А. Богуславский
Г Л А В А 7 АЛГОРИТМЫ КВАЗИОПТИМАЛЬНОЙ РЕКУРРЕНТНОЙ ФИЛЬТРАЦИИ § 7.1. Основные предпосылки Реализация в программах БЦВМ алгоритмов рекуррентной фильтрации,? рассмотренных в главе 4, может предъявить повышенные требования к производительности БЦВМ из-за необходимости совершать на каждом такте счета большое число арифметических операций, сопутствующих широко применяемым в формулах алгоритмов операциям линейной алгебры: умножению вектора на матрицу и умножению матрицы на матрицу. Для БЦВМ с фиксированной запятой повышенные требования к производительности возникают также из-за необходимости делать с удвоенной точностью ряд арифметических операций, так как в противном случае при большом числе последовательных расчетов по рекуррентным формулам возможно накопление ошибок и возникновение увеличивающейся разницы между оцениваемыми векторами хк и векторами оценок zk. Путем перехода от алгоритмов ОРФ к более простым алгоритмам квазиоптимальной рекуррентной фильтрации (алгоритмам КОРФ) удается уменьшить объем вычислений или уменьшить без практических потерь измерительной информации частоту вычислений и таким образом снизить требования к производительности БЦВМ. Для этого ниже рассмотрены некоторые, прошедшие проверку в инженерной практике, эвристические способы понижения размерности векторов и матриц, входящих в формулы алгоритма, и способы предварительной цифровой обработки первичной измерительной информации. Рассмотрение в основном основывается на систематическом использовании схемы оптимальной рекуррентной фильтрации при измерениях модели 2. Отметим, что в [2J изложена попытка создания общего способа понижения размерности в формулах алгоритмов рекуррентной фильтрации.
§ 7.2] УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 275 § 7.2. Уменьшение размерности путем перехода от модели измерений 1 к модели измерений 2 Пусть вектор фазовых координат хк представим в виде vih\\ xh. XQk п= l + q. Модель системы в дискретные моменты времени описывается стохастическими уравнениями (4.34), (4.35), а векторы обратной связи модели измерений 1 имеют вид Vk = xik + lk. (7.1) Оптимальные оценки векторов х{к, xqk получим применением алгоритма ОРФ Калмана (4.94), (4.95) при матрицах Нк вида Нк = \11\0ь1 (7.2) Однако в приложениях довольно часты ситуации, в которых необходимо получить неплохие (но не обязательно оптимальные!) оценки векторов xqkl неизмеряемых, но связанных с векторами xlh уравнениями (4.34), (4.35). Если при этом надо иметь оценки векторов х(к, то такими оценками допустимо считать измеряемые векторы ук или какие-либо другие векторы, связанные с ук простыми линейными операциями. В этих случаях не обязательно применять алгоритм ОРФ (4.94), (4.95), дающий оптимальные оценки векторов xqh, xlh ценой использования матриц и векторов размерностей соответственно пХ п и пХ 1. Подобная ситуация возникает, например, если надо оценить векторы скорости и ускорения тела по результатам последовательных измерений его линейных координат, производимых с некоторыми случайными ошибками. В этом случае 1 = 3, q = 6 и при оптимальной оценке всего вектора фазовых координат алгоритм использует матрицы размерности 9X9, в то время как при квазиоптимальной оценке только векторов скорости и ускорения порядок используемых матриц уменьшается до 6X6. Рассмотрим алгоритм КОРФ, решающий поставленную выше задачу. Положим Xih = xlh + lk. (7.3) 18*
276 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ.. 7 Уравнения (4.34), (4.35) примут вид xik = au(k— Ш/,*-! + alq{k — l)tfg>fe-i + _ + bl(k-l)uk-i + y]lth^ (7.4) %qh == CLql\K i)Xl, fc-i ' #ggVrC — ±/#g, fe—1 "■ + 6e(A —1)%-!+ T)gtfc-i, (7.5) где Л/, fc-i = S* - ««(* - l^A-i + Л', h-u (7.6) T)fli fc-i = -aql(k - l)gfc_i + Лд, fc-i. (7.7) причем ■ м \ы = L IK*-1! J V«(ft-l)==M[4M-i4?|fc-i] = = Лл + *н (* - 1) Дл-ifln (* - 1)T + Vu (k - 1) + Fft+n, ¥gg (ft — 1) = M [цдл-А-г] = = aql (k - 1) Rh_iaql (k - 1)T + Wqq (k - 1), = % (ft - 1) Дл_1в„ (ft - 1)T + VTqk + Wql (ft - 1). П (7.8) Векторы rjzi, ..., t]k, r\iti+u •.. образуют последовательность статистически зависимых случайных векторов, так как в г)п и r\it г+1 входит случайный вектор £г-+1 и, кроме того, зависимы £t+i и т)« (из-за (7.8)). Векторы т]^, ... ..., r\qi, r\q, г+i, ... тоже статистически зависимы, так как в векторах r\qi и л*, *+i зависимы векторы |<+1 и i\qi. Для получения квазиоптимальных оценок векторов xqk не будем учитывать статистическую зависимость _векторов_в последовательностях г)и, ..., г)н, Л', <+i» • • • и Л<п> • • •> Л?*» Л<г, г'+1» • • • Так как в моменты фиксации векторов обратной связи yk = Xik, то алгоритм КОРФ для оценки векторов xqk опишется формулами (4.36) —(4.42), в которых матрицы 4^(ft—1), WjAk — i)^ Wqq{k — \) заменены матрицами Wnik—1), \Fgi(ft— l), 4%g(ft — 1), определяемыми формулами (7.8). Кроме того, векторы х1к следует заменить на Xih. Векторы zqh будут квазиоптимальными оценками векторов xqk, полученными, если допустить, что каждая ik 'Qh
§ 7.2] УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 27 упомянутая выше последовательность составлена из статистически независимых случайных векторов. Матрицы Cqh уже, конечно, не будут к. м. векторов ошибок оцен- ки. При /с = 0 в (4.41), (4.42) следует положить хю = хю, Qo = Сю + Д0. Для оценки априорной точности квазиоптимального алгоритма положим Oqh ^ Zqh ~~ Xqh» (7.9) Вычитая (7.5) из (4.41), получим, учитывая (7.9): 8qh = Th-i8q, k-i + pk-i£fc-i - T)fli *-! + Akv)it ft_! + Л^А, (7.10) где 1\_! = agg (/с — 1) — Л/Лд (ft — 1), рь_! = aql (ft — 1) — Ллан (ft — 1), Ak = LkQb\ При этом Осредняя обе части (7.10) по случайным векторам |Л, T)z>fc_i, T]9fft_i, получим, что т6(к) — вектор м. о. случайного вектора 8qk удовлетворяет уравнению т6(к) = rft-ime(ft — 1) при начальном условии т6 (0) = xQ0 — xq0 + LqQq1 (xl0 — a:w). Для сходимости в среднем (для выполнения т6(к) -> -*• 0 при ft->«>) достаточно, чтобы IГЛ—i... Г01 — спектральная норма матрицы IV i... Г0 сходилась к 0qq при ft ->- оо. Найдем рекуррентное уравнение для C6(ft) — к. м. вектора 8qh. Умножая (7.10) справа на транспонированную правую часть (7.10), осредняя и учитывая, что М [6gf*_lJ£] = 0ф М [eg.ft-xTlg.fc-.l] = Ogg, М [eg.fe-iTlJ.fc-i] = '0ql, получим С6 (ft) = ГЛ_А (^ - 1) Г*-1 + Tk-JtA [&ifc-iS-i] + + рЛ-хМ fe-iC-il П-i + 7*, (7.12) где Уи = Ъя (*-!) + Aft (Y„ (A - 1) + Vlh + Fjft + Rh)M - - As (TeI (к - 1)- + Fgft) - {Wql(k-i) + УдтЛ)Л1.
278 КВАЗИОПТИМЛЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 Умножая обе части (7.10) справа на £L получим после осреднения: М MS] = - Vlh + Ah (V]h + Rk). (7.13) Из (7.12), (7.13) найдем рекуррентное уравнение для к. м. С6Ш: С6 (к) = ГА_ А (к - 1) Г£_х + Гл_х (- F*ft + + Лк (Flft + i?ft)) pLi+Pft-i(-Fgft+(Ftt+tf*K)rLi+Vft. (7.14) Из (7.11) следует, что (7.14) надо последовательно использовать при начальном условии Са (0) = Cq0 — L0Q0 L0, где Q0 = Сю + До. Сравнивая диагональные элементы матриц С6(к) (дисперсии ошибок квазиоптимальной оценки) с дисперсиями ошибок оптимальной оценки — последними q диагональными элементами матриц Сй, определяемых рекуррентной формулой (4.95), можно для конкретных примеров провести сравнительный анализ качеств квазиоптимального и оптимального^ оценивания вектора xqh. Квазиоптимальной оценкой вектора xth можно, как уже упоминалось, считать, например, вектор yh: zlh = yk. Очевидно, что yh является несмещенной оценкой вектора Xik, производимой с вектором случайных ошибок fft, и к. м. ошибок такой оценки равна Rh. Для некоторых систем, используя простые стационарные цифровые фильтры и векторы zqh, можно уменьшить величины случайных ошибок квазиоптимальной оценки вектора xtk. Допустим, что в (7.4) ац{к) = 0». В этом случае вектор zih можно получить в результате прохождения векторов измерений ук через простой цифровой фильтр с «компенсацией динамических ошибок» [61: Ък = Y4 *-1 + (1 ~ ч)Ун + Y^ft. (7-15) где Aft — вектор, устраняющий динамические (систематические) ошибки цифрового фильтра, определяется равенством Дл = atq(k — l)zq> h-i + bt(k - l)ttfe-i — - aiq(k - Z)zb ft-з - bi(k - 2)%-3,
§ 7.2] УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ' 270 Y —параметр цифрового фильтра (^<1), Zw = Т^о + + (1 — Т>Уо. Чем меньше величина 1 — If» тем меньше влияют на Zik векторы случайных ошибок измерений, но тем длительнее переходный процесс фильтра —- время, в течение которого вектор zlh станет мало отличаться от вектора xlh, если Zw = 0, Хю Ф 0 и отсутствуют как случайные ошибки измерений, так и шумы, возмущающие систему. При отсутствии этих случайных факторов и zi0 = Хю, zq0 = xqQ справедливо равенство ДЛ = аг№ — xt> fc_t. Для получения рекуррентного уравнения, которому удовлетворяет вектор ошибок оценки 8th = zlh — xlkJ из обеих частей (7.15) вычтем тождество Получим в/л = Т6*. *-i + (1 ~ Т^* + yW* - 1)в«. л-1 - — а,в(й — 2)6«. А-2 ~ Л*, л-1 + Л', *-2). (7.16) Для определения к. м. вектора 6» можно, например, ввести дополнительные фазовые координаты %а> %л> %&: Ха = £*> Xft = Т)и-ь %1 = 6g,k-i- (7.17) Векторы %fc' *Ых*т!хЗГ!хГ!<&!вМ образуют марковскую последовательность, определяемую стохастическими уравнениями (7.10), (7.16), (7.17). Из этих уравнений сразу следует рекуррентное уравнение для к. м. вектора %к. Искомая к. м. вектора б/А будет ее правым нижним блоком. Изложенная методика квазиоптимальной фильтрации соответствовала случаю, когда матрица Hk имела вид (7.2). Если матрица Нк имеет общий вид (4.163), то к рассмотренной ситуации придем, сделав замену (4.167) (конечно, при невырожденной матрице Hik). Пример. Рассмотрим опять систему (4.161i), измерения (4.1612), и пусть для уменьшения размерностей матриц и векторов с4Х4 и4Х1 доЗХЗиЗХ! используется описанный алгоритм КОРФ в условиях 1 = 1, q = 3 (применение этого алгоритма можно оправдать, например, если основная задача — оценить скорость, ускорение движущегося тела при измерениях с ошибка-
280 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ.7 ми его линейной координаты). Тогда из (4.1613) и (7.4), (7.5) ■ = 1. alq = || А А2/2 А з/ *ql = "« = 1 А А2/2|] 0 1 А 0 0 1 В таблице 7.1 для различных к приведены величины спектральных норм |1\| и Ц\...Г01, рассчитанные при условиях (4.161J. Как видно, с ростом к норма IГА... Г01 уменьшается, что обеспечивает сходимость алгоритма КОРФ по крайней мере в среднем (за 100 измерений длина вектора Таблица 7.1 к 0 10 20 30 40 50 IV 1,051 1,296 1,230 1,116 1,070 1,056 |ГД...Г0| 1,051 9,542-Ю-1 4,715-10"1 1,763-10"1 8,072.10-2 4,521-Ю-2 к 60 70 80 90 100 IV 1,052 1,051 1,052 1,053 1,054 IV--Ч 2,915.10-2 2,071-10-2 1,575-10-2 1,258-10-2 1,042-10-2 первоначальных невязок уменьшилась не менее чем в 100 раз). Однако из сравнения с таблицей 4.1 видно, что эта сходимость более медленная, чем сходимость алгоритма ОРФ. § 7.3. Уменьшение размерности путем преобразования вектора измерений 1. Преобразование вектора измерений является эффективным способом, позволяющим не производить оценку «неинтересных» фазовых координат. В общем случае новый вектор измерений образуется по правилу У к = Т (j/h+s, ...» Ук+li Ук, Ук-1, • • •, Ук-г), где Г (...)-—линейная функция, выбираемая так, чтобы вектор Ук явно зависел от возможно меньшего числа «неинтересных» фазовых координат. Ясно, что при этом ошибки измерений |«, образующие при измерениях модели 1 последовательность независимых случайных век-
§ 7.3] ПРЕОБРАЗОВАНИЕ ВЕКТОРА ИЗМЕРЕНИЙ 281 торов, войдут в формулы для нескольких последовательных векторов вида у к- Алгоритм КОРФ основывается на предположении, что случайные векторы, входящие в выражения для Уг+i, У\, г/г—i» статистически независимы (если учитывать статистическую зависимость этих векторов, то получим алгоритм ОРФ). 2. Рассмотрим один из возможных способов преобразования вектора измерений. Считаем, что модель системы описывается уравнениями (4.34), (4.35), а векторы измерений модели 1 имеют вид (7.1) или преобразованием (4.167) приведены к этому виду. Кроме того, для сокращения записи формул положим, что управление отсутствует (ЬА = 0). Образуем новый вектор измерений у и по формуле Ун = Ук+i — аи (к) yk. (7.18) Подставляя xttk+i и xih из (7.1) в (4.34), получим, что Уи связан с xqk соотношением Vk = H'hxqk + & (7.19) где H'k = aiq (ft), lh = lh+1 — an (к) lk + щ*. (7.20) Подставляя tfz,ft-i из (7.1) в (4.35), получим, что преобразованная система с вектором фазовых координат xqh (размерности q X 1) описывается уравнениями ' Xqk = dqq (& ~ 1) Zg.ft-1 + 4-1 + Tfo-i, (7.21) 4-i = aqi (к — 1) уь-ъ T)ft-i = — aqi (к — 1) ^_х + %fe-i- (7.22) Из (7.20) видно, что векторы |ь образуют последовательность коррелированных случайных векторов (вектор £г входит в £i+1 и £ь а т]г,г-1, входящий в £i-i, коррелирован с вектором £,-, входящим в £*)• По тем же причинам векторы r\k-i также образуют последовательность коррелированных векторов. Квазиоптимальный алгоритм оценки векторов xqh получим, если упомянутую корреляцию учитывать не будем. В этом случае векторы Уи принадлежат модели измерений 1, дискретная система возмущается независимыми векторами r\k и применим алгоритм, описываемый формулами (4.90) —(4.95).
282 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 В этих формулах матрицы ak-u Hh заменяются на aqq{k-—i), Нк,вектор б*-^*-! заменяется на dh-u а матрицы Rk, ^ft-i, Vh имеют вид Rk = М [1^т] = Лй+1 + аи (ft) Льа„ (ft)' + + Т„ (ft) + Fift + VTfc, Ya-x = M [nUtfc-i] = o„ (ft - 1) Rh-iaql (ft - 1)T -f + ¥9g(ft-l), Векторы zfe и zk~i в (4.94) и (4.90) следует заменить на Zqk и zg> ft-i — квазиоптимальные оценки векторов xqk и Хд^-^ В изложенном алгоритме КОРФ, как и алгоритме [19], рассмотренном в § 4.23, существует запаздывание момента получения вектора оценок по отношению к моменту поступления информации. Для получения рекуррентного уравнения, которому удовлетворяет вектор 8qh априорных ошибок квазиоптимальной оценки (см. (7.9)), вычтем вектор xqk из обеих частей равенства, в которое перешло уравнение (4.94) псле описанных выше замен. Тогда получим ■ 8qk = <x>k-iuq,k-i + рд-ii/i-i + Xhlk + Afc£fc+i — aft_! = ykaqq (ft — 1), рл_! = ykaqt (к — 1), yk = Iq — Akalq (ft), Хк = —Акац (ft), Лл = L^1- П (7.23) Из (7.23) следует M [вдлЙ+J = 0ql, М [^S+1] = Л, (Rk+1 + VTlk), М [8qkH] = сс^Ль-i (Л, + FJ,^) + ^Д* - YfcT^k, M [<Wlg.fc+i] = °<z<z> M [<WlI.*+i] = °g*> M [«*!&] = A* [Vgfc + Y,J, M [8qkr\lk] = Ak [Vlk + Ш Умножая (7.23) справа на транспонированную правую часть (7.23), используя приведенные выше равенства при замене ft на к— 1, получим после осреднения рекуррентное уравнение, которому удовлетворяет к. м. вектора 8qh. Повторным применением описанного способа
§ 7.4) НЕЧУВСТВИТЕЛЬНОСТЬ К «УХОДАМ НУЛЕЙ» 283 можно проводить дальнейшее понижение размерности, если векторы Уи из (7.19) преобразованием вида (4.164) над вектором xqh привести к виду (7.1). § 7.4. Алгоритм КОРФ, нечувствительный к «уходам нулей» датчиков информации 1. Результаты измерений обычно зависят от некоторых случайных величин — характеристик моделей медленно меняющихся ошибок датчиков информации, которые после расширения вектора фазовых координат необ-' ходимо оценивать при использовании алгоритмов ОРФ для построения векторов оптимальных оценок основных фазовых координат. Для уменьшения размерности оцениваемых векторов результаты преобразования векторов измерений не должны содержать медленно меняющихся ошибок измерений. Пусть, например, система описывается уравнением (4.78), векторы измерений имеют вид yk = Hkxk + £fe + %h, где §ь — независимые векторы ошибок измерений с к. м. Rk; t,k — вектор ухода нулей датчиков информации, зависящий линейно от времени: tfc —£'& + £°- Здесь £', £° — случайные векторы, постоянные в данной реализации, которые бы пришлось оценивать (наряду с векторами хк) при использовании алгоритма ОРФ. При построении алгоритма КОРФ, не оценивающего £' и £°, функцию 74...) определим формулой 2-й конечной разности: Ук=-Ук — tyk-i + J/fc-2 — dk (вектор dh зависит от uh~u uk-2 и определен ниже) и учтем (из (4.78)), что Яг-1 = dh-1 (Яг — bfc_iMi-l — Лг-l) (напомним, что ajT-i = (Ф (^» ^-i))"1 = Ф {h-u *л))- Тогда получим Ун = Hfkxk + lk + dk, где Ни = Hh — 2Hk-iak_x + Яд_2 (ak-idk-2) > dk = (2Hk-iCik-i — #л--2 («/г-1%-2) ) bk-iUk-i — — -flfc-2#u-2frfc-2wu-2»
284 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 Векторы Ук не зависят от векторов £' и £°, а векторы Ъ>к образуют последовательность зависимых случайных векторов. Алгоритм КОРФ для оценки векторов хк по векторам измерений Ук получим, используя формулы алгоритма ОРФ Калмана, в предположении, что векторы £л образуют последовательность независимых случайных векторов. Алгоритм (4.89) —(4.95) используется, начиная с /с = = 2, при замене Hk на Hh, Rh на Rk: R'k = Rh + 2Rk.1 + ЯА_2 + SkWh^Sl + P№.,Pl+VhSl + + ShVl-2Vh„lPl-2PkVl-1 и Vk на V'k: У к = Vh + ShVh-lt при начальных условиях z2 = a^^, C2 = а^оСо Ka0)T + ¥x -f a^al, <?2=#;c2 (я;)т+д;+#; (v; - 2^1+вд+aiw0pi) + + (v, - гад+зд+р.зд) (#;)т, L2 = С2 (tf2)T + VI - 2a.Fl + Ч^ + а^Д Описанное преобразование неприменимо (i/ft^0), если яА — линейная вектор-функция &, которая оценивается алгоритмом ОРФ на фоне «уходов нулей», меняющихся тоже по линейному закону, лишь если существует резкое отличие ее априорной к. м. от априорных к. м. векторов £', £°. Аналогичным способом нетрудно построить алгоритм КОРФ, нечувствительный к «уходам нулей», описываемым более сложной моделью (например, полиномом 2-й, 3-й и т. д. степеней). 2. Рекуррентное уравнение, которому удовлетворяет вектор 6ft —вектор априорных ошибок квазиоптимальной оценки, будет иметь вид (4.135), если в (4.136t) заменить Нк на Hfk и Ik на £&: 6* = ГЛ-1 + Л*(|к - 2gk-i + |fc-2) + Wk-i + Mk-„ (7.23t) где ft>2, Тл = Лл($л + #0+'п. ЛЛ = ЛАРЛ> б2 = Г2 (х2 — я2) + Л2^2.
§ 7.4] НЕЧУВСТВИТЕЛЬНОСТЬ К «УХОДАМ НУЛЕЙ» 285 Для сокращения записи формул будем далее считать Vh^0. Из (7.23t) получим М [8кЦ+1] = 0ПЬ М [8кц1] = 0ПП. Тогда М [8k&] = AhRh, М [ЬЯ-г] = IVU-A-i - 2ЛЛДЛ-Ь М [6ftT)Li] = 7Л_!. Умножим (7.23i) справа на транспонированную правую часть и осредним, используя приведенные равенства при Таблица 7.2 k ОРФ Д=1 6Г100 КОРФ Д=1 б2-100 КОРФ Я=0,5 62-100 к ОРФ Д=1 ^-юо КОРФ R=l 62-100 КОРФ Д=0,5 62-100 10 6,4-10-1 1,2 6,4-10-1 60 8,5-Ю"3 2,2-10-1 1,1-10-1 20 1,8-10-1 6,5-10-1 3,3-10-1 70 З-Ю"3 1,9.10-4 9,6-Ю"2 30 7,5-10"2 4,4-10-1 2,2-10-1 80 -3-Ю"4 - 1,6-10-1 8,4.10-4 40 3,6.10-2 3,3-10-1 1,6-10-1 90 -2,3-10"3 1,5-10-1 7,5-10-2 50 1,8-10-2 2,7-10-1 1,3-10-1 100 -3,7-10"3 1,3-10-1 6,8-10-2 замене к на к — 1. Получим рекуррентное уравнение, которому при к > 2 удовлетворяет Ск — к. м. ошибок оценки алгоритмом КОРФ: С?= TkC'k-iTl + Ak (Rk + 2Rk-t + Rk.2) Al + + yhVh-ifk + Я A-2^ + Ak + Al Ah = Th (— 2Ak-iRk~i + rft_iAft_2flft_2 — 2Ak-\Rh-i) Al + + Tkyh-14fh-i%l, /c>3,
286 КВАЗИОПТЙМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ |ГЛ. 7 Л3 = Г3Л2 [(- 2R, + Лх) Лт3 + 5,^,1, Со = Г2С2Г1 + A2R&1 ~ Г2 {W.Sl + а^0Р1) М - -л2(вд + ад>«1)П. Сравнивая диагональные' элементы матрицы С& с соответствующими диагональными элементами матрицы С*, рассчитываемыми при использовании алгоритма ОРФ Калмаыа для оценки векторов хк, £', £°, узнаем, на сколько хуже алгоритм КОРФ оценивает векторы хк. 3. Рассмотрим пример, в котором j/fe = sm((o/cA).^ + ^/c + S0 + ^, априорные дисперсии постоянных величин я, £', £° равны соответственно 100, 1, 1, дисперсия ошибок измерений \kR = \. В таблице 7.2 при А = 1 с, со = 0,628 с-1 в функции к при х = 10, J;1 = £° = 1 приведены переходные процессы относительной ошибки оценки величины х при использовании трехмерного алгоритма_ОРФ Калма- на (6i) и одномерного алгоритма КОРФ (б2), нечувствительного к «уходам нулей» датчиков информации. Как видно, величина б2 уменьшается несколько медленнее, чем 6i. Величина б2 станет уменьшаться быстрее, если, например, в алгоритме КОРФ заменить R = 1 на R = 0,5 (см. табл. 7.2). § 7.5. Двухчастотная рекуррентная фильтрация 1. В настоящее время распространены датчики информации, которые выдают измерения модели 1 в цифровой форме — обычно в виде последовательных кодов. Эта первичная цифровая информация поступает на вход устройства «ввода-вывода» (УВВ) БЦВМ с большой частотой (порядка 100 герц), существенно превышающей малую частоту (порядка 10 герц) вычислений, достаточную для решения задач управления. Как в такой ситуации реализовывать алгоритм ОРФ? Вычисление по формулам алгоритма (формулы (4.94), (4.95)) с большой частотой, равной частоте поступления первичной информации, часто невозможно из-за ограниченной производительности БЦВМ, однако вычисления по тем же формулам с малой частотой означают использование не всех, а лишь некоторых первичных измере-
§ 7.5] ДВУХЧЛСТОТНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 287 ний. В результате точность оценки текущих фазовых координат может быть значительно хуже точности, достигаемой при вычислениях с большой частотой (выше было показано, что уменьшение в N раз частоты измерений модели 1 влияет на условные к. м. Ск — к. м. ошибок оценки приближенно так же, как увеличение в N раз всех элементов матриц Rh — к. м. ошибок измерений при сохранении прежней частоты измерений). Это обстоятельство — следствие того, что в модели 1 векторы ошибок измерений независимы. . Если векторы ошибок измерений статистически зависимы, то уменьшение (конечно, в разумных пределах) частоты использования результатов измерений вызовет сравнительно небольшое ухудшение точности оценки. Но упомянутые векторы станут зависимыми, если первичная цифровая информация пройдет через произвольный цифровой фильтр. Поэтому оправдано исследование следующей комбинированной схемы ОРФ. Первичная цифровая информация с частотой ее появления в БЦВМ поступает на вход алгоритма частой фильтрации (ЧФ), который с этой же частотой производит вычисления, осуществляя первичную обработку поступающей информации. Алгоритм ЧФ реализуется отдельными аппаратурными вычислительными средствами (например, принадлежащими УВВ), не участвующими в общей схеме вычислений с малой частотой. Алгоритм должен отличаться возможной простотой и иметь «память»: последовательность независимых случайных векторов, подаваемых на его вход, должна превращаться в последовательность статистически зависимых случайных векторов с достаточно сильной корреляцией. Векторы на выходе алгоритма ЧФ являются векторами измерений для формул алгоритма ОРФ, вычисления по которым производятся с малой частотой и с учетом статистической зависимости векторов ошибок в измерениях (формулы вида (4.36) —(4.42)). Покажем, что при выполнении некоторых условий уменьшение частоты использования алгоритма ОРФ не приводит к заметным информационным потерям, практически не ухудшая точность оценки. Пусть t0 — момент начала поступления в БЦВМ • первичной цифровой - информации, б — интервал между моментами поступления этой информации, а в алгоритм ОРФ информация, преобразованная алгоритмом ЧФ, поступает в моменты
288 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 U + А, ..., U + &Д, ... Считаем, что Д=рб, (7.24) где р — некоторое целое число. Обозначим yki вектор первичной информации в момент U + к А + £6, где 0 < i ^ р. Тогда yhi - Hxhi + %kU (7.25) где xhi = x(t0 + АД + id), a |fc*— последовательность независимых случайных векторов ошибок первичных измерений, каждый из которых имеет к. м. R (£ь-1, р = £ь, о). Алгоритм ЧФ выберем в виде Ум = ayht <-i + $yhu (7.26) где ^ — вектор выхода алгоритма в момент t0 + кА + 18; аир — некоторые неособенные матрицы такие, что а + р = /,. (7.27) Спектральную норму матрицы а считаем меньше 1, что обеспечит устойчивость алгоритма ЧФ. Равенство (7.27) означает, что алгоритм ЧФ в «статике» имеет коэффициент передачи равным 1: при z/fet= const и достаточно большом к ум=*Ум. Динамическую систему для уменьшения громоздкости формул считаем стационарной и вначале положим, что отсутствуют векторы управлений и случайных возмущений. Тогда будем иметь xki — axkt i-i, (7.28) где а = Ф(6); Ф(£) — фундаментальная матрица уравнения (3.1). Условимся, что уь-i, р^Ук о, положим Ук — Уко и найдем связь векторов yh и yk-{. Учитывая соотношения (7.24) —(7.28) и положив xk = x(t0 + kA), найдем Ук = ацУк-i + aeqXh-! + тп,л-ц (7.29) аи = а?, (7.30) ащ = ар-г$На + сср"2рЯа2 + ... + а^На^1 + р#ар, (7.31) Л£.*-1 = cOfifc-i,! + аР"яРБ*-1.2 + ... ... + apgft-Lp-! + pgM.- (7.32) Алгоритм ЧФ (7.26) начинает считать в момент t0 ii = 0, А = 0) по формуле j/oo = РУоо = Р(#Я0о + loo).
§ 7.5] ДВУХЧАСТОТНЛЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 289 Поэтому при к = 1 уравнение (7.29) принимает вид Vi = (а^Н + alq)x0 + а^|оо + U (7.33) где х0 = х00. Из (7.29) получим, что измерения (7.25), алгоритм ЧФ (7.27) и динамическую систему (7.28) можно в моменты to + kA, & = 1, 2, ..., описать стохастическими уравнениями Xik = ullZith-i + flZgZfe-l + t]lth-li (7-34) xh = aqqxh-u (7.35) xtl = (аррЯ + alq) x0 + appg00 + л,0 (7.36) при измерениях модели 2 вида Ук = хь, (7.37) где аи = ар = Ф(Д), & = 1, 2, ... Из (7.32) следует, что ■фи — к. м. случайных векторов y\ih имеет вид фп = ар~^ЩЧар-1)г + ... + сф#£тат + рй|Зт. (7.38) Матрицу а„ можно определять или непосредственно по формуле (7.31), или из матричного уравнения aalq - alqa = a*$Ha - $Нар+\ (7.39) которое получим, умножая правую часть (7.31) вначале слева на а, потом справа на а и вычитая результаты. Аналогично, матрицу tyn можно находить непосредственно из (7.38) или решая матричное уравнение сф| - ^(ог1)* = аррдрт(ар"1)т - рДрЧог1)*, (7.40) которое получим, умножая правую часть (7.38) вначале слева на ос, потом справа на (а_1)т и вычитая результаты. Заметим, что у уравнений (7.39), (7.40) есть единственные решения, если соответственно матрицы а и —а, а и —а-1 не имеют одинаковых собственных чисел. Используем для частой фильтрации простейший цифровой фильтр, при котором матрицы а и р в (7.26) равны соответственно a = alh P = p/i, (7.41) где а-скаляр (0< сс< 1) и р = 1 - а. Из (7.40) и (7.39) (допустив, что а не совпадает ни с одним собственным числом матрицы а) получим bl = ~a*V + i рд, alq = рЯа (ap/n - av) (а/п - а)""1. а (7.42) 19 И. А. Богуславский
290 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 Так как вектор xk удовлетворяет (7.34), (7.35), то вектор его условного м. о. zk и условную к. м. Ck получим применением формул алгоритма ОРФ (4.36) —(4.42), переобозначив zqh на zk, xqh на xh, Cqh на Ch, Cqh на Ck и учитывая, что в даппом случае q = n, aql{k — I) = 0п1, aqq(k — 1) = Ф(Д), а ащ alqi ifK определяются (7.30) и (7.31), (7.38) (или (7.42)). Алгоритм ОРФ применяется, начиная с к = 1 (с момента f0 + A), причем векторы первичной информации г/оо, t/oi, ... поступают на вход алгоритма ЧФ, начиная с момента t0. Матрицы Qu Lu Zt определяются, как следует из (7.36), равенствами Q, = (а*фЯ + alq)C0(ap$H + alqY + ф„ + ар$Щг(арУ, L{ = арС0(ар$Н + alq)\ Ci = арС0(арУ. 2. Докажем при некоторых предположениях о фундаментальной матрице ФШ и числе а в (7.41), что использование алгоритма ОРФ с частотой А"1 (в р раз меньшей частоты поступления первичной информации б-1) практически не ухудшает точность оценки векторов xh по сравнению со случаем использования алгоритма ОРФ с частотой б-1; в этом случае, конечпо, учитываем, что поступают измерения (7.25) модели 1 и формулы алгоритма ОРФ имеют вид (4.94), (4.95). Подставляя (7.41) в (7.31), запишем (7.31) в виде а,я=рЯФ(Д) ((аа-1)р-1 + ... + сса-1 + /п). (7.43) Допустим, что траектория динамической системы мало меняется за интервал А. Это означает, что приближенно можно положить ар~а-р~1п. (7.44) Кроме того, положим, что величипа а близка к 1, так что /?р « 1 (7.45) и можно положить 1-сср = 1-(1-р)"~/^. (7.46) Принятое допущение означает, что алгоритм ЧФ обладает значительной «памятью» (постоянная времени непрерывного фильтра — аналога дискретного фильтра (7.26) равна 6(1 — а)"1). Считая в (7.43) оса-1 ~ а/п, получим, учитывая (7.46): а,в~/фЯФ(Д). (7.47)
§ 7.5] ДВУХЧАСТОТНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 291 Из (7.38), учитывая, что ос + 1~2, 1 — а2р ~ 2р[}, найдем bi - ^^ (« ~ 1)2Д ^ /*2Д. (7.48) а — 1 Из (4.36) —(4.40) получим, учитывая (7.47), (7.48): Qh ~ р2$ЧИФШС^ФШт1Г + р-'Ю, (7.49) Lft - /?рФ(Д)СА_1Ф(А)т//т. (7.50) Из (4.42) найдем Ск ~ Ск - CkmHCk^W + р-1ЮНСк, (7.51) где Ск = ФШСк-{ФШт. Правая часть (7.51) совпадает с выражением для условной к. м., получаемой при применении алгоритма ОРФ к измерениям модели 1, поступающим с частотой А"1, если к. м. ошибок измерений равна р~^Д. Но ранее (§ 4.13) было показано, что эта к. м. равна условной к. м., получаемой при применении алгоритма ОРФ к измерениям модели 1, поступающим с частотой, в р раз большей (частотой б-1), и имеющим равную R к. м. ошибок измерений. Итак, при выполнении условий (7.44), (7.45) первичная обработка поступающей информации с большой частотой (частотой б"1) простым цифровым фильтром и последующее использование с малой частотой (частотой А"1) алгоритма ОРФ, входами которого являются выходы простого фильтра в моменты t0 + kA, практически не ухудшают точность оценок векторов хк. При этом параметры алгоритма ЧФ (величипы а и р) на точность оценок практически не влияют (конечно, если выполпено (4.45)). Заметим, что так как матрицы atq и $п пропорциональны малым величинам £ и р2:. alq = $Иа(ар-Чп + ар~2а + ... + а*"1), Ф„ e p*(a2(p-i> + ... + а*-Ц)Д, то для ликвидации возможной потери точности вычислений на БЦВМ целесообразно вместо alq и г£н подставлять матрицы alq и г|?^: a'iq = F1^/g> bi = P~2%/ • 19*
292 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 При этом в правой части (4.41) второе слагаемое надо умножить на коэффициент [}-1. 3. Рассмотрим теперь общий случай, в котором дискретная динамическая система подвергается действию векторов случайных возмущений и векторов управлений, постоянных на интервале А. Тогда вместо (7.28) будем иметь xki = ахк i-i + buk + r\h, а вместо уравнений (7.34) —(7.36) получим xik = anxuk-i + aiqxfi-i + Мл-i + Ц%-11 *n = (aPP# + <*iq) xo + aPP£oo + Л?о> где bi = cb, bq = db, с = (1 - ap) /n + (1 - cc^1) a + ... + (1 - a) av~\ d = p-1(l-«P). г|г, A_i определяется (7.32). В алгоритме ОРФ используются формулы (4.36) — (4.42), в которых Wa = Wu + cWc\ Vql=dVcT, Wqq = dWd\ ^¥ц определяется правой частью (7.38), 4я — к. м. векторов rib-i. Как уже отмечалось, величина А — интервал между моментами применения алгоритма ОРФ определяется при решении задачи управления, использующего zh и CV. При необходимости знать вектор оценок z в момент U + кА + i8, i< к, можно пользоваться экстраполяцией: z(t0 + kA + i8) = O(i8)zh. 4. Пример. Орбитальпая навигация по данным радиовысотомера. Используем двухчастотную рекуррентную фильтрацию для оценки фазовых координат летательного аппарата (ЛА), летящего по околокруговой орбите, если первичная информация, поступающая в БЦВМ с частотой б-1,— высота полета ЛА, измеряемая с независимыми случайными ошибками, дисперсия которых равна о2. Считаем, что расстояние ЛА от некоторой номиналь-
§ 7.5] ДВУХЧАСТОТНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 293 ной точки, движущейся с круговой скоростью по номинальной круговой орбите, мало по сравнению с радиусом Земли. Положение ЛА в орбитальной системе координат, центр которой совпадает с номинальной точкой, определяем координатой Хи направленной по радиусу-вектору номинальной точки, и координатой Х3, направленной по вектору скорости номинальной точки. После линеаризации уравнения движения Л Л в орбитальной системе координат имеют вид (см. [14]) %i — %2i %2 — 3(й0Х± -f- 2co0X4, ^з~^4> ^4 = — 2оз0Х2, где 0)0 — угловая скорость радиуса-вектора номинальной точки. Перейдем к безразмерному аргументу 0 = (о0£ и положим хх = Хх, х2 = со0 А2, х3 = А3, х± = со0 а4. Уравнения динамической системы имеют вид dxJdQ = #2, dx2/dQ = 3xi + 2х4, dx3/d0 = х/к, dxJdQ = — 2x2. Вычтя из измеряемой высоты высоту поминальной орбиты, получим, что в моменты поступления в БЦВМ информации Ук = х№к) + Ък, (7.52) где 0/i = (0ой6, М [ll] = cr2. В данном случае Я = Ц1 0 0 0||, |] 4 - 3 cos 0 sin 0 0 2 (1 - cos 9) II fTWm — 3 sin G cos 9 0 2 sin 9 У W ~~ 6 (sin 9-9) - 2 (1 —cos 9) 1 - 30 + 4 sin 9 ' 1 —6(1-cos 9) —2 sin 0 0 4cos9-3 || Примем со0б = 10~3, o = 10 м и проведем расчет си, с22, <?зз, си — условных дисперсий ошибок оценки величин #н #2, #з, #4 по формулам алгоритма ОРФ (4.95) при некоторых априорных дисперсиях величин яДО), #2(0), #4(0). Так как величина х3(0) ненаблюдаема, то ее априорную дисперсию положим равной 0. Результаты расчета приведены в таблице 7.3.
294 КВАЗИОПТИМЛЛЬНЛЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ.7 Пусть теперь обращение к алгоритму ОРФ происходит в 10 раз реже (р = 10). Чтобы точность оценки фазовых координат не ухудшилась, измерения (7.52) проходят цифровой фильтр (7.26) при ос = 0,99, а выход фильтра с уменьшенной в 10 раз частотой подается на Таблица 7.3 1 °- 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 ' 0,9 1 Си 8,59 4,37 2,96 2,22 1,77 1,49 1,25 1,10 0,98 0,88 с22 18 200 2 310 700 290 146 86,3 54 35,9 25 18,1 Сзз 17 200 2 210 650 275 143 81,4 51,1 34,1 23,8 17,3 С44 1 690 000 53 400 6 200 1 530 482 179 74,5 34,3 16,9 8,8 вход алгоритма- ОРФ, описываемого формулами вида (4.36)-(4.42). Результаты расчетов по формулам (4.42) приведено в таблице 7.4. Сравнение таблиц 7.3 и 7.4 показывает, Таблица 7.4 V 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Сц 9,68 4,59 3,02 2,28 1,80 1,49 1,27 1,11 0,98 0,88 С22 22 838 2 518 724 301 153 87,7 54,7 36,3 25,2 18,2 С33 18 620 2 276 663 279 149 82,4 51,5 34,5 23,9 17,4 С44 2 283 533 58 724 7 188 1 599 487,5 180,1 75,6 34,7 17,12 8,92 что уменьшение в 10 раз частоты обращения к алгоритму ОРФ практически не повлияло на точность оценки фазовых координат. Следует отметить, что описанный двухчастотный алгоритм должен обладать уменьшенной чувствительностью
§ 7.6] СУММИРОВАНИЕ 295 к постоянным в данной реализации ошибкам датчиков информации. Действительно, в данном случае в (4.41) Ун - л* = у к - арУк-1 - a^Zk-i - .'.. Поэтому постоянная ошибка 8у вызовет появление в векторе yh — zlk слагаемого (1 —оср)бг/, которое при выполнении (7.45) будет близко к нулю из-за (7.46). 5. Рассмотрим иной вид двухчастотной фильтрации, который в моменты /сД результаты частой фильтрации — векторы yk позволяет считать принадлежащими модели 1, что делает возможным использование алгоритма ОРФ Калмапа. Определим вектор ук формулой Ук= — (Ук-гл + • • • + Ун-ир — dbiik-г), где d = (р - 1)а~{ +... + 2а~р+2 -Ь а~р+\ Нетрудно проверить, что вектор ук имеет вид Уп = Д*#л + + Ък, где Я1 = |1(/п+а-1+...+а-р+1), а векторы £{, 5г» • • •» 5л» • • • образуют последовательность независимых случайных векторов с к. м. R1: Д1 =±ц + (а++ ...+ a-p+1)w(a^+ ... +fl-^1)T+- ... + («Г1 + а~2) V (а"1 + <Г2)Т + a^V (а"1)*- Векторы xh оцениваются алгоритмом ОРФ Калмана, используемым с частотой А"1. Из § 4.13 следует, что при xF = 0nn и выполнении (7.44) точность оценки двухча- стотным алгоритмом мало отличается от точности, достигаемой при использовании алгоритма ОРФ Калмапа на каждом шаге получения первичной информации. § 7.6. Суммирование — первичная обработка поступающей информации Наиболее проста аппаратурная реализация первичной обработки с большой частотой, если этой обработкой считать суммирование поступающей цифровой информации. В этом случае алгоритм ЧФ имеет вид ущ = Ун,1-1 + Ут (7,53)
296 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 (заметим, что называть (7.53) алгоритмом фильтрации можно лишь условно, так как при постоянном векторе входа элементы вектора выхода неограничено растут). В этом случае а = р = 1 и а1я = Н(а + а2 + ... + а»), Ч^ = pR. Записав alq в виде (7.43) при р=1 и используя допущение (7.44), получим, что aiq~ рНФ(к). Тогда Qk~ р2(ЯФ(А)СА_1Ф(А)тЯт + ^-1Л), ^-/Ф(А)С,_1Ф(Л)ТЯТ и убеждаемся, что по-прежнему справедливо приближенное соотношение (7.51). Поэтому суммирование с большой частотой первичной цифровой информации позволяет без заметного ухудшения точности оценки векторов xh применять к результатам суммирования алгоритм ОРФ с малой частотой. Ранее отмечалось, что достаточно длительные вычисления по формулам алгоритма ОРФ на БЦВМ с ограниченной разрядной сеткой могут привести к накоплению ошибок и существенному искажению алгоритма. Применением предложенного способа двухчастотной рекуррентной фильтрации — редким обращением к алгоритму ОРФ и частым обращением к простому алгоритму ЧФ можно на порядок уменьшить длительность вычислений по сложным формулам алгоритма ОРФ и снизить ошибки вычислений. § 7.7. Аналого-цискретная рекуррентная фильтрация Рассмотрим ситуацию, в которой датчики информации выдают результаты измерений в виде векторного случайного процесса y(t), каждый элемент которого является некоторым случайным скалярным процессом напряжения постоянного тока: y(t) = Hx(t) + l(t), (7.54) где £(£) — вектор высокочастотного шума ошибок измерений, имеющий к. м. Л. Заметим, что £(£) не может быть белым шумом, так как реальные датчики не выдают сигналы с бесконечно большой дисперсией. Пусть б — интервал корреляции случайного процесса §(£): векторы §(£) и §(£ + б) практически независимы при любом t. Тогда для использования всей информации, со-
§ 7.71 АНАЛОГО-ДИСКРЕТНАЯ ФИЛЬТРАЦИЯ 297 держащейся в результатах измерений, векторы у it) надо вводить в БЦВМ с частотой, не меньшей б-1, и с той же частотой подавать на вход алгоритма ОРФ, предназначенного для обработки измерений модели 1. Примем, что А"1 — частота обращения к алгоритму ОРФ, допускаемая производительностью БЦВМ и достаточная для целей управления, причем величины А и б связаны равенством (7.24). Кроме того, будем считать, что изложенная выше методика двухчастотной фильтрации неприменима, так как в УВВ аппаратурно не реализованы ввод информации и вычисления по формулам алгоритма ЧФ с большой частотой б-1. Покажем, что точность оценки векторов xh практически не ухудшится, если на вход БЦВМ и алгоритма ОРФ с частотой А-1 посылать не векторы первичной информации вида (7.54), а векторы, являющиеся выходами инерционных звеньев, на входы которых поступают случайные процессы напряжений постоянного тока, генерируемые датчиками информации [14]. Заметим,, что инерционные звенья легко реализуются стандартными схемами аналоговой техники (операционными усилителями, охваченными емкостной и резисторной обратной связью). Если у — вектор выходов инерционных звеньев, то у = — ау + аНх + а£, (7.55) где а==Г~1; Т — постоянная времени инерционных звеньев. Положив y(t0+kA) =*ук = х№о + кА) = я№, x(t0 + kk)~ = xh(t0 — момент начала обработки информации в алгоритме ОРФ), из уравнений (3.1) и (7.55) получим Xik = auxit к-1 + а1чхк-1 + biuh-i + г]*, k-u Xk = ttqqXb-i + UqUb~i T T\qt ft-1, где ■ att=d(&), d(t) = exp (— at)Ih A A alq = a \ d (A — т) ЯФ (т) di, Ь\ = a j d (A — x) Hb (т) dx, о о z b (T) = j Ф (t - 9) dQB, aqq = Ф (A), bq = b (A). □ (7.56) о Допустим, что (—а) не является собственным числом матрицы А из уравнения (3.1). Интегрированием по частям
298 КВАЗЙОГГГИМАЛЬЙАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 из (7.56) получим a,q = aH{ah + Л)-ЧФ(Д) - ехр (-аД)/»). Случайные векторы httk-i и hqth-Y определяются формулами 4i |Д т J d(A - т) Н J Ф (т - 0) gA (0) dO d% + о о + jd(A-T)g(x)dT , (7.57) %|А-1 = 1ф(А-т)^(т)йт, (7.58) О где /г — вектор белых шумов едипичной интенсивности, 4яgg — к. м. вектора %, ь-i равна к. м. 4я: А %д=¥ = |ф(Д^т)^Ф(Д-т)тЛ;, о Ч1*// — к. м. вектора г]/, A-i и Ч^ — взаимпая к. м. векторов Ця.к-1 и ri/.ft-i определятся, как следует из (7.57), (7.58), равенствами Vn^ort/i + Zj, 4%, = а/3, (7.59) где А А Л = J j /(Т^То)^^, О О А А J2 = ] J ^ (Д — тх) Л (тх — т2) d (Д — т2)т^т1йт2, О О min(Tl»TI) /(т1,т2)= j ^Д-т^ЯФ^- о Д т - 9) ^ТФ (т2 - 8)T#Td (А - т2)тй6, /3 = j j Ф (Д - 8) ^ТФ (т.- 8)ТЯТ<* (А - rfdQ dx, О О где Жт) — матричпая корреляционная функция случайного процесса £(£). Приведенные соотношения описывают все матрицы, входящие в формулы (4.36) — (4.40), и позволяют для последовательного определения векторов условных м. о. zh
§ 7.7J АНЛЛОГОДИСКРЕТНАЯ ФИЛЬТРАЦИЯ 299 и условных к. м. Ch применять алгоритм ОРФ (4.41), (4.42). Однако формулы для входящих в (7.59) величин 1\ч h, h громоздки и их практическое использование затруднено. Кроме того, как правило, плохо известна входящая в выражение для /2 матричная функция Жт); также обычно мало информации о статистических характеристиках шумов gh(i), возмущающих динамическую систему. Поэтому оправдано приближенное определение величин /i, /2, /3. Будем считать, что по сравнению с А достаточно велика постоянная времени Па"1) инерционных звеньев и за время А функция ФШ практически не меняется. Это соответствует приближенным равенствам d(t)~Ih Ф(*)~/п, *е=[0,Д]. Отсюда д д т1п(т1,т2) оо о' . = ^-HggTHT~^-HVH\ А X J3 ~ J J dQ dx ggrir ~ 4 ggrH* ~ А Ш\ 0 0 При приближенном вычислении /2 будем (в соответствии с постулированным выше свойством случайного процесса ошибок измерений J-U)) считать, что R(t)=R при \t\ < ^6; R(t) = 0u при UI >б; А /2 ~ б j d (A — т) Rd (А - т) dx = о = ~- бес"1 (1 - ехр (- 2аД)) Я. Если положить, что мала величина аА, то /2 ~ p~ik2R. Итак, в алгоритме ОРФ примем ¥„ = а2Д3 (±-Ю¥1Г + /Г1**), Для оценки влияния величины р на зависимость к. м. Ck от случайных ошибок измерений примем, что Ф(£) и d(t) мало меняются при £^[0, А] в выражении для
300 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 матрицы alq. Тогда из (7.56) alq~ аДЯФ(Д). Приближенное выражение для к. м. ошибок оценки Ск имеет вид ск~ск-(ск-±у)нт[н(ск—|-y)#t + + р-1л]"1я(с,-4-ч/)' (7-59i) где Ск^ФШСк^ФШт+^. Из (7.59i) следует, что матрицы Ск не зависят от постоянной времени инерционных звеньев (конечно, при достаточно большой по сравнению с А величине У), а к. м. ошибок измерений входит в рекуррентные формулы уменьшенной в р раз. Из вышеизложенного следует, что применение с частотой А"1 алгоритма ОРФ для обработки информации, поступающей с выходов инерционных звеньев, практически не ухудшает точность оценки по сравнению со случаем применения с частотой б~1 = /?А"1 алгоритма ОРФ для обработки первичной информации. § 7.8. Две структуры алгоритмов КОРФ В приложениях часто встречаются упоминавшиеся в §6.1 ситуации, когда нет достоверных априорных данных о статистических характеристиках случайных процессов ошибок измерений и проблематично само существование устойчивой статистики этих ошибок. В этих условиях алгоритм КОРФ должен быть алгоритмом-оце- иивателем, который уверенно производит оценивание при произвольных начальных векторах х0, не очень чувствителен к различным вариантам статистической структуры ошибок измерений и случайных возмущелий, реализуется без заметной потери точности на БЦВМ с фиксированной запятой. Пусть векторы измерений ук имеют вид ук~Нкхк + Ък, (7.60) где |ь — векторы случайных ошибок измерений, а для сокращения записи формул будем считать отсутствующими случайные возмущения и векторы управлений (4/fe_1= = 0nn, uft_i = 0). Возможно использование двух в некотором смысле полярных структур алгоритма КОРФ. Структура 1. В последовательности (7.60) векторы %h считаем независимыми и имеющими некоторую «прав-
§ 7.81 ДВЕ СТРУКТУРЫ АЛГОРИТМОВ КОРФ 301 доподобную» к. м. R. В этом случае алгоритм КОРФ является частным случаем алгоритма ОРФ Калмаиа: zk = xk + LhQux {yk - Hhxh), (7.61) Ck^db-LbQ^Ll (7.62) где Ck = dk^Ck-ial-ь Lh = CkHl, Qh = HkCkHl + R, xk=^ ah-xzk-x. Должны быть заданы априорные данные (начальные условия) х0, С0. Алгоритм структуры 1 выдает оценку, начиная с момента t0. Структура 2. Из (7.60) получим Ун = Ук-1 - Ук-i + Hkxk + |fc = yk_i + h-iXk-i + %h- %k.u где hh-i = Hkah-i — Hh~i. Векторы %h — %k-i считаем независимыми, имеющими к. м. 2R. Это равносильно предположению, что векторы \h зависимы и геперируются стохастическим уравнением \h = |ft_i + цк-и где % — последовательность независимых случайных векторов с к. м. R. Как следует из (4.36) — (4.42) при q == п, аа(к - 1) = /,, 4яqq = Onn, Ч%* = Oni, uh-i = 0, alq(k — 1) = hh-u aqq(k — 1) — ah-u 4^ = 2R; алгоритм КОРФ в этом случае имеет вид zk = xk + LkQk1 (yk — Ун-i — hk-xZb-J, (7.63) Ch = Ck-LhQu1Ll (7.64) где Ck = cik-iCk-i^k-ъ ^ Lk = Cbhk-i, Qk = hb-iCkhl-i + 2Л, ^ #A = ак-.^к^г. При /с = 0 вектор z0 и матрица С0 определяются формулами (7.61), (7.62) алгоритма структуры 1. Поэтому, если в формулах (7.61), (7.62) и (7.63), (7.64) алгоритмов КОРФ структур 1 и 2 положить к > 1, то работа обоих алгоритмов начинается при одинаковых начальных условиях z0, Co. Формулы алгоритма структуры 2 получаются из формул алгоритма структуры 1, если в последних векторы yh и матрицы Hh заменить их приращениями за интервал времени tk— tk-% = А: Ун —Ук-г и hk-i=Hka,k-i—
302 КВАЗИОПТИМАЛЬНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ.7 — ЯА_х (так как обычно ah-{~In, то fefc-i — приближенное приращение матрицы Пк). Какая структура алгоритма предпочтительнее для программирования па БЦВМ с фиксированной запятой? Ответ па этот вопрос, конечно, зависит от конкретных условий задачи оценивания (конкретного вида матриц Н,п ак) и может быть точно решен лишь после масштабирования формул обеих структур алгоритмов КОРФ, их программирования на языке БЦВМ и при последующем сравнении точности оценивания путем математического моделирования на универсальной ЦВМ с использованием программы ИНТЕРПРЕТАТОР БЦВМ. Примем, что преобразованием вектора измерений (па- пример, подстановкой xh = 0(tk, t0)x0) задача оценивания сведена к случаю, когда оцепить надо постоянный вектор (ak-{=IJ. Существуют эвристические соображения, позволяющие утверждать, что потеря точности оценивания из-за вычислений при сравнительно небольшой длине разрядной сетки БЦВМ и операции округления (см. § 6.7) будет меньшей при реализации па БЦВМ алгоритма структуры 2. Этот эффект в принципе можно ожидать из-за того, что при программировании для БЦВМ формул (7.61), (7.62) длине разрядной сетки ставятся в соответствие максимальные (по модулю) элементы матриц Hk и векторов yh. Цена младшего разряда может оказаться такой, что в течение некоторых интервалов времени программа БЦВМ не «чувствует» изменения элементов матриц Hh и ухудшается стохастическая наблюдаемость векторов хк. При программировании для БЦВМ формул (7.63), (7.64) длине разрядной сетки ставятся в соответствие лишь максимальные (по модулю) элементы матриц hk = Hh+i — Hh и векторов yh — yk-i и цепа младшего разряда получается на порядок меньшей, чем при программировании формул (7.61), (7.62). Однако следует учитывать, что алгоритм структуры 1 обычно сходится быстрее алгоритма структуры 2 (спектральная норма матриц 1\...Г0, построенных для формул (7.61), (7.62), уменьшается быстрее, чем для формул (7.63), (7.64)). Заметим, что ценой усложнения формы записи алгоритм ОРФ Калмана (алгоритм структуры 1) в принципе может быть представлен формулами, в которые входят не Hh и yh, a hh и yh — yk-it Для этого равенство (7.60) представим в виде Ук = Ук-i + K-.Xk-i + v0, h-i ~ vlt *_!,
§ 7.91 ИНЕРЦИАЛЬНО-ДОППЛЕРОВСКАЯ НАВИГАЦИЯ 303 где векторы xh, v0tk, vith образуют вектор xqk (q = n + 2l) и удовлетворяют стохастическим уравнениям Тогда динамическая система может быть записана уравнениями вида (4.34), (4.35), в которых аи (к -1) = /,,■ а1д (к - 1) = || Aft_! I /, ] - /j l|, 4i.*-x = Oji» aqt (к — 1) = 0g(l #gg (л — ■1) = left-i(°m! i0„, |0„{ °п* |0„| °пг I Он -^ » %ft-i = 1 0щ .6* |0ц Из формул (4.36) — (4.42) получим после ряда упрощений, основанных на использовании особенностей блочной структуры матриц aqq(k— 1), запись алгоритма ОРФКал- мана в форме, со держащей векторы ук — yh-i и матрицы hk. § 7.9. Модельная задача — инерциалыю-допплеровской навигации Рассмотрим модельную задачу инерциалыю-допплеровской навигации при полете ЛА по меридиану сферической Земли. Уравнения движения ЛА в проекции на оси X, Y ГСК (см. § 5.4) имеют вид Vx V V v xv у vl R Vv=lT + av (7.65) где R = R3 + H, R3 — радиус Земли, Н — высота полета, ах, ау — проекции на оси X, Y вектора негравитационного ускорения ЛА. Вычислитель инерциальной системы (ИНС) ЛА выдает расчетные скорости ЛА Vx, Vj, интегрируя уравнения инерциальной навигации VI- -^ + al Vl-^L + al-g, (7.66) Я R где ах, ау — выходы акселерометров, оси чувствительности которых направлены по осям Х\ У1 ГПСК. Из-за различных ошибок эти оси повернуты относительно осей X, Y на малый угол й. Поэтому ах = ах — al® — ах, ау = ау + а^ — ау, где ах, ау — «уходы нулей» акселерометров (пренебрега-
304 КВАЗИОПТИМАЛЬНЛЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ [ГЛ. 7 ем быстрыми шумами выходов акселерометров). В инер- цпалыюм пространстве вокруг оси Z1 (в рассматриваемой модельной задаче совпадают ось Z1 ГПСК и ось Z ГСК) ГПСК имеет программную угловую скорость (1 + у) Vx/R (•у — масштабная ошибка моментыого датчика) и угловую скорость дрейфа е. Обозначим 8VX = Vl— Vx, 8Vy = Vy-Vy кш (7.65), (7.66) получим «**=-§ «V, - Ц 6Vy +167,67, + ajtf + a„ (7.67) 67, - 2 ^ 67* - 18V* - ajfl + ay. (7.68) Кроме того, вычитая из VJR — угловой скорости ГСК вокруг оси Z угловую скорость ГПСК вокруг оси Z1, получим bV V1 * = --/г-ir?-8- (7-69) Модели ошибок примем в соответствии с уравнениями е = «*•= ау = ^ = 0. (7.70) Итак, ИНС имеет 7-мерный вектор ошибок х: ат = Н67« * 8 67, ах ау fll, (7.71) приблизительно удовлетворяющий линейному уравнению х = Ах, где матрица А определяется правыми частями уравнений (7.67) — (7.70) после отбрасывания нелинейных слагаемых, пропорциональных 87*67, и SVX Коэффициенты матрицы А линейно зависят от поступающих из ИНС величин Vx, Vy, аХу a\. Оценка в функции времени компонент вектора х производится по данным .допгглеровского измерителя скорости самолета (ДИСС), информация от которого позволяет найти Wx, Wy — проекции вектора скорости ЛА на оси ГПСК, измеряемые с ошибками I1, Ь2: w*=vx+vy® + i\ wy = vy-vj> + i\ Компоненты у1 и у2 вектора измерений у имеют вид j/i = VI - Wx = bVx - V\b + 67„* + I1, (7.72) y* = Vlv-Wv = 6Vy + VxO | 8VXV + I2. (7.73)
§ 7.9J ИНЕРЦИЛЛЬНО-ДОППЛЕРОВСКАЯ НАВИГАЦИЯ 305 Пренебрегая нелинейными слагаемыми бТ^Ф и — бТ^Д получим, что у = Их + |, где матрица II определяется правыми частями (7.62), (7.63). Считаем, что шумы на выходе ДИСС могут моделироваться белыми шумами. Тогда в моменты измерений ошибки g1, £2 образуют последовательности независимых случайных величин и для оценки векторов xh применим нормированный алгоритм ОРФ Калмана. Таблица 7.5 иллюстрирует эволюцию Таблица 7.5 Г(с) а(0) g(e)c~1 0 10~2 5.10"6 Г(с) а(д) а(е)с-1 600 9-10 -5 З-Ю"7 2400 1,37.10"^ 5,4.10-8 1200 3,3-10-5 7-10-8 3000 1,28-10-5 5,3.10-8 18 00 1,9-10-5 5,5-10-8 1 3600 1,5- Ю--5 4,5-10-8 | с. к. о. ошибок оценки величин Hit), е при условиях Vx'= = 250 м/с, ^ = 0, а* = 0, ay = g, Д = 1с и типовых диагональных элементах нормированной априорной к. м. и к. м. ошибок измерений. Величины а*, ау, •у в этих условиях имели плохую стохастическую наблюдаемость: с. к. о. ошибок их оценки уменьшались очень медленно. При рассмотренном времени рекуррентной фильтрации (3600 с) вторая компонента вектора измерений (г/2) практически не влияла на оценку величин 8VX, О, 8. Для уменьшения требований к производительности БЦВМ используем двухчастотную фильтрацию: компоненты вектора у, образуемые с частотой 1 герц (6 = 1 с), пошлем на вход простейшего цифрового фильтра (7.26); выход фильтра с частотой 1/60 Гц (А = 60 с, /? = 60) подается на вход алгоритма ОРФ. Таблица 7.6 иллюстрирует эволюцию с. к. о. ошибок оценки при а = 0,95 ([} = = 0,05). Несмотря на то, что условие (7.45) не выполнено (р$ =3), с. к. о. ошибок оценки при редкой оптимальной фильтрации не намного больше, чем при частой оптимальной фильтрации. В таблице 7.6 те же дапные при- 20 и. А. Богуславский
3600 3000 2400 1800 1200 600 о w 1 I Л» 00 1 > О О 1 Л 00 1 > о о СО «*н СО^ s^ чн Ю 1 10 ' 00 1 > о о чН ч-Ц со со ю. ю чН Lf^ ift 00 1 > О О "ЧН. ч-Ц СО 00^ см" ю~ ift I 00 1 1 О О чН ч-Н об -i П оо" ч* Г» 1 1 о о ч-Ц ч-| «^ об П со" •чн 1 1 У* Уэ ю о" II 8 1 1 «в» 00 1 > О О чн ю 1 ^ - 1 'чн 1 ift: 00 1 1 О О ■<н -чн ч-Ц СО ТН J Ю 00 1 < о о ift ■ 00 1 о о CSJ сД ю" кв • 00 1 » О О "ЧН *г4 1 Ю^ С0_ со" t>>" ** 1 и ° О "Н ч-« • I ел 1 1 1 «■ч 1 1 1 <£> lo4 О) U" "1 1 II1 1 3600 1 ° ° со см о о со о о см о о со о "о" 1 т г О О [ ч-Н ч-Н CNI ч-^ 1 Cvf 1 ** СО 1 > О О J ч-Н ч-Н СЪ СО 1 со ср О О чгЧ ч-Н чН со 1 •* со со 1 О ч-н 1 * со со 1 1 О О чгч ч-Ч со со Ч о" со со ср О О ч-Н ч-Н СО СП> ч-Н чгН чН .<£> со 1<0 |Ю е Он о 1 eo 4ji 1 ' О О чН чН чА СО ч-Ц 1 ео ео > > О О 1 ч-Н ч-Н Lf^ ч-Н 1 "ЧН О О ч-Н ч-Ц cn" со" м м 1 1 1 1 о о ; ч-н ч-н чгч 1 1 > О О ч-Н ч-Н 1 со" 1 > О О чН чН 00^ !>^ •^ <м" чгЧ ч-Н ,Ф со е
§ 7.9] ИПЕРЦИЛЛЬНО-ДОППЛЕРОВСКАЯ НАВИГАЦИЯ 307 ведены при а = 0,995. В этом случае (7.45) выполнено {р$ = 0,3) и, как следует из таблиц 7.5 и 7.6, точности оценивания при редкой и частой оптимальной фильтрации практически одинаковы. Для уменьшения размерности алгоритмов фильтрации методом § 7.2 будем считать, что алгоритм КОРФ может не оценивать величины 8VX и 8Vy (получаемые от ДИСС величины путевой скорости могут быть отдельно сглажены стационарными фильтрами с компенсацией динамических ошибок [6]), и приведем измерения к виду (7.1). Кроме того, не будем пытаться оценить плохо наблюдаемые величины ах, ау, if. Введем новые фазовые координаты хх и х\ : х\ = 8VX— — Vjft, ж? = 6Vy + 7iO. Заменяя (7.67), (7.68) уравнениями для х\ и xf и дереходя к конечноразностной форме, получим, что система описывается уравнениями вида (4.34), (4.35), в которых Ъх = bq = r]f = y\q = 0, ап{к-\) 1 Vl(k-l)A Я V\(k-i)A R alq (к — 1) gA Vl(k-1)A 0 -Vl(k~l)Af II — aql(k-l) = \-R ° 0 0 aqq (k — l) = R 0 1 вектор xqh составлен из компонент 0(£j, е. Вектор измерений составлен из компонент у\ = x}h -f ll, y\ = Ah + lh- Используя методику § 7.2, найдем 2-мерный алгоритм КОРФ (вместо 4-мерного алгоритма ОРФ Калмана), определяющий кразиотттимальньте оценки величин ftit) и е. В таблице 7.7 приведены переходные процессы соответствующих относительных ошибок оценки. Видно, что ошибки оценки в алгоритме КОРФ уменьшаются несколько медленнее, чем в алгоритме ОРФ Калмана. 20*
ГЛАВА 8 ОПТИМИЗАЦИЯ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ ЛИНЕЙНОЙ СИСТЕМОЙ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ § 8.1. Уравнения и методы оптимизации 1. Пусть в моменты tk, /с = О, ..., N, векторы фазовых координат объекта управления xh удовлетворяют уравнению (3.10) и фиксируются векторы обратной связи ук вида (4.77) (измерения модели 1). В этом случае, как показано в § 4.11, достаточными статистиками Dh векторов хк являются векторы условных м. о. zkl последовательно вычисляемые по формулам алгоритма ОРФ Калмана. Эти векторы порождаются стохастическим уравнением вида (4.101): zh = aft-iZA-i + 6k-iKfc-i + Akeh, (8.1) где eh — последовательность независимых, нормально распределенных случайных векторов с к. м., равной Qk, и Аа = LhQk1- При реализации алгоритма ОРФ Калмана матрицы Lk и Qk последовательно определяются формулами (4.92) и (4.93). При фиксированных векторах ик векторы zk образуют марковскую последовательность, выполнены условия 1, 2 § 1.6, и, следовательно, при риске общего вида (1.4) векторы оптимальных управлений имеют структуру (1.49): u°k = uUzk). (8.2) Рекуррентные уравнения оптимизации можно получить из общих уравнений (1.55) — (1.57). Учтем, что из (4.134) следует xh = zh+8h, где бивектор ошибок оценки с м. о., равным 0, и к. м. Ch, и хт= aNxN + bNuN + r]jv = aNzN + bNuN -Ь aN8N + r\N. Тогда из общих уравнений оптимизации (1.55) — (1.57) и уравнения (8.1) следует, что при оптимизации управления линейной (в разомкнутом состоянии) динамической системой и измерении векторов обратной связи вида 1 на каждом шаге оптимизации решается задача опреде-
§ 8.1] УРАВНЕНИЯ И МЕТОДЫ ОПТИМИЗАЦИИ 309 лепия вектор-функции Uk(z): S°h(z) = min{Sk (z, u)\u<= ОД, (8.3) где Sk (z, u) = M [S°k+1 (akz + bku + Aft+1eA+1)] + + M[©*(* + «Afii)If (8.4) причем k = N — 1, ..., 0 и Sn (z, и) = М [со (ajyz + bNu + ajySjv + tjjv)] + + M[coiv(z + 6jv,w)I. (8.5) Минимальный средний риск S\ описывающий качество оптимального стохастического управления на отрезке [0, Т], определяется формулой 5»^M[5S(z)]. (8.5X) В (8.5i) z — нормально распределенный вектор, имеющий вектор м. о. х0 и к. м., равную LqQ^LI. В уравнениях (8.4), (8.5) осреднение производится по случайным векторам aN6N + r\N, ek+u 8fe, имеющим соответственно к. м. clnCnOn + ^jv, Qh+ъ Ck- Следует отметить, что в (8.4) к. м. случайного вектора Ak+iEh+i равна Lk+1Qk+iLl+1. Но из (4.95) Lk+iQk+iLk+i = dhCk^u + x%k — Сл+i- Поэтому при решении задачи (8.3) в момент tk учитываются не только характеристики точности оценки в этот момент (к. м. Cfe), но и характеристики точности в «будущий» момент tk+i (к. м. Cfc+i). Для применения при оптимизации численных методов стохастического и нелинейного программирования, изложенных в главе 3, надо в (8.5), (8.4) провести замены aN8N + j]N = TN+ivN+i, Afc+1efc+i.'= I\+iz;, 8h — Uhw, где Tk+i = Ak+l(Qk+l)U2, a TN+l, ГЦ — матрицы, являющиеся квадратными корнями из к. м. unCnOn + ^jv, Ck- Векторы vN+u v, w имеют размерности, равные рангам матриц Tjv+i, Qh+i, Щ, которые равны соответственно п, I, и, так как матрицы CN, Qh+u Ch— неособенные. Компоненты этих векторов составлены из независимых, нормально распределенных центрированных случай- пых величии с дисперсиями, равными 1. Тогда задача
310 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 (8.3) практически не будет отличаться от задачи (3.24) главы 3, используемой при оптимизации стохастического управления линейной (в разомкнутом состоянии) динамической системой по полной информации о ее текущих фазовых координатах. Поэтому алгоритмы численной оптимизации при неполной (статистической) информации основываются на методах стохастического и нелинейного программирования и практически не отличаются от рассмотренных в главе 3 алгоритмов численной оптимизации при полной информации о текущих фазовых координатах динамической системы. Как и в главе 3, принципиальная сходимость алгоритмов следует из выпуклости вниз по и функций условных рисков Sk(z, и): Sh (s, и) = М [S°k+1 (ahz + bhu + Tknvj\ + + M[(ok(z + Ukw,u)l (8.6) легко доказываемой применением лемм главы 3, если выпуклы вниз функция (д(хт) и функции (ofc(ar, и) по и. Заметим, что функции потерь cok(x, и) обычно являются квадратичными функциями компонент векторов х пи. В этом случае второе слагаемое в (8.6) определяется явными формулами и замена 8h = Uhw не нужна. Так, например, если (йк(х, и) = xrRkx + urqku, где Rk, дгл—"некоторые матрицы, то М [0)А(z + 6fe, и)] = zTRkz + uTqku + TrCkRk- Первое слагаемое в (8.6) является Z-мерным интегралом, а первое слагаемое в (3.25) — ^-мерный интеграл, где I и и — размерности векторов yh и хк. Так как обычно Кп, то численная оптимизация стохастического управления при неполной (статистической) информации методами нелинейного программирования проводится более просто, чем при полной информации о фазовых координатах. Можно показать, что использование описанного в § 4.4 последовательного алгоритма позволяет свести определение /-мерного интеграла в (8.6) к вычислению I одномерных интегралов. 2. При специальном виде функций потерь (д(хт) и <ofc(#fc, иА) и матриц ah-u bh-i в (8.1) число компонент
§ 8.1] УРАВНЕНИЯ И МЕТОДЫ ОПТИМИЗАЦИИ 311 вектора zk, от которых в соответствии с (8.2) зависит вектор Uk, может быть меньше п. Так, пусть первые /ij компонент вектора xh составляют вектор х\, а остальные п2 компонент вектора xk (n = ni + n2) составляют вектор #1, причем уравнение (4.78) можно представить в виде 4 == 4-i4-i + b^ito-i + Лл-i» (8-7) х\ = 4-i4-i + 4-i4-i + Ьл-1ИЛ-1 + ц1-ъ (8.8) где а\, Ъ\, ч\1, ц1 — матрицы и случайные векторы размерности, следующей из (8.7), (8.8). Кроме того, положим, что со (хт) = со (хт), щ = Щ (х\, и). Первые Hi компонент векторов zh составляют векторы zkl — векторы условных м. о. векторов xk, являющиеся достаточными статистиками этих векторов. Из (8.1), (8.7), (8.8) следует, что векторы zhi порождаются стохастическим уравнением z\ = 0a-i4-i + bl-iUh-г + Лд8А, (8.9) где Л\— матрица, составленная из первых п^ строк матрицы Л&. При фиксированных векторах управлений векторы z\ образуют марковскую последовательность и для последовательности векторов Хъ. выполнены условия 1. 2 § 1.6. Поэтому u0k = u°k{z\). (8.10) Уравпения оптимизации для синтеза векторов и* (zl) получим, если в (8.4), (8.5) заменим z, y\N, ak, bk1 Ak на z1, \\\, al, b\, A\. Векторы 6A следует заменить на 6j, составленные из 7?i первых компонент векторов бА. К. м. случайных векторов а\6^ + 4n, б&, Л^ед расположены в левом верхнем углу матриц ахСхаЪ + T/v, Cky LkQbXL\. 3. Пусть теперь фиксируются векторы обратной связи yh вида (4.162) (измерения модели 2). В этом случае, как показано в § 4.20, векторами достаточных статистик векторов хк являются векторы условных м. о. zh, имеющие структуру, описываемую первым соотношением в формулах (4.181), где матрица Pk1 задана вторым соотношением в формулах (4.165), а векторы zqk последовательно определяются алгоритмом ОРФ вида (4.41), (4.42). Векторы zhi как следует из (4.228), порождаются
312 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ, 8 стохастическим уравнением zh = afc-iz,^! + bft-i^A-x + PkXGkbh, (8.11) в котором еА — последовательность независимых, нормально распределенных случайных векторов, параметры распределения которых, а также выражение для матрицы Gk приведены в формулах (4.227), (4.227t). Векторы оптимальных управлений имеют вид (8.2) и определяются рекуррентными уравнениями оптимизации вида (8.3) — (8.5), в которых матрицы ЛА+1 заменены матрицами РЙА+1. В (8.6)Гл+1 = />ЙА+1(^л+1)1/2. Следует отметить, что при измерениях модели 2 размерность векторов w в (8.6) не больше q = n — l, так как в соответствии с (4.181) матрицы Ск — особенные и имеют ранг, не больший q. 4. Рассмотрим, наконец, ситуацию, в которой ошибки измерений £fc, входящие в выражения (4.77) для векторов обратной связи, зависимы и порождаются дискретным формирующим фильтром (4.198), (4.199). Векторы zh, определяемые алгоритмом ОРФ (4.215) —(4.219) или (4.221), (4.222), являются достаточными статистиками векторов xh, порождаются стохастическим уравнением (4.229) и при фиксированных векторах управлений образуют марковскую последовательность. Поэтому условия 1, 2 § 1.6 выполнены, векторы и\ должны зависеть от zh и уравнения оптимизации по-прежнему имеют вид (8.3) - (8.5). Следует отметить, что во всех рассмотренных ситуациях справедлив сформулированный в § 1.6 общий принцип разделения и общий алгоритм оптимального дискретного стохастического управления делится на алгоритм ОРФ, определяющий векторы zfc, и алгоритм принятия решения, строящий вектор-функции щ (яА). § 8.2. Оптимизация при терминальном управлении При оптимизации по терминальному критерию векторы оптимальных управлений удобно искать в виде функций компонент векторов условных м. о. векторов прогнозируемых фазовых координат x(t), определяемых формулой (3.18). Векторы zh условных м. о. векторов xh
§ 8.2] ОПТИМИЗАЦИЯ ПРИ ТЕРМИНАЛЬНОМ УПРАВЛЕНИИ 313 определяются, как следует из (3.18), соотношением т ifc = Ф (Т, tk) zk+\o (Г, т) F (т) dx, (8.12) где zh — векторы условных м. о. векторов xk, определяемые одним из вариантов алгоритмов ОРФ. Векторы zk могут определяться и непосредственно, без промежуточного определения векторов zk, если алгоритмы ОРФ использовать для оценки вектора фазовых координат хк дискретной системы при векторе измерений т yh =-- Hk~xk+lk=yk + Hh f Ф (th, т) F (т) dv, _ Ч щеНк = НкФ(Ь, П. Из (8.12) и (8.1), (8.11) следует, что векторы zh при фиксированных векторах управлений образуют марковскую последовательность, порождаемую стохастическим уравнением _ zk = zk-i + bh-iuk-i + AhEk, (8.13) где Ък-1 = Ф(Т, th)bh-u bN = bN±_ tN+l = T, в зависимости от модели вектора измерений ЛА = Ф(Г, th)Ah или Лд = = Ф(7\ tk) P^Gk, случайные векторы гк те же, что в (8.1), (8.11). Оптимизация терминального управления определяет вектор-функции ul = ul{zk) (8.14) при решении задачи, аналогичной (3.29): 5J5(ifc) = min {Sh(z + bku) |це%), (8.15) гДе Sk(Z) = M[S°h+l(z + Tk+1v)], (8.16) Sw(£) = M[fi>(z + aw6tf+ Л*)]. (8-17) • Th+1 = Ah+1(Qh+if2.. (8.17,) Если в (8.17) ы(х) — пеквадратичная функция компонент вектора х, то минимизация по и функции SN(z + + bNu) производится методами стохастического или нелинейного программирования и (8.17) целесообразно переписать в виде SN(~z) = M[c»(z + rN+1v)l (8.18) где rv+t — корень квадратный из к, м. asC^aff + Yjy.
314 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 Пусть терминальная функция потерь соЫГ)) зависит лишь от \х (\х<п) первых компонент вектора х(Т) и, следовательно, зависит лишь от вектора р(Г) — вектора, составленного из ji первых компонент вектора х(Т), являющихся конечными фазовыми координатами «усеченной», fx-мерной динамической системы, описываемой дискретным стохастическим уравнением (3.20). Обозначим через z\ векторы условного м. о. векторов pft. Эти векторы составлены из \х первых компонент векторов zh. Из (8.13) видно, что zk порождаются стохастическим уравнением А = 4-i + ?Д-1^а-1 + AjUfc, (8.19) где bl-ъ Aft — матрицы, составленные из и. первых строк матриц 5fc-i, Afe, и при фиксированных uh образуют марковскую последовательность. Поэтому в рассматриваемом случае вектор-функция оптимального управления u°h = u°h(zl) (8.20) определяется при решении задачи S°h(z1) = min [Sh(zi + Ъ\и)|ке%1, (8.21) где Sh (zi) = M [S°h+1 (z* + Tl+1v)], (8.22) Sn (z1) = M ['со (z1 + 6lN + y\h) ], (8.23) it 1 где Ojv, v\n — случайные векторы, составленные из первых компонент случайных векторов aN8N и r\N. Их к. м. расположены в верхних левых углах к. м. а^С^а^ и ^jv- Заметим, что матрицы, обозначаемые в главе 3 через bh, совпадают с матрицами, обозначенными выше через Ъ\. Уравнения (8.21) — (8.23) оптимизации терминального управления при неполной статистической информации о фазовых координатах ничем не отличаются (после замены р на zl) от уравнений (3.29) — (3.31), используемых при оптимизации управления по полной информации. Поэтому при поиске оптимальных вектор-функций Uk (z1) и функций минимальных условных рисков Sh (z1) справедливы выводы и рекомендации по построению алгоритмов оптимизации, полученные в главе 3. Однако задача поиска облегчается тем, что использование последовательного алгоритма позволяет в (8.21) считать 1 = 1, При m = 1 (в (8.21) и — скаляр) логика
§ 8.2] ОПТИМИЗАЦИЯ ПРИ ТЕРМИНАЛЬНОМ УПРАВЛЕНИИ 315 построения оптимального стохастического управления по полной информации, описанная в § 3.8 и определяемая формулами (3.820) — (3.88), без изменений переносится па случай неполной (статистической) информации. Для этого надо в (3.820) — (3.88) заменить р на ъ. Векторы Pi('a), рг(4) естественнее обозначать через zx(Zft), z^ih) с сохранением их определения, прпведенного в § 3.8. При ц = 1 оптимальное терминальное управление определяется формулами (ЗЛЮ), (3.111), в которых величина р заменена на величину z1 — величину условного м. о. (или, что то же самое, величину оптимальной среднеквадратичной оценки) соответствующей фазовой координаты вектора x(t) в момент tk. Рекомендации по численным методикам оптимизации терминального управления и выводы по структуре оптимальных управлений и областей «нечувствительности» при ограничении числа участков управления, при случайном моменте остановки измерений, при учете энергозатрат на управления, полученные в §§ 3.16—3.18 для случая полной информации без изменений, переносятся на случай неполной информации после замены векторов р на векторы zi и учете данного выше определения матрицы It Для назначения областей численной оптимизации Я?к, в которых содержательна задача синтеза оптимального терминального управления при неполной (статистической) информации, необходимо оценивать область достижимости ШОс, s), в которую может попасть при допустимых управлениях удовлетворяющий (8.19) вектор z], если 4 = 0 (s > к) и Ег = 0 (i = 1,..., N). Методика определения областей Щ{к, s) ничем не отличается от описанной в § 3.11. Параллелепипеды &>(к, s), описанпые вокруг областей достижимости °U(k, s), определяются (3.102) при замене pj на (z1)j — /-ю компоненту вектора z\ а в (3.101) должны войти элементы матриц b\. Кроме того, необходимо оценивать область случайных перемещений П(к, s), в которой с заданной вероятностью, не меньшей а? и близкой к 1, окажется вектор 4, если в (8.19) 4 = 0 и и, = 0. Из (8.13) при zft = 0, и, = 0 получим, что 2з = Лм.1ем.1 + ... + Лве3. Поэтому С(&, s) — к. м. случайного вектора za определи-
316 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 ется формулой С (к, s) = Afc+10ft+1A][+1 + ... + AsQsAl (8.24) При измерениях модели 1 и 4я г = 0ПП для к. м. С{к, 5) можно получить компактное выражение. Учтем, что AiftAl = Ф (Г, U) Ь^ТгЦФ (Г, ^)т = = Ф (7\ t<) (Ф (tu ti_i) Ci-хФ (*if ti-!)T - С,) Ф (Г, *<)т. Подставляя в (8.24) при i = /с + 1, ..., 5, получим С(&, 5) = Ф(Г, Ь)СкФ(Г, *А)Т-Ф(7\ ts)CMT, ts)\ (8.25) Пусть о? (/с, 5) (i = l, ..., |х) — первые |л диагональных элементов к. м. С (к, s). Из § 3.12 следует, что параллелепипед 3@(к, s) определяется неравенствами -и(а)о,(й, 5) *£ (z1)i ^ и(а)а,(й, в), (8.26) где _ тг(а) = У2аг(/с, s)d(a), erf (d(a)) = а. Области й?ь определяются неравенствами, аналогичными (3.104). § 8.3. Аналитические решения задачи синтеза стохастического управления Из § 3.13 и 3.17 следует, что простое аналитическое решение задачи оптимального стохастического управления при неполной (статистической) информации существует в двух случаях. 1. Оптимизация одномерного (ц, = 1) стохастического терминального управления при ограничениях па управления IwJ^Yfc и виде функции потерь, описанном в § 3.13. В этом случае из §§ 8.1, 8.2 и 3.13 следует, что оптимальное управление определяется формулой [8] M*(«1) = -(bi)"121signbi1 (8.27) если I z11 <: 11\ | ул. В противном случае u°k(zi) = -yksignz4l (8.28) Здесь z1— оптимальная (по среднеквадратичному критерию) оценка в момент tk той компоненты вектора упрежденных фазовых координат, которая является аргу-
§ 8.3] АНАЛИТИЧЕСКИЕ РЕШЕНИЯ ЗАДАЧИ СИНТЕЗА 317 ментом функции потерь. Величины z1 в моменты th определяются алгоритмом ОРФ той или иной структуры, зависящей от принятой модели измерений. Величина минимального среднего риска *S°: S0=--minM[a{x{T))] (8.29) может быть найдена путем последовательного численного определения функций условных средних рисков S^z1) с помощью квадратурных формул наивысшей алгебраической точности, описанных в главе 2. Примеры применения формул (8.27), (8.28) при синтезе оптимального стохастического самонаведения на цель и телеуправления, а также примеры численного определения функций Skiz1) приведены в [101. 2. Оптимизация стохастического управления при отсутствии ограничений на вектор управления, минимизирующего среднеквадратичный риск вида N S(u0,..., ujv)=M (8.30) XN+iPXN+l +2i(xiPiX+UiqiUi) где матрицы р, р{, qt удовлетворяют условиям р > 0, Pi>0, q{>0. В этом случае из §§ 8.1, 8.2 и 3.17 следует, что оптимальное управление ик {z) определяется формулой и°к (z) = - (bTkAk+1bk,+ qkY1blAk^1akz, (8.31) где матрицы Ак определяются рекуррентным уравнением Ak = al [Ak+1 — Ak+1bk (blAh+1bh + q^blA+i] ah + pk (8.32) при условии AN+i = p. Минимальный условный риск описывается формулой вида (3.161): S°k(z) = z'FAkz+'dkl (8.33) где величины dh определяются рекуррентным уравнением 4 = 4-ы + Тг (4ь+1Вл+1 + РкСк), (8.34) причем dN = Tr (p {aNCNaTN + tyN) + pNCN). (8.35) При измерениях модели 1 Вк = LhQulLl; при измерениях модели 2 Bk = P^GkQu (P^GkY- Матрицы,
318 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 содержащиеся в выражениях для матриц Bk, последовательно вычисляются при расчетах по формулам алгоритма ОРФ той или иной структуры. Минимальный средний риск S0, описывающий качество оптимального стохастического управления, найдем из формулы S° = M [S°0 (z0)] = Tr (Л0М [vSD + < (8.30) где при измерениях модели 1 М [z0zT0] = wl + LQQ0LT0. § 8.4. Задача фактической выставки ЗСК Оптимальное одномерное терминальное управление, определяемое формулами (8.27), (8.28), иногда можно использовать для приближенной оптимизации терминального управления и при |л>1. Так, пусть \х = т (т — размерность вектора управления), в матрицах Ъи диагональные элементы существенно больше остальных элементов и функция потерь о — четная положительная функция каждого из и. аргументов, возрастающая с ростом его модуля (например, о)(р) = |р|2). Тогда общая задача оптимизации приближенно делится на и. отдельных одномерных задач, для решения каждой из которых можно использовать (8.27), (8.28). Подобная ситуация возникает при рассмотрении задачи фактической выставки, в результате решения которой оси ЗСК должны стать параллельны осям БСК. В § 5.2 исследовалась задача математической выставки — задача оптимального оценивания текущих углов рассогласования 6г- и дрейфов et ЗСК относительно БСК. Задача фактической выставки является задачей стохастического терминального управления при |л = 3: по ^q{ih) и Zq l(tk)— оптимальным оценкам величии 6,-(fft) и 8* необходимо построить вектор управления так, чтобы минимизировался терминальный риск 5-М[е1(Г)2 + 02(Г)2 + э3(Г)2], где Т — заданный момент окончания фактической выставки. Вектором управления служит вектор абсолютной угловой скорости ЗСК с компонентами Q]. Из (5.12) видно, что влияние 0j на 6f осуществляется членами вида QjQh и 0aQj. Они существенно меньше ос-
§8.5] ЗАДАЧА МЯГКОЙ ПОСАДКИ 319 повных слагаемых Qi — Qi и ег, так как при правильно выбранном управлении величины 6j, 9ft должны стремиться к нулю. Поэтому при синтезе стохастического управления ВМеСТО (5.12) МОЖНО ПРИНЯТЬ, ЧТО 9i = ^г — ^г — £j, причем величина Q* практически^ постоянна. Тогда упрежденный угол рассогласования Qi(t) и его оптимальная оценка Zg(^)1 имеют вид Qi(t)= Qi(t) + (Т- t)(zi-Qi), 4W = 4 (**) + (T-th) (z3q+i (tky- Q,). В данном случае b£=A и БЦВМ в момент времени tk вырабатывает сигнал оптимального управления и сохраняет его постоянным на интервале времени Д: если \zl(tky\<AQ, й(«*) = -а"14.('л)1; если \z\(tk)x\> Ы&, &\{tk) = -&signz\{tky. Здесь Q — предельная угловая скорость ЗСК. § 8.5. Численный синтез оптимального управления при ft = 2 (модельная задача мягкой посадки) Изложенные в § 3.8 и 3.9 структуру оптимального скалярного стохастического управления и методику численной оптимизации конкретизируем при решении модельной задачи мягкой посадки — последнего участка вертикального спуска ЛА на поверхность планеты при отсутствии атмосферы [11]. Примем, что ускорение гравитации g постоянно; ЛА имеет один дросселируемый реактивный двигатель, ориентируемый по вертикали; сиг- пал дискретной обратной связи Н\ принадлежащий модели измерений 1, поступает от'высотомера, измеряющего в момент th высоту полета // со случайной ошибкой 811, дисперсия которой равна а2: Hl(th)=H(th) + 6H(tk). (8.37) Для обеспечения мягкой посадки в заданный момент Т окончания процесса управления примем, что модули высоты ЛА Н(Т) и скорости изменения высоты V(t) не должны превосходить заданных величин й0 и vQ. Поэтому цель
320 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 терминального управления состоит в максимизации вероятности того, что в момент Т \ШТ)\<К \ti(T)\ = \V(T)\<vQ; соответствующая этой цели терминальная функция потерь, среднее значение которой должно минимизировать оптимальное управление, будет при и. = 2, описанной в § 3.11, характеристической функцией множества, получаемого, если из плоскости изъять точки прямоугольника, вершины которого имеют координаты ±у0, h0 и ±и0, —hQ. Численный синтез оптимального управления (определение линий переключений) проведем считая массу ЛА линейной функцией времени. При реализации же найденного управления используются оптимальные оценки текущих Н и V, найденные в процессе работы дросселируемого двигателя. Поэтому уравнение задачи запишем в виде Vr = lm0(l-at)]-lP-g, #=У, (8.38) где a~PQ/m0Ve; P — тяга двигателя, являющаяся несимметрично ограниченной скалярной величиной управления (0 < Р < Р0); т0 — начальная масса ЛА; Ve — скорость истечения. В соответствии с § 3.3 проведем симметризацию области допустимого управления и для достижения общности рассмотрения и уменьшения числа исходных данных перейдем к безразмерному времени т и безразмерным фазовым координатам, положив т - tT~\ А = (*i+1 - U) Т~\ х1 = Д-1/2Г3 V1^, g0 = Д-1/2Г/2а- V, у = 4" b-1/2T^e-hn^P0. Уравнения задачи (8.37), (8.38) примут вид ii == (1 - pT)"1u + F, х' = х\ yk = x\ + lk, где F = (1 — Рт)-1^ — go, |и|<1» ?==а^ ^ — последовательность случайных независимых безразмерных ошибок измерений, дисперсия которых равна А"1. Будем считать, что для оптимальной оценки фазовых кооординат х1 и х2 по результатам измерений ук используется алгоритм ОРФ, соответствующий модели измерений 1, а величина
§ 8.5] ЗАДАЧА МЯГКОЙ ПОСАДКИ 321 А достаточно мала. В этом случае, как было отмечено в § 4.13, к. м. С —условная к. м. ошибок оценки мало зависит от величины А (конечно, при фиксированной априорной к. м. С0) и определяется в результате решения матричного уравнения (4.116i) при 110 0|| Д0 = 1. r = ollf чг = о22, А = 1 0 н = \\о Решая это уравнение, получим, что с«Дт) — элементы условной к. м. С(т) имеют вид сп (т) = 12 (т + ^й1) D (г)"1, с12 (т) = сп (т) (1 - т) + а (т), *22 (т) - (1 - т)2 сп (т) + 2 (1 - т) а (т) + Ъ (т), где Я (т) = 12т4 + 4т3с2"21 + Шей1 + 12 (ГцСга)"1. а (т) - 6 (т2 + 2ТСЙ1) Z) (т)~\ 6 (т) = 4 (т3 + Зт^й1 + &) D (т)"1, Сц и с22 — априорные дисперсии величии агЧО), #2(0), связанные с Оу и Оя — априорными дисперсиями величин 7(0), Ж0) соотношениями Алгоритм ОРФ последовательно выдает величины zk и 4— оптимальные оценки величин zl(tk), x2(th), а оптимальное управление целесообразно строить в функции z\ и z\ — компонент вектора zh (вектора оптимальных оценок вектора прогнозированных фазовых координат), который связан соотношением (8.12) с составленным из z\ и zk вектором zk. В (8.12) надо положить Т = 1, 4 = ТА И 1 0 1-т 1 F(x)=- 0 Ф(1,т) = Тогда получим Zk = 4 + ФЛ, «Л = (1 — ТЛ) 4 + 4 + фЛ, где Фа ■*o(l-Tft) + -j-ln-rij, фЛ = -^(1-х1)+-Х(1. тА 1-1 1 J—L) 21 И. А. Богуславский
322 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 Оптимальное скалярное управление ul = ul{lll\) (8.39) найдется в результате последовательного решения задачи (8.15) — (8.17), которая в данном случае принимает вид Si (?, ?) = min {Sh (? + Ъ\и, ? + blu) | \u\ < у], (8.40) где Sk (i\ ?) = M [S°k+l (? + fi+1i;f z2 + R+1i;)], (8.41) SN (?, ?) - M [со (? + 6V, ? + (1 - Tiv) 8jr + в&)]. (8.42) Здесь bh^-cr «H 5 , bfi= -Q- A + 1 q- In-: 5—1- В данном случае I = 1 и ГА = Ф(1, Tk)LkQk~«\ Поэтому в (8.35) М [и] = 0, М И - 1 и П = (Лси(т,)+.12Ы)(?А-1/2, R = (Д (1 - тл + А) си (тл) + (1 - Tfc + 2А) с12 Ы + + c22(tk))Qklf\ Qk = Д2сп (Тл) + 2Дс12 (Тл) + с22 (тл) + А"1. В (8.42) 6Jv и 6?v— компоненты вектора, к. м. которого равна С(тл-). Терминальная функция ©(я1, х2) в (8.36) является характеристической функцией области, получаемой, если из плоскости изъять точки прямоугольника Q, определяемого условиями \xl\ <dh \x2\ *^d2, где dt = A-1/2r/2o-f i;0, d2 = A-1/2r/2<r%. (8.43) Оптимальное скалярное управление (8.39), полученное при численном решении задачи (8.40) — (8.42), максимизирует вероятность попадания #41) и х2(1) в прямоугольник Q. Это управление, как следует из (3.86) — (3.88), описывается следующими формулами: если Т2 №У + (Ь\Г] > (it - Х\У+ {11 - Xl)\ (8.44)
§ 8.5] ЗАДАЧА МЯГКОЙ ПОСАДКИ 323 то оптимальное управление линейно: «2(4,4) = = - [(S - **) Ч + (3 - Ц) Ы] №У + (IDT1'*; (8.45) если условие (8.44) не выполнено, то оптимальное управление достигает ограничения и u°k (zl 4) = - У sign [(й - 4) Й + (3 - ЛИ) 8]- (8.46) В (8.44) — (8.46) величины А*, А* — функции z\, z\ и являются компонентами вектора А*. Из (8.39) видно, что если zh = Xft, то w° (zft) = 0. Вектор Xfe лежит на прямой &к — прямой, проведенной через конец вектора zk параллельно вектору bhl и доставляет минимум функции Sh(z\ z2) в точках, принадлежащих ^ft. Выбранная терминальная функция потерь ы(х\ х2) — невыпуклая. Поэтому, вообще говоря, функции Sk(z\ z2) — невыпуклые. Однако, как показывает расчет, линии уровня этих функций (линии, на которых Sh(z\ z2) = const) — вложенные друг в друга выпуклые овалы, не содержащие отрезков прямых. Поэтому прямая &к касается соответствующего овала в единственной точке %кш Так как вектор 1к с компонентами 1\ — — ab\, 1\ = аЬ\ (а — произвольное число) перпендикулярен вектору Ьк, то прямые 9>к в параметрической форме, записываемые уравнением г = 1к + Ъки, (8.47) являются однопараметрическим семейством параметра а и покрывают плоскость <§Г2. Так как каждой прямой &к соответствует единственный вектор ЯА, то числа А,£, К\ — функции ос: Xi = - аЙ + ИМ»), *л = а$ + Ь2ил(а). (8.48) Функция ик(а) определяется при решении для разных величин а задачи Sk (- all + l\uh (ос), aVk + b\uh (ос)) = = min {фь (ос, и) | и е= ^J, (8.49) где Щ (а, и) = Sk (- аЫ + 6jM, all + Ъ\и). (8.50) Уравнения (8.48) являются параметрическими уравнениями линии в плоскости z1, z2, на которой оптимальное 21*
324 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 управление равно нулю. Эту линию условно назовем «линией переключения» при данном К. При заданном векторе zk соответствующий ему вектор lh найдем из очевидного равенства h = Zfe Поэтому "4+%#Ы (8.51) i «SI ИЛИ * = 4т\*1-{^Щ- (8-52) Подставляя (8.52) или (8.51) в (8.48), получим искомые функции л1(4, zl) и %1 (4< zl)- Пусть на предшествующем шаге оптимизации определена и занесена в память ЦВМ функция 5£+1 (г1, z2). При заданной величине а функция фЛ(ос, и) в (8.50) может быть найдена из (8.41) по одномерной квадратурной формуле наивысшей алгебраической точности. Поэтому решение задачи (8.49) получим методом организованного перебора (например, методом «золотого сечения») или градиентным методом. В результате для разных а может быть найдена и занесена в память ЦВМ функция uh(a), входящая в (8.48). При этом 0^|а|^а°, величина а& определяется численно при последовательном увеличении loci из условия: на прямых ^2, соответствующих ось или — ос°, величины срк(а и) при a= ± ос° практически не меняются в функции и, и, следовательно, ф*(ос, и) ~ 1. Это означает, что во всех точках zh, не лежащих между прямыми ^2, S° (zk) ~ 1. Иначе: с вероятностью, близкой к 1, управлением на интервале [тЛ, 1] невозможно перевести в прямоугольник, определяющий функцию потерь, точку, у которой вектор оптимальных оценок упрежденных фазовых координат не лежит между прямыми ^°. Определение величин л^, л! функциями z\, zl завершает численный синтез оптимального управления Uh(zl, при данном к. «Заготовка» для следующего шага оптимизации — оптимизации управления в момент rk~t
§ 8.5] ЗАДАЧА МЯГКОЙ ПОСАДКИ 325 состоит в определении из соотношения S°h (?, ?) = Sh(? + blu% (?, ?), ? + b\ul(?, ?)) (8.53) и (8.41) и занесении в память ЦВМ величин минимальных условпых рисков Si {z , z ) для различных векторов z, лежащих внутри области <3?fe, в которой содержательна задача синтеза. Из § 3.14 следует, что при используемой терминальной функции потерь область 8?k является прямоугольником, определяемым (3.108), если р? заменить на Т (t= 1, 2). В данном случае в (3.108) величины е{(к, к+1) (область достижимости при управлении на интервале (xfe, 1] является прямоугольником, координаты вершин которого ±е{(к, N+1), е2(к, N+1), ±е,(к, N+1), -ег{к, N+D) определяются формулами ег{к, N + l) = (pl + g0(l- тл), М*,лг + 1) = фХ + -£(1-тХ), где фл, фл приведены ранее; величины о\ (к, N +1) (область возможных случайных перемещений на интервале (tfe, 1] аппроксимируется прямоугольником, координаты вершин ±n(a)oi(k, N+1), п(а)о2(к, N+1); ±п(а)в{Х Х(&, N+1), -п(а)о2(к, ЛГ + D) которого (из (8.26)) при £ = 1, 2 являются диагональными элементами матрицы С(к, N), если в (8.26) положить s = N, Т=1, ^ = тЛ, £в = т*. Матрица Ф(1, тЛ) и с*,(тЛ) — элементы матрицы Ch были приведены выше. Далее, отношения величин z1, ? к половинам длин соответствующих сторон прямоугольника <%К обозначаем через z1, z2. В этих координатах область <9?А — квадрат с вершинами ±1, 1, ±1, —1. Как уже отмечалось, область 9£ъ определяется формулой (3.108) с «запасом». В рассматриваемом случае это проявляетсй в том, что определять 5*(У, z2) из (8.53), (8.41) и заносить в память ЦВМ надо лишь для точек z, принадлежащих области SS\, полученной пересечением области %въ и области между прямыми &\. В остальных точках области 8Въ S\ (z1, z2) ~ 1. Процесс оптимизации начинается с решения задачи (8.49) при k = N для различных ос. Задача осложняется тем, что вычисление по (8.50) для различных величин и функции ф*(а, и) требует, как следует из вида функции
326 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 (dU1, х2) и из (8.42), вычисления двумерных интегралов, верхний и нижний пределы которых конечны. Эти вычисления проводятся по двумерным квадратурным формулам Гаусса. Для векторов z, лежащих в области <%\, тем же способом вычисляются значения функции S% (?, ?) = SN (? + blNu°N (?, ?), ? + b%u% (?, ?)) й заносятся в память ЦВМ. Для k<N задача синтеза облегчается, так как требует вычисления лишь одномерных интегралов. Численная реализация синтеза проводилась при А = = 0,05, р = 0f18, f = 1,3-lQ5, go = 3,3-10\ dt = 74, d2 = а) . 6) Рис. 8.1. является поверхностью узкой щели, прорезанной в прямоугольном параллелепипеде, у которого высота равна 1, а длины горизонтальных ребер равны 2. Высота «дна» щели 5&(0, 0) = 0,30. При J),2< Ъ < 0,8 (рис. 8.1, б) линии уровня функций Skyz1, z2) для разных к мало отличаются друг от друга. При этом ширина «щели», соответствующая величинам S^yz1, z ) < 1, значительно расширяется. Однако «склоны» щели остаются крутыми, так что основная ее поверхность занята «дном» с высо-
§ 8.5J ЗАДАЧА МЯГКОЙ ПОСАДКИ 327 той S°(0, 0) = 0,35. На рис. 8.2 приведены линии уровня (см^рис. 8.2, а) и два сечения поверхности функции Slyz1, z2) плоскостями z2 = zi (см. рис. 8.2, б) и z2 = = -z1 (рис. 8.2, в). На рис. 8.3 для разных Tfe представлены линии переключения оптимального управления. Как видно, эти линии Рис. 8.2. L_ —L. Рис. 8.3. симметричны относительно начала координат и их концы достаточно далеки (особенно при больших хк) от границ квадратов <3?&. Это вызвано тем, что для значительной области точек этих квадратов SjKz1, z2),= 1 при любом управлении.
328 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 При вычислениях по квадратурным формулам наибольшей алгебраической точности порядок используемых полиномов Эрмита варьировался в пределах 5—9. Число узлов сетки, покрывающей прямоугольники S?ft, варьировалось в пределах 126—451. § 8.6. Минимизация средних энергозатрат при неполной информации Рассмотрим при неполной информации разобранную в § 3.16 задачу синтеза по полной информации оптимального терминального управления, ответственного за достижение минимума средних энергозатрат при условии, что вектор последнего управления uN, на который не наложено ограничений, минимизирует среднюю величину терминальной функции потерь со(х), являющейся четной, выпуклой вниз положительной функцией первых \х компонент вектора xk. Решение задачи совпадает с изложенным в § 3.16, если во всех формулах § 3.16 заменить векторы рь и матрицы bk, Th+i на определенные в § 8.2 векторы z\ и матрицы b£, Гь+1. При этом, конечно, как и в § 3.16, предполагается, что |л = т и матрицы ^ — неособенные. Так, из (3.143) — (3.145) u%(z*) = -(bhY1*1 (8.54) и ик (z1) при к = N определяется при решении задачи Wl (z1) = min [Wk (z1 + Ъ\и) | и е ag, (8.55) где Wk (z1) = M [WUi(z1 + Т\+1и)] + \u\. (8.56) Если Fk(z*) = M[Wl+l(z* + rJi+1v)), то граница области Qh векторов z\ для которых Щ (z1) = = 0m (Qh — область «нечувствительности» управления), определяется условием И №£ 1 = 1. (8-57) где F\ — градиент функции Fh. При малых размерах область Qk имеет форму [х-мер- ного эллипсоида. Нетрудно показать, учитывая зависимость матриц 1\ от Qk и равенство Fh(0) = О, что при
§ 8.6] МИНИМИЗАЦИЯ СРЕДНИХ ЭНЕРГОЗАТРАТ 329 больших ошибках измерений вектора Hk+ixk+i область Qfe стягивается в точку. Это соответствует следующим представлениям: если заранее известно, что в результате измерений в момент th+l точность оценок вектора рА+4 практически не улучшится, то незачем откладывать управление до момента th+i. Из (3.153) следует, что векторы u^z1) (к < N) определяются из [х скалярных уравнений «* = - I ul I (blYFl (zi + ЬМ). (8.58) Из (8.57), (8.58), учитывая нечетность функции F\(z1)r получим, что при одномерном управлении (jut = 1) оптимальное управление при к< N определится зависимостями и2И;=0 при \z1\<Kk; (8.59) < (z1) = -(zl- Kk sign z1) (bl)-1 при | z11 > Xh. (8.60) Здесь 1к — корень уравнения - Fl(x) = (ft)-1 (8.60,) при x > 0, причем F\ (x) = (Гй+1)-гМ [Wl+1 (x + tk+iv) v]. Кроме того, из (8.55), (8.56) и (8.59), (8.60) получим (к<Ю: при|z*|<Xh Wl(z1) = М \wl+}(z* + TUiv)], при | г11 > Хн W°h (z1) = M [ Wi+i V* sign z» + ГЛ+1г;)] + + |(zi-^signz1)(^)-1|. (8.61) Если к = iV, то ^(z1) = |(^)"V|. Первое слагаемое в правой части (8.61) от z1 не зависит. Поэтому при последовательном численном определении величин hh из (8.60i) вычисляются интегралы в конечных пределах с помощью квадратурной формулы Гаусса [12]. Рассмотрим пример. Пусть динамическая система и измерения модели 1 при 0 < т < rN < 1 описываются
330 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 уравнениями i1 = 2 (1 - г)"1*1, х* = х\ у* = *2-i+ 5*, (8.62) где М [ll] =-- А-1, А = t*+i — тл. После перехода (аналогично § 8.4) к безразмерным координатам и времени первые два из уравнений (8.62) описывают движение ЛА относительно цели в предположении, что дальность между ними линейно зависит от времени; величины xi и хг пропорциональны соответственно угловой скорости линии визирования (линии ЛА — цель) и углу наклона этой линии к неподвижному началу отсчета. Этот угол измеря- Таблица 8.1 к т=к \n=7 р=10 |л=1б k р=4 \n=i hv=io U=i6 1 4407 6126 6910 8066 8 1,9 10,1 2 11,5 68,7 157,1 406,7 9 0,7 7 10 0 1 5 1 3 0,99 17,2 45,5 126,4 ll 3,5 4 0 6,4 19,9 60,7 12 2,5 5 2,5 10 35,6 13 1,7 6 0,7 1 3,5 1 22,1 1 14 1 15 0,6 7 0 3 14,7 16 1 ° ется в дискретные моменты времени с ошибками, дисперсия которых пропорциональна А"1. В моменты управления 0, т1т ..., tn величина я1 скачком изменяется импульсами большой тяги двигателя, направленными нормально к линии визирования. Ответственная за точность управления терминальная функция потерь зависит от пропорциональной промаху ЛА относительно цели величины р(т) = (1 — т)2#Чт) в момент xN окончания процесса управления.
§ 8.6] МИНИМИЗАЦИЯ СРЕДНИХ ЭНЕРГОЗАТРАТ 331 Считая величину Д малой, из уравнения (4.116t) получим, что о2(т) — дисперсия ошибок оценки величины р(т) описывается формулой «2 (т) = ( с^1 + х) (1 - т) [ ей1 (1 - т) (с,? + т) + +с^1 (2т - т2) + 2е£ (1 - т) In (1 - т) + т2 - -(1-т)1п2(1-т)]-\ где сп и с22 — априорные дисперсии величин яЧО), я2(0). Кроме того, Ъ\ = 1 - тк и Ц+2 - a2 (Tfc) - a2(Tfe+i). В таблице 8.1 по изложенной выше методике для различных величин N в функции к приведены величины зоны «нечувствительности» Xh, рассчитанные при ^й1 = 0,56- •«Г7, ^=0,12.«Г6, т* = 0,9, Л = 0,9(ЛГ — I)"1. Как видно, с увеличением к величина Xk быстро падает. Это объясняется тем, что с ростом т вследствие накопления wfw W ^ W0 *<• J I I I * 8 12 N Рис. 8.4. статистической информации быстро уменьшается разность ГЛ+1 == о2(тк) — a2(xfc+i), будущая (для момента xj информация незначительно увеличивает точность оценивания и величина зоны нечувствительности делается малой. Альтернативой оптимальному управлению с зоной «нечувствительности» (8.59), (8.60), учитывающему текущую и будущую точность оценки, может служить управление вида М*1) = - (&J)"1*1, (8.63) которое в каждый момент тЛ принимает оценку zi за фактическую фазовую координату p(xj и импульсом управления сводит ее к нулю. При этом, конечно, точность наведения останется той же, что и при оптималь-
332 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ ГГЛ. 8 ном управлении, так как в момент tn оба управления одинаковы. Однако средние энергозатраты будут меньшими при оптимальном управлении. Это иллюстрирует рис. 8.4, на котором в функции N приведены средние энергозатраты при оптимальном управлении {W0) и при управлении (8.63), рассчитанные при cii1 = 0,56* 10"5, ^ = 0,12.10"4. § 8.7. Качество стохастического управления при ошибках априорных статистических характеристик 1. Рассмотрим влияние на качество стохастического управления ошибок статистических характеристик вектора начальных условий, случайных возмущений, ошибок измерений модели 1. Из-за этих ошибок в формулах (4.91) —(4.95) алгоритма ОРФ используются неправильные матрицы Ч^, Rk, Vh, Ch и неправильный вектор х0, вследствие чего алгоритм порождает неправильные векторы условных м. о. Хк и неправильные условные к. м. Сл. Вектор-функции стохастического управления uh(z) определяется при решении на каждом шаге задачи, аналогичной задаче (8.3): Sh(z) = min{Sh(z, и)|ие%), (8.64) где Sh (z, u) = M [Sk;rl (a J + bhu 4- Aftefc+i)] + + M[(o*(F+6ftla)], (8.65) причем к ~ N— 1, ...,0и Sn (z, u) .= M [o) (aNz + Ьяи + aN§N -f tjn)] -f- + M[(oa*(H-6jv, и)]. (8.66) Здесь Ak = LhQb\ M[e*eZ] = &, Найденные вектор-функции uk{zh) будут, вообще говоря, неоптимальны, а функции Sh(zk) не являются условными рисками, если даже вместо векторов zk подставить zh — правильные векторы условных м. о. Заметим, что Uh(zk) = Uk{zk)x если вектор-функции Uh и uk не за-
§ 8.7] ВЛИЯНИЕ ОШИБОК АПРИОРНЫХ ДАННЫХ 333 висят от априорных статистических характеристик (правильных или неправильных) случайных начальных условий, возмущений, ошибок измерений. Именно такой ситуации соответствуют случаи 1 и 2, описанные в § 8.3. Изложим методику, позволяющую рассчитать качество стохастического управления, определяемого вектор-функциями uh(zk). Положим zh = zk+ Aft, где zk — векторы условных м. о. векторов xk1 получаемых при векторах управлений uk(zk). Из (8.1) и (6.15) видно, что векторы zk, Ah порождаются стохастическими уравнениями Zfc+1 = akzk + bkuh(zk + A k) + Afc+iBk+i, где бЛ^^1 Aft —Aft, a I\ определяется (6.17). Так как 8t, 62, ..., 8Л, ...— последовательность независимых случайных векторов, то векторы, составленные из компонент векторов Zft, АЛ, образуют марковскую последовательность. При управлениях uh = uk(zk + A J необходимо найти средний риск S: S = М [со (хт)] + М [соя (xNi uN)] + ... ... + М [щ {Xh, uh)] + М К (х0, и0)]. Учтем, что zk — векторы достаточных статистик векторов xh, марковость последовательности zh, Afe и соотношения р (zN, ANl ..., z0, Д0) = р (зд, Ajv/ziv-i, Ajv-i.) X ... ...xp(zv A^, A0)p(z0, A0), M [со (xT)] = J со (xT) p (zT/zN, Ajv) P (zn, Ajv) dxTdzNdAN, M [со* (xk, uk)\ = J coft (зЛ, иЛ (zA + Aft)) p (xh/zhj Ah) x Xp(z*, АЛ) dxhdzhdAh. Величина S найдется при последовательном определении функций Sk(z, A) (k = N, ..., 0): SN (z, A) = M [со (aNz + bNuN(z + A) + aN8N + x\N)] + + M [a)n (z + 8Nl uN (z + A))], ..., (8.67) Sk (z, A) - M [5fc+1 (**z + bhuh (z + A) + ЛЛ+18Л+1, ffe+1A + + 6Aft+18ft+1)] + M [соЛ (z + бЛ, uh (z + A))], ..., (8.68) S = M [S0 (x0 + A080, (/„ - Л0#0) (*0 - s0) + 6A080)]. (8.69)
334 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 Величина Sk(zh, Ah) является условным риском — условным м. о. величины а}(хт) + (uAxn, zn) + ... + (uk(xh uh)y вычисляемым в предположении, что в момент th векторы z и А стали конкретными реализациями zk, Ak. Условный средний риск Sh(z), вычисляемый в предположении, что в момент tk алгоритм НОРФ построил вектор 2, найдем осреднением по Д случайной величины Sk(z — А, А): Sh(7) = M[Sh(!-A, A)]. (8.70) Вектор А в момент th нормально распределен и имеет вектор м. о. mk и к. м. СА(к), определяемые (6.18) и (6.16) при замене CqA(k) на СА{к). 2. Рассмотрим, какой вид примут уравнения (8.67) — (8.69) при квадратичной функции потерь (средний риск определяется формулой (8.30)) и отсутствии ограничений управления. Из (8.31) следует, что в этом случае uh(z + A) = Gh(z + A), (8.71) где Gh = — (blAh+1bh + qk^blAk+iaki а матрицы Ak определяются рекуррентным уравнением (8.32). Из (8.67) найдем, что функция SN(z, А) имеет вид SN(z, A) = zTANz + 2zTBNA + ATDNA + eNl (8.72) где eN = dN и положено BN = (aN + bjvG]v)Tpb]vGjv + GNqNGN, (8.73) DN = (bNGN)TpbNGN + GTNqNGN. (8.74) Допустим, что Sh+i(z, A) = zTAh+iz + 2zTBk+iA + ATDk+iA + ek+i. Из (8.68) найдем, что Sk(z, A) = zTAkz + 2zTBkA + ATDhA + eh, (8.75) где Bu — (a>k + bkGkfAk+ibifik + (a>h + bkGk)TBk+1Tk+1 + + GlqhGh9 (8.76) Dh = (bkbk)TAk+1bkGk + (bftGft)T5ft+iffc+1 + Tl+lDk+1 Tk+i + + GlqkGk, (8.77) eh = dk + 64, (8.78) Mk = Tr (5fc+iLft+16Afc+1 + Db+Mk+iQk+Ml+J. (8.79)
§ 8.8] ^ СИНТЕЗ ДУАЛЬНОГО УПРАВЛЕНИЯ 335 Рассуждая по индукции и учитывая (8.72), получим, что при всех к функция Sk(z, Д) является квадратичной функцией от z и Д, матрицы которой определяются рекуррентными формулами (8.76) —(8.79) и начальными условиями (8.73), (8.74). Заметим, что (8.75) можно записать и в таком виде: Sh (г, Д) = S°h (z) + 2Л?ЙД + ATZ>ftA + 8dk, где «Sft (z) — минимальный условный риск, определяемый (8.33). Далее положим х<> = х0. Тогда в момент tk имеем mh — = М [А] = 0„ и из (8.70), (8.80) найдем Sh (1) = S°h (z) + Tr (Ak - 2Bh + Dk) Сд (ft) + 8dh. Из (8.69) получим выражение для среднего риска S: S = М [S0 (х0 + Л0е0, бЛ0е0)] = = М [(х0 + Л0е0)тЛ (х0 + Л0е0) + 2 (х0 + Лое0)тЯ08у\оео + + е;бл;д0блое0 + d0 + 8d0] = s° + bsr где S" — определяемая выражением (8.36) величина минимального среднего риска, достигаемая, если г = z (априорные статистические характеристики известны точно): 8S = Т г (2B0L08A0 + D08A0Q08Al) + Ч- Величина 8S характеризует ухудшение качества стохастического управления, возникающее из-за отсутствия точных данных об априорных статистических характеристиках. § 8.8. Уравнения синтеза стохастического дуального управления В инженерной практике встречаются задачи синтеза стохастического управления по неполной информации, минимизирующего среднее значение функции потерь в условиях, когда точность оценки (условная к. м. ошибок оценки) текущих фазовых координат зависит от вектора управления. В этих условиях, как подчеркивалось в § 1.7 и 5.4, стохастическое управление дуально, так как выбирает разумный компромисс между стремлениями в каждой реализации уменьшить функцию потерь и увеличить точность
336 УПРАВЛЕНИЕ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ [ГЛ. 8 оценки. Примером задачи синтеза оптимального дуального управления может служить задача согласования координат, сформулированная в § 5.4. Другой пример дает ситуация, встречающаяся в ракетной технике: вектор случайных возмущений динамической системы возникает только тогда, когда не равны нулю компоненты вектора управления. В общем случае для линейных систем задача синтеза дуального управления формулируется следующим образом [9], [55]. Пусть в уравнениях (4.34), (4.35) матрицы аи(к — 1), alq(k — 1), aql(k — 1), aqq(k — 1) и случайные векторы r\it ft-i, цч> k-i зависят от вектора управления юА_4, а векторы uk являются некоторыми функциями зафиксированных векторов обратной связи у0, ...., Ук- Так как различные варианты описания динамических систем и моделей векторов измерений являются частным случаем уравнений (4.34), (4.35), то, например, при измерениях модели 1 равенства (4.77), (4.78) примут вид yh = Hk{uh-i)xk + JuK-i), xk = ak-i (Bfc-Osfc-i + bk-iBfc-i + Tjk_i (в*-!). Вектор zqh и матрица Cqk, получаемые при последовательном расчете по формулам (4.41), (4.42) алгоритма ОРФ, являются параметрами условного нормального распределения вектора xqk. При этом, конечно, матрица Cqh — функция не только к, но и векторов у0, ..., yh-i. Поэтому Dh — вектор достаточных статистик векторов xih, xqk (составленный ранее в соответствии с (4.43) из компонент векторов yh и zqk) теперь должен быть составлен из компонент векторов yk, zqk и элементов матрицы Cqh. Потребуем, чтобы было выполнено условие (4.524) — вектор управления ик должен быть функцией yh, zqh, Cqk. Тогда последовательность векторов Dh — марковская и описывается стохастическим уравнением вида (4.51), в котором векторы Dh и Dk-i заменены на векторы, составленные из ук, zqh и yh-u zQt ft_i и детерминированные уравнением (4.42). Формулами (4.38)—(4.40) правая часть (4.42) явно выражена через матрицу CQt л_ь В стохастическом уравнении вида (4.51) матрицы a]Ui, GhnQh— к. м. случайного вектора гк зависят от uh-i и, следовательно, зависят от z/ft-i, zqt k-u Cq> k-i. Марковость последовательности векторов Dk нетрудно проверить, используя § 4.7 и 4.8. Условная к. м. Cqh зависит от конкретной реализации,
§ 8.8] СИНТЕЗ ДУАЛЬНОГО УПРАВЛЕНИЯ 337 и, следовательно, существует лишь апостериорная точность оценки вектора фазовых координат. При измерениях модели 1 вектор Dk составлен из компонент вектора zk, элементов к. м. Ск и вместо (4.101±) uk=-uk(zk, Cft), (8.80) причем вместо (4.101) марковская последовательность достаточных статистик порождается уравнениями zk = ак^ (щ-т) zfe_x + h-iiik-г + Ak (ик^г) eft, (8.81) Ск = Ck (ик.г) - Lh (ик.г) Qb1 (ик-г) LI (и^О, (8.82) где C(uk-i), Lk(uh-i), Qh(uk-i) определяются (4.91) — (4.93), если ah-u ?А-1? Hk, Rk, Vh заменить на ак-{(ик-^, 4rfe_1(iife_1), ЯА(ил-1), Rkiih-i), Vkiih-i) и учесть, что uk-i = uh-\(zh-i, Ch-i). К. м. случайного вектора гк равна Qh(u>k-i). При выполнении (8.80) и фиксированных zk-u Ck-i и Zi-U Ci-i векторы гк и е* независимы, что обеспечивает марковость последовательности Dh. Из общих уравнений (1.55) — (1.57) и (8.81), (8.82) следует, что с целью минимизации среднего значения функции потерь общего вида на каждом шаге оптимизации дуального управления решается задача определения и* (*, C):S°h (z,C) = min {Sh {z,C,u) \ и e= %}, где Sh (z, C, u) = M [S°h+1 (ah (u) + bku + + Ak+1 (C, u) efe+1 (С, и), Cft+1 (C, u))] + M [cofc(z+efc(C), и)], M[efc+1(C, и)гк+1(С, и)т] =&+1(С, и), М[вл(С), 8Л(С)Т] = С, Cft+1 (С, и) - Ck+1 (С, и) - L*+1(C, и) QkUC, u)Lk+1(C, u)\ Ch+1 (C, u) = ak (u) Cak (uf + Чк (и), Lh+1 (C, u) = Ck+1 (С, и) Щ+1 (u) + Vh+1 (и), Qk+± (С, и) = Ял+1 (и) Cfe+1 (С, и) Нк+1 (и)т + + Нк+1 (и) Vk+1 (и)т + Vk+X (и) Нк+1 (и)т + Вк+1 (и), Ак+1 (С, и) = Lk+1 (С, и) (?/Г+1 (С, и). При этом S'tv (z, С, г/) = М [со (aN (и) z + bNu + aN (и) 8N (С)л + + T|N (и))] + М [odjv (z + бя (С), и)], где М [6* (С), 6* (С)т] = С, М hiv (и) m (uy] = Tn (и). 22 и. А. Богуславский
ГЛАВА 9 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ § 9.1. Задача нелинейной фильтрации В задачах главы 4 при нормальных распределениях первичных случайных футоров (начального вектора фазовых координат х0, векторов ошибок измерений .|fe, векторов случайных возмущепий цк) условное (после фиксации векторов ук, 1д_1, ..., уи у0) распределение вектора текущих фазовых координат хк было нормальным, и тогда основной его параметр — вектор условного м. о. zk давал оценку вектора xh, оптимальную по среднеквадратичному критерию. Основная особенность алгоритмов главы 4, являющихся той или иной разновидностью алгоритмов ОРФ Калма- иа,— линейная зависимость вектора оценки zh от вектора yh — вектора измерений в момент tk. При этом от остальных измерений — векторов ук-и Уи-2, ... вектор ък в случаях, описанных в § 4.6, мог зависеть нелинейно. Следует отметить, что при ненормальных распределениях первичных случайных факторов, статистические характеристики которых заданы лишь векторами м. о. и к. м., векторы zh4 определяемые алгоритмами ОРФ Калмана, конечно, не являются векторами условных м. о., но служат векторами оценок, линейно зависящих от результатов всех измерений и оптимальных по среднеквадратичному критерию па этом классе оценок. Задачами нелинейной фильтрации можно считать задачи оценивания, в которых при нормальных распределениях первичных случайных факторов условные распределения векторов хк не являются нормальными. Задачи нелинейной фильтрации возникают, если динамическая система описывается нелинейными дифференциальными уравнениями, если векторы ук иелипейно зависят от векторов хк, если статистические характеристики первичных случайных факторов зависят от неизвестных параметров, которые можпо включить в число фазовых координат некоторой расширенной динамической системы, и т. д.
§ 9.2] АЛГОРИТМЫ НЛРФ В НОРМАЛЬНОМ ПРИБЛИЖЕНИИ 339 Ниже предполагается, что решение задачи нелинейной рекуррентной фильтрации (НЛРФ) должно с той или иной степенью приближения дать векторы условных м. о. векторов фазовых координат. Поэтому излагаемые рекуррентные алгоритмы дают приближенное решение задачи минимизации среднеквадратичной ошибки оценки. Задачи решаются в нормальном приближении — при предположении, что нормальным является заведомо ненормальное условное распределение, и в ненормальном приближении — при аппроксимации ненормального условного распределения некоторым другим ненормальным условным распределением, центральные моменты которого определяются при использовании «гипотезы урезания». Степень приближения в обоих случаях оценить не удается, как и не удается исследовать сходимость упомянутых приближенных алгоритмов нелинейной фильтрации при увеличении числа измерений или интервалов между измерениями. Поэтому основным инструментом апробации адгоритмов нелинейной фильтрации служит эксперимент на ЦВМ, когда сравниваются выходы математической модели динамической системы и выходы алгоритмов. Исключение составляет излагаемый в § 9.10 адаптивный конечнозначный алгоритм, точно определяющий ненормальные условные плотности вероятностей и векторы условных м. о. Ниже не рассматриваются алгоритмы нелинейной фильтрации, основанные на использовании метода максимума апостериорной плотности вероятности (метод МАВ [44], [45]). При нормальных распределениях ошибок измерений и случайных возмущений методы МАВ являются той или иной разновидностью метода наименьших квадратов и требуют использования специальных итерационных алгоритмов минимизации квадратичных форм от компонент векторов невязок. Методы МАВ очень эффективны, но, вообще говоря, с трудом представляются в виде рекуррентных формул, что осложняет, их реализацию в программах БЦВМ. § 9.2. Алгоритмы НЛРФ в нормальном приближении 1. В § 2.12 статистические характеристики (вектор м. о. и к. м.) фазовых координат нелинейной стохастической системы определялись в нормальном приближении. Естественно эти характеристики после измерений тоже определять в нормальном приближении, считая нормаль- 22*
340 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 ными априорную и апостериорную плотности вероятностей фазовых координат [10]. Такой подход является первым шагом на трудном пути разработки эффективных алгоритмов НЛРФ. Рассмотрим общую схему построения алгоритмов НЛРФ в нормальном приближении. Модель динамической системы описывается нелинейным уравнением вида (2.107) (или (2.106), или (2.137)) и в моменты tk фиксируются векторы yk: yh = Hk(xk)+%k, (9.1) где Hk(xk) — заданная вектор-функция соответствующего числа переменных размерности 1; |fc — последовательность независимых случайных векторов с заданными статистическими характеристиками: М [Ikl ='0» М [lull] = Rk- Пусть в момент th-i известны вектор zA_i и матрица Ch-U которые мы считаем соответственно вектором условного (после фиксации векторов у0, ..., yk-i) м. о. вектора xh-i и условной к. м. этого вектора. Приближенно найдем xk и Ск — априорные (до фиксации вектора yh) вектор м. о. и к. м. вектора xk. Для этого проинтегрируем от th-i до tk при начальных условиях x(th~i) = zA_i и C(th-i) = Cfc_i уравнения (2.126), (2.127) (или (2.138), (2.139)), которые описывают эволюцию статистических характеристик вектора в нормальном приближении. Принимаем Xk = x(th), Ch = C(tk). Далее приближенно считаем нормальным совместное априорное (до фиксации yh) распределение векторов ук и xh и определяем его недостающие параметры Ук = М[ук/у0, ...,yk-i] = = М [Hk (хк)/у0, ..., yh-i] = Ук (*а, Ск), Qk=^M [(yk — yh) (ун — УкУ/уо, • • •, Ук-i] = сНк + Rk, где Сык = М [(Hh(xk) — Ук) (Hh(xh) — Ук)т/Уо> • > Ук-i] = = Снк(хк, С к), Ьк = М [(xh — xh) (Ук — УкУ/Уо* • • •»Ул-i] = = М [(xk — xk) Hh (хк)/у0, .. .л Ук-х\ = Lk (xh, Chy
§ 9.2] АЛГОРИТМЫ НЛРФ В НОРМАЛЬНОМ ПРЙЕЛИЖЕНИИ 341 Матрицу Lh можно получить по формуле, аналогичной (2.125): = е (аУк(*»сн)\\ Часто можно допустить, что компоненты вектора xk — xk малы, разложить Hh(xh) по степеням этих компонент и ограничиться конечным числом членов. Тогда, используя известные формулы для центральных моментов нормального распределения, легко выразить yh, Qk, Lh че- рез компоненты вектора xk и элементы матрицы Ck. Так, если Нк(хк) ~ Hh(xh) + Hhi( Хк) \Zk xh)i (9.2) где Hhi — матрица частных производных компонент вектора Hk по компонентам вектора хк, то получим yh = Hk (xk), Qh = Hhl (xk) ChHhl (xhf + Rk, Lh = CkHlx{xh). (9.2^ Векторы yk, xk и матрицы Qk, Lh, Ck полностью определяют предполагаемое нормальное априорное распределение векторов yk, xk. После фиксации вектора yk вектор zk и матрица Ch — параметры предполагаемого нормального апостериорного распределения вектора xk найдутся, как следует из (4.2), (4.3), по формулам Ч = *н + LkQb1 (yk — yft), (9.3) Ck^Ck-LbQ^Ll (9.4) Вектор zh следует считать вектором оценок, оптимальным по среднеквадратичному критерию. Алгоритм (9.3), (9.4) при использовании (9.2i) называют «линеаризованным дискретным алгоритмом Кал- мана». Если в представление (9.2) включить слагаемые, квадратичные относительно компонент вектора xk — xh, то получим «квадратичный дискретный алгоритм Калмана». В этом случае при / = 1 Hk (xh) ~ Hh (xk) + H\x (xk) (xh — 2h) + + -7£(xh — ^XkfHk2 (Xk) (Xh — *ft),
342 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИЙ [ГЛ. 9 где Hhi{x) и Hh2(x) — соответственно градиент и матрица вторых частных производных функции Hh(x). Тогда в (9.3), (9.4) yh = Hk (xk) + у Tr (ChHk2 (zk)), ( n Qk= Hl\CkHhl + j\ £ HijHst (CijCst + CisCfr + CuCjs) — -Tr(CkHh2(xk))) + Rk, Lk = CkHkl(xh), где H{j и Cij — элементы матриц Hk^xh) и Ck. По причинам, изложенным в § 2.14, матрица Ck может не обладать свойством Ск ^ 0. Поэтому, используя алгоритм извлечения квадратного корня, необходимо «исправить» матрицу Ck, определив ее формулой Ck = Г^Г^, где 1\ — корень квадратный из Ск. Из-за нормального приближения, используемого при вычислении матриц CHk{xkl Ck) и Lh(xh, Ch), свойством неотрицательной определенности может не обладать матрица, блоками которой будут матрицы Qk, Ll, Lk, Си- Тогда формула (9.4) теряет смысл (например, будет Ch < 0). Поэтому с помощью алгоритма извлечения квадратного корня необходимы проверка и исправления этой блочной матрицы. Заметим, что при yk=- Hkxh+\k получаем Qk = = HkCkHl + Rk-> Lk = CkHl. Тогда упомянутая блочная матрица обладает свойством к. м., если только после исправления этим свойством обладает матрица Ch. Другой метод обеспечения Ch ^ 0 состоит в использовании не (2.127), а системы дифференциальных уравнений для матриц 1\, способ получения которой намечен в § 2.14. 2. Рассмотрим описанную в § 7.9 модельную задачу инерциалыю-допплеровской навигации, но без предположения о малости величин &VX, 8Vy (необходимость такого рассмотрения возникает, если ИНС ЛА невысокого качества, а ДИСС включается не сразу после начала полета). В этом случае алгоритм НЛРФ должен учитывать
§ 9.2J АЛГОРИТМЫ НЛГФ В НОРМАЛЬНОМ ПРИБЛИЖЕНИИ 343 нелинейные слагаемые как в уравнениях системы (7.67), (7.68), так и в уравнениях измерений (7.72), (7.73). Обозначим через х{ (i = 1, ..., 7) семь фазовых координат —* ошибок инерциально-допплеровской навигационной системы в соответствии с (7.71). Тогда уравнения эволюции (2.126), (2.127) примут вид х1= ^Г х\ + в>ух2 д- #4 "Г #5 I "^ (^1^4 "Г ^14)» Л _ 4 л л F*~ ^2 — "r Xl Хз W Xl1 Л V^ ХЧ. ^Ч 4 ^Ч • * • # ^Ч >Ч -^ -^ ^3 = ХЪ ~ XG ~ X1 = ^» С = (Л + а Й) С + С (А + а (х))\ (9.6) Здесь А — матрица линейной системы, рассмотренной в § 7.4, а у матрицы а(х) = 11^(^)11 / ч _ 1 ~ / \ __ * ~ / \ — 2 ~ аи W — ТГ^4' aib \х) — "#~ ^i» a4i W ~ "д" #1- Остальные ац(х) — 0. Интегрирование нелинейных уравнений (9.5), (9.6) от tk-i до tk при условиях x(th~i) = zk-u C(*k-i) = Cfc-i определит як и Cfc. Вектор zk и матрицу C7i — условные в нормальном приближении вектор м. о. и к. м. вектора xh найдем из (9.3), (9.4), если положить УК 1 ^ >ч >ч ^ч. у>. <?ft = HkCkHl +Rh + qhHl + Hkql + ph, где Я» ll —Vl(tk) 0 0 0 0 Oil JO Vi(th) 0 1 0 0 o| Qk = \qi)l » = 1,2; / = 1,...,7; A = 11 Poll. *,/ = l,2;
344 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 Pll — #2^44 ~Г #4^22 "Г ^^2^4^24 I С22^44 ~Г с42» ^22 = *^2^Ц ~Г Х1С22 "Г ^^2*^1^21 Т" ^22^11 ^2^ -*4 ^ -*4 — -*4 -*4 — Pl2 = P21 == «^2^14 I ^1*^2^12 I ^4^2^42 I -J- Х}Х2 -\- С14С22 + ^12С24» Хг — компоненты вектора xk; ci} — элементы матрицы Ck. Из рассмотренного примера видно, что нелинейность задачи проявляется в нелинейности уравнений (9.5), (9.6) и влиянии друг на друга компонент вектора х и элементов матрицы С (в линейных задачах оценивания это взаимное влияние отсутствует). Кроме того, матрицы LhmQh равны этим матрицам в алгоритме ОРФ Калмана (правые части (4.92), (4.93) при Vh=* СЫ, сложенным соответственно с матрицами ql и qkH\ + Hhql + pk, которые зависят от xk и Ch и возникают из-за нелинейности вектора измерений. Аналогично вышеизложенному нетрудно выписать алгоритм НЛРФ и в рассмотренной в § 5.2 задаче математической выставки при произвольных величинах углов между ЗСК и БСК. Примеры применения алгоритма НЛРФ в нормальном приближении для оценки параметров движения ЛА по угломерной информации и по информации от радиомаяка приведены в [10]. § 9.3. Адаптивный алгоритм оценивания в нормальном приближении 1. Пусть дана линейпая стохастическая система х = Ах + gh, (9.7) для которой точно неизвестны некоторые элементы матрицы А размерности п X п. В момент th производятся измерения моделей 1 или 2. Алгоритм НЛРФ в нормальном приближении должен по результатам измерений оценить векторы xk и неизвестные элементы матрицы А (задача идентификации). Такой алгоритм НЛРФ называется «адаптивным». Он может сделать процесс оценивания векторов xk более «надежным» по сравнению с оцениванием алгоритмом ОРФ, рассчитанным лишь на учет некоторых поминальных параметров системы.
§ 9.3] АДАПТИВНЫЙ АЛГОРИТМ ОЦЕНИВАНИЯ 345 Матрицу А запишем в виде Л = J±q -j- XqA.-^ -}- . . . -j- XqA-q = J± \Xq)) где A0, ..., Aq — известные матрицы, х\, ..., x\ — компоненты xq — вектора неизвестных параметров. Матрицей А о следует считать матрицу коэффициентов линейной системы, соответствующую априорным м. о. неизвестных параметров, при которых, например, линейная система устойчива. Поэтому далее можно положить равными нулю априорные м. о. величин х\. Если все элементы матрицы А точно неизвестны, то q = п2 и у каждой матрицы At (t = l,..., q) один элемент равен 1, а остальные равны 0. Нелинейная стохастическая система имеет вид х = A (xq) х + gh, xq = 0. Обозначим Спи = М [(х — х) (х — я)Т], Cqq = М [(xq — Xq)(xq —'XqY] , Cnq = M [(x — .г) (xq — Xq)T], Аг(х) = l^re j ji4gS|. Из (2.126), (2.127) найдем, что уравнения эволюции имеют вид X=A(xq)x+A1C1nq+...+ AqCqnq, Xq = 0, (9.8) ("пп — A \Xq) Cnn -f- CnnA \Xq) -j- -4j \X) Cnq -f- CfiqA-^ \X) —f-Cx, ^Пд = -«. ^#g/ Cnq -J- Л^ ^J ^gg> Lqq = 0, (^«^) где Cnq — i-й столбец матрицы Cnq. Эти уравнения численно интегрируются от th-i до th при начальных условиях, получаемых в результате оценки в нормальном приближении векторов х и xq в момент £A_i: #(£ft-i) = £n, fc-i, «£g(£fc-i) = % fe-i, где компоненты векторов zn> h-u zq> h-{ образуют zk-i — вектор оценок (вектор условного м. о. вектора, составленного из компонент векторов x(th-i) и xq)\ Cnn(tk-i) = = СпП\К 1), Cnq(tk-i) = Cnq\k 1), Cqq(tk-i) =6gg(/C 1), где Спп(к — 1), Cnq(k — 1), Cqq(k — 1) — блоки Ch-{ — к. м. ошибок оценки в нормальном приближении. После интегрирования получим параметры априорного распреде-
346 АЛГОРИТМЫ .НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 ления векторов x(tk) и xq: Xnq — X(th), Хдк=Хд(1к), Cnn(/t)= Cnn(^ft), Gng(/C) ==:6ng(£ft), Lqq\k) = (sqq\tkl> Пусть векторы измерений yk имеют вид yh — Hkx(tk) + + |A. Тогда вектор zh, составленный из компонент векторов znh и zqk — оценок векторов x(th) и xq, я матрица Ск, составленная из блоков Спп(к), Cnq(k), Cnq(k)T, Cqq(k), найдутся из уравнений (9.3), (9.4), где Qh = HhCnn(k)Hl + Rk, Первый шаг алгоритма требует задания априорной к. м. вектора x(tQ) и априорных дисперсий компонент вектора xq. Некоторые коэффициенты А могут быть функциями одних и тех же неизвестных параметров. При учете этих функциональных зависимостей априорная к. м. вектора xq не будет диагональной. При решении задачи идентификации вектора xq обычно считают, что измерения некоторых компонент векторов x(tk) или линейных комбинаций этих компонент производятся без ошибок. В этом случае надо считать, что yh = — Hkx(th). Понижение размерностей векторов и матриц в формулах вида (9.3), (9.4) с (п + q) X 1 и (п + q) X X (n+q) до (n+q — l) XI и (п + q — I) X (п + q - I) осуществляется применением описанного в § 4.16 линей-, ного преобразования. 2. При записи уравнений идентифицируемой системы в виде (9.7) от неизвестных параметров xq, ..., х\ может зависеть и матрица g в (9.7): g — gixq). Уравнения' эволюции легко записываются из (2.126), (2.127) и в этом случае. При этом уравнения эволюции для х и xq (уравнения (9.8)) не изменятся, так как равен нулю вектор g в (2.116). Это сразу следует из формулы (2.117) при замене п на n + q: gha^O лишь для />га, но £# = 0 при / > п. Проиллюстрируем описанную ситуацию на примере идентификации постоянной времени Т инерционного звена 1-го порядка, возмущаемого fe-белым шумом единичной . (9.10) (9.11)
§ 9.3] АДАПТИВНЫЙ АЛГОРИТМ ОЦЕНИВАНИЯ 347 интенсивности: Тх = — х + h, или х = — (А0 + xq)x + (А о + xq)h, где А0 = 1/Г0, xq = 1/T — 1/2Y, Т0 — номинальная величина постоянной времени. Уравнения эволюции имеют вид Уч ****** у-ч ■ х = — (А о + xq)x— clq, xq = 0, си = —2 (Л о + z^cn — 2xc,q + (A0 + zfe_t)2 + ck-lf clq = —(Ao + zk-i)ciq — xch-u cqq = 0. П (9.12) Пусть в моменты tk измеряется точно выход инерционного звена: */ь = я(^)- Начальные условия для интегрирования системы (9.12): cu(th-i) = clq(tk-i) = 0, cqq{tk-i) = cqq(k — 1). В соответствии с (4.2), (4.3) V = \ (th) + LhQh1 (x (th) — х (th)), cqq (к) = cqq (к —I) — LlQb1, где Qk = M [(* (*ft) - * (*fe))2] = cn (th), Lk = M [(x (th) - x(tk))(xg - xq (tk))] = £?lg (fc). На рис. 9.1 в функции числа измерений представлены две реализации случайных процессов относительных ошибок оценки (6(&) = (xq — zqk)/xq), рассчитанные при условиях А = 1с, х(0) = 100, А0 = 1/5, xq = ± 1/10. Из рис. 9.1 вцдно, что, несмотря на большую (порядка ±50%) ошибку в постоянной времени, относительная ошибка ее оценки быстро (через 10—15 измерений) устанавливается на уровне 1—4% от величины xq. В данной реализации оценка является смещенной. 3. Попытаемся построить в нормальном приближении адаптивный алгоритм при неточно известных статистических характеристиках случайных ошибок измерений и случайных ошибок возмущений. Для упрощения формул положим, что yk — скаляры (1= 1) и у и = Hkxk + xqll. Здесь xq — параметр, который точно неизвестен, М [£&] = ~ 0, М [\lhY] = It щ = х (tk) и х == Ах, Между моментами
348 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 измерений уравнения эволюции имеют вид х = Ах, xq = 0, (9.13) С пп === A^s пп ' ^ пп-А » (^nq == лСп?, Gg«j == U. W.14J Вектор zA, составленный из компонент вектора znk и величины zqk — оценок компонент вектора z(£ft) и параметра xq, и матрица Cft, составленная из блоков Спп(к), Cnq(k), Рис. 9.1. Cnq(kY, Cqq{k), найдутся из (9.3), (9.4), если учесть, что yk = Hhxnh и Qk = М [(*/А - ykf] = HkCnn (к) Hi + (xqk)2 + Cqq (к). (9.15) Матрица Lk определяется (9.11). Из (9.4) следует С„д(к) = Спд(*) -Qk'Cnn(ЩHlHkCm(к), (9.16) Cqq (к) = Cqq (к) - Q^Cnq {куН1НкСт (к). (9.17) Вектор х(0) и параметр xq независимы. Поэтому Cnq(0)=^Cni, как видно из (9.14), Спд(1) = 0пц Cqq(i) =*
§9.4] МОМЕНТЫ И СЕМИИНВАРИАНТЫ 349 = Cqq{0). Но из (9.16) при к = 1 найдем, что Сп«(1) = 0ni и Сот(1) = Сте(0). Рассуждая далее по индукции, получим Cnq{k) = Cnq(l) = 0П1, СИ(Л) = Си(0). (9.18) Из (9.3) zgh = xq(0), (9.19) и величина Qk из (9.15) примет вид Л - #*&» (А) #2 + xq (О)2 + Си (0). Алгоритм НЛРФ в этом случае в точности совпадает с алгоритмом ОРФ Калмана, в котором дисперсия шумов принимается равной второму априорному моменту неизвестного параметра xq. Этот параметр алгоритмом НЛРФ в нормальном приближении не оценивается. Аналогичный вывод получается и при попытке идентифицировать параметры, определяющие матрицу g в (9.7). В этом нетрудно убедиться, записав, например, g = g0 + xqgu где xq — неизвестный параметр, и рассмотрев, аналогично вышеизложенному, уравнения эвлоюции и уравнения вида (9.3), (9.4). Тогда получим, что равенства (9.18), (9.19) справедливы и при попытке идентифицировать параметры матрицы g. Итак, рассмотрения в нормальном приближении недостаточно для построения адаптивного алгоритма при неизвестных статистических характеристиках ошибок измерений и случайных возмущений динамической системы. § 9.4. Моменты и семиинварианты В некоторых прикладных ситуациях алгоритм НАРФ в нормальном приближении слишком грубо учитывает специфику нелинейной задачи рекуррентного оценивания (один из примеров такой ситуации рассмотрен в конце § 9.3). Поэтому необходима методика дискретного оценивания в ненормальном приближении, которая бы не использовала предположение о нормальности априорного и апостериорного распределений. Как известно [43], общее распределение случайного вектора х определяется его х. ф.<рШ (2.108), которая в свою очередь определяется своими семиинвариантами, являющимися коэффициентами разложения функции 1пф(Я) в
350 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ - [ГЛ. 9 степенной ряд по степепям компонент вектора Я: Я^ ... ..., Ап. Тогда Ш = 772 i + . . . + 77?п. Величины %(ттгь ..., ттг„), соответствующие 7тг = 1, т = = 2, ..., называются «семиинвариантами 1-го, 2-го, ... порядков». Из (2.109), (9.20) следует, что если распределение нормально, то все семиинварианты, начиная с 3-го, равны нулю. Поэтому величины 3-го, 4-го и т. д. семиинвариантов служат характеристиками степени отклонения данного распределения от нормального. В обозначении п(ти ..., 7тгп) некоторые числа 7тгг- могут быть равны О, что удлиняет запись формул. Поэтому далее используется обозначение х (ir., /rj, fcrft, ...), где 0 < i </ < к < ... Это означает, что для получения семиинварианта х (£г., ]г.ч /*V7i, •••) в формуле (9.20) произведено фактическое дифференцирование по Яг, Я,, Я/{, ... соответственно гг, rhrk, ... раз. Далее используется связь семиинвариантов с центральными моментами: I* (iH, /г,, К, ...) = М[(**- ?)V " ?) V - £*)'*• • •]• >>Ч ,*ч •>> Здесь я7', х\ xh, ... и #7, х\ xh, ... — компоненты векторов х и я = М [я]. Так как |х (Ц, Up Ъг„ .••) = (- 1)" *^ехР'*'<*--* >1 где т = г{ + ^ + rh + ..., и In M [exp i)J (х - я)] = - iXTx+ In ф (Я), (9.21) то, дифференцируя нужное число раз обе части (9.21) по Я„ Я;, Я/г, ... и положив Я! = ... = Яп = 0, получим выражения семиинвариантов через центральные моменты. Если дифференцировать по Я*, Я,-, Я*, ... обе части формулы М [ехр ат (х - х)] =ехр( - iXTx -|- In Ф (Я)) (9.21,) и далее положить Xi = ... = Яп = 0, то получим выраже- ция центральных моментов через семиинварианты.
§ 9.4J МОМЕНТЫ И СЕМИИНВАРИАНТЫ 351 Приведем формулы связи центральных моментов и семиинвариантов по 5-й порядок включительно: с« = [а(*1, h) ==x(*i> U)j cu = ii(i2) = x(i2), (9.22) 1а(*3) = х(г3), [i(fe, /i) = x(i2, /i), (9.23) H(*n /i, /и) =x(i"i, /i, /ft), l^(&i, Л, &i, /i) = x(/b /,, Aj, /,) + CijCja + СцСц -I- c^, (9.24) \i(iu ju A1? Z4, M4) = k(Zj, /i, fti, lu ih) + \i(U, /i, fci)c/u+ + fid't, fti, u^Cji + iitii, lu Ui)cjk+ \x(ju ku h)ciu + + |a(/i, ftlf tti)c« + fi(/i, /i, tti)c<fc+[A(ui, Zt, iii)cfi. (9.25) Формулы связи для остальных центральных моментов и семиинвариантов 4-го и 5-го порядков получим, приравнивая друг другу соответствующие индексы и приводя подобные члены. Например, положив в (9.24) i = j = к = I и в (9.25) i = / = к = I = и, получим P(h) = K(h) + Zcb, (9.26) V.ih) = *(h) + Wp(i3)cii- (9.27) Примем, что для учета нелинейности задачи оценивания достаточно рассматривать эволюцию априорных и условных центральных моментов по 4-й порядок и можно считать равными пулю семиинварианты порядка выше 4-го. Последнее предположение позволяет центральные моменты выше 4-го порядка выразить через центральные моменты 2-го, 3-го, 4-го порядков. Так, положив равпыми нулю семиинварианты 5-го порядка в (9.25), (9.27) и остальных формулах, следующих из (9.25), получим выражения центральных моментов 5-го порядка через центральные моменты низших порядков. Заметим, что предположение о возможности положить равными нулю семиинварианты порядков, больших заданного числа N, часто называют* «гипотезой урезания» [23]. Далее принято N = 4. Приведем используемые в дальнейшем формулы связи центральных моментов V>{hv hp ^rk, ...) и моментов а(Ц, ]гр кГк, ...), где а (*i, /i) — сп = ягх\ а (h) — си = (^г)2>
352 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 + cjkxl + х*И?хк, П (9.28) a (*!, A, *i, *i) - |a (*i, 7i, kv lx) = \x (ilf 7lf Ax) £z + + H (*i» /i» zi) ** + V (*i» ли *i) *' + H (/i. Ai» h) ?' + + CijXkXl + CihXJXl -\- СцХ3Хк + CjkXlXl + + cj^P + >ЫУ^ + х1х^х1. (9.29) Формулы для остальных моментов по 4-й порядок получим, приравнивая друг другу соответствующие индексы и приводя подобные члены. Так, положив в (9.28), (9.29) i = j = к и £ = ] = к = Z, получим сс(*з) - ji(ie) = Зс,«£ + (Р)Д (9.30) а(*4): — |г (*4> = 4|г (<а>ж* + 6с« (Р)а + Й.4- (9.31) Для одной случайной величины далее потребуются формулы, выражающие ^(Ц) ПРИ г< ^ 12 через ^(/Vj) при г,- ^ 4. В этом случае нетрудно получить общую рекуррентную формулу связи центральных моментов и семиинвариантов высших и низших порцдков. Дифференцируя (9.21) по X (X, х, х — скаляры), получим М [ехр iX (х — х)У = М [exp iX {х — х)] я|) (Х)'л где г|> (X) = In M [exp iX (x — х)]. Продифференцируем обе части п раз, используя формулу Лейбница, и получим искомую рекуррентную формулу, положив X = 0: п(п — 1) , , п(?г — 1) (/г — 2) . . п (п — 1) где |ife, иА — центральный момент и семиинвариант к-то порядка одной случайной величины. Учитывая «гипотезу урезания» при N = 4, окончательно получим M^n+i —* ^f^n—1^2 Н J72— М'^-гМ'з i + п(п-Щп -2) ^_з(^_з^), (9,31,)
§ 9.5] ПАРАМЕТРЫ УСЛОВНОГО РАСПРЕДЕЛЕНИЯ 353 § 9.5. Параметры условного распределения в ненормальном приближении Основой методики дискретного оценивания в ненормальном приближении служит приближенное обобщение на ненормальный случай основной леммы 4.1, изложенной в § 4.2. При определении характеристик априорного и условного распределений в ненормальном приближении используется при N = 4 упомянутая выше «гипотеза урезания». Задача ставится следующим образом: даны априорные м. о. и центральные моменты по 4-й порядок распределения вектора, составленного из компонент векторов xi и xq, и вектор Xi зафиксирован; необходимо найти условные (апостериорные) вектор м. о. и центральные моменты по 4-й порядок вектора xq. Из них наибольший интерес представляет z — вектор условного м. о., который служит вектором оптимальной оценки вектора xq по среднеквадратичному критерию в ненормальном приближении. Вначале считаем 1 = 1 (xt — скаляр). Заданы априорные характеристики совместного распределения Xi и вектора xq: *l = M [X^, lc=M [Xq], Q==M [(х^хд2], V = M [(*, - *z) (4-*')], M' (^s? lrtf ]rj, Krh, . . . J = = M [(*, - X,)* (*« - xT (*j - *0'J (** - xk)Tk • • • ], где s + r{ + rj + rk+ ... ^ 4, x\ x\ xh, ..., x\ x\ xk, ... — i-я, j-я, к-я, ... компоненты векторов xq, x, а индекс 0 соответствует величине хи Надо найти характеристики условного распределения вектора xq в виде функции фиксированной величины хг. Z=M [Xq/Xt], Сц = М [(х* - Zl) (Xj - Zj)/Xt], ^(Ц» frp Krk, • • •) = = м [(х* - zT(х> - W (xh - zT .. ./*,]. где r\ + Г3 + rk + ... ^ 4. Определение этих функций ос- 23 И. А. Богуславский
354 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИЙ [ГЛ. 9 новывается на тождестве ?(0S, Ц, jrp krk, ...) = М [(xi — xtfa (irv]r2iKk, .. • )] (9.32) и на представлении характеристик условного распределе- ния z, Сц, \х (...) полиномами от величины xl = xl — xl с неизвестными коэффициентами. Степень этих полиномов уменьшается на 1 при увеличении на 1 порядка определяемого условного центрального момента. В правой части (9.32) присутствует условный момент а (...), а не условный центральный момент \х (...), так как априорно центрированные случайные величины х{ — xi после фиксации хг становятся нецентрированными. Далее полагаем Z=M [faq — ty/xi]. Тогда z == М [(х + xq- x)/xi] -=х + z, (9.33) О "N z — вектор условного м. о. центрированного xq — х. Примем ** = Ч (h) + Ч (li) xi + Ч (h) A + Ч (h) *f» (9-34) где aj(ii), ) = О, ..., 3,— неизвестные коэффициенты. Уч- [О . -J О О О z J = 0, умножим (9.34) на хи #/, xt и осред- ним, используя (9.32) при 5 = 1, 2, 3 и п = 1, rj = r/l = ... ... = 0. Для определения коэффициентов ah(ii) получим четыре линейных уравнения: ■ a0(ii) +0-ai(U) + Qa2(U) + [i(03)a3(h) = О, 0 -a0(ii) +Qai(U) + ji(03)a2(^) + [i(04)M*i) = ^ (?a0(Ji) + [i(03)fli(ii) + |x(04)a2(^i) + |x(05)a3(^) = = ц(02, ii), ^ ^ *ч л |x(03)a0(fi) + M,(04)ai(£i) + |x(05)a2(ii) + |x(06)a3(ii) = = ^(03/*i). D (9.35) Величины u.(05) и |ы(06) получим из (9.31i). Решая (9.35), найдем aj(U) и из (9.33) получим z*(Xi) =x*+ £(£). (9.36) о Положив & = 1, ..., #, найдем s(^) и тем самым получим
§ 9.5] ПАРАМЕТРЫ УСЛОВНОГО РАСПРЕДЕЛЕНИЯ 355 приближенное решение задачи оптимальной оценки вектора xq в ненормальном приближении при одном измерении. Для организации последовательного процесса оценки о при нескольких измерениях необходимо в функции хх найти остальные условные центральные моменты (до 4-го порядка) вектора хч. Тождество (9.32) используем при условиях s = О, 1, 2 и Гг = 2 и гг = о = 1. Примем си = «о (h) + «1 (h)°xi + а2 (i2) х\, о о (У.о7) dj = ао (lv h) + «i (*i, h) *i + d2 (*i, 7i) *i - Получим следующие линейные уравнения для определения ak(iu 7O (А = 0, ..., 2): ■ Ч ih, h) + 0-аг (iu j\) + Qa2 (iv j\) = cy - M [zW], 0 • fl0 (*i> 7i) + <?ai (h> h) + £ (08) fl8 (*i» /i) = 0*0 (*1> /l) + H> (0з) *1 (*1. /l) + H> (O4) <*2 (*1, /l) = = ?(Oa,ilfW-M[x?^]. П (9.38) Уравнения для определения ah(h) получим, заменяя в левых частях ah(iu j{) на ak(i2) и подставив в правые части (9.38) соответственно выражения сц-М[&П р(0»и)~М[х№П £(о,л)-м$й«]. Так как для z\ zj найдены выражения вида (9.34), то величины М [.. •] в правых частях (9.38) выразятся через о априорные центральные моменты величины хх до 8-го порядка, выражаемые по формулам (9.31i), через априорные центральные моменты по 4-й порядок. Используем теперь тождества (9.32) при условиях 5== 0, 1 и Гг = 3 и Гг = 2, гj = 1 и г* = г, = rfc == 1. Примем о ■ ii(i3) = Яо(*з) + a№*)Xh \x(h, /i) = a0(iz, /i) + fli(i2, ]i)xh о |x(^lf /i, fti) =^ a0(ii, /4, ft4) + at(ii, /i, &ite, Q (9,39) 23*
356 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 Коэффициенты а0(-..) и at(...) определятся равенствами ■ «о (h) = F (*'з) — М [a (*,) - |Г(*з)1, «о (k Л) = I* (hi h) - М [а (г2, j\) — JI (г2, Д)], «о (*i, /i. *i) = М- ({'i. /i, fci) — M [a (iu j\, kj) — JI (*lf /ь fej)], «i (h) = (MOi, У - M [xi (a (*,) - \x(i3))]) Q~\ di(hJi) = (v(Oi,hJi)- - M [xt (a (f2, Д) - £ (i2, jj))]) Q~\ ai (lv Л. *i) = (V- (Oi, ii, Л, &i) — - M & (a (i},}\, kt) - iT(ilf /lf AJ)]) fl"1. П (9.40) Величины a(...) —ц(...) в правых частях формул (9.40) определяются равенствами вида (9.28) после замены х\ х\ •v О _ О _ О хк на z\ z\ zk. о о о Так как для z\ z\ z\ cif, c#, c,-ft, cjft найдены выражения вида (9.34), (9.37), то величины М [. ..] в правых частях о (9.40) выразятся через априорные моменты величины xt по 10-й порядок, определяемые (9.31i). Наконец, используем тождество (9.32) при 5 = 0 и г< = = 4 И Гг = 3, Г; = 1 И Гг- = 2, Tj = 2 И Гг = 2, Ъ = Гк = 1 И ^ = rj = rfc = гп = 1. При этом считаем, что условные о центральные моменты 4-го порядка от xt не зависят. Тогда получим ■ И* (h) = $(h) — М [a (i4) - jl (i4)], 1^ (*з. Л) =Ф («е. /i) - М [a (i8,7\) — ? (*8f Л)], ^ (*2> /2) = ? (*2> /г) — М [a (i2, /2) — fx (г2, /2)], ^ (*8» Ь К) = £(*8. Л» Ai) — М [a (i2f /lf ftx) — (I (i2, /lf &!)], ^(*i, A. *i» zi) = ?"(*i» /1, К h) — - M [a (ilf 7\, &lf Zx) - [I (*lf /lf &x, Zx)]. □ (9.41) Величины a(.. .) — jn(...) в правых частях равенств (9.41) определяются равенствами вида (9.29) после замены х\ х\ ^ ^ о о о о о о о о xh, х1 па z\ z\ z\ zl. Так как для z\ z\ zh, z\ cih c»fc, cih cjhj Cji, ckh 11(h), \x(iZy /j), |x(ii, /?), fi(*2, к\), [а(ч, /1» W, \i(hi
§ 9.5] ПАРАМЕТРЫ УСЛОВНОГО РАСПРЕДЕЛЕНИЯ 357 ки U), ix(iu ju Zt), (x(/i, ки Zi) найдены выражения вида (9.34), (9.37), (9.40), то величины М [...] в правых частях (9.41) выразятся через априорные моменты величины о xi по 12-й порядок, определяемые (9.31t). Как видно, методика приближенного определения условных векторов м. о. и центральных моментов по 4-й порядок проста, но довольно громоздка. Формулы резко упрощаются, если ограничиться центральными моментами по 3-й порядок и «гипотезу урезания» использовать при N = 3. В этом случае степени полиномов в (9.34), (9.37), (9.39) уменьшаются на 1. Пусть априорное распределение нормально. Тогда при N = 3 формулы (4.2), (4.3) основной леммы 4.1 следуют из формул изложенной методики. Действительно, из первых трех уравнений (9.35) при a3(h) = = 0и |х(03) = |х(02, ii) = 0 следует ao(*i)=0, ai(ii) = Q-lLi. (9.42) Из первых двух уравнений (9.38) при a2di, ]\) =0 и |х(04, h, U) = 0 следует a{(iu jt) = 0 и яо (U, U) = с« - Q-'VLK (9.43) Из (9.39) при а{(...) = 0 и (9.40) убеждаемся, что \i{i3) = \i(i2, ji) = \i(U, /i, fa) = 0, учитывая, что ix(i3) = \i(i2, J\) = \i(h, j\, ft J = О. Из (9.36) убеждаемся, что (9.42) и (9.43) являются скалярной записью векторно-матричных формул (4.2), (4.3) при Z = 1 и алгоритм НЛРФ перейдет в одну из форм алгоритмов ОРФ главы 4. Пусть теперь хг — вектор (Z > 1). В этом случае методика аналогична методике последовательного алгоритма, описанной в § 4.4: вначале фиксируем 1-ю компоненту вектора xi и по изложенной методике находим характеристики условного распределения остальных компонент вектора Xi и вектора хч\ далее, это распределение считаем априорным и, фиксируя 2-ю компоненту вектора xh находим характеристики нового условного распределения и т. д.
358 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 § 9.6. Уравнения эволюции статистических характеристик в ненормальном приближении Выведем уравнения эволюции статистических характеристик, позволяющие путем численного интегрирования определить вектор м. о. и центральные моменты по 4-й порядок, которые служат характеристиками априорного распределения в методике, рассмотренной в § 9.5. Будем по-прежнему считать, что модель динамической системы описывается уравнениями вида (2.106) или (2.107). Вектор м. о. х удовлетворяет первому уравнению (2.121), которое в скалярной форме может быть записано в виде ** = F\ (9.44) где F* — i-я компонента вектора F, определяемого (2.115). Далее обозначим x{(t) =x(ty-2(t)\ Р{ = Р{-Р\ где F1 — i-я компонента вектора F, определяемого (2.116). Тогда из (2.113) kt + 8У ~ ktY+ipi + gMS, (9.44i) где gi— i-я строка матрицы g в (2.106). Аналогичные выражения получим при з&мене i на /, к, I. Образуем с помощью (9.44j) выражения x(t + 8yx0(t + 8)j~Ox(tyx(t)\ x(t + 8)jx(t + 8)*х(г + 8)* — x(tyx(t)}x(t)\ x(t + 8Yx(t + 8Vx(t + 8)h°x(t + S)' - Uty°x(ty0x(t)kx(ty, осредним и после деления на б перейдем к пределу при б ->■ 0. Тогда получим ^ = М [хФ + хФ + gigJ], . (9.45) ^ (*i. /и К) = М {x&F* + Jwi + + УхФ + x*gigl + xfagl + xkgig]], (9.46) \и (il9 Д, ku lx) = M [хФхФ + °x^xlFh + x*xhxlF> + -f- х&хФ + x&gbg] + xWgtfl + zWgjgl + + x&gig] + x&gigl + xWgig}]. (9.47)
§ 9.6] УРАВНЕНИЯ ЭВОЛЮЦИИ ХАРАКТЕРИСТИК 359 Уравнения эволюции для остальных центральных моментов получим, приравнивая друг другу различные индексы и приводя подобные члены. Так, например, положив i = j = k = l, получим из (9.45), (9.46), (9,47) *, = M[2i'F*+ *#!], (9.48) p(iz) = m[fr)*F* + x*gigl], (9.49) |1 (i4) = М [4 Й3 F* + 6 Й2 gig]]. (9.50) Заметим, что (9.45) и (9.48) являются скалярной формой записи второго (матричного) уравнения (2.121). Уравнения эволюции (9.44)—(9.50) являются замкнутыми, если вектор / и элементы матрицы g — линейные функции (2.121i). В этом случае правые части уравнений (9.45), (9.46), (9.47) — линейные комбинации центральных моментов соответственно не выше 2-го, 3-го, 4-го порядков. Заметим, что необходимость использования алгоритма НЛРФ в ненормальном приближении для оценки фазовых координат линейных динамических систем возникает, если распределение начальных фазовых координат имеет резко ненормальный вид (например, неунимодальное). Если /* и gij — полиномы от компонент вектора х в степени выше первой, то в правых частях уравнений (9.44)—(9.50) Могут появиться центральные моменты выше 4-й степени. Используя «гипотезу урезания», выразим эти моменты через моменты не выше 4-й степени и таким образом приведем уравнения (9.44)—(9.50) к замкнутому виду. Заметим, что эти полиномы надо привести к полино- о ш о мам от центрированных переменных х\ ос*, ..., сделав замену хг' = хг + х\ xi = xi + xj, ... Если выражения для f и gtj содержат гладкие неполиномиальные функции, то в предположении малости о величин х% эти функции можно попытаться разложить в степенной ряд Тейлора в окрестности текущей точки х и использовать конечное число членов. Тогда получим случай полиномиальных функций, коэффициенты которых зависят от текущих компопент вектора х. Если функции f и gn нельзя разлагать в ряд Тейлора, тб для вычисления М[...] в правых частях уравнений
360 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ {ГЛ. 9 (9.44)—(9.50) надо иметь подходящую аппроксимацию плотности вероятности вектора х. Использование одной из таких аппроксимаций рассматривается далее. § 9.7. Аппроксимация плотности вероятности вектора фазовых координат 1. Допустим, что в некоторые компоненты вектора F, определяемого (2.116), входят слагаемыми неполиномиальные функции фДя). Тогда в правые части уравнений (9.44) —(9.47) войдут слагаемые М [(pi (х)] = J фг (х) р (х) dx, (9.51) М [x'tpi (x)] = J xfq>i (x) p (x) dx, (9.52) М [x'afiqti (х)] = \ xhk(fi (x) p (x) dx, (9.53) ооо (» о о о . М [x'afixl<pi (я)] = J xhhxlm (x) p (x) dx3 (9.54) где р(х) — плотность вероятности вектора х. Для вычисления правых частей (9.51)—(9.54) необходима удобная аппроксимация функции р(х), которая должна параметрически зависеть от текущих величин х\ с«, ]i(...), определяемых в процессе интегрирования уравнений (9.44) — (9.47), переходить в плотность вероятности многомерного нормального распределения при \i(...) = 0, позволять вычисление интегралов в правых частях (9.51) —(9.54) сводить к задаче вычисления этих интегралов, если р(х) — плотность вероятности многомерного нормального распределения. Рассмотрим вначале методику аппроксимации функции р{х) в (9.51), если ф —функция одной переменной х (для сокращения записи формул индексы i и/ опускаем), для которой в текущий момент определены статистические характеристики х, а, |х3, |л4, ... (о2 — дисперсия х\ |Хг — центральный момент г-ro порядка). В этом случае р(х) — функция одной переменной, которую аппроксимируем отрезком ряда, аналогичного по структуре ряду Грамма — Шарлье [43]: р (х) ~ аг ехр {- (х - x)V2o*} (l + Д bhHh (x - x)Jt (9.55)
§ 9.7] АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ 361 где ai = l/(V2ttc), к0 задает длину ряда, Hk(х) — полиномы Эрмита, задаваемые для сокращения получаемых формул не (2.135), а формулой Hk (х) = (- if exp (xV2o*) —k (exp (- xV2o2)), (9.56) Ь0, Ьи ..., bk, ...— зависящие от a, jx3, [U, ... коэффициенты. Полиномы Hk(x) задает также производящая функция 2 Hh (х) £ = exp ((*» _ (г - a*))/2a2). (9.57) /1=0 Дифференцируя обе части (9.57) по а и приравнивая в правой и левой частях коэффициенты при ак/к\, найдем рекуррентное соотношение, позволяющее последовательно вычислять Hh(x): Hh+l(x) = (xHh(x) - kHh^{x))/<52 (9.58) при начальных условиях Н0(х) = 1, Н{(х) =х/о2. Основное тождество, обеспечивающее практическое использование представления (9.55), имеет вид 00 Jh (\f>) = аг J exp (— я2/2а2) #ft (я) я|) (х -f я) <2# = — оо оо = ax j exp (- я*/2а*) #ft_r (*) ф (ж + x)<r> da;. (9.59) —оо В справедливости (9.59) убеждаемся при r-кратном интегрировании по частям /ft(i[)), учитывая (9.56). О О «"ч Положим фЫ = х\ где х = х — х. При s < & и г = s + 1 из (9.59) найдем /л(г|/)=0. При p=s—&^0 и г = & получим Л(ф) = 0, если р — нечетное число, и Л(ф) = о = s!|ip/p!, если р — четное число '(при s = k Jk(^) = k\). о Здесь \к2т — центральный момент 2га-го порядка нормального распределения. Из (2.123!), положив я=1, х = 0, найдем 1^ = Ц<т2т (9-60) Проинтегрируем от —о© до оо обе части (9.55) после о о о умножения на х, х2, х\ ... Используя выражения для
362 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 Л(г|)), последовательно получим &i = Ь2 = 0, Ь3=|1з/3!, b4 = ([i4-fi4)/4!, Ь5 = ц5/5!-о2Ь3/2!, Ьв — (|ie — Jie)/6! — Ъ7 = |лт/71 - ]14Ьз/4! - а2Ь5/2!, Ь8 = (jie - |?в)/8! - Д4Ь4/4! - о2Ь6/2! и т. д. Величины |л5, |г6, ... выражаются через а, и3, |л4, если «гипотеза урезания» используется при N = 4. Из (9.55) найдем М [ф] = /0 (ф) + b3J3 (Ф) + bj, (ф) + ... (9.61) Если ф — аналитическая функция, то, положив в (9.59) if) = ф и г = к, сведем вычисление членов ряда (9.61) к вычислению интегралов без полиномов Hh(x), различные случаи выражения которых через известные функции подробно рассмотрены в существующей литературе (например, [26], [43]), посвященной исследованию динамических систем методом статистической линеаризации (или в нормальном приближении). В этом случае полиномы Hk{x) при к > 3 присутствуют в представлении (9.55) «символически», так как не приходится вычислять их конкретные значения при определении М [ф]. 2. Пусть Ц){х) или ее производные определенного порядка имеют разрывы при некоторых значениях аргумента. Тогда при соответствующей величине г^кв (9.59) функция ty(x + x){r) станет суммой дельта-функций и интеграл Л(ф) равен линейной комбинации величин подынтегральной функции в некоторых точках. Так, пусть, например, ф(#) — кусочно-постоянная функция, равная различным постоянным значениям на заданных интервалах изменения х. Обозначим через ^, ..., $q значения х, при которых ф(я) совершает скачки на величины Д1? ... ..., Aq. Например, для релейной характеристики с зоной нечувствительности шириной 2е (54 = —е, (J2 = е, Д! = Д2=1. Положим в (9.59) г|)Ы = (р{х) и учтем, что для кусочно-постоянной функции Ц)(х) ф + у)' = АМу -уЛ + ... + Aq8(y - yq), где х + уг = ${; 6{у) — дельта-функция. Тогда из (9.59) Jk (Ф) = аг (Дх ехр (- у\/2о*) Я,_х (ух) + ... ... + Aq ехр (- у\/2о*) Я,_! (yq). (9.62)
§ 9.7] АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ 363 При к = 0 получим интеграл из методики нормального приближения, легко представляемый линейной комбинацией значений функции erf я. Величины ЯА_4(г/г) последовательно вычисляются по (9.58). Пусть <р(х) — кусочно-линейная функция. Такой вид имеет, например, характеристика линейного элемента с насыщением и зоной нечувствительности. Тогда ф(я)' — кусочно-постоянная функция. Поэтому, положив в (9.59) г == 2, придем при ^2к формуле типа (9.62), в которой Hk-^yi) заменено на #^2(*/i), A* = kf — &Г, где kf и к^—угловые коэффициенты ф(х) в точках р» + О ■ир,-0. При & = 1, 0 величины интеграла выражаются через значения функции erf Ы. Наконец, возможны функции фЫ, для которых интегралы Л(ф) не выражаются через известные функции или выражения очень сложны и неудобны для практической реализации на ЦВМ. В этом случае целесообразно производить вычисление этих интегралов не по аналитическим формулам, а с помощью описанных в § 2.13 одномерных квадратурных формул наивысшей алгебраической точности. 3. Описанная методика недостаточна, так как даже при фЫ — функции одной переменной — необходимо, как следует из (9.52)—(9.54), уметь аппроксимировать функции р{х), зависящие от 2, 3 и т. д. переменных. Поэтому нужна аппроксимация функции р(х), где х — вектор размерности яг XI, ттг<тг (ттг = 2, 3, ...), для которого в текущий момент времени интегрированием уравнений (9.52)—(9.54) определены статистические характеристики: вектор м. о. х, к. м. С, центральные моменты u.(pi, ..., pm), где u.(pb ...,pm) = M[(^ — Si)Pl...(sm — xm)Qm]. Далее, к. м. С предполагается неособенной. Естественным обобщением формулы (9.55) может служить следующее представление функции р(х) [32]: Р (я) ~ ат ехр |— — (х — ^x)TD (х — х) J x x\l+£ib(v1,...,vm)HVl Vm (*-£)], (9.63) где am^(2nnn\D\'l)'i/\ D = C-\ Vi + ... + vm = fcf к0 задает длину ряда #vr...,vm (#) — полиномы Эрмита
364 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИЙ [ГЛ. 9 т переменных [41, определяемые или формулой ffVl vm (x) = (- If exp (4 x*Dx) x X v ** Vm exp(-i-xTZ)A (9.64) или производящей функцией A V---V ^ v-w~ = exp f-i- (x^Dx - (я - a)TZ> (ж - а))], (9.65) b(yu ..., vm) — зависящие от С и jxtpi, ..., pw) коэффициенты, называемые [32] «квазимоментами &-го порядка». Покажем, что для полиномов HVi vm(x) существует рекуррентное соотношение, аналогичное (9.58). Продифференцируем (9.65) по а*, сравнивая в правой и левой частях коэффициенты при а^ ... Ят™/^! ... vm!. Получим ^vx Vi+i vm (#) = DixHVi vit...tvm (#) — m -SAiVi^Vi vrl Vm(x), (9.66) 3=1 где Di—i-ж столбец матрицы D; D{j — элементы i-ro столбца. Полиномы Hv tVm(x) последовательно рассчитываются по (9.66), если учесть следующие из (9.64) начальные условия г #о,...,о И = 1, #о,...лч=1,....о И = Щ*- Справедливо, аналогично (9.59), основное тождество, обеспечивающее практическое использование полиномов Hvv...,vm (#)• Пусть a|)U) — функция т переменных и г < Vi, ..., rm < vTO. Тогда ^ vTO(l|>) = = amJ ехр(^— -J- ^Dx) #vlf...,vm(*) г|) (х + х) dx1...dxm= = am J exp [ ^ :rTjD:r)^v1-r1,...,vm-rm(^) X x *>(*-*> ^.„Ф», (9.67)
§ 9.7] АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ 365 где г = ri + ... + гте. Тождество (9.67) получим, если первоначальное выражение для Jrvv...tvm{^) проинтегрировать по частям г£ раз по хи ..., гт раз по хт, учитывая (9.64). ^. О О о ® S Положим Xi — xi = xi и if» (x) = xi ... я„Г. Из (9.67) следует, что если найдется v<>s,-, то (положив г* = 5*+ 1) получим /Vl vm (^>) = 0; если pi = Si — v4 ^ 0, ..., pm = = sm — vm > 0, то (положив Tt = Vi, ..., rm = vw) получим ^г...,гт(г|)) = am exp( j-xtDx)x11 ... xr£ldxl ... tfom-^j !••••«« Pl! ... pw! * (9.68) В этом случае величина /Vl vm ('Ф) пропорциональна о |x-(pi, ..., рт) — центральному моменту многомерного нормального распределения, который из (2.123i) при х = 0 имеет известное выражение через элементы матрицы С [43], и, следовательно, не равна нулю, лишь если Si + ... ... + sm — к — четное число. Временно для сокращения записи формул опускаем Vt = 0 и вместо v* обозначаем UV Приведенные выше соотношения позволяют построить рекуррентный процесс для определения квазимоментов b(ivv jv-, kVk,...). Проинтегрируем по Ет обе части (9.63) о оо ооо оооо после умножения на х{, ххх» ххх^хк, XiXjXhXi и т. д., где i, /, к, Z, ... = 1, ..., т. Тогда, пользуясь (9.68), получим рекуррентные выражения для квазимоментов данного порядка через центральные моменты данного и низших порядков и квазимоменты низших порядков. При этом ясно, что квазимомент,Ъ (Ц, jv., fcVfe, ...) линейно зависит от квазимомента низшего порядка b(i ,, / ', к >, ...V если V vi vj vk ) Vi>v\, Vj>v}, Vft>vJ,..., Vi + Vj + Vfc+ ...— (Vi + Vj + + v^ + ...) — четное число. Приведем полученные из (9.68) выражения для квазимоментов по 5-й порядок, считая, что р(х) зависит от четырех переменных: Ь(и)=*Ъ{и)=*Ъ(и, /i) = 0, b(U) = [Ш,)/3!, М*2, /i) = |x(f2, /i)/2!, b{iu /t, ki) =* [i{iu /t, fti), о b(h) ="(fi(i4) — |x(j4))/4!, о bu3, /i) — (|x(i8, /i) - [х(г3, /i))/3!,
366 АЛГОРИТМЫ НЕЛИНЕЙНОЙ .ФИЛЬТРАЦИЙ |ГЛ. 9 Mil, /,) = (|i(*„ /2) - J(»8, /s))/2!2!, о bu2, /i, fei) = (|x(i2, /i, fei) - (A(fe, jfi, Arf))/2!, О btii, /t, fet, /i) = [x(ii, /,, fel7 U) - |i(it, /i, fei, Л), b(i5) = f.i(i5)/5! - с,г.&(г3)/2!, b(h, /i) = p,U4, /i)/4I -(сцЬа2, j\)/2\ + СцЬ(и)), b(U, /2) = |i(/ei /J/312! - (c«b(ilf /2)/2! + cfjb(/2, /t) + c^Mfe)), Mi's, /i, fet) = [id's, /i, ui)/3I - (с«Ь(г1? /f, fei)/2! + + Cijbih, fei) + cihb(i2, j\) + cjkbii3)), bit* U *i) =* [i(fc, /i, &4)/2!2! - (ciMj\ ki)/'2l + + CiMh, iu kj + dbbdu /2) + ^Мг2, ki)/2\ + cjhb{i2, /i)), Mia, /i, fei, Л) =|х(га, ju fei, Zt)/2! - (c«6(/lf fei, Zi)/2! + + Cijbd'i, fej, Zi) + c^M^, y'j, U) + c«b(ii, /i, fei) + + cjkb(i2, IJ + CjMiz, ki) + cklb(i2, jj). Выражения для остальных квазимоментов получим соответствующей перестановкой индексов (заменой i на /, / на i и т. д.). Вернемся теперь к старым обозначениям. Тогда приведенные соотношения являются частным случаем общей рекуррентной формулы, доказываемой по индукции: о b(vu • • -. vm) = (|*(vlf ..., vm) — |x (v1,...,vm))/v1!...vm! — —-Sh^Pi» •> Pm)b(vi, ...i vJ,)/p1!-../pw!, (9.69) где Pi = v-i — Vj, а суммирование распространяется на всевозможные совокупности т целых чисел vb ..., vm, удовлетворяющих условиям pi ^ О, ..., pm ^ 0. В (9.69) надо, конечно, полояшть равными 0 нечетные центральные о моменты нормального распределения и р,(0, ..., 0) = 0. Величины ji(vi, ..., vTO) при v4 + ... + vm > 4 выражаются через li (vj, ..., v!m), v{ +'... + v™< 4 при использовании «гипотезы урезания» с iV = 4. Пусть ф(#) — функция т переменных. Из (9.63) найдем М[ф] = /0(ф)+ 2 t>(vb ..., vm) /v v (ф).
§ 9.7] АППРОКСИМАЦИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ 367 Если ф — аналитическая функция, то, положив в (9.67) r1=v1, ..., rm = vm, ликвидируем полиномы #Vl vm(z) в подынтегральном выражении и сведем задачу к вычислению многомерных интегралов, возникающих при использовании методики нормального приближения. В этом случае полиномы #Vl vm(#) присутствуют в представлении (9.63) «символически», так как для определения М [ф] не надо вычислять их конкретных значений. Если Ф или ее частные производные имеют разрывы, то (аналогично одномерному случаю) при выборе соответствующих величин ги ..., гт в (9.67) подынтегральные функции в интегралах /Vl \'т(ф) станут линейной комбинацией дельта-функций, а сами интегралы — линейной комбинацией значений полиномов Н г х (х) в некоторых vi vw точках. Для вычисления этих интегралов используем рекуррентное соотношение (9.66), при применении которого надо определять матрицу Д обратную матрице С. В ряде случаев может оказаться целесообразным вычислять величины /Vl vm(z), используя описанное в § 2.13 обобщение на многомерный случай квадратурных формул паивысшей алгебраической точности. Из вышеизложенного видно, что аппроксимация плотности вероятности вектора фазовых координат и методы вычисления м. о. различных функций от них не требуют явного использования ортогональности полиномов Hk(x) и биортогональности полиномов #vx vm (#) и полиномов GVl v^(-) [4], которые можно, например, задать равенством GVi Vm (x) = HVi vm (Cx). При вычислении м. о. от разрывных функций может оказаться удобнее в (9.63), (9.67) заменить #Vl vm(*) на GVi Vm(Dx), так как полиномы GVl vm(x) удовлетворяют более простому, чем (9.66), рекуррентному соотношению ^v1,...,vi+i vm (#) = xLGVi v. Vm (x) — m 2j cijvjGv ,...,vi-l,...,vm(a:)- Из §§ 9.6, 9.7 следует, что использование описанной методики для вычисления текущих статистических характеристик фазовых координат динамических систем при аппроксимации р(х) любым числом членов рядов (9.55), (9.65) не встречает никаких новых принципиальных тех-
368 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 нических трудностей по сравнению с вычислением этих характеристик в нормальном приближении. И в том и в другом случае основные трудности могут возникнуть при вычислении интегралов — м. о. «экзотических» нелинейных функций в нормальном приближении. Отметим, что дифференциальные уравнения эволюции статистических характеристик можно, как показано в [13], записывать не относительно центральных моментов, а относительно квазимоментов. § 9.8. Алгоритм НЛРФ в ненормальном приближении Найденные уравнения эволюции (9.44)—(9.50) интегрируются от 4-i до tk при начальных условиях, которые являются характеристиками условного распределения вектора x(tk-i) после измерения в момент th-u полученными с помощью методики § 9.5. Результаты интегрирования в момент th служат для определения характеристик априорного распределения в момент th. Так, если yh = Hkx{tli) + \h (измерепия модели 1), то Xi = yk и xq = x(tk). В этом случае п Ш ж, = Hhxh, Q = 2 HlHlci, + Rh, £*=2я£«, ^(о,)= 2 я1#1дй1 ft,/!,*!). 3=1 i,hk=l S(o4)= 2 HiHiH\Hlv{iUh,Kh) + ZRl n ?(0lt/s) = S^iii («!,/,) П (9.70) 2=1 и т. д. Здесь Rk — дисперсия £h; x, cih \i(...) — результаты интегрирования уравнений (9.44) —(9.50) в момент tk. Найденные в соответствии с методикой § 9.6 величины z, сц, [х(...) будут начальными условиями при, интегрировании уравнений (9.44)—(9.50) от th до tk+l. Пусть теперь yk = Hkx(tk) (измерения модели 2), причем матрица Hk имеет структуру (4.163) и матрица Н1к — неособенная. В этом случае по-прежнему xt = yh, а вектор xq = xq(th) составлен из q последних компонент x(tk). В этом случае в приведенных выше формулах следует
§ 9.9] АДАПТИВНЫЙ АЛГОРИТМ 369 положить i?b = 0 и в выражениях'для \i (0s, irVh$, ...) целые числа i, /, ... больше q. После определения по методике § 9.5 характеристик условного распределения вектора xq{tk) эти характеристики для вектора Xiith), составленного из первых I компонент вектора x(th), найдем, учитывая равенство х{ (th) = НТн1 (Уh - Hqhxq (th)). (9.71) В этом случае %1 = Щк (Ук — HqkZq), где zt и zq — условные м. о. векторов xt(tk), xq(th) (zq = z в обозначениях § 9.5). При определении из (9.71) характеристик условного рассеивания вектора xt{th) необходимо учесть, что вектор yk зафиксирован (отсутствует условное рассеивание его компонент). Итак, совместное использование методики § 9.5 и уравнений эволюции полностью определяет последовательность алгоритма НЛРФ в ненормальном приближении. § 9.9. Адаптивный алгоритм в ненормальном приближении Рассмотрим пример построения адаптивного алгоритма при неизвестных статистических характеристиках ошибок измерений. Будем считать, что измерения имеют вид ук = НкхЧк) + х%\ (9.72) где величина |0 нормально распределена и М [£0] = О» М [£о ] = 1, х2— неизвестная величина (неизвестное с. к. о. ошибок измерений) с заданными априорными м. о. я2(0) и дисперсией с22(0). Для упрощения записи формул считаем, что xi — скаляр (выход инерционного звена, возмущаемого белым шумом). Необходимо построить адаптивный алгоритм, оценивающий в моменты измерений величины x(tk)1 и одновременно идентифицирующий величину х2. Рассмотрение проведем по методике § 9.5, § 9.6 с использованием гипотезы «урезапия» при N = 3. Динамическая система имеет вид xi=Axi + ghy я2 = 0. (9.73) 4 И. А. Богуславский
370 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ |ГЛ. 9 Запишем уравнения эволюции: х1 = Ах\ х* = 0, (9.74) cn = 2AcH + g2, ct2 = 4c12, с22 = 0, (9.75) fi(l„ 2i) = 24|i(l,, 2,), 'ц(13) = ЗАц(13), (9.76) iidi, 2,)=Ац(1„ 2а), м-(23) =0. (9.77) Найдем априорные характеристики распределения величины Xi = yh и величин xl(th), х2, образующих вектор хя, считая, что интегрированием уравнений (9.74)—(9.77) найдены их решения в момент th : х1, х2, сц, \х(1Г1, 2Г2), где г{ + г2 = 3. Получим, учитывая (9.72), что М [|о] = 0: xt=Tx\ Q =?u + с22 + (я2)2, (9.78) Li = ?n, L2 = ?12, (9.79) I* (0.) = £ (18) + Зц (llt 22) + 6?12*2, (9.80) Р (02,1Х) = ц (llf 22) + ц (1,) + 2с12*2, (9.81) ц (02, 2J = £ (2,) + £ (1„ 2Х) + 2с22^2, (9.82) ?(01,1,) = Ц(18), Р(01,20=]1(11,2,), (9.83) ?(0i, li, 2t) = |Г(12, 2^. (9.84) Кроме того, из «гипотезы урезания» при N = 3 ?(04) = 3<?2, £(0в) = 10£(0а)е, Р (0.) - 10ц (03)2 + 15?3, |Г (07) = 105? (0,) <?2. О и-ч В данном случае Xi = yk — x\ Из (9.34) при 7V = 3 получим (* = 1, 2) ^г = а0 (ix) + аг (ix) хх + а2 (ix) (xt)2, где ■ ^(h) + 0-a1(i1) + Qa2(i1) = 01 О-МУ + Qa^l,) + р(09)а%(1г) =- L\ ^(ч) + И(08)а1(«1) + |1(04)а2(*1)== jT(0ai ч) и с« = а0 (г2) + «1 (У хи с12 = а0 (llf 2Х) + ах (1х, 2Х) хь О (9.85)
§ 9.9] АДАПТИВНЫЙ АЛГОРИТМ 371 где a0(h)=^ii— M [(zjj, «1 (У = <?-1 (?(<>!, У - М [х, (У)% «.(li^^-M^*], Ч (li, 2t) = (?_1 (|i (0lt 1ь 2J - M [хгЩ) и ц (i3) = £(г3) — M [Зсигг + (zlJ8J, I* (1„ 2,) = p(U, 2i) - M [cn°z* + 2c12z* + (Ц2°гг], H (li, 2.) = £ (lx, 22) - M [cjl + 2c J* + (la)*£]. о После определения z1 получим оценки величин x4tk) и х2: z* = £&) + *, z2 = %2(th)+°z\ В момент U считаем величины хЧО) и хг независимыми и нормально распределенными. Тогда с,»(0) = Цо(1з) = Цо(23) = ц0(12, 2i) = Ho(li, 2,) =0, где (д.0(...) — начальные значения ц(...). Но должно быть с.22(0)^0, х2(0)Ф0. Из (9.74)—(9.77) видно, что в момент ti (момент 1-го измерения) c„-Ii(l1)-fi(2,) = |i(l2l 2i)-|i(li, 2i) = 0. Тогда из (9.79) -(9.83) L2 = ii(02, 2i) = |i(0i, 12) = ц(0„ 22) = ц(0„ 1,, 2t) = 0. Но S(0,, и)Ф0. Из (9.85) Яо(21) = а1(21)=а2(21) = 0 и, о следовательно, z2 = 0. Поэтому 1-е измерение не меняет оценку величины хг. Кроме того, с22 = с22(0) и с12 = = и*(2,) = ц(1,, 2,)«=0. Но |*(1») = -М[Зс11гЧ-Й«]^0, ц(11,2,) = -м[си(0)*»]#0 — начальные условия для интегрирования от tt до £2 уравнений (9.76), (9.77). Поэтому в момент t2 fidsJ^O, 24*
372 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 £(1„ 22)¥=0 и из (9.81) ji(0,, 2,) Ф0, \х(03)Ф0 и после о измерения в момент t2, вообще говоря, станет z2 Ф 0. Поэтому после двух измерений появится первая оценка величины .г2, не равная априорному значению #2(0). § 9.10. Алгоритм конечнозначной адаптации и квазиоптимальное управление при многих гипотезах 1. Рассмотрим задачу оценки вектора фазовых координат линейной динамической системы хк в условиях, когда точно неизвестны ни матрицы ak-u bk-u Hk, описывающие детерминированные характеристики системы и датчиков информации, ни к. м. Со, - х k— 1» Rki описывающие параметры нормальных распределений векторов х0, %_!, |fc, но заданы s возможных совокупностей этих матриц и априорные вероятности их появления до момента начала измерений (предполагается, что после начала измерений совокупность матриц не изменяется). Задача ставится следующим образом. Даны априорные вероятности р\ (i = 1, ..., s) того, что векторы фазовых координат системы xk и векторы измерений yk генерируются i-и математической моделью (& = 0, 1, ...): xk = al-iXk-г + bi-xUk-i + rjjUi, (9.86) yk = Hixk + ll (9.86^ Матрицы ajUi, Й-i, Н\ имеют соответственно размерности пХп, пХт, IX п и ранги щ т, I. Случайные векторы По, 'Пи • • •, rfk-i, ...» So. Si» • • •» £ft образуют последовательности независимых, нормально распределенных случайных векторов с к. м. ^l-i и R\ размерностей пХп и 1X1, к. м. R\ — неособенная. Если вектор х0 принадлежит i-я модели, то х\ и С\ — его априорные вектор м. о. и к. м. В момент- th необходимо найти ph(x) = = Ph(x/y0, ..., i/J — условную п. в. (плотность вероятности) вектора xk и zk = M [xk/y0, ...,yj- вектор условного м. о. вектора xk — вектор оценок, оптимальный по среднеквадратичному критерию. Обозначим через рЪ (Уо, -..<>Уь) = р1 условную (после фиксации г/о, ..., У и) вероятность того, что система и
§ 9.10] АЛГОРИТМ КОЙЕЧНОЗНАЧЙОЙ АДАПТАЦИИ 373 измерения принадлежат i-ft модели, и через pi [xh, г/0, ... • •., Ук) =Pk(xk)— условную п. в. вектора xk, если система и измерения принадлежат г-й модели. Пусть дискретная случайная величина 6 перед измерениями может принимать значения 0» U = l, ..., s), причем, если 0 = 0*, то система и измерения принадлежат i-й модели. Поэтому Р(е = 64/у0| ...,yk) = Ph и ph(Q) —условная п. в. величины 6 имеет вид Р*(в) = 2Ркв(в-в4), (9.87) г=1 где 6(6)— дельта-функция. Запишем ph(Q, xh) — совместную условную п. в. величины 6 и вектора xk по формуле Бейеса: S Ph (в, хк) = рк (0) Ph (xh/Q) = 2 PhPk (xk) S (6 - 6i). (9.88) Интегрируя обе части (9.88) по 6 от — °° до °°, найдем выражение для ph(xk): ftW = S РкРкЫ- (9.89) Так как распределение вектора х0 при условии, что он принадлежит г'-й модели, нормально с параметрами #J и Со, то р\ (xk) — п. в. нормального условного распределения, параметры которого z\ и С\ определяются рекуррентным алгоритмом О РФ Калмана: 4 = *н + Ll (Ql)-1 (yh - я££), (9.90) с1 = С1-аШ~Ч^Г, (9.91) где яг* = ajLiZft-i + bft-iMft-if Сл — aJUiC/Li (4-i)T + ¥JUi, (9.91,) Д = Сл (Я£)т, Q\ = Я^Сл (Я£)т + i?£. Найдем рекуррентные формулы для величин ph Обозначим через pi (l/k) п. в. вектора ук при условии, что зафиксированы векторы г/о, ..., z/fc-t и 0 = 0<. Тогда pft_i(0, г/J — совместную условную (зафиксированы у0, ..., yh-i) п. в.
374 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 величины 9 и вектора yh запишем в виде Pk.x (9, yk) = 2 pjLipi Ы б (9 - 9i). (9.92) Интегрируя обе части (9.92) по 9 от — °° до °°, получим s Pk Ы = 2 pi-iPh Ы» (9-93) г—1 где рк(Ук) — п. в. вектора yk при условии, что зафиксированы г/о, ..., Ук-i- По формуле Бейеса запишем S рк-г (9, ук) = рк Ы ph (9) = рн Ы 2 Р*6 (9 - вг). (9.94) г=1 Приравняем правые части формул (9.92) и (9.94) и проинтегрируем по 9 от 9i — 0 до 9г- + 0. Получим pi= fk-~p*(Vk) л (9>95) 2 4-1^1 (ун) г=1 Если система и измерения принадлежат i-й модели, то ук = H\xk + Vki причем в люмент th — 0 (до фиксации yk) вектор хк имеет нормальное распределение с параметрами х\, С\, определяемыми (9.91±). Поэтому Рк{Ун) — п. в. нормального распределения с параметрами н&1 Hici(Hiy + Ri = Qi и, следовательно, в (9.85) pi Ш = (2 V | Ql | )"1/2 ехр {- 1 (el)T (Й)"1**}. (9.96) где ггк = Ук— Hlkx\. Формулы (9.95) и (9.96), используемые совместно с (9.90), (9.91), определяют рекуррентную процедуру получения условных вероятностей р\, если заданы априорные вероятности pi. Величины р\ случайны. Однако из (9.95), (9.96) видно, что всегда выполняются условия pI>o, Sp* = i, г=1 если только эти условия справедливы при к = 0. Итак, в соответствии с (9.95) условная п. в. вектора хк оказалась линейной комбинацией нормальных услов-
§ 9.10] АЛГОРИТМ КОНЕЧНОЗНЛЧНОЙ АДАПТАЦИИ 375 ных п. в., параметры которых определяются алгоритмами ОРФ Калмана, используемыми для каждой из возможных моделей: коэффициенты линейной комбинации зависят от вектора текущих измерений. и от коэффициентов на предыдущем шаге. Из (9.95) следует, что zk — вектор условного м. о. вектора xk может быть найден по формуле Ч = 2 М- (9-97) 2=1 Описанный алгоритм (9.90), (9.91), (9.95) —(9.97) является алгоритмом нелинейной фильтрации, так как Ph(zk) — п. в. ненормального распределения и zk нелинейно зависит от г/Л. Алгоритм в принципе решает задачу адаптации и идентификации для любых линейных с неизвестными параметрами стохастических динамических систем (заданных дифференциальными уравнениями или в рекуррентной форме (9.86)) и систем стохастических измерений. Для этого достаточно возможные диапазоны параметров разбить на малые интервалы, составить s возможных моделей и применить изложенную методику при достаточно большом числе измерений. Модель, для которой величина р\ стабильно больше остальных величин (может быть, после пропускания через простой цифровой фильтр для сглаживания случайных выбросов), следует считать решением задачи идентификации или, что то же самое, решением задачи выбора из s возможных гипотез. Эвристические суждения об эволюции в функции к величин Pk получим, если определить 5ти величины формулой, следующей из (9.95), (9.96): Pt= ;°4еХР** , (9.98) г=1 где 4 = П1<?)|-1/3, (9.99) 3=1 k 5* = -42(8;)Т(<?))~Ч-- (9-100) 3=1 Пусть действительная система и измерения совпадают с моделью номера iQ; для сокращения записи формул
376 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 будем без индекса г0 обозначать параметры этой модели и соответствующих условных к. м. ak-u Hk, zkJ xh1 Qh и т. д. Кроме того, считаем, что векторов управлений нет. Векторы г) при i Ф ц запишем в виде 8i = yj—HjXj+HjXj — Н)х) = ej+^jaj.jZj.i—Я^а}.^-!, (9.101) где -во, е4, ..., 8j, ..., ek—последовательность независимых случайных векторов с к. м. Qj (см. (4.65)). Но 4 = zh + AL (9.102) где векторы Д£ возникают из-за разницы между моделями с номерами iQ и i. (Стохастические уравнения для Д£ в двух частных случаях приведены ниже.) Тогда из (9.101) 8| = е, + в5, fi . . (9.103) Оценим средние значения случайных чисел В\. При i = h k М [В]?} = - у 2 Tr te^"1) = - у (* +1) *. При i Ф i0 М [В{] = -±2 [Тг«?, (СГ1) + Tr (S) №~% " 3=1 * где 5i = M[e}W)T]. Если допустить, что элементы матриц Qj и Q) примерно одинаковы, то получим, что М [Вгк] > М IВ/?], а^^ ^а°- Поэтому в среднем величины expfi£ должны стремиться in к 0 быстрее величин exp Bk и следует ожидать стремле- А 10 иия к 1 среднего значения Рн • Конечно, приведенное рассуждение является очень грубым. Аналитическое исследование эволюции в функции к статистических характеристик случайных чисел pi, по-видимому, невозможно, из-за их сложного распределения.
§ 9.10] АЛГОРИТМ КОНЕЧНОЗНАЧНОЙ АДАПТАЦИИ 377 2. Существует много прикладных ситуаций, в которых использование алгоритма целесообразно при малых величинах s. Пусть, например, надо по результатам измерения с ошибками координат объекта оценить его скорость, причем объект движется равномерно и прямолинейно или с постоянным ускорением. В этом случае х = V, V = О (модель 1) или х= V, V = а (модель 2). В обоих случаях ук = x(tk) + |ft. Если в фильтре-оценивателе использовать модель 1, то при движении объекта с ускорением оценка V будет получена с систематической ошибкой, тем большей, чем больше а. Систематические ошибки исчезнут, если в фильтре-оценивателе использовать модель 2. Но тогда при движении объекта прямолинейно случайные ошибки оценки V будут большими, чем при использовании модели 1. В описанной ситуации можно (задавшись априорными данными о вероятности движения с ускорением) решать известными методами задачу обнаружения ускорения а, принимая после этого решение об использовании в фильтре-оценивателе модели 1 или модели 2. Однако такой путь иногда неудобен, так как есть элемент произвола при назначении допустимых вероятностей ложной тревоги или пропуска. Изложенный выше алгоритм без явного решения задачи обнаружения определяет оценки, оптимальные по среднеквадратичному критерию. Пусть, например, р] (х) = = 6(#). Тогда оценить фазовые координаты надо в условиях, когда с априорной вероятностью р\ в измерениях нет полезного сигнала (нет динамической системы) и с априорными вероятностями р\, . ..,/>о система и измерения принадлежат 2, ..., 5-й моделям. В этом случае формулы алгоритма надо использовать при учете того, что z\ = 0, С\ = О (так как р\ (х) = б (х)) и S zk = 2 pUh, i=2 Й Ш = (2 VI R\ I )-1/2 exp {- 1 yl CRJ)-V*}. Величина рн в функции к опишет эволюцию вероятности отсутствия в измерениях полезного сигнала. 3. Пусть даны линейная система и измерения, но начальное распределение вектора х0 ненормально и его
378 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 п. в. может быть представлена линейной комбинацией s нормальных п. в. pi {х) с параметрами х0, С0 (i = 1,..., s): s Po(Zo) = 2i plopl(x0), i=l где В этом случае pk(x) — условная п. в. вектора xh и zk — его условное м. о. определятся изложенным алгоритмом, если положить агк = akl H\ = Ни ^k-i = ^k-i, Ru = Rh и начальными условиями 5 алгоритмов ОРФ Калмана считать заданные векторы м. о. хг0 и заданные к. м. Сг0. 4. Из формул (9.89) и (9.90) видно, что условную плотность вероятности pk(xk) полностью определяют зависящие от зафиксированных векторов измерений у о, ... ..., yk векторы z\, ...,Zb и числа pi, ....ptT1- Поэтому вектор Dk размерности s(n+D — 1, составленный из этих векторов и чисел, является вектором достаточных статистик: на множестве векторов у0, ..., ук, сохраняющем постоянными компоненты вектора Dh, распределение случайного вектора xk остается постоянным. Найдем условия, при которых последовательность случайных векторов Dh является марковской. Векторы г\ в (9.96) записаны в виде (9.101) при / = &. Поэтому, как видно из (9.95), (9.96), распределение случайных величин Pk зависит лишь от вектора достаточных статистик Dh: векторов z>k-i, Ч-i и чисел pl-i- Пусть теперь статистические характеристики случайных возмущений и ошибок измерений известны точно: R\ = Ru, Wl = ^k и модели отличаются лишь матрицами а\ и #£. Тогда в (9.102) случайные векторы Ak, как следует из (6.46) и (6.52), (6.53), порождаются стохастическими уравнениями Ai = riAU + & (к - 1) zk.x + 6Ak, (9.104) или Ai = П (4-i - Zft-i) + «J, (Л - 1) zh^ + 6Л£е„. (9.105) Кроме того, zk = flft-iZfc-i + Ahek. (9.106)
§ 9.10] АЛГОРИТМ КОНЕЧИОЗНАЧНОЙ АДАПТАЦИИ 379 Подставляя в (9.102) правые части (9.105) и (9.106), видим, что распределение случайных векторов zky z\ (i Ф i0) зависит лишь от векторов z/t-i, zl-x. Итак, распределение компонент вектора Dh зависит лишь от компонент вектора /?ft-i и, следовательно, в рассмотренном случае векторы Dh образуют марковскую последовательность достаточных статистик. Аналогичная ситуация возникает, если точно известны матрицы ak-i и Hh и модели отличаются лишь матрицами Yfc и RI В этом случае опять справедливо равенство (9.102), в котором Al порождаются стохастическими уравнения вида (6.15): Ai = rW-i + eAie, (9.107) (матрицы Tlk и 8Л\ в (9.104) и (9.107), конечно, отличаются друг от друга в соответствии с формулами § 6.1 и 6.5). Подставляя в (9.102) правую часть (9.107) после замены А^_х на гк_г — z^_b получим, что распределение случайных векторов zk, zlk (i Ф i0) зависит лишь от векторов Zk-i, Zk-!. Итак, в обоих рассмотренных случаях векторы Dk образуют марковскую последовательность достаточных статистик. Нетрудно проверить, что этот вывод сохраняется, если uk-i — некоторые заданные (фиксированные) векторы. Поэтому можно утверждать, что Dh = D(Dk-h uh.u efe), (9.108) где D(...) — функция соответствующего числа переменных, 80, 8i, ..., efe, ...— последовательность независимых случайных векторов с к. м. Qh. Поэтому выполнены условия 1, 2 § 1.6 и вектор оптимального управления должен быть функцией Dk (справедливо (1.49)). Синтез оптимального управления в принципе можно проводить методом стохастического программирования, последовательно решая уравнения (1.55) — (1.57). Случайный механизм генерации векторов Dh, имеющих условную п. в. ph(D/Dh-u и), определяется формулой (9.108). Синтез определит вектор-функции Щ == Щ yzh, . .., zh , zh, zk , .. ., zh, pkl .. ., ph J, (9.109)
380 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 в которые вектор zk входит иначе, чем остальные векторы z\. Но при использовании (9.109) для управления неизвестно, какой из векторов z\, генерируемых s моделями, является вектором zh. По-видимому, целесообразно на каждом шаге управления вектором zh считать тот из векторов z\, которому соответствует максимальная из величин р\. Средний риск при использовании предложенного эвристического решения, формирующего квазиоптимальное управление, будет, конечно, больше минимального среднего риска, определяемого при использовании (9.109). Пусть, наконец, модели отличаются друг от друга всеми матрицами ajUi» #fe> ^Ъ-ъ RI- В этом случае фиксация векторов zk-i и zJUi уже не определяет распределение векторов z\ (1фг0) и последовательность достаточных статистик — немарковская. По-видимому, наиболее простой синтез квазиоптимального управления получим, если в вектор-функциях w£ = u°k (zk), получаемых из уравнений главы 8, вектором zh считать вектор z\, соответствующий наибольшему числу р\ и прошедший, может быть, предварительное сглаживание. Используя уравнения главы 1, нетрудно выписать цепочку рекуррентных уравнений для численного определения среднего риска в этом случае. 5. Рассмотрим пример построения алгоритма конечно- значной адаптации в условиях, когда известны 5 = 11 возможных значений, которые с одинаковой вероятностью рг0 = 1/11 может иметь дисперсия ошибок измерений; одно из этих значений (но неизвестно какое) является дисперсией ошибок измерений. Примем в (9.86) и в (9.91) aU = 0,55, 6JU -0, Н\^ 1, х0 = 5, ¥k-X .0,04, е* = = 1, z\ =0, £=1, ..., И. Положим, что в 11 моделях ошибок измерений дисперсия этих ошибок изменяется через 0,1 в интервале от 0,1 до 1,1. Назовем случаями 1, 2, 3 ситуации, в которых истинная дисперсия ошибок измерений равна соответственно 0,1; 0,6; 1,1. На рис. 9.2 для этих трех случаев в функции числа измерений представав лены кривые эволюции условной вероятности Ри той модели, у которой дисперсия ошибок измерений совпадает с истинной дисперсией. Как видно, во всех случаях алгоритм конечнозначной адаптации уверенно производит
§9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 381 идентификацию, так как условная вероятность стремится к 1 с увеличением числа измерений. Наиболее быстро идентификация производится в случае 3 (в этом случае будет наибольшей дисперсия случайных величин е] в Рис. 9.2. (9.100) и, следовательно, в (9.98) величины ехр Вгк при i¥=i0 будут убывать наиболее быстро). Кривые эволюции величин апостериорной вероятности в случаях 1 и 2 практически совпадают. § 9.11. Алгоритм минимаксной рекуррентной фильтрации 1. В изложенном выше материале задача оценки компонент вектора фазовых координат была статистической, так как предполагалось, что существуют статистические распределения (может быть с неизвестными параметрами) векторов ошибок измерений, возмущений динамической системы, начальных условий. Однако возможны случаи, в которых упомянутые векторы наряду со случайными компонентами содержат неопределенные компоненты, для которых статистических распределений не существует, а из априорных соображении задаются лишь области возможного существования*). Подобная ситуация *) Далее частично используются результаты работы: Богус- л а в с к и й И. А. Об оценке фазовых координат линейной системы в статистически неопределенных ситуациях.—- Автоматика и телемеханика, 1971, № 1,
382 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 (ее назовем статистически неопределенной) возникает, например, если в состав ошибок измерений компонент вектора информации кроме флуктуационных (быстро меняющихся) ошибок входят медленно меняющиеся ошибки — «уходы нулей» аппаратуры системы. При статистическом подходе, использованном в § 6.3, модели этих ошибок описывались формирующим фильтром той или иной степени сложности. Другой подход, иногда менее искусственный, чем статистический, состоит в том, что «уходы нулей» аппаратуры считаются нестатистическими (неопределенными) с априори заданными лишь пределами изменения. 2. Далее изучается лишь задача оценивания (а не управления) в статистически неопределенной ситуации. Поэтому считаем, что управление отсутствует (uk = 0). Тогда вместо (4.77), (4.78) уравнения динамической системы и измерений запишем в виде xk = flfc-itffc-! + Tjck-i + Лнь-ь (9.110) yh = Hkxk+lck + lEh, x(t0)=xc0 + xH(h (9.111) где T]Cft, £сь, #со — случайные нормально распределенные вектора, статистические характеристики которых заданы формулами (4.79)—(4.81) и априорными вектором м. о. х0 и к. м. С0; т]нь, '1нь, Я-но — неопределенные вектора с заданными областями существования: ть*65^ Ue£u, Яно^Схо. (9.112) Далее эти области считаются замкнутыми, выпуклыми и содержащими начало координат. ( Будем пытаться оценить наилучшим в некотором смысле способом вектор xN в момент tN, считая, что зафиксировано N+1 векторов измерений у0, ..., yk\ ... ..., Vn. Ранее в статистической ситуации вектор z оценок вектора xN считался оптимальным, если он равнялся вектору условного м. о. вектора xN и, следовательно, как показано в § 1.7, доставлял минимум квадратичному критерию точности S = М [{xN - z)T R (xN - z)], (9.113) где R > 0. В статистически неопределенной ситуации для получения гарантированных результатов (ошибки оценки не должны быть слишком большими даже в наиболее неблагоприятном случае) естественно требовать, чтобы
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 383 вектор оценок в среднем был наилучшим, если наиболее неблагоприятными являются вектора хв0, т]но, ..., y]h^-i, |во9 .-., Ihjv, которые ограничены условием (9.112) и, как видно из (9.110), (9.111), влияют на вектор xN и на вектора у0, ..., J/n- Поэтому в статистически неопределенной ситуации естественно вектор оценок z определять пользуясь минимаксным критерием S° = min{max{SI(9.112)he<rn}, (9.114) где величина S определяется (9.113), а выражение max {S\(9.112)} означает, что при фиксированном векторе z неопределенные вектора должны максимизировать величину S на областях, заданных условиями (9.112). 3. Для построения вектора оценок z\ оптимального по минимаксному критерию, учтем, что вектор xN может быть представлен суммой случайного вектора xcN и неопределенного вектора .Гн*: Хн =z Xcn "Т XHtf. \У.110/ Здесь xcN — в момент tN вектор фазовых координат дискретной системы (9.110), у которой хн0 = 0, т]нь = 0 (& = 0, ..., 7V — 1); xHN — в момент tN вектор фазовых координат дискретной системы (9.110), у которой хс0 = 0, т]с* = 0 ■(& = (), ..., iV-1). Пусть зафиксированы вектора измерений у0, ..., yN. Тогда вектор xcN можно записать в виде xcN = zcN + 8N, (9.116) где zcN — вектор условного м. о. случайного вектора xcNl 6N — случайный вектор, характеризующий рассеивание векторов xcN относительно вектора zcN. Очевидно, что М [бл^бя] = Cn, где CN — к. м., определяемая алгоритмом (4.95) при k = N. Тогда из (9.115), (9.113), (9.116) S = М [(xhN + zcN + 8N — zf R (xhN + zcN + 8n — z)]. (9.117) Основное предположение о природе неопределенных векторов состоит в гипотезе о их постоянстве на множестве случайных реализаций, для которых постоянен вектор zcN (или, что то же самое, постоянны вектора измерений г/о, ..., г/лг). Эта гипотеза выполнится, например, если неопределенные вектора постоянны на множестве
384 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 всех реализаций. Тогда (9.117) задишем в виде S = М [М [{x„N + zcN + 8N — z)T R (xhN + zcN + &N — z)l /Уо> • •, уА\ = M [(xhN + zCN — z)T R (xun + zcN — z) + + Tr (RCN)] = J P (zcN) [(xnN + zcN - z)T R (xuN + + zCN - z) + Tr (RCN)] dzcN, (9.118) где P(zcN) — плотность вероятностей случайного вектора zcN. Из (9.110) видно, что вектор xHN определяется при k = N рекуррентным уравнением Ян* = flk-i&Hk-i + Цвк-1- (9.119) Вектор zcN является случайным вектором zch (при к = Ю, порождаемым стохастическим уравнением вида (4.100), которое в рассматриваемом случае имеет вид zch = dk^Zck-! + LhQ^Bk, (9.120) где zc0 = xQ + LqQ^Sq, 80, ..., гк —последовательность независимых нормально распределенных величин, таких, что М [гЦ = 0, М [ыг!] = <?;. Далее, считаем, что х0 = 0. Тогда из (9.120) М [zcft] = 0 и Си — к. м. случайного вектора zch определится рекуррентным уравнением Ch = а^Си-Л-! + LkQfLl (9.121) при С0 = LqQ^Lq. Поэтому Р Ы) = (2ппп | CN | )"1/г ехр |- -±- г^л1**}- (9.122) Учитывая линейность алгоритма (4.94), (4.95) нетрудно проверить, что zcN = zN — zHN, где zN — выход в момент tN алгоритма (4.94), (4.95), на вход которого поступают вектора измерений у0, ..., yN\ zHN — неопределенный вектор, определяемый рекуррентным уравнением Zrti = (In — LhQl Hh) a/t-xZnfc-x + LuQ^1 (Ялал_1а?ИА_1+ + Ялпнл-х + Ы, (9-123) *но = А^сГ1 (Яс^но + Бно)« Поэтому S = J P(zN — zIlN) [(zN + xHN — zuN — z)T X X # for + я„лг - 2IIiV - z) + Tr (i?Cjv)] dljv (9.124)
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 385 В соответствии с принятой гипотезой о неопределенных векторах принцип минимакса должен быть применен к подынтегральной функции в (9.124) и вектор оптимальной оценки определится операциями тт{тах{Ф(^ + рь z + р2) | (9.112)}7е <Г„}, (9.125) Ф (Xlf Х2) = ехр /- 4" XlC*1Xi) (X2RX2 + Tr (RCN)\ (9.126) где положено Z = Zjf — Z, pi = — ZHN, р2 = XaN — ZBN. Итак, вектор z° в статистически неопределенной си^ туации определяется следующим образом: вначале для любых векторов z цри заданном векторе zN надо решить детерминированную задачу максимизации функции Ф(2*+ plf 2 + р2) от векторов р4, р2, определяемых рекуррентными уравнениями (9.119), (9.123) на областях (9.112). После этого величина Ф(...) станет функцией векторов zN, z. Далее решается детерминированная задача определения минимума этой функции на <$п (вектор z априори не ограничен, так как не ограничен искомый вектор z), в результате чего найдется вектор z° в функции вектора zN. Поэтому z° = z°(zN)=zN'-z{zN). Описанную последовательность вычислений можно назвать «алгоритмом минимаксной фильтрации». Ясно, что вектор 2° от zN зависит, вообще говоря, нелинейно. Поэтому вектор z° нелинейно зависит и от векторов измерений г/о, ..., Ун (zN линейно зависит от этих векторов). Следовательно алгоритм минимаксной фильтрации относится к классу алгоритмов нелинейной фильтрации. 4. Наметим путь решения сформулированных выше детерминированных задач оптимизации. Вектора pi, p2 линейно (в соответствии с уравнениями (9.119), (9.123)) зависят от неопределенных векторов хн0, г]Но> ..., Цнн-и £но> ..., £hjv, которые аналогичны векторам управлений, ограниченных областями (9.112). Тогда, аналогично областям достижимости, рассмотренным в § 3.10, будет выпукла в «§Г2п и содержит начало координат область достижимости й9, заполняемая векторами р, образованными из компонент векторов plf p2. При этом p^^ni, 5 И. А. Богуславский
386 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ (ГЛ. 9 p2e<§fn2 и S>2n = S>niXS'n2- Границы области 9 можно найти методом проектирования градиентов, определяя для различных 2я-мерных единичных векторов р максимальное значение величины ртр. На области & надо найти максимум по р4, р2 функции 0(zjv + pi, z + p2), а затем провести минимизацию по z. Начало координат области № будем называть ее «центром». Первые п координат центра образуют вектор Х10 ^ <оп\., оставшиеся п координат образуют вектор Х20 ^ <§пг> Геометрически можно представить следующий процесс оптимизации. Пусть в S>2n проведены поверхности уровня функции Ф(Хи Х2) — поверхности, на которых Ф(Х1? Х2) = с = const. Здесь Xi^e?ni, Х2^<£п2. Эти поверхности обозначим через S'(c). Так как Cjv1>0 и R > О, то Tr (RCN) < с < оо. При изменении величины с в указанных пределах семейство S'(c) заполнит <<?2п. Поверхность &(Tt(RCn)) содержит начало координат е> 2п» По одну сторону от йГ(Тг(ДС*)) лежат поверхности с c<Tr{RCN), по другую сторону —с c>Tr(RCN). При произвольных заданных векторах Xi0 и Х20 граница выпуклой области & будет касаться некоторых поверхностей <£{с). Положим XiQ = zNj X20 = z. Область 9* коснется некоторых поверхностей семейства S'ic). Задачу максимизации по рь р2 (pi, p2^9) функции 0(z^ + pi, z + p2) решает та точка касания, которая принадлежит <8{с) с наибольшей величиной с. Чтобы найти вектор z, минимизирующий величину max {0(zN + pi, z + p2) lp4, p2 e e^}, надо, сохраняя Xl0 = zN, менять X2Q = z доо тех пор, пока наибольшая величина с будет соответствовать не одной, а нескольким точкам касания. Найденный вектор z° = zN — z° решает задачу минимакса (по крайней мере в некоторой окрестности ,вектора z°), т. к. вследствие гладкости функции Ф небольшое изменение вектора г в произвольном направлении должно лишь увеличить наибольшую из величин с, соответствующих новым точкам касания. 5. Дальнейшую детализацию методики проведем в случае, когда минимаксный квадратичный критерий используется для вычисления оптимальной оценки лишь одной (например, наиболее «ответственной») компоненты вектора xN. Пусть для определенности это будет xn— первая компонента вектора xN; zi — оценка этой компоненты. Тогда в (9.113) S^MKx'-z,)2] и в (9.126) функция
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 387 Ф(...) примет вид = exp J- -4^ (Ik + pi)2} [Cz + pj)« + a}], (9.127) где .zjr, p{, p\— первые компоненты соответственно векторов zN, — zhjv, #hn — 2hn; ^i, ai— первые элементы первой строки матриц CN, CN; z = zn — zr Необходимо найти zj— оценку величины я1, оптимальную по минимаксному квадратичному критерию. Для решения задачи минимакса надо вначале при фиксированных zjv и z максимизировать функцию Ф(--) по величинам р\, р\, учитывая условие (9.112). Это условие означает, что допустимые точки с координатами Pi, р2 должны принадлежать плоской области &*1, полученной сечением 2д-мерной области ^, соответствующей 2// —2-мерной гиперплоскостью. После этого Ф(---) станет функцией величины 2. Минимизируя Ф(---) по 2, найдем z\ функцией z %. Формулу (9.127) перепишем в следующем виде: Ф (zN + Pi, z + р2) = а?Ф* (xv *a), (9.128) где Ф* (xv х2) = exp { — х\) (х\ + l), Х\ = #ю ~Г И»1» %2 ~ *^20 Г Щ» — ^ _ р1 _ ^ _ Р2 *10"V2"a7 ^2~У2а; *20 " V ^2 ~ V Линии уровня функции Ф*(#ь я2) для х{ > 0 представлены на рис. 9.3. Точки с координатами \iu р,2 принадлежат области ^i, полученной из области &*1 аффинным преобразованием, в котором абсциссы точек делятся на V2<Ji, а ординаты — на о1в Дальнейшие рассуждения нетрудно формализовать и провести синтез оптимальной оценки, не обращаясь к рис. 9.3. Однако для сокращения изложения определение 2? проведем, используя геометрические соображения, 25*
388 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 Для решения задачи мипимакса в плоскости хи х2 абсциссу центра Ц области 9>х сделаем равной #10, а ординату будем менять так, чтобы выпуклая область 3*\ коснулась двух линий уровня, соответствующих одинаковым величинам с (рис. 9.3). В этот момент х2о = cpi(#io), где cpi(-) — Рис. 9.3. некоторая функция, определяемая для любого значения аргумента описанным выше приближенным геометрическим построением. Учитывая приведенные формулы для #ю и #20, получим выражение для оценки величины #^, оптимальной по минимаксному среднеквадратичному критерию: 2;=^_а1ф1^А\ (9.129) Формула (9.129) определяет нелинейный алгоритм минимаксной фильтрации, который состоит в том, что к величине зд, получаемой из алгоритма ОРФ Калмана, добавляется некоторая величина, нелинейно зависящая от зд» а значит — нелинейно зависящая от результатов цаблюдещщ. Следует подчеркнуть, что функция <pi(*)7
§ 9.11J МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 389 соответствующая области $РЪ должна определяться заранее (до процесса оценивания) и заноситься в «память» БЦВМ. Если область &*■ (а следовательно, и область &\) симметрична относительно луча xi0, то, как следует из рис. 9.3, #2o = <Pi(-) = 0 и оценка по минимаксному среднеквадратичному критерию совпадает с оценкой, выдаваемой алгоритмом ОРФ Калмана (4.94), (4.95). Отметим также, что в статистической ситуации S0 — минимальная величина среднеквадратичного критерия точности оценивания — в рассматриваемом случае определяется равенством S0 = о\. В статистически неопределенной ситуации величина £°, получаемая при минимаксной среднеквадратичной фильтрации, имеет вид оо Sa = -t^L f ехр {- (хи + tf)*} [(ф1 (*10) + Af +l] dx10, 1 —оо где [1?, (Д-2 — координаты одной из точек касайия линий уровня с одинаковыми величинами с, в системе координат, центр которой находится в центре области 3*\> Величины jJt?, ^2 — некоторые функции xi0, определяемые попутно при нахождении функции фД-). Как видно, величина S0 может быть найдена лишь приближенно при использовании соответствующих квадратурных формул. Аналогичный выбор минимаксной среднеквадратичной оценки проводится для любой /-й компоненты вектора xNl если уметь определять ^ — область достижимости, заполняемую точками с координатами pi, pi и соответствующую ей функцию фД-). Построение подобных оценок для всех компонент вектора xN потребует тг-кратного определения областей &>' (/ = 1, ..., N). Полученные оценки будут «слишком» гарантированными, так как при минимаксном выборе оценки каждой фазовой координаты используется свое наиболее неблагоприятное сочетание неопределенных факторов. Отметим, что алгоритм минимаксной фильтрации существенно зависит от вида функции потерь, входящей в критерий точности. Так, пусть, например, S = = М'[со(^ — z)J, где (о(р) —четная, неубывающая функция потерь. В статистической ситуации, как показано в § 4.6 п. 3, оптимальная оценка величины #jv не зависит от конкретного вида функции со(р) и является со-
390 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 ответствующей компонентой вектора условного м. о. вектора xN. В статистически неопределенной ситуации задача определения минимакса заметно усложняется, так как вместо простого выражения (9.127) функция Ф(---) примет следующий существенно более сложный вид: Ф (23 + PJ, z + р|) = ехр {" Щ № + Pi)'} X оо XJ ехр \~ !£*М w (z + pl + 6N)dbN — 00 и оптимальная минимаксная оценка будет зависеть от конкретного вида функции со(р). 6. Рассмотрим подробнее приближенную методику определения двумерных областей &*\ ..., &\ ..., ^п. Векторы pi и р2, входящие в (9.126), определяются, как следует из (9.119), (9.123), рекуррентными уравнениями Pi.ft = 0fc-iPi,fc-i — LkQ1 (Hkak-xPtik-i + #*т]нл-1 + ink), (9.130) p8rfc = ^^-хРзд-! + 5ftTiHfe-i — LhQb%k, (9.131) где обозначено Bk = Jn — LkQklHk и p1>0 = — ^o^o"1 X X (H0xH0 + lm), p2>0 = BQxm — LqQq1^. В формуле (9.125) pi = pi, N, p2 = p2, n- Для определения &*1 — области достижимости первых компонент векторов pi и р2 необходимо для различных величин ф найти величину piixp): р1(ф)=тах{со8фр1+зтфрЛ (9.112)}, (9.132) учитывая рекуррентные уравнения (9.130), (9.131). Величина рДф) является расстоянием от центра области 9*^ до ее границы вдоль единичного вектора, наклоненного t на угол ф к оси абсцисс. Определяя величину Pi((pY при изменении ф с некоторым шагом от 0 до 2я, приближенно найдем границы области (Рх. Обозначим v2 = ||pl,k pl,kl ul = \\r\lh llul Quk = QikXQ^h\ по заданным областям QxQ, Qiq нетрудно построить £?v0 — область, которой могут принадлежать неопределенные векторы у0. Тогда задача определения границ области 551 сводится к решению задачи синтеза оптимальных векторов начальны^ условий и управлений дискретной линейной
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 391 системы, которой удовлетворяют 2д-мерные векторы vk: vk+i = Ahvh + DkukJ к = О, ..., N - 1, v0€s#vo, uh^C2uKf (9.133) максимизирующих терминальный критерий / (v^) = == cos cpvjy + sin q)V]v+1 (матрицы Лк, /)А определяются из (9.130), (9.131)). Применяя правило дифференцирования сложной функции, нетрудно показать, что IUk и /vo — векторы градиентов функции I(vh) по векторам uh и v0 определяются равенствами Iuk= Dltyk+1, jTV0= 4Tif>0, где if* (г = iV, ..., Л, ..., 0) — 2л-мерного вектора сопряженных переменных, определяемых уравнениями \|)i = i4i\|)i+1 (i = Л7* — 1,..., 0) при начальном условии 'флг = || cos ф 01|П-1 sincp 0lin-i||. Необходимое и достаточное условие оптимальности векторов ик и v0 имеет вид и°ь = я01л(м* ~~ Л/«*)» уо = Jt^v0 (v|J — Я/vo), (9.133!) где Я > 0 (оптимальные векторы ul, и v|J — неподвижные точки преобразований, описываемых оператором проектирования). Так как Quh и £?vo—- выпуклые области, то и/?, Vq — точки границ областей ^ww и Cvoy в которых нормали к границам совпадают по направлениям с векторами — KIUh и — XIv0. Если таких точек не существует для некоторых /U/l, /V() и данных 6?ttfc, Q\o (границы составлены из кусков некасающихся гиперповерхностей), то точки Uk и Vq находятся в «вершинах» областей — точках, в которых «гладкие» куски границ областей Quh и £?vo пересекаются под «острыми» углами. Для двумерных областей Quk и C^VQ векторы щ и v0 находятся очевидным геометрическим построением. В более сложном случае эти векторы определяются итерационным процессом (подобным описываемому формулой (2.58)), организация которого облегчается из-за того, что векторы IUk, Ivo постоянны (не меняются при итерациях). Задача приближенного определения областей достижимости делается более простой, если синтез оптимального дискретного управления приближенно заменить син-
392 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 тезом оптимального непрерывного управления. Для этого от дискретизированной динамической системы, описываемой рекуррентным уравнением (9.110), перейдем к первоначальной непрерывной системе, определяемой дифференциальным уравнением x = Ax + ghc + hn, (9.133а) где hc — вектор белых нормально распределенных шумов единичной интенсивности (М [hc (t) hi (т) = /v6 (t — т) ), ^н (t) — неопределенный вектор-функция, Aug — матрицы соответствующей размерности. Обычно система, возмущаемая случайными и неопределенными факторами, задается именно в виде (9.1332) с назпачепием областей существования йн(<) е #,(*), жнобйо. (9.134) Если интервалы времени между дискретными измерениями невелики, то условное распределение вектора xN практически не изменится при замене дискретных измерений (9.111) непрерывными измерениями у = Я*-+6с+6н, (9.135) где матрица Hit) совпадает с матрицами Hh в моменты tk, |c — вектор белых нормально распределенных шумов с неособенной матрицей интенсивностей /?U)(M[g(£)X Х£(т)т] = R(t)8(t — т)). Матрица R(t) в моменты th совпадает с Rh — к. м. векторов |сь в (9.111), £HU) — неопределенная вектор-функция, область существования которой @i(t): { g(t) €=&(*) (9.136) в моменты tk совпадает с областью Си- Неопределенные вектор-функции hE(t), £НШ действуют на непрерывную систему (9.1332), (9.135) примерно так же, как дискретные неопределенные векторы т]нь-1, |нь действуют на непрерывную систему (9.110), (9.111). После соответствующего предельного перехода [101 дискретные алгоритмы ОРФ (4.77), (4.78) перейдут в непрерывные алгоритмы z-Az + LR-^y-Hz), (9.137) С = АС + СА\ + G - LR^D, (9.138) где L = С#т + FT, G = gg\ z(0)=*o, С(0)~С0.
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 393 Входящий в (9.124) вектор zN определяется приближенным равенством zN ~ zitN), а из (9.1332) и (9.137) следует, что дифференциальные уравнения для хв и zH, аналогичные рекуррентным уравнениям (9.119), (9.123), имеют вид (9.138,) iH = U - LR~lH)za + LR-'Hx» + Lfl"1^ при начальных условиях xH(0), zH(0) = Ь0В.-*Ш0хно + + £н(0)). Поэтому векторы Vt = — zH, v2 = #H —£H удовлетворяют уравнению v = i4xv + Ви, v* = |vj vl|, и' = |«Й| (9Л39) U i —LR~XH A MUM-LA^tf н |о»п!-м_1| \\ln l-LR-1] при начальных условиях vx (0) = — L0R0 (HQxm -f- £H (0)), v2 (0) = ( Jn — LqR^Hq) xm — Lo^^h (0). Для векторов Vi(0), v2(0) могут быть найдены области существования Qv^b Qv2oi зависящие от областей (?6o, Qxo' yx{0)eQ^ v2(0)eav2o. (9.140) Входящие в (9.126) величины векторов pi и р2 определяются равенствами pi = Vi(tN), p2 = v2(^v). Задача определения области &* сводится к выбору вектор-функций ^н(0 и ln(t) и векторов v4(0), v2(0), удовлетворяющих условиям (9.134), (9.136), (9.140), на которых достигает минимума терминальный критерий /ф = — cos cpvj(£jv) — sin cpva (fo). (9.141) В соответствии с принципом, максимума введем 2тг- мерный вектор сопряженных переменных if, удовлетворяющий уравнению ip = - Л?ф, (9.142) ^(*;v)T = ||coscp O^n-! sincp 0lfn-i||. (9.143) Пусть вектор-строка i|f# имеет вид ^rB = \\a(t)T p-U)Tll, где а(£), pU) — векторы размерности, соответственно, л XI, ZX1. Тогда максимум гамильтониана $T(Av + Bu)
394 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 достигается на векторах u£(f), Eh(0> доставляющих максимум величине a(t)ThB(t) + ($U)t1h(J) при условиях (9.134), (9.136). При конкретном задании областей QiXt) и Q%{t) определение соответствующих h^ (t) и |н (О трудностей не вызывает. Так, если | К (t) | < у1 (*), | ^ (t) | < V (t), где i = 1,..., гс, /= 1,...,Z, то ^н°(0 = V* С) sign а*(0, lL° = V (t) sign р1(0. Численно интегрируем от 0 до tN уравнение (9.139) при начальном условии v(0) = 0 и вектор-функциях hH (t) £н(£)» совместно с уравнением (9.138), поставляющим матрицу Lit) для интегрирования (9.139). В результате найдем г} (£jv) , v^fjv) —первые компоненты векторов Vi(^), v2(tN), возникающие при использовании оптимальных управлений &£(£#)» £h(*jv) и нулевых начальных условиях. Одновременно производится численное интегрирование 2п однородных уравнений у=А{у при векторах v(0), представляющих собой единичные орты в пространстве &,2n. В результате найдем фундаментальную матрицу Фу(£лг, 0) уравнения v = AiV, 1-ю и (п + 1)-ю строки которой обозначим через /1, f\. Векторы Vi(0), v2(0), удовлетворяющие условиям (9.140), надо выбрать так, чтобы достигался максимум величины cos ф f\v± (0) -[-sin ф f\v2 (0). При конкретном задании областей QVl0, £?v2o определение соответствующих оптимальных векторов Vi(0)°, v2(0)° трудностей не вызывает. Величина /£ — максимальное значение Д, определяемой (9.141), имеет вид II = cos ф (vj (tN)* + f\vx (0)0+ sin ф (v\ (tN)* + f\v2 (0)°). Величина Р является расстоянием от центра области 531 до ее границы вдоль направления, наклоненного на угол Ф к оси абсцисс. Проведя описанную процедуру для различных величин ф, найдем границу области 551. Аналогично находятся границы областей ^2, ..., &*N, что позволит полностью решить задачу минимаксной фильтрации по среднеквадратичному критерию для каждой из компонент вектора xN.
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 395 7. Задача минимаксной фильтрации в статистически неопределенной ситуации имеет изложенное выше относительно простое решение из-за того, что фиксация векторов измерений г/0, ..., J/n не влияет на области существования, заданные условиями (9.112). Последнее же является следствием того, что максимизация подынтегральной функции в правой части (9.124) выбором векторов pi и р2 при зафиксированном векторе zN, являющемся «носителем» векторов наблюдений, происходит без ограничения снизу на величину P(zN + pi). Другими словами, при выборе р4 и р2, принадлежащих ^, допускается сколь угодно малая плотность вероятностей вектора zcN = zN + pi, являющегося в данной реализации условным м. о. случайной компоненты вектора xN. В принципе, можно ограничить возможности «природы», распоряжающейся «игрой» неопределенных векторов возмущений и ошибок измерений, и потребовать, чтобы эта плотность вероятностей была не меньше некоторой малой величины е (е ~ 0,05 — 0,1). В этом случае допустимые при синтезе минимаксной оценки неопределенные векторы исключают некоторые маловероятные ситуации, и полученная оценка будет гарантированной лишь с некоторой большой вероятностью. Для учета вышеизложенного надо при определении максимума функции Ф(---) (9.126) использовать дополнительное условие: - I- (^ + Pi)' ^ (*" + Pi) > 1п К2""" I ^ D1/2 е1- <9Л44) После этого область допустимых векторов р станет зависеть от вектора zN, что исключит возможность решения задачи максимизации заранее (до конкретной реализации процесса оценивания). При минимаксной оценке величины x{N условие (9.144) примет вид: - х10 -У-\ъ{Угогг) <[*!<- x1Q +Y-1jx(V2S1e). (9.145) Условие (9.145) переводит область !?\ в область 0*1, которая или совпадает с 0*\ или уже ее вдоль оси |л4. Методика решения задачи минимакса не меняется: при фиксированной абсциссе центра области ^2 надо менять его ординату до тех пор, пока £?\ не коснется двух линий уровня функции Ф*{хи х2), которым соответствуют оди-
396 АЛГОРИТМЫ НЕЛИНЕЙНОЙ ФИЛЬТРАЦИИ [ГЛ. 9 наковые величины с. Однако эту операцию нельзя производить до процесса оценивания, так как форма области ^2 зависит от величины xi0y в свою очередь зависящей от векторов измерений у0, ..., yN- Следует отметить, что рассмотренная в [33] задача минимаксной фильтрации в неопределенной ситуации требует учета влияния зафиксированных результатов измерений на область допустимых неопределенных возмущений и ошибок измерений, что заметно осложняет общее решение задачи. Приближенное решение этой задачи можно получить из изложенного выше, если сделать достаточно малыми дисперсии компонент случайных векторов. По-видимому возможен и предельный переход при стремлении этих дисперсий к нулю. 8. Упомянем класс задач минимаксной фильтрации, в которых для определения областей достижимости ZP (или областей ^, ..., &N) неприменима изложенная выше методика. Пусть, например, заданы области существования не только неопределенных векторов в (9.1332), возмущающих динамическую систему, но и скоростей их изменения. Такая ситуация возникает при оценке параметров движения гироплатформы; ее дрейфы естественно считать неопределенными возмущениями, величина и скорость изменения которых ограничены. Дополним уравнение (9.139) уравнением /гп = х, где для вектора к задана область существования xWsft, (9.146) Тогда при определении области достижимости в момент tN векторов pi, р2, удовлетворяющих (9.139), вектор hn следует считать вектором дополнительных фазовых координат, а к — вектором управления (наряду с вектором 1н(£)). Максимизировать величину /<р, определяемую (9.141), следует при учете ограничений (9.136), (9.146) на векторы управлений и ограничения (9.134) на часть фазовых координат. Подобные задачи можно численно решать, используя метод штрафных функций или метод нахождения седловой точки функции Лагранжа. 9. Перед синтезом алгоритма нелинейной фильтрации, точно решающего задачу получения вектора минимаксных среднеквадратичных оценок, целесообразно найти дополнительные ошибки оценки, возникающие при использовании, например, алгоритма ОРФ (4.94), (4.95)
§ 9.11] МИНИМАКСНАЯ РЕКУРРЕНТНАЯ ФИЛЬТРАЦИЯ 397 из-за наличия неопределенных векторов y\Ehy £„ь, #но, стесненных условиями (9.112). Векторы zEh дополнительных ошибок оценки удовлетворяют рекуррентному уравнению (9.123). Если эти ошибки могут принимать недопустимые значения, то необходимо использовать алгоритм минимаксной фильтрации или перейти от алгоритма ОРФ к алгоритму КОРФ, менее чувствительному к наличию неопределенных факторов. Пусть надо найти область достижимости 9£ —- отрезок, внутри которого может находиться величина zH(tN)1. Эта задача решается по методике п. 5, если ввести векторы vl = \\zHk xHk\\, ul = \r\lkilhb связанные уравнением (9.133), при матрицах Ak, Dh из уравнений (9.123), (9.119). Оптимальные ul и v{J должны минимизировать терминальные критерии IL =*= v#, А == — vn> определяющие координаты левого и правого концов отрезка Я1. Начальные (в момент tN) векторы сопряженных переменных примут вид i|)^i = || 1 01>2?г_! ||, г|)£2 = || — 1 О^п-х |, а и\ nv|J должны удовлетворять условиям (9.133). Задачу приближенного определения координат концов отрезка 5?1 проще решать, переходя к непрерывному времени. Вектор vT = || ^н ^н || удовлетворяет уравнению (9.139), матрицы А^ и В которого находятся из системы уравнений (9.138). Координаты концов отрезка 5?1 найдем при минимизации оптимальными вектор-функциями hn(t), ln(t) и вектором v°, удовлетворяющими условиям (9.134), (9.136), (9.140), терминальных критериев h = = zH(tN)\ h = — zH(tN)\ Явные выражения для &£(£), £h(0*v° нетрудно получить с помощью принципа максимума, если вместо (9.143) учесть, что 1|)(^)Г = = II — 1 Охда-х ||, Я|) {tN)l ==. || 1 0lt2n-! ||. Аналогично определяются координаты концов отрезков 5?2, ..., 32п — областей достижимости, в которых могут оказаться величины zB(tN)2, ..., zH(tN)n. Опыт разработки алгоритмов КОРФ для конкретных условий показывает, что области $}, ..., &п заметно уменьшаются, если периодически «обновлять» матрицы Ск — заменять в процессе оценивания с некоторой рациональной частотой Ск на априорную к. м. С0 и алгоритм (4.95) периодически использовать при новых начальных условиях.
ЛИТЕРАТУРА 1. Андерсен Т. Введение в многомерный статистический анализ.— М.: Физматгиз, 1963. 2. Аоки М. Оптимизация стохастических систем.—М.: Наука, 1971. 3. Б а т к о в А. М. и др. Методы оптимизации в статистических задачах управления.— М.: Машиностроение, 1974. 4. Бейтман Г., Э р д е й и А. Высшие трансцендентные функции. Функции Бесселя, функции параболического цилиндра, ортогональные многочлены.— М.: Наука, 1966. 5. Белл'ман Р. Динамическое программирование.— М.: ИЛ, 1960. 0. Богуславский И. А. О фильтрации одного класса нестационарных случайных процессов.— Автоматика и телемеханика, 1959, № 6. 7. Б о г у с л а в с к и й И. А. О статистически оптимальной импульсной коррекции космического полета.— Кибернетика, 1966, № 1. 8. Богуславский И. А. О статистически оптимальном управлении конечным состоянием.— Автоматика и телемеханика, 1966, № 5. 9. Богуславский И. А. О синтезе стохастического оптимального управления.— В кн.: Современные методы проектирования систем автоматического управления.— М.: Машиностроение, 1967. 10. Богуславский И. А. Методы навигации и управления по неполной статистической информации.— М.: Мапганостроение, 1970. И. Богуславский И. А., Егорова А. В. Стохастическое управление движением при несимметричном ограничении.— Автоматика и телемеханика, 1972, № 8. 12. Богуславский И. А., Иващенко О. Н. Оптимальная импульсная коррекция движения по статистической информации.— Автоматика и телемеханика, 1971, № 2. 13. Богуславский И. А. Статистический анализ многомерной динамической системы при использовании полиномов Эрмита многих переменных.— Автоматика и телемеханика, 1969, № 7. 14. Б о г у с л а в с к и й И. А. Непрерывно-дискретная обработка статистической информации.— Автоматика и телемеханика, 1971, № 7. 15. Бородовский М. Ю., Зайцев А. В. Об оптимальном законе движения объекта в задаче определения ориентации приборного трехгранника.— В сб.: Некоторые вопросы теории навигационных систем.— МГУ, 1979.
ЛИТЕРАТУРА 399 16. Бородовский М.Ю.,Братусъ А.С,Черноусъко Ф.Л. Оптимальная импульсная коррекция при случайных возмущениях.— ПММ, 1975, вып. 5. 17. Б ор од овский М. Ю. Численное решение некоторых задач синтеза статистически оптимального импульсного управления.— ЖВМ и МФ, 1976, т. 16, № 6. 18. Бородовский М. Ю. Об одном классе задач статистически оптимального импульсного управления.— Изв. АН СССР. Сер. «Техн. кибернетика», 1976, № 3. 19. Брайсон Д., Хо Ю-Ши. Прикладная теория оптимального управления.— М.: Мир, 1972. 20. В а з а н М. Стохастическая аппроксимация.— М.: Мир, 1972. 21. Вальд А. Последовательный анализ.—М.: Физматгиз, 1960. 22. Г а н т м а х е р Ф. Р. Теория матриц.— М.: Наука, 1966. 23. Д а ш е в с к и й М. Л., Л и п ц е р Р. Ш. Приближенный анализ нелинейных нестационарных динамических систем.— Автоматика и телемеханика, 1967, № 8. 24. Д е Грот М. Оптимальные статистические решения.— М.: Мир, 1974. 25. Е р м о л ь е в Ю. М- Методы стохастического программирования.— М.: Наука, 1976. 26. Казаков И. Е.— Статистические методы проектирования систем управления.— М.: Машиностроение, 1969. 27. К а л м а н Р., Б ь ю с и Р. Новые результаты в линейной фильтрации и теории предсказания.—Труды Американского общества инженеров-механиков, серия Д, т. 33, № 1, ИЛ, 1961. 28. К а т к о в н и к В. Я. Линейные оценки и стохастические задачи оптимизации.— М.: Наука, 1976. 29. Красовский А. А., Белоглазов И. Н., Чигин Г. П. Теория корреляционно-экстремальных систем.— М.: Наука, 1979. 30. К р ы л о в В. И. Приближенное вычисление интегралов.— М.: Физматгиз, 1959. 31. Кузовков Н. Т., К а раб а нов С. В., Салычев О. С. Непрерывные и дискретные системы управления и методы идентификации.—М.: Машиностроение, 1978. 32. Кузнецов П. И., С т р а т о н о в и ч Р. Л., Тихонов В. И. Квазимоментные функции в теории случайных процессов.— Теория вероятностей и ее применения.—Изв. АН СССР, 1960. 33. Ку ржа некий А. Б. Управление и наблюдение в условиях неопределенности.—М.: Наука, 1977. 34. Л е б е д е в А. А., Красильщиков М. И., Малышев В. В. Оптимальное управление движением космических летательных аппаратов.— М.: Машиностроение, 1974. 35. Ланкастер П. Теория матриц.— М.: Наука, 1978. 36. Л и Р. Оптимальные оценки, определение характеристик и управление.— М.: Наука, 1972. 37. Л и п ц е р Р. Ш., Ширяев А. Н. Статистика случайных процессов: нелинейная фильтрация и смежные вопросы.—М.: Наука, 1973. 38. Лип тон А. Выставка инерциальных систем.—М.: Наука, 1971. 39. Моисеев Н. Н. Элементы теории оптимальных систем.—М.: Наука, 1975. 40. О х о ц и м с к и й Д. Е., Р я с и н В. А., Ч е н ц о в Н. Н. Оптимальная стратегия при корректировании.—ДАН СССР, 1967, Т. 175, № 1.
400 ЛИТЕРАТУРА 41. П а р а е в Ю. И. Введение в статистическую дипамику процессов управления и фильтрации.—М.: Советское радио, 1976. 42. П о л а к Э. Численные методы оптимизации,— М.: Мир, 1974. 43. Пугачев В. С. Теория случайных функций и ее применение к задачам автоматического управления.— М.: Физматгиз, 1962. 44. С е й д ж Э. П., Мелса Дж. Л. Теория оценивания и ее применение в связи и управлении.— М.: Связь, 1976. 45. С е й д ж Э. П., М е л с а Дж. Л. Идентификация систем управления.— М.: Наука, 1974. 46. С т р а т о и о в и ч Р. Л. Условные марковские процессы и их применение к теории оптимального управления.— М.: МГУ, 1966. 47. Солодовников В. В. Статистическая динамика линейных систем автоматического управления.—М.: Физматгиз, 1960. 48. Торн Ци-Йонг, Заоорский. Практически нерасходя- щийся фильтр.—Ракетная техника и космонавтика, 1970, т. 8, № 6. 49. Чайлд Д. Методы поиска экстремума.—М.: Наука, 1967. 50. Ф е д о с о в Е. А. и др. Проектирование систем наведения.— М.: Машиностроение, 1975. 51. Ф е л ь д б а у м А. А. Основы теории оптимальных автоматических систем.— М.: Наука, 1966. 52. X а з е и Э. М. Методы оптимальных статистических решений и задачи оптимального управления.— М.: Советское радио, 1968. 53. Цыпки н Я. 3. Адаптация и обучение в автоматических системах.— М.: Наука, 1968. 54. Цыпкин Я. 3. Основы теории обучающихся систем.— М.: Наука, 1970. 55. Черноусько Ф. Л. Оптимизация процессов управления и наблюдения в динамической системе при случайных возмущениях.— Автоматика и телемеханика, 1972, № 4. 56. Черноусько Ф. Л., Колмановский В. Б. Оптимальное управление при случайных возмущениях.— М.: Наука, 1978. 57. Шли Ф. Г., Стендиш Ч. Д., То да Н. Ф. Расходимость фильтрации по методу Калмана.— Ракетная техника и космонавтику, 1967, № 6. 58. Ширяев А. Н. Статистический последовательный анализ.— М.: Наука, 1965. 59. Фильтрация и стохастическое управление в динамических системах/Под ред. К. Т. Леондоса.— М.: Мир, 1980. 60. Wonh am W. M. Stochastic Problems in Optimal Control.— IEEE, Int. Convent Record, 1963, № 2, pp. 114—124. 61. J a z w i n s k i A. H. Adaptive Filtering.— Automatica, 1969, v. 5, № 4, p. 475-485. 62. Sriyananda H. A. A simple Method for the Control of Divergence in Kalman Filter Algorithms.— Int. J. Control, 1972, v. 16, № 6, pp. 1101—1106. 63. Potter J. E. New Statistical Formulas, Space Guidance Analysis Memo 40, C. S. Draper Laboratory, Cambridge, Massachusetts, 1963.