/
Текст
ОПТИМИЗАЦИЯ
И ИССЛЕДОВАНИЕ
ОПЕРАЦИЙ
Н.Н. МОИСЕЕВ
Численные методы
в теории
оптимальных
систем
и
ОПТИМИЗАЦИЯ
И ИССЛЕДОВАНИЕ
ОПЕРАЦИЙ
Редактор серии
Н. Н. МОИСЕЕВ
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 197»
Н. Н. МОИСЕЕВ
ЧИСЛЕННЫЕ МЕТОДЫ
В ТЕОРИИ
ОПТИМАЛЬНЫХ СИСТЕМ
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 19 7 1
618
М74
УДК 519.95
Численные методы в теории оптимальных систем. Моисеев
Н. Н., Главная редакция физико-математической литературы
изд-ва «Наука», 1971.
Книга состоит из двух частей. В первой части дается система-
тическое изложение численных методов теории оптимальных управ-
лений. В первой главе этой части описываются методы, использу-
ющие необходимые условия экстремума функционала. Во второй
главе рассматриваются численные методы, использующие идеи
последовательного анализа вариантов и динамического програм-
мирования.
Вторая часть (главы III и IV) посвящена собственно вопросам
синтеза систем управления объектами, подверженными действию
внешних возмущений разного типа. Сначала подробно обсуждается
математическое содержание проблемы синтеза и приводятся разно-
образные методы синтеза, основанные на эвристических соображе-
ниях. Затем излагаются строгие методы теории линейного синтеза.
В заключение обсуждается проблема синтеза в условиях не-
определенности и приводится решение простых задач, иллюстри-
рующих роль информированности при построении оператора управ-
ления.
Рис. 39.
Никита Николаевич Моисеев
ЧИСЛЕННЫЕ МЕТОДЫ В ТЕОРИИ ОПТИМАЛЬНЫХ СИСТЕМ
(Серия: «Оптимизация и исследование операций»)
М., 1971 г., 424 стр. с илл.
Редактор И. Б. Вапнярский
Техн, редактор Л. А. Пыжова
Корректор И. В. Мамулова
Сдано в набор 20/VIII1971 г. Подписано к печати 6/ХП 1971 г. Бумага 84x108»/,»
Физ. печ. л. 13,25. Условн. печ. л. 22,26. Уч.-изд. л. 21,08.
Тираж 13000 зк8. Т-19557. Цена книги 1 р. 58 к. Заказ 2827.
Издательство «Наука»
Главная редакция физико-математической литературы
117071, Москва В-71, Ленинский проспект, 15
2-я типография издательства «Наука». Москва, Шубинский пер., 10
2-2-3
55ЛГ
ОГЛАВЛЕНИЕ
Предисловие.............................................. 7
Глава I. Оптимальные программы (теория оптимального
управления)......................................... 9
§1.0 постановке задач теории оптимального управления 11
§ 2. Необходимые условия в задачах классического
вариационного исчисления........................ 22
§ 3. Принцип максимума Л. С. Понтрягина............. 40
§ 4. Условия оптимальности в системах с дискретным
временем........................................... 70
Глава II. Численные методы расчета оптимальных про-
грамм, использующие необходимые условия экс-
тремума .......................................... 80
§ 1. Простейшие способы решения краевых задач 81
§ 2. Задачи оптимального управления, сводящиеся
к краевым задачам для систем линейных дифферент
циальных уравнений. Перенос граничных условии 90
§ 3. Применение метода переноса граничных условий
для построения итерационных схем ...... 104
§ 4. Методы теории оптимального управления, использу-
ющие процедуру решения задач со свободным кон-
цом .............................................. 112
§ 5. Методы, использующие функции штрафа .... 129
§ 6. Задачи с нефиксированным временем и задачи
на быстродействие........................ . . . . 138
§ 7. Методы теории возмущений. Возможный способ
решения краевых задач............................. 1£7
Глава III. Прямые методы теории оптимального управ-
ления ........................................... 156
§ 1. Конечномерные аналоги задач теории оптималь-
ного управления................................... 157
§ 2. Методы нелинейного программирования в задачах
оптимального управления........................... 172
§ 3. Последовательный анализ вариантов. Схемы динами-
ческого программирования.......................... 191
§ 4. Элементарная операция. Некоторые примеры . . 214
§ 5. Проблемы устойчивости......................... 229
§ 6. Некоторые задачи для систем с дискретным вре-
менем ............................................ 241
$ 7. Задачи теории расписаний ..................... 252
6
ОГЛАВЛЕНИЕ
Глава IV. Проблема синтеза оптимальных систем управ-
ления ............................................ 265
§ 1. О постановке задач синтеза оптимальных систем
управления................................... 267
§ 2. Детерминированные задачи синтеза ........ 284
• § 3. Применение динамического программирования для
задач синтеза............................. 295
§ 4. Методы динамического программирования в зада-
чах синтеза с неполной информацией и при наличии
ошибок измерений ............................. 312
Глава V. Задачи синтеза, сводящиеся к задачам оптималь-
ного управления.................................... 330
§ 1. Задачи линейного синтеза...................... 331
§ 2. Линейный синтез с ограничениями. Принцип мак-
симума ........................................... 359
Глав а VI. Проблема разделения задач и игровые поста-
новки задач синтеза оптимальных систем............. 377
§ 1. Проблема разделения........................... 377
§ 2. Гарантирующие стратегии и задачи синтеза . . 395
§ 3. Использование канонических разложений фазового
вектора в задачах линейного синтеза............... 408
§ 4. Статистическая линеаризация и синтез нелинейных
систем управления................................. 416
ПРЕДИСЛОВИЕ"
В основу этой книги положен курс лекций по числен
ным методам теории оптимального управления, который
автор в течение ряда лет читает студентам Московского
физико-технического института, специализирующимся
в области прикладной математики, и цикл лекций по тео-
рии синтеза оптимальных систем, который автор прочел
в III Всесоюзной летней математической школе по мето-
дам оптимизации и управления в 1969 г.
Книга имеет своей целью дать представление об основ-
ных идеях, которые образуют фундамент современных
вычислительных алгоритмов теории оптимальных систем
управления, и обсудить основные концепции этой быстро
развивающейся дисциплины.
Что касается методов собственно теории оптимального
управления, то это сделать относительно нетрудно, так
как контуры наших возможностей здесь достаточно очер-
чены, а богатый опыт вычислительных организаций
служит гарантией построения относительно надежных
оценок.
Описание проблем теории синтеза значительно слож-
нее. Вычислительные методы теории синтеза оптимальных
систем управления разработаны гораздо слабее. Боль-
шую роль в этой теории играют разнообразные эвристи-
ческие соображения, впитавшие в себя огромный опыт,
интуицию и глубокое понимание содержания предмета,
которые сегодня есть у инженеров. Математик с его тра-
диционной манерой мышления часто оказывается бесси-
лен там, где инженер получает результаты, вполне удов-
летворяющие практику. Поэтому автору кажется заман-
чивой идея в первую очередь выделить те вопросы, кото-
рые уже сегодня получили отчетливую математическую
трактовку и для которых уже разработаны регулярные
конечные или итерационные методы анализа. Далее, веро
ятно, важно понять математический смысл тех приемов,
которые используют инженеры для построения систем
8
ПРЕДИСЛОВИЕ
управления. Это уже гораздо более трудная задача, и
в данной работе она только намечена.
Автору хотелось, чтобы данная книга была одновре-
менно и учебным пособием, которое вводило бы читателя,
не искушенного в теоретических вопросах оптимального
управления, в круг тех идей, на которые опираются сов-
ременные вычислительные процедуры этой теории. По-
этому книга начинается с изложения элементов теории
оптимального управления.
После изложения необходимых условий оптимальности
следует обсуждение основных методов и идей численного
решения задач оптимального управления, затем излага-
ются некоторые задачи синтеза. Такая последовательность
удобна для демонстрации генезиса тех идей, которые ис-
пользуются или могут быть использованы для создания
вычислительных процедур в теории синтеза.
Эта книга ни в какой мере не претендует на роль^эн-
циклопедии методов расчета теории оптимальных систем.
Она написана на основе опыта, приобретенного в Вычис-
лительном центре Академии наук СССР, и отражает пре-
жде всего опыт автора данной монографии и его взгляды
на существо изучаемых проблем.
В книге принята двойная нумерация формул и рисун-
ков. Первое число означает номер параграфа данной гла-
вы, второе — номер формулы или рисунка в данном пара-
графе. Если нужна ссылка на формулу из другой главы,
то этот факт специально оговаривается (например, см.
формулу (4.12) гл. II).
При подготовке рукописи я пользовался советами
и помощью многих лиц. Будаку Б. М., Гермейеру Ю. Б.,
Ермольеву Ю. М., Крылову!!. А., Ринго Н. И., Пшенич-
ному Б. Н., Фомину С. В., Шевченко Е. М. я обязан со-
ветами, вниманием и помощью. Вапнярский И. Б., Ватель
И. А. и Ерешко Ф. И. прочли рукопись в черновике и
внесли целый ряд изменений, значительно усовершенство-
вавших первоначальное изложение.
Всех указанных лиц я прошу принять мою глубокую
благодарность.
ГЛАВА I
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
(ТЕОРИЯ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ)
Даже на фоне общего прогресса естественных и тех-
нических наук теория управления в послевоенные годы
выделялась особым богатством новых идей и методов. Рас-
цвет теории управления, подготовленный всей предысто-
рией ее развития, тесно связан с появлением электронно-
вычислительной техники, благодаря которой обрело смысл
создание сложных алгоритмов управления.
Центральной идеей, определявшей развитие теории
управления в последние десятилетия, безусловно, была
идея оптимизации. Сама эта идея не нова. Уже в предвоен-
ные годы большое значение стали приобретать работы,
в которых изучалось качество управления. Основной за-
дачей теории управления в предвоенный период была, по
общему мнению, задача отыскания устойчивых управле-
ний. Но свойство устойчивости еще не выделяет един-
ственного решения. Поэтому естественно поставить во-
прос о том, как можно воспользоваться произволом, ко-
торый мы здесь имеем. Задачи нахождения управления,
обладающего в некотором смысле «лучшим качеством»,
уже содержали оптимизационную точку зрения. В сере-
дине 40-х годов стали актуальными задачи расчета траек-
торий ракет, решавших проблему достижения заданной
высоты или дальности, вывода на орбиту и т. д. при ми-
нимальном расходе горючего.
Количество работ, посвященных этим проблемам, в на-
стоящее время исчисляется десятками. Среди них я счи-
таю необходимым выделить работу Д. Е. Охоцимского
«К теории движения ракет» (ПММ, 10, № 2, 1946). В этой
статье уже содержалась (с точностью до терминологии)
современная постановка задач теории оптимального
управления.
Задачи, возникшие в теории летательных аппаратов,
снабженных ракетными двигателями, значительно отли-
чались от традиционных задач автоматического уп-
равления. В те годы усилия специалистов по теории
10
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
Сгл. т
гулирования (синоним автоматического управления) бы-
ли главным образом направлены на изучение способов уп-
равления стационарными движениями на бесконечном интер-
вале времени. Задачи же динамики ракет — это сущест-
венно нестационарные задачи, поскольку время протека-
ния процесса (работы двигателей) достаточно мало.
Поэтому, несмотря на то, что в динамике ракет изу-
чался один из классов управляемых движений, эта тео-
рия вначале развивалась независимо от теории автомати-
ческого управления. Это слияние произошло уже в пяти-
десятые годы, когда оптимизационные постановки задач
управления начинают занимать внимание и специалистов
по теории автоматического управления. Начало этим ис-
следованиям положили работы, посвященные исследова-
нию быстродействий (А. А. Фельдбаум и др.). Класс
оптимизационных задач, возникших в теории управле-
ния, не сводился к классическим задачам вариационного
исчисления и требовал создания специального аппарата.
Несмотря на то, что к началу пятидесятых годов целый ряд
конкретных задач такого типа был уже решен, в теории
управления еще не был выработан единообразный подход
к их анализу.
Выдающуюся роль в развитии теории оптимального
управления сыграл Л. С. Понтрягин, который сформули-
ровал принцип максимума, позволяющий с помощью мно-
жителей Лагранжа свести задачу оптимального управ-
ления к некоторой специальной краевой задаче для обык-
новенных дифференциальных уравнений.
После работ Л. С. Понтрягина и его школы в теории
оптимального управления произошла та канонизация
методов и языка, которая свидетельствует о появлении
новой дисциплины.
В настоящее время теория оптимального управления
и оптимизационная идеология глубоко проникли во все
исследования конкретного характера и конструкторские
разработки, и можно сказать без преувеличения, что язык
теории оптимальных процессов сделался общим языком
современной теории управления.
В технике возник термин «оптимальные системы». Это
очень расплывчатое понятие, которое не имеет еще чет-
кого математического содержания. Однако когда инже-
неры говорят о конструировании оптимальных систем.
ПОСТАНОВКА ЗАДАЧ
И
§ 11
то всем более или менее ясно, что это означает. Это озна-
чает, что на разных этапах конструирования системы вы-
бор ее элементов определяется теми или другими опти-
мизационными соображениями.
Как мы это увидим ниже, одна из особенностей задачи
проектирования «оптимальных систем» управления со-
стоит в том, что систему нельзя охарактеризовать одним
числом — одним критерием. Поэтому процесс конструи-
рования оптимальной системы — это целая цепочка опти-
мизационных задач.
В этой главе мы будем рассматривать первую из тех
задач, с которой встречается инженер (или экономист),
проектирующий оптимальную систему управления. Эта
задача носит название задачи расчета оптимальной про-
граммы (или оптимального плана). Мы будем изучать ее
только для динамических систем (эволюция которых опи-
сывается дифференциальными или разностными уравне-
ниями). В этом частном случае задача расчета програм-
мных движений совпадает с задачей теории оптимального
управления. Место этой задачи в общем процессе кон-
струирования системы управления динамическим объек-
том будет раскрыто в последующих главах этой книги.
§1.0 постановке задач теории
оптимального управления
1. Обсуждение технического содержания задач рас-
чета программных движении*). Во введении говорилось,
что один из первых вопросов, с которым сталкиваются при
разработке системы управления динамическим объектом,—
♦) Ряд дисциплин, занимающихся отысканием оптимальных
решений: линейное программирование, нелинейное программиро-
вание, теория оптимального управления, динамическое программи-
рование и т. д., объединяют обычно одним термином — математиче-
ское программирование. Этот термин неудачный, поскольку матема-
тическим программированием называют одновременно совокупность
дисциплин, связанных с переводом алгоритмов на язык машины
(и в том числе алгоритмические языки). В последнее время во-
просы, связанные с построением оптимальных решений, стали объе-
динять общим термином — программатика, оставляя за математиче-
ским программированием только вопросы, связанные с процессом
трансляции алгоритма на внутренние языки машины. Согласно
этой терминологии первые главы данной монографии содержат
краткое изложение методов программатики, используемых в теории
управления динамическими объектами.
12
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
(ГЛ. I
это вопрос о выборе программного движения. Поясним
содержание этой задачи.
Предположим, что речь идет об объекте, движение ко-
торого описывается некоторой системой дифференциальных
уравнений. Эту систему будем записывать в векторном
виде
£ = / (х, и, £), (1.1)
где — векторы с компонентами х*, и* и f* соответ-
ственно, х (t) — называется фазовым вектором (или век-
тором состояний), он определяет состояние системы в мо-
мент времени £, и (/) — управляющим вектором или уп-
равлением. Их размерности могут совпадать или быть
различными. Предполагается, что векторы х (t) и и (t)
могут изменяться лишь в некоторой допустимой области
(1.2)
«(ОеСв. (1.2')
Условие (1.2) называется фазовым ограничением, (1.2') —
ограничением на управление. Gx и Gu — некоторые задан-
ные множества.
Например, если описывается движение ракеты, за-
пускаемой в космос, то векторное уравнение (1.1) может
быть представлено в виде системы
я1 = 0J8f ф2 = х\
4
х3 = — (ф1 + u1 cos и2),
х4 = -^ (фа -J- и1 sin u2)t (1*1)
т = — F (и1),
в которой х1, х2 — координаты положения, х3, х4 — коор-
динаты скорости, т — масса ракеты, и1 — величина тяги,
и2 — угол между направлением тяги и осью х1, F (и1) —
секундный расход массы. Кроме силы тяги на ракету дей-
ствуют сила тяжести, сопротивление атмосферы и т. д.
Суммарные проекции этих сил на координатные оси обо-
значены через ф1 и ф2.
Для рассматриваемой задачи множество Gx — это
некоторая заданная область пространства, окружающего
ПОСТАНОВКА ЗАДАЧ
13
§ 11
Землю. Траектория ракеты не может пересекать поверх-
ность Земли, не должна заходить в зону радиационных
поясов и т. п.
Управление полетом ракеты осуществляется за счет
регулирования величины и направления вектора тяги дви-
гателя — управляющие функции — это тяга и1 и угол
и2. Тогда множество Gu — это множество всех значений
и = (и1, и2), допустимых из конструктивных соображений.
Движение динамического объекта стеснено некоторыми
начальными и конечными условиями, которые мы будем
обозначать следующим образом:
х (Т) GE (от*
Например, могут быть заданы начальное положение, ско-
рость и масса ракеты. В этом случае первое из условий
(1.3) запишется так:
(^о) *о, (Q
(^о) = X4 ($0) = Xq>
m(tQ) = mQ,
где xj, & я8, xj, mQ — фиксированные числа. Предполо-
жим, что ракета должна быть выведена на круговую ор-
биту заданного радиуса R. Тогда второе из условий (1.3)
будет таким:
(х1 (Т))2 + (х2 (Т))2 = 7?2,
х3 (Т) х1 (Т) + х4 (Т) х2 (Г) = 0, (1.3')
(х»(Т))а +(^(Г))»=^,
где Vr — это скорость соответствующего кругового дви-
жения.
Первое из этих условий означает, что точка с коорди-
натами (х1, х2) в момент времени t ~Т находится на окруж-
ности заданного радиуса R. Второе условие означает, что
векторы г и р, имеющие соответственно компоненты (х1, х2)
и (х3, х4), ортогональны, т. е. скорость точки в момент
t = Т направлена по касательной к окружности заданного
радиуса. Из третьего условия следует, что скорость точки
должна равняться скорости движения по круговой орбите.
14 ОПТИМАЛЬНЫЕ ПРОГРАММЫ СГЛ. I
Условия (1.3') гарантируют, что если при t = Т двигатель
будет выключен, то последующее свободное движение
будет движением по окружности.
Второе из условий (1.3) называется целью управления.
Достижение системой (1.1) за заданное время Т некоторого
конечного состояния (например, достижение аппаратом
заданной высоты, или выход аппарата на орбиту) может
быть реализовано, вообще говоря, бесчисленным множе-
ством способов, каждый из которых именуется програм-
мой (или программным движением). В технических зада-
чах обычно возникает вопрос об отыскании наиболее
«экономной» программы. Например, в случае ракеты про-
грамма будет тем более экономной, чем меньшее количе-
ство топлива будет израсходовано. Математическое вы-
ражение этого факта, согласно последнему уравнению
(1.Г), состоит в том, что управление и (t) должно быть
выбрано из условия минимума интеграла:
т
J(u)= ^Ftu^dt. (1.4)
to
Функцию и (0, которая удовлетворяет всем ограничениям,
обеспечивает достижение объектом цели управления и
доставляет минимальное значение интегралу (1.4), мы
будем называть оптимальной программой или оптималь-
ным управлением.
Не менее часто встречается и другая постановка за-
дачи. Например, при заданной энергии, которая может
быть израсходована для вывода ракеты, заданном времени
вывода и заданном расстоянии до перигея мы должны так
построить программу управления — так выбрать функцию
и (t) и соответствующую ей траекторию х (0, чтобы рас-
стояние до апогея было максимальным. При соответству-
ющем выборе переменных эта техническая постановка
задачи сводится к отысканию управления, максимизиру-
ющего функционал
J (х, и) = х\Т), (1.5)
где х1 — некоторая компонента вектора х.
Первая из задан называется задачей Лагранжа, вто-
рая — задачей Майера, функционал (1.4) (или (1.5))
§ t] ПОСТАНОВКА ЗАДАЧ 15
часто называют целевой функцией или функцией цели.
Он определяет «стоимость» достижения цели управ-
ления.
2. Математическая формулировка задач определения
оптимальных программ. В предыдущем разделе на при-
мере движения ракеты мы пояснили содержание задач
отыскания оптимальных программ. Теперь мы дадим
математическую формулировку тех задач, которые будут
рассматриваться в первых главах этой книги.
В достаточно общем виде задача оптимального управ-
ления может быть сформулирована следующим образом.
Определить вектор-функции х (/) GE Rn, и (t) е Rm
при t ЕЕ Uo> ^1» доставляющие минимум (максимум) функ-
ционалу
J = / (х, и) (1.6)
при дифференциальных связях
± = / (х, u, /), (1.7)
ограничениях вдоль траектории
(х, щ t)^G (1.8)
и краевых условиях
(1.9)
(х, Т) ЕЕ <$т*
Будем считать, что функции ft непрерывны и дифферен-
цируемы по совокупности переменных х и и. Множество
G — некоторая область пространства Rn X Rm X Я1,
а множества $0 и ёт — некоторые многообразия в
Rn X Л1. Конкретизация выражений (1.6) — (1.9) по-
рождает различные типы задач оптимального управления.
Принятая ниже классификация задач оптимального
управления является весьма условной, однако она помо-
жет читателю ориентироваться в литературе но данному
вопросу.
Типы задач можно разбить на три группы. В каждой
из групп определяющей характеристикой являются спо-
собы, с помощью которых задаются соответственно
1. Функционал (1.6).
2. Ограничения вдоль траектории (1.8).
3. Краевые условия (1.9).
16 ОПТИМАЛЬНЫЕ ПРОГРАММЫ [ГЛ. I |
1. Способы задания функционала.
а) Интегральный функционал. За-
дача Лагранжа. Интегральным функционалом
называется функционал вида
т
J (х,и) = J F (xfuft)dt, (1.10)
где F предполагается дифференцируемой функцией своих
переменных.
В случае отсутствия ограничений (1.8) задача о ми-
нимуме (1.10) при условиях (1.7) и (1.9) традиционно
называется задачей Лагранжа. Она является классической
задачей вариационного исчисления *).
б) Задача Майера. В этом случае минимизи- |
руемым функционалом является I
J(x, и) = Ф(х(Г), Г). (1.11) !
Например, для системы (1.Г) можно поставить следующую j
задачу Майера: определить управление и = (и1, и2) так, I
чтобы за заданное время Т достичь максимальной дальне- I
сти хх (Т) при условии, что х2 (Т) = 0, т. е. чтобы ракета
в момент времени t — Т оказалась на поверхности Земли.
Можно также рассматривать задачу Майера, в которой
функционал зависит от краевых значений фазовых коор-
динат на обоих концах.
Формально задача Майера является более общей, чем
задача Лагранжа: любая задача Лагранжа может рас-
сматриваться как частный случай задачи Майера. В самом
деле, рассмотрим задачу Лагранжа (1.7) — (1.10) и вве-
дем новую скалярную переменную xnjrl при помощи урав-
нения
^п+1 = р fa щ
Введем еще новый фазовый вектор х л вектор f
xi = х1, i = 1, 2, ..., п + 1,
f =f\ i = 1, 2, ..., 71,
yn+l _ p
*) Мы сформулировали задачу Лагранжа, несколько сузив ее
постановку по сравнению с классическими курсами вариационного
исчисления,*‘записав дифференциальные связи (1.7) в нормальной
форме Кощц.
I и ПОСТАНОВКА ЗАДАЧ 17
Теперь задачу (1.7) — (1.10) мы можем переформулиро-
вать следующим образом. Определить вектор-функции
и (0 и х (0, доставляющие минимум функционалу
7(x,u) = xn+1 (Г)
при условиях
В некоторых частных случаях задача Майера, в свою оче-
редь, может быть сведена к задаче Лагранжа.
Рассмотрим задачу Майера с функционалом (1.11)
и предположим дополнительно, что левый конец фазовой
траектории фиксирован
я (^о) = *0-
Вместо функционала (1.11) рассмотрим следующий:
л (*, и) = Ф (х (Г), Т) - Ф (х (/0), tQ). (1.12)
Поскольку Ф (х (Jo), tQ) — величина известная, то функ-
ции х (t) и и (t), доставляющие минимум функционалу
(1.12), доставляют также минимум функционалу (1.11)
и обратно.
Но нетрудно видеть, что
т Т г/ \ п
to to
т. е. задача с функционалом (1.12) — это некоторая за-
дача Лагранжа.
в) Задача Больца. Функционал сме-
шанного типа. Определить векторы и (t) и х (0,
доставляющие минимум функционалу
т
J (х, и) = J F (х, и, t) dt + Ф (х (М, «О» * (7*), Т) (1.13)
to
при ограничениях (1.7) — (1.9).
Легко видеть, что задача с функционалом (1.13) может
быть сведена к задаче Майера.
«8
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
г) Задачи на бы стродействие. Этим
термином объединяются задачи, в которых функционалом
(объектом минимизации) является время. Предположим,
что концы траектории фиксированы. Тогда задача на
быстродействие формулируется следующим образом: опре-
делить управление, которое переводит систему из состоя-
ния я0 в состояние хт за минимум времени. Задачи на быст-
родействие являются важным классом задач теории опти-
мального управления.
2. Способы задания ограничений вдоль траектории.
а) Ограничение на унравл е’н и е. Пусть
ограничение (1.8) имеет вид
U (0 е Gu (0, (1.14)
где Gu — некоторое замкнутое множество из Rm. В част-
ном случае, когда Gu совпадает со всем пространством
Дт, а функционал задан в виде (1.10), мы получаем задачу
Лагранжа.
Задачи с ограничениями на управление типа (1.14)
более адекватны вариационным задачам, возникающим
в технике: возможности управления всегда ограничены.
Например, часто встречаются ограничения типа
| и (0 |< а (0. (1.15)
Классические методы, развитые для решения задачи Ла-
гранжа, оказываются в общем случае неприменимыми при
наличии ограничений вида (1.14). Для подобных задач
в конце 50-х годов был разработан принцип максимума
Л. С. Понтрягина, который будет подробно рассмотрен
в § 3.
б) Ограничения на фазовые пере-
менные. Это ограничения (1.8) в следующей форме:
X (0 е Gx (<)• (1.16)
Смысл подобных ограничений был уже пояснен на при-
мере, который мы рассмотрели в начале параграфа.
Применимость того или иного метода решения задач
с ограничениями на фазовые координаты существенно
зависит от вида ограничений (1.16). Обычно здесь разли-
чают ограничения типа равенств
^(х(0, 0=0, / = 1, 2, .... к < п, (1.17)
5 11
ПОСТАНОВКА ЗАДАЧ
19
и ограничения типа неравенств
<24* (О, (1.18)
в) Совместные ограничения на уп-
равление и фазовые переменные.
Иногда ограничения на управление и на фазовые коорди-
наты не могут быть разделены, и тогда мы сталкиваемся
с задачей на «узкие места», в которой ограничения имеют
вид (1.8). Подобные задачи часто встречаются в экономике.
Здесь также различают ограничения в виде равенств
Q’ (х (/), и (0, 0 =0,7== 1, 2, ..., к < п + тп, (1.19)
и неравенств
Qj (х (0, и (0, 0 < 0. (1.20)
г) И з о п е р и м е т р и ч е с к а я задача (за*
д а ч а с интегральными ограниче-
ниями). Определить минимум функционала (1.6) при
следующих ограничениях:
т
= Д 7 = 1,2,...,*, (1.21)
to
где — некоторые скалярные функции, a iJ — заданные
числа. Название этому классу задач дала следующая
«историческая» задача, изучавшаяся еще в конце XVII
века: определить кривую данной длины, которая ограни-
чивает максимальную площадь.
Класс изопериметрических задач играет . большую
роль как в технике, так и в экономике, когда задан сум-
марный объем некоторого ресурса, которым мы^вправе
распоряжаться. (Например, когда задан запас горючего,
который должен быть использован для управления реак-
тивным аппаратом или самолетом.) Изопериметрическая
задача может быть сведена к задаче Лагранжа увеличе-
нием размерности фазового вектора х. В самом деле, для
этого достаточно ввести новые скалярные переменные при
помощи уравнений
= j = 1,2,. .. tk.
20
ОПТЙМАЛЬНЫЕ программы
[ГЛ. I
Функции я""*7 (Z) должны, кроме того, удовлетворять усло-
виям
*n+'(Q = 0,
хп+{ (Г) = L1.
Таким образом, изопериметрическая задача сводится
к задаче Лагранжа (или Майера — в зависимости от
Рис. 1.1.
структуры исходного функционала), но для вектора
х размерности п -|- к.
3. Способы задания краевых условий.
В общем случае многообразия $0 и $т в (1.9) — это
некоторые гиперповерхности в пространстве (х, t) (рис. 1.1),
задаваемые уравнениями
X1 {х (U, U = 0, 7 = 0,1, ..., s < п, (1.22)
Ф* (х (Т), Т) = 0, 7 = о, 1, ..., р ^п. (1.23)
а) Задача с фиксированными кон-
цами. Этот термин используется в задачах, в которых
х (i0) и х (Г) заданы. Различают также задачи с фикси-
рованным временем (£0, Т — заданы) и нефиксированным
(либо £0, либо Т не задано).
б) Задача со свободным концом. Если
х (/0) (или х (Т)) не задано, то мы имеем задачу со свобод-
ным левым (правым) концом. Здесь также различают
S 11
ПОСГАЙОВкА ЗАДАЧ
21
задачи с фиксированным и нефиксированным временем.
Задачи со свободным концом, как мы увидим ниже,
играют важную роль при построении численных методов.
в) Задача с подвижными концами.
Если tQ, Т - фиксированы, а векторы х (tQ) и х (Т) лежат
на гиперповерхностях, определяемых уравнениями (1.22)
и (1.23), то говорят о задаче с подвижными концами и
фиксированным временем. Если либо £0, либо Т в (1.22),
(1.23) не фиксировано, то мы получаем задачу с «переме-
щающимся многообразием» на соответствующем конце.
3. Задачи с дискретным временем. До сих пор мы го-
ворили о системах с «непрерывным временем», т. е. о си-
стемах, эволюция которых описывается дифференциаль-
ными уравнениями. Но не менее важное значение имеют
системы с «дискретным временем». Их роль определяется
не только тем, что при построении вычислительных про-
цедур мы всегда проводим дискретизацию нашей задачи —
заменяем дифференциальные уравнения конечноразност-
ными. Существует обширный класс технических и эконо-
мических задач, которые являются по существу дискрет-
ными. Это прежде всего многошаговые задачи принятия
решений. Практически всегда развитие экономической
системы описывается конечноразностными уравнениями.
Шаг дискретизации определяется циклом экономического
процесса. Например, в системах, которые описывают раз-
витие сельскохозяйственного производства, таким циклом
является год. Поэтому, наряду с динамическими систе-
мами типа (1.1), мы будем рассматривать системы конечно-
разностных уравнений вида
Д^п = /п (хп, un), (1.24)
где
Д#п == 2:п+1 жп,
хп — по-прежнему называется фазовым вектором, ип —
управлением.
Ограничения (1.2) и (1.2') сохраняют свой вид, если
заменить х (t) и и (t) на хп и ип соответственно.
Начальные и конечные условия мы будем записывать
в виде
GE S’oi
(1.25)
где N — число шагов многошагового процесса (1.24).
22 ОПТИМАЛЬНЫЕ ПРОГРАММЫ [ГЛ. 1
Мы можем сформулировать аналоги задач Лагранжа
и Майера:
а) Задача Лагранжа. Определить векторы
м0, иг, ..., ujv-i и •••> xn, доставляющие минимум
(максимум) скалярной функции
А7—1
J (х, и) — 2 Л (^b Ui) (1 -26)
2=0
при условиях (1.24), (1.2), (1.2') и (1.25).
б) Задача Майера. Определить векторы и0,...
..., ujv-i и х^ ..., доставляющие минимум (максимум)
скалярной функции
J (х, и) = Ф Ы (1.27)
при условиях (1.24), (1.2), (1.2') и (1.25).
Точно так же, как и в случае задач с непрерывным
временем, существует взаимосвязь обеих сформулирован-
ных задач (см. стр. 16). Подобно тому, как мы определили
конечномерные аналоги задач Лагранжа и Майера, могут
быть определены дискретные аналоги всех тех задач, ко-
торые были сформулированы в предыдущем пункте. На-
пример, изопериметрическими условиями в задачах с дис-
кретным временем мы будем называть условия вида
N-1
3 «;) = £. (1.28)
3=0
В этой книге мы будем рассматривать задачи оптими-
зации, возникающие в динамических системах, которые
описываются либо дифференциальными уравнениями
(1.1), либо конечноразностными уравнениями (1.24). Эти
два*класса, конечно, далеко не исчерпывают всего мно-
жества задач, которые относятся к программатике.
§ 2. Необходимые условия в задачах
классического вариационного исчисления
1. Задача Лагранжа. В предыдущем параграфе мы
подробно обсудили постановки и терминологию различ-
ных вариационных задач, относящихся к теории опти-
мального управления. Для их эффективного решения
§ 2] О ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ 23
могут быть использованы различные методы. Обширный
класс методов расчета оптимальных программ доставляют
методы, опирающиеся на необходимые условия оптималь-
ности.
Мы переходим теперь к изложению некоторых ус-
ловий такого рода — они будут использованы в дальней-
шем для построения вычислительных методов.
В предыдущем параграфе, формулируя задачи, мы не
акцентировали наше внимание на свойствах гладкости,
которым и должны обладать искомые функции. Поэтому
теперь, прежде чем переходить к отысканию необходимых
условий экстремума, мы несколько уточним постановку
рассматриваемой задачи.
В этом параграфе мы будем изучать следующую задачу
Лагранжа:
определить непрерывную вектор-функцию и (t) и
дифференцируемую вектор-функцию х (t) со значениями
из Rm и Rn соответственно, доставляющие минимум
функционалу
т
J(x,u) = J F(x, u,t)dt9 (2.1)
to
где F — скалярная, непрерывно-дифференцируемая функ-
ция своих аргументов, при условиях
& = / (х, и, 0, (2.2)
(х (/0), tQ) ЕЕ
, (х(Т), Г)е8т; (2‘3)
/ — непрерывно-дифференцируемая вектор-функция,
и — заданные множества из 7?n+1, структура которых
будет уточнена ниже.
Сразу же оговоримся, что развиваемые здесь методы
для задачи Лагранжа могут применяться и для исследо-
вания задач Майера и Больца. Кроме того, мы ограничим-
ся исследованием частного вида ограничений (2.3). Не-
обходимые условия для задачи Майера и Больца, а также
для случая ограничения (2.3) более общего вида будут
сформулированы и кратко обсуждены в н. 7 этого пара-
графа.
24
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
ф« =
2. Вспомогательная лемма. Для дальнейшего нам по-
надобится следующая
Лемма. Пусть f (t) — непрерывная вектор-функция.
Если интеграл
т
1=
<0
равен нулю для любой непрерывной вектор-функции <р (/),
то необходимо / = 0.
Доказательство. Пусть / ф 0, тогда суще-
ствует такая точка £*, что / (£*) =£= 0, и, следовательно,
существует интервал (t* — е, t* + е), где хотя бы одна
из компонент f (t) =/= 0.
Построим функции
f (0 — е — t)2(t* + 8— t)2f если t е [t* — 8, ** + 8],
0, если t g= [Г — 8, Г + 8]t
<pf = 0, если / =/= i.
Так как произведение <рг (t) f (t) на этом интервале не-
отрицательно и обращается в нуль только на концах,
то интеграл I положителен. Полученное противоречие
доказывает утверждение.
3. Вариации управления и траектории. Сейчас мы
приступаем к выводу необходимых условий. Рассмотре-
ние будем вести для случая фиксированного левого конца.
Обозначим через й некоторое управление, тогда соот-
ветствующая траектория % определится как решение
задачи Коши для уравнения (2.2). Далее обозначим через
8 некоторый скаляр (е может быть как положительным, так
и отрицательным), через ди - произвольную непрерывную
функцию и наряду с управлением й рассмотрим управ-
ление
= й + еби.
Вектор ди будем называть вариацией управления.
Через xz обозначим траекторию, определенную управ-
лением щ. Функция х< будет удовлетворять уравнению
= / (xt, и + eSu, t).
? 21 о ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ 25
Вариацией’фазовой траектории будем называть векторную
производную
, _ / \
\ дъ /е=о*
функция h (0 удовлетворяет уравнению
h = fxh + /U6u (2.4)
с начальным условием
h (U = 0. (2.4')
Уравнение (2.4) носит название уравнения в вариациях.
Здесь
'.-liS-L >-=1Я
i = 1,... ,и, / «1,...,п, к = 1,...,тп.
Вариацией функционала мы будем называть произ-
водную
т
6J = £ (Г) = lim f 4- (*.»« + «8», 0 - F (?, К, 0) dt =
= ]{(FK,h) + (Fu,bu)}dtt
to
где Fx, Fu — векторы частных производных F по х и и.
Функция | (f) удовлетворяет, очевидно, следующей за-
даче Коши:
i-(Pxth) + (Fui8u)t
l(O) = o.
4. Сопряженные (двойственные) переменные. В даль-
нейшем мы часто будем использовать понятие сопряжен-
ной системы уравнений.
Пусть мы имеем линейное неоднородное уравнение
* = Ах + Ь9 (2.6)
где А и b — матрица и вектор, элементы которых
и Ь1 — заданные функции времени.
26
ОПТИМАЛЬНЫЕ ПРОЗШММЬГ
ito; г*
Системой, сопряженной (2.6), называется система
гр = —Л*гр, (2.7)
где А* — сопряженная (транспонированная) матрица,
элементы которой получены перестановкой строк и столб-
цов матрицы А:
=
Вектор гр, удовлетворяющий уравнению (2.7), называется
вектором сопряженных или двойственных переменных.
Векторы х и гр обладают следующим важным свойством:
-А-ОМ^ОМ)- (2.8)
Справедливость равенства (2.8) устанавливается простой
проверкой
~4г (“Ф» *) = (Ф» ®) + (Ф. ^) = — 04*Ф,*) + (t,Ах + Ь) =
= — *) + (^*Ф,х) + Ь) = (ч>, Ь).
Составим теперь систему уравнений, сопряженную
системе (2.4), (2.5). Легко видеть, что эта система будет
иметь следующий вид:
Ф = —f*ty — ^хЯ’о, (2.9)
% = о,
где гр — n-мерный вектор, а гр0 — скаляр.
Сопряженные переменные гр0, гр19 ..., грп называются
также множителями Лагранжа или импульсами. Заметим,
что, в силу однородности, уравнения (2.9) определяют со-
пряженные переменные с точностью до постоянного мно-
жителя.
Используя сопряженные переменные, можно получить
выражение для вариации функционала в форме, удобной
для составления необходимых условий минимума.
Составим скалярное произведение
м (0 = (ф, h) + ф0£. (2.10)
На основании свойства (2.8)
^ = (tJu6u) + i|>o(Fu,&0. (2.11)
§ 2]
О ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ
27
откуда
т
м (Т) - М (f0) = J ((t/u + Vtt), М dt. (2.12)
to
5. Необходимые условия минимума в задаче со сво-
бодным концом. Вывод необходимых условий мы начнем
с рассмотрения задачи со свободным правым концом, по-
скольку для этого случая можно продемонстрировать
технику вывода, не усложняя ее тонкими рассуждениями,
необходимыми в общем случае.
Итак, рассмотрим задачу со следующими краевыми
условиями:
ж (tQ) = х0, £0, Т заданы. (2.13)
На правый конец х(Т) никаких ограничений не наклады-
вается.
Из (2.10), согласно (2.4') и (2.5), при t = tQ имеем
М (tQ) = 0, поэтому из (2.12) получаем
т
((М) + to?) h—T = f ((t/u + to^u), 6u) dt,
to
откуда
т
(to?) h=T = — (t>h) |t=r + J ((t/u + to^u), 6u) dt. (2.14)
to
Распорядимся вектором сопряженных переменных, под-
чинив значения ф0 (Г) и ф (Т) следующим условиям:
t (Т) = 0, (2.15)
to (Г) = -1. (2.16)
Так как to = 0, то и для любого t
-ф0 = const = —1.
Для вариации функционала мы получаем следующее
выражение:
т
6/-----J (Сф/„ - Fu), &u)dt. (2.17)
28
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
Предположим теперь, что й (t) является оптимальным
управлением. Тогда 6/ = 0 для любых Su, не стесненных
никакими условиями. Отсюда, согласно лемме п. 2, сле-
дует, что для любого t
^fu~fu = 0. (2.18)
Если ввести функцию Гамильтона
Н = (ф, /) - F, (2.19)
то условие (2.18) можно записать в виде
^- = 0. (2.20)
Итак, мы пришли к следующей теореме:
Теорема. Если функции й (t) и % (t) доставляют
минимум функционалу (2.1) при условиях (2.2) и (2.13),
то существует такая непрерывная вектор-функция ($),
удовлетворяющая уравнению
Ф = -Лф + ^ = --^- (2.21)
и условию
ф (Т) = 0, (2.22)
что управление й (t) в каждый момент времени I является
стационарной точкой функции Гамильтона.
Условие (2.22) представляет собой частный случай
условий трансверсальности, общий вид которых будет
приведен в п. 7.
Сопряженные уравнения (2.21) и условия стационар-
ности (2.20) представляют собой уравнения Эйлера клас-
сического вариационного исчисления.
Итак, функции £ (t) и ф (t) необходимо должны быть
решением некоторой краевой задачи для системы диффе-
ренциальных уравнений порядка 2п, которую мы получим,
если определим и (t) из условия стационарности (2.18)
и = й (х9 ф, t)
и подставим функцию и в уравнения (2.2) и (2.21)
* = 7 (xt ф, 0,0 = f(xt ф, t),
Ф = — Г* (®,«(®,' ф, 0» 0 Ф + («>«(®»Ф» 0» 0 — Ф (*• Ф» <)♦
g 21 О ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ 29
Порядок этой системы равен 2п, и для отыскания интере-
сующего нас множества решений мы имеем также 2п
условий: на левом конце задано п компонент фазового
вектора х (/0), на правом конце значения сопряженных
переменных ф (Г) = 0.
Примечание. Особенность задачи со свободным
концом состоит, таким образом, в том, что на правом кон-
це траектории полностью
са. Это обстоятельство (как
мы увидим ниже) делает
задачу со свободным кон-
цом наиболее простой для
численного решения среди
других задач оптимально-
го управления.
6. Необходимые усло-
вия в задаче с фиксиро-
ванным временем и под-
вижным правым концом.
Перейдем теперь к рас-
смотрению более сложной
задачи. Время Т по-преж-
определен вектор импуль-
Рис. 2.1.
нему будем считать фиксированным, но на правый конец
наложим дополнительное ограничение типа (2.3): будем
считать, что траектория должна оканчиваться на по-
верхности Ф (х) = 0, т. е. должна удовлетворять гранич-
ным условиям
# (*о) —
Ф (X (Г)) = о,
(2.23)
(2.24)
где Ф — вектор-функция с компонентами Ф*, к = 1, 2,...
..., р < п, якобиан которой имеет свой максимальный
ранг р.
Таким образом, задача состоит в отыскании управ-
ления, которое переводит систему из точки (Zo, xQ)
на поверхность Ф (х) = 0 за заданное время Т — t0
(рис. 2.1).
Для изучения этой задачи мы не можем непосредствен-
но применить рассуждения предыдущего параграфа. В са-
мом деле, эти рассуждения основывались на том, что
функция й (0 реализует экстремум функционала на всем
множестве возможных управлений. Отсюда следовало.
30
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
что SJ == 0, какие бы ни были вариации Su. В рассматри-
ваемой задаче, поскольку заданы концевые условия
(2.24), условие 6J = 0 должно выполняться не для про-
извольных вариаций Su, а только для тех из них, которые
не разрушают концевых условий. Поэтому приведенное
доказательство необходимых условий для задачи с под-
вижным правым концом должно быть заменено другим.
Это доказательство мы проведем, опираясь на схему рас-
суждений Блисса *).
Пусть Su/ (г = 1, ..., р + 1) — некоторые заданные
функции, а й — оптимальное управление (решение за-
дачи). Составим новое управление
р+1
и = и 4~ 2 (2.25)
г==1
где 8/ — параметры, которыми мы можем распоряжаться.
Функция £ (£), соответствующая оптимальному управ-
лению, удовлетворяет условиям (2.24). Функция х (£),
определенная управлением (2.25), в общем случае уже не
удовлетворяет условиям (2.24) при произвольных значе-
ниях параметров е*. Зададим некоторое число I и подбе-
рем р + 1 параметров 8$ так, чтобы имели место условия
J (х9 и) = J (т, й) 4~ Z, ^2 26)
ф*(г(Т)) = 0, £ = 1,.Л,р. k ‘ 7
Эта система имеет решение при I == 0. Решением будут
нулевые значения параметров ef.
Если определитель
dJ dJ 0J
081 д&2
д = 0Ф1 0Ф1 0Ф1
081 082 ^8Р+1 (2.27)
дфр дфр дфр
081 081 р+1 6i=o
♦) См. Г. А. Б л и с с, Лекции по вариационному исчислению,
ИЛ, 1950.
§ 21 О ЗАДАЧАХ ВАРЙАЦЙОНЙОГО ИСЧИСЛЕНИЯ 31
элементы которого вычислены при ef=* 0, отличен от
нуля, то система (2.26) имеет единственное непрерывное
решение (Z) (обращающееся в нуль при I = 0) для любых
I в некоторой окрестности | 11 р, р 0.
Очевидно, что в этом случае й (Z) и $ (Z) не могут быть
оптимальным решением, поскольку может быть построено
управление
р4*1
и = U + 2 8i (0 ^Uii Or
i=l
такое, что
J (х9 и) = J (х, и) -|-19 I 0,
Ф(?(Т)) = 0,
т. е. функционал может быть уменьшен при сохранении
граничных условий.
Итак, определитель Д = 0. Заметим, что элементы
этого определителя
т
(дФк\ зфк , , .
( deg )ев=0 ~ дх h” Л — !»• • •
где Л8 находится из уравнения
h3 = hs + 6и8,
8 дх 8 'ди
Л,
полностью задаются системой функций 6и8. Следователь-
но, и ранг Д определяется этими же функциями. Пусть
{би8} — система функций, доставляющих определителю
Д максимальный ранг + 1. В этом случае, в силу
линейной зависимости строк, необходимо должны су-
ществовать числа v0, v1? не все равные нулю, такие,
что для любого $ имеет место равенство
р к
VoB,(D + S vk = о, S = 1,2,. + 1.
32
Оптимальные программу
[гл. I
Теперь покажем, что это равенство должно иметь место
для любых би. В самом деле, пусть найдется вектор-функ-
ция Sup+2, для которой оно не имеет места. Тогда, взяв
в качестве новой системы функций совокупность 6и2,
Su3, ..., 6up+1, (считая для определенности, что стол-
бец, соответствующий 6иь есть линейная комбинация
остальных столбцов Д), мы построим определитель Д,
ранг которого будет больше что противоречит предпо-
ложению о том, что q есть максимальный ранг Д.
Итак, мы приходим к следующему основному необ-
ходимому условию:
Теорема. Если й и % — оптимальные управление
и траектория, то необходимо должны существовать числа
v0, vx, ..., Vp, не все равные нулю, и такие, что, какова бы
ни была вариация управления би, имеет место равенство
Р
+ = & <2-28)
Еще раз подчеркнем, что вариация би здесь произ-
вольна; в частности, она может разрушать граничные ус-
ловия на правом конце. При преобразовании условий
(2.28) нам понадобится формула (2.14) для вариации функ-
ционала, которую мы запишем в виде
т
4>оё (Т) = - (Ч>. h) |(==т + J (4т-. Su) dtt (2.29)
где
Н = (ij>, /) + фоЛ (2.30)
а фо и ф = {фь ..., фп} — сопряженные переменные, удов-
летворяющие системе
фо = О
*— 4Г (2.31)
Положим i|50 = v0, тогда, подставляя (2.29) в (2.28),
мы приведем необходимое условие оптимальности к виду
7* р R \ \ I
j (-Й- • + - * + 2 ТГ- • 4 = °' <2-32>
*0
§ 21 О ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ 33
Распорядимся выбором сопряженных функций, подчинив
их условиям
(2-33)
К=1 1
с тем чтобы внеинтегральное слагаемое в (2.32) равнялось
нулю для любых вариаций h (Т) (в том числе и для тех,
которые приводят к разрушению граничных условий на
правом конце).
Поскольку оставшееся интегральное слагаемое в (2.32)
должно быть равно нулю при любом выборе би, из леммы
п. 2 получаем, что на оптимальной траектории должно
быть выполнено условие стационарности функции Га-
мильтона
^•-0- (2-М)
Итак, мы получили следующую теорему:
Теорема. Если вектор-функции й (t) и % (t) до-
ставляют минимум функционалу (2.1) при условиях
(2.2), (2.23) и (2.24), то существует такая ненулевая,
непрерывная вектор-функция ф = (ф0, Ф), удовлетворя-
ющая системе (2.31)' и условию (2.33), что управление
й (/) является стационарной точкой функции Гамильтона
(2.30).
Условие (2.33), наложенное на ф (Т), имеет простой
геометрический смысл: вектор ф (Г) ортогонален гранич-
ному многообразию Ф (х (Т)) == 0, т. е. для любых
h (Т), удовлетворяющих условиям
( дФк Л п , .
1—5—,п\ =0, « =
\ дх j t—T * > > -г»
выполняется
0М)Ь-т =0.
Действительно,
(М)1г-т =(Sv»-^-’fe)LT =Sv*(-^-,A)|(=T =0-
Условия (2.33) называются условиями трансверсальности.
2 Н. EL Мояееея
Но
34
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
(ГЛ. 1
Сопряженные уравнения (2.31) и условия стационарности
(2.34) представляют собой уравнения Эйлера.
7. Дальнейшее обобщение необходимых условий. Рас-
смотрим, какие изменения возникнут в необходимых ус-
ловиях оптимальности в случае иного задания граничных
условий. Если конечное время Т не закреплено, то для
задачи Лагранжа, в которой граничные условия на правом
конце заданы в виде
Ф (х (Т). Т) = 0, к == 1, ..., р < п + 1,
из основного необходимого условия, аналогичного (2.28),
после замены
h (Г) = дх (Т) - / (х (Т), и (Т), П 8Т
получаем соотношение
т / . . р » \ |
J + (— 'Р + S v«c |f_r +
U ft—1
+ (Я+2 vk-^-)t=T6T. (2.35)
It—1
По-прежнему, выбирая ар (Г) в виде (2.33) и рассматривая
(2.35) при 6Т = 0, мы приходим снова к необходимому
условию (2.34) стационарности Н по и. Далее, поскольку
первые два слагаемых в равенстве (2.35) оказываются
равными нулю при любом выборе вариации би, а это ра-
венство должно выполняться и при 6Т =^= 0, то для слу-
чая нефиксированного конечного времени Т мы получаем
дополнительное необходимое условие
Я|.-г=-2т,^-1_т. (2.36)
к—1
В случае, если время t не входит явно в граничные ус-
ловия и конечное время Т не фиксировано, из (2.36) по-
лучаем условие обращения в нуль функции Гамильтона
Н |<=т = 0. (2.37)
Для автономной задачи (когда время t не входит явно
в функционал, уравнения связи и граничные условия)
§ 2] О ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ 35
при нефиксированном Т применение приведенных рас-
суждений для произвольного момента времени т
(Z0<^t^T) показывает, что функция Гамильтона равна
нулю на всем отрезке Т1:
Н = const = 0, t е ГЬ (2.38)
Последний результат важен потому, что всякую не-
автономную задачу с помощью замены
хп^==1
dxn^ ,
и введения дополнительного уравнения связи —— = 1,
хп+1 (*о) — можно свести к автономной задаче, для ко-
торой функция Гамильтона тождественно равна нулю
Я + 1|>п+1-1 = о,
откуда
%+i = —н,
и сопряженное уравнение для Я’п+г
к д(Я4-1|>п+1) _ он
*n+1 ~ ^"+1 ~ dt
принимает вид
Я = (2.39)
Таким образом, функция Гамильтона удовлетворяет диф-
ференциальному уравнению (2.39). Это уравнение пона-
добится нам в дальнейшем при выводе условий Эрдмана —
Вейерштрасса.
До сих пор все рассуждения, с помощью которых были
получены необходимые условия, проводились в предпо-
ложении, что оптимальное управление й (t) является не-
прерывной функцией времени. Как будут выглядеть не-
обходимые условия, если оптимальное управление й (t)
является кусочно непрерывной функцией (функцией,
имеющей конечное число разрывов первого рода)?
Если по-прежнему рассматривать непрерывные вариа-
ции управления би (£), то вариации фазовых координат
h (t) в случае разрывного й (t) останутся непрерывными,
2*
36
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. Г
но будут кусочно дифференцируемыми функциями, име-
ющими угловые точки при значениях времени t = т,
соответствующих разрывам й (t). Основное свойство (2.8)
сопряженных переменных также остается справедливым.
При этом ф (t) аналогично h (t) является непрерывной,
кусочно дифференцируемой функцией, так что в точках
t = т разрыва й (t)
ф (т~) = ф (т+). (2.40)
Все другие приведенные выше рассуждения дословно
проходят и для случая кусочно непрерывного управления
й (0* Поэтому установленные выше результаты остаются
в силе. Используя, в частности, (2.39), мы получаем, что
функция Гамильтона непрерывна в точках t = т разрыва
« (0
Я|<вХ- = Я|^. (2.41)
Условия (2.40), (2.41) называются условиями Эрдмана —
Вейерштрасса. Они требуют непрерывности сопряженных
переменных и функции Гамильтона в точках разрыва
й(0.
До сих пор мы вели рассмотрение для задачи Лагранжа
(задачи с интегральным функционалом). Что изменится
в полученных результатах, если рассматривается задача
Майера (функционал задан в виде функции конечного
состояния) или задача Больца (смешанный функционал)?
Повторение аналогичных рассуждений показывает, что
все необходимые условия, кроме условий трансверсаль-
ности, не изменяют своего вида. При этом функция Га-
мильтона для задачи Майера записывается в форме
п
н =2 ws
т. е. включает в себя только правые части дифференциаль-
ных уравнений.
Условия трансверсальности в задаче Майера с фикси-
рованным конечным временем Т и функционалом
/ = фо(х(Т))
О ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ
37
принимают вид
р ,
<2-42>
Если в задаче Майера конечное время Т не фиксиро-
вано и функционал задан в виде
J = Ф° (х (Т), Т),
то условия трансверсальности (2.42) дополняются еще
одним соотношением
я I,.,-(2.43)
bl
Из (2.43) видно, что если время t не входит явно в гранич-
ные условия и функционал, то должно быть
Я|е»т = 0. (2.44)
Для автономной задачи Майера условие (2.44) выполняется
тождественно для всех t:
Н = const = О, IE [£0> Л.
Условия трансверсальности для задачи Больца в точ-
ности совпадают с условиями трансверсальности в задаче
Майера. Отличие только в виде функции Гамильтона,
имеющей дополнительное слагаемое ф0/°.
В самом общем случае задачи Больца, когда tQ и Т
не фиксированы, а левый и правый концы подвижны, т. е.
граничные условия заданы в виде
«о)=О, s*= 1, ..., q, q^n + 1,
Фк (ж (Г), Т) = 0, fc=l, .... р, p^n + i,
а функционал
т
J = Ф° (ж (Г), Т) — х° (ж (i0), ie) + J /» (х, и, 0 dt,
t)
основное необходимое условие (2.28) принимает вид
W - S и А’ + S **6Ф* = о
а к
38
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
(ГЛ. I
и схема рассуждений, аналогичная той, которая была
проведена в п. 6, приводит к условиям трансверсальности
в виде
*(>.)=(*.> +S (2.45)
>оз1
(2.46)
8=1
(2.47)
(2.48)
v R=1 ’
Если t0 или T закреплены, то из условий (2.45) — (2.48)
исключаются условия (2.46) или (2.48) соответственно.
Сопряженная вектор-функция, для которой сформули-
рованы приведенные необходимые условия, вообще говоря,
является неединственной. Во всяком случае, она опре-
делена пока с точностью до произвольного постоянного
множителя.
Выделим класс задач, в котором (после соответствую-
щей нормировки) сопряженная вектор-функция оказы-
вается единственной. Для этого снова вернемся к выводу
основного необходимого условия (2.28), приведенного
в п. 6.
Рассмотрим определитель А, строки которого суть ва-
риации функционала и граничных условий на выбранном
(р + 1)-параметрическом семействе вариаций 6us. Если
максимальный ранг матрицы, полученной из (2.27) вы-
черкиванием первой строки, в точности равен своему мак-
симально возможному значению, то будем называть этот
случай нормальным, в противном случае — анормальным.
Для нормального случая первая строка А есть линей-
ная комбинация остальных строк. Отсюда следует, что
коэффициент v0 отличен от нуля. Поэтому в нормальном
случае систему чисел v0, v1? ..., vp можно пронормировать,
разделив все на —Vq. В результате, переобозначив
—vfc/v0 на vfc, получим основное необходимое условие
f2i Ь ЗАДАЧАХ ВАРИАЦИОННОГО ИСЧИСЛЕНИЯ 39
(2.28) в виде
р
- 6J + 3 vk6O^/=T = 0. (2.49)
к==1
Покажем, что в нормальном случае система чисел —1,
vx, удовлетворяющая (2.49), является единственной^
В самом деле, если существует другая система чисел —1,
Pi, ..., для которой при любых вариациях ди (t) вы-
полняется условие
р
- 6J + 2 цк6Ф* к-т = 0, (2.50)
fc—1
то, вычитая (2.50) из (2.49), мы получим, что существует
ненулевая система чисел
«к = Vfc — рк, к = 1, ..., р,
для которой
р
3 ац8Фк jf=T = 0,
k=i
т. е. строки матрицы, составленной из элементов опреде-
лителя Д вычеркиванием первой строки, линейно зави-
симы, что противоречит определению нормального слу-
чая. Итак, мы установили, что если управление й (t)
оптимально, то существует сопряженная вектор-функция
такая, что выполняются условия трансверсальности и ус-
ловия стационарности Н по и, причем для большинства
практических задач (для нормальных случаев) сопряжен-
ная вектор-функция после нормировки оказывается един-
ственной.
Помимо этих необходимых условий оптимальное
управление должно удовлетворять еще одному условию—
необходимому условию Вейерштрасса, требующему не-
положительности функции Вейерштрасса
Е = Н - Н < 0, (2.51)
где Н и Н берутся соответственно при произвольном и
оптимальном управлениях и (t) и й (t).
40 ОЙТЙМАЛЁНЫЁ ПРОГРАММЫ [ГЛ. t
Из (2.51) следует, что в каждый момент времени функ-
ция Гамильтона Н достигает своего максимального значе-
ния на оптимальном управлении и = й (t) *).
Мы не будем специально выводить условие Вейер-
штрасса, поскольку оно содержится в более общем ре-
зультате — в принципе максимума Л. С. Понтрягина.
В курсах классического вариационного исчисления
устанавливается еще одно необходимое условие — усло-
вие Якоби отсутствия сопряженной точки на исследуемой
траектории. Желающим детально разобрать условие
Якоби мы рекомендуем обратиться к соответствующим
источникам **).
§ 3. Принцип максимума Л. С. Понтрягина
1. О постановке задачи Л. С. Понтрягина. В преды-
дущем параграфе мы рассмотрели задачу Лагранжа и
установили необходимое условие оптимальности. Оно
состояло в том, что оптимальное управление должно
быть стационарной точкой функции Гамильтона, т. е.
удовлетворять векторному уравнению
Если решение этого уравнения единственно, то мы
можем определить управление и = й (х, ф, t), и, следова-
тельно, получаем возможность свести вариационную за-
дачу к решению некоторой краевой задачи для обыкновен-
ных дифференциальных уравнений.
Основное предположение, сделанное при изучении
задачи Лагранжа, состояло в том, что управление может
принадлежать всему пространству — на управление не
♦) Нормировка v0 == 4-1 отличается от v0 = —1 тем, что со-
пряженная вектор-функция (—1, фх (0» ...» Фп (0), соответствующая
v0 = —1, умножается на —1. Поэтому при v0 = 41 знак неравен-
ства в условии Вейерштрасса (2.51) следует заменить на обратный.
Именно в таком виде условие Вейерштрасса приводится в курсах
классического вариационного исчисления. При выборе коэффициен-
та нормировки v0 = —1 условие Вейерштрасса совпадает по форме
с основным утверждением принципа максимума Л. С. Понтрягина.
**) См., например, Г. А. Б л и с с, Лекции по вариационному ис-
числению, ИЛ, 1950.
§ 3] ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 41
налагалось ограничений. В практических задачах, од-
нако, множество допустимых управлений, как правило,
имеет существенно «неклассический» вид: оно ограничено,
во многих случаях многосвязно, может не иметь внутрен-
них точек и т. д. Для таких задач необходимые условия
в том виде, как они установлены выше, естественно, не-
пригодны. Их дальнейшим и существенным расширением
является замечательный результат, установленный
Л. С. Понтрягиным *). Согласно теореме Л. С. Понтря-
гина, получившей название «принцип максимума», опти-
мальное управление должно доставлять функции Гамиль-
тона максимальное значение.
Благодаря принципу максимума, редукция вариаци-
онной задачи к краевой получила широкое распростра-
нение и в настоящее время лежит в основе большинства
используемых алгоритмов.
Итак, рассматриваем задачу:
Определить вектор-функции й (t) и f (£), доставляющие
минимум функционалу **)
т
J (х, и) = J /° (г, u, I) dt (3.1)
при условиях
£ = (3.2)
u^GU9 (3.3)
(х (£0), £0) G <£Of (х (Г), Г) ЕЕ (3.4)
где Gu — некоторое замкнутое множество допустимых
управлений, и $т —заданные многообразия (п + 1)-
мерного пространства начальных и конечных условий,
структура которых будет уточнена ниже, а функции /°,
/ (А Л •••> Г) и их частные производные по х непре-
рывны по совокупности переменных.
•) Л. С. Понтрягин, В. Г. Б о л т я н с к и й, Р. В.
Гамкрелидзе, Е. Ф. Мищенко, Математическая теория
оптимальных процессов, Физматгиз, 1961.
**) В § 2 мы использовали для обозначения подынтегральной
функции букву F; здесь, как будет видно из дальнейшего, нам
удобнее использовать
42 ОПТИМАЛЬНЫЕ ПРОГРАММЫ [ГЛ. г
Управление и (t) мы будем разыскивать в классе ку-
сочно непрерывных функций.
Если не считать иных, более слабых предположений
относительно свойств непрерывности функций /°, /, то
единственное внешнее отличие рассматриваемой задачи от
задачи Лагранжа, которая изучалась в предыдущем пара-
графе, состоит в появлении нового условия (3.3). Однако
именно это обстоятельство и делает задачу значительно
более трудной. Осложнения, которые возникают вслед-
ствие условия (3.3), связаны с тем, что допустимые вариа-
ции управления должны удовлетворять условию
и = й + 8и Е= Gu,
т. е. вариации управления теперь не произвольны, они
должны удовлетворять заданным ограничениям.
Исходное утверждение, которое мы использовали для
получения необходимых условий в задаче Лагранжа, со-
стояло в следующем.
Для того чтобы Я, й доставляли минимум функционалу
J (х, и), необходимо, чтобы вариация функционала обра-
щалась в нуль
8J (Я, й, бх, 8и) = О
для любых допустимых *) вариаций бх, би.
Это условие аналогично условию обращения в нуль
линейной части приращения функции <р (х), т. е.
ф' (х) dx = О,
которое мы имеем в теории экстремума функции одной
переменной, когда х принадлежит всей числовой оси.
Предположим теперь, что минимум разыскивается на
отрезке [хх, х2] (рис. 3.1). Если минимум достигается.в гра-
ничной точке хг или х2, то в этом случае имеет место не-
обходимое условие, требующее лишь неотрицательности
динецной части приращения функции
ф' (х) dx > 0.
♦) То есть таких вариаций ба? и би, которые связаны уравнения-
ми вариаций и це нарущают граничных условий исходной задачи.
I 31 П^ЙНЦЙП МАКСЙМУМА Л. G. ПОНФРЯГИЙА 43
Так же обстоит дело и в том случае, когда мы имеем
функционал J (х, и), а область допустимых значений
управления Gu замкнута. Если й реализуют минимум
J (х, и), то необходимо, чтобы вариация функционала была
неотрицательна
6J (Я, и, бх, би) > О
для любых допустимых вариаций бх, би.
Примечание. Заметим, что в некоторых случаях
задачу Л. С. Понтрягина можно свести к задаче, рассмот-
ренной в предыдущем параграфе. Например, если управ-
ление и — скалярная величина, удовлетворяющая нера-
венству
то можно либо произвести замену
u = sin а,
либо дополнить число управлений новой переменной р,
определяемой условием Валентайна
р2 + (и + 1) (и-1) = 0.
При этом на а в первом случае и на Р во втором — не на-
кладывается ограничений типа неравенств. Далее, рас-
сматривая участки непрерывности управлений, можно,
используя технику предыдущего параграфа и принцип
ОЙТИЙАЛЬЙЫЕ ПРОГРАММЫ
tttL i
Вейерштрасса, получить результаты, аналогичные прин-
ципу максимума.
Л. С. Понтрягин предложил иной путь решения по-
ставленной задачи, позволивший получить более сильные
и общие результаты, спра-
ведливые для любых зам-
кнутых областей управле-
ния, в частности, для тех,
которые нельзя «раскрыть»
с помощью искусственных
приемов рассмотренного
типа.
2. Игольчатое варьиро-
вание управления. Цент-
ральным понятием, позво-
ляющим построить необ-
ходимые условия миниму-
ма в задаче Л. С. Пон-
игольчатого варьирования
управления.
Будем называть управление й (t) допустимым, если
й (Z) — кусочно непрерывная функция со значениями
из Gu.
Предположим, что й (t) — некоторое допустимое уп-
равление и Ж (t) — соответствующая фазовая траектория.
Игольчатым варьированием управления будем назы-
вать следующую конструкцию (рис. 3.2):
f если JSfT.T + eZL
“«=U(‘). ее» <3'5>
трягина, является понятие
где т — заданная точка непрерывности функции й (Z),
I — заданное положительное число, 8 — произвольное
положительное число такое, что < т + eZ < Т, а по-
стоянная v такова, что
Разность ug (t) — й (t) ~ би (t) будем называть игольча-
той вариацией управления.
3. Вариации траектории. Рассмотрим задачу, в которой
левый конец траектории фиксирован, т. е. х (Zo) =
ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА
45
|з!
tQ задано. Нас будет интересовать результат воздействия
на траекторию игольчатых вариаций управления.
Для дальнейшего удобно вместо функционала (3.1)
ввести эквивалентное ему уравнение
±° = f (х, и, t); х9 (t0) — О
и рассматривать расширенный фазовый вектор
х = (х°, х1, хп) = (х°, х)
и расширенный вектор правых частей
Г = (Л А ...» /п) = (А /)•
Заметим, что функционал (3.1) равен конечному зна-
чению xQ (Т):
J (х, и) = х* (Г),
а уравнение для вектора х имеет вид
# = / (я» и,1),
т. е. /не зависит от xQ.
Введем так же, как и в предыдущем параграфе, вариа-
ции фазовых координат, но для расширенного вектора х.
Обозначим через х9 фазовую траекторию, соответству-
ющую управлению ие, и определим вариацию фазовой
траектории
где х — траектория, соответствующая рассматриваемому
управлению й.
Содержательный смысл вариации h(t) состоит в том,
что при 8 0 выражение гК (t) является главной линейной
частью приращения фазовой траектории, возникающего
вследствие игольчатого варьирования управления.
Так как хъ и х удовлетворяют уравнениям связи
Xz -- f £),
x = f(x9u,i)t
(3.6)
(3.7)
46
ОПТЙМАЛЬНЫЁ ПРОГРАММЫ
trn. t
то
t
xt = xt (t0) + J f (x„ ut, t) dt,
to
t
x(t) = x (Zo) + J f (®, U, t) dt.
to
Вычитая из первого равенства второе, деля на е и
переходя к пределу, получим
t
h (t) = h (t0) + lim -i- {/ (x„ ut, t) — f (x, u, t)} dt.
e~*0 7 6
to
Из определения u,(0 видно, что для любого t < т
ас, (0 — х (0 = О,
и, следовательно,
h (t) = 0, если t е= [Zo, т). (3.8)
При i>-r получим
Л (0 = Иш \ {/ (ж*> м«» 0 ~ / (®»“•0} dt +
е~*0 t) e
t
+ lim ~{f(xt,u,t) — f(xtutt)}dt.
<-*O V , e
T-j-cZ
Легко видеть, что для любого i > т
|х,(0-ж(О| = О(8). (3.9)
В самом деле, ас, (0 — х (0 = 0 при t = х. Далее, ас, и
х изменяются на интервале [т, т + eZ], следуя уравнениям
(3.6) и (3.7), где ц,=^= й. Тем не менее, в силу того, что
интервал имеет длину О (в), мы получаем оценку (3.9)
для t — г + е/. А на интервале (т + el, Т] изменение
функций ас, и х происходит снова согласно одному и тому
же уравнению, и поэтому (3.9) — это следствие теоремы
s 3] ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 47
о непрерывной зависимости решения системы дифферен-
х циальных уравнений от начальных данных.
Используя теорему о конечных приращениях, непре-
рывность f и fx и тот факт, что при t>x + eZ, = Я,
получаем, что для t > х
h(t) f (x(T),u(r),T) + O(e)] +
e-*0
X Г ____ x (t) — x (t) 1
+ lim \ fx (x, u, t) —---------h О (e) dt
e~*° -v+ez
или, после перехода к пределу,
Л (0 = I [f (*(*), v, т) — f (х (т), и (т), т)] +
t
+ J А (М, (3.10)
Из сравнения (3.8) и (3.10) видно, что вариация фазо-
вой траектории h (t) — разрывная функция. При tQ t т
fo(0 = 0,
< а при t т h (t) удовлетворяет дифференциальному урав-
। нению
h = fxh (3.11)
с начальным условием
fo(T) = fo(T+) = Z[/ (J(T),t;,T)-f (x(t),u(t),t)L (3.12)
или, в координатной форме,
4* =3-^4
(т) = 1\р{х (т), V, т) — р(х (т),и (т), т)], i = 0,1,2,.... п.
4. Сопряженная система. Введем теперь сопряженную
систему
t = - fl
(3.13)
48
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ.
или, в координатной форме,
п 3
ipi = — 2 “ТТ» i = 0,1,2,..., п.
у=о дх
Поскольку уравнение в вариациях (3.11) является одно-
родным, то, согласно (2.8), каково бы ни было решение
h (t) этого уравнения, скалярное произведение М = (ф, Л)
является постоянным:
М -= (ф (t), h (t)) = const, т < t С T. (3.14)
5. Принцип максимума в задаче со свободным правым
концом и фиксированным временем. Предположим, что
множество $0 состоит из единственной точки (£0, #0), а мно-
жество $т — суть гиперплоскость t = Т, иными словами,
х (/0) = xQ, £0, Т заданы. (3.15)
Пусть й (t) — оптимальное управление, а Ж (t) — соот-
ветствующая оптимальная траектория рассматриваемой
задачи (3.1) — (3.3), (3.15). Из необходимого условия ми-
нимума функционала, состоящего в неотрицательности его
первой вариации, получаем неравенство
Л° (Г) > 0. (3.16)
Основная идея дальнейшего вывода принципа макси-
мума состоит в том, что значение вариации функционала
hQ (Т) с помощью свойства (3.14) связывается с некоторым
выражением, определенным на траектории. Эта связь и
содержит в себе требуемые необходимые условия опти-
мальности.
Распорядимся выбором сопряженной вектор-функции,
подчинив ее следующему условию:
Фо = -1, Ф< (Г) = о, t = 1, 2, .... п, (3.17)
и будем рассматривать ч|) (/) как решение уравнения (3.13)
при «начальном» условии (3.17)
Подставляя (3.17) в (3.14), получим
Л° (Г) = —М (Т),
§ з] ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 49
и необходимое условие (3.16) принимает вид
М (Г) = (ар (Г), h (Г)) < 0. (3.18)
Поскольку скалярное произведение (3.14) есть величина
постоянная, то неравенство (3.18) должно выполняться и
при t == т:
(Ф(т)Л(т))<0,
что с учетом выражения (3.12) для h (т) дает
I (Ф (*)» f (х(т), У»т) — / (* (т)>«(т).т)) < °-
Вводя функцию Гамильтона
п
Я = (Ф,/)= (3.19)
1=0
и учитывая, что ар0 (t) = const = —1, запишем это нера-
венство в виде
Н (Ж (т), г?, ар (т), ?)<:#(£ (т), й (т), ар (т), т) (3.20)
или
Н (х(х)9 и (т), ар (т), т) = max Н (х (т),р, ар (т), т). (3.21)
Итак, мы получили следующую теорему для задачи со
свободным правым концом:
Теорема. Если управление й (t) и траектория
$ (0 доставляют минимум функционалу (3.1) при уравне-
ниях связи (3.2), ограничениях на управление (3.3) и крае-
вых условиях (3.15), то существует такая непрерывная
вектор-функция гр = (ар0, арх, ..., арп), удовлетворяющая
сопряженной системе (3.13) и условиям трансверсальности
(3.17), что при каждом t ЕЕ Uo, функция Гамильтона
Н (% (t), й (t), ар (t), t)(3A9) достигает в точке й (t) мак-
симума по всем и ее Gu.
В рассматриваемой задаче с фиксированным временем
Т и свободным правым концом х (Т) условия трансвер-
сальности (3.17) требуют так же, как и в задаче Лагранжа,
чтобы при t == Т значение нулевой компоненты ар0 (Л бы-
ло равно —1? а значение естальннх компонент равнялось
50
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
нулю. Поскольку условия трансверсальности в задаче
Лагранжа и Понтрягина одни и те же, то структура
краевой задачи, которой необходимо должно удовлетво-
рять оптимальное решение, в обоих случаях остается оди-
наковой. Однако системы уравнений могут быть различ-
ными. Рассматривая задачу Лагранжа, мы выразили
управление при помощи условия стационарности
как функцию от фазовых и сопряженных переменных
и = й(х,ф, t).
В задаче Понтрягина мы проделали ту же процедуру, но
с помощью условия
Н = max Н (я, и, ф, t).
Конечно, в том случае когда Gu совпадает со всем прост-
ранством, а функция Н имеет одну экстремальную точку,
которая при этом является максимумом, оба условия дадут
одну и ту же функцию й (я, ф t).
Приведенный простой вывод принципа максимума су-
щественно использует тот факт, что правый конец х (Т)
является свободным. В общем случае мы снова сталкива-
емся с той же трудностью, что и в задаче Лагранжа. Дока-
зательство усложняется за счет того, что теперь неравен-
ство, аналогичное (3.16), должно выполняться не для всех
вариаций, а только для тех из них, которые не нарушают
граничных условий.
Доказательство принципа максимума в общем случае
опирается на некоторые предварительные построения.
6. Конус концевых вариаций. Нас будет интересовать
множество концевых вариаций, получающихся вследствие
воздействия нескольких игольчатых вариаций управ-
ления и варьирования конечного времени.
Определим концевую вариацию бх (Т), получающуюся
при воздействии одной игольчатой вариации управления
И варьировании конечного времени:
(Т) = hm-----------------,
j 3] ПРЙЙЦЙП МАЙСЙМУЙА Й. С. ПОЙТРЯГЙЙА 51
где ST — произвольное положительное или отрицатель-
ное число. Учитывая, что
X, (Т + 8бТ) = Хс (Г) + f (х (Т), U (Г), Т) 86Т + О (8),
получим
/ X, — X + 8/ (х, и, Т) 6Т \
6х (Г) = Пт (----------------------и О (в) =
е-0 \ 8 / t=T
= h(T) + f@,u,T)ST.
Содержательный смысл концевой вариации 6х (Г)
состоит в том, что произведение е5х(Т) при 8-> 0 пред-
ставляет главную, линейную часть вектора смещения ко-
нечной точки фазовой траектории х (Т) (рис. 3.3). Если Т
не варьируется, то 8х (Г) совпадает с h (Т).
Рассмотрим теперь результат воздействия игольчатого
варьирования на нескольких отрезках, т. е. результат воз-
действия управления
(если t е [tfc, + eZfc],
“•(«-{«(О, ^HlgfX.,tl + eW=l..............
Обозначим через hK (t) вариации фазовой траекто-
рии, получающиеся при независимом воздействии одной
52 йИФЙЙАЛЬЙЫЁ ПРОГРАММЫ trtf. t
игольчатой вариации Вариация (t) зависит от выбора
параметров г?к, тЛ 1^ определяющих игольчатую вариа-
цию дик. Нас будет интересовать зависимость hk (t)
только от Zfc:
frfc (0 = ^к (0 М* (3.23)
Поскольку дифференциальное уравнение (3.11) для
вариации линейно, а в начальные условия (3.12) па-
раметр входит как множитель, то зависимость (3.23)
имеет мультипликативный вид
hk (О = АЛк (Z, 1),
где Лк (Z, 1) — вариация фазовой траектории, соответст-
вующая игольчатому варьированию с параметрами
тк при == 1.
Обозначим через суммарную вариацию, получаю-
щуюся при воздействии управления (3.22). На основании
линейности уравнений (3.11) суммарная вариация fos (0
равна сумме вариаций:
a Q
fos (0 == 3 (0 = S ^к^к !)•
К=1 7с=1
Окончательно для концевой вариации бзс (Г), получа-
ющейся вследствие воздействия нескольких игольчатых
вариаций управления и вариации конечного момента вре-
мени, имеем выражение
бх(Т) = 3 hh. (t, 1) + f (Ж(Г),й(7), Т)6Т. (3.24)
k=l
Дадим геометрическую интерпретацию множеству
концевых вариаций (3.24). В (п 4* 1)-мерном фазовом про-
странстве X переменных ж0,#1,..., хп будем рассматривать
множество К, состоящее из точек вида
ЛГ:{5с(Г) + бх(Г)}, (3.25)
иначе говоря, будем откладывать от конечной фазовой
точки х (Т) векторы концевых вариаций (3.24), получаю-
щиеся при всевозможных выборах д, гк, тЛ, 1к, к ~ 1,...
..., д, 6Т.
j з! ЙЙ1ЙЦЙП МАЙСЙМУЙА Я. С. йой^ФягЙйа
53
Утверждается — и это один из ключевых моментов
доказательства,— что множество К есть выпуклый конус
в (п + 1)-мерном фазовом пространстве X с вершиной
в точке Зс (Г), т. е. множество К вместе с каждой точкой
содержит и весь луч, проходящий через вершину, и эту
точку, а вместе с каждыми двумя точками содержит и от-
резок, соединяющий эти две точки.
В самом деле, если бх (Л есть концевая вариация, то
и абх (Т), а >0, является концевой вариацией; чтобы
убедиться в этом, достаточно, согласно (3.24), взять
/к = a/к, 6Г = абТ.
Следовательно, вместе с каждой точкой х (Л + 8х (Т)
множество К содержит и луч
х (Л + а&х (Л» « > 0,
исходящий из точки х (Л и проходящий через х (Т) +
+ 6х(Т), т. е. множество К есть конус с вершиной в точ-
ке х (Т).
Для того чтобы установить выпуклость конуса К,
рассмотрим две произвольные концевые вариации 8х1(Т)
и бх2 (Л,и пусть a — произвольное неотрицательное чис-
ло, 0 < a < 1. Мы имеем
а [х (Т) + бхх (Л] 4- (1 — а) [х (Л + бх2 (Л] =
91
= х (Г) + а [ 3 Ь А. (М) + Г (* (Л. « (Л. Л«л] +
fcx=l
9г
+ (1-а)Г 2^Л(^1) + /(г(ЛЛ(Л,Лбл1. (3.26)
4^1 J
Обозначая
Zk = ctZjfj, Zfc = (1 — a) Zfc2; 8T = (хб7\ 4“ — a)
мы получим, что (3.26) имеет вид (3.24), т. е. входит в
конус К концевых вариаций. Иными словами, вместе со
всякими двумя точками х (Т) + бхх (Л и Ж (Л + бх2 (Л
конус К содержит и отрезок (3.26), соединяющий эти
точки, т. е. К — выпуклый конус.
54
ОЙТЙМАЛЬЙЫЁ ПРОГРАММЫ
№л. t
7. Принцип максимума в задачах с фиксированным
временем и подвижным правым концом. Основное свой-
ство конуса концевых вариаций. Пусть граничные ус-
ловия имеют следующий вид:
(f0)
Фк (х (Т)) = 0, к = 1, 2.р, р < п, (3.27)
t9, Т заданы,
причем функции Ф* непрерывны и непрерывно-дифферен-
| имеет свои максимальный ранг
р (в этом случае говорят, что правый конец х (Т) принад-
лежит (и — р)-мерному гладкому многообразию).
Пусть й (t) — оптимальное управление и Ж (£) — соот-
ветствующая оптимальная траектория задачи (3.1) —
(3.3), (3.27), доставляющие минимум функционалу
J(x, и).
Рассмотрим наряду с конусом К множество «запре-
щенных» концевых вариаций Q, состоящее из таких кон-
цевых вариаций бас (Т), у которых нулевая компонента
&с°{Т) отрицательна, а остальные компоненты в совокуп-
ности не нарушают граничного условия (3.27) на правом
конце:
&с°(Т)<0, (3.28)
(^-,&»(Т))=0, А = 1»2,...,р. (3.29)
Поскольку 8х (Т) удовлетворяет системе линейных
уравнений, а нулевая компонента S#° (Т) отрицательна,
то множество Q есть (и — р + 1)-мерная «полугипер-
плоскость» (пересечение гиперплоскости (3.29) с полупро-
странством (3.28)). Очевидно, что всякая полугиперплос-
кость есть в то же время выпуклый конус, поэтому Q —
выпуклый конус.
Теперь мы можем сформулировать основное свойство
конуса К. Оно состоит в том, что пересечение внутренности
конуса концевых вариаций К с конусом «запрещенных»
вариаций Q пусто.
В самом деле, если бы это было не так, то существовали
бы концевые вариации (и вызывающие их вариации управ-
ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА
55
$ 31
ления), которые не нарушали бы заданных граничных ус-
ловий и в то же время давали бы нулевой компоненте зна-
чение 2° (Г) + 8xQ (Г) меньшее, в силу (3.28), чем xQ (Т).
Отсюда следовало бы, что существует вариация управле-
ния и е (t) и соответствующая проварьированная траекто-
рия xR(t) (е 0), обеспечивающие меньшее значение
функционала при выполнении граничных условий. Но это
противоречит предположению об оптимальности рассмат-
риваемого решения х (0, # (0*
Приведем более подробное доказательство основного
свойства конуса К.
Пусть, от противного, имеет место пересечение внут-
ренности конуса концевых вариаций К и конуса «запре-
щенных» вариаций Q. Тогда существует луч
L: х(Т) -|-а6я(Т), а>0,
являющийся общим для конусов К и Q. Поскольку луч
L является внутренним для (п + 1)-мерного выпуклого
конуса X, то в К можно выбрать п + 2 точки (Т), не
лежащие в одной гиперплоскости, такие, что для них
бх (Т) есть линейная выпуклая комбинация
М>0, S (3.30)
i=l
все коэффициенты которой строго больше нуля. Таким
образом, мы получаем п + 2 луча
Ьг:х(Т) + a6xi(T)9 а>0, i = 1,... ,n + 2t
для которых луч L является линейной выпуклой комби-
нацией.
Рассмотрим теперь семейство проварьированных управ-
лений, порождающих векторы смещения z6xi (Т);
®(*)> если [rf, Xi + e/J,
Ui'' \ vu если t e [Tf, -J- e/J.
Определим новое семейство uf (£), получающееся из
последнего равецства заменой Ц на р^, где р^ 0,
56
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
П-|-2
3 Pi = 1. Управлениям (t) будут соответствовать
i=l
концевые вариации (Т).
При 0 «толщина иголок» е -pfZf стремится к нулю.
Составим нроварьированное управление
п+2
и(«,р)=в(о+ 2(и;(о-й(о).
i=l
Нас будет интересовать конечное состояние х (Т, р)
фазовой траектории, соответствующей управлению
и (/, р). При 0 имеем
п+2
ас (Г, Р) = »(Г) + е 2 Pt&«i (Л + о («О-
г=1
(3.31)
Если выбрать рг ~ то на основании (3.30)
п+2
х (t, р) = х (Г) + е 2 (^) + <>(«) =
г=1
== £(Т)4-е6а?(Т)4-о(е),
т. е. расстояние от х (Т, р) до луча L будет малой высше-
го порядка по сравнению с 8.
Покажем, что можно подобрать р так, чтобы х (Т, р)
в точности совпадал с направлением луча £, т. е. выпол-
нялись условия
п+2
S Pi = 1,
г=1
х(Т,р) =х(Т) + е8х(Т).
(3.32)
Систему (3.32) с учетом (3.31) можно представить в виде
п+2
3 Pi=- t
г=1
п+2
2 Мас, (Г) + = бас (Г).
(3.33)
I 3] ПРЙНЦЙП МАЙСЙМУМА Л. С. ЙОЙТФЯГЙЙА 57
Якобиан системы (3.33) по переменным при е = О
11 ... 1
S#2 . . . 6Xn+2
8х{ . &Bn+2
bn* Sx% . . . 8х%+2
отличен от нуля, поскольку точки 8xi (Т) не лежат на
одной гиперплоскости. Кроме того, система (3.33) имеет
при в=0 решение р$ == (f = 1, ..., п + 2), а при е^> 0
вектор р = X с положительными компонентами удовлетво-
ряет (3.33) с точностью до малых высшего порядка по срав-
нению с 8.
Поэтому для достаточно малых 8 (е 0) система (3.33)
разрешима, и ее решение есть положительная непрерывная
функция от 8, р/ = pf (в), pf > 0, i = 1, ..., п + 2.
Поскольку луч L принадлежит конусу запрещенных ва-
риаций, то отсюда получается, что при достаточно малых
8 существует управление и (t, р), не разрушающее гра-
ничных условий и сообщающее функционалу значение
меньшее, чем управление й (£), т. е. й (t) не является оп-
тимальным. Полученное противоречие доказывает, что
пересечение внутренности конуса концевых вариаций К
и конуса «запрещенных» вариаций Q должно быть пусто.
Это означает, в силу выпуклости конусов К и Q, что
существует разделяющая гиперплоскость, причем по-
скольку Q содержит (п — р)-мерную гиперплоскость
(3.29), то разделяющая гиперплоскость также содержит
(п — р)-мерную гиперплоскость (3.29).
Уравнение разделяющей гиперплоскости имеет вид
п
За<(х<-г‘(Т))=0,
<м>
где, по крайней мере, один из коэффициентов отличен
от нуля. Это обстоятельство является существенным. Мы
будем считать, изменив, если нужно знаки at на обратные,
что конус К лежит в отрицательном полупространстве
п
ЗаДж‘-г1(Т))<0,
Й-0
58 Оптимальные программы trji. f
т. е. дли Любой концевой вариации
(3.34)
i==0
Для точек конуса «запрещенных» вариаций Q, поскольку
они принадлежат положительному полупространству,
неравенство (3.34) имеет обратный знак. В частности, это
справедливо для точки
(г<’(7’) + &г'>(Т),г1(Г),...,г"(Г)), &*(2)<о, (3.35)
отличающейся от конечной точки х (Т) только тем, что
у нее уменьшена нулевая компонента. Таким образом,
подставляя (3.35) в (3.34), получаем
а0&в°(Т)>0,
откуда, вследствие 6х° (Т) О,
а0 < 0. (3.36)
Выберем вектор а = (а0, ..., ап) в качестве конечно-
го значения для сопряженной вектор-функции
ф (Т) = а. (3.37)
Тогда ф (Г) =£= 0, и функция ф (I) есть нетривиальное
решение сопряженной системы (3.13). Отметим, что, в силу
(3.36), для нулевой компоненты ф0 имеем
Фо (Л < 0. (3.38)
Поскольку мы выбираем вектор ф (Т) как направляющий
вектор разделяющей гиперплоскости, а последняя содер-
жит в себе гиперплоскость (3.29), то мы имеем, что для
любых бх (Г), удовлетворяющих проварьированным гра-
ничным условиям (3.29), должно выполняться равенство
(ф (Г), бх (Т)) = 0. (3.39)
Это и есть условия трансверсальности. Геометрически
они означают, что вектор ф (Т) должен быть ортогонален
§ 31 ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 59
граничному многообразию
Ф* (х) =0, 4 = 1, р
в точке х « % (Т).
Покажем, что из условий (3.39), (3.29) следуют усло-
вия трансверсальности в виде (2.33), полученные ранее
для задачи Лагранжа
Р к ~
4>,(T)_g V, ЭФ^<Г)) |,_т, г-1......». (3.40)
причем система чисел vx,..., vp определяется но ф(Т) единст-
венным образом.
В самом деле, умножим каждое уравнение (3.29) на
vfc, сложим их, а затем результат вычтем из уравнения
(3.39), тогда получим, что на разделяющей гиперплоскости
п р к ~
3 (чч (Г) - S V* ) & (Т) = 0. (3.41)
г=1 к=1
ЭФ I
Напомним, что по предположению якобиан
имеет свой максимальный ранг р. Приравнивая нулю
соответствующие р коэффициентов в (3.41), мы получим
систему с ненулевым детерминантом, определяющую мно-
жители vx, ..., однозначно. Остальные п — р коэффи-
циентов в (3.41) также равны нулю в силу независимости
оставшихся вариаций.
Если исключить из р условий трансверсальности
(3.40) р постоянныхVj, ..., vp и подставить значения в ос-
тавшиеся соотношения, то мы получим п — р условий
типа равенства, связывающих конечные значения компо-
нент сопряженной вектор-функции.
Условие (3.37) определяет решение сопряженной си-
стемы ф (t). При t — Т, согласно (3.34),
п
г=»0
Поскольку мы рассматриваем граничные условия (3.27)
60
Оптимальные программы
(гл. 1
с закрепленным временем Т, то
&?(Т) = Л‘(Г),
так что
п
3 ^(Т).Л‘(У)<0. (3.42)
i®0
Согласно (3.14) выражение (ф (t), h (t)) постоянно. Этот
факт позволяет осуществить перенос неравенства (3.42)
из конечного момента времени t = Т в момент времени
t = т, при котором осуществлялось игольчатое варьиро-
вание управления:
п п
i=0 г=0
(3.43)
Подставляя в (3.43) выражение (3.12) для hl (т), получаем
неравенство
п
2 fr) i/1 (« (<), v>т) - г & й *)] < °»
г==0
которое, используя функцию Гамильтона (3.19), можно
переписать в виде
Н (% (т), v, Ф (г), т)< Н (2 (т),й (т), ф (т), т),
или, окончательно,
Н (Ж (т), й (т), ф (т), т) = max Н (3! (г), и, ф (т), т). (3.44)
*=gu
Итак, мы получили следующую теорему для задачи
с фиксированным временем и подвижным правым концом:
Теорема. Если управление й (t) и траектория
% (t) доставляют минимум функционалу (3.1) при уравне-
ниях связи (3.2), ограничениях на управление (3.3) и кра-
евых условиях (3.27), то существует такая ненулевая непре-
рывная вектор-функция ф = (ф0, фх, ...,фп)) Фо 0»
удовлетворяющая сопряженной системе (3.13) и условиям
трансверсальности (3.40), что при каждом t €= [i0, Т]
j 3] ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 61
функция Гамильтона Н (х («), и (£), ф (0, 0 (3.19) дости-
гает в точке й (Z) максимума по всем и е Gu.
Заметим, что в случае свободного правого конца ус-
ловия трансверсальности (3.40) дают
ф< (Г) =0, i=l, п,
и мы получаем теорему из п. 5.
Для полностью закрепленного правого конца
ф*(х (Трв^СТ)--4 = 0, Л = 1,...,п,
и из условий трансверсальности получаем
Ф« (Г) = vi, i = 1.... п.
Числа "фг (Т) определяются в результате решения краевой
задачи (см. гл. II).
8. Принцип максимума в задаче с нефиксированным
временем и подвижным правым концом. Пусть теперь
граничные условия имеют вид
я (*о) = *о, (3.45)
Ф* (х (Т))~ 0, к = 1, ..., р, р п, t0 задано,
отличающийся от (3.27) тем, что время Г не закреплено.
Положим сначала 6Т в 0, тогда, повторяя приведен-
ные рассуждения, мы получим, что необходимые условия
задачи (3.1), (3.3), (3.45) содержат в себе все необходимые
условия, установленные для задачи (3.1) — (3.3), (3.27).
Далее, вернемся к неравенству (3.34). Рассмотрим кон-
цевую вариацию (3.24), получающуюся при у = 0 (иголь-
чатые вариации управления отсутствуют) и б Г =f= 0:
6x(T) = f (3!(Г),й(Т),Т)бТ.
Подставляя это выражение в (3.34), получим
S Я»* (2") • /* (Т), й (Т), Т) 6Т < 0. (3.46)
г=О
Поскольку 8Т может быть как положительным, так и от-
рицательным, то из (3.46) следует, что
п
i=0
62 ОПТИМАЛЬНЫЕ ПРОГРАММЫ СРЛ. I
т. е. в конечный момент t = Т функция Гамильтона
(3.19) должна быть равна нулю
Н (а (Г), й (Т), ф (Т), Т) = 0. (3.47)
Таким образом, в том случае, когда мы переходим от
граничных условий (3.27) к условиям (3.45), т. е. от фик-
сированного Т к нефиксированному, появляется до-
полнительное необходимое условие трансверсальности
(3.47).
Сформулируем теорему для задачи с нефиксированным
временем и подвижным правым концом:
Теорема. Если управление й (t) и траектория
% (t) доставляют минимум функционалу (3.1) при урав-
нениях связи (3.2), ограничениях на управление (3.3) и
краевых условиях (3.45), то существует такая ненулевая
непрерывная вектор-функция ф « (ф0, фх, ..., фл), ф0 0,
удовлетворяющая сопряженной системе (3.13) и условиям
трансверсальности (3.40), (3.47), что при каждом t GE
ЕЕ Т] функция Гамильтона Н (£(£), и (£), ф (0, t) (3.19)
достигает в точке и (t) максимума по всем и ЕЕ Gu.
9. Случай «перемещающегося» многообразия на пра-
вом конце. Рассмотрим, наконец, случай, когда точка на
правом конце принадлежит некоторому подвижному глад-
кому многообразию, т. е. краевые условия имеют вид
х Go) = хз (3.48)
Ф* (х (7), 71) = 0, 4 = 1, ..., р, р п + 1, задано.
Вывод необходимых условий в этом случае проводится
с помощью сведения задачи (3.1) — (3.3), (3.48) к уже рас-
смотренной задаче (3.1) — (3.3), (3.45).
Введем для этого обозначение
х™* = t
и рассмотрим расширенную систему
х = / (х, U, жп+1),
fn+1 = 1, (3.49)
Фп+i = 3 Ф; 0Zn+r •
$ з! ПРИНЦИП МАКСИМУМА Л. С. ПОЙТРЯГИЙА 63
Условия на правом конце запишем в виде
ф’с(Ж(Г),®’*+1 (Г)) = О, к = 1,.. .,р.
Полученная задача, с одной стороны, эквивалентна задаче
(3.1) —(3.3), (3.48), а с другой стороны, является частным
случаем задачи (3.1) — (3.3), (3.45) (частным потому, что
правые части не зависят от t). Определим для расширен-
ной задачи функцию Гамильтона
^ = Я4-фп+г1
и выпишем необходимые условия оптимальности.
Согласно (3.44) имеем
Н (« (т), й (г) ф (т), *** (т)) + фп+1 (т) =
= max [Н (г (т), v, ф (т), zn+1 (т)) + фп+1 (т) ], (3.50)
и поскольку слагаемое фп+1 (т) не зависит от управления,
то (3.50) после обратной замены t = жп+1 запишется в преж-
нем виде (3.44)
Далее, условия трансверсальности (3.40), (3.47) дают
н (г (Т), и (Т), ф (Г), хм (7)) 4- фп+1 (Г) = о,
Фп+1 (Г) = — Я (f (Т), й (Т), ф (Г), Т) (3.51)
и
р ~
Ф< (Г) = 2 — ИГ),Г) > « = !....,»» (3.52)
К=1 °х
фп+1 (Г) = 2 vfc . (3.53)
Последнее условие, используя (3.51), можно переписать
в виде
Я(Ж(Т),«(Т),ф(Г),Т) = -2ук^®^фМ.. (3.54)
64 ОПТИМАЛЬНЫЙ ПРОГРАММЫ (ГЛ. I
Подставляя (3.51) в последнее уравнение системы (3.49),
получим, что функция Гамильтона удовлетворяет диффе-
ренциальному уравнению
dH _ дН
dt dt '
Из (3.55) следует, в частности, что Н является непрерыв-
ной функцией времени.
Сформулируем теорему для задачи с «перемещающимся»
многообразием на правом конце:
Теорема. Если управление й (t) и траектория
(0 доставляют минимум функционалу (3.1) при уравне-
ниях связи (3.2), ограничениях на управление (3.3) и кра-
евых условиях (3.48), то существует такая ненулевая не-
прерывная вектор-функция ф == (ф0, фх, ..., фп), ф0 sgZ О,
удовлетворяющая сопряженной системе (3.13) и условиям
трансверсальности (3.52), (3.54), что при каждом t G=
€=k0, Т\ функция Гамильтона й (0, ф (0, 0 (3.19)
достигает в точке й (0 максимума по всем и 6= Gu.
До сих пор мы формулировали принцип максимума
для задачи с фиксированным левым концом. Если левый
конец не закреплен, то ко всем приведенным формулиров-
кам добавляются условия трансверсальности на левом
конце, полностью аналогичные по структуре условиям на
правом конце.
Итак, мы получили принцип максимума Л. С. Понтря-
гина для задачи Лагранжа при различных способах за-
дания граничных условий. Сравнение с § 2 показывает, что
принцип максимума включает в себя следующие необхо-
димые условия вариационного исчисления:
уравнения Эйлера (сопряженные уравнения и условия
стационарности Я по и в случае, если максимум Я по и
достигается во внутренней точке Gu);
условия Эрдмана — Вейерштрасса непрерывности
сопряженных переменных и функции Я в точках разрыва
оптимального управления;
условие Вейерштрасса, требующее максимума функ-
ции Я по и*).
Ниже приводятся формулировки принципа максимума
для других постановок задач в соответствии с классифи-
♦) См, замечание в п, 7 § 2,
§31 ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 65
нацией § 1. Эти формулировки даются для случая (3.48),
т. е. для закрепленного левого конца и «перемещающегося»
многообразия на правом конце.
Условия трансверсальности для более частного вида
граничных условий легко получаются из приведенных
условий.
10. Задача Майера. В задаче Майера рассматривается
функционал
J = Ф° (т (Г), Т). (3.56)
Доказательство принципа максимума для задачи Майера
отличается от приведенного доказательства для задачи
Лагранжа в непринципиальных деталях, связанных с из-
менением вида конуса «запрещенных» вариаций Q. По-
этому мы его опускаем и формулируем окончательный
результат.
Функция Гамильтона и сопряженная система имеют
вид
п
н = S ЧчЛ (3.57)
1=1
<3-58’
vX /в1
Теорема. Если управление й (/) и траектория 3! (/)
доставляют минимум функционалу (3.56) при уравнениях
связи (3.2), ограничениях на управление (3.3) и краевых ус-
ловиях (3.48), то существует такая непрерывная вектор-
функция = (‘фг. •••» Фп), удовлетворяющая сопряженной
системе (3.58) и условиям трансверсальности (3.59)
р
I /<Л\ ( дфо . V
Ф(г) = + 2 ^-эг) (=Т’
' 1с-=1 ' 1
(3.59)
р
и I \ #Ф° I V ЗФ* \ I
Н Ь=т - V0 дГ + Vk дТ / <-т’
Vo 0»
3 Н. Н. Моисеев
66
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
что при каждом tEE Uo, Т] функция Гамильтона Н (2 (0,
в (0> Ф (0, О (3.57) достигает в точке й (0 максимума
по всем ueGu.
И. Задача Больца. В задаче Больца требуется мини-
мизировать функционал
т
J = Ф° (х (Г), Г) + J /° (ж, и, t) dt. (3.60)
to
Избавимся от интегрального члена путем введения до-
полнительной переменной х° (t):
А0 = /° (х, и, t)9 xQ (tQ) =0.
Тогда функционал (3.60) примет вид
J = х* (Г) + Ф° (х (Г), Т) = Ф° (х (Z), Г),
и задача Больца сведется к задаче Майера для системы
уравнений
& = /*(#, u,t), i = 0,1,. .п.
Введем функцию
н = 3 WS (3-19)
i»0
сопряженную систему (см. (3.13))
• дН ъ , др
и выпишем условия трансверсальности
р
+ (зм)
л®8®!
i = 0, 1, п.
Из соотношений (3.13) и (3.61) следует
Фо = 0» Фо = v0 < 0.
s 3] ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 67
Кроме того, условия трансверсальности (3.61) для ф/
(i= 1, ..., п) полностью совпадают с (3.59). Отсюда мы
получаем теорему.
Теорема. Если управление й (t) и траектория
% (/) доставляют минимум функционалу (3.60) при урав-
нениях связи (3.2), ограничениях на управление (3.3) и
краевых условиях (3.48), то существует такая ненулевая
непрерывная вектор-функция ф = (ф0, фь ..., фп), ф0 0,
удовлетворяющая системе (3.13) и условиям трансвер-
сальности (3.62)
'Pi ( ) — dxi + ^3 v» dxi ) г=г»
i = (3.62)
J I ( , 0Ф0 . V ЭФ* \ I
t=r — dr + 2j v» эт / Ь=т’
что при каждом t EE [Zo, Z] функция Гамильтона (3.19)
n
H = 2 W* достигает в точке й (t) максимума по всем
1=0
и бги.
12. Задача на быстродействие. В задаче на быстродей-
ствие /° (ж, и, £)==!. Выпишем функцию Гамильтона
п
м = 2 W* (я, и, г) + фо • i + *Фо- (3-63)
i=l
Сопряженная система (3.13) будет выглядеть следую-
щим образом:
^o = O,
’f, = -Sr=—
Условия траисверсалвиости (3.52), (3.54) це изменяют
3*
68
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
(ГЛ. t
своего вида
j t=T = + Ч’о) |г==т = 2 vk "^7" I t__T
м 1
(3.65)
Последнее условие в силу ф0 О можно записать в
форме неравенства
р
Л=1
(3.66)
Поэтому в окончательной формулировке теоремы сопря-
женную переменную ф0 можно опустить.
Теорема. Если управление й (t) и траектория
% (i) оптимальны по быстродействию при уравнениях
связи (3.2), ограничениях на управление (3.3) и краевых
условиях (3.48), то существует такая ненулевая непрерыв-
ная вектор-функция ф = {фь ..., фп}, удовлетворяющая
системе (3.64), условиям трансверсальности (3.65), (3.66),
что при каждом t ее Uo, Т] функция Гамильтона Н (% (t),
и (t)9 ф, t) (3.57) достигает в точке й (t) максимума по
всем и е Gu.
13. Обсуждение. При выводе необходимых условий
классического вариационного исчисления и принципа
максимума существенным было то, на каком классе ва-
риаций управления исследовалась первая вариация
функционала.
В классическом вариационном исчислении проварьи-
рованное управление строилось в виде
и (t) = й (t) + e*6u (Z),
где вариация управления ди (/) — произвольная непре-
рывная функция. Таким образом, при е 0 поправка
к управлению равномерно стремилась к нулю на всем от-
резке к0, Т].
В принципе максимума использовалось игольчатое
варьирование
( и, если £ G [т, тв/],
(*)(#(£), если tG{т,т + eZ],
I 3] ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА 69
при котором поправка к управлению представляла собой
«иголку» высотой
v — й (0, t е [т,т + еЛ,
и толщиной, стремящейся к нулю при е-> 0.
Используя условие максимума (или стационарности)
Н по и, можно выразить управление через переменные х,
ф, t и свести решение задачи оптимального управления
к решению краевой задачи.
Существует класс задач, в которых необходимые ус-
ловия, полученные с использованием «классических» и
«игольчатых» вариаций управления, оказываются слабы-
ми (неполными) и не позволяют непосредственно опре-
делить оптимальное управление. Это задачи со скользя-
щими и особыми оптимальными режимами *).
Для особых оптимальных режимов функция Гамиль-
тона II не зависит от управления и на некотором отрезке
времени
-^-=о,
Поэтому непосредственно выразить управление через
х. ф, t с помощью принципа максимума или условий ста-
ционарности II по и на участке [тх, т2] нельзя.
Для таких задач оказывается возможным установить
дополнительные необходимые условия, используя новый
класс вариаций управления.
Первое необходимое условие для особого режима (по
одной компоненте управления) было получено Г. Келли **),
который использовал специальные вариации, состоящие
из двух примыкающих друг к другу «иголок» одинаковой
толщины, высоты которых равны, но противоположны по
знаку. Условие Келли формулируется в виде некоторого
неравенства, которое должно выполняться па участке
оптимального особого режима. В некоторых случаях
и условие Келли оказывается вырожденным. Для этих
*) Можно показать, что скользящие режимы — это частный
случай особых режимов.
**) Г. К е л л и, Необходимое условие для особых экстремалей,
основанное на второй вариации, Ракетная техника и космонавтика,
№ 8, 1964. ' ’
70
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. [
случаев дальнейшие необходимые условия (также типа
неравенства) получили Р. Копп и Г. Мойер *).
Для оптимального особого режима, осуществляюще-
гося одновременно по к, к 1, компонентам управления,
обобщение условия Келли привело к установлению необ-
ходимых условий двух типов: типа равенства (к (к — 1)/2
условий) и типа неравенства ♦♦).
В целом принцип максимума вместе с дополнительными
необходимыми условиями для скользящих и особых ре-
жимов позволяет определить искомое оптимальное управ-
ление, хотя и ценою усложнения структуры краевой
задачи.
§ 4. Условия оптимальности в системах
с дискретным временем
1. Вводные замечания. Условия оптимальности игра-
ют важную роль при построении вычислительных проце-
дур для динамических систем (1.1). Однако, как уже упо-
миналось, при вычислении оптимальных траекторий ис-
пользуется не континуальное описание динамического
процесса, для которого в предыдущих параграфах и были
получены эти условия, а конечномерная аппроксимация.
Поэтому естественно задать вопрос о том, в какой мере
условия оптимальности сохраняют свою силу при замене
дифференциальных уравнений конечноразностными? Кро-
ме того, как мы об этом уже говорили в § 1, нас будут
интересовать также и те динамические процессы с дискрет-
ным временем, которые нельзя рассматривать как конеч-
номерную аппроксимацию процессов с непрерывным вре-
менем. Поэтому поставленный вопрос следует расширить:
в какой мере условия оптимальности теории оптимального
управления системами с непрерывным временем могут
быть перенесены на теорию оптимального управления
системами с дискретным временем?
♦) Р. Копп, Г.Мойер, Необходимые условия оптималь-
ности особых экстремалей, Ракетная техника и космонавтика,
№ 8, 1965.
♦*)И. Б. Вапнярский, Теорема существования опти-
мального’управления в задаче Больца, некоторые ее приложения
и необходимые условия оптимальности скользящих и особых ре-
жимов, ЖВМ И МФ 7t 2, 19^7,
§ 41 СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ 71
Анализу поставленной задачи и будет посвящен дан-
ный параграф.
2. Замечание о сопряженных системах. Как мы уже
убедились ранее, в теории оптимального управления
большую роль играют дифференциальные уравнения
£ = A (t) х. (4.1)
ф = — А* (0 ф,
где х, ф — векторы размерности п, А — матрица (п X и),
А* — матрица, сопряженная матрице А. Второе из этих
уравнений называется сопряженным к первому (и на-
оборот) (см. § 2, п. 4).
В силу (2.8) имеем
(ф, х) = const = (ф0, я0). (4.2)
Рассмотрим теперь конечномерные аналоги этих урав-
нений (здесь и в дальнейшем мы будем использовать про-
стейшую разностную схему)
^Jc+1 = я* + тЛ &)
Фт = Ф» — тЛ* (ffc) к = 0, 1, N — 1. (4.3)
Вычисляя произведение (ф&+1> получим
Oh+1, ^fc+1) = (ipk, я:к) + О (т2). (4.4)
Так как xN == О (1), где N — число интервалов, то вместо
равенства (4.2) для конечноразностных уравнений (4.3)
мы получаем следующую оценку:
(Фь fy) == (Фо, *о) + О (т). (4.5)
3. Принцип максимума для конечноразностных урав-
нений. Рассмотрим задачу отыскания максимума
J = (с, XN) (4.6)
при ограничениях
Хк+1 = %к + If (ХК, и*, (4.7)
*о == (4.8)
к = 0, 1, ..., N -1. (4.9)
Здесь а и с — некоторые заданные векторы.
п
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
(ГЛ. I
Пусть йк и хк — оптимальные управления и соответ-
ствующие фазовые векторы. Введем вариации управлений.
Положим
uk = йк, к =f= s, и9 == й6 + би,
где би — некоторый постоянный вектор такой, что й& +
+ би GE Gd.
Очевидно, что лк = %к, если к $. Вычисляя хк для
к s, имеем
к—1
“F 3 f ub fy)-
Введем в рассмотрение величину hk == (хк — %к)1х.
Очевидно, что hk = 0, если к $. Для к $
= / S> W8> / (^81 ^s) +
к—1
J—8-H
или
к—1
- Am + Д {т + О (т«)}.
Следовательно, вариация фазового вектора удовлетво-
ряет следующему разностному уравнению:
fek+i = ^+T#-^ + O(t2), * = « + !,...,АГ-1, (4.10)
hs^i ~ / (?s> lt«» ^«) / (^«» (4.11)
Составим уравнение, сопряженное (4.10):
фт = 'Фк-т(э^)*1Ь * = S + C-.
Тогда, согласно (4.5), для любого к s
СФк+i > ^fc+i) = Сфв+ь ^«+1) СО* (^*12)
I *]
СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ
73
Составим теперь выражение вариации функционала
ft г L. *N I _ ь \
OJ — I С, --------- j — (с, fly).
(4.13)
Выберем *флг так, чтобы
(флчМ = -бЛ (4.14)
Отсюда следует, что
'Флг =
—с.
(4.15)
Условие (4.15) есть условие трансверсальности. Исполь-
зуя (4.12), перепишем (4.14) в следующем виде:
SJ = %s, *«)) —Gh+n /(^s, us. ts)) + О(т) -
= H (фв+1> «> «) — Us, ts) (^)*
Для того чтобы x и й были оптимальным решением, не-
обходимо, чтобы 6J > 0. Отсюда мы получаем, что вдоль
оптимальной траектории
Я ОЬ+ь **) = max Н (ф8+ь X8, U8, ts) + О (т). (4.16)
U8eG8
Таким образом, мы пришли к следующему утверж-
дению:
Функция Гамильтона вдоль оптимальной траектории
отличается от своего максимального значения на величину
порядка О (т).
Примечание. Этот результат мы получили, рас-
сматривая задачу Майера, и в предположении, что левый
конец траектории фиксирован. Нетрудно, однако, прове-
рить, что теорема остается справедливой в случае произ-
вольной задачи Больца.
Итак, мы установили, что чем меньше шаг разностной
схемы, тем точнее выполняется принцип максимума.
С другой стороны, с увеличением шага т оптимальное
значение функции Гамильтона может все больше и боль-
ше отличаться от своего максимального значения. Следо-
вательно, можно предполагать, что для произвольных
разностных уравнений принцип максимума вообще не
будет иметь места,
74
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
4. Произвольные дискретные системы. Уравнения,
описывающие эволюцию управляемой системы с дискрет-
ным временем, будем писать в виде
«k+i = ** + h (жк, uk), к ~ 0, 1, N — 1. (4.17)
Функция Гамильтона этой системы в случае задачи
Майера будет
Як = Н (фк+1, хк, ик) = (“фл+х, (хк, ик)). (4.18)
В том случае, когда мы рассматриваем задачу мини-
мизации функционала
S ^k(«k,«k), (4.19)
fc=0
функцию Гамильтона мы будем писать в виде
Я Oh+1, хк, ик) = (1|5к+1, /к (хк, ик)) — Fk (хк, ик). (4.20)
Выпишем еще сопряженную систему в случае задачи
Майера
( df* V
фл+i — фк — \
& = 0,1,.. (4.21)
В предыдущем пункте мы установили, что на опти-
мальной траектории функция Гамильтона тем больше
может отличаться от своего максимального значения, чем
больше шаг дискретизации. Если дискретная система не
связана с конечномерной аппроксимацией непрерывных
процессов, то у нас вообще нет никаких оснований пред-
полагать справедливость принципа максимума. В под-
тверждение сказанному рассмотрим один пример.
Предположим, что дискретная система описывается
следующими уравнениями:
«k+i = «к + 2uk,
«к+i = «к — («к)8 + (“к)8-
(4.22)
СИСТЕМЫ С ДИСКРЕТЙЫМ ВРЕМЕНЕМ
75
$ 4]
Начальное состояние будем считать фиксированным:
zj = 3, 4 = 0. (4.23)
Поставим задачу отыскания управления — чисел uQ и
доставляющих минимальное значение величине J =
= —^2- Поскольку число шагов равно двум, мы можем
легко выразить в явном виде значение функционала и
всех фазовых координат через управления. Проводя оче-
видные выкладки и используя начальные условия (4.23),
найдем
— 3 + 2и0
4 = -9 + (Uo)2,
4 = 3 + 2u0 + 2ии
4 = _18 _ 12Цо _ 3 (u0)2 + (U1)2.
Тогда значение функционала есть
J - 118 + 12и0 + 3 (u0)2] - (их)2. (4.24)
Величину управления подчиним условию | ик | 5,
к = 0, 1. Вычислим теперь оптимальное управление:
uQ = —2, иг = ±5. (4.25)
Таким образам, мы будем иметь следующие оптимальные
значения фазовых переменных и функционала:
«h -1, $1= -5, J == -19.
Составим теперь сопряженную систему
фк+i = Фк + 2#кф*,
(4.26)
Фт = Фь k = 0,1.
Мы видим, что величина ф£ не зависит от индекса к. Так
как, согласно условиям трансверсальности (4.15), ф| = 1,
то и фх = 1.
_ Рассмотрим первое уравнение системы (4.26). Так как
4*2 0, то ф} = —2xi и, следовательно, «оптимальное»
значение ф} == 2. Рассмотрим теперь функцию Гамильтона
76
ОПТИМАЛЬНЫЕ ПРОГРАММЫ
[ГЛ. I
вдоль оптимальной траектории. На первом шаге
Ну = $2u0 + $ [- («J)2 + (u0)2] = 4u0 + (u0)2 - 9.
На втором шаге
Нг = $2ux + ф* [- £})2 + (UX)2] = (Uy)2 - 1.
Написанные выражения показывают, что на втором
шаге оптимальное значение функции Гамильтона равня-
ется ее максимальному. На первом шаге максимальное
значение функции Гамильтона достигается при и0 == 5.
Оптимальное значение = —2. Заметим, что оно дает
минимальное значение функции Гамильтона.
5. Задача Лагранжа со свободным правым концом.
В этом пункте мы рассмотрим задачу отыскания векторов
и связанных условиями (4.17) и доставляющих
минимум функционалу (4.19) при условии, что на управ-
ление не накладывается никаких ограничений. Для про-
стоты значение будем считать фиксированным, а —
свободным. Оптимальное решение рассматриваемой за-
дачи обозначим через и йк.
Наряду с оптимальнЫхМ управлением рассмотрим управ-
ление
+ eSujt, (4.27)
где 8 — некоторый вещественный параметр.
Величину 6ufc будем называть вариацией управления,
а вариацией фазовой траектории векторную производную
. (9х*\
Перепишем уравнения (4.17):
g (в) = »k+i — «» — Ju («и, ик + eSuk) = 0.
Это равенство должно выполняться тождественно по е.
Поэтому
[dg\ у. L к ь dfk « А
причем Ло 0,
5 d
СЙС^ЕМЫ G ДЙСКРЕ^НЫМ ВРЕМЕНЕМ
77
Выпишем теперь вариацию функционала
N—1
6J = lim-A- 2 (^k(*k»«k)—A(?k»«k)) =
*~*о К=0
Поскольку на оптимальной траектории 6J == 0, получаем
Следовательно, какова бы ни была вариация управления
и набор фй, будем иметь
Лк+1 — hk— hk — 6uk| = 0. (4.28)
k k -J
Заметим, что
N—1 N—1
2 Ф»+1 (^fc+1 — М + 2 (Фк+1 — Фк) ^к = — Ф(Ло-
к«=0 к=0
Распорядимся выбором таким образом, чтобы пра-
вая часть этого соотношения обратилась в нуль. Посколь-
ку Ло = 0, а км — не задано, положим ф/у = 0. Это нам
позволяет переписать (4.28) в следующем виде:
xi1а/к , \
S — Фк+i + Фк — Фк+i -qT , hkj +
k**o *• к '
ldFk dfk \
+ 2 sr-twr.b. ’’- 0-29)
k=o 4 * k '
Выберем векторы фЛ так, чтобы имели место равенства
/ dfky dFk
Фк = фк+1 + J фк+1 - -Q--
(4.30)
78
оптимальйЬте Программы
[ГЛ. г
Тогда, в силу произвольности векторов &uk, мы получаем
из (4.29)
(4.31)
ЭР* I dh\
— (т-М Фк+i = О-
Эи к \ duk / TK+1
Используя выражение (4.20) для функции Гамильтона,
мы можем переписать равенство (4.30) в следующей форме:
ЭНк л
-г-* = 0.
дик
Итак, мы пришли к следующей теореме.
Теорема. Если управление й* и траектория Я*
доставляют минимум функционалу (4.19) при уравнениях
связи (4.17) и фиксированных начальных условиях, то
существуют такие векторы удовлетворяющие урав-
нениям (4.30) и граничному условию ф^ = 0, что векторы
$lk пРи каждом к являются стационарными точками функ-
ции Гамильтона Нк,
Примечания.
1. Сформулированная теорема была установлена для
того частного случая, когда правый конец траектории не
фиксирован. Не представляет, однако, большого труда,
используя ту же схему доказательства, перенести все
результаты § 2 этой главы на рассматриваемый случай
дискретных систем.
2. Отметим, что при выводе необходимых условий
оптимальности в форме (4.30), (4.31) уравнения для сопря-
женных переменных записаны «справа налево», т. е. зна-
чения определяются через значения фт.
Этот факт накладывает определенные ограничения на
использование численных методов расчета оптимальных
программ. Как мы увидим ниже, форма записи «справа
налево» удобна при реализации метода Крылова — Чер-
ноусько. В тех случаях, когда необходима запись «слева —
направо» (например, в методе Ньютона), уравнения (4.30)
необходимо разрешать относительно фк+1.
6. Заключение. Итак, мы установили, что оптимальное
управление в дискретных задачах обращает производную
функции Гамильтона в нуль, и только. Можно привести при-
меры, показывающие, что на оптимальной траектории функ-
ция Гамильтона может иметь и максимум и минимум, и сед-
ловую точку. В примере, который был разобран в этом
§ 4] СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ 79
параграфе, функция Гамильтона достигала минималь-
ного значения.
Доказанный факт важен не только с принципиальной
точки зрения. Он оказывает большое влияние на развитие
вычислительных процедур для дискретных систем.
В этом параграфе нам удалось получить необходимые
условия только для того случая, когда ограничения на
управления отсутствуют. Для того чтобы рассмотреть
общий случай uk ЕЕ Gkl где Gk — некоторое множество
(в частности, замкнутое), необходимо использовать другой
аппарат. В частности, для этого приходится применять
общие методы нелинейного программирования.
Следует, однако, заметить, что структура ограничений
типа разностных уравнений открывает известные перспек-
тивы для разработки специальных методов исследования.
Эти методы основаны на анализе множеств достижи-
мости. Этим термином называют множество значений #fe+1,
в которые может перейти изображающая точка xh под
действием всевозможных управлений из (?&. Мы, однако,
не будем заниматься этими вопросами, отсылая читателя
к специальным исследованиям по теории оптимального
управления дискретными системами *).
♦) См., например, А. И. П р о п о й. О принципе максимума для
дискретных систем управления, ж. Автоматика и телемеханика
т. XXVI, № 7, 1965 г.
ГЛАВА II
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА ОПТИМАЛЬНЫХ
ПРОГРАММ, ИСПОЛЬЗУЮЩИЕ НЕОБХОДИМЫЕ
УСЛОВИЯ ЭКСТРЕМУМА
В этой главе мы переходим к изложению численных
методов теории оптимального управления.
Различные методы отыскания экстремума функции
или функционала / (х) принято разделять на две большие
группы: прямые и непрямые. К первой группе относятся
все методы градиентного спуска. Они основываются на
просмотре окрестности некоторой точки хп, позволяющем
найти другую точку яп+1, в которой значение функции
/ (xn+i) будет меньше / (хп). Эти методы не используют (во
всяком случае непосредственно) необходимых или доста-
точных условий экстремума.
Непрямые методы направлены на отыскание функции,
непосредственно удовлетворяющей необходимым или
достаточным условиям. Наибольшее значение имеют ме-
тоды, использующие необходимые условия. Задача отыс-
кания минимума функции с помощью необходимых усло-
вий сводится к задаче отыскания корней некоторой функ-
ции, а задача расчета оптимальной программы — к решению
краевой задачи для системы обыкновенных дифферен-
циальных уравнений. Эти методы в настоящее время полу-
чили широкое распространение. Они просты для програм-
мирования и позволяют использовать простые стандарт-
ные программы. В то же время они обладают и целым рядом
недостатков. Один из них — это ограниченная область
применимости. Задача становится практически неразре-
шимой, если необходимые условия формулируются отно-
сительно сложно (например, в случае фазовых ограниче-
ний). Другой недостаток состоит в том, что функция или
точка, удовлетворяющая необходимым условиям, это всего
лишь претендент на право называться решением.
Для того чтобы убедиться в том, что найденная функ-
ция является искомым решением, надо еще проверить,
удовлетворяет ли она достаточным условиям экстремума.
Поэтому кажется более естественным строить вычисли-
тельные процедуры, опираясь не на необходимые, а на
$ 1] ПРОСТЕЙШИЕ СПОСОБЫ РЕШЕНИЯ КРАЕВЫХ ЗАДАЧ 81
достаточные условия. Однако все попытки, которые дела-
лись в этом направлении, не дали еще сколько-нибудь
удовлетворительного результата: несколько задач, ре-
шенных с помощью достаточных условий, демонстрируют
скорее изобретательность авторов, а не возможности ме-
тода. Поэтому в данной монографии мы ограничимся из-
ложением только тех численных методов, которые исполь-
зуют необходимые условия.
Заметим, что разделение вычислительных методов на
прямые и непрямые довольно условно. Практика расчетов
показывает целесообразность сочетания обоих подходов.
§ 1. Простейшие способы решения краевых задач
1. Редукция задачи расчета оптимальных программ
к задаче отыскания корней трансцендентной функции.
В предыдущей главе мы установили, что необходимые ус-
ловия (например, принцип максимума Л. С. Понтрягина)
позволяет нам сформулировать некоторую краевую задачу.
Искомая экстремаль должна содержаться среди решений
этой краевой задачи. И проблема расчета оптимальных
программ, вероятно, не была бы сложной, если бы мы уме-
ли достаточно хорошо решать краевые задачи для обыкно-
венных дифференциальных уравнений. По существу же
мы умеем численно решать только задачу Коши — опре-
делять траекторию по начальным данным. Но в рассмат-
риваемом случае мы имеем на левом конце всего лишь п
условий *), хотя система имеет порядок, равный 2и. Воз-
никает проблема, каким образом, используя наше умение
решать задачу Коши, построить решение краевой задачи?
В этом параграфе мы остановимся на одной из возможно-
стей решить эту проблему и поясним ее на примере.
Пусть ставится задача об отыскании управления и (t),
которое переводит систему
£ — f (х, и, t) (1.1)
за время Т — t0 из одного фиксированного состояния
в д угое фиксированное состояние хт при условии, что
*) Имеется в виду задача с фиксированным левым концом.
82
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. И
интеграл
т
J (х, и) = J F (х, и,1) dt (1.2)
io
принимает минимальное значение. Эта задача сводится
к отысканию функций х1, .., хп, ф1? ..., фп, удовлетворя-
ющих системе уравнений
& = /г (х\ . . ., Хп, U1, ..., ит, /),
Sdf . , dF
^г^ + тт =
= q>i(x1, i = (1.3)
где и = и (х, ф, t) в каждый момент определяется из усло-
вия максимума функции Гамильтона.
Решение системы (1.3) должно удовлетворять 2п
условиям
^(^0) = 4» х|(7’)=л:т, i = 1,2,..., п. (1.4)
Для того чтобы построить интегральную кривую си-
стемы (1.3), мы должны тем или иным способом задать
п чисел ф* (^) = а{. Построив по значениям xxQ и щ тра-
екторию системы (1.3), мы получим при t = Т некоторые
значения координат (Г). В общем случае, разумеется,
они не будут равны хт*. Введем величины, которые мы
будем называть невязками
Очевидно, что невязки будут функциями начальных
значений импульсов
X1 = X* (аь а2, ..., ап), i = 1, 2, ..., п. (1.5)
Для того чтобы решить поставленную задачу отыска-
ния оптимальной программы, мы должны найти числа ах,...
..., ап, которые обращают функции X* в нули. Итак, мы
свели исходную вариационную задачу к задаче отыскания
нулей функций Xх (ах, ..., ап). Заметим, что функцио-
нальная зависимость между величинами Xх и щ задана
ПРОСТЕЙШИЕ СПОСОБЫ РЕШЕНИЯ КРАЕВЫХ ЗАДАЧ 83
опосредствованно. Для того чтобы по заданным значениям
«1, ап найти X1, ..., Хп, надо построить численное ре-
шение задачи Коши системы 2п-го порядка (1.3), причем
на каждом шаге численного интегрирования определять
управления и1 (£),...» um(t) из условий максимума функции
Гамильтона, т. е. из решения некоторой вспомогательной
задачи нелинейного программирования.
Редукция задачи определения оптимальной программы
к задаче отыскания нулей некоторой системы функций при
другом задании краевых условий для системы (1.3) про-
водится совершенно аналогично *).
2. Метод Ньютона. Для отыскания корней функций
существует много разнообразных методов. Однако для
численного решения конкретных задач наиболее широко
используется метод Ньютона — по-видимому, один из
самых старых способов отыскания нулей трансцендентных
функций.
Пусть мы имеем некоторое нулевое приближение —
систему чисел {а0?}. Этой системе чисел соответствуют
величины
Хо = Х< (а01, а02,..., аОп).
Положим
а1; ао; + 81г
Считая величины б1;- малыми, примем
Xi s X1 (сс01 + 8ц,...> «on + 8in) = + 2 (тйГ")
I = 1, 2, . . . , П.
Выберем теперь величины б1;- так, чтобы правые части этих
равенств обратились в нуль. Это нам ^ает п линейных
уравнений относительно п величин би,..., Sln. Введем
матрицу А (а):
л г \ I /ЗХ* \ I . . .
л<а>= гэгт » =
*) Система невязок (1.5) в случае, когда на концах заданы не
все координаты, дополняется соотношениями, получающимися из
условий трансверсальности после исключения произвольных по-
стоянных.
&
ЧЙСЙЕЙНЫЕ МЕТОДЫ РАСЧЕТА
(ГЛ. II
Будем обозначать Л(&к) через Ак. Тогда уравнение от-
носительно вектора 6Х = (61Х, ...» б1п) запишется так:
= —Хо ’
или (1.6)
йх = -А-'Х0.
Затем в качестве нового приближения принимаем вектор
се0 6Х = ах и повторяем процесс. Общая схема итераций
будет такой:
aft = a*_x + Sft. (1.7)
На каждом шаге итерации нужно вычислять матрицу 4,
причем производные мы
должны находить численно. Это
требует решения п 1 задач
Коши для системы (1.3), поря-
док которой равен 2п.
Метод Ньютона иногда назы-
вают методом касательных, осно-
вываясь на следующей его гео-
метрической интерпретации.
Предположим, что X и a — это
скаляры, и речь идет об отыс-
кании корня функции одной
переменной X (а). Рассмотрим
рис. 1.1. В точке (а0, Хо) про-
ведем к кривой X (а) касатель-
ную ; уравнение касательной
имеет вид
2(a)= X (а0) + Х' (а0) (а — аД
Точку пересечения прямой z (а) с осью абсцисс примем
в качестве нового приближения ах. Значение ах будет
определяться формулой (1.7), где = 1/Х' (а0). Таким
образом, геометрически процесс вычислений по методу
Ньютона можно представить себе следующим образом.
Задаем а0 и вычисляем Хо = X проводим в этой
точке касательную и точку ее пересечения с осью абсцисс
принимаем в качестве нового значения величины a = ax.
Вычисляем затем Хг = X (ах), проводим касательную
и точку ее пересечения с осью абсцисс принимаем в ка-
честве а2 и т. д.
3. О сходимости метода Ньютона и его модификациях.
Если начальное приближение а0 выбрано достаточно
§ 11 ПРОСТЕЙШИЕ СПОСОБЫ РЕШЕНИЯ ЙРАЕВЫХ ЗАДАЧ 85
близко к значению корня а, то метод Ньютона сходится
очень быстро и удобен для практического использования.
Однако если точка а0 не находится в области «притяже-
ния> корня, то метод Ньютона расходится и в описанном
виде непригоден для практического использования. Очень
легко привести примеры, когда метод Ньютона приводит
к расходящейся последовательности итераций.
На рис. 1.2 дан пример такого расходящегося процес-
са при отыскании корня функции X = arctg а; как легко
убедиться, неудачный выбор начального приближения
ао (| <х0| ^)*) приводит к тому, что каждое следующее
значение переменной а отстоит все дальше и дальше от
значения корня.
В последние годы было предложено много модификаций
метода Ньютона, которые способны преодолеть указанную
трудность. Одна из таких модификаций, по-видимому, наи-
более широко используемая, состоит в замене первона-
чальной итерационной схемы (1.7) следующей:
«п+1 = an — (an) X (ап),
где хп — некоторый скалярный множитель, не превосхо-
дящий 1. Существуют различные рецепты выбора этого
•) X — корень уравнения 2а = (1 + аа) arctg а.
86
ЧЙСЛЁНЙЫЁ МЕТОДЫ РАСЧЕТА
[ГЛ. II
множителя. Но все они, так или иначе, исходят из требо-
вания, чтобы
Н(«п+1)КН(«п)1|.
В качестве нормы || X || принимают либо max | X11либо
(S (х‘)’),/‘.
Рассмотрим рис. 1.3, где изображена та же кривая, что
и на рис. 1.2.
Обозначим через ах значение а, полученное по формуле
(1.7), т. е. по схеме простого метода Ньютона (х0 = 1).
Как видно из рисунка | X (aJ)£>|X (a0) |. Поэтому в качестве
нового приближения а выберем значение
«1 = «0
т. е. положим х0 = —. Мы видим, что ах находится уже
в окрестности корня, где сходится простой метод Нью-
тона (хп = 1, п = 1, 2, ...). Таким образом, выбор мно-
жителя х0= у, хп = 1,п = 1,2, ..., сделал расходящий-
ся процесс сходящимся.
f 1J ПРОСТЕЙШИЕ СПОСОБЫ РЕШЕНИЯ КРАЕВЫХ ЗАДАЧ 87
Изложенные соображения привели к следующей (ныне
широко распространенной) процедуре использования ме-
тода Ньютона.
Задаем вектор и вычисляем по формуле 6, =
= —Вычисляем
aj = ®о + и Хг = X (a0 + Sj).
Если окажется, что || || < || Хо ||, то принимаем
a, = a0 -J- бх и делаем следующий шаг (т. е. вычисляем
д2 = —Лх^Х,). Если ||Xj||>||X0||, то вычисляем
aj = a0 и = Х (ao + I61) ’
Если окажется, что ||Х^||^||Х0||, то принимаем
ai — ао । 2" &1
и делаем следующий шаг.
В противном случае еще раз уменьшаем величину 6П
* 1
т. е. берем ах — а0 и т. д.
Применение подобной процедуры значительно расши-
ряет возможности использования метода Ньютона, однако
и она не дает в общем случае гарантии сходимости метода
Ньютона для произвольно выбранного начального при-
ближения а0.
Вероятно, первыми, кто начал широко использовать
эту модификацию метода Ньютона в задачах оптимального
управления, были В. К. Исаев и В. В. Сонин *). В начале
60-х годов целый ряд трудных вариационных задач дина-
мики космических аппаратов был решен В. Н. Лебедевым,
который также широко использовал различные модифи-
кации метода Ньютона**).
4. Обсуждение. Несмотря ни на какие модификации,
применение метода Ньютона (или другого метода отыска-
*) В. К. И с а е в и В. В. С онин, Об одной модификации
метода Ньютона численного решения краевых задач, ЖВМ и МФ
3, 6, 1963.
**) В. Н. Лебедев, Расчет движения космического аппа-
рата с малой тягой, Серия «Математ. методы в динамике космиче-
ских аппаратов», вып. 5, ВЦ АН СССР, 1963,
88
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. И
ния корней) невозможно без удовлетворительного первого
приближения. Если рассмотреть все задачи, которые были
решены с его помощью, то мы увидим, что успех их реше-
ния определяется в первую очередь удачным первым при-
ближением. Заметим, что вопрос о первом приближении
обычно бывает достаточно труден, поскольку надо подо-
брать начальные значения импульсов, для которых нет
(в общем случае) хорошей динамической интерпретации.
Итак, необходимость предварительного выбора первого
приближения, которое гарантировало бы сходимость,—
первый недостаток этого подхода, который связан с ре-
дукцией вариационной задачи к краевой и ее последую-
щим сведением к задаче отыскания нулей трансцендент-
ной функции.
Вторая трудность, с которой сталкиваются при реа-
лизации изложенной техники, связана с неустойчивостью
«решения». Мы имеем дело с уравнениями, правые части
которых гарантируют непрерывную зависимость решения
от начальных данных. Это значит, что для достаточно
малых а (мы продолжаем пользоваться обозначениями
п. 1) с большой степенью точности выполняется условие
6Х = кба,
где 6Х и ба — приращения соответствующих величин.
Коэффициент пропорциональности к зависит, в частности,
от величины интервала интегрирования Г. Если движение
неустойчиво, то при увеличении Т величина к неограниченно
возрастает. На практике часто имеет место подобная си-
туация: очень малому значению ба соответствует машин-
ная бесконечность (т. е. к очень велико). В этом случае
никакие модификации метода Ньютона реализованы быть
не могут.
В силу этих причин метод Ньютона, несмотря на всю
простоту описания и удобство пользования, не смог сде-
латься универсальным средством расчета оптимальных
программ для того класса задач, к которым применим
принцип максимума Л. С. Понтрягина.
5. Случай задач большой размерности. Применение
метода Ньютона требует па каждом шаге решения системы
линейных уравнений (1.6), которую мы запишем в виде
Д6 + Х = О,
ПРОСТЕЙШИЕ СПОСОБЫ РЕШЕНИЯ КРАЕВЫХ ЗАДАЧ 89
§ Л
Если порядок системы достаточно высокий, то вопрос
о выборе способа решения уравнения (1.6) становится уже
существенным с точки зрения построения экономной схе-
мы расчета.
При реализации метода Ньютона нет необходимости
на каждом шаге решать уравнение (1.6) точно. Поэтому
для его решения имеет смысл использовать итерационные
методы. Среди этих методов выделяется своей простотой
и удобством метод сопряженных градиентов. Без обосно-
вания (которое читатель может найти в курсах алгебры)
приведем порядок расчетов *):
1. Задаем произвольным образом начальное прибли-
жение б0, вычисляем нулевую невязку г0:
—г 0 = Л б 0 4- X;
выбираем вектор sx:
= г0.
2. Полагаем бх = б0 -|- где скаляр определяется
по формуле
3. Вычисляем невязку гг:
—И = Лбх -f- X или Г1 = г0 — Аа^.
и выбираем вектор s2 по формуле $2 == где Ьг =
_ (и, Л$1)
(п,
4. Полагаем д2 = -f- a2s2, где а2 =, и т. д.
Если матрица А симметрична и положительно опреде-
ленна, то описанная процедура заканчивается не более чем
через п шагов. Это значит, что обязательно найдется такое
i п, где п — размерность вектора б, что = 0.
В процессе проведения расчетов задаются некоторым
числом р, и вычисления прекращаются при достижении
неравенства
ИпИСр.
♦) Д. К. Ф а д д е е в, В. Н. Ф а д д е е в а, Вычислительные
методы линейной алгебры, Физматгиз, 1963.
90
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
(ГЛ. II
§ 2. Задачи оптимального управления,
сводящиеся к краевым задачам для систем
линейных дифференциальных уравнений.
Перенос граничных условий
1. Предварительные замечания. Методы, которые об-
суждались в предыдущем параграфе, приводили к следу-
ющей схеме расчета: задавая тем или иным способом не-
достающие данные Коши для Л-системы *), мы отыскивали
точное решение этой системы. Полученные конечные зна-
чения не удовлетворяли краевым условиям. Информация
о величинах невязок позволяла определить новые значения
недостающих начальных условий и т. д.
К рассматриваемой проблеме можно подойти с иных
позиций, а именно, отыскивать решение среди множества
тех функций, которые удовлетворяют краевым условиям.
Такие решения можно находить методами, основанными
на переносе граничных условий — методами прогонки.
Эта идея высказывалась независимо рядом авторов (В. Н.
Лебедев, Н. Н. Моисеев, Р. П. Федоренко и др.), и на ее
основе были предложены разнообразные схемы решения
вариационных задач).
В этом и в следующем параграфах излагаются методы
решения задач оптимального управления, использующие
идеи переноса граничных условий. Приводимая методика
была разработана в ВЦ АН СССР в начале 60-х годов.
Рассмотрение мы начнем с анализа одной из простейших
задач теории оптимального управления.
2. Линейные задачи с квадратичным функционалом.
Рассмотрим управляемую систему, движение которой
описывается системой дифференциальных уравнений
£ — Ах 4- Ви, (2.1)
где А и В — матрицы, их элементы — некоторые заданные
функции времени.
В скалярном виде система (2.1) запишется так:
n m
^=2^ 4-SW- (2.2)
j==l j=l
♦) Этим термином часто называют систему 2п уравнений, полу
ченную в результате использования принципа максимума Л. С.
Понтрягина.
। 2] СВЕДЕНИЕ К КРАЕВЫМ ЗАДАЧАМ 91
Таким образом, матрица А — это квадратная матрица
(п X п), а матрица В — прямоугольная, имеющая п
строк и т столбцов. На управление и никаких ограниче-
ний не накладывается.
Пусть начальное состояние системы (2.1) фиксировано:
х (0) = х0. (2.3)
Рассмотрим две задачи:
а) Задача а. Найти управление, переводящее си-
стему (2.1) за время Т из состояния (2.3) в состояние
х (Т) = хт (2.4)
так, чтобы функционал
т
J = (2.5)
0 г
принимал на оптимальной траектории минимальное зна-
чение.
б) Задача р. Найти управление, переводящее си-
стему (2.1) за время Т из состояния (2.3) в состояние (2.4)
так, чтобы функционал
т
J = J {2сих*х* + 2йцх*и* + 2dt (2.6)
0 г»? г, j i,j
достигал на оптимальной траектории своего наименьшего
значения.
Функционал (2.5) является, очевидно, частным слу-
чаем функционала (2.6).
Рассмотрим сначала задачу а. Составим для нее функ-
цию Гамильтона
Н = {Ах, t) + {Ви Л) - 3 («*)*• (2.7)
i
Уравнение для импульсов будет иметь следующий вид:
’i’ = -^ = -AV м
Здесь А* означает транспонированную матрицу.
92
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
(ГЛ. II
Заметим, что уравнение (2.8) может быть проинтегри-
ровано независимо от уравнения (2.1).
Для определения управления вычислим
^ = SMi-2us = 0,
ди
откуда и* = или
i
и = -j- (2.9)
Подставляя (2.9) в (2.1), получим
£ = Ах + #ф, (2.10)
где
Б = -^-ВВ*.
Итак, задача а свелась к краевой задаче для системы
линейных дифференциальных уравнений (2.8) и (2.10),
порядок которой равен 2тг.
Совершенно аналогично рассматривается и общий слу-
чай квадратичного функционала:
Н = (Ах, ф) 4- (Ви, ф) — (х, Сх) — (х, Du) — (и, Ей).
(2.11)
С, D и Е — это матрицы, фигурирующие в (2.6).
Для импульса ф мы будем иметь уравнение
i> = -^=-4’1|>+£г + 1Ч (2.12)
где С = С + С*, С* — транспонированная матрица.
Управление мы определим из условия
™ — D*x — Ей = 0, (2.13)
где Е — Е -j- Е*. Отсюда
и^Ё-ЦВ’у-Б'х}. (2.14)
$ 21 сведение к краевым задачам 93
Подставляя (2.14) в уравнения (2.1) и (2.12), мы получим
следующую систему 2п-го порядка:
± = Мгх + (2.15)
ф = М2х + ТУ2ф,
где
Mi = А - BE~4r, Ni = BE-W,
(2.16)
М2 = С - DE-ЧГ, Nz = - A* +DE~'B\
Таким образом, и в самом общем случае квадратичного
функционала задача расчета оптимальной программы для
системы (2.1) сводится к краевой задаче для линейной
системы (2.15).
3. Одна задача динамики космических аппаратов.
Рассмотрим движение материальной точки в поле одного
притягивающего центра в предположении, что к ней при-
ложена некоторая сила. Уравнения движения имеют вид
£ = — тг +
(2.17)
Здесь х и у —декартовы координаты точки, г = +
р> — гравитационная постоянная, иг и и2 — состав-
ляющие ускорения от тяги двигателя. При известных ус-
ловиях уравнения (2.17) описывают движение космического
аппарата, снабженного двигателем малой тяги *). Пере-
менные и± и и2 могут рассматриваться как управляющие
воздействия. Если двигатель идеально-регулируемый, то
оптимальному в смысле энергетики переходу из одного со-
стояния в другое соответствует минимальное значение
интеграла
т
$(u% + ul)dt. (2.18)
А)
♦) См. Г. Л. Г р о д з о в с к и й, Ю. Н. И в а н о в, В. В.
Токарев, Механика космического полета с малой тягой,
«Наука»,' 1966,
94
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Поставим для системы (2.17) задачу коррекции (по
скольку предполагается, что тяга двигателя мала, то наи-
более естественно использовать подобные двигатели для
исправления малых ошибок). Предположим, что имеется
некоторое невозмущенное свободное движение аппарата,
которое описывается уравнениями
у = (2.19)
Г8 г8
и при t = t0 удовлетворяет условиям:
® (М = У — Go) ~ У о*
(2.2°)
~dt °’ ~dt у°-
Пусть в начальный момент реальное состояние системы
отличается от (2.20)
x(t0) = x0, y(t0) = y0,
(2.21)
dx (to) _ A dy (to) _ „
dt ~ °’ dt ~ Уо’
и это отклонение мало, т. е. величины с тильдой мало от-
личаются от величин без тильды.
Для компенсации ошибки включаются двигатели, и
возмущенное движение будет описываться уравнениями
(2-17).
Поставим задачу отыскать такие управления и± и и2,
чтобы за время Т — tQ была устранена ошибка в начальных
условиях.
Считая, что х и у мало отличаются от Ж и у, линеари-
зуем задачу. Для этого положим
= х — Ж, Ц1 = у у. (2.22)
Используя (2.22), (2.17) и (2.19) и отбрасывая величины
порядка £i, 41 и более высокого, мы придем к системе ли-
нейных уравнений следующего вида:
11 = flu Bi 4- + ии (2.23)
Лх = a2iSi 4" ^гаЛх 4" ии
где ау — это некоторые известные функции времени.
§ 2]
СВЕДЕНИЕ К КРАЕВЫМ ЗАДАЧАМ
95
Обозначим еще
£1 = ^2> = Лг*
Теперь систему (2.23) можно переписать так:
|1 — ?2, I2 — an£i + + иъ (2.24)
П1 = ^2» ^2 ~ Л21В1 + + W2*
Итак, мы пришли к следующей задаче. Определить
управления иг и и2, переводящие систему за время Т—t0
из состояния
£1 (^о) — ёю> (U — ^20» Л1 (^о) — Лю» Лг (^о) Л20
в начало координат
к (Л = 0, g2 (Л = о, П1 (Л = О, Г|2 (Г) = о
таким образом, чтобы функционал (2.18) достигал мини-
мального значения.
Задача, к которой мы пришли, является с точностью
до обозначений задачей а.
Можно привести еще много других примеров задач,
возникающих в технике, которые сводятся к линейным за-
дачам оптимального управления с квадратичным функцио-
налом. Однако основное значение рассматриваемого клас-
са задач состоит в том, что он широко используется при
построении разнообразных итерационных способов ре-
шения сложных задач оптимального управления. К это-
му вопросу мы еще вернемся.
4. О переносе граничных условии. Линейные урав-
нения — это единственный класс дифференциальных урав-
нений, для которых разработаны регулярные методы ре-
шения краевых задач.
Рассмотрим уравнение
х = Ах + / (2.25)
и предположим, что элементы матрицы А (величины
aij)и /— некоторые функции времени. Методы решения кра-
евых задач для уравнения (2.25) основаны на идее пере-
носа граничных условий из одной точки в другую.
96 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА (ГЛ. И
Предположим, что вектор-функция х (Z) — решение
уравнения (2.25) — должна удовлетворять условию
(Zq, х (Zo)) = 2 ^oi (^о)== ао* (2.26)
i
Мы будем говорить, что условие (2.26) перенесено из точки
Zo в точку Z, если удастся так определить независимо от х
вектор-функцию I (t) и скалярную функцию a (/), удовлет-
воряющие условиям
I (Q = (2.27)
а (*о) = «о,
что для любого момента t =f= t0
(I (Z), x (Z)) = a (Z).
Легко убедиться, что для этой цели можно использо-
вать сопряженное уравнение. Этим термином мы услови-
лись называть уравнение
Z = - АЧ. (2.28)
где Л ^означает транспонированную матрицу.
Умножим скалярно обе части уравнения (2.25) на Z,
а уравнения (2.28) —- на х и сложим. Тогда, так как
(Ах. Z) = (х. А*1).
мы получим
откуда
ц
(l^)t=stl = (Z,z)/==<0 + J (Z,/)dZ.
to
Итак, мы получили следующую теорему:
Теорема. Если I (Z) —• решение задачи Коши
(2.28), (2.27), а функция a (Z) удовлетворяет уравнению
а = G, /) (2.29)
и условию
а (*о) = «о,
§ 2] СВЕДЕНИЕ К КРАЕВЫМ ЗАДАЧАМ 97
то вектор-функция х (t) для любых t удовлетворяет ус-
ловию
(I (0, х (0) = а (0. (2.30)
Доказанная теорема позволяет любое линейное крае-
вое условие типа (2.26) перенести из точки х0 в любую
точку. Для этого достаточно решить одну задачу Коши
для сопряженной системы и одну задачу Коши для ска-
лярного уравнения (2.29). Таким образом, мы получаем
возможность любую краевую задачу с условиями типа
(2.26) свести к задаче Коши, перенеся все граничные усло-
вия в одну точку.
5. Метод А. А. Абрамова. Несмотря на логическую
простоту результата, изложенного в предыдущем разделе,
машинная реализация описанной процедуры может встре-
тить значительные трудности. Это связано с тем, что мы
можем столкнуться с быстрорастущими решениями сопря-
женной системы. В этом можно убедиться на очень простом
примере. Пусть исходное уравнение скалярное, х = —ая-|-
+/, где a (t) 0, тогда сопряженное уравнение l = al будет
иметь экспоненциально растущее решение, и фактичес-
ки вычислить на машине функцию I (0 окажется невоз-
можным. В этом случае мы говорим, что процедура пере-
носа граничных условий является неустойчивой.
В то же время аналитическое продолжение I (t) и
а (/) заведомо не единственно. Поэтому естественным обра-
зом возникает вопрос — нельзя ли воспользоваться этим
обстоятельством и так построить вектор-функцию I (£),
чтобы ее модуль был постоянной величиной, равной 11 (£0)|?
Умножим равенство (Z, х) = а на некоторую функцию
т (Z), т (Z, х) = /па, и обозначим g (t) = т (t) I (Z),
где I (t) по-прежнему удовлетворяет сопряженному урав-
нению (2.28)i
Составим уравнение, которому удовлетворяет вектор-
функция g(Z):
g = ml + Im = ml — тАЧ,
но I = g/m, поэтому
• m j*
g=-g-^.
4 H. H. Моисеев
98
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Выберем т (t) так, чтобы (g, g) = const, т. е. чтобы
(g, S) = 0* Это дает уравнение для т (/):
w _ (g, ^*g) __ (Ag, g)
m “ (g,g) ~ (g,g) *
Таким образом, вектор-функция g (t) удовлетворяет сле-
дующему уравнению:
g=(^g-A'g. (2.32)
Так как, с другой стороны, g (0 = т (0 I (t), то g (t0) —
= т (£q) I (f,).
Но функция т (0 определяется уравнением (2.31)
с точностью до константы, поэтому мы можем принять,
что т(<0)=14Тогда вектор-функция g (0, определенная урав-
нением (2.32), удовлетворяет начальному условию g (f0) =
= Zo и, следовательно,
[g («о), х Go)) = «о* (2.33)
Нам осталось определить a (0. Полагаем, как и прежде,
« (0 = (g (0, X (0), (2.34)
найдем & = (g, х) -f- (g, х) и, подставляя g и £ из формул
(2.32) и (2.25), получим
« = « + (*/)• <2-35)
Таким образом, перенос граничного условия (2.26) из
точки tQ в точку t совершен по формуле (2.34), где g (t)
определено как решение задачи Коши для уравнения (2.32)
с начальным условием g (Zo) = Zo, а функция a (Z) как
решение задачи Коши для уравнения (2.35) с начальным
условием a (t0) = а0.
Полученные результаты сформулируем в виде сле-
дующей теоремы:
Теорема (А. А. Абрамов)*). Если g (t) —
решение задачи Коши для системы (2.32) с начальным
♦) А. А. Абрамов, О переносе граничных условий для си-
стем линейных обыкновенных дифференциальных уравнений, ЖВМ
и МФ, 1, Ха 3, 1961.
Аналогичный результат без каких-либо ссылок на работы А. А.
Абрамова опубликован Б. Е. Чупруном в журнале «Автоматика
И телемеханика», № 9, 1967.
§ 2] СВЕДЕНИЕ К КРАЕВЫМ ЗАДАЧАМ 99
условием
8 (*о) = *о,
а функция а (t) удовлетворяет уравнению (2.35) и условию
а Оо) = «о,
то вектор-функция х (t) для любых t удовлетворяет ус-
ловию
г(0) = а(0,
причем || g || = If, для всех t.
Теорема А. А. Абрамова позволяет избежать труд-
ностей, связанных с существованием быстрорастущих
функций I (t), и сделать процедуру переноса граничных
условий (именуемую иногда прогонкой) устойчивой.
В отличие от того случая, который был рассмотрен
в предыдущем разделе данного параграфа, для переноса
граничных условий нам приходится решать задачу Коши
уже для нелинейных дифференциальных уравнений. За-
метим, однако, что переход от линейных уравнений к не-
линейным практически не усложняет процедуры числен-
ного решения.
6. Решение краевых задач методом переноса гранич-
ных условий. Рассмотрим дифференциальное уравнение
(2.25) и поставим для него следующую краевую задачу:
®<(fo) = ao> i =1,2,. ..,&,
(2.36)
?(Г) = р|, « = Л + 1,...,п.
Перенесем граничные условия из точки t = t0 в точку
t = Т, используя метод А. А. Абрамова. Для этого надо
прежде всего ввести векторы gt (i= 1, 2,..., к). Эти век-
торы удовлетворяют одному и тому же дифференциаль-
ному уравнению (2.32) и следующим граничным условиям
Si Go) = k Go), причем
Г 0, если i=4= 1,
Zy(*0) = L .
7 ' ( 1, если i = j.
Определив векторы gt (I), мы определим скаляры а*.
Они удовлетворяют следующей задаче Коши:
«* = а< + f), а* Go) = 4-
4*
100
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Определив эти функции, мы можем составить недостаю-
щие условия для функций х* (Т) при t = Т (i = 1, 2,..., к)
п
2*«(МГ) = «‘(Л. 1=1,2,...,*. (2.37)
Используя (2.36), равенства (2.37) можно переписать
в следующей форме:
к п
Sgl,-(T).?(T) = a‘(T)- 2 gi,(2>P*, 2 = 1,2,...,*.
(2.38)
Разрешив эту систему линейных алгебраических уравне-
ний относительно х$ (Т) (]'= 1, 2,..., А),мы получим пол-
ную систему условий Коши для вектор-функции х при
t = Т. Интегрируя теперь систему (2.25) от t = Т до
t — /0, мы найдем искомое решение краевой задачи.
Итак, решение краевой задачи сводится к решению
ряда задач Коши. Для того чтобы получить решение крае-
вой задачи, мы должны проинтегрировать слева направо
от tQ до Тк векторных уравнений (2.32) и к скалярных
уравнений (2.35), а также одну систему (2.25) справа
налево от Т до tQ.
Примечание. Мы решали краевую задачу по
следующей схеме: сначала перегнали все данные Коши
с левого конца траектории на правый конец, и эта процеду-
ра всегда устойчива. Далее мы решали задачу Коши
справа налево для системы (2.25). Эта процедура может
оказаться неустойчивой. В таком случае нам следует
перегнать сначала все условия Коши справа налево (эта
процедура всегда устойчива), а затем решать задачу Коши
для системы (2.25) слева направо.
7. Одновременный перенос нескольких граничных ус-
ловий. Итак, мы видим, что перенос граничных условий
возможно организовать так, чтобы задачи Коши, которые
приходится решать в процессе переноса граничных ус-
ловий, не имели быстрорастущих решений. Однако на
этом все подводные камни, которые могут встретиться при
эффективной реализации счета, еще не обойдены.
В предыдущем пункте мы рассмотрели одну из ти-
пичных краевых задач и подробно описали процедуру ее
S 2] СВЕДЕНИЕ К КРАЕВЫМ ЗАДАЧАМ
101
сведения к задаче Коши. Мы видели, что, помимо решения
задач Коши для вектор-функций g, (t) и скалярных
функций a* (f), мы должны еще суметь разрешить систему
линейных алгебраических уравнений (2.38). Матрица
этой системы || gij || может оказаться плохо обусловлен-
ной, и найти фактическое значение величин х* (Т) без
больших ошибок мы не сможем.
Согласно построению векторы gt (tQ) (i = 1, 2, к)
линейно независимы. Более того, они образуют орто-
гональную систему векторов. Однако с течением времени
скалярные произведения (gb gj) все более и более отли-
чаются от нуля. Описанная ситуация является типичной,
и если интервал Т — /0 достаточно велик, то может оказать-
ся, что изложенную в предыдущем пункте схему расчета
реализовать на ЭВМ будет невозможно. С этой трудностью
можно справиться, используя ту же идею, которая нам
позволила избежать быстрорастущих решений в задаче
Коши.
Предположим, что первые из граничных условий (2.36)
заданы в виде
Q*x (*0) = а0; (2.39)
а0 — это некоторый ^-мерный вектор, матрица Q = || ||
(i = 1,к, j = 1, п) — это прямоугольная (n X к)-
матрица (п строк и к столбцов), a Q* = || qi} || — соот-
ветственно (к X п)-матрица, причем
Запишем условия (2.39) в скалярном виде:
3 (*о) = i = 1,2,..., /с. (2.40)
Первое из условий (2.36) является частным случаем (2.40),
когда матрица Q* имеет вид
10 ... 0 ... 0
0 1 ... 0 ... 0
к строк.
0 0 ... 1 ... 0
к столбцов
п столбцов
102
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. И
Предположим, кроме того, что детерминант матрицы Q*Q —
не очень малое число. В частном случае задания условий
в форме (2.36) матрица Q*Q будет единичной.
Будем говорить, что условие (2.39) перенесено из
точки t = f0 в произвольную точку t = Т, если мы можем
независимо от х определить (к X п)-матрицу G (t) и век-
тор а (£), обращающиеся при t = /ов Q* и а0 соответствен-
но, так что при t — Т вектор-функция х (t) удовлетворя-
ет условиям
G (Т) х (Г) = а (Т). (2.41)
Проведем рассуждения, аналогичные тем, которые были
проведены в п. 5. Будем искать матрицу G (t) в форме
G (0 = М (О Ф (0, (2.42)
где М (/) — некоторая невырожденная (к X к)-матрица,
которую мы определим ниже, а (к X п)-матрица Ф (/)
удовлетворяет уравнению
Ф + ФЛ = 0. (2.43)
Составим уравнение, которому удовлетворяет матрица
G(t). Дифференцируя (2.42) и используя (2.43), получим
G = МФ - МФА = ММ-Ц} - GA. (2.44)
Определим далее матрицу М (t) таким образом, чтобы
4- (GG*) = GG* + GG* = 0. (2.45)
dt
Вычислим сначала производную G*. Так как G удовлет-
воряет уравнению (2.44), то
G* = (MM~lG)' - (GA)*. (2.46)
Далее, используя формулу
(АВ)* = В* А*,
преобразуем равенство (2.46):
G* = G* (ММ~1)* - A*G*. (2.47)
s 2] СВЕДЕНИЕ К КРАЕВЫМ ЗАДАЧАМ ЮЗ
Используя выражения (2.44) и (2.46) для G и (£*, а также
тот факт, что
(MM^GG* - GAG*)* = (GG*)* (ММ~У - (AG*)* G* =
= GG*(MM~y -GA*G*,
перепишем условие (2.45) в таком виде:
MM~lGG* - GAG* 4- (MM~H1G* — GAG*)* = 0.
Отсюда следует, что нам достаточно определить матрицу
М (0 так, чтобы имело место равенство MM~lGG* = GAG*,
откуда Л/М-1 = GAG* (GG*)-1. Возвращаясь к (2.44),
мы найдем дифференциальное уравнение для матрицы G'.
& = GAG* (GG*)~1G— GA;
подчинив G (t) начальным условиям
G (Q = Q*, (2.48)
тем самым однозначно определим матрицу G (t).
Аналогично предыдущему определим вектор a (t) ра-
венством a (t) = G (t) х (t). Составим для него дифферен-
циальное уравнение
<х = бх -f- Gx.
Поскольку х (0 удовлетворяет уравнению (2.25)
± = Ах 4-/,
a G (0 уравнению
G = GAG*(GG*)~1G-GAt
то
а = GAG* (GG*)-1» 4- Gf. (2.49)
Итак, мы определили правила переноса граничных усло-
вий, гарантирующие не только отсутствие быстрорасту-
щих решений задачи Коши, но и хорошую обусловлен-
ность системы линейных алгебраических уравнений,
которую приходится решать для определения краевых усло-
вий при t = Г, если только эта система была хорошо обус-
ловлена при t = tQ.
104
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Описанную процедуру переноса мы будем называть
процедурой совместного переноса граничных условии.
Она также была предложена А. А. Абрамовым.
цВ заключение подсчитаем,^ во что обходится перенос
системы к граничных условии (2.40). Матрица <г, так же
как и матрица Q*%— это (к X п)-матрица. Следовательно,
матричное уравнение (2.44) эквивалентно]^ X п скаляр-
ным уравнениям.
Вектор а имеет размерность, равную й, следовательно,
уравнение (2.49) эквивалентно к скалярным уравнениям.
Таким образом, для переноса к граничных условий необ-
ходимо решить задачу Коши для системы к (п 4~ 1)-го
порядка.
Итак, краевая задача для системы, порядок которой
равен п при условии, что мы переносим все условия в
точку t = Г, а при t = задано к условий, требует ре-
шения задачи Коши для системы, порядок которой равен
A: (n + 1) + п ♦).
Линейные системы дифференциальных уравнений
представляют собой единственный пример систем, для
которых краевые задачи всегда могут быть сведены к за-
дачам Коши, причем эту редукцию можно организовать
таким способом, что соответствующая задача Коши не
будет иметь быстрорастущих решений.
§ 3. Применение метода переноса граничных условий
для построения итерационных схем
1. Замечание о задаче Майера. В предыдущем парагра-
фе мы подробно изучили методы решения задач оптималь-
ного управления с квадратичным функционалом и ли-
нейными граничными условиями. Фазовые ограниче-
ния и ограничения на управление в этих задачах от-
сутствовали. Этот класс задач обладал тем замечательным
свойством, что его П-система является линейной. Это
значит, что расчет оптимальной программы в этом слу-
чае сводится к стандартной процедуре — решению задачи
Коши. Единственная реальная трудность, с которой мы
здесь можем столкнуться,— высокая размерность этой
♦) Последние п уравнений (2.25) интегрируются независимо
от t = Т до t =
§ 31 ПОСТРОЕНИЕ ИТЕРАЦИОННЫХ СХЕМ ДО5
задачи. Если размерность исходной задачи равна п (раз-
мерность вектора х), то размерность ZZ-системы равна
2п, причем п условий задано на левом, а п других усло-
вий — На правом конце траектории *). Используя тогда
результаты расчетов, приведенные в конце предыдущего
параграфа, мы увидим, что задача сведется к решению
задачи Коши для системы, порядок которой N равен
N = п (2п +1) + 2п = п (2п + 3). (3.1)
Для системы шестого порядка (динамическая система с
тремя степенями свободы) N = 90, причем основной
объем работы связан с интегрированием уравнений для
матрицы G. В данном случае эта система имеет порядок
= 2-6’6 = 72. Эта процедура вполне реализуема на
современных ЭВМ. Поэтому использование техники ре-
шения линейных краевых задач открывает определенные
перспективы для численного решения задач оптималь-
ного управления.
В начале предыдущего параграфа был приведен пример
важной технической задачи, которая сводится к рассмат-
риваемой. Количество подобных примеров довольно ве-
лико. Линейные задачи с квадратичным функционалом
имеют значительный прикладной интерес, и теории этих
задач посвящена большая литература. И в то же время
класс задач теории оптимального управления, которые
могут быть непосредственно сведены к краевым задачам
для линейных систем, является очень специальным.
Линейность исходной задачи еще никак не гарантирует
линейности 27-системы, и, следовательно, возможности
сведения задачи к краевой для линейных дифференциаль-
ных уравнений. Так, например, в этот класс не попадают
даже задачи Майера для линейных систем.
В самом деле, пусть движение управляющего объекта
описывается системой п линейных уравнений
t = Ах + и, (3.2)
а функционал задач в следующей форме:
•7 — (с, х (Т)).
•) Имеется в виду задача с фиксированным левым концом.
(3.3)
106
численные; методы расчета
(гл. п
Тогда уравнения для импульсов имеют вид ф = — Л*ф.
Управление исключается из условия максимума линейной
формы
Я* = 2 ф,гА (3.4)
Задача максимизации линейной формы (3.4) имеет смысл
лишь в том случае, когда величина и ограничена. Пусть,
например, выбор управления стеснен условием: | м’ | Т*.
Тогда зависимость и* от импульсов будет нелинейной:
ц1 Г Т'. если ф1>0,
( —Т4, если ф<<0.
Таким образом, Я-система для задачи (3.2)—(3.3) будет
нелинейной.
2. Задача Лангранжа без ограничений на управле-
ние. Рассмотрим следующую задачу расчета оптимальных
программ. Пусть уравнение управляемого объекта имеет
вид
i — f (х, и), (3.5)
где х — вектор размерности п, и — вектор размерности
т, а функционал, минимум которого должен быть дос-
тигнут,— интегральный
г
J (х, и) = J F (х, и) dt, (3.6)
h
где F —дважды дифференцируемая функция своих ар-
гументов; никаких ограничений на управление не накла-
дывается.
Предположим, что граничные условия для системы
(3.5) имеют вид
Ф^(®(*о)) = О, 7 = 1, 2, . . . , 80,
(3.7)
Ф<т(х(Т)) = 0, i = l, 2, . . зт,
где s0 < ®г п, п — размерность вектора х.
j 3J ПОСТРОЕНИЕ ИТЕРАЦИОННЫХ СХЕМ
107
Пусть задано некоторое управление w0, которое мы
рассматриваем как «нулевое приближение» к решению
и некоторое начальное значение х (t0), которое может
не удовлетворять начальному условию. Интегрируя сис-
тему (3.5), мы получим некоторую фазовую траекторию
х — х0 (0» вдоль которой будет двигаться управляемая
система под действием управления и9. Конечные условия
в этом приближении могут быть также невыполненными.
Упростим систему (3.5) и функционал (3.6), положив
х = х9 + у, и = и0 4- р. (3.8)
В уравнении (3.5) мы удержим линейные слагаемые, а в
функционале (3.6) — квадратичные. В результате мы при-
дем к уравнению
у = Ау 4- Bv (3.9)
и функционалу
т
Ф = J {(а. У) + (Р, v) 4- (Су, у) 4- (Dv, у) +(Ev, р)} dt. (3.10)
Смысл введенных обозначений очевиден: аир — это
векторы
а =
dF
дх *
a С, D и ^-матрицы
D =
ш;
......-
Ш4 ..................'>./=*.
<•/=»........-
Все эти величины вычислены при х = х0 (<) и и = u0 (t).
Я^инеаризуя условия (3.7), мы найдем, что функции
У (0 должны удовлетворять следующим условиям:
3 + 0>j (*o(U) = 0, j = 1........... (3.11)
П ЭФ*
2 -Л УНТ) 4- Ф,г(®о(2’)) = о, i = 1, . . . ,8Т. (3.12)
Ох
i08 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА [ГЛ. II
Итак, мы пришли к задаче отыскания управления у,
переводящего систему (3.9) из состояния, которое удов-
летворяет условиям (3.11), в состояние (3.12) за время
Т — tQ и доставляющего при этих условиях минимум
функционалу (3.10).
Л-система для системы (3.9) будет, как мы это устано-
вили, линейной. Краевые условия для нее будут опре-
деляться линейными уравнениями *). Следовательно, мы
можем найти функции у (0 и v (0, применяя аппарат
переноса граничных условий.
В результате мы получим новые управление и фазовую
траекторию:
ui = ио + ”, = х0 + у. (3.13)
Вычислим новое значение функционала J\ ~ J (хх, их).
Если окажется, что точность выполнения граничных
условий (3.10) повысилась и /х J (х0, и0), то решение
(3.13) улучшает исходное приближение, и мы можем
повторить процесс, полагая
и2 = U1 + У, = хх + у, (3.14)
и т. д. Сходимость такой итерационной схемы не изуче-
на, однако целый ряд решенных задач показывает ее эф-
фективность при условии, что начальное приближение
«достаточно хорошее».
Примечания.
1. Для улучшения сходимости, так же как и в методе
Ньютона, можно вместо формул (3.13) использовать
следующие:
и = uQ + kv, х = + ку, (3.15)
где к — некоторое положительное число, меньшее 1.
2. Предложенный Р. Веллманом метод последователь-
ных приближений в задачах оптимизации ♦*), имеет много
общего с вышеизложенным методом. Основное отличие,
по-видимому, состоит только в способах решения краевых
*) К s0 + sT краевым условиям (3.11), (3.12) добавятся (п —
— so) + (»—5т) соотношений, полученных из условий трансверсаль-
ности на левом и правом концах после исключения произвольных
постоянных (см. гл. I).
♦♦) Р. Б е л л м а н, Р. К а л а б а, Квазилинеаризация и не-
линейные краевые задачи, «Мир», 1968.
ПОСТРОЕНИЕ ИТЕРАЦИОННЫХ СХЕМ
109
§ 31
задач для линейных уравнений. Р. Беллман не использует
техники переноса граничных условий. Для отдельных част-
ных случаев он дает анализ сходимости.
3. Общая схема нелинейной прогонки. Как уже отме-
чалось, метод решения краевых задач, использующий пе-
ренос граничных условий, часто называют методом про-
гонки. Это название соответствует характеру процедуры:
сначала граничные условия переносятся с одного конца
траектории на другой; для этого приходится решать за-
дачу Коши, интегрируя уравнения, например, слева на-
право, потом нам остается решить еще одну задачу Коши,
причем в этом случае мы должны проинтегрировать сис-
тему справа налево.
Метод прогонки используется и для решения нелиней-
ных краевых задач. В этом случае строятся итерацион-
ные процедуры, на каждом шаге которых надо решать
краевую задачу для линейных уравнений.
Пусть речь идет о нелинейном уравнении
* = Ф (х), (3.16)
и пусть задано некоторое «нулевое приближение» х0.
Тогда уравнение (3.16) мы представляем в виде
& = А (х0) z + L (х, х0), (3.17)
где L (х, х0) = ф (х) — А (х0) х.
Если ф (х) — дифференцируемая функция, то опера-
тор А — это матрица частных производных;
(Хо) = | (’^')зся3^ | ’ = • • • 9П9 (3.18)
и структура итерационной схемы очевидна:
хп — A (^п-1) хп + L (^n-l> ^n-l)* (3.19)
Если краевые условия линейны:
(*о) = ао» Мтх (Г) = аг,
где М0 и Мт — прямоугольные матрицы соответствующих
размерностей, то на каждом шаге задача решается непосред-
ственно методом прогонки. Если краевые условия нели-
нейны, например, если они имеют вид (3.7), то приведенная
110
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. П
итерационная процедура должна сочетаться с итерацион-
ным удовлетворением граничных условий, как это опи-
сано в конце предыдущего пункта.
Предположим теперь, что мы имеем некоторую нели-
нейную Л-систему, и пусть' управление и = й (х, ф),
найденное из условия максимума функции Гамильтона Я,
будет дифференцируемой функцией х и ф. Тогда Я-сис-
тема^ может быть представлена в форме (3.16), где
<р (х) — дифференцируемая функция. Следовательно, в
этом случае выбор аппроксимирующего оператора А не
представляет труда, он выполняется по формуле (3.18).
Однако во многих случаях функция й (х, ф) может быть
не только недифференцируемой, но даже разрывной. Тогда
Ф (х) также недифференцируема, и выбор матрицы А —
это всегда некоторая специальная проблема; никакой
общей рецептуры выбора А не существует. Ниже мы рас-
смотрим один подобный пример.
4. Одна задача С релейным управлением. В качестве
примера применения методики, которая обсуждалась в
предыдущем пункте, рассмотрим следующую задачу
Майера: пусть уравнения динамической системы линейны
и по фазовой переменной и по управлению;
х = Ах + Ви, (3.20)
где А л В — некоторые заданные матрицы — функции
времени. Будем считать, что краевые условия заданы в
следующем виде;
я4(*о) = ос{, 4 = 1,2, . .
(3-21)
х* (Т) = х’т, / = к, к +1, . . . , п,
и требуется минимизировать функционал
J = (с, X (Т)), (3.22)
где с — заданный вектор, такой что
q = 0, если I > к.
Стесним выбор управлений и1 ограничениями вида
|и4|<А 4 = 1, 2,..., т (3.23)
$ 3]
ПОСТРОЕНИЕ ИТЕРАЦИОННЫХ СХЕМ
111
(условие (3.23) мы иногда будем записывать так:
| и К у).
Имеем
Н = (ф, Ах) + (ф, Ви), (3.24)
ф = -Л*ф. (3.25)
На правом конце заданы сопряженные переменные
ф4 (Т) = —Ci, i = 1, 2, . . ., к — 1.
Системы уравнений (3.20) и (3.25) линейны, но система
(3.20) содержит еще и управление, которое исключается
из условия максимума Н по и. Максимизация линейной
формы (3.24) при условии (3.23) определяет некоторую
функцию й (ф), вообще говоря, разрывную. Управление
и находится из условия (ф, Ви) = max при | и | у.
Например, если уравнение (3.20) и входящее в него
управление — скалярные, то
и = ( +Г’ если B^>Q' (3.26)
I — Т, если Bty < 0.
Таким образом, в общем случае Л-система
( х = Ах +
I ф = — А* гр .
будет нелинейной. Трудность ее решения в рамках ме-
тода нелинейной прогонки состоит в выборе аппроксими-
рующего линейного оператора, поскольку правые части
этой системы — функции недифференцируемые. Для по-
добных задач использовались разнообразные итерацион-
ные схемы, причем наиболее удачными оказались ите-
рационные схемы следующего вида:
Г = Ахп 4- Вфп + Вип_г 5грп-ь
V фп = — 4*фп.
На каждом шаге управление выбиралось из условия макси-
мума Я, т. е. по фррмулам типа (3.26).
Никаких результатов, относящихся к проблемам схо-
димости подобных методов, автору неизвестно.
112
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
(ГЛ. II
§ 4. Методы теории оптимального управления,
использующие процедуру решения задач
со свободным концом
1. Введение. Задачи теории оптимального управления,
сводящиеся к краевым задачам для линейных систем,
представляют из себя простейший класс задач этой тео-
рии. Чтобы получить их точное решение, достаточно ре-
шить несколько задач Коши. Следующий по трудности
класс задач — это задачи со свободным концом. Для
него мы уже не имеем в общем случае конечной процедуры
получения точного решения. Тем не менее для решения
задач со свободным концом разработаны эффективные
приближенные способы. Они используют следующее за-
мечательное свойство этого класса задач. Для получе-
ния точного решения задачи оптимального управления
динамической системой, если она линейна по фазовой
переменной и на правый конец траектории не наложено
никаких ограничений, достаточно решить две задачи
Коши. Подобно линейным задачам с квадратичным
функционалом, задачи со свободным концом, линейные
относительно фазовой переменной, играют роль основных
элементов для построения итерационных схем расчета
оптимальных программ.
2. Задача Майера для линейной системы. Рассмотрим
динамическую систему, линейную по фазовой переменной
t = A (t) х -|- <р (£, и),
х Оо) = XQ*
(4.1)
Размерности векторов х и и ЕЕ Gu будем считать равными
п и т соответственно. Будем искать управление из усло-
вия минимума функционала
J = (с, X (Г)). (4.2)
Составим выражение функции Гамильтона
< Н = (ф, Ах) 4- (ф, <р (/, и)) (4.3)
и выпишем уравнение для импульсов:
ф = —А*ф. (4.4)
Уравнение (4.4) называется сопряженным к уравнению
(4.1). Мы уже сталкивались с этим уравнением, когда
$ 4] ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ СО СВОБОДНЫМ КОНЦОМ ИЗ
исследовали возможность переноса граничных условий
из одной точки в другую.
На значения вектора х (Т) никаких ограничений не
накладывается. Поэтому значение импульса на правом
конце задано
ф (Т) = -с. (4.5)
Условие (4.5) позволяет вычислить вектор импульса
ф (t) независимо от х. Точно так же независимо от х может
быть определено управление и (t). В самом деле, управле-
ние находится из условия максимума скалярного произ-
ведения
Я* (и) = (1|) (г), ф (t, и)) (4.6)
при и ЕЕ Gu. Задача отыскания и (t) — это некоторая
задача нелинейного программирования, которая может
быть решена, как только определен вектор ф (t).
Таким образом, процедура решения рассматриваемой
задачи состоит из следующих этапов:
а) Решается задача Коши (4.4), (4.5) (эта задача ре-
шается справа налево). Одновременно на каждом шаге
решается задача максимизации функции (4.6). Найден-
ное управление запоминается.
б) Слева направо решается задача Коши для уравне-
ния (4.1), в котором управление и ($) —- уже известная
функция.
Примечания.
1. Значение импульсов запоминать нет смысла — их
величины нам нужны только для расчета управления.
2. В рассмотренной задаче мы по существу получили
синтез — мы нашли управление, годное для любых на-
чальных условий системы (4.1).
3. Некоторые вспомогательные формулы. Рассмотрим
линейную систему
У = А у + Bv (4.7)
и выпишем сопряженную систему
(4.8)
Условимся, что
У (*о) = о.
(4.9)
114
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. П
Умножая уравнение (4.7) на р, (4.8) на у, складывая
полученные выражения и принимая во внимание условие
(4.9), мы получим
(р(Т).у(Г))
(р, Bv)dt.
Предположим теперь, что нам задана некоторая линей-
ная форма L = (с, у (Г)). Полагая
р (Г) = -с, (4.10)
мы можем получить следующее выражение:
т
L — — J (р, Bv) dt.
/о
(4.11)
В этой формуле вектор р — это решение задачи Коши
(4.8), (4.10). Один раз определив вектор р, мы можем
затем легко изучить зависимость L от v, не прибегая к
интегрированию системы (4.7). Это важное свойство соп-
ряженного уравнения широко используется для построе-
ния различных приближенных методов решения задач
со свободным концом.
Формула (4.11) может быть приведена к следующему
виду:
т
L = J G (t) v dt.
io
(442)
Вычислим вектор G (t):
п / m \ m / п \
— (р, Bv) = — 3 I 3 bijPiV’ j = — 2 I S bijPivi j =
i=l \;=1 / /=1 \i=l /
m
= -
i-i
t. e G = —B*p.
Формула (4.12) может быть получена, разумеется,
и без использования сопряженного уравнения.
s 4] ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ GO СВОБОДНЫМ КОНЦОМ Ц5
Рассмотрим снова уравнение (4.7) и введем в рассмот-
рение матрицу фундаментальных решений Г (0. Она
удовлетворяет следующей задаче Коши;
Г = ЛГ, Г(*0)=Л
I — единичная матрица. Тогда решение уравнения (4.7),
которое обращается в нуль при t = /0, можно представить
в виде
t
y(t) = ^V (t) Г"1 (т) В (т) v (т) dr. (4.13)
to
Матрица @ (t, т) = || 1| = Г (t) Г"1 (т) называется мат-
рицей Грина. Вычислим
L = (с, у (Г)) = S J CiX^vidr = J (4.14)
<0 У=1
где
&(г) = 2^<.(Лт)&8У (т).
м
Этот путь построения формулы (4.12) требует эффек-
тивного построения матрицы Грина, т. е. решения п
различных задач Коши для системы с = Аг.
В то же время вывод формулы (4.12) с использованием
сопряженного уравнения требует решения лишь одной
задачи Коши для уравнения i = — А*г.
Поэтому использование матрицы Грина приводит к
более громоздкой процедуре, нежели использование соп-
ряженного уравнения. Одновременно заметим, что фор-
мула (4.12) дает значительно более частный результат,
нежели формула (4.14), поскольку последняя справедли-
ва для любого t.
А. Метод решения нелинейных задач со свободным
концом, использующий сопряженное уравнение. Будем
рассматривать задачу отыскания управления и (f) и
траектории х (t), связанных условиями
*=/(«, и), (4.15)
х Оо) = (4.16)
и е Gu (4.17)
116
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
и доставляющих минимум функционалу
J = F (х (Т)). (4.18)
Никаких условий на значения фазовых переменных при
t = Т мы накладывать не будем.
Обозначим через х* (1) и и* (0 некоторое «диспет-
черское решение», т. е. решение, удовлетворяющее урав-
нению (4.15) и условиям (4.16) и (4.17). Решению (х#, и*)
отвечает некоторое значение функционала
J (®»« ^*) — F (%* (71)).
Введем новые переменные х = х* + у, и = u* + v
и линеаризуем уравнение (4.15):
'у = A (t)y +B(t)v; (4.19)
здесь
4 - 1й?Ы1 -1 “° ’
в=|(^Ы=,м’
i,j = 1,..., п,
1 = 1,.. .,га,
к= 1,..., т,
матрица А — квадратная, п X п (га — размерность век-
тора х), В — прямоугольная. Она имеет п строк и m
столбцов (тга — размерность вектора и).
Вычислим еще 6J — линейную часть разности
F(x(T))-F(x. (Г));
Mg) »W-(g.»). <4.20>
i—1 \
Поскольку х* (t) удовлетворяет начальному условию
(4.16) и, следовательно, у (tQ) = 0, то мы можем восполь-
зоваться формулой (4.11), приняв в качестве L величину
т
6 J = — J (р, Bv) dt.
(4.21)
$ 4] ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ СО СВОБОДНЫМ КОНЦОМ Ц7
Здесь р — вектор, удовлетворяющий сопряженному урав-
нению (4.8) и следующему условию Коши:
‘4-22>
Теперь мы должны выбрать вариацию управления v
таким образом, чтобы максимально уменьшить величину
функционала SJ. Для этого мы должны выбрать управле-
ние v из условия
тах(р,Вр) = Ф(р). /423)
u#+»eGu ' • '
Заметим, что это условие совпадает с принципом макси-
мума для линеаризованной системы (4.19), если функцио-
нал задан как ((^-)ж=зс/ У(Л)-
Таким образом, мы рассматриваем задачу оптималь-
ного управления линейной системой со свободным кон-
цом. Заметим теперь, что задача определения минимума J,
вообще говоря, не тождественна задаче минимизации
6J. В самом деле, определив v из условия (4.23), мы
найдем новые х и и. Однако из того, что SJ 0, не
следует, что J (х* + у, и* -|- v) < J (я*, и*). Поэтому
в данной задаче еще возникает некоторая вспомогательная
задача о выборе такого v, чтобы одновременно имели
место неравенства
б/ < О и J (х* + и*).
Наличие связи (4.21) позволяет строить разнообраз-
ные варианты спуска. Задача отыскания вектора v (фор-
мула (4.23)) — это задача минимизации линейной формы
— (р, Bv) = — ^bijPivi
ij
при нелинейных (в общем случае) условиях + v G Gu.
Поскольку р (/) — это известная вектор-функция времени,
то решение задачи (4.23) позволит нам определить неко-
торый вектор v (0, который, в свою очередь, определит
вектор у (/). Если при этом приращение функционала 6J
118
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. 1Г
окажется отрицательным и будет иметь место неравенство
J (** + У. + ”) < J (**, и»), (4.24)
то мы принимаем v = 'Ъ. Если неравенство (4.24) не вы-
полняется, то мы проверим вектор и = 4» и. Если при
А
v = v неравенство (4.24) опять не имеет места» то мы
продолжаем уменьшать величину множителя, последо-
1 ~ 1 ~
вательно проверяя -у vt -g- и и т. д.
Задача отыскания вектора у, доставляющего макси-
мум линейной форме (р, Bv) при ограничениях u* -f-
+ v ЕЕ Gu, может оказаться достаточно сложной. В этом
случае взамен рассмотренной может быть использована
следующая процедура.
Рассмотрим варицию функционала (4.21). Эту формулу
можно переписать в виде
т
to
Заметим, что если мы положим
v = к&р,
(4-25)
где АГ> 0, то вариция будет отрицательна. Выберем к = к9
так, чтобы v + u* Если при этом неравенство
(4.24) будет иметь место, то мы принимаем = и* -|-
4- у, в противном случае мы берем = -у- и проверяем
величину = u* + krv и т. д.
Введем в рассмотрение конус возможных направ-
лений относительно множества Gu в точке и*. Будем го-
ворить, что v ЕЕ Ки*, если можно указать такое X* > О,
что для любого 0 < % < X* имеет место и* kv ЕЕ Gu.
Очевидно, что для того, чтобы и* было оптимальным
управлением, необходимо, чтобы для любого t вектор В*р
принадлежал к двойственному конусу Ки* (этим терми-
ном мы называем совокупность всех тех векторов с, для
которых
(в, г)< О
$ 4] ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ СО СВОБОДНЫМ КОНЦОМ Ц9
для любых v е Ки^). В самом деле, предположим, что
для некоторого t = t± вектор В*р ё Ки*. Тогда, в силу
непрерывности, найдется некоторый интервал — в,
tx + в), на котором вектор В*р ё Ки** На этом интер-
вале существует v (/), для л
которого (2?*р, v) > 0, т. е.
SJ < О, и наше решение не [
может быть минимумом. i
Покажем, что проверка / ]_________
этого необходимого условия z я
сводится к некоторой зада- Рис *
че квадратичного програм-
мирования.
Введем оператор проектирования вектора а на на-
правление е (рис. 4.1). Через Реа мы будем обозначать
такой вектор z = %e (% > 0), некотором достигается
минимум нормы вектора а — z. Задача определения
проекции сводится к задаче квадратичного программи-
рования: определить
min 2 (z* “ а*)2-
z==Xe 1
Х>0
Если скалярное произведение (а, е) 0, чо z = 0. Ана-
логично определяется и проекция вектора на произволь-
ное множество.
Мы установили, что для того, чтобы найденное решение
х*, и* было оптимальным, необходимо, чтобы для любых
v G= Ки* имело место условие
(В>,р)<0. (4.26)
Но для того, чтобы имело место условие (4.26), необходи-
мо и достаточно, чтобы
2 = рКиВ*р = 0. (4.27)
Таким образом, проверка условия (4.26) требует решения
задачи квадратичного программирования (4.27) для каж-
дого значения t.
Определение v по формуле (4.25) требует выбора к
такого, чтобы р -|- €= Если к оказывается очень
120
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
малым, то это показывает, что мы уже находимся в ок-
рестности оптимума. Проверку условия (4.26) осуществить
легче, чем проверку принципа максимума.
Описанный метод давно вошел в арсенал инженерной
практики. Он очень прост для программирования и поз-
воляет легко уточнить решения, полученные эвристи-
ческим путем. Сейчас трудно назвать имя его автора.
У нас в стране, по-видимому, первыми начали исполь-
зовать рассуждения подобного рода Л. И. Шатровский ♦)
и Т. М. Энеев. Изложенная здесь модификация метода
была разработана в Вычислительном центре Академии
наук СССР.
Основной недостаток этого метода состоит в том, что
с его помощью очень трудно получить точный результат.
Поэтому метод сопряженных уравнений следует рассмат-
ривать в первую очередь как метод уточнения диспетчер-
ского решения.
Примечание. Условия сходимости были ис-
следованы М. Ф. Бейко и И. В. Бейко •) **).
5. Замечание о вычислительных трудностях. Итак, в
п. 2 мы установили, что линейная по фазовым перемен-
ным задача Майера со свободным концом сводится к реше-
нию двух задач Коши для линейных уравнении. Однако
могут возникнуть известные трудности с реализацией
вычислительного процесса, поскольку решения сопря-
•) Л. И. Ш а т р о в с к и й, Об одном численном методе ре-
шения задач оптимального управления, ЖВМ и МФ 2, № 2, 1962.
У нас в стране этот метод часто называют методом Брайсона на том
основании, что он был опубликован А. Брайсоном на 2—3 месяца
раньше. Однако специалистам хорошо известно, что этот метод
начал применяться в СССР для решения конкретных задач задолго
до его публикации. В частности, в ВЦ АН СССР он вошел в арсенал
средств расчета оптимальных траекторий в 1959 г. после доклада
Л. И. Шатровского на семинаре по теории оптимального управле-
ния в ВЦ АН СССР. Поскольку изложенный метод был разра-
ботан независимо в СССР Л. И. Шатровским и Т. М. Энеевым и
в США А. Брайсоном, его следовало бы называть методом Шат-
ровского — Брайсона — Энеева. Заметим, что для задач с закреп-
ленным концом методы Брайсона и Шатровского отличаются.
Л. И. Шатровский вводит функцию штрафа, в отличие от Брайсона,
который использует идеи проектирования градиента (см. ниже).
♦•) М. Ф. Б е й к о, И. В. Б е й к о, Об одном новом подходе
к решению нелинейных краевых задач, Украинский матем. журнал
20, № 6, 1968.
$ 4] ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ СО СВОБОДНЫМ КОНЦОМ 124
женного уравнения (4.4) могут оказаться быстрорасту-
щими. Этой опасности можно избежать, если снова вос-
пользоваться приемом А. А. Абрамова, который был из-
ложен в предыдущем параграфе.
Рассмотрим уравнение (4.4) и примем, что х (t0) = 0.
Вместо уравнения (4.1) рассмотрим такое:
ф= — Л*ф-Ь-^^-ф = —Л’ф4-Ф(ф)ф. (4.28)
Мы знаем, что решение этого уравнения — вектор ф —
постоянен по абсолютной величине. Умножая (4.28) на
а (4.1) — на ф и складывая, получим
-4-ОМ) = (Ф(Ф)’М) 4- »))• (4.29)
Обозначим J (0 = — (ф (t), х (/)), на основании условия
х (Q = 0 имеем J (£0) = 0.
Если мы положим ф (Г) = — с, то J (Т) будет совпа-
дать со значением (4.2). Следовательно, уравнение (4.29)
мы можем переписать в такой форме:
j = Ф (0 J - (ф, <р (t, и)). (4.30)
Напомним, что ф (<) — это известная функция, Ф (Л =
= ф (ф (0).
Рассмотрим для уравнения (4.30) задачу отыскания
управления и, доставляющего минимум J (Т).
Эта вспомогательная задача является задачей]Майера
для скалярного уравнения (4.30), причем это уравнение
является линейным относительно фазовой переменной J.
Сопряженное уравнение имеет вид
д=-Ф(0«. (4.31)
Переменная q (Z) удовлетворяет условию q (Г) = —1.
Таким образом, сформулированная задача сводится к
определению и из условия максимума #*=j—д(ф, ф (i, и))
и интегрированию слева направо уравнения (4.30).
Описанный прием позволяет избежать быстрорасту-
щих решений уравнения (4.4) ценой решения дополни-
тельно двух задач Коши для скалярных уравнений
4.30) и (4.31).
122 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА [ГЛ. И.
6. Метод И. А. Крылова и Ф. Л. Черноусько. Очень
близок к методу сопряженных уравнений метод решения
задач со свободным концом, предложенный в 1962 году
И. А. Крыловым и Ф. Л. Черноусько *). Он обладает
всеми достоинствами и недостатками метода сопряженных
уравнений, но гораздо удобнее для машинной реализации,
поскольку не требует линеаризации и перехода от системы
(4.15) к системе (4.19).
Будем рассматривать задачу отыскания минимума
функционала
J(x,u) (Л (4.32)
i
при ограничениях (4.15) — (4.17).
Импульсы ift (t) при t = Т должны удовлетворять
условиям
ф<(Г) = -с1. (4.33)
Процедура решения этой задачи, предложенная И. А.
Крыловым и Ф. Л. Черноусько, состоит в следующем:
а) Пусть нам задано диспетчерское решение uw. Ин-
тегрируя систему (4.15), мы найдем
б) Составим функцию Гамильтона
^ = 2'Ф1/,(Ж»»)
i
и уравнения для сопряженных переменных
= (4.84)
j vX
в) Проинтегрируем систему (4.34) при краевом усло-
вии (4.33) справа налево от t = Т до t = tQ. При этом мы
будем считать, что х = х#, и = и*. Одновременно из
условия максимума функции Гамильтона мы будем оп-
ределять новое управление Поскольку величины х (t) =
= х* и р* (0, полученные интегрированием системы
(4.34), нам известны, то новое управление будет также
♦)И. А. Крылов и Ф. Л. Черноусько, О методе
последовательных приближений для решения задач оптимального
управления, ЖВМ и МФ 2, № 6, 1962.
§ 4J ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ GO СВОБОДНЫМ КОНЦОМ 123
известной функцией времени. Теперь, используя управ-
ление мы повторим операции а) и б), и т. д.
Легко видеть, что для линейной задачи, т. е. если
уравнения (4.15) линейные, оба метода, описанных в
этом параграфе, совершенно экви алентны и дают точное
решение на втором шаге. Однако метод И. А. Крылова
и Ф. Л. Черноусько более удобен для машинного счета,
поскольку он не требует выполнения трудоемкой операции
линеаризации уравнений на каждом шаге.
В общем случае этот метод расходится. Существует
много способов улучшения его сходимости. Пусть, на-
пример, J (uj) > J (zz*). Тогда процедуру а) интегрирова-
ния системы (4.15) с управлением их мы заменим интег-
рированием этой системы с управлением
1 * * ки
где к выбирается из условия J < J (и*).
Примечание. Метод, описанный в этом разделе,
удобнее метода, который был изложен выше, не только
потому, что экономится предварительная работа по линеа-
ризации исходной системы. Линеаризованные уравнения
обычно оказываются значительно более громоздкими,
чем исходные нелинейные (например, они содержат боль-
ше слагаемых), в силу чего процесс их численного интег-
рирования требует больше машинного времени, чем нели-
нейных.
7. Понижение порядка исходной задачи. Формула
(4.12) дает возможность построить процедуру спуска в
задаче с условиями на правом конце. Это обстоятельство
было замечено рядом авторов, которые независимо друг
от друга предложили алгоритмы для решения вариацион-
ных задач с условиями на правом конце (А. Брайсон,
И. О. Мельц и др.). И. О. Мельц показал, что эти алго-
ритмы можно рассматривать в качестве континуального
аналога метода проекции градиента.
Здесь мы изложим алгоритм (который является моди- -
фикацией метода Брайсона), предложенный в 1964 году
автором, в связи с обсуждением и сопоставлением ме-
тода Л. И. Шатровского и метода И. А. Крылова и
Ф. Л. Черноусько.
124
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
(ГЛ. II
Рассмотрим сначала простейшую задачу отыскания
минимума функционала
и—1
/(«,«)- 2^(7) (4.35)
i=»l
при условиях
£ = A(t)s + B(t)u, uE=Gu, (4.36)
Go) — 0, i — 1,..., n, (4.37)
xn (T) = xnT. (4.38)
Пусть множество Gu будет многогранником. Введем в
рассмотрение два вектора pj и рф, удовлетворяющие со-
пряженному уравнению
Р = — А*Р, (4.39)
но разным условиям на правом конце:
Рл (Г) = — q, I = 1, 2,...»п — 1,
(4.40)
Р/п(Т) = 0,
Рн(Л = 0, i = l, 2, ...,ге—1,
(4.41)
Рфп (^*) =
Воспользуемся соотношением (4.12) и выпишем для
функционалов J и <р = хп (Г) следующие формулы:
т
J — — j* (£л и) dt,
to
т
<p= \(g,,u)dt,
it
(4А2)
(4.43)
где
gj = B'pj, g, = B*pv.
Заметим еще раз, что векторы р} и а, следователь-
но, и векторы gj и £ф не зависят от управления, поскольку
они полностью определяются матрицами А, В и условиями
I 41 ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ СО СВОБОДНЫМ КОНЦОМ 125
(4.40) и (4.41). Используя формулы (4.42) и (4.43), мы
можем следующим образом переформулировать задачу
(4.35)—(4.38): определить управление и (<), доставляю-
щее минимум функционалу (4.42) при условии, что
т
<р = j* (g., и) dt = х?. (4.44)
to
Эта задача уже гораздо проще исходной, поскольку в ней
имеется только одна фазовая переменная <р, удовлетворя-
ющая скалярному уравнению
Ф = (£•,») (4.45)
и условиям на концах <р (/0) = 0, ф (Т) = Функция
Гамильтона для этой задачи имеет вид
Я = q (g„ и) -Ь (gj, и) (4.46)
и, следовательно,
q_____0.
* dip
Таким образом, множитель Лагранжа q постоянен.
Если мы тем или иным образом зададим эту величину,
то управление и однозначно определится из условия
максимума Н — это некоторая задача линейного програм-
мирования. Решив после этого задачу Коши для уравне-
ния (4.45) с начальным условием ф (/0) = 0, мы опреде-
лим величину <р (Г). Следовательно, в этом случае задача
сведется к подбору всего лишь одной постоянной q, обра-
щающей в нуль разность ф (Г) —
Итак, использование сопряженного уравнения (а сле-
довательно, формулы (4.12)) позволило исходную задачу
размерности п свести к скалярной задаче.
Очевидно, что описанная процедура может быть при-
менена и в том случае, когда при t = Т закреплены к
координат, например, х1 (Т),..., х* (Г), а функция
п
7=2^* (Г).
i=fc4-l
126
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Для этого достаточно вместо вектора рф ввести к векто-
ров /Ч8 ($ = 1, 2,...» к), удовлетворяющих уравнению
(4.39) и следующим данным Коши:
{О, если i=4=s,
А .
1, если i = $.
Тогда вектор pj должен удовлетворять следующим усло-
виям:
рл(Т) = 0, « = 1,2,...,Л,
Рл (Г) = — q, i = к + 1,..., п.
Вводя векторы 9 = 1,...., *, краевые ус-
ловия при t = Т мы можем записать в виде
г
Ф. {Т) = J (gv и) dt = 4, s = 1,..., к. (4.47)
В результате мы приходим к задаче определения минимума
функционала (4.42) при дифференциальных связях
<p. = (g»,.w).
и условиях на концах
Фе Go) = Oj Фе (^) =
Размерность полученной задачи уже равна к < п. По-
добно тому, как решение линейной задачи со свободным
концом было использовано для построения итерационных
схем в нелинейных задачах, изложенный метод может
служить источником для построения итерационных схем
для нелинейных задач с частично закрепленными кон-
цами.
8. Один способ приближенного решения задач с за-
крепленными концами. Рассмотрим снова задачу оп-
ределения минимума функционала (4.42) при условии
(4.44).
Для построения приближенного решения заменим
эту задачу другой вариационной задачей.
Предположим, что мы разыскиваем минимум функцио-
нала (4.35), а условие (4.38) отсутствует. Тогда функция и
$ 4] ПРОЦЕДУРА РЕШЕНИЯ ЗАДАЧ СО СВОБОДНЫМ КОНЦОМ 127
в каждый момент времени должна доставлять макси-
мум линейной формы (pj9 Ви) = (gj, и) на множестве
бги. Обозначим через v решение этой вспомогательной
задачи.
Положим и = v + h и построим вектор-функцию
h (t), наименее уклоняющуюся от нуля, которая гаранти-
рует выполнение условия (4.38). Уклонение h (t) от нуля
будем понимать в смысле метрики в Ь2:
т
||Л|Р=|(Л,Л)Л.
Го
Тогда задача определения функции h (t) сводится к отыс-
канию минимума функционала
т
U = $(h,h)dt (4.48)
ч
при условии
т г т
ф = J (g9, U)dt= \ (g9, V)dt + ] (g9, h) dt = XT. (4.49)
•o «• Го
Для решения изопериметрической задачи мы сможем
применить принцип максимума Л. С. Понтрягина. По-
лагая z = (g9, v) 4- (§ф, Л), мы составим функцию Га-
мильтона Н = ф ((?ф, v) + (&,, h)) — (Л, Л). Так как
функция ф должна удовлетворять уравнению
то ф — это некоторая константа, которая должна быть
определена из условия изопериметричности (4.49).
Условие максимума Н по h позволяет вычислить Л:
Л4 = -1-ф.^. (4.50)
Подставляя это выражение для h в условие (4.49), мы
найдем
г т
«т - J (#<»> v) dt = J (g9, g9) dt.
128
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Находя отсюда ip/2 и подставляя в (4.50), получим
т
— J (?,. v) dt
h{ = —^---------------------
dt
t»
(4.51)
t. e. h = kg9, где к — скаляр:
т
хт — f (£»» ”)л
_______*0
Т
Итак, эта процедура позволяет нам определить и в виде
и = v + kg9. Если и = v + kg<* GE би, то описанная
процедура позволяет улучшить приближенное решение v.
В противном случае необходимо дробление множителя
к и срезка управления и.
Совершенно аналогично рассматривается задача с
m закрепленными концами, т. е. задача, в которой нало-
жено m условий на значение фазовой переменной в момент
времени t == Т.
Примечание. Методы, описанные в последних
пунктах этого параграфа, «хорошо работают» лишь тогда,
когда решение задачи со свободным концом близко к
решению исходной задачи. В общем случае необходимо
действовать более осторожно, определяя управления v
и Л из условия постепенного уменьшения функционала
и частичного улучшения граничного условия.
9. Заключение. Как показывает опыт, методы данного
параграфа удобны для получения приближенного решения
задач со свободным концом. Однако получение точного
результата требует относительно большой затраты машин-
ного времени. Поэтому целесообразно сочетать изложен-
ные методы с методом Ньютона, который позволяет про-
водить расчет с любой степенью точности, если только
начальное приближение находится в окрестности решения.
Для того, чтобы применять метод Ньютона, мы должны
$ 5] МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ФУНКЦИИ ШТРАФА 129
иметь в своем распоряжении приближенные значения ве-
личин импульсов в начальный момент времени. Изложен-
ные методы решения задачи со свободным концом, как мы
это видели, обладают требуемым свойством.
§ 5. Методы, использующие функции штрафа
1. Функции штрафа в задачах об относительном экстре-
муме. Одновременно с усложнением структуры ограниче-
ний резко усложняются необходимые условия экстремума.
Соответственно с этим усложняются и методы расчета,
использующие необходимые условия. Поэтому предла-
гаются различные приемы преодоления трудностей, вы-
званных существованием сложных ограничений. К их
числу относится введение функций штрафа, которые в
настоящее время получили широкое распространение в
практических расчетах.
Изучение техники использования функций штрафа
начнем с рассмотрения задачи отыскания максимума
дифференцируемой функции / (х) (х ЕЕ Rn) при ограни-
чении типа равенств
Ф1 (х) = О, г = 1, 2,..., т < п, (5.1)
где ф* — также дифференцируемые функции. Идея метода
штрафных функций состоит в замене задачи отыскания
относительного максимума задачей отыскания абсолют-
ного максимума функции
m
2 А, [<₽«(«)]•, (5.2)
где А, — некоторые положительные постоянные.
Выражения А, (<р* (а;)]2 называются штрафными функ-
циями. Если условия связи выполнены, то I (х) — f (х).
Если условия связи не удовлетворены, то второе слагае-
мое в правой части (5.2) характеризует невязку — меру
отклонения точки х от гиперповерхности <р* (х) = О
(i = 1, 2,..., т). Чем больше будут числа Аг, тем больше
будет штраф за нарушение условий связи.
Создание этого метода чаще всего связывают с именем
Куранта, который применил его в 1943 году для решения
5 H. H, Моисеев
130 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА (ГЛ. П
одной специальной вариационной задачи. Куранту при-
надлежит также первый анализ, позволивший выяснить
соотношение между задачей отыскания относительного
экстремума функции / (х) и абсолютного экстремума
функции I (х). Он доказал, что при А$ оо точка ж* (А^),
в которой функция I достигает максимума, стремится к
точке 2?, в которой достигается относительный максимум
функции / (х), л при этом / (%) = I (%).
Метод штрафных функций получает все большее и
большее распространение. Популярность этого метода
объясняется тем, что он дает, вероятно, наиболее простую
схему решения задач на относительный экстремум. В то
же время, как показывает опыт расчетов, получить с его
помощью достаточно точный результат трудно.
Легко понять, почему это происходит. Если величина
min Aj невелика, то значение вектора х*, реализующе-
i
го максимум функции I (х), будет значительно отличаться
от Я. Следовательно, при малых А$ метод штрафных функ-
ций дает большую погрешность. Если же числа А$ велики,
то значения х* и % будут близки, но в этом случае при
расчетах мы должны оперировать с большими числами,
которые умножаются на малые величины, что в свою
очередь служит источником ошибок. Поэтому метод функ-
ций штрафа в теории экстремума функций обычно
комбинируют с каким-либо трудоемким методом, который
способен дать точный результат при достаточно «хорошем»
начальном приближении.
2. Теорема Ю. Б. Гермейера. Курант дал обоснование
метода штрафных функций для решения специальных за-
дач, связанных с применением прямых методов к задачам
математической физики. Позднее обоснование метода
штрафных функций было дано Ю. Б. Гермейером. Ниже
мы приводим это доказательство, показывающее существо-
вание глубокой связи между рассматриваемым вопросом
и теорией максмина.
Рассмотрим задачу отыскания максимума непрерыв-
ной функции / (х), определенной и ограниченной сверху
на некотором ограниченном замкнутом множестве Е ЕЕ Rn
при условии, что х удовлетворяет равенству <р (х) = 0.
Множество точек х Е £, удовлетворяющее этому равенст-
ву, обозначим через М.
§ 5] МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ФУНКЦИИ ШТРАФА 131
Построим функцию Ф (х):
Ф = О, если Е М,
Ф <С 0» если х е= М.
Например, в качестве Ф (х) можно взять функцию
m
-ЗК>* (*)!’♦
1=1
Введем в рассмотрение функцию I (х, X):
I X) = / (х) + Л Ф (я), X > 0.
Обозначим через х^ точки, в которых функция I (х, X)
достигает своего максимального значения на Е при дан-
ном фиксированном X. Обозначим через N множество точек
хх, для! которых Л изменяется от нуля до оо. В силу огра-
ниченности множество N компактно, и мы можем выделить
сходящиеся подпоследовательности точек {хх}, облада-
ющие следующим свойством:
Итхх = Хоо.
X—>00
Имеет место следующая теорема:
Теорема (Ю. Б.Гермейер *)). Точки при-
надлежат множеству М и в этих точках функция / (х) до-
стигает на М своего максимального значения, причем
f (#<») = Пт шах I (х, %).
Х-*о© х&Е
Доказательство теоремы распадается на доказательство
ряда последовательных утверждений.
JI е м м а 1.
max inf I (х, X) lim max I (x, X). (5.3)
хем x>o x-*oo xeE
*) Ю. Б. Гермейер доказал значительно более общую теорему,
относящуюся к теории максмина (см. Ю. Б. Гермейер,
Введение в теорию^исследования операций, «Наука», 1971). Из нее
как частный случай следует результат, который мы здесь приводим.
5*
132
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
Доказательство. Так как в точках х Gz М
Ф (ж) = 0, то
max inf I (х, X) = max f (x) = f (Ж), (5.4)
«ем x>o xsM
где Ж принадлежит TV — множеству точек, в которых
/ (х) достигает на М своего максимального значения.
Величину / (Ж) формально можно записать так:
/(Ж) = Нт(/(Ж) 4*ХФ(Ж)),
X—>оо
поскольку Ф (Ж) = 0. Но
Ит (/ (Ж) + ХФ (Ж)) sgj lim max I (x, %), (5-5)
X->eo X-*oo XGE
что и доказывает лемму.
Лемма 2.
linux = #<*> GE М.
Х-*ОО
Доказательство. Предположим обратное,
пусть Gr М, тогда, в силу замкнутости М, начиная с
некоторого X*, все точки последовательности {хх} будут
внешними по отношению к М. Следовательно, для всех
X X* будет иметь место неравенство Ф (хх) < — е < 0.
Следовательно,
КтФ(^х)<;0.
Х-*«о
Но тогда
lim (/(жх) 4-(жх)) = — ос.
Х-*оо
Вспоминая смысл обозначения ях, предыдущее равенство
мы можем записать в виде
lim max I (х, X) — — оо.
X—>оо х&Е
Используя далее лемму 1, мы получим, что
max/ (ж) Ит max I (х, X) = — оо.
х&А Х-*оо х^Е
§ 5] МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ФУНКЦИИ ШТРАФА 133
Полученное противоречие доказывает лемму. Итак,
Хсо М, т. е. Ф (хсо) — 0. Первое из утверждений тео-
ремы доказано.
Лемма 3.
lim max I (х,
X—>оо X&S
Доказательство. Используя обозначение хх,
левую часть этого неравенства можно переписать так:
lim max I (х, X) = lim (/ (хх) + ХФ (хх)).
Х-*во х&Е Х->зо
Но так как Ф (х\) 0 для любого конечного %, то
lim max I (ж, X) lim / (ж\),
Х-*оо х&Е Х-+оо
т. е.
lim max I (х, %) f (x*,).
Х-+зо х^Е
Лемма 3 доказана.
Из леммы 3 и леммы 1 сразу следует второе утвержде-
ние теоремы. Действительно,
/ (Ж) lim max I (х, К) / (ж»),
Х-*оо х&Е
т. е.
/(Ж)</(ж»).
Поскольку Ж принадлежит N — множеству всех точек
максимума функции / (х) на М, то из этого неравенства
следует, что / (х^) — / (Ж), т. е. Е Лг и
f (хп,) = lim max I (x, %).
X->eo x&E
Теорема доказана полностью.
Примечание. Очевидно, что в том случае, когда
мы разыскиваем минимум функции / (х) при условиях
(5.1), функцию штрафа следует брать в виде
т
Ф(ж)= 2 Л{[ф*(ж)]2,
1=»1
где А/ — положительные числа.
134
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
3. Задачи с ограничениями, наложенными на конец
траектории. Метод штрафных функций в последние годы
начал широко применяться также и в задачах теории
оптимального управления. Впервые он был применен
к решению задач, содержащих ограничения на значения
координат правого конца траектории (конец 50-х годов,
Л. И. Шатровский).
Рассмотрим следующую задачу Майера. Определить
х (t) и и (t), доставляющие минимум функции F (х (Т))
при ограничениях
& = (5.6)
я(*0) =
(р<(ж(Т)) = О, i = l, 2,
и е Gu.
(5.7)
(5.8)
В предыдущем параграфе мы изложили метод решения
задач со свободным концом. Для того чтобы его можно
было применять и в рассматриваемом случае, вместо
функционала F (х (Т)) вводят такой:
к
J (х, u,b)=F (х (Т)) + 2 [ф1 (X (Г))]2, (5.9)
г=1
где Ki 0 и рассматривают задачу со свободным концом
для функционала J (х. и, X).
4. Снятие ограничений на управление. Задачи опти-
мального управления значительно облегчаются, если
мы устраним ограничения на управления таким образом,
чтобы уравнение
определяло управление как дифференцируемую функ-
цию фазовых координат и импульсов. Тогда оказывается
возможным применять метод нелинейной прогонки.
Снять ограничения можно с помощью введения функ-
ций штрафа. Предположим, что речь идет об отыскании
минимума функционала J (х, и) при ограничениях (5.8),
$ 5] МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ФУНКЦИЙ ШТРАФА 135
которые для определенности мы запишем в виде
» = 1, 2,...,т. (5.10)
Введем в рассмотрение функцию Т (и) следующим образом:
Т(м) =
2 К («* — <^)а> если U1
i=l
0, если w* €= [dj, <$], (5.11)
2 К (м* — <й)а, если и1
i=l
и будем решать задачу оптимального управления с функ-
ционалом
т
Л = И) + J ¥ (u) dt,
to
(5.12)
но без ограничений на управление.
Мы привели в качестве примера тот случай, когда ог-
раничения на управления имеют вид (5.10). Разумеется,
описанный способ построения функций штрафа может
быть распространен и на значительно более общий слу-
чай ограничений на управление.
5. Снятие фазовых ограничений. Фазовыми ограниче-
ниями мы называем ограничения
(5.13)
Исследуя необходимые условия, мы ограничились за-
дачами, в которых фазовые ограничения отсутствовали.
Для случая фазовых ограничений также могут быть по-
лучены необходимые условия экстремума. Однако они
оказываются настолько сложными, что их трудно исполь-
зовать для построения эффективных вычислительных ме-
тодов. В то же время с помощью метода штрафных функ-
ций обсуждаемые задачи легко можно свести к более
простым задачам. Предположим, что фазовые ограничения
136
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. И
заданы в виде
ф‘х (0 < ** (0 < фа (0, i = 1...../• (5.14)
Тогда построим функцию Y* (ж), аналогичную функции
(5.11):
т.и =
i
2 Х-i (ж* (0 — <р! (0)2, если х1 (t) > <Ра (0,
£==1
О, если х* (t) €= [ q4 (0»Фа (01»
I
2 ki («* (0 — Ф1 (0)2, если ж* (0 < ф! (0,
£—1
и вместо функционала J (х, и) будем минимизировать функ-
ционал
т
J1=J(xtu) + $4?,(x(t))dt.
io
6. Снятие дифференциальных связей. Схема А. Ф. Ко-
ноненко. Рассмотрим задачу отыскания минимума функцио-
нала
т
J (х,и) = J F (xf и, t) dt (5.15)
при ограничениях (5.6). Концы фазовой траектории бу-
дем считать фиксированными
х (£0) = х (Л == хт* (5.16)
Дифференциальные связи не представляют собой какого-
либо исключения, и мы также можем ввести штраф за
их невыполнение. Тогда мы придем к функционалу сле-
дующего вида:
F (ж, и, 0 4- 2 К ~ f и, 0)’} dt. (5.17)
i-l
J (ж, U) =
$ 5] МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ФУНКЦИИ ШТРАФА 137
Составим для функционала (5.17) уравнения Эйлера
^-2 2М*‘-/{(*,М)ТТ = О, 7 = 1,2,...,™,
</lZ j i ои
(5.18)
dF Д 2 ,
—г - 2 3 К (£{ - f (х, и, 0) -r-Г +
0# ох
+ 2ka-^-(£s-f(x,u,t)) = 0, s=l, 2,...,п.
Решение этой системы уравнений имеет ту же степень
трудности, что и системы, которую мы получили бы,
рассматривая исходную задачу как задачу Лагранжа.
Однако для решения задачи минимизации функционала
(5.17) может быть применена следующая итерационная
процедура, предложенная А. Ф. Кононенко:
= хп- an%s (о {^i -2 Зм** - / «, о) д£-а -
<ОХ {®1 ^Х
-2Х,.^ (£>-f (х, u,t))]n, (5.19)
Ч+i = ип~а»{п “ 2 *))?£-} ,
(au j=i diPJn
где an — некоторое малое положительное число, а %8 (0 —
выпуклая вверх функция, которая обращается в нуль
на концах интервала, например, %8 (0 = (t — t0) (Т — 0.
Схема расчета следующая:
а) Определяется некоторое начальное приближение —
функция х0 (t), удовлетворяющая граничным условиям,
и функция u0 (t).
б) Вдоль траектории х0 (0 вычисляются правые части
равенств (5.19) и вычисляются новые приближения хх (0
и Uj (0, причем условия (5.16) выполняются автоматически
в силу выбора функции %8 (0.
Оказывается, что числа сц, могут быть подобраны та-
ким образом, чтобы эта итерационная процедура схо-
дилась (если функционал ограничен снизу), причем на
предельной траектории xm (t) значения фигурных скобок
138 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА [ГЛ. II
обращаются в нуль, т. е. на предельной траектории выпол-
няются необходимые условия минимума.
А. Ф. Кононенко показал, что описанный метод можно
рассматривать в качестве специальной модификации гра-
диентного метода в функциональном пространстве. Этот
метод не требует решения дифференциальных уравнений.
7. Заключение. Выше мы уже заметили, что методы
штрафных функций не позволяют получать точных ре-
шений. Тем не менее эти методы с каждым годом завое-
вывают все большую и большую популярность. Простота
их реализации — это, вероятно, одно из важнейших
свойств методов, использующих функцшаГштрафаЛ Кроме
того, при расчете оптимальных программ требования
точности бывают обычно не очень высокими. Наконец,
методы штрафных функций сейчас широко используют
для получения первых приближений с последующим ра-
счетом по более точным, но более трудоемким методам.
§ 6. Задачи с нефиксированным временем
и задачи на быстродействие
1. Структура краевой задачи. Задачи с нефиксирован-
ным временем, как это следует из результатов I гл.,
также сводятся к некоторым краевым задачам специально-
го вида для Л-системы. Их основная особенность состоит
в том, что для определения времени должно быть задано
еще одно соотношение
Н (х, (0, и (О, Ф (*), = 0. (6.1)
Для того чтобы выяснить некоторые особенности задач
с нефиксированным временем, рассмотрим один простой
пример. Найти минимум функционала
т
J(x,u,2’) = r+j’((u1)2+W)d<
о
при ограничениях
А1 = = и2, х1 (0) = х2 (0) = 0, х1 (Т) = 3,
х2 (Г) = 4.
Составив функцию Гамильтона Н — + ф2и2 —
— (ц1)2 — (и2)2 — 1, мы найдем и* = ф^/2, i = 1,2, где
§ б] ЗАДАЧИ С НЕФИКСИРОВАННЫМ ВРЕМЕНЕМ 139
•ф,- — это некоторые постоянные, подлежащие определе-
нию. Используя условия при t = Т, найдем
ЖЧУ) = 7’Л = 3’ ®аП = ?’Л = 4’ *1 = 7’ ^ = 7’
после чего мы легко найдем выражение для функцио-
нала
1 = 7’+^. (6.2)
Для того чтобы определить Т, мы можем воспользоваться
выражением (6.1), которое в данном случае будет таким:
— — 1 = 0
Отсюда Т = 5. Разумеется, тот же результат мы получим,
если будем разыскивать минимум J (Т), вычисляя произ-
dJ
водную и приравнивая ее нулю.
На этом простом примере, который позволяет получить
решение в замкнутом виде, мы показали два возможных
подхода к решению вариационных задач с нефиксирован-
ным временем.
Рассмотрим задачу отыскания минимума
т
J = $F(x,u, t) dt (6.3)
to
при ограничениях
£=/(#, u, t), x (£0) = x0, x (Г) = xT, (6.4)
причем время T не фиксировано. Составим сопряженную
систему
’ЬЧЙЬ+К- <’•»)
Обозначим ф (£0) = а. Вектор а нам неизвестен. Введем
далее «невязку» X (а, Т):
X (а, Т) = х (а, Т) — хт. (6.6)
Векторное равенство (6.6) эквивалентно п скалярным
уравнениям относительно п + 1 неизвестной: компонент
140
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. II
вектора а и времени Т. Добавляя к уравнениям (6.6)
уравнение (6.1), которое мы перепишем так:
Я (а, Т) = 0, (6.7)
мы получаем систему п + 1 уравнений относительно
п + 1 неизвестных. Для решения этой задачи может
быть использован метод Ньютона.
Однако может оказаться проще другая схема расчета.
Предположим, что в нашем распоряжении имеется прог-
рамма расчета оптимального решения задачи (6.3)—
(6.4) при условии, что время закреплено. Тогда у нас есть
правило для вычисления функционала J (6.3) как функ-
ции от параметра Т. Мы можем теперь отыскать минимум
этой функции одной переменной любым из известных ме-
тодов (алгоритм, использующий числа Фибоначчи, ал-
горитм деления отрезка пополам и т. д.).
2. Применение алгоритмов решения задачи со свобод-
ным концом. Удобство и популярность решения задач со
свободным правым концом привели к появлению ряда прие-
мов решения задач на быстродействие и задач со свобод-
ным временем, представляющих из себя итерационные
процедуры, на каждом шаге которых используется
один из алгоритмов решения задач со свободным кон-
цом (например, алгоритм И. А. Крылова и Ф. Л. Чер-
ноусько).
Рассмотрим снова задачу (6.3)—(6.4) и введем новую
переменную
xn+1 р (ж> и, (j (6.8)
и новый функционал — «расстояние» до конечной точки
/(х, u, t) = ((х (t) — хт), R (х (0 — Ху)), (6.9)
где R — это некоторая симметричная матрица.
Структура алгоритма следующая. Фиксируем некоторое
значение переменной xn+1 = ро и рассматриваем задачу
отыскания минимума функционала (6.9) в момент вре-
мени, когда
яп+1ф = р0. (6.10)
В том случае, когда речь идет о задаче на быстродействие,
F = 1, мы имеем стандартную задачу с фиксированным
§ 6]
ЗАДАЧИ С НЕФИКСИРОВАННЫМ ВРЕМЕНЕМ
141
концом. Распространение этих методов на общий случай
функционала (6.3) не представляет труда, и мы на этом
не останавливаемся.
Задав величину хп+х (t) = 0О, мы можем столкнуться
с двумя случаями. В первом случае значение 0О больше
минимального. Тогда задача — вырожденная: существуют
(в общем случае их бесконечное множество) управления,
переводящие систему из состояния xQ в состояние хт
и доставляющие функционалу J значения 0О больше мини-
мального. Этому слу-
чают отвечает нулевое
значение функционала
(6.9). Мы должны его
отбросить и добиться,
чтобы величина 0О была
меньше минимального
значения функционала
(6.3). В этом случае за-
дача со свободным кон-
цом имеет смысл, и в ре-
зультате ее решения мы
получаем некоторое
конечное значение фун-
кционала (6.9). Затем
мы полагаем ₽i = ₽о + АР, причем стремимся выб-
рать АР так, чтобы была меньше минимального зна-
чения функционала (6.3), и снова решаем задачу со сво
бодным концом и т. д. Результаты расчетов мы можем от-
разить в виде диаграммы, изображенной на рис. 6.1.
Заметим, что получить оптимальное значение величины
0 = 0 очень трудно, так как при 0 = 0 + в, где в —
сколь угодно малое число, задача уже становится вырож-
денной. Этот метод многократно использовался в ВЦ
АН СССР, поскольку он опирается на хорошо отработан-
ные стандартные процедуры, а требования точности
в прикладных задачах далеко не всегда бывают высо-
кими.
Примечание. Предположим, что описанный
метод с использованием функционала (6.9) применяется
для решения задачи на быстродействие (F = 1). Тогда
мы приходим к задаче определения такого решения
142
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. И
системы
_ эн : _ дн
ду ’ “ дх ’
(6.11)
которое переводит фазовую точку х из состояния в
состояние хт за минимальное время Т.
Зададим время перехода Тъ меньшее минимального вре-
мени Т*, являющегося решением поставленной задачи. Най-
дем минимум функционала (6.9) на отрезке [О, Тх]. Затем
зададим время Т2 = Тх + АТ1 и повторим изложенную
процедуру и т. д. Таким образом мы получим монотонно
возрастающую последовательность Тъ причем для
каждого Ti минимум функционала (6.9) строго больше
нуля. Дальнейшее уточнение решения, начиная с некото-
рого достаточно близкого к Т*, Ti Т*> становится
(как это указано выше) все более трудным. Однако, если
величины Т* — Ti и хт* — хТ{ невелики, то для оконча-
тельного решения задачи можно воспользоваться метода-
ми теории возмущений. Техника применения методов тео-
рии возмущений к решению вариационных задач будет
описана в следующем параграфе.
3. Существование монотонной переменной. Трудность
построения вычислительных процедур в задачах, где
время не фиксировано, связана с тем, что неизвестен
момент окончания процесса численного интегрирования.
Если априори известно, что одна из координат изменяется
монотонно, и мы знаем ее конечное значение, то эта труд-
ность легко преодолевается.
Предположим, например, что условия на правом конце
заданы следующим образом:
ф*(я(Т)) = 0, J = ...,m<n, (6.12)
жп(Т) = ж",
причем заранее известно, что координата хп (t) изменяется
монотонно. Для решения этой задачи может быть исполь-
зована стандартная программа метода Ньютона. Зададим
начальные значения импульсам
ф (Zo) = а
и будем решать задачу Коши для Л-системы. Процесс
$ в]
ЗАДАЧИ С НЕФИКСИРОВАННЫМ ВРЕМЕНЕМ
143
численного интегрирования мы прекратим в тот момент,
когда переменная хп станет равной х^, и вычислим
функции Ф* (х (71)). Очевидно, что эти величины будут
определяться только вектором а:
ф{ = ф1 (a), i = 1,2,..т. (6.13)
Еще п — т условий получатся из условий трансверсаль-
ности после исключения произвольных постоянных. Теперь
нам надо подобрать п чи-
сел а1? а2,....,ап таким об-
разом, чтобы они обраща-
ли в нуль полученную си-
стему п граничных усло-
вий. Для этой цели может
быть использована стан-
дартная процедура метода
Ньютона.
Задачи, в которых одна
из переменных изменяется
монотонно, встречаются
не так уж редко. К их чис-
лу относятся, например,
задачи динамики косми-
ческого аппарата, совершающего маневр в околоземном
пространстве. В этих маневрах, какая бы ни была их окон-
чательная цель, полярный угол <р (рис. 6.2) всегда изменя-
ется монотонно. Это объясняется тем, что трансверсальная
составляющая скорости г?ф настолько велика (она имеет
порядок первой космической скорости), что трудно при-
думать разумный пример маневра, в котором эта состав-
ляющая должна была бы изменить знак.
В подобных случаях удобно перейти к новой переменной
и свести задачу к обычной задаче Лагранжа. В качестве при-
мера рассмотрим одну простую задачу динамики точки,
движущейся в центральном поле сил. Уравнение движе-
ния этой точки в векторной форме будет таким:
+ (6.14)
В уравнении (6.14) приняты следующие обозначения:
144
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ II
г — радиус-вектор точки, у, — гравитационная постоян-
ная, й — вектор управляющих воздействий, г — абсолют-
ная величина радиус-вектора.
Перепишем уравнение (6.14) в проекциях на оси по-
лярной системы координат
(6.15)
dt ~
Здесь
dr
Vr - Л’
dtp
v- = rTt •
(6.16)
Для системы уравнений (6.15)—(6.16) поставим следую-
щую задачу. Определить u1 (t) и u2 (t), которые за мини-
мум времени переводят точку из состояния
ф = о, г = г0, Уг = УГо, Vv = V9,
в состояние
ф = 2л, г = r0, vr = 0,
Итак, маневр состоит в том, чтобы за минимум вре-
мени перевести аппарат на круговую орбиту того же ра-
диуса, причем этот маневр должен совершиться за один
оборот.
В этой задаче полярный угол ф является монотонно
изменяющейся переменной. Естественно выбрать именно
эту величину в качестве независимой переменной, тогда
величина Т — общее время маневра выразится квадра-
турой
2я
т = $ ^<?Ф- (6.17)
о о
Простота численного решения вариационной задачи су-
щественно зависит от выбора переменных. В рассматри-
§ 6] ЗАДАЧИ G НЕФИКСИРОВАННЫМ ВРЕМЕНЕМ 145
ваемых задачах, например, в качестве переменных удобно
выбрать следующие две величины:
w = у в h = рхг. (6.18)
Величина h носит название секториальной скорости.
Так как
v = rrf° + г?фф°,
где г° и ф° — единичные ортогональные векторы, то вы-
ражению для секториальной скорости можно придать
следующий вид:
Л = г2^^°Х?.
Так как единичные векторы <р° и г° ортогональны, то
абсолютная величина секториальной скорости h будет
вычисляться по формуле
Это позволяет нам представить функционал (6.17) в
форме
2»
r-JaL <в-20>
О
Составим теперь уравнения, которым удовлетворяют
величины w и h. Рассмотрим первое из уравнений (6.15).
Заметим прежде всего, что используя (6.19), его можно
представить в виде
г(Э=",‘,-|»,+А <6-21)
Далее проделаем следующие вычисления:
dr л-г »? с? / 1 \ ж. dw
di = d^wh = whd4\vl = -hd^
at \atf аф \ аф/ [аф аф афа]
146
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. П
Используя эти вспомогательные выражения и уравнения
(6.21), получим
cPw 1 dwdh р. и1 /й 99\
йф2“г h dtp dtp w — № wW (О.Ы)
Составим теперь выражение для величины h. Так как
, dr г dw
V^-rTt=Wh' Vr=dt = -hdi'
то второе из уравнений системы (6.15) мы можем перепи-
сать в таком виде:
i(wh) = w2h^ + u\
dt' ' dq) *
Переходя к переменной <р, вычислим
-г? (wh) ~ з- h 4- -у- w\ w2h.
dt Ut ^Ф J
Из этих двух выражений найдем
dh ________________________ и2
с?ф u?h *
(6.23)
Используя, в свою очередь, уравнение (6.23), мы можем
исключить из уравнения (6.22) производную . В ре-
зультате получим
d?w . _ р. ( и1 I dw и2 1
(Ар2 • i^z [wW </ф uFh2) ’
(6.24)
Итак, мы пришли к задаче определения минимума
функционала (6.20) при дифференциальных связях (6.23) и
(6.24), которые имеют достаточно простой вид, и, кроме то-
го, порядок задачи оказался пониженным на единицу.
Приведенный пример показывает, что в ряде случаев,
используя дополнительную информацию о природе за-
дачи на быстродействие, мы можем свести ее к задаче
Лагранжа, причем в результате мы получим относи-
тельно более простую систему дифференциальных свя-
зей.
S7]
МЕТОДЫ ТЕОРИИ ВОЗМУЩЕНИЙ
147
§ 7. Методы теории возмущений.
Возможный способ решения краевых задач
1. Обсуждение задачи. Методы теории возмущений
играют важную роль в математической физике. Это объяс-
няется тем, что часто относительно просто получить приб-
лиженное решение. Имея такое решение, физик нуждается
лишь в некотором его уточнении.
Аналогичная ситуация типична и в задачах управле-
ния. В этом параграфе мы выясним возможности анализа,
основанного на идеях теории возмущений.
Поскольку решение краевых задач для системы обык-
новенных дифференциальных уравнений занимает цен-
тральное место в теории оптимального управления, мы
сразу рассмотрим эту задачу и продемонстрируем тех-
нику теории возмущений непосредственно на решении
краевой задачи.
Будем рассматривать задачу отыскания траектории
х (О» удовлетворяющей уравнению
± = / (я, t) (7.1)
и граничным условиям
при t = t0 g(x (t0)) = 0, (7.2)
при t = Т <р (х (Г)) = 0. (7.3)
Если п — размерность вектора х, а и ng размерности
векторов <р и g, то пф + ng = п.
Соотношения (7.2) и (7.3) определяют в фазовом про-
странстве некоторые гиперповерхности, которые мы ус-
ловимся обозначать через $0 и $т. В этих терминах крае-
вую задачу (7.1) — (7.3) мы можем сформулировать сле-
дующим образом (рис. 7.1).
Определить фазовую траекторию уравнения (7.1),
которая переведет изображающую точку с поверхности
$она поверхность ёт за заданное время Т — tQ. В том слу-
чае, когда порядок системы уравнений (7.1) равен двум,
а условия на концах имеют вид
х1 (t0) = а,
*а(Л = Р,
(7.4)
148
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. Н
В ОТЫС-
кривых
задача иллюстрируется рис. 7.2. Задача состоит
кании такой кривой из семейства интегральных
уравнения (7.1), соединяющих прямые (7.4), вдоль кото-
рой изображающая точка
будет перемещаться задан-
ное время Т — tQ.
2. Задача уточнения
начальных условий. Пред-
положим, что нам извест-
но некоторое решение £
уравнения (7.1), близкое к
искомому, которое при
t = tQ удовлетворяет усло-
вию (7.2). Предположим,
кроме того, что при t = Т
оно удовлетворяет условию
(7.3). Тогда эта кривая,
изображенная на рис. 7.1
пунктиром, пересекает ги-
перповерхность в мо-
мент Т = Т — ДТ, где Г—
образом, опираясь на эту
заданная величина. Каким образом, опираясь на эту
информацию, найти требуемое решение? Здесь есть не-
сколько возможностей. Во-первых, использовать метод
Ньютона, подбирая на поверх-
ности начальную точку таким
образом, чтобы она определя-
ла траекторию, достигающую
поверхности $т в заданный мо-
мент времени. Этот путь реше-
ния задачи и технику его реали-
зации мы изложили в § 1 этой
главы. Второй путь решения
задачи использует метод про-
гонки. Он связан с линеариза-
цией задачи и со специальной
организацией итерационной про-
цедуры. Этот путь также был
описан в этой главе. Третья возможность «уточнения» реше-
ния дается теорией возмущений и основывается на исполь-
зовании уравнений в вариациях.
§ 7] МЕТОДЫ ТЕОРИИ ВОЗМУЩЕНИЙ 149
Выпишем уравнение в вариациях для системы (7.1)
при х = Ж:
z = А (Ж, t) z, (7.5)
здесь z (0 = х (t) — %(t),
Матрицей фундаментальных решений Г (Ж, t) называ-
ется решение матричного уравнения
Ж = АГ- (7-6>
удовлетворяющее начальным условиям Г (£0) = I, где
/ — единичная матрица. Тогда любое решение уравне-
ния (7.5) мы можем представить в виде
z (0 = Г (Ж («),*) *(*•). (7.7)
Составим выражение для х (t) с учетом уравнения
(7.5) и проведем линеаризацию
х (Т) = ж (? + дт) + z (т + дт) ж (Т) + ждг +
+ z (Т + ДТ) Ж (Т) + z (?) + / (Ж (Г), Т) дт.
Используя (7.7) и [обозначая х9 = х (f0), хт = х (Г),
получим
жт = Ж (?) + Г (Ж (?), Т) (х0 - Ж (*0)) + / (Ж (?), Т) ЬТ. (7.8)
Добавляя к этому равенству линеаризованную систе-
му уравнений, описывающих поверхности и $т:
а? (*т $ (f), ?)(х0-x(t0)) +
+ /(5(?),7)ДТ)=0,
(^О — ® (<о)) == О»
мы получаем систему 2п уравнений относительно неиз-
вестных векторов xQ и хт. Причем система (7.9) позволяет
независимо определить xQ.
150 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА [ГЛ. II
Эти вычисления очень сильно упрощаются, если при
t == t0 фиксированы некоторые координаты rcj,
а при t = Т фиксированы оставшиеся п — m координат.
3. Пример. В качестве примера рассмотрим систему
второго порядка. Обозначая через элементы матрицы
фундаментальных решений, перепишем уравнение (7.8):
Хт = (Т) + ru (arj — х1 (Zo)) + т12 («о — х2 (Q) + ^ДТ,
(7.10)
Хт — х2 (Т) 4~ Т21 (жо я-1 (zo)) ~Ь Т22 (^о — (*о)) 4" .
Рассмотрим краевые условия (7.4). Так как в этом слу-
чае a:J = Ж1 (<0), Хт = Ж2 (Т), то уравнения (7.10) упро-
щаются:
Хт *= х1 (Г) + Tia (4 — 'х2 (М) + Z1 ДГ> (7 4 й
О = Т22(^-х2(«о)) + /2ДТ. }
Если у22 =jt= 0, то из второго уравнения мы найдем недос-
тающее значение х%. Не интегрируя уравнений, мы прибли-
женно определим Хт из первого уравнения системы (7.11).
Пусть теперь краевые условия заданы для одной
и той же координаты — а, хт = Р, тогда система (7.10)
принимает вид
Т12 (ж0 X2 (<о)) = fl&T,
х*т = х2 (Т) + Т22 (4 - х2 (<0)) + /2ДТ.
Задача разрешима, если у)2 (Г) =j= 0.
4. Задача с нефиксированным временем. Предположим
теперь, что время Т не является фиксированным. Приб-
лиженное решение краевой задачи при некотором Т = Т
в общем случае не удовлетворяет точно краевым усло-
виям. Возникает ситуация, изображенная на рис. 7.3.
Повторим процедуры предыдущего пункта и составим
выражение (7.8). Используя первое из уравнений (7.9),
получим
<р (хг) = ф (ж (Т)) + -g- $ (?)) (Г {х (Т), Т) (х0 - х (f0)) +
+ /(J(f),f)AT) =0.
S 7]
МЕТОДЫ ТЕОРИИ ВОЗМУЩЕНИИ
154
Поскольку <р (f (Т)) =/= 0, система (7.9) будет иметь сле-
дующий вид:
^-(Г (?), Т) - х &)) + / (х (У), ¥) ДТ) = - Ф (х (F)),
^(x0-x(t0)) = -g(x(t0)). (7.12)
Система уравнений (7.8) и (7.12) — это система 2п
скалярных уравнений относительно 2п + 1 неизвестной:
к неизвестным хт и xQ до-
бавляется еще одна неиз-
вестная величина АГ. Для
ее определения мы долж-
ны в число краевых усло-
вий включить дополни-
тельное условие и про-
делать с ним те же преоб-
разования, что с условия-
ми (7.2), (7.3). Например,
если мы рассматриваем
краевую задачу для 17-си-
стемы, к условиям (7.3)
добавляется условие транс-
версальности, которое °
(полагая, что х — это не
только фазовый вектор, но и вектор импульса) мы запи-
шем в виде
Н (хт, Т)*=Н& (Т) 4- (хт - X (fj), F + ДТ) = о
или, после линеаризации,
6 (Т), ?) (Г (х (f), Т) (х0 - х (*0)) + / (х (¥), Т) ЬТ) +
+ -g-(S (?), Т) ДТ = — Н (х(Т), Т). (7.13)
Система уравнений (7.8), (7.12) и (7.13) — это система
2п 4- 1 линейных уравнений относительно 2п + 1 неиз-
вестных.
5. Переход к пределу. Схемы расчета, описанные в
предыдущих пунктах, являются достаточно типичными
152
ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА
[ГЛ. П
приемами уточнения решения, если, конечно, Л-система
допускает линеаризацию. Известны также и некоторые
обобщения этих схем и возможность их использования для
построения итерационных процедур.
С. А. Пиявский *) предпринял изучение уравнений (7.8),
(7.9) с иной точки зрения. Совершим в этих уравнениях
переход к пределу при 0. Тогда мы получим не-
которые дифференциальные уравнения относительно xQ
И Хт'.
ЙТ Т (7 л
дф *ХТ __л dg dxo ___
дх dT — ’ дх dT ~
Система (7-14) — это система нелинейных дифференциаль-
ных уравнений относительно хт и х0. В самом деле, матрица
Г определяется уравнением (7.6), где А зависит от ж, т. е.
от х0 и хт; точно так жеи / (я, Т) в общем случае зависит
нелинейно от хт.
Система уравнений (7.14) дает определенные возмож-
ности для исследования природы краевых задач, а, воз-
можно, и построения численных методов их решения.
Рассмотрим тот случай, когда многообразия #0 и
$т имеют общие точки (именно этот случай изображен на
рис. 7.1 и 7.2). Тогда уравнения
<р (х) = 0, g (х) = 0 (7.15)
имеют решение, которое мы обозначим х*.
В этом случае мы можем (если выполнены некоторые
дополнительные условия) получить решение краевой зада-
чи (7.1) — (7.3), интегрируя нелинейную систему (7.14)
с начальным условием
xQ = хт = х* при Т = t0. (7.16)
Итак, изложенные соображения позволяют (во всяком
случае принципиально) разработать регулярную процедуру
построения решения краевой задачи для нелинейных диф-
ференциальных уравнений.
•) См. С. А. П и я в с к и й, Об одном методе решения краевых
задач, ЖВМ и МФ, 10, № 4, 1970.
МЕТОДЫ ТЕОРИИ ВОЗМУЩЕНИЙ
453
in
6. Особенности алгоритма. Структура системы урав-
нений (7.14) весьма сложна, поскольку все функциональ-
ные связи заданы с помощью процедур интегрирования
систем дифференциальных уравнений, поэтому для реше-
ния задачи Коши (7.14) — (7.16) еще необходимо указать
вычислительный алгоритм.
Зададим некоторый шаг 6Т по аргументу Т и решим
задачу Коши
jc == / (ж, 0, х = х*. (7.17)
Решение обозначим через х* (0. Затем вычислим матрицу
= |(тг) I»
Далее вычислим матрицу Г = Г (я* (0, t). После этого
решаем следующую задачу. Определить величины
хт (*0 + 6Т) и хо (*о + 8Г), удовлетворяющие уравнениям*
= Г (ж* (М» Q + / (#* (М» М»
а1 . а1 (7.18)
= а» "1? =0, Хт(*о) = х0 (to) = х*-
Затем мы снова решаем задачу Коши
± = / (х, 0, х (Zo) = х0 (ST). (7.19)
Решение обозначим через х** (0. Находим А (хфф (0, t)
и Г (жи (0, 0, после этого решаем задачу отыскания усло-
вий хт (£0 + 26 Т) и х0 (t0 + 26 Т), удовлетворяющих
уравнениям
= г + 82), t0 + dT)^r +
+ / (*»* (to + 62), t0 + 62), (7.20)
дф dxT _ dg dxo _ ft
dx dT U’ dx dT “
Начальные условия xT (t0 + 6T) и x0 (tQ + 6T) определе-
ны на предыдущем шаге, и т. д.
*) Описанная процедура на первом шаге избыточна, так как
матрица Г (х (t0), to) известна — это единичная матрица.
154 ЧИСЛЕННЫЕ МЕТОДЫ РАСЧЕТА (ГЛ. II
Как ни сложна подобная процедура, но если оператор
М =
дф дх 0 |п строк
0 dg дх
I — Г |п строк
на каждом шаге описанного процесса оказывается невы-
рожденным, то мы можем получить решение краевой зада-
чи, опираясь на решения задачи Коши.
Примечание. Уравнение для определения
Г (x*(tQ + ST), t0 + ST) нам надо интегрировать на отрезке
Uo, to + 6Т], уравнение для определения Г (я#* (£0 +
+ 28 Т), t0 + 28 Т) на отрезке k0, tQ + 28 Т] и т. д. Таким
образом, вместе с отысканием решения рассматриваемой
краевой задачи мы находим решения целого ряда краевых
задач, для всех £0 < Т^ Т*. Эта дополнительная ин-
формация в ряде конкретных задач может иметь самостоя-
тельную ценность.
Последнее относится в первую очередь к задачам с
нефиксированным временем, поскольку все методы реше-
ния таких задач связаны по существу с анализом (а иногда
и просто с перебором) некоторого множества решений крае-
вой задачи. Описанный алгоритм как раз и дает возмож-
ность такого анализа.
7. Случай линейной системы. Рассмотрим теперь тот
частный случай, когда система (7.1) линейна:
it = Ах + Ъ. (7.21)
В этом случае матрица Г определяется один раз. Для это-
го надо решить п2 линейных уравнений.
Ограничимся рассмотрением того частного случая,
когда т условий задано слева, а п — т — справа, и эти
условия имеют вид
х’(«о)=4. 1 = 1,..., т,
ж1 (Г) = хт, i = т 4- 1,..п.
§ 7]
МЕТОДЫ ТЕОРИИ ВОЗМУЩЕНИЙ
155
Система уравнений (7.18) тогда примет вид
dxT _ V v t 3
dT “ з Ti> dr ф 7 ’
J=m4-1
О- 2 +
i = 1, 2,..., тп,
i = щ + 1,.. ., п.
(7.22)
Введем обозначения
у={хт, Хт, ...,Жт}, z
/п-т = {Г+1
Tim+i • • • Ym ||
Afn-m =
Л,
Тт+1, т+1 • • • Тт+1, пн
Мт=
Тт, т+1 • • • Ттп
Гп, т+1 • • • Тпп
Тогда уравнения (7.22) мы можем переписать в следующей
форме:
(7.23)
dz — f
— -^п-т/п-т,
MmMn-mfn-m /m-
Таким образом, в линейном случае решение краевой
задачи сводится к решению задачи Коши для системы,
порядок которой равен п2 + п, т. е. трудоемкость изла-
гаемого метода такая же, как и метода прогонки.
Примечание. Реализация таких процедур еще
требует дополнительного анализа. Очень важный вопрос—
это проблема устойчивости систем, поскольку матрица Г
содержит быстрорастущие слагаемые. Заметим, кроме
того, что во всех рассуждениях мы считали, что много-
образия й’о и имеют общие точки.
ГЛАВА III
ПРЯМЫЕ МЕТОДЫ ТЕОРИИ ОПТИМАЛЬНОГО
УПРАВЛЕНИЯ
Прямыми методами вариационного исчисления принято
называть все те методы расчета экстремалей, которые не-
посредственно не используют необходимых условий. Ро-
доначальником прямых методов (так же как и непрямых)
является Леонард Эйлер. Первым прямым методом, ко-
торый известен в литературе, был знаменитый метод ло-
маных Эйлера. На грани XIX и XX веков, в связи с про-
никновением идей вариационного исчисления в матема-
тическую физику, создается метод Ритца. Его схема очень
проста. Пусть речь идет об отыскании минимума функцио-
нала J (х) при х ЕЕ М, где М — некоторое множество,
например, множество дифференцируемых функций двух
аргументов х (tl9 t2), обращающихся в нуль на кривой
Г&, t2) = 0, которая ограничивает замкнутую область оп-
ределения функций х (^, /2). Тогда решение задачи можно
N
искать в виде агрегата х = 2 cixi> гДе {xt} — некоторое
i=i
подмножество m Е М.
Задача определения постоянных сводится к решению
некоторой системы трансцендентных уравнений
=0> i =
В послевоенные десятилетия прямые методы типа ме-
тода Ритца находят широкое применение в самых разно-
образных областях математической физики и инженерной
практики.
Как уже говорилось, разделение вычислительных ме-
тодов на прямые и непрямые довольно условно. Методы,
основанные на идеях поиска, также часто относят к пря-
мым. Появление электронной вычислительной техники сде-
лало эти методы очень важными с практической точки зре-
ния, и в последнее время их реализации уделяется боль-
§ и
КОНЕЧНОМЕРНЫЕ АНАЛОГИ
157
шое внимание. Одновременно развивается и теоретичес-
кий аспект методов поиска (например, изучение природы
градиентных методов в функциональных пространствах).
Данная глава посвящена изложению только тех пря-
мых методов, которые уже нашли свое место в практике
расчета оптимальных программ. Эти методы основываются
на редукции исходной задачи к некоторой конечномер-
ной. Методы, излагаемые в этой главе, будут использо-
вать идеи нелинейного программирования и последователь-
ного анализа вариантов.
Сначала мы обсудим различные конечномерные ана-
логи задач оптимального управления. Далее рассмотрим
некоторые методы нелинейного программирования, ко-
торые оказываются эффективными в теории оптимального
управления. И, наконец, перейдем к рассмотрению мето-
дов, использующих идеи перебора — последовательного
анализа вариантов. В заключение этой главы мы рассмот-
рим несколько примеров существенно дискретных задач,
т. е. задач, возникших не в результате дискретизации неп-
рерывных задач, и заметим, что в ряде случаев конечно-
мерные задачи бывает удобно интерпретировать как ко-
нечномерные аналоги динамических задач оптимального
управления.
§ 1. Конечномерные аналоги задач
теории оптимального управления
1. Предварительные замечания. Конечномерные ана-
логи задач теории оптимального управления возникают
в двух случаях:
а) Заменяя дифференциальный оператор конечнораз-
ностным, мы заменяем исходную задачу теории оптималь-
ного управления некоторой задачей нелинейного про-
граммирования.
За последние 10—15 лет в нелинейном программирова-
нии (имеется в виду нелинейное программирование в ко-
нечномерных пространствах) достигнуты большие успехи,
причем не только в теоретической области. Относитель-
но большого совершенства достиг и вычислительный ап-
парат этой теории. Поэтому понятно стремление исполь-
зовать его и в задачах теории оптимального управления.
Тем более, что задачи нелинейного программирования,
158
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
возникающие при дискретизации, обладают рядом особен-
ностей, позволяющих эффективно применить вычислитель-
ные процедуры нелинейного программирования.
б) Многие задачи линейного и нелинейного программи-
рования статические но существу, можно интерпретиро-
вать как многошаговые динамические процессы, описы-
ваемые уравнениями типа конечноразностных. Это поз-
воляет, в свою очередь, использовать в задачах линейного
и нелинейного программирования аппарат теории опти-
мального управления. Здесь наиболее полезной оказалась
идеология уточнения «диспетчерских» решений, которая
по существу была изложена в предыдущей главе.
Итак, мы имеем дело с двумя встречными тенденция-
ми. С одной стороны, методы нелинейного программирова-
ния, развитые для решения конечномерных задач, мигри-
руют в задачи оптимизации функционалов. А с другой
стороны, приближенные методы теории оптимальных
управлений начинают с успехом использоваться в конечно-
мерных задачах. Отмеченное обстоятельство отражает тот
факт, что в программатике нет универсальных алгорит-
мов — она слишком сложна, чтобы можно было исполь-
зовать небольшой набор окончательных рекомендаций.
2. Простейший способ сведения задачи оптимального
управления к задаче нелинейного программирования.
В настоящее время разработаны два способа такой редук-
ции. В первом случае мы получаем в конечном итоге не-
которую функцию от управлений. Во втором случае не-
известными оказываются состояния системы. Каждый из
этих способов имеет свои преимущества и недостатки, и
они не являются взаимно заменяемыми.
Пусть для определенности речь идет об отыскании ми-
нимума функционала
т
J (ж, и) = J F (ж, и) dt, (1.1)
о
при условии, что векторы х п и связаны дифференциаль-
ным уравнением
± == / (х, и). (1.2)
В пространстве (х, t) проведем гиперплоскости 2^:
t —~
КОНЕЧНОМЕРНЫЕ АНАЛОГИ
159
$ 11
где т — шаг численного интегрирования. Предположим,
что на интервале (гг, (i + 1) т) управляющая вектор-
функция принимает постоянное значение
Заменим тогда уравнение (1.2) разностной схемой
^г+1 X} X f (xh Uj-). (1*3)
Соответственно с этим, интеграл (1.1) заменится следую-
щей интегральной суммой:
N—1
J (xit u{) = т 2 Р 0е ь “«)• (1.4)
i=0
Примечание. Мы рассмотрели простейшую схе-
му разностной аппроксимации первого порядка точности.
Вместо схемы (1.3), (1.4) мы могли бы взять любую другую,
в том числе и более высокого порядка точности. Это не
внесло бы никаких принципиальных изменений в харак-
тер рассуждений.
Итак, в результате конечноразностной аппроксимации
мы пришли к следующей задаче теории систем с дискрет-
ным временем: определить векторы щ и хь доставляющие
миниум сумме (1.4) при связях (1.3) и условиях ut 6= Gi,
е= #0, хх где Gi, (£0 и <SN — некоторые заданные
множества.
Эта задача уже является задачей нелинейного програм-
мирования. Ей можно придать несколько иной вид.
Предположим, что начальное состояние системы (век-
тор х0) фиксировано, тогда равенство (1.3) позволяет пос-
ледовательно исключить фазовые векторы
Xq *4“ Xf (tf0, Uq) = Фх (^о)»
a:2 = Фх (u0) + t/ (Фх (u0), ux) = Ф2 (u0, ux), (1.5)
Фл_1 uft_2)+T/(6ft_1(u0,...,uft_aj,uft_1) =
= («о,—, wfc_i)
и т. д. Функционал (1.4) становится только функцией
векторов u0,..., Ujv_x:
N—1
J = ^| A (u0, u19 . . ., U$), (1*6)
i=0
где It (u0, Ut) = %F (Фг (u0,..., иг_х), щ).
160
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
Таким образом, задача сведена к минимизации некото-
рой функции конечного числа переменных. При этом мы
получили некоторую специальную задачу, обладающую
рядом особенностей. Одна из них состоит в том, что функ-
ция J — это сумма конечного числа слагаемых причем
Ц зависит только от первых i неизвестных. Функции вида
(1.6) будем называть функциями с последовательным вклю-
чением неизвестных. Эта особенность, как мы увидим,
позволит использовать для отыскания минимума аппарат
последовательного анализа вариантов. Условие на правом
конце также может быть выражено как функция векторов
u0,..., ^n_x. Например, если конечное значение вектора х
вектор хн) фиксировано, то мы будем иметь
XN = Ul’ * ’
Поскольку задан, то (1.7) — это некоторое условие ти-
па равенства, наложенное на искомые величины и0,
Uj,..., uN_v Если мы имеем задачу без фазовых ограниче-
ний, то исходная задача Лагранжа формулируется те-
перь следующим образом: требуется определить векторы
u0, ux, u2,..., Ujv-i, доставляющие минимум функции (1.6)
при условии ut 6Е Gi и условиях (1.5).
Сформулированная задача уже является некоторой за-
дачей нелинейного программирования, и для ее решения
могут быть использованы разнообразные методы этой
теории. Выбор конкретного метода численного реше-
ния сформулированной задачи нелинейного программиро-
вания определяется обычно природой функций J (и) и
ф,(и).
Описанная схема решения задачи определения прог-
раммного движения довольно широко используется для
практического решения разнообразных технических задач.
Она подробно описана в работах Ю. М. Ермольева,
А. И. Пропоя и многих других*). Для нее получен дискрет-
ный аналог принципа максимума, изучены вопросы схо-
♦) Ю. М. Ермольев, В. П. Гуленко, Конечнораз-
ностный метод в задачах оптимального управления, Кибернетика,
№ 3, 1967. А. И. Пропой, Методы возможных направлений
в задачах оптимального дискретного управления, Автоматика и
телемеханика, № 2, 1967.
§ п КОНЕЧНОМЕРНЫЕ АНАЛОГИ 161
димости *) и т. д. Соображения, близкие к изложенным,
использовались В. А. Поповым, И. О. Мельцем и други-
ми**). Возможности этой схемы обсуждались также и в
работах сотрудников Вычислительного центра АН СССР.
Изложенная схема редукции в некоторых случаях поз-
воляет построить экономные алгоритмы численного расче-
та оптимального управления. Однако она обладает также
и рядом недостатков; одним из основных недостатков опи-
санного подхода является трудность удовлетворения фа-
зовым ограничениям, в том числе и краевым условиям.
Формально они не изменяют природы задачи, поскольку
фазовые ограничения записываются в виде
Xi = Ф,- (u0,..., G Gx. (1.8)
Однако при проведении конкретных расчетов добавление
каждого следующего условия типа (1.8) существенно ус-
ложняет задачу.
Вторая трудность, для преодоления которой данный
подход оказывается мало приспособленным, если исполь-
зовать методы спуска,— это резкое усложнение задачи
с увеличением интервала [О, Т].
3. Использование пространства состояний. Второй спо-
соб редукции основан на следующем соображении. Рас-
смотрим фазовую траекторию у, которая описывается си-
стемой (1.2) при некотором управлении. Обозначим через
Xi точки, в которых фазовая траектория у пересекает
плоскости %i.
Введем теперь в рассмотрение оператор В (xt, х$+1),
который паре точек xt и хм ставит в соответствие управ-
ление, переводящее систему за время т из состояния xt в
состояние х^, и участок траектории уь i+1, который сое-
диняет эти точки. Этот факт мы будем записывать в сле-
дующем виде:
(ut, Тм+1) = В (xt, xi+1), (1.9)
а оператор В будем называть элементарной операцией.
♦) См., например, Б. М. Б у д а к, Е. М. Б ер к ович,
Е. Н. Соловьева, О разностных аппроксимациях в задачах
оптимального управления, Вестник МГУ, № 2, 1968.
**) И. О. М е л ь ц, Учет ограничений в задаче оптимизации
динамических систем в функциональном пространстве на основе
методов нелинейного программирования, Автоматика и телемеха-
ника, № 3, 1968.
б Н. Н. Моисеев
£62 ПРЯМЫЕ МЕТОДЫ [ГЛ. II
Функционал (1.1) запишем так:
N—1 4+1 N—1
J (х, и) = 2 J F (Ti.i+1» «<) dt = 2 <Pi (®i» ж1+1)- (1-10)
i=0 i=0
Таким образом, если нам дана элементарная опера-
ция, то траектория определяется конечным числом то-
чек Xi — точек пересечения этой траектории с поверхнос-
тями 2/.
Понятие элементарной операции может быть расши-
рено. Мы не будем связывать построение дуги уь<+1 с от-
резком фазовой траектории. Определим операцию
В (хь я$+1) как некоторую процедуру построения век-
тора Ui и отрезка <+1, соединяющего точки Xi и
При помощи этой операции мы можем построить ап-
проксимацию исходной фазовой траектории у некоторой
ломаной, состоящей из дуг и свести исходную зада-
чу оптимального управления к задаче определения мини-
мума функции конечного числа переменных (1.10). Кри-
вую, составленную из этих дуг, мы будем называть лома-
ной Эйлера. Такая терминология, как мы увидим ниже,
оправдывается тем, что в простейшей задаче вариацион-
ного исчисления ломаные, которые мы строим, оказывают-
ся обычными ломаными Эйлера.
Вопрос о том, насколько такая задача соответствует
исходной — это трудный вопрос, к обсуждению кото-
рого мы вернемся в § 5.
Заметим, что описанная редукция приводит нас к
функциям весьма специального вида (1.10) — это так на-
зываемые аддитивные функции. Они организованы гораз-
до проще, чем функции с последовательным включением
неизвестных (1.6), полученные в результате стандартной
конечноразностной аппроксимации. Это позволит, как мы
увидим ниже, развить некоторые специальные методы для
их исследования. Редукция к задаче (1.6), (1.5) совершен-
но тривиальна, в то время как построение элементарной
операции, а, следовательно, и редукция к аддитивной зада-
че в каждом отдельном случае представляет из себя спе-
циальную проблему.
4. Пример: задача о брахистохроне. В предыдущем
пункте мы заметили, что построение элементарной опера-
611
КОНЕЧНОМЕРНЫЕ АНАЛОГИ
163
ции в общем случае не тривиально. Однако легко приве-
сти примеры, когда построение этой операции не представ-
ляет никакого труда. Рассмотрим классическую задачу
о брахистохроне — задачу, которая изучалась еще в кон-
це XVII века Иваном Бернулли и была одной из задач,
Рис. 1.1.
Напомним ее постановку (рис. 1.1, а). Определить
траекторию материальной точки, которая, двигаясь под
действием только силы тяжести, переместится из точки
0(0, 0) в точку А (Ь, —а) за минимальное время. В началь-
ный момент материальная точка находится в состоянии
покоя.
Обозначим через ds = Ydx2dy2 элемент дуги кри-
вой. Тогда скорость вдоль кривой определяется форму-
лой v = ]/1 + (^-)2. Но, с другой стороны,
р = У—2gy. Из этих двух равенств находим
dt V l+(dyldxy*
Из этого соотношения мы можем определить время,
которое будет затрачено материальной точкой на пере-
мещение из состояния О в состояние А:
т = j
О
164
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
Итак, задача свелась к определению и (х) и у (ж), до-
ставляющих минимум функционалу
ъ _____________
T = \V^~dxt = у(0) = 0, у(Ь)=—а.
О
В этой задаче элементарная операция совершенно три-
виальна, она сводится к замене щ = (yi+1 — где т—
шаг интегрирования, и задача о брахистохроне сведется
к отысканию чисел уг <^0, доставляющих минимум сумме
Si / т « '”1+1 — У и
У —~ п₽иограниченияху0 = 0, yN = — а.
В этой классической задаче нет никаких ограничений
на координаты. Как мы увидим, методы, развиваемые в
этой главе, позволяют рассмотреть значительно более
сложные задачи. Например, может быть рассмотрена зада-
ча, в которой траектория у (х) не должна пересекать за-
штрихованной области (рис. 1.1, б).
До сих пор мы получали системы с дискретным време-
нем как результат применения конечномерной аппрок-
симации непрерывных задач. Приведем теперь несколько
примеров существенно дискретных задач, которые при
известных условиях можно рассматривать в качестве
динамических систем с дискретным временем.
5. Пример задачи нелинейного программирования,
которая может рассматриваться как задача оптимального
управления с дискретным временем. Рассмотрим следую-
щую задачу нелинейного программирования: определить
векторы uv uN размерности тп, доставляющие мак-
симум скалярной функции
N
J (ии . . UN) = 3 Fi (“i) (1.11)
i=l
при следующих ограничениях:
(1.12)
N
(1.13)
Здесь b и — векторы размерности п, Gi — некоторые
множества.
s I] КОНЕЧНОМЕРНЫЕ АНАЛОГИ 165
Частым случаем задачи (1.11) — (1.13) является рас-
пределительная задача, в которой выражения (1.11) —
(1.13) заменены следующими:
N т
J =2(3 «</4), (1.14)
2=1 ^=1
i = 1, 2,..., 2V, (1.15)
' N
; = 1, 2,...» n. (1.16)
i==l
В том частном случае, когда = Ьц= 1 и п- т,
задача (1.14) — (1.16) называется транспортной. Она до-
пускает следующую интерпретацию. Пусть и{ — это
количество продукта, которое поступает со склада номе-
ра / потребителю номера г. Запросы потребителя должны
быть удовлетворены:
= Л (1.17)
Но запасы на складе номера / ограничены, следовательно,
количество продукта, которое взято с данного склада,
не должно превышать запасов
N
(1.18)
i—1
Наконец, если через обозначить стоимость перевозки
одной единицы продукта потребителю номера i со склада
номера /, то функция (1.14) — это общая стоимость пере-
возки продукта. Таким образом, простейшая из задач
рассматриваемого класса следующая: каким образом рас-
пределить задание на поставку продукта между складами,
чтобы при условиях (1.17) и (1.18) суммарная стоимость
перевозки этого продукта была минимальной?
Введем новую переменную
X (s + 1) = 2 Фг («О» «(1) = о, s = 1,2,...,2V.
166
ПРЯМЫЕ МЕТОДЫ
(ГЛ. Ш
Это выражение можно переписать следующим образом:
X (s + 1) — X (s) = Ф.(ив). (1.19)
Вектор х условимся называть фазовым вектором, тогда
(1.19) — это некоторое конечноразностное уравнение, ко-
торому должен удовлетворять фазовый вектор. На него
наложены также граничные условия
х (1) = 0, х (N + 1) = Ь. (1.20)
Теперь задачу (1.11) — (1.13) мы можем сформулировать
следующим образом: определить вектор-функцию дискрет-
ного аргумента щ и фазовый вектор х (г), доставляющие
минимум функционалу
/(») =
{—1
при условиях (1.19), (1.20) и (1.12).
Эта задача уже может рассматриваться как обычная
задача оптимального управления (но с дискретным вре-
менем).
Примечания.
1. Есть одно существенное отличие задач оптималь-
ного управления при дискретизации времени и задач, ко-
торые рассматриваются в этом пункте. В дискретных зада-
чах оптимального управления имеется однозначное пра-
вило упорядоченности моментов времени. Если ti <
то это значит что и i<fc, т. е. номер момента времени
меньше номера момента В рассматриваемых задачах
роль времени играет индекс i. Порядок нумерации потреби-
телей в транспортной задаче совершенно произволен. Из-
менив эту нумерацию, мы получим, вообще говоря, дру-
гую задачу оптимального управления.
2. Сведение задач типа распределительных к динами-
ческим задачам имеет смысл лишь в тех случаях, когда
размерность N очень велика, и во всяком случае N^> т.
Если говорить о транспортной задаче, то ее сведение
к динамической целесообразно в тех случаях, когда чис-
ло потребителей гораздо больше числа складов или на-
оборот.
j fj ЙОНЕЧНОМЕРНЫЕ АНАЛОГИ f67
3. Задачи рассматриваемого класса могут быть сведены к
аддитивным, т. е. к задачам минимизации функций (1.10).
К этому вопросу мы вернемся в § 6, где будет обсуждаться
применение методов теории оптимального управления в
задачах нелинейного программирования.
6. Одна задача теории расписаний. Предположим,
что нам задан список, состоящий из N работ гь г2,..., vn,
которые должны быть выполнены. Каждая из работ
будет выполнена за единицу времени, если на ее выпол-
нение будет выделен ресурс например, выделено
человек, q* — специальных машин и т. п. Таким образом,
qt — эТо некоторый вектор. Суммарный вектор ограничен,
и на каждую единицу времени At мы можем выделить ре-
сурс, равный Q. Следовательно, за данную единицу вре-
мени мы можем выполнять те или другие работы из на-
шего перечня работ, но при условии, что
< <2 (ДО. (1.21)
Ш
где сумма распространена по всем тем номерам работ, ко-
торые выполняются в данную единицу времени.
Помимо условия (1.21), ограничивающего выбор ра-
бот, выполнение которых может быть назначено на данную
единицу времени, есть еще одно ограничение на последо-
вательность их выполнения. Физический смысл таких
ограничений очевиден: например, для того чтобы делать
крышу дома, необходимо, чтобы был закончен фундамент
и выложены стены. Итак, второе ограничение будет со-
стоять в следующем. Каждой работе поставлена в со-
ответствие некоторая последовательность работ viv vit,...
..., г?ц. Работа Vi не может начаться раньше, нежели ра-
боты rit,..., закончатся.
Простейшим примером ограничивающих условий та-
кого типа является условие, что совокупность работ {vj
должна быть представлена ориентированным графом
(рис. 1.2). На рис. 1.2 показано, в частности, что работа
номера I не может начаться, если не закончены работы
vn- Это условие будем называть условием а. Помимо
условий подчиненности, в него могут быть включены и
168
ПРЯМЫЕ МЕТОДЫ
[ГЛ. til
некоторые другие. Например, работа номера i должна де-
латься параллельно работе номера / и т. д.
Мы будем говорить, что расписание работ составлено,
если каждой единице времени Д/х, Д^2,..., Д£п (условимся
их называть днями) поставлено в соответствие некоторое
множество работ из нашего списка, удовлетворяющее ог-
раничениям (1.21) и а. Расписание работ может быть со-
ставлено не единственным образом. Поставим задачу сос-
тавить расписание минимальной длины, т. е. так распре-
делить работы по дням, чтобы суммарное количество дней,
затраченных на выполнение всего списка работ, было ми-
нимальным.
Примечание. Условие, что время, необходимое
на выполнение каждой из работ равно одному дню, не
очень существенно. Если для выполнения какой-либо
из работ необходимо к дней, то мы эту работу разбиваем
на к работ, которые должны выполняться последователь-
но (на рис. 1.2 показана такая последовательность работ
и ^i+з)* Таким образом, — это по существу
«дневная порция» работы. Более существенным является
условие, состоящее в том, что «дневная порция» либо вы-
полняется, если для этой работы выделен полностью весь
необходимый ресурс, либо не выполняется, если ресурс
может быть выделен не полностью. Рассматриваемая за-
дача является простейшей задачей теории расписаний с
ограниченным ресурсом; более интересен тот случай,
когда время выполнения работ зависит от количества
§ и
КОНЕЧНОМЕРНЫЕ АНАЛОГИ
169
выделенного ресурса. Такой пример рассмотрен в следую-
щем пункте.
Состояние нашего перечня работ на каждый день мы
можем описать двоичным числом, имеющим N разрядов.
Если в £-м разряде мы имеем 1, то это значит, что работа
номера к выполнена. Если 0, то не выполнена. Это число
мы обозначим через х (t) и будем называть его фазовой пе-
ременной. Каждое расписание может быть изображено не-
которой фазовой траекторией (рис. 1.3). В момент начала
работ ни одна из работ не выполнена, следовательно,
х (0) == 0, и все фазовые траектории исходят из начала ко-
ординат. На прямой t == 1 отложим двоичное число хъ
описывающее перечень работ, которые выполнены к кон-
цу первого дня, и соединим эту точку отрезком с началом
координат. На прямой t « 2 отложим двоичное число х2,
описывающее перечень работ, которые выполнены к кон-
цу второго дня, и соединим эту точку отрезком с точкой
и т. д.
Обозначим через М число дней, затраченных на выпол-
нение всего перечня работ. Тогда фазовая траектория
пересекает прямую t = М в точке (И ... 11), в которой
все работы выполнены.
Введем теперь понятие управления. Обозначим через
и (s) ДГ-разрядное двоичное число, описывающее пере-
чень работ, принятых к выполнению в течение дня номе-
ра $. Подчиним выбор управления ограничениям а и (1.21).
170
ПРЯМЫЕ МЕТОДЫ
ГЛ. ш
Тогда уравнение фазовой траектории мы можем записать
в следующей форме:
= x(Ze) | + 1 u(s), s = 0, 1,..., М — 1. (1.22)
В этом уравнении величина х (£8+1) получается из величи-
ны х (ts) прибавлением двоичного числа и ($). Однако это
не обычное сложение. Если некоторая работа номера Z,
например, выполнена, а в Z-м разряде числа и (s) тем не
менее стоит 1, т. е. на работу номера Z выделен ресурс,
то в Z-м разряде числа х (t8+i) должна стоять 1. Другими
словами, в уравнении (1.22) знак | + | определяет нели-
нейную операцию поразрядного логического сложения
(дизъюнкцию)
0 | + | 0 = 0,
0 | + | 1 = 1,
1 | + | 1 = 1.
Задав определенные и ($), мы получим фазовую траек-
торию, и она при некотором t == М пересечет прямую
х = х*. Следовательно, значение t = М будет функцией
и (0), и (1),..., и (М — 1):
М== M(u(0),..., и(М - 1)).
Поставим задачу отыскания величины
М* = min М (и (i)).
Итак, мы привели задачу расписаний к такому виду,
что она формально эквивалентна задаче на быстродействие
в теории оптимальных систем дискретного времени: тре-
буется найти такое управление (удовлетворяющее опре-
деленным ограничениям), чтобы фазовая траектория
достигала точки х* за минимум (дискретного) времени.
Примечание. Заметим, что кривая x(tt) всегда
является монотонной. Интерпретация задачи теории рас-
писаний как динамической задачи, разумеется, никак не
меняет ее содержания — она продолжает оставаться од-
ной из труднейших задач дискретного программирования.
Главная трудность рассматриваемой задачи состоит в от-
сутствии упорядоченности фазовых состояний. Если мы
КОНЕЧНОМЕРНЫЕ АНАЛОГИ
471
4 Й
имеем два числа хг = 10000, х2 = 10101, то мы можем ска-
зать, что х2 > хг, поскольку число х2 образовано добав-
лением к хх числа 00101. Но никаких подобных суждений
относительно двух чисел хг = 10001, х2 = ЮНО мы уже
сделать не можем. Тот факт, что множество возможных
состояний {я} не является вполне упорядоченным, пред-
ставляет основную трудность для построения вычисли-
тельных алгоритмов *).
7. Задача расписаний с квантованным ресурсом. Рас-
смотрим следующее обобщение задачи предыдущего пункта.
Предположим, что ресурс, необходимый для работы
vh может выделяться порциями, каждая из которых равна
др Если ресурс, равный д$, выделяется ежедневно, то ра-
бота Vi будет выполняться к дней. Если для выполнения
работы выделить к порций ресурса др то работа будет
выполнена за 1 день. Если на день начала работы vt
выделено s (s <Z к) порций ресурса, то к концу дня работа
будет находиться в состоянии s. Соответственно с этим
работа Vi может находиться в одном из к состояний 0, 1,
2,..., к.
Таким образом, для описания состояния в качестве
фазовой переменной мы применим «&-ичное» число:
х (t„) = rN,
имеющее по-прежнему N разрядов.
Фазовая переменная будет, очевидно, удовлетворять
тому же разностному уравнению (1.22). .
Смысл знака | + | также вполне очевиден:
а | + | Ь = а 4- Ъ, если а 4- Ъ к,
а | 4- | Ь = к, если а 4- Ь > к.
Ограничение (1.21) будет записано так:
S (ДО, (1.23)
га
где ki — количество «порций» выделенного ресурса для
выполнения работы vt.
*) В. И. Антипов, Решение частной задачи календарного
планирования методом сравнения состояния, Сб. «Системы распре-
деления ресурсов на графах», ВЦ АН СССР, 1970.
172
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
Такое видоизменение задачи уже охватывает очень
широкий класс задач теории расписаний с ограничен-
ным ресурсом.
8. Параметрические задачи. В технике очень часто
встречаются задачи, в которых приходится выбирать не
только управление, но и параметры. Это значит, что функ-
пионал J имеет вид
J = J (х, и, у), (1.24)
где х — фазовый вектор, и — управление, а у — постоян-
ный вектор. Задачи такого типа можно рассматривать од-
новременно как задачи оптимального управления, по-
скольку в них идет речь об отыскании функции, миними-
зирующей функционал. С другой стороны, величина J
является функцией постоянного вектора у, принадлежа-
щего некоторому множеству
Формально эта задача может быть сведена! к задаче
оптимального управления с фазовыми ограничениями.
Для этого достаточно параметр у включить в число фазо-
вых координат и написать для него уравнение
t = О, уебг (1.25)
Однако такое видоизменение задачи ничего не меняет по
существу. Поэтому исследование таких задач обычно прово-
дится с помощью методов нелинейного программирования.
Используя ту или другую конечноразностную аппрок-
симацию и повторяя рассуждения п. 3 данного параграфа,
мы придем к выражению типа (1.6), которое теперь будет
выглядеть так:
N—1
J ~ ^3 А (^о» • • •> т)*
i = 0
Параметр у оказывается равноправной переменной за-
дачи нелинейного программирования.
§ 2. Методы нелинейного программирования
в задачах оптимального управления
Методы нелинейного программирования в последние
годы начинают все шире применяться для нахождения оп-
тимальных управлений и траекторий. Более или менее
§ 2J Методы нелинейного программирования 173
полное изложение методов и приемов, использующих эту
теорию, потребовало бы самостоятельной монографии.
Поэтому здесь мы ограничимся лишь самыми простыми
вопросами.
1. Метод градиентного спуска в случае простейшей
разностной аппроксимации. В этом параграфе речь будет
идти о конечномерных аналогах задач теории оптималь-
ного управления, т. е. об оптимизационных задачах для
динамических систем с дискретным временем.
Рассмотрим конечномерную задачу (1.3) — (1.4), счи-
тая для простоты, что левый конец фазовой траектории
фиксирован. Как было показано в предыдущем параграфе,
она сводится к минимизации функции (1.6):
N-1
J — 2 A (^0> • • •» ^г)> (2*1)
г—О
где Ui — это векторы размерности т. Они подлежат оп-
ределению.
Каждый шаг в методе градиентов сводится к расчету
очередного приближенного значения векторов и; по сле-
дующей формуле:
n-1 dJ
uj ~ и 3 ~дй~ ~ Щ (2.2)
где uj — предыдущее приближение, х > 0 называется
шагом градиентного спуска.
Напомним, что величины — это производные ска-
лярной функции по векторному аргументу, т. е. они яв-
ляются векторами с компонентами
az. azi az.
duj 9 ди? ’ 9 du^
После замены в (2.1) величин Uj по формулам (2.2),
функционал J превратится в функцию скалярной вели-
чины х: J = J (х). Шаг х может быть выбран так, чтобы
J (х) было минимальным, и этот вариант градиентного спус-
ка условимся называть методом наискорейшего спуска.
174
ПРЯМЫЕ МЕТОДЫ
Ш
Займемся вычислением векторов Ср Для этого заме-
тим сначала, что функцию J (и и) можно представить
так:
J ф + у) = J (%) + 6J + О (р2) ,
N-1
где 6J = 2 уг)> уг — приращение вектора щ.
i=0
В уравнениях (1.3) положим
Xi = + уь щ = щ (2.3)
и, сохраняя линейные члены, будем иметь
Уг+1 == ~ ~ (2.4)
df (xZu.) df (х., и.)
где Л1+1 = Е + * -д-х - —, В(+1 = т дги ', Е — еди-
ничная матрица.
Исключая из (2.4) последовательно фазовые перемен-
ные, мы получим следующие рекуррентные формулы*):
Уе = D9>q Vq 4-Pe,iyi + ••• + ^8t8-iv8-h (2.5)
где DBti — матрицы:
Z\o == • (2.6)
^e,e-l = Bs.
Аналогичным образом преобразуем выражение для функ-
ции SJ:
N-l N-1
6J (У, V) = 2 (dit yi) + 2 (gi, fi)- (2.7)
i=l w
Здесь векторы и g{ вычисляются по формулам
dF (xv м.)
= T---f——
1 дх
dF^,^
8i~T du
*) Поскольку левый конец фазовой траектории фиксирован,
то г/0 = 0 и соответствующее слагаемое в (2.5) не выписывается.
§ 2] МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 175
Подставляя в равенство (2.7) выражения для ув по форму-
лам (2.5), мы получим после очевидных преобразований
следующее выражение:
N—1
6J = 3 (G=i, (2.8)
г=0
где векторы Gi определяются формулами
АГ-1
бг0 = 2 о 4 + go,
-i (2.9)
N-1 4 7
Gi = 2 14 + Si
•в2
и т. д.
Таким образом, производные^ вычисляются по фор-
мулам (2.9). Эффективное вычисление векторов (2.9) воз-
можно лишь в том случае, если N не очень велико.
Примечание. Остановимся на том случае, когда
функционал J имеет вид
J = (с, X (Т)) = (с, xN).
Тогда его вариация будет иметь вид
ы = (с, Угг),
и, используя формулы (2.5), мы получим
N—1 N—1 N—1
67= 2 = 2 Vi) = 2 (^> Vi)' (2*10)
i=0 i=»0 i=0
Формула (2.10) является конечномерным аналогом фор-
мулы (4.12) гл. II5 •
т
6J = §G(t)vdt.
<0
Для ее построения мы обошлись без явного использования
сопряженного уравнения. Вместо интегрирования этого
уравнения мы вынуждены теперь проводить вычисления
176
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
матриц D8i. Согласно схеме градиентного спуска (2.2)
мы имеем
г?|=—(2.11)
и, следовательно,
6J=_x3(Cj,Gi). (2.12)
г
2. Параметрические задачи. Предположим теперь, что
уравнения динамической системы и функционал имеют
вид
*1+1 = + щ, у), (2.13)
N—l
j fo, “b r) = * 3 F (xi> ui> T). (2.14)
i®=0
После замены хг = -f- yif щ = Щ у = у + dy
и линеаризации мы получим
£/i+l = Ai+iUi + -®i+lPi + (2.15)
N—l N—l N—l
8/ {у, v, 6r) - 2 (di, Vi) + 2 (gi, Vi) + 2 Vi, Sr), (2.16)
i=l i=0 i=®0
3/(«р»ГТ) dF (xv uv T)
где Li+1 = T----, li - T-----------------.
Исключая последовательно из (2.15) фазовые перемен-
ные у и мы получим формулы, аналогичные формулам (2.5)
Уз — -®s,oyo + -®e,iyi + ••• + -^s.e-i^e-i + И^дбу,
S =1, 2,..., N. (2.17)
Матрицы D8fi вычисляются по формулам (2.6). Для мат-
рицы Ws мы имеем следующую формулу:
^8== ^8^8-1 ...Л2Ь1 4-Л8Л8_1...Лз£2 + ••• +^8^8-1 + ^8’
(2.18)
Теперь для выражения 6J мы можем получись формулу,
аналогичную (2.8):
N-1
67- 2 (Gi,v<)4-(GY,Sr), (2.19)
i>-0
§ 21 МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 177
где для векторов Gi мы имеем формулы (2.9). Вектор Gy
определяется следующим выражением:
N-1
Gv = *0 + 3 (^Х + /,). (2.20)
8=1
Имея в своем распоряжении Gi и CrY, мы можем реализовать
стандартную схему градиентного спуска; для этого мы
должны задаться шагом х и принять = — хбго бу =
= —хбгу. Линейная часть приращения функционала 6J
будет такой:
/ЛГ-1 \
б/ = — X I 2 (^i> б<) + (бу, бу) j .
\ i=0 J
Использовать эту процедуру можно лишь в том случае,
если выбор Vi и бу не нарушит ограничений ни на управ-
ление, ни на фазовые переменные. Следовательно, если
не вводить никаких модификаций, то метод, изложенный
в двух последних пунктах, может быть применен только
для решения задач со свободным концом.
Ниже, в одном из последующих пунктов данного пара-
графа, мы покажем, каким образом изложенная методика
должна быть видоизменена для решения задач с ограниче-
ниями, а сейчас мы перейдем к рассмотрению градиент-
ного спуска в том случае, когда для построения разност-
ного оператора используется варьирование в простран-
стве состояний.
3. Градиентный спуск в случае аддитивных задач. Если
в задаче оптимального управления мы будем исключать
управления и рассматривать аддитивную функцию (1.10),
то метод градиентного спуска приобретает ряд особенно-
стей, на которых имеет смысл остановиться.
Итак, мы будем рассматривать задачу минимизации
функции вида
2V-1
J (^Т> • • = S Фг (#i,^i+i)« (2.21)
г=0
Для построения процесса градиентного
надо вычислить частные производные
dxj
спуска нам
Но вектор
178
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
Xj(j = 1,..., N — 1) входит только в два слагаемых ср,- и
фри поэтому
9J___дфу дф>-1
дх. дх; “т" дх- 9
dJ ^n-i
&XN
/=1,. ..Л-1»
В том случае, когда мы имеем функцию вида (1.6), вычис-
о dJ *
ление производной -^7 требует вычисления производных
N — j слагаемых. В данном случае формула типа (2.10)
будет иметь вид
N
б/ = 3 (<?<»*)»
i—1
(2.22)
где jfi — вариация вектора а вектор имеет вид
Gj =
^г-1\
дх I 9
i 4=«i
Г / Зфл-Д
= I ~aZ— I
\ 0XN
(2.23)
В процедуре градиентного спуска
N
5J = -xS (Gi.Gi), (2.24)
г—1
Xi = — %Gi9 (2.25)
где fy — предшествующее приближение. Процесс вычисле-
ния прекращается, если все | Gi | < е, где в — это некото-
рое положительное число, характеризующее точность ре-
шения задачи.
Существует несколько модификаций описанной проце-
дуры.
а) Предположим, что некоторые из компонент вектора G
удовлетворяют условию
|ei|<ex, (2.26)
§ 2) методы НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
179
где 8Х — некоторое заданное число, не меньшее е (на пер-
вых шагах итераций мы можем принять его равным кв,
где к^>1, на последующих шагах мы его уменьшаем).
Тогда в течение нескольких шагов мы не варьируем значе-
ния этих переменных
и формулы (2.24) и (2.25) имеют следующий вид:
N—1 п
-X 2 2 (С)2» (2.27)
1=0 3=1
(2.28)
причем
G{, если |6^|>elt
О, если | G? | 81.
Стратегия спуска следующая: задаемся некоторым при-
ближением и вычисляем векторы Фиксируем все те ко-
ординаты для которых выполнены условия (2.26)
и в течение нескольких шагов (в зависимости от величины
в) проводим расчет по формулам (2.28) и (2.27), используя,
например, схемы п. 4 § 4 гл. И. Затем снова вычисляем
полностью векторы G< и повторяем процедуру.
Такая модификация градиентного спуска делает его
значительно более экономным с точки зрения расхода ма-
шинного времени, поскольку не тратится время на вычис-
ления «малых» производных.
б) Если мы закрепим все переменные, кроме одного х4,
то получится некоторый аналог метода покоординатного
спуска. Для данной задачи он особенно удобен, поскольку
слагаемое fa «сцеплено» только с соседними слагаемыми и
в методе покоординатного спуска формула (2.27) будет
такой)
SJ = -x(Gi, GO.
Если, кроме того, варьировать последовательно только
по одной из компонент вектора хь то мы получим обычный
метод покоординатного спуска. Если, наконец, фикси-
ровать шаг, то мы получаем метод локальных вариаций,
180
ПРЯМЫЕ МЕТОДЫ
trji. in
который будет подробно изложен в §3. В отличие от преды-
дущей, в данной задаче мы можем легко учитывать гранич-
ные условия. В самом деле, если х (Т) — х?, где хт — за-
данный вектор, то в нашей схеме это будет означать, что
хн фиксирован и не варьируется.
4. Метод проектирования градиента в задачах с огра-
ничением на правый конец траектории. Метод проектиро-
вания градиента — это один из наиболее распространен-
ных численных методов нелинейного программирования.
Он подробно описан во многих публикациях и моногра-
фиях. Поэтому здесь мы рассмотрим лишь несколько при-
меров его применения в конечноразностных задачах опти-
мального управления. Они помогут представить вычисли-
тельные возможности этого метода.
Предположим, что на правый конец траектории на-
ложено условие вида
KyN = 1, (2.29)
где К — матрица s X п, имеющая $ строк и п столбцов,
а X — вектор размерности s (s и).
Используя представление (2.5), мы перепишем условие
(2.29) в следующей форме:
IV—1
= (2.30)
i=0
где = KDx,i.
Введем в рассмотрение пространство управлений R.
Оно представляет из себя евклидово произведение N про-
странств 7?0, Rn-\ размерности ш. Следовательно,
размерность R равна Nm. Если вектор а Е /? образован
векторами ЕЕ Ru то векторы мы будем называть век-
торными компонентами вектора а.
Обозначим через U = {Яо, вх,..., uN4} начальное уп-
равление (рис. 2.1). Далее задаемся величиной шага х
по направлению градиента функции J. Компонентами это-
го вектора являются векторы Gi- Равенство (2.30) опре-
деляет в R некоторую гиперплоскость 2. Выберем новое
управление (вектор U + V) так, чтобы удовлетворить ус-
ловию (2.30) и одновременно максимально продвинуться
в направлении антиградиента при заданном шаге. Для
этого нам надо спроектировать вектор — xVJ на 2 и
§ 2] МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 181
выбрать V по формуле
V = — xVJ +h. (2.31)
Здесь h — вектор минимальной длины, соединяющий точ-
ку Р и гиперплоскость S.
Формулу (2.31) перепишем в следующих обозначениях:
Vi = — nGi + hi9 (2.32)
где Vi и — векторные компоненты векторов V и h. За-
дача определения V теперь может быть сформулирована
так: найти векторы hi9 минимизирующие функцию
N—1
Л= s л* (2.33)
1=0
при условиях (2.32) и (2.30).
Задача выбора векторов может быть сформулирована
и несколько иначе: найти такие наименее отличающиеся
от — хбгь при которых условия (2.30) оказываются выпол-
ненными. Мера отличия дается функцией (2.33).
Составим функцию Лагранжа
2V—1 / N— 1
L = S I И» 3
i=0 \ i=0
где |1 — множитель Лагранжа. Заменяя по формуле
(2.32), приведем выражение функции Лагранжа к такому
482
Прямые Методы
£рл. til
виду;
N—1 N—1 N—1
L= 2 ЛНк S Kihi-K 3 ад-м =
{О i=“0 i=0 1
N—l N—1 N—l
= 2^+3 (4*<)-(h,x 3 ka + %).
i=0 i«o i=0
Составим необходимые
сюда легко получим
dL
условия минимума: = 0. От-
= (2-34)
Для вычисления множителя Лагранжа р, воспользуем-
ся условием (2.30);
N—1 .
SffJ-xGj-----=
i=0
Отсюда
.N—l N—l
и = —2 ( 3 KjK'X X + KjGA .
>•0 ' '
\-i
)
*>ii = Ki
Определяя теперь hi по формуле (2.34), мы получим окон-
чательно
Щ = ” ^Gi +hi= + i>t2,
где
N—l
у—о
(2.35)
w—i \-iw—1
ria=м {*; (з KtK*X 2 ад - gJ .
'•—О ' »“0
Первое слагаемое мы будем называть компенсационным со-
ставляющим приращения управления, второе — градиент-
ным. Можно показать, что они взаимно ортогональны и
yi2 лежит в плоскости 2, т. е. не нарушает ограничения
(2.30).
§ 2] МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 183
Определив теперь
U = U + V,
мы переместимся в точку Q. Вычисляя снова в этой точке
вектор — XV/, мы повторим процесс и т. д. Заметим, что
при этом функционал может возрастать.
5. Случай ограниченных управлений. Предположим
теперь, что кроме ограничений типа равенств (2.30) дви-
жение системы стеснено ограничениями типа неравенств,
которые накладываются на управление. Пусть для просто-
ты мы имеем только одно векторное условие
Uj == iZj -j- щ Uj, (2.36)
которое эквивалентно т скалярным
Предположим сначала, что удовлетворяет ограничению,
т. е.
и сделаем пробный шаг, заключающийся в вычислении
градиентной составляющей приращения управления р?2
по второй из формул (2.35). Предположим, что 4а < 0.
Тогда условие (2.36) оставляем без внимания, поскольку
в результате движения в сторону антиградиента мы еще
глубже погружаемся в допустимую область щ
Если Pj2 > 0» то существует опасность, что на следующем
шаге мы можем выйти из допустимой области, поэтому
мы зададимся некоторой величиной б^> 0 и в число огра-
ничений (2.30) включаем условие типа равенства*)
и- = б. При этом размерность вектора X повышается на
единицу. Если начальное приближение не удовлетворяет
ограничению, т. е. ор то в число ограничений (2.30)
♦) Описываемый подход переносится дословно на более общий
случай задания ограничений (2.36) в виде линейных неравенств
(ci, Uj) В случае же (2.36) можно поступить проще: при и3. > а/
брать = al.
184
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
включается такое:
= аь
где
= а\ —
Примечание. Предположим, что мы имеем за-
дачу со свободным концом, тогда выбор по формулам
Vi = — nGi может вы-
А вести управление из до-
—------------------------ пустимой области Q. На
рис. 2.2 показана имен-
но такая ситуация.Тог-
да величину следует
выбрать по формуле
Рис. 2.2 — PcfrGb гдеРо —
оператор проектиро-
вания на допустимую
область £2. Напомним, что процедура вычисления опе-
ратора проектирования сводится к решению задачи опреде-
ления вектора vb минимизирующего квадратичную форму
т
min 2 (Н + xG{)2.
Если теперь линеаризовать условие ЕЕ Гп (Го — гра-
ница области Q), то мы придем к задаче, аналогичной той,
которая рассматривалась в предыдущем пункте.
6. Ограничения на фазовые координаты. Методы, ко-
торые развивались в предыдущем параграфе, были плохо
приспособленными для решения вариационных задач с
фазовыми ограничениями. В рамках излагаемой схемы
какого-либо принципиального различия между ограниче-
ниями на конец траектории, ограничениями на управление
и фазовыми ограничениями нет. Рассмотрим, например,
условие
F (х, t) < О,
которое ограничивает движение (рис. 2.3). После дискрети-
зации мы получим
Fi < 0, i = 1,2,..., N - 1. (2.37)
J 21 МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 185
Совершаем пробный шаг, как это было описано в пре-
дыдущем пункте, и начинаем принимать во внимание ус
ловия (2.37) лишь в тех
1
случаях, когда возни-
кает опасность их на-
рушения на очеред-
ном шаге. Тогда мы по-
ступаем следующим обра-
зом.
Полагая х = £ + у, пе-
репишем (2.37) в виде
IdF. \ л
Теперь в число ограниче-
ний (2.30) мы
О
Рис. 2.3.
включаем еще и следующее;
«7
/а#, \
\ aJf * = ~~ 8»
6 = Fi («4 + 6»,
(2.38)
где — некоторое число. Используя формулы, дающие
связь между и мы можем преобразовать условие
(2.38) к виду (2.30).
7. Задачи на «узкие места». Этим термином обычно на-
зывается класс задач теории оптимального управления,
в котором ограничения имеют вид
F (х, и, t) < 0. (2.39)
После дискретизации задачи условие (2.39) заменяется ус-
ловиями
Л fa, и{)<0. (2.40)
Полагая я = £-|-1/ии = й-|-1>, мы линеаризуем усло-
вия (2.40);
(OF. \ (dF. \ о
Исключая yi при помощи формул (2.5), мы приведем это ус-
ловие к виду (2.30).
Таким образом, связь между векторами у и v, найден-
ная в начале параграфа, позволяет унифицировать методы
186
ПРЯМЫЕ МЕТОДЫ
tML Ш
анализа основных задач с ограничениями: задач с ограни-
чениями на концы траектории, с ограничениями на управ-
ление, ^ограничениями на фазовые координаты и задач на
«узкие места».
8. Некоторые приемы решения задач большой размер-
ности. Методы, изложенные в этом параграфе, неизбежно
приводят к задачам очень высокой размерности. Поэтому
всякие приемы «улучшения» алгоритма являются важ-
ными.
Первый и наиболее традиционный способ «улучшения»
алгоритма — это ускорение его сходимости. Здесь в по-
следние годы получен целый ряд новых результатов
(Б. Н. Пшеничный, Н. 3. Шор и др.)*). Заслуживает вни-
мания идея такого локального изменения геометрии, при
котором линии уровня в окрестности предыдущего при-
ближения имеют форму, близкую к окружностям. Такое
изменение геометрии позволяет значительно увеличить
шаг градиентного спуска. Другими словами, при этом до-
стигается значительное ускорение сходимости метода гра-
диентов. Эта идея, которая впервые была высказана
Т. М. Энеевым еще лет десять тому назад, явилась осно-
вой эффективного метода, разработанного Н. 3. Шором.
Однако все методы ускорения сходимости, сокращаю-
щие необходимое «количество» итераций, делают более
сложной каждую итерацию. А поскольку каждый вычис-
лительный процесс состоит из конечного числа итераций,
то может оказаться, что количество машинных операций
(а, следовательно, и время счета), требуемое для получения
заданной точности, будет меньше, если пользоваться ме-
тодом, который сходится медленнее, но зато для реализа-
ции каждой итерации требует меньшей затраты машинного
времени. Поэтому построение методов ускоренной сходи-
мости может не дать желаемого результата при решении
конкретной задачи большой размерности. Заметим, что
на практике, например, очень часто вместо градиентного
спуска используют покоординатный, поскольку расчет
одной итерации при покоординатном спуске в п раз (п —
*)Б. Н. Пшеничный, Один алгоритм решения общей
задачи математического программирования, Кибернетика, № 5,
1970.
Н. 3. Ш о р, Методы минимизации недифферепцируемых функ-
ций и их приложения, Докторская диссертация, Киев, 1970.
§ 2] МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 187
размерность пространства) «дешевле» итерации при гра-
диентном спуске. Более того, иногда используют несходя-
щиеся схемы теории возмущений, поскольку с их помощью
можно достаточно быстро улучшить приближенное «дис-
петчерское» решение.
Какие же пути существуют для действительного улуч-
шения алгоритмов спуска в задачах большой размер-
ности?
Заметим прежде всего, что до сих пор не найдена аль-
тернатива сходимости для оценки качества алгоритма спус-
ка. Проявление существенно дискретной природы процессов
спуска ставит здесь целый ряд вопросов, решение которых
вряд ли возможно в рамках традиционных методов. Поэ-
тому ответ на поставленный вопрос — указание приемов,
ускоряющих счет, носит до сих пор рецептурный харак-
тер, основанный на опыте (причем ограниченном). В одних
случаях предлагаемые рецепты могут оказаться полезны-
ми, в других — нет. Тем не менее (поскольку существует
заведомо не пустое множество задач, для которых они ока-
зались полезными), автор счел нужным перечислить не-
которые из подобных рецептов.
а) Использование метода штрафных функций качест-
венно упрощает задачу, особенно если мы имеем задачу с
ограничениями типа неравенств. Пусть, например, мы
имеем ограничения на управления
Тогда мы введем функцию штрафа следующего вида:
Х.<р. = X. •
если | и{ («,) | > 4,
если | u1 (tt) | < 4-
(2-41)
G помощью функций (2.41) мы сразу получаем возможность
использовать аппарат градиентного спуска, изложенный
в начале этого параграфа. Однако при этом всегда остает-
ся актуальной проблема точности.
б) При использовании градиентного спуска мы должны
вычислять на каждом шаге производные (i=l, 2,...п).
Если п велико, то расчет этих величин занимает основное
машинное время. В то же время некоторые из производных
188
ПРЯМЫЕ МЕТОДЫ
С ГЛ. III
малы и практически не влияют на выбор шага. Выше
было уже описано, как использовать это обстоятельство.
в) Использование методов случайного поиска стано-
вится тем более выгодным, чем выше размерность задачи.
f= const
а)
Рис. 2.4.
В качестве простейшей схемы случайного спуска может
быть принята следующая:
где т и в — заданные числа, е — единичный вектор, вер-
шина которого равномерно распределена по сфере. Заме-
тим, что выбор достаточно малых т и 8 всегда может сделать
схему (2.42) монотонной. Это утверждение демонстрирует-
ся на рис. 2.4, а и б.
Схемы типа (2.42) с успехом использовались в ВЦ
АН СССР и Институте кибернетики АН УССР *). Каждая
итерация рассчитывается очень просто. Однако всякий
раз заранее трудно сказать, будет ли эта схема в целом бо-
лее экономной, чем схема градиентного спуска или его
модификации.
г) С увеличением размерности задачи возрастает ве-
роятность появления оврагов у поверхности
Z = / (х).
Представим себе, например, что линии уровня этой по-
верхности имеют вид, изображенный на рис. 2.5, где че-
♦) См., например, Ю. М. Ермольев, Стохастические ква-
зиградиентные методы и их применения, Докторская диссертация,
Киев, 1970.
§ 2] МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
189
рез х* обозначена точка, в которой достигается минимум
функции / (х). Отыскать эту точку методом градиентов,
даже если начальное приближение (точка выбрана бо-
лее или менее удачно, очень трудно. Поскольку функция
/ (х) изменяется очень быстро в направлении, перпендику-
лярном оврагу, и очень медленно вдоль оси, градиентная
Рис. 2.5.
кривая будет переходить с одного склона оврага на дру-
гой, и движение в направлении минимума будет крайне
медленным.
Спуск в подпространстве быстрых переменных, описан-
ный в п. б), в данном случае не дает существенной эконо-
мии. При отыскании экстремума функций подобной при-
роды, даже в случае малой размерности вектора х, возни-
кают обычно значительные трудности.
Одним из способов преодоления трудностей подобного
рода является использование самонастраивающихся про-
грамм. Приведем один пример возможной схемы такой
программы.
Фиксируем два числа 8 и 2V, причем 8<^ 7V, и рассмот-
рим два алгоритма А и В.
490
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
Алгоритм А — это градиентный спуск в подпростран-
стве быстрых переменных: все производные, которые удо-
влетворяют неравенству
IJL
I дх*
<8,
мы полагаем равными нулю.
Алгоритм В — это градиентный спуск в пространстве
медленных переменных: все производные, которые удов-
летворяют неравенству
Of I
дх1 I
>N,
ъпл полагаем равными нулю.
Схема работы программы следующая. Задаем началь-
ное приближение . Делаем у М шагов при помощи алго-
ритма А и получаем точку х±. Вычисляем величину
РА1 = 2 j/—. Затем делаем у М шагов при помощи
алгоритма В, получаем точку и вычисляем величину
п о —/ (Ж1)
.
На этом заканчивается первый этап работы програм-
мы. Второй этап повторяет первый с одним отличием.
Мы делим общее число шагов М в отношении Pai и Pbi
ъ М л
и делаем Ра\~ъ—-г-б— шагов с помощью алгоритма А
М
и Pbi~d—т-5—шагов при помощи алгоритма В и вы-
+ *В1
числяем новые веса (или новую цену) алгоритмов А и
В — числа Pas и Рва и т. Д«
Алгоритм А осуществляет спуск по склону оврага.
Алгоритм В вдоль его оси. Ось оврага имеет криволиней-
ный характер. Структура описанного алгоритма позволяет
отслеживать изменение ее направления. На рис. 2.5 по-
казаны две типичные траектории спуска из точек ®.
Исследование подобных самонастраивающихся про-
грамм только начинается, причем оно ограничивается по-
ка только экспериментированием.
| 31 ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ
191
§ 3. Последовательный анализ вариантов.
Схемы динамического программирования
С именем американского математика Вальда связано
появление ряда идей, которые привели к созданию но-
вых методов решения оптимизационных задач. В США ис-
следования Вальда были продолжены Айзексом и Велл-
маном. Их результат — появление динамического про-
граммирования. В СССР идеи Вальда развивались В. С.
Михалевичем и его учениками, создавшими общий форма-
лизм последовательного анализа вариантов. В этом па-
раграфе мы ограничимся изложением некоторых алгорит-
мов для отыскания экстремума функций конечного числа
переменных, причем мы приведем их в том виде, в каком
они были разработаны и использовались в Вычислитель-
ном центре Академии наук СССР.
Заметим, что, по мере расширения возможностей вы-
числительной техники, значение методов, использующих
различные идеи перебора и анализа вариантов, непрерыв-
но возрастает.
1. Аддитивные задачи нелинейного программирования.
Аддитивной функцией векторов а^,..., х^ мы будем назы-
вать функцию, представленную в виде
лг—1
/ (жо» • • •» %n) — 3 fi (^ii (3.1)
г=0
Задачу нелинейного программирования мы будем называть
аддитивной, если речь идет об отыскании минимума (мак-
симума) аддитивной функции при ограничениях вида
Xi е Gi. (3.2)
В § 1 мы уже видели, какая существует связь между адди-
тивными задачами нелинейного программирования и за-
дачами теории оптимального управления.
Аддитивные задачи допускают простейшую геометри-
ческую интерпретацию, которая нам будет полезна для
последующих исследований (рис. 3.1). В пространстве
(х, t) построим гиперплоскости t = ix (i = 0,..., N).
— это n-мерные векторные пространства. Будем счи-
тать, что Xi ЕЕ S<.
492
ПРЯМЫЕ МЕТОДЫ
[гл. ni
Зададим какую-либо совокупность векторов х^ {г0,...
Этой совокупности векторов формула (3.1) ставит в
соответствие значение скалярной функции х^).
С другой стороны, если соединить точки отрезками, то
мы получим некоторую]ломаную. В качестве длины отрез-
ка, соединяющего точки х^ и xi+1, примем значение функ-
ции Д (xi? xi+1). Аналогичным образом мы можем постро-
ить границу допустимой области С = На рис. 3.1
запрещенная область заштрихована. Функция / (я0,...
..., a?jv) определяет длину ломаной, проводимой через точки
Теперь нашу исходную задачу мы можем сформулиро-
вать следующим образом: среди всех ломаных, соединяю-
щих плоскости So и 2л и лежащих в допустимой области,
найти ту, длина которой наименьшая.
Итак, мы имеем некоторое множество вариантов Q,
представляющих множество всех ломаных, соединяющих
So и Sjv и лежащих в допустимой области. Это множество
имеет мощность континуума.
Примечание. Задача с фиксированными конца-
ми траектории является частным случаем рассматри-
ваемой, когда множества бг0 и Gjv состоят только из одной
точки.
2. Алгоритм «киевский веник». Это один из основных
алгоритмов, применяющихся для решения аддитивных
I 3)
ПОСЛЕДОВАТЕЛЬНЫЙ t АНАЛИЗ ВАРИАНТОВ
193
задач. Он был предложен В. С. Михалевичем*). Основное
содержание алгоритма состоит в формулировке правил
последовательного сужения множества конкурентноспо-
собных вариантовО. Алгоритм
представляет собой много-
шаговый процесс, на каждом
шаге (номера 5) которого про-
изводится «отметание» неко-
торого множества вариантов
Qe, о котором в процессе
работы алгоритма становит-
ся известным, что онол не
содержит оптимального^ ва-
рианта.
- Опишем подробно проце-
дуру «отметания». Рассмот-
рим точки,лежащие в гипер-
плоскости — точки а\.
Расстояние некоторой фикси- Гис*
рованной точки х^ до гипер-
плоскости 20 обозначим через I fa). Очевидно, что
(рис. 3.2)
/ faJXmin/x (ж0.®1)-
acoGGe
Рассмотрим теперь функцию / fa, xN). Так как
N—1
min / fa,xN) = I fa) + 2 A fa. *i+i),
«1GG0 i«l
то и любой вариант, т. е. любая ломаная, не содержащая
отрезка I (ях), не может быть претендентом на то, чтобы
считаться решением нашей задачи. Эти ломаные и обра-
зуют множество которое мы отбрасываем на нулевом
шаге.
Произведем][теперь сужение оставшегося множества
Q — £4. Для этого рассмотрим точку х2 е S2. Обозначим
через I (х2) длину наиболее короткой ломаной, соединяю-
♦) В. х а л е в и ч, Последовательные алгоритмы опти-
мизации и их применение, «Кибернетика», №№ 1, 2, 1965. Алгоритм
«киевский веник» был разработан В. С. Михалевичем и Н. 3. Шором
и применен для конкретных расчетов в конце 50-х годов.
7 Н. Н. Моисеев
194
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
щей точку a:2 и гиперплоскость So. Очевидно, что
I (ж2) = min (I fo) + Д fo, х2)).
xtsGi
Множество вариантов Q1? которое мы отметаем на этом ша-
ге, будет состоять из всех ломаных, которые не содержат
ломаной I (х2).
Пусть теперь каждую из точек Е мы соединим с
гиперплоскостью So ломаной наименьшей длины, которую
мы обозначим через I (xj. Тогда длина наиболее короткой
ломаной, соединяющей точку xi+1 и So, определяется при
помощи соотношения
I («г*1) = (I fo) + fi zi+1)). (3.3)
Все варианты множества Qi, не содержащие ломаной дли-
ны I (xi+1), мы отбрасываем и т. д.
На последнем шаге каждой точке ЕЕ Sn поставлено
в соответствие число I (xN) — длина наиболее короткой
ломаной, соединяющей точку хм с гиперплоскостью 20.
Для того чтобы выбрать тот вариант, который нам нужен—
наикратчайшую ломаную, соединяющую гиперплоскости
So и Sn, нам осталось совершить еще одну процедуру
минимизации
I = min I
xn^gn
На этой операции процедура решения задачи заканчивает-
ся. Формула (3.3) — это общее рекуррентное соотношение,
описывающее многошаговый процесс отыскания решения.
Изложенный метод позволяет отыскивать глобальный
экстремум.
Найденная оптимальная траектория обладает одним
важным свойством — любой ее отрезок является снова оп-
тимальной траекторией. Последнее означает, что участок
траектории, соединяющий две ее любые точки и —
это некоторая ломаная, которая среди всех ломаных, сое-
диняющих эти две точки и удовлетворяющих ограниче-
ниям, имеет наименьшую длину.
Отсюда следует также, что аддитивные задачи удовлет-
воряют принципу оптимальности Веллмана, который мо-
жет быть сформулирован следующим образом: характер
§ з] ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ 195
оптимальной траектории, переводящей систему из положе-
ния (х<, h) в положение (xk, tk) (i <!&)» не зависит от сос-
тояния системы в моменты, предшествующие
Примечание. Класс процессов, для которых
справедлив принцип оптимальности Веллмана, имеет очень
большое значение в различных прикладных задачах. Он
значительно шире класса процессов, сводящихся к адди-
тивным задачам (в этом мы убедимся в одном из после-
дующих параграфов). В свою очередь, процессы, для ко-
торых справедлив принцип оптимальности, образуют не-
который подкласс задач, для анализа которых может быть
использован общий метод последовательного анализа ва-
риантов.
3. Численная реализация алгоритма. Для того чтобы
воспользоваться рекуррентным соотношением (3.3), не-
обходимо рассматривать множество Q, которое имеет мощ-
ность континуума. Только в отдельных частных случаях
удается провести аналитическое исследование этой задачи.
При разработке численных методов используют ее конеч-
номерную аппроксимацию. Для этого в пространстве (х, t)
строят сетку. Шаг по аргументу t задан, он равен т.
Задаем еще шаг по переменному х — величину Ай. Узлы
сетки обозначим через Рк (i). Индекс i означает номер ги-
перплоскости S<, а индекс к означает номер узла в гипер-
плоскости S<. Каждые два узла, лежащие на смежных ги-
перплоскостях Рк (i) и Pj (i +1), соединены отрезками,
длины этих отрезков мы будем обозначать через
hi (О, Р} (« +1)).
В результате такой операции мы получим некоторый граф
специального вида (рис. 3.3), в котором роль вершин иг-
рают узлы Pj (i), и вместо исходной задачи мы будем рас-
сматривать задачу отыскания на этом графе кратчайше-
го пути, соединяющего гиперплоскости So и 2^. Итак,
вместо задачи отыскания решения на множестве Q всех
ломаных, соединяющих гиперплоскости 20 и SN, мы ищем
наикратчайшую ломаную среди конечного множества ло-
маных Q' GE Й. Ломаные из Й' проходят через узлы Pj (i).
Обозначим через 1к (i) ломаную кратчайшей длины из
й', соединяющую узел Рк (г) с гиперплоскостью So. Тог-
да, повторяя рассуждения предыдущего пункта, мы сно-
ва придем к рекуррентному соотношению (3.3), которое
7*
196
ПРЯМЫЕ МЕТОДЫ
(ГЛ. III
будет теперь выглядеть так:
Z,(« + !)» mb+ (3.4)
Минимум берется по тем номерам А, для которых узлы
лежат в допустимой области Gi и принадлежат гиперплос-
кости Число таких узлов обозначим через
Таким образом, на каждом шаге мы совершаем перебор
вариантов из множества Mi возможных путей, проходящих
через узелР, (/4- 1). Из этого множества по формуле (3.4)
мы выбираем один вариант и его запоминаем. Таким обра-
зом, на шаге номера г + 1 мы должны запомнить Afi+1
чисел lB (i +1) (s = 1,..., Mi+1). Определение величины
l8 (i + 1) требует вычисления Mi функций (Рк (0,
Р8(1 4-1)) = (0, суммирования их с величиной Zft(0,
хранящейся в памяти, и сравнения между собой получен-
ных величин. Предположим, что на это расходуется Мгг
машинных операций. Следовательно, общее число машин-
ных операций, необходимое для реализации алгоритма,
равно
N—1
3 (3.5)
1=0
где М == max Mi9 N — число шагов.
i
$ з] ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ 197
Рис. 3.4.
Примечание. В наших расчетах мы сделали пред-
положение, что затраты на вычисление 13 (г -J- 1) пропорци-
ональны В самом деле, всегда вычислительную про-
цедуру можно организовать так, чтобы величина г не за-
висела от i. Вычисляем сначала величину lu (i) и склады-
ваем ее с Zi (0 *). Полученную величину обозначим через 13
(i+1) и запоминаем ее.
Вычисляем далее 4.(0,............................
складываем ее с (Z) и по-
лученную сумму сравни-
ваем с l9 (i+1); из этих двух
величин оставляем в памя- °
ти только одну— наимень-
шую, и т. д.
4. Метод «блуждающей
трубки». Алгоритм «киев- ------------------------
ский веник» дает возмож-
ность отыскать глобальный ис‘ ’ ’
экстремум, причем для
функций произвольного вида. Никаких предполо-
жений о выпуклости функций мы не делали. Однако
его реализация требует большой затраты машинного вре-
мени и, что может быть еще более важно,— большой опе-
ративной памяти машины. Число машинных операций и
объем требуемой памяти машины возрастают пропорцио-
нально квадрату числа узлов.
В Вычислительном центре Академии наук СССР ис-
пользовались процедуры, в которых ценой отказа от ре-
шения задачи отыскания глобального минимума удавалось
значительно сократить число операций. Один из таких ал-
горитмов (Н. Я. Багаева, И. А. Крылов, Н. Н. Моисеев)
получил название «блуждающей трубки». Этот алгоритм
имеет характер метода последовательных приближений **).
Пусть дано некоторое начальное приближение — лома-
ная Го, которая задана последовательностью узлов Pft0 (/)
(см. рис. 3.4, где Го показана пунктиром). Задавая Ах,
построим сетку , причем в каждой из плоскостей
♦) Здесь предполагается, что нумерация узлов в (3.4) начи-
нается с единицы.
♦♦) Н. Н. Моисеев, Методы динамического программиро-
вания в теории оптимальных управлений, ЖВМ и МФ 4, № 3, 1964;
5, № 1, 1965.
198
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ill
мы включаем в сетку So только по т узлов. (На рис. 3.4
эти узлы отмечены звездочками.) На сетке 50 реализуем
вычислительную схему алгоритма «киевский веник», ре-
куррентное соотношение которого в этом случае будет
иметь вид:
Ze(i4-1)= min {Zk (i) + lk9 (i)}. (3.6)
Pjc (i)eSo
Определив при помощи соотношения (3.6) новую ломаную
?! (на чертеже она изображена сплошной линией), мы пов-
торим процедуру и т. д. Таким образом, на каждом шаге
мы разыскиваем ломаную на некотором подграфе Sj.
Оценим число операций, необходимых для отыскания
минимума при помощи алгоритма «блуждающей трубки».
Если ломаная Гизвестна, то для отыскания следующе-
го приближения — ломаной Г,+1 нам необходимо произ-
вести Qj операций, где Qj^LrrrPN. Обозначим через к
общее число итераций. Тогда количество машинных опе-
раций, необходимых для окончания процесса, будет
krrrPN.
Чем больше число узлов на подграфах т. е. чем боль-
ше число иг, тем меньшее число итераций необходимо сде-
лать, следовательно, число к зависит от отношения М1т.
Примем, что к^.кг М1т*). Тогда для общего числа опе-
раций мы будем иметь следующую оценку:
Q^kjMmN, , (3.7)
т. е., в отличие от метода «киевского веника», в методе
«блуждающей трубки» число итераций растет линейно с
увеличением числа узлов М. Оценку (3.7) получил
И. А. Крылов.
5. Метод локальных вариаций. Итак, мы установили,
что чем меньше «объем блуждающей трубки», тем меньшее
число операций требует реализация процедуры поиска
решения. Это наводит на мысль о необходимости на каж-
дом шаге итеративного процесса использовать трубку (под-
граф), содержащую наименьшее число узлов. Мы убеди-
лись, что при этом, несмотря на возрастание общего числа
итераций, количество машинных операций, необходимых
j Конечно, эта оценка носит эмпирический характер.
§ з] ЙОСЛЁДОВАТЕЛЁЙЫЙ АНАЛИЗ ВАРИАНТОВ 499
для отыскания минимума, будет Наименьшим. Эти наводя-
щие соображения лежат в основе^метода локальных ва-
риаций, предложенного Ф. Л.
Черноусько и разработан-
ного им совместно с И. А.
Крыловым *).
Пусть снова мы имеем не-
которое начальное прибли-
жение Го. Наименьшим под-
графом So, содержащим Го,
будет, очевидно, тот, который
помимо узлов Ро (i) ЕЕ Го
содержит всего лишь один
узел (i) (рис. 3.5). Длина
звеньев ломаной, соединяю-
щих точку Ро (i — 1) с точкой Ро (i 4- 1), равна
«о =/i-i (Ро (i - 1), (0) (Ро (0. Ро 4+ !))• (3.8)
Но на графе 50 существует еще одна ломаная, соединяю-
щая точки Ро (i — 1) и Ро (i +1). На рис. 3.5 она показана
пунктиром. Ее длина будет такой:
= А-i (Ро (i ~ 1). Pi (0) + fi (Л (0. Po (i + I))- (3.9)
Сравнивая величины (3.8) и (3.9), мы выбираем из них
наименьшую.
Структура сетки позволяет ввести узел Р_х (i) — узел,
симметричный Рх (i) относительно Го. В самом деле, если
Ля4 — шаг по компоненте номера у, то узел Р1 (i) имрат
координаты
®J(0 =^0(0, 8=М,
(i) = 4 (i) + Д®’.
Следовательно, узел, координаты которого
(0 = (i), «=/=/,
А(0 = 4(0 —
*)И. А. Крылов и Ф. Л. Черноусько, Решение
задач оптимального управления методом локальных вариаций,
ЖВМ и МФ 6, № 1, 1966.
260 ЙРЙМЫЁ МЁТОДЬ! ЙРЛ, lit
будет симметричен относительно Го; его мы и назовем P^fj),
Предположим теперь, что имеет место^неравенство а0> ах.
Тогда в качестве нового приближения (ломаной Гх)
мы выбираем ломаную, проходящую через узел Рг (0.
Если а0 < ах, то мы проверяем ломаную, которая прохо-
дит через узел Р_х (i).
Вычисление величины ах носит название локального
варьирования. Процесс последовательных приближений,
использующий локальное варьирование, сводится, таким
образом, к последовательному «улучшению» положения
узлов, через которые проходит ломаная Г4.
Примечания.
1. Метод локальных вариаций можно рассматривать од-
новременно как метод покоординатного спуска с фикси-
рованным шагом на фиксированной сетке, заданной в об-
ласти, определенной ограничениями.
2. Если подсчитать число операций, необходимых для
реализации метода локальных вариаций, то мы снова
получим оценку типа (3.7), т. е. трудоемкость отыска-
ния экстремума при помощи схемы локальных вариаций
и схемы «блуждающей трубки» практически одного по-
рядка.
3. При сравнении методов «блуждающей трубки» и ло-
кальных вариаций может показаться, что мы должны от-
дать предпочтение последнему, поскольку он требует для
отыскания экстремума того же (по порядку) числа опера-
ций, однако более прост для программирования и требует
значительно меньшего объема оперативной памяти. Од-
нако такое заключение не всегда верно, поскольку метод
локальных вариаций обладает также и рядом недостатков.
Наиболее существенный недостаток состоит в очень боль-
шой чувствительности к локальным экстремумам, которые
к тому же часто оказываются следствием неточностей про-
цесса вычислений. Для иллюстрации сказанного приведем
пример (рис. 3.6). Предположим, что исходное приближе-
ние — траектория Го проходит через точки Ро (i — 1),
Ро (0, Pq (i + 1)» Pq G + 2)- Если мы начнем ее улучшать
методом локальных вариаций, то мы должны сравнить
траекторию Го с траекторией, проходящей через точки
Ро(1 — l),Px(i), Ро($4-1), с траекторией, проходящей че-
рез точки Р9 (i), Рх (i + 1)> Р* G + 2) и т. д. Предполо-
жим, что при этом окажутся справедливыми следующие
$ 31
ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ
201
неравенства:
(Ро а -1), Ро (0) +fi (р0 (о. Ро g +1)) <
< fi-i (PoG ~ 1), Pi (0) + fi (Pi (0. Po (« + 1)), fi (0.
Pq G + 1)) 4* A+i (Л> (* + 1), Po G + 2)) <
< fi (Po (0, Pl (* + 1)) + /hi (Pl(* +1), Po (* + 2))
и т. д. Тогда в результате применения метода локальных
вариаций мы должны сделать заключение о том, что ло-
маная Го и есть оптимальное решение. Предположим те-
перь, что ломаная действительно самой короткой длины
проходит через узлы Рг (i), Pr (i -|- 1), Рг (i + 2), ...
Этот факт методом локальных вариаций никак не
может быть обнаружен. В то же время он легко обнару-
живается, если мы начнем применять метод «блуждающей
трубки».
6. Стратегия поиска. Алгоритм «киевский веник» да-
ет возможность отыскать глобальный экстремум аддитив-
ной функции. Однако получение подобного решения тре-
бует значительной затраты машинного времени и возмож-
но только при условии, что в нашем распоряжении есть
машина, обладающая большой оперативной памятью. Ме-
тоды «блуждающей трубки» и локальных вариаций зна-
чительно более экономны, однако они пригодны для отыс-
кания только локальных экстремумов. Поэтому, если
априори известно, что исследуемая функция имеет един-
ственный экстремум (например, если функция выпукла),
то следует применять один из этих методов.
В общем случае используется следующая схема расче-
тов. Сначала с большим шагом* строим грубую сетку
и применяем алгоритм «киевского веника». В результате мы
найдем некоторую ломаную Ге — самую короткую из
202
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
ломаных, удовлетворяющих решению задачи. Далее мы де-
лаем «правдоподобное» предположение, что ломаная, яв-
ляющаяся решением задачи, находится в окрестности Го.
В ее окрестности строим новую сетку 5^ с меньшим ша-
гом При этом шаг сетки выбирается так, чтобы уз-
лы сетки 50 были включены в Sb и, используя затем метод
«блуждающей трубки», находим ломаную Гх. Затем снова
дробим шаг, выбираем новый шаг Дя2, строим новую сет-
ку 52 и т. д.
7. Задача на быстродействие. Рассмотрим снова адди-
тивную функцию (3.1), но число N мы будем считать неиз-
вестным, тогда
N—1
/ (я0, #1» • • • » %n) = 3 fi Xi+1) = f (^0» • • • ’ N).
г—0
Поставим задачу отыскать такие значения переменных xQ,
Xi,..., и число А, которые при минимально возможном N
доставляют функции /* значение /* — с. Величину х9
будем считать фиксированной.
Так сформулированная задача является естественным
аналогом задач на быстродействие, изучаемых теорией оп-
тимального управления.
Алгоритмы, которые были изложены, могут быть ис-
пользованы для их решений. Рассмотрим рекуррентное
соотношение (3.3), в котором min заменен на max*):
I (®i+i) = max (®i) + /< fa, ^i+1)}- (3.10)
xi^Gi
Положим i = 0. Если окажется, что
1г — maxZ^j) = max/0(x0, хг) >
XifEzGi x^Gi
то N равно 1, и задача сводится к отысканию корня хх
уравнения
/о (^о> *^1) — (3.11)
Если окажется, что < с, то для каждого значения хг
мы должны запомнить значение I Далее полагаем
♦) Полагаем I (а?0) = 0.
§ 5] ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ 203
1 = 1. Если окажется, что'
Z2 = max I (х2) = max {max (Z (xx) /х (жх,
x^Gt x^Gi Xif=Gi
то задача снова сводится к отысканию корня х2 уравне-
ния
I (^1) + /1 (^1? #2) “
и т. д.
Для задач на быстродействие также могут быть пост-
роены алгоритмы типа «блуждающей трубки».
8. Функции с монотонным включением переменных.
Функцией с монотонным включением переменных будем
называть скалярную функцию, имеющую вид:
Р = Р {/n (и#, /n-i (wn-i, ... , f (ux))...)}. (3.12)
Здесь ux, u2,..., un — это векторы размерностей fcx, й2,...
...,kN соответственно, Д—это однозначные векторные функ-
ции своих аргументов. Выбор щ стеснен ограничениями
Щ е (3.13)
где Gi — некоторые заданные множества.
Мы будем рассматривать задачу отыскания минимума
функции F при ограничениях вида (3.13). Функции вида
(3.12) возникают, как мы видели, в результате процесса
исключения фазовых переменных х^ из конечноразност-
ных уравнений
ях = (ux, х0) = /х (ux),
Х2 — /2 (W2? xi) == /2 (U2> fl (ul))j (3.14)
xn = In (mn, xN-i) = In (uN9 /n-i (un-i, . • • , / (^1))...).
Размерность векторов x4 будем считать равной п. Задачу
минимизации функции (3.12) будем называть задачей Май-
ера для системы (3.14). Используем стандартную геомет-
рическую интерпретацию подобных задач. Для этого снова
в (п + 1)-мерном пространстве (х, t) построим гиперплос-
кости Sx,..., Sjy. Векторы Xi будут лежать в соответст-
вующих гиперплоскостях S{.
Совокупность точек х0,хх,..., xN, соединенных отрезками,
образует некоторую ломаную, которую естественно назвать
204
ПРЯМЫЕ МЕТОДЫ
(ГЛ. III
фазовой траекторией. Рассматриваемая задача уже не
является аддитивной, и алгоритмы, которые мы рассмат-
ривали в начале параграфа, непосредственно неприменимы
для решения задачи минимизации функции (3.12). В самом
деле, пусть в точке сходятся две фазовые траектории 1
и 2 (рис. 3.7). Они имеют общее продолжение 3. При рас-
смотрении аддитивных задач мы имели в распоряжении
правило отбраковки: из траекторий 1 и 2 мы выбирали ту,
которая дает наименьший вклад в функцию /. Теперь эти
траектории совершенно равноценны, поскольку значение
минимизируемой функции F определяется только величи-
ной xjv, и, следовательно, все траектории, удовлетворяю-
щие ограничениям и достигающие одного и того же конеч-
ного состояния, эквивалентны.
Для этих задач разработаны специальные методы.
9. Схема решения задачи Майера. Рассмотрим послед-
ний, N-H шаг процесса, описываемого уравнениями (3.14).
Предположим, что наша система находится в состоянии
Xn-i, тогда
F = F Un (hn, #/v-i))- (3.15)
Следовательно, для того чтобы обеспечить минимум функ-
ции F, нам надо выбрать так вектор чтобы выражение
(3.15) достигло своего минимального значения на С?дг,
| 31 ПОвЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ 205
т. е. для каждого мы должны определить число
Fn-i&n-i)= min F (jN (uN, x^)). (3.16)
Равенство (3.16) определяет некоторую функцию
— то минимальное значение функции F, которое мо-
жет быть достигнуто, если система оказалась в состоянии
xn-i» В процессе вычисления величины Fn^i мы находим
управление — такой вектор uN, зависящий от sn-x, ко-
торый доставляет функции F наименьшее значение. Итак,
одновременно со скалярной функцией Fn-± мы опреде-
ляем вектор-функцию
। un = <Pn (*n-i). (ЗЛ7)
По существу мы уже сформулировали правила отбрасы-
вания неконкурентноспособных вариантов. В самом деле,
обозначим через Q множество всех последовательностей
{Ui,..., uN}, удовлетворяющих условиям щ ЕЕ G{. Каждая
из таких последовательностей определяет ломаную {х0,
Xi,..., xn}- Поэтому той же буквой Q мы будем обозначать
множество ломаных {хг (их), х2 (и^ u2),..., xn (ux, uiv..uN)}.
Через (Ох мы обозначим подмножество Q — совокуп-
ность всех тех последовательностей, у которых un
=[= Tn (^n-i). Очевидно, что оптимальный вариант управ-
ления не может содержаться среди ломаных из ®х.
Итак, на первом шаге нашей вычислительной проце-
дуры мы отбрасываем множество (Ох и продолжаем поиск
наилучшего варианта на множестве Qx = Q — (ох.
Рассмотрим теперь второй шаг. Функцию FN^r (xn-i) мы
можем переписать такз
FN-1 (#N-1) = FN-i (Jn-1 (^N-1, ^N-a)).
Следовательно, если мы фиксируем точку Xn-2, то наимень-
шее значение функции F, которое мы можем достичь, оп-
ределяется только вектором un-*. Следовательно, на этом
шаге мы можем определить функцию
b FN-»(xN-^= min FN-ilfN-ifuN-b xN^)). (3.18)
Функция FN-i (3.18) каждому состоянию xN-2 ставит в
соответствие то минимальное значение целевой функции,
206
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
которое может быть реализовано в процессе, если в мо-
мент t = N — 2 состояние системы определяется век-
тором Xn-2- Одновременно мы находим также функцию
^-1 = флг-1(^-2). (3.19)
Итак, если нам известно, что в «момент времени»
t = N—2 система находится в состоянии то для того,
чтобы получить минимальное значение функции F, упра-
вления un и Ujy-i следует выбрать по формулам ujv-i =
== фЛГ-1(^-а)> UN = ф# = ф/V (Av~l (cPN-1 (^-2), ^-2))*
На этом шаге мы исключаем из оставшегося множества ло-
маных множество ш2всех тех ломаных, для которых
4= фл-х (ЗД-г)-
Продолжая этот процесс, мы на каждом шаге опреде-
ляем функцию
Л(х,)= min Fi+1(/i+1(ui+1, ®i)), (3.20)
tti+leGi+l
которая состоянию системы Xi в «момент времени» t — i
ставит в соответствие то оптимальное значение функции F,
которое может быть достигнуто из состояния х^. Одновре-
менно процедура взятия минимума в (3.20) позволяет оп-
ределить функцию
wi+l — Ф<+1 (^i)* (3.21)
Функция (3.21) определяет то значение вектора ui+1, с
которым должен развиваться процесс при переходе си-
стемы из состояния Xi в состояние #i+1.
Все те варианты процесса, для которых вектор щ опреде-
ляется не по формуле (3.21), отбрасываются и т. д.
Предположим, наконец, что определены функции
Fi(^i) ии2=ф2 (^х). Нам осталось определить только вели-
чину иг и минимальное значение функции F при заданном
начальном состоянии xQ. Оно определяется по той же схеме:
Fo (х0) = min (Л («!, х0)),
UiGztri
ui = Ф1 (хо)* (3.22)
Задача решена, число Fo (х0) — это минимальное значе-
ние функции F на множестве
N
G и G.
§ 31 ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ 207
Для реализации этого значения функции F мы должны
построить последовательность векторов
Uj = Ф1 (^о)> ^2 ~ Фг (**т) Ф2 (/1 (^1> *о))> = Фз (*^2) =
= Фз (/2 («2. /1 (Ml, ®о))) И Т- Д-
10. Численная реализация описанной процедуры.
В пространстве (ж, t) построим сетку с некоторым шагом Дя.
Узлы сетки будем снова обозначать через Pk (i). Напомним,
что i — это номер гиперплоскости а к — номер узла
в гиперплоскости
На первом шаге процесса мы строим функцию Fj^*.
FN_1(xN^) = min F(fN(uN, xN-J). (3.16)
uN^gN
I
Для построения этой функции можно использовать шкалу
управлений. Для этого мы задаемся еще некоторым шагом
по управлению Ди. Тогда бесконечное множество G за-
меняется конечным. Его элементы мы обозначим через
щ (у), где i — это снова номер шага по времени, a j — это
номер элемента в G^. Теперь построение функции FN.r
состоит в построении таблицы ее значений, зависящих от
каждое из которых определяется перебором величин
FN-! (xn^) = min F (fN (uj (N), (3.23)
j
Кроме того, мы составляем таблицу для функций (3.17).
Рассмотрим теперь задачу построения функции F^2:
FN-z (^-2) = min Fjv-i (/n-i (un^ xn_2)).
uN-1^GN-1
Теперь мы должны построить таблицу для функции Г/у_2,
но функция Fjv-i нам задана только таблицей. Следователь-
но, задав какое-либо из значений uN^ из шкалы управле-
ний, в общем случае мы получим точку xn-i, которая не
совпадает ни с одним из узлов в гиперплоскости
и, следовательно, ее нет в таблице для функции F^.
Существуют две возможности преодоления этой труд-
ности;
а) Переход из заданного состояния зд_2 в заданное со-
стояние xjv-i возможен лишь в том случае, если существует
управление которое является корнем векторного
208
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
уравнения
^2V-1 == /1V-1 (uN-li XN-^ (3.24)
Предположим сначала, что размерность вектора
не меньше^ размерности вектора х. При фиксированном
хлг-2 формула (3.24) дает некоторое отображение множества
Gn-i на Sn-v Этот образ обозначим через Q (Gn^xn^).
Если некоторый узел Pj(N — 1) ЕЕ ^(Gn-x, ^-2)»
ТО МЫ говорим, ЧТО ОН ДОСТИЖИМ ИЗ ТОЧКИ Xn-2, в противном
случае мы говорим, что он не достижим из точки xn-2-
Множество Q xn-z) мы называем множеством дости-
жимости из точки Хн-ъ.
Элементарной операцией (применительно к данному
случаю) мы называем процедуру отыскания действитель-
ного корня уравнения (3.24). Если xN^ ЕЕ Q (Gn^,
то мы можем построить функцию ф^х:
Ujv-i = флг-i (^w-a)» (3.25)
Используя элементарную операцию, мы можем построить
таблицу] функции F^ fav-a) по таблице функции
Fn^Xn-J и т. д?).
Процесс вычисления упрощается, если мы умеем зара-
нее устанавливать принадлежность узла х^х множеству
Q (Gw-ь
Если размерность вектора и меньше размерности век-
тора х, то ситуация значительно усложняется, так как раз-
мерность множества достижимости в общем случае оказы-
вается меньшей, нежели размерность пространства Sjv-i*
Поясним ситуацию, которая здесь складывается, на про-
стом примере (рис. 3.8). Пусть размерность вектора х
равна двум, а размерность вектора и равна 1, и — это
скаляр.
Тогда векторное уравнение (3.24) будет эквивалентно
двум скалярным
XN-1 = /Аг-1 (WjV-l, жЛГ-2, xN-t)v
(3.26)
== /А-1 (^N-l, xN-$-
♦) Таким образом, при этом подходе шкала управлений не ис-
пользуется.
§ 31 ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ 209
При фиксированном зд_2 равенства (3.26) можно рассмат-
ривать как параметрическое задание некоторой кривой в
гиперплоскости Эта кривая в общем случае минует
все узлы. Следовательно, если формально использовать
приведенные выше рассуждения, то мы должны сказать,
Рис. 3.8.
что ни один из узлов в гиперплоскости Siv-x не достижим
из точки X1V-21 и» следовательно, все траектории, входящие
в точку £n_2, должны обрываться. Вот почему в этом слу-
чае мы должны либо менять структуру разностной схемы,
при помощи которой мы проводим дискретизацию задачи,
либо элементарную операцию строить приближенно.
б) Соображения, которые только что были изложены,
приводят к необходимости ввести следующую важную мо-
дификацию этого процесса.
Каждый узел Pj (г) мы окружаем некоторым множест-
вом, например, мы говорим, что Л; (i), если
Р • (0 — 8е < xl Р • (/) + 88.
В рассматриваемом случае множества Rj — это некоторые
параллелепипеды.
Будем теперь относить к числу узлов, достижимых из
точки все те узлы, окрестности которых имеют с мно-
жеством Q(Gi, общие точки. Рассмотрим более под-
робно, к чему приведет такое расширение множества*допу-
стимых узлов на примере перехода системы из состояния
в состояние Х|.
210
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
Итак, пусть функция (х0 построена. Перепишем ее
в виде
Fi (#i) “ ^i (/г (ui> ^г-1))*
Фиксируем точку х^ (рассматриваем один из узлов
Pj == Pj (i — 1)). Введем понятие шкалы управлений —
заменим множество бг{ некоторым конечным множеством,
состоящим из точек ui0, uix, Вычисляем после-
довательно fi (u{0, fi (щи яи1) и т. д. Вычислив, на-
пример, fi (uih хи1), мы должны выяснить, будет ли этот
вектор принадлежать к окрестности одного из узлов в ги-
перплоскости Si. Если существует такой узел, в окрест-
ность которого входит точка Xi-i), то мы запоминаем
ии и соответствующее ему значение функции Д (иц, х^).
Далее мы должны вычислить функцию Fi
но эта функция нам задана таблицей и мы знаем ее
значения только в узлах сетки. Поэтому точку Д (ujj, х^)
мы идентифицируем с тем узлом Pj (i), в окрестности
которого она находится, и вместо числа (/< (u^, х^))
мы берем число (Pj (i)).
Теперь функцию Fi (х$ мы определим так:
Л(^)=тшЛ(ед- (3.27)
о
Продолжая этот процесс, мы найдем некоторую последо-
вательность управляющих векторов иъ uN. По этой
последовательности, используя формулы (3.14), мы мо-
жем построить фазовую траекторию — совокупность то-
чек Xj, х2,..., xn и, следовательно, вычислить значение
функции F (xjy). Эта процедура тем точнее дает возможность
вычислить минимальное значение функции F, чем на
более мелкой сетке мы проводим вычисления. Но увеличе-
ние числа узлов приводит к значительному увеличению
необходимой памяти машины и затрачиваемого машинно-
го времени. Поэтому при решении подобных задач мы вы-
нуждены снова использовать какие-либо итеративные ме-
тоды. В предыдущих разделах данного параграфа мы уже
рассматривали некоторые из подобных методов, например
метод ^блуждающей трубки». Этот метод полностью приме-
ним и к данной задаче. Предположим, что мы имеем некото-
рое первое приближение й1ч и2,..., й^. Это приближение
определяет в каждой из гиперплоскостей S< точку
§ 3]
ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ
211
Задаваясь некоторым шагом Дх, мы построим в каждой
из гиперплоскостей некоторые множества узлов
Xi, 0 = Xi, г = + Дх\ х\, = — &х\
и т. д. На этом множестве узлов мы находим решение на-
шей задачи — это будет некоторая совокупность управле-
ний (ult..., Un). Уменьшаем шаг и повторяем процедуру.
Нетрудно провести оцен-
ки, показывающие эффект
подобной модификации ис-
ходного метода. j/
Примечание, у ~
Метод локального варьи- р
рования к задаче Майера 0
неприменим. Этот факт Рис. 3.9.
очевиден. Поясним его с
помощью рис. 3.9. Траектория Го, которая проходит
через узлы, отмеченные кружками, и траектория Гх,
проходящая через узел, отмеченный звездочкой, реали-
зуют одно и то же значение терминальной функции.
11. Метод «бегущей волны» И. А. Вателя и А. Ф. Ко-
ноненко. Напомним, что в рассмотренных выше методах
перебора в пространстве состояний предполагалось, что
построена элементарная операция. Это значит, что пост-
роен оператор В (х{, xi+1), который паре точек х{ и xi+1
на соседних гиперплоскостях Si и Si+1 ставит в соответ-
ствие управление, переводящее систему за время т из
состояния в состояние xi+1, и участок траектории
который соединяет эти точки. Подробно проблема реали-
зации элементарной операции будет рассмотрена в § 4.
Здесь мы только остановимся на одном вопросе, тесно свя-
занном как с проблемой элементарной операции, так и с
проблемой варьирования фазовой траектории.
Выше мы отмечали, что метод локальных вариаций мож-
но рассматривать как метод покоординатного спуска при
отыскании минимума аддитивной функции, которая по-
лучена дискретизацией задачи оптимального управления.
Сейчас мы покажем, что эта интерпретация позволяет нам
значительно продвинуться на пути решения задач опти-
мального управления прямыми методами. Пусть требуется
212
ПРЯМЫЕ МЕТОДЫ
Врл. ш
минимизировать функцию
2V—-1
F (а?0»жи • • •, xN, и0, uN_x) = т 3 Ft (ж15 xi+1, щ)
г=0
(3.28)
при ограничениях
®i+i = 4- tf fa, щ),
*4 S Xb |
щ GE Ui. J
(3.29)
(3.30)
Здесь векторы я4, щ имеют размерность п и т соответствен-
но, а Ui — заданные области п- и тп-мерного простран-
ства.
Задача (3.28) — (3.30) может описывать какой-либо
дискретный процесс или может быть конечноразностной
аппроксимацией континуальной задачи оптимального уп-
равления. В последнем случае выражение (3.28) есть ин-
тегральная сумма, заменяющая (1.1), а (3.29) — конеч-
номерный аналог уравнения (1.2).
Если размерности векторов х и и совпадают, т. е. т =п,
то, найдя из системы (3.29) вектор щ (если эта сис-
стема разрешима) и подставив его в (3.28), мы получим ад-
дитивную задачу в функцией вида (3.1). К этой задаче
применимы все описанные выше схемы перебора в про-
странстве состояний. Случай т > п также не вызывает
затруднений.
Если же т < п, что, как правило, встречается в прак-
тических задачах, то такой подход неприменим (система
(3.29), вообще говоря, переопределена). В этом случае
должны применяться специальные способы построения
элементарной операции. При этом управление щ уже не
будет постоянным на интервале т, и, следовательно, ко-
нечномерный аналог уравнения (1.2) будет иметь иной вид,
нежели (3.29).
Недавно И. А. Ватель и А. Ф. Кононенко предложили
метод решения*), позволяющий оставаться в рамках ап-
*) И. А. В а т е л ь, А. Ф. К о н о н е н к о, Об одной чис-
ленной схеме решения задач оптимального управления, ЖВМ и
МФ, Xs 1, 1970.
| S] ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОЙ 213
проксимации (3.28), (3.29) и который можно трактовать
как обобщение метода локальных вариаций.
Пусть задано некоторое начальное приближение к ре-
шению задачи. Будем улучшать его, варьируя траекторию
на участке от tk до (к-\-р N). При этом векторы и
считаем заданными, а векторы xk+i (I = 1,...,р — 1),
Ufc+e (? = 0,..., р — 1) являются неизвестными. Общее
число неизвестных равно п (р — 1) тр. Для их оп-
ределения имеем пр уравнений вида (3.29) *). Разница
между числом неизвестных и числом уравнений равна
г = тр — п. (3.31)
Таким образом, на варьируемом участке имеется г сво-
бодных параметров, которые могут быть использованы для
минимизации соответствующего отрезка суммы (3.28):
ДГ = т 3 «<♦!»»<)♦ (3-32)
Естественно выбирать р таким, чтобы г было минимальным
положительным числом. Тогда на каждом варьируемом
участке минимизируемая функция (3.32) будет зависеть
от наименьшего числа независимых переменных. Легко
показать, что при этом г т. Итак, на варьируемом уча-
стке (th, tk+p) мы получаем задачу нелинейного програм-
мирования, которая заключается в минимизации функций
(3.32) от рп 4-г переменных, подчиненных рп связям
(3.29), а также связям (3.30). Для решения этой задачи
можно, как и в методе локальных вариаций, последова-
тельно давать приращения Да^ каждой из г независимых
переменных. После этого варьируемый участок сдвигает-
ся на один шаг т, и процесс повторяется. Геометрическая
интерпретация предлагаемой процедуры позволяет назвать
ее методом «бегущей волны». Отметим, что «длина волны» р
постоянна вдоль всей траектории, за исключением началь-
ного и конечного участка, где она меняется в зависимости
от размерностей начального и конечного многообразий.
Легко видеть, что при т = п методы бегущей волны и ло-
кальных вариаций эквивалентны. Действительно, в этом
*) Записанных в координатной форме.
214
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ill
случае, согласно (3.31), минимальное р 0 равно двум,
а г — п.
Подчеркнем, что за варьируемые переменные могут
выбираться любые г компонент векторов х и и. Сущест-
венным является только то, чтобы остальные рп перемен-
ных выражались через них из системы (3.29). Далее, до-
статочно хранить в каждой точке только т компонент,
причем таких, по которым можно восстановить остальные
компоненты *).
Когда элементарная операция построена, то описан-
ными выше методами перебора мы ищем минимум адди-
тивной функции вида (3.1) в пространстве п- (N—1)
переменных (если оба конца закреплены). Размерность
этого пространства не зависит от размерности управле-
ния тп. Метод «бегущей волны» реализует поиск минимума
функции в пространстве mN — п переменных, и так как
т < п, размерность пространства в этом случае меньше.
Специальный вид функции позволяет вести поиск мини-
мума также покоординатным спуском, как и в методе
локальных вариаций, но в пространстве размерности
г т.
Недостаток метода «бегущей волны», очевидно, тот же,
что и метода локальных вариаций,— чувствительность к
локальным экстремумам (см. примечание 3 п. 5 этого па-
раграфа). Возможный путь борьбы с этим — увеличение
«длины волны» р.
§ 4. Элементарная операция. Некоторые примеры
Предыдущий параграф был посвящен изложению ал-
горитмов динамического программирования. Мы рассмот-
рели два класса дискретных задач, возникающих при ис-
следовании оптимальных программ с помощью электронных
вычислительных машин. Наиболее простой оказывалась
та форма конечномерной задачи, которую мы получи-
ли из динамической задачи, когда в процессе дискрети-
зации использовали сетку в пространстве состояний.
Однако сама процедура дискретизации требует при этом
построения элементарной операции. Она представляет
*) Например, зная все щ, можно восстановить
§ 4] ЭЛЕМЕНТАРНАЯ ОПЕРАЦИЯ. НЕКОТОРЫЕ ПРИМЕРЫ 215
определенные трудности. В настоящем параграфе мы рас-
смотрим серию примеров, иллюстрирующих возможности
эффективной реализации элементарной операции.
1. Еще раз о постановке задач. В этом параграфе мы
будем рассматривать задачу Лагранжа, т. е. задачу опре-
деления минимума функционала
т
J = § F (x,u,t)dt (4.1)
to
при условии, что х и и связаны уравнением
f = / (х, и, t). (4.2)
Напомним, что элементарной операцией мы назвали
алгоритм, позволяющий по двум заданным состояниям xQ,
хх и интервалу времени т определить управление и (£),
переводящее систему (4.2) из состояния х$ в хх за время т.
В определении элементарной операции отсутствует необ-
ходимая однозначность, поскольку управлений и (£),
реализующих такой переход, может быть бесконечно мно-
го. Используя вид функционала (4.1), можно несколько
уточнить наше определение. Обозначим через /(£0, т)
функционал
М-т
J (£0, т) = J F (х, и, t) dt. (4.3)
to
Пусть теперь х (t) и и (t) — оптимальная траектория и
управление. Тогда выражение (4.3) — это вклад участка
траектории, заключенного между точками xQ и хх, в об-
щий функционал (4.1).
Итак, в данном случае имеет смысл говорить об опти-
мальном переходе между состояниями xQ и и понятие
элементарной операции мы будем связывать именно с та-
ким переходом. Формально определенная таким образом
элементарная операция требует решения вариационной за-
дачи той же степени трудности, что и исходная (если в
задаче нет фазовых ограничений). Поэтому обычно говорят
о приближенной реализации элементарной операции. При
этом в качестве характеристик точности ее выполнения
можно принять разность функционалов (4.3) на оптимали
216
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
и на реализуемом участке траектории и точность, с кото-
рой оказываются выполненными условия х (tQ) = х0,
# Go 'О —
Рассмотрим теперь пример, иллюстрирующий один
из возможных подходов к построению элементарной опе-
рации.
2. Задача о движении точки в поле центральной силы.
Движение точки в поле центральной силы мы будем описы-
вать следующим образом:
+ (4.4)
Здесь г — радиус-вектор точки, р, — гравитационная по-
стоянная, и — управляющий вектор. Предположим, что
вектор и — это ускорение от тяги идеально-регулируе-
мого двигателя малой тяги*). Оптимальный переход из
состояния х^ в состояние хх за время т, согласно теории та-
ких движений, соответствует минимуму функционала
J = (и, и) dt. (4.5)
/о
Для простоты будем рассматривать плоскую задачу. Ис-
пользуя декартову систему координат, перепишем урав-
нение (4.4) в скалярном виде
я1 = я3, £2 = х\ t3 = У1 + и1, = У2 + и2. (4.6)
Здесь х1 и х2 — составляющие радиус-вектора, ? и ? -
проекции скорости, У1 и У2 — это проекции ньютоновской
силы
п = __ R1 f2 = — и*2
((х1)’ + ’ ((х»Р + (х2)2)3'* ’
и1 и и2 — управления.
Обозначим через х0 и хх два допустимых состояния —
они лежат в области, где выполнены ограничения, и опти-
мальный переход из состояния х0 в хх может быть совершен
по траектории, целиком лежащей в допустимой области.
♦) См. подробнее Г. Л. Гродзовский, Ю. Н. Иванов,
В. В. Т о к а р е в, Механика космического полета с малой тягой,
«Наука>, 1966.
| 4] эЛемейфарйая операций, некоторые примеры 21?
Следовательно, для решения задачи оптимального перехо-
да мы можем использовать принцип максимума.
Далее, точки х0 и близки. В силу этого функции f1
и У2 мьНэудем считать постоянными величинами, равными,
например, средним значениям компонент напряженности
гравитационного поля. Такое упрощение эквивалентно
тому, что при интегрировании уравнений мы применяем
схему первое порядка точности (схему Эйлера).
С учетом всего сказанного составим функцию Гамиль-
тона и уравнения для импульсов
н = фгС3 + 4- -фз (Р+ U1) + ф4 (/2+ и8) — (и1)2 — (и2)2,
и дН Л л // 7\
дН \ дН
Ф«------5^------Ф1» Ф<---------------Фа-
Система уравнений (4.7) легко интегрируется, и мы полу-
чаем
Ф1 = Фа = са» Фз = — Ы, Ф< = — c»t, (4.8)
где q (i = 1, 2, 3, 4) — некоторые постоянные, подлежа-
щие определению.
Управления^ и1 и и8 находятся из условия максимума
функции Н. Так как на величины г? никаких ограничений
не накладывается, то для того, чтобы значения и1 и и8
доставляли максимум функции Гамильтона, необходимо,
чтобы они были корнями системы уравнений
9U Л Л У • Q,
^г==0’ -Э^ = °- <4-9)
Система (4.9) в данном случае очень проста, и мы полу-
чаем
(4.10)
Подставим теперь найденные значения и1 и и2 в систему
уравнений (4.6). Принимая во внимание, что У1 и У2 — это
218
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
постоянные, мы легко ее проинтегрируем:
Дж» = ж? — = /Ч + -t- с3х-----qT2,
(4.11)
Аналогичная система будет и для переменных х2 и ж4.
Система (4.11) — это система двух алгебраических уравне-
ний относительно двух произвольных постоянных и с3.
Разрешая эти уравнения, находим
( 11 1
24 < Дж1 — — -у /Ч2 — -у т — /Ч) т
С1 = . -
( 11 1
12 j Дж1 — XqX — -у /Ч2 — -у T (Да?8 — /Ч) г
С* =
Аналогичные выражения мы получаем также и для с2 и с4.
Таким образом, элементарная операция в данной задаче
может быть выражена явными формулами.
Подобный способ построения элементарной операции
был впервые применен для решения задачи о достижении
второй космической скорости аппаратом, снабженным дви-
гателем малой тяги при условии, чтобы траектория аппа-
рата не пересекала поясов радиации*).
3. Случай, когда размерность управляющего вектора
равна размерности фазового вектора. Пример, рассмот-
ренный в предыдущем пункте, показывает, что существуют
задачи, в которых элементарная операция может быть реа-
лизована конечными формулами. Нетрудно проанализиро-
вать точность подобного решения. Мы увидим, что погреш-
ность в вычислении функционала будет величиной более
высокого порядка малости по сравнению с т.
Рассмотрим теперь общую задачу (4.1) — (4.2), пред-
полагая, что размерность векторов х и и совпадает. Для
построения элементарной операции систему (4.2) заменим
*) N. В agae v a, N. Moiseev, New Method for Solu-
tion of Problems of Optimal Transfer Theory, Proc, of the XlV-th
International Astronautical Congress, 1963.
§ 4] ЭЛЕМЕНТАРНАЯ ОПЕРАЦИЯ. НЕКОТОРЫЕ ПРИМЕРЫ 219
такой:
х = Цх, и, t) = f(u), (4.12)
де = (^о “Ь ^т)/2, t = tQ -|- (т/2).
Функционал (4.3) мы заменим таким:
J(x0,t)= J F(x,u,t)dt= J F(u)dt. (4.13)
to to
Функция Гамильтона
н = (♦, 7) - P (и) (4.14)
не содержит фазовых переменных. Поэтому уравнение для
сопряженных переменных имев? вид
Отсюда следует, что вектор ф постоянен. Тогда условие
максимума выражения (4.14) нам даст и = const.
Интегрируя теперь систему (4.12), мы получим
^^-= /(«)• (4.15)
Выражение (4.15) — это некоторая трансцендентная си-
стема п скалярных уравнений относительно п компонент
вектора управления. Реализация элементарной операции
сводится, таким образом, к решению трансцендентной
системы уравнений.
Систему (4.15) можно написать и не прибегая к принци-
пу максимума. Использование необходимых условий эк-
стремума нам понадобилось только для того, чтобы убедить-
ся в том, что в задаче с осредненными уравнениями опти-
мальное управление необходимо должно быть постоянным
вектором.
В проведенных рассуждениях предположение о том,
что размерность векторов х и и совпадает — существенно.
В самом деле, если размерность вектора и меньше размер-
ности вектора я, то уравнение (4.15) лишено смысла.
Однако в технических задачах наиболее типичной яв-
ляется ситуация, когда размерность вектора и меньше раз-
мерности вектора х. Здесь возникают дополнительные слож-
ности, связанные с выбором разностной схемы.
220
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
4. Случай, когда размерность вектора управлений мень-
ше размерности фазового вектора. В задаче предыдущего
пункта управление на каждом шаге длины т было постоян-
ным и для интегрирования уравнения фазовой траектории
могла быть применена разностная схема (4.15). В общем
случае такая простая разностная схема не может быть ис-
пользована. В самом деле, если требовать, чтобы условия
на каждом интервале были точно удовлетворены, то не-
трудно привести пример, когда управление и нельзя счи-
тать постоянным, как бы ни был мал интервал времени.
Пусть, например, компонента f1 не содержит управления:
f1 = р(х, t). Тогда, следуя нашей схеме,
я1 (*о +т) =^(«0) +Гх. (4.16)
Следовательно, значение координаты х1 в момент времени
t0 -j-'с вполне определяется формулой (4.16), и никаким
выбором управления мы не сможем удовлетворить краево-
му условию х1 (t0 + т) = xl. Таким образом, замена ис-
ходной системы системой (4.12) сделала ее неуправляе-
мой. Поэтому любые упрощения, связанные с реализацией
элементарной операции, и в том числе выбор разностной
схемы, должны быть такими, чтобы сохранить свойство
управляемости. Укажем несколько возможностей для пре-
одоления этой трудности. Все рассуждения мы проведем на
простейшем примере, когда динамическая система (4.2)
и функционал (4.1) имеют вид
= У1^1,#2) +ф(и),
= УаИ,*2),
М-Т
/= J F(u)df. (4.18)
ь
5. Линеаризация относительно фазовых переменных.
Так как интервал т невелик, то естественно систему (4.17)
заменить линейной, положив х* = х£ -}-£*, тогда система
(4.17) заменится такой:
= /о + + Ф (м)> (4.19)
= Уо~Ь
где /*, = /<(*;. 4. «./ =
X1
X2
f 4] ЭЛЕМЕНТАРНАЯ ОПЕРАЦИЯ. НЕКОТОРЫЕ ПРИМЕРЫ 221
Величины должны удовлетворять следующим гра-
ничным условиям:
5* («о) = О, В* & + Т) = 4 - 4 («о). (4.20)
Выпишем выражение для функции Н:
В = Ф1 (/о + <*11 + а12^2 + Ф (UY) +
“Ь'Фг (/о + <*21^ + а22^2) - F (**)•
Условие максимума функции Н позволяет найти управле-
ние и (t), как функцию только одного импульса фх: и =
« и (фх). Уравнения для сопряженных переменных в этом
случае имеют вид
Ф1 = апФ1 — (4.21)
Фа = а1гФ1 —
и могут быть проинтегрированы в явном виде:
Ф1 = с1Фн + сгФ12> (4.22)
Фг == С1Ф21 + сгФг2»
где {ф^} — система фундаментальных решений системы
(4.21).
Если теперь подставить и (фх), где фх берется согласно
(4.22), в систему (4.19), и проинтегрировать эту систему
при нулевых начальных условиях, то мы получим для
ь (^о +т) выражения, содержащие две произвольные
постоянные, которыми мы можем распорядиться так, что-
бы удовлетворить последним двум условиям (4.20).
Заметим, что уравнения для импульсов здесь могут
быть проинтегрированы независимо от динамических урав-
нений и, следовательно, решение системы (4.19) всегда
может быть представлено в форме квадратур, содержащих
неизвестные произвольные постоянные. Описанная про-
цедура значительно усложняется, если не удается выпи-
сать решение сопряженной системы в явном виде, а это
будет практически всякий раз, когда размерность фазо-
вого вектора больше четырех*).
6. Линеаризация относительно фазовых координат и
управлений. Трудности применения изложенной схемы
связаны с тем, что функция <р (и), которая входит в
•) Более существенное усложнение возникает в том случае,
когда функция ф в (4.17) зависит от х и и.
222
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
систему (4.19), нелинейна. Если удается линеаризовать
правые части динамической системы также и по управле-
ниям, а функционал аппроксимировать квадратичным, то
задача очень сильно упрощается, и мы можем получить
решение в явном виде.
Итак, считая размерности хи и одинаковыми, положим
х = 2 и = й + v. (4.23)
Здесь Ж = х0У й — некоторое управление.
После замены (4.23) динамическое уравнение
* = и)
примет вид
| = Л| + Bv + /0, (4.24)
где А = /х, В = fu, А = /(£» «)•
Предположим, что функционал имеет вид (4.18). Заме-
ним его квадратичным
fo-h*
J {(a, v)+ (Cv,v)}dt, (4.25)
*0
где
Рассмотрим задачу перехода системы (4.24) из начала
координат I (t0) = 0 в точку за время т при условии ми-
нимума функционала (4.25).
Найдем управление из условия максимума функции
Гамильтона
v — С^В*^— С^а, (4.26)
где С = С + С*.
Используя (4.26), выпишем полную систему уравнений
t = А$ + + /х, (4.27)
ф = — Л’ф,
где матрица D имеет вид: D = ВС~ХВ*, а fa — f0 ~ ВС ‘а.
Выведем формулы для переноса граничных условий, ис-
§ 4] ЭЛЕМЕНТАРНАЯ ОПЕРАЦИЯ. НЕКОТОРЫЕ; ПРИМЕРЫ 223
пользуя свойство малости интервала т. На левом конце —
при t = tQ нам заданы все компоненты вектора £. Получим
формулу для переноса условия
$4t0) = £ = (k (4.28)
Составим систему уравнений, сопряженных к (4.27):
р = —А*р, q = — D* р 4- Aq. (4.29)
Используя систему (4.29), вычислим
+ (4.30)
Подчиним векторы р и q начальным условиям:
р1 (*о) = Ро = 1. Р* (*о) = о, i = 2,..., п, q (t0) = 0. (4.31)
Тогда выражение (4.30) можно переписать так:
l(p, I) + (?, *)b=f.+x = Io1 + J (Р, Л) dt. (4.32)
Вычислим величины р (to + т) и q (t0 + т):
p(to + т) = р (to) — хА*р (to) + О (т2),
q (to + Т) = q (to) — xD*p (to) + xAq (t0) -f- О (т2).
Используя условия (4.31) и отбрасывая величины порядка
О (т2), получим
Р* = 1 — ТЯц,
р\ — — тах1, i = 2,3,..., п,
q\ — — Tdxi, i = 1,2,..., п.
Аналогично,
fo-f-T
J (р, fr) dt ж т/J (t0).
to
Теперь выражение (4.32) мы можем переписать в такой
форме:
(1 — таХ1) — т 2 — т 2 = Io + T/i (to)
i=2 i=l
224
ПРЯМЫЕ МЕТОДЫ
(гл. lit
или
" ” г1 — ?1
2 фт< ——S аи&—/I (^о) н—* _ 0 •
i-i t-i т
Аналогичным образом мы можем перенести каждое ив
граничных условий типа (4.28) *). В результате мы полу-
чим следующую систему алгебраических уравнений:
----4g. —Л^). (4.33)
Система (4.33) имеет смысл всякий раз, когда матрица D
невырожденная ♦♦). Заметим, что для того, чтобы вели-
чина вектора хр, а следовательно, и управления v (4.26),
была не очень велика, разность & — £0 должна быть по-
рядка х.
Примечание. В результате применения техники
переноса граничных условий мы получили при t =
полный набор граничных условий и могли бы решать
задачу Коши для системы (4.27), но в этом нет необходимо-
сти. В рамках принятой точности нам достаточно по зна-
чениям принять хр = хрт + тА* хрт, после чего управле-
ние v определяется по формулам (4.26).
7. Схема дробных шагов. В п. 3 данного параграфа бы-
ло установлено, что при известных условиях управление
можно считать постоянным на некотором интервале. Этот
факт следовал из принципа максимума, примененного к
системе уравнений, упрощенной в результате предполо-
жения о том, что динамический процесс развивается в те-
чение малого интервала времени г. Однако такое заклю-
чение мы могли сделать только относительно системы, в
которой размерности фазового и управляющего векторов
совпадают. Если размерность управления меньше размер-
ности фазового вектора, то управление уже нельзя считать
постоянным на всем шаге длины т. Поэтому естественно
возникает идея использовать схему дробных шагов. Про-
♦) Имеются в виду условия х* (Го)= i = 2, ..., n.
♦♦) В случае, если размерность и меньше и, определитель мат-
рицы D, как видно из ее определения, всегда равен нулю. Соотно-
шение (4.33) прямо следует из (4.27).
§ 4] ЭЛЕМЕНТАРНАЯ ОПЕРАЦИЯ. НЕКОТОРЫЕ ПРИМЕРЫ 225
демонстрируем содержание этой разностной схемы приме-
нительно к задаче (4.17) — (4.18).
Разобьем шаг т на два и в течение каждого из промежут-
ков длины т/2 будем считать управление постоянным, рав-
ным и± и и2 соответственно. Систему (4.17) заменим при
этом следующими двумя системами:
Я1 = У1 (4, 4) + ф (“1),
£2 = Уа(4, 4), t €= ро, t0 4- -J-];
= У1 (4» 4) + ф (и2),
42 = У2 (xi, xl), * (= ро + , *о + *] •
(4-34)
(4.35)
Здесь через обозначены значения переменных в момент
времени £0 +у • Эти значения заранее неизвестны.
Системы уравнений (4.34) и (4.35) интегрируются в яв-
ном виде, и для определения постоянных мх, и2, х* и xf
мы имеем следующую систему уравнений:
= xl + А- {У1 (4, 21) + ф (и2)},
4 = Л + -у-У2 (4, Л),
4 = 4 4- -J- {У1 4) + ф («1)},
(4.36)
4 = 4 + -^-У2(4,4).
Величина 4 не зависит от управления и определяется
независимо от других величин. Таким образом, в рассмат-
риваемом случае задача сводится к решению трех транс-
цендентных уравнений.
Дальнейшие упрощения в построении этой разност-
ной схемы связаны с линеаризацией функций, входя-
щих в (4.36). Положим 4 = 4 + & 4 = 4 + & и
8 Н. Н. Моисеев
226
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
линеаризуем (4,36) относительно этих величин:
1г = й + {/о + «11Й + «12Й + Ф (wa)}>
Вт = Й + {/о 4* а21Й + а2гй},
£ = -|-{/J + T(ui)h
£2 _ Т j2
bl — ”2“ 'Ot
где /о = / (4» 4)t аи = (“~т)1 .• Поскольку Й опреде-
\ dxJ /х'=х'
ляется независимо, то полученная система — это си-
стема трех линейных уравнений относительно ф (пг),
ф (и2) и it
8. Использование шкалы управлений. Для прибли-
женного построения элементарной операции мы старались
сначала по возможности упростить задачу, но затем решить
эту задачу точно. Возможен и совсем иной
подход к этой проблеме. Он использует
идею, которую мы уже применили для
построения вычислительной схемы отыс-
х* кания минимума функции с последов а-
— тельным включением переменных. Пусть
построена элементарная операция, реали-
зующая переход за время т из состояния,
характеризуемого узлом Р8 (0, в состоя-
Рис. 4.1. ние Pj (i + 1). Предположим, что за счет
упрощения (линеаризация, осреднение
внешних сил и т. д.) мы получим за-
дачу, которую мы можем решить точно, и пусть
й (t) — это найденное нами управление. Оно за время
т переводит «упрощенную» систему из состояния
Р8 (0 в состояние Pj (i + 1). Но если мы подставим это
управление в уравнение (4.1) и его проинтегрируем, то
в гиперплоскости мы получим точку которая не
будет в общем случае совпадать с узлом Pj (i + 1) (рис. 4.1),
и тем не менее всю процедуру отбора мы проводим так,
как если бы система (4.1) с найденным управлением
действительно оказалась в момент t = ti + т в состоянии
Pi(i + V-
§ 4]
ЭЛЕМЕНТАРНАЯ ОПЕРАЦИЯ. НЕКОТОРЫЕ ПРИМЕРЫ 227
Совершенно тот же результат мы получим, очевидно,
если сразу будем разыскивать управление, которое пере-
водит систему в некоторую окрестность узла Pj (i + 1).
Техника такой реализации элементарной операции была
уже описана в предыдущем параграфе. Мы строим шкалу
управлений {иг} — дискретное множество постоянных век-
торов из Gu. Далее задаемся шагом 6хг < и вычисляем
вектор xr (tt + т), удовлетворяющий уравнению
&Г ~ f (%rf иг> О
и начальному условию
хг (Q ~ (О
последовательно для t — 1, 2, 3,... То управление ur,
при котором хт (ti + т) удовлетворяет неравенству
Р1- (i + 1) — 8хк < хк < Рк (i +1) + &Л
мы принимаем в качестве искомого.
Если существует несколько управлений из щкалы уп-
равлений, реализующих переход системы из состояния P8(i)
в окрестность узла Pj(i + i), то мы берем то, для кото-
рого приращение функционала минимально. Если среди ит
нет вектора, переводящего систему в окрестность узла
Pj(i + 1), то мы говорим, что узел Pj (i + 1) недостижим
из состояния P8(i). Такой способ построения элементар-
ной операции вполне универсален.
В результате применения одного из алгоритмов дина-
мического программирования мы получим некоторый на-
бор векторов uv u2, и3,..., где ик определено на интервале
[^, tk + *!• Этот набор определяет фазовую траекторию,
которая не удовлетворяет условиям на конце траектории.
Мы ее принимаем в качестве приближенного решения.
В ее окрестности мы строим более мелкую сетку, умень-
шаем одновременно величины §хк и строим новую «более
густую» шкалу управлений.
Рассмотрим теперь пример построения элементарной
операции на конкретной задаче.
9. Задача о выборе оптимальных пгтей плавания. Дви-
жение корабля, пересекающего океан, происходит под
действием силы тяги винтов. Одновременно на корабль
8*
228
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ill
оказывают воздействие ветер, волнение, морские течения
и т. д. Давно известной задачей морской навигации явля-
ется задача о выборе такого пути плавания, который при-
ведет корабль в порт назначения за кратчайшее время или
за заданное время с минимальной затратой горючего. Дви-
жение корабля описывается системой дифференциальных
уравнений, которой можно придать следующий вид:
X1 = V COS ф + Ч1*! (У, ф, X1, X2),
х2 = V sin ф + ^2 (V, ф, х1, х2).
(4.37)
Здесь х1 и х2 — декартовы координаты, V — абсолютная
величина скорости хода корабля на тихой воде, ф — кур-
совой угол, который составляет направление скорости ко-
рабля с осью Ох1, функции Tj определяют изменение ско-
рости корабля вследствие перечисленных факторов.
Функции V (0 и ф (t) — это управляющие функции.
Если мы ставим задачу о наиболее экономном пути, то
функционал мы запишем так:
т
J(V,<p) = $Vdt. (4.38)
О
Если мы стремимся сократить время плавания, то перепи-
шем систему (4.37) в следующем виде:
dx* = 7sin9+Y2
dx1 V cos ф + Ti
Время Т при этом вычисляется квадратурой
т
С dx1
) V cos ф 4- Ti
о
(4.39)
(4.40)
Итак, мы получаем следующие две задачи:
Задача а. Найти функции ф (0 и V (/), минимизи-
рующие функционал (4.38) при условиях (4.37) и фикси-
рованном начале и конце траектории (порт отправления
и порт прибытия, вероятно, следует считать известными).
Задача £. Найти функции ф (х1) и V (х1), достав-
ляющие минимум функционалу (4.40) при ограничениях
(4.39).
§ 5] ПРОБЛЕМЫ УСТОЙЧИВОСТИ 229
Эти вариационные задачи не являются классическими,
поскольку помимо сформулированных ограничений в за-
дачах о плавании корабля всегда существуют фазовые ог-
раничения. Путь корабля не может, например, пересечь
остров. Запретными являются также зоны туманов, силь-
ных штормов, волнение внутри которых превосходит допу-
стимые пределы. Могут быть и другие запретные зоны. На-
пример, в Северной Атлантике существуют в определенные
времена года области плавучих льдов, которые корабль
должен обходить, и т. д.
Эти задачи были одними из первых задач, решенных ме-
тодом «блуждающей трубки» в Вычислительном центре
Академии наук. Покажем, как была реализована в этих
задачах элементарная операция.
Задача 0. Сетка строится в пространстве (я1, х*).
Поверхности S f — это прямые я* = th, где h — это шаг
сетки. Разностный аналог уравнения (4.39) мы запишем
в виде
= Vsin(p + W, Ф) (4 41
7 cos ф + Ti (7, ф) ’ \ /
где (У, ф) = 4% (У, ф, ж1, я2), ж1, х? — это средние
значения координат.
В задаче на быстродействие скорость V естественно счи-
тать постоянной и равной своему максимальному значению.
Таким образом, в рассматриваемой задаче на быстродей-
ствие мы имеем только одну управляющую функцию —
курсовой угол ф(хг). Поскольку левая часть уравнения
(4.41) — известная величина, то это уравнение — неко-
торое трансцендентное уравнение относительно ф. В каче-
стве нулевого приближения использовалась функция ф0:
. Дж3
tg<Po=
§ 5. Проблемы устойчивости
1. Предварительные замечания. При анализе алгорит-
мов, которые были изложены в предыдущем параграфе, мы
сталкиваемся с одним вопросом, носящим принципиаль-
ный характер: в каком соотношении находятся реше-
ния исходной задачи оптимального управления и задачи.
230
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
которую мы получали, используя конечномерные аппрок-
симации, и как это соотношение меняется с изменением ша-
га разностной сетки. Этот вопрос относится к общей про-
блеме устойчивости разностных схем, которая изучает
зависимость решения от характера дробления шагов раз-
ностной схемы. Теория разностных схем занимается изу-
чением конечномерных аппроксимаций уравнений в част-
ных производных. Но любое оптимальное решение опре-
деляется частными решениями уравнения Веллмана,
которое является уравнением в частных производных пер-
вого порядка. Следовательно, вопросы, возникающие при
исследовании разностных аппроксимаций теории опти-
мального управления, имеют по существу то же содержа-
ние, что и классические задачи устойчивости разностных
схем. Однако существенно нелинейный характер задач тео-
рии оптимального управления делает эти проблемы еще
более трудными. Они только теперь начинают разрабаты-
ваться, и результаты, которые здесь имеются, еще во мно-
гом носят предварительный характер.
2. Уравнение Веллмана. В этом параграфе мы будем
рассматривать задачу определения минимума интеграль-
ного функционала
т
/(я, и) = J F (х, и, t)dt
to
(5.1)
при ограничениях
£ = f(x, U, £), (5.2)
и ЕЕ Gu, (5-3)
X Е~ Gx, (5.4)
Для решения данной задачи мы можем воспользовать-
ся методом глобального перебора (алгоритм «киевский
веник») в пространстве состояний. Покажем, каким обра-
зом, используя рассуждения, лежащие в основе этого ме-
тода, можно получить уравнение Веллмана.
Рассмотрим некоторую фазовую траекторию х (£),
соединяющую (x^t0) с точкой(х*, £*),и управление и (£),
которое ее определяет. Значение функционала вдоль этой
траектории обозначим через J (£0, я0; #*)• Пусть те-
§ 5]
ПРОБЛЕМЫ УСТОЙЧИВОСТИ
231
перь (хх, ^х) и (х2, /2) — две произвольные точки (t2 > ^),
и пусть траектория, начинающаяся в точке (х0, t0), про-
ходит через эти две точки. Тогда, в силу аддитивности
функционала,
t»
J (^g, Xq\ t%9 х2) — J (*0, Xq\ xx) -J- J F (x, u, t) dt9 (5.5)
h
где интеграл берется вдоль отрезка фазовой траектории,
соединяющей точки (х19 tr) и (х2, t2).
Значение функционала J вдоль оптимальной траекто-
рии, соединяющей точки (х0, t0) и (х*, t*)9 будем обозна-
чать через S (£0, х0; **,х*). Тогдадля любой точки (х*, £*)
имеет место неравенство
S (*о, х0; £*, х*) < J (t09 х0; х*).
На этом основании
5 (£0, XqJ^2> х2) 8 (*о> *^i) j* F (^, Q dt9 (5.6)
где х —- это оптимальная траектория, проходящая через
точки (xlt tr) и (х2, t2)9 а й —- соответствующее оптимальное
управление.
Пусть теперь точка (хх, ^) лежит на оптимальной
траектории, соединяющей точки (х0, t0) и (х2, t2); тогда оче-
видно, что неравенство (5.6) переходит в строгое равенство
iS (^0, Xq9 t29 х2) = S (Iq, Xq, Xj) J* F (^, 26, £)
h
Итак, для любых t EE Uo, ^2] и x e Gx имеем
h
S (£q, Xq9 t29 x2) =kmin (^o, Xq9 t9 x) 4” j* P (^» ^) • (5.7)
ueGw
Примечания.
1. Если под точками (х, t) понимать точки (xb ti)
пространства состояний, то равенство (5.7) — это просто
описание метода отыскания оптимальной траектории с
232
ПРЯМЫЕ МЕТОДЫ
ГЛ. III
использованием глобального перебора. Множество GX1 до
точкам которого производится перебор,— это шкала со-
стояний, соответствующая моменту времени t = to +
Точка х2 лежит на гиперповерхности
t = t2 = t0 + (i + 1) т,
где т — шаг но временной переменной.
2. Для того чтобы фазовая траектория х (t) была опти-
мальной траекторией, соединяющей точки (ж0, *о) и (^2,
необходимо и достаточно, чтобы она удовлетворяла урав-
нению (5.7).
Для дальнейшего равенство (5.7) удобно записать в
следующем виде:
min |J F (х9и, £) — [5 (£0, xQ\ t* х2) — S Go, ж0;t9 ж)]|== 0.
(5.8)
Из условия (5.8) следует, что, какова бы ни была точка
(ж, 0, лежащая на оптимальной траектории, соединяющей
точки (ж0, tQ) и (ж2, t2), необходимо, чтобы в этой точке
ueGu 11
— Go, #0, ^2? ^2) & Go, ^0; ^)]| = 0. (5.9)
Введем теперь дополнительное предположение: будем счи-
тать, что функция S дифференцируема по всем аргументам.
Тогда, положив ж2 = х + Аж, t2 = t + Lt9 получим
*9 Gq, Xqj t2t x2) = S Go, Xq9 t, x) -|-
+#дг+4г/^’и’<)д*+0(д^- (5Л°)
Делая в (5.9) замену (5.10), деля на Lt и переходя к преде-
лу при Lt —> 0, получим окончательно
= min If (ж, и, t) —и, М. (5.11)
u^gu I ах 1
Уравнение (5.11) носит название уравнения Веллмана.
§ 5] ПРОБЛЕМЫ УСТОЙЧИВОСТИ 233
Итак, показано, что оптимальное значение функцио-
нала — функция Веллмана S удовлетворяет некоторому
уравнению в частных производных. Следовательно, при
построении методов, использующих конечноразностные
аппроксимации, мы неизбежно сталкиваемся со всеми
вопросами, которые уже стали традиционными в теории
разностных схем, развитой для задач математической фи-
зики.
Примечание. Уравнение (5.11) мы вывели в пред-
положении о дифференцируемости функции S. Нетрудно
привести примеры, показывающие, что это предположение
выполняется далеко не всегда. Более того, во многих за-
дачах функция Веллмана вообще не является непрерыв-
ной. Тем не менее содержание проблем остается тем же.
Они только усложняются в силу того обстоятельства,
что вместо классического решения, удовлетворяющего
уравнению (5.11), мы должны рассматривать обобщенное
решение, удовлетворяющее уравнению (5.11)*).
3. Схема анализа. Для того чтобы наиболее наглядно
показать содержание трудностей, которые возникают при
реализации вычислительных процедур, остановимся на
простейшей двухточечной задаче (задача с фиксирован-
ными концами) и предположим, что ее решение единствен-
но, а элементарная операция реализуется без ошибок.
Оптимальную траекторию обозначим через %(t).
Введем далее в п + 1-мерном пространстве (х, t) сетки
Qm. Сетка Qm характеризуется шагом тт по временной пе-
ременной и шагами hlm по пространственным переменным.
Последовательность сеток {(?т} обладает тем свойством,
что Tm->0 и fem0 при оо. Обозначим через цт
наибольшее из чисел Каждой сетке Qm мы можем
поставить в соответствие конечное множество траекторий
{х (£, иг)}, построенных с помощью элементарной опера-
ции. Эти траектории представляют из себя ломаные, ко-
торые проходят через узлы сетки, и каждый из отрезков
*) Заметим еще одно обстоятельство. В математической физике
имеют дело с задачами, размерность которых очень редко бывает
больше трех. В теории оптимального управления мы, как правило,
имеем дело с задачами более высокой размерности, доходящей иногда
до нескольких десятков. Но это уже специальный вопрос, на ана-
лизе которого мы здесь останавливаться не будем.
234
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
этих ломаных представляет из себя оптимальную траек-
торию, которая соединяет узлы, лежащие на соседних ги-
перплоскостях (t = t0 + ix).
На этой сетке, с помощью алгоритма глобального пе-
ребора, мы можем определить ломаную, соединяющую
начальную и конечную точки и имеющую минимальную
«длину». Здесь под длиной понимается величина
J (х (t, т); и (t, m)) = S J* F (*» «» 5)
i=Q fo~H*
Где Nm « (T — to)/xm>
Эту оптимальную ломаную будем обозначать через
z(f, т). Соответствующее управление будем обозначать че-
рез v (t, т).
Фиксируем теперь сетку (^(рис. 5.1). Траекторию Ж (О
мы можем аппроксимировать некоторой ломаной из се-
мейства {х (t, т)}. Эту ломаную мы обозначим через
y{t, т) и через и (t, m)-yправление, соответствующее этой
ломаной, тогда будем иметь следующую оценку:
max | Ж* (Z) — у1 (t, т) | = О (цт)
5]
ПРО БЛЕМЫ УСТОЙЧИВОСТИ
235
для любого t е к0» УК Таким образом, последователь-
ность {у к, иг)} равномерно сходится при тп-> оо к оп-
тимальной траектории. Обозначим через yt (t, т) точ-
ки гиперплоскости t = tQ + гс, через которые проходят
кривые хи у (t, т), и рассмотрим величину
Дт = | s (t0, xQ; Т, хт) — J (у (t, m); и (t, м)) | С
< 3 Is (fi, *i+i, ^i+1) — s (fi, Ik (t, "»); *i+i, yi+i (t, m)) |.
i"0
(5-12)
Имеет место следующая
Лемма. Если lim Дт = 0, то последовательность
т-»оо
управлений v (t, т) сходится слабо (в смысле функционала J)
к оптимальному управлению.
Фиксируем некоторое т. Так как у (t, т) принадлежит
семейству {х (t, т)}, то
J (У (t, w); и (t, m)) > J (z (t, m); v (t, m)).
Но, с другой стороны, для любого т
J (z (t, т)\ v (t, т)) > S (t0, x0', T, xT).
Но так как по условию Д^ 0, то отсюда следует, что
lim J (z (i, т); v (t, т)) — S (fOt x#; T, xT).
m-*0Q
Доказанная лемма сводит задачу исследования сходимости
метода глобального перебора к оценке величины Дт.
Примечание. Мы доказали слабую сходимость
управлений v (t, т), отбираемых методом перебора на сет-
ке Qm. Однако сами фазовые траектории при этом сходят-
ся равномерно. Этот факт следует из предположения о
единственности решения.
3. Простейший пример. Приведем два примера, пока-
зывающие, каким образом предел (5.12) зависит от струк-
туры сетки Qm. Рассмотрим сначала простейшую скаляр-
ную задачу. Пусть речь идет об отыскании минимума квад-
ратичного функционала
т
7=Ju2(B)d£ (5.13)
О
236
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
при условии
х = и, (5.14)
где х и и — скалярные функции времени. Никаких огра-
ничений на управление и (t) накладывать не будем. Гра-
ничные условия фиксированы.
Решение этой задачи, а, следовательно, и элементар-
ная операция выписываются в явном виде: j
X'—Х{ 4" (#i+l #i) if t ] > I
i = 0, 1,. . .,AT-1, (5.15)
Используя формулу (5.15), вычислим величину Дт:
1
Ат 3 I $ if г* ^i+l> ^i+1) $ if if У it ^i+lt 2/i+l) | ~
2=0
= S I (^i+1 + ^i+1—— &) (^i+1 *— Уг+1“" Уг)\ • (5.16)
2=0
Положим yx = 4- А^, так как | | Am, то
Am ~~х~ Nгг£Ь'т> (5*17)
где С = max 21 у^ — хг |. Далее, Nm = (Т — t0)/xm, и мы
i
получаем окончательно
Дт<^ф-, (5.18)
хт
где Сг — некоторая постоянная, не зависящая от т.
Используя доказанную лемму и оценку (5.18), мы мо-
жем сформулировать следующий результат: для сходимо-
сти метода глобального перебора к точному решению за-
дачи (5.13)— (5.14) достаточно, чтобы шаг по простран-
ПРОБЛЕМЫ УСТОЙЧИВОСТИ
237
§ 5]
ственной переменной удовлетворял условию hm =
где а и е — произвольные положительные постоянные *).
4. Еще один пример. Рассмотрим задачу отыскания ми-
нимума функционала (5.13) при ограничениях
А1 = х2, х2 = и. (5.19)
Элементарная операция в этой задаче также находится в
явном виде
а?1 = 4 4- 4 (<— Ч) 4- -^2—{3(4+1—4)—424 4-4+1)}+
н—тз * {— 2 (4+1 — 4) + < (4+i+4)},
«2 = 4 + —{6 (4+i—4) — т (44 — 24+i)} +
3(t— t.)3 , , ,
Ч----------{— 2 (#j+1 — Xi) + T (жг+1 + £ £= Ri> ^г+1]>
и (t) = ~ {6 (4+i — 4) — т (44 + 24+i)} +
н—тз 1 {— 2 (4+1 — 4) + т (4+1 + 4)},
$ (Чу Ч+Ъ жг+1) = -^5" {[6 (4+1 — %i) — Т (44 + 24+1)I2 +
4- [6 (4+1 - 4) - т (44 + 24+1)1 [ -12 (4+1 - 4) +
+ 6т (4+14- 4)] 4-12 [- 2 (4+1 - 4) 4- Т (4+14- 4)12}. .
(5.20)
Далее вычислим разность
5 (£$, ; ti+lf ^i+i) — S (£j, ti+lf 2/i+i).
Полагая
У; = -J- ДЖу,
*) Оценка (5.13) является довольно грубой. Более аккуратный
анализ приводит к более слабому требованию на выбор шага h
(см. п. 5).
238
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
получим
S (ti9 fi+1, £i+1) — S (£ъ tM, yi+1) = + • • • J Ax|+1 +
+ (~^Г “I-+ • • *y A^i+1 +
+ (-§-+---)a^ + O(^,^). (5.21)
Здесь точками обозначены члены, которые растут медлен-
нее, чем написанные при т-> 0.
Таким образом, для величины А мы получаем оценку
Д < N (^- + = (^- + (Г - t0),
где а и Ъ — некоторые постоянные.
Итак, мы приходим к следующему результату: для то-
го чтобы в задаче (5.9) метод глобального перебора схо-
дился к точному решению, достаточно, чтобы шаги по про-
странственным переменным удовлетворяли бы условиям
/& = ЛГ’,
(5.22)
где а1, а2, и 82 — произвольные положительные числа»
5. Комментарии. Приведенные примеры показывают
способ построения достаточных условий сходимости ко-
нечноразностных методов. Второй пример показывает, в
частности, что структура сетки существенно зависит от
природы задачи. Шаг по переменной х1 должен быть в этой
задаче малой более высокого порядка, нежели по перемен-
ной х2.
Условия (5.18) и (5.22) являются только достаточными.
Они не являются необходимыми. Более того, они легко мо-
гут быть уточнены. Рассмотрим, например, снова задачу
(5.13) — (5.14). Мы знаем, что | й | = | хт — х0 | IT = у.
Таким образом,
I ^i+i — | = (5.23)
Перепишем теперь снова (5.16) в следующем виде:
Ат I ^г+1 — | 4~ ^т)
1=0
§ 5] ПРОБЛЕМЫ УСТОЙЧИВОСТИ 239
или, используя оценку (5.23),
+ (5.24)
где и С2 — некоторые постоянные. Отсюда сразу сле-
дует, что для устойчивости достаточно, чтобы шаг h удов-
летворял условию
= остт ,
где а и в — произвольные положительные числа.
Точно так же можно уточнить оценку и во второй из
рассмотренных задач. Уточняя оценку, мы воспользова-
лись дополнительной информацией о свойствах траекто-
рии, поскольку в рассматриваемых задачах в нашем рас-
поряжении было точное решение.
Если априори нам известно, например, что функция
Веллмана S (tQ, Т, хт) удовлетворяет условиям Липши-
ца или Гельдера по фазовым переменным, то нахождение
условий устойчивости достаточно элементарно. Однако
извлечь подобную информацию, опираясь только на свой-
ства правых частей уравнения (5.2) и свойства функциона-
ла, обычно бывает очень трудно. Задача, однако, суще-
ственно упрощается, если мы заметим, что для исследова-
ния устойчивости нам достаточно знать лишь локальные
свойства этих функций при малых т. Это позволяет систе-
му (5.2) заменить такой:
4 = / (iif u, t)r t Un
tt « dx dx
Нам остается наити матрицы-^—, -------- и векторы
dS dS ~
производных -ч— и -х----. Однако здесь мы сталкиваемся
<г Oxi+1
с новой трудностью. Если никаких ограничений на упра-
вление не наложено, то определение управления сводится
к анализу корней некоторых функций. Оценки производ-
ных в этом случае получить не очень трудно, используя
теоремы о неявных функциях. Если же на величину упра-
вления наложены ограничения типа неравенств, то задача
качественно усложняется. Один из возможных путей пре-
одоления этой трудности состоит в использовании мето-
дов штрафных функций. Однако такой подход далеко не
240
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
универсален, поскольку оценки оказываются зависимыми от
коэффициентов штрафа %, и в условиях устойчивости надо
еще совершить предельный переход при оо. Такой
путь построения условий устойчивости удалось реализо-
вать только в некоторых примерах.
Другой путь построения условий устойчивости пред-
ложен В. И. Коробовым*). Он состоит в анализе множеств
достижимости. На этом пути ему удалось получить теорию,
позволяющую проводить анализ устойчивости разност-
ных схем для случая, когда уравнения (5.2) — линейны.
Возможно, что сочетание обоих этих подходов позво-
лит разработать удовлетворительную схему анализа.
Вопросы, которые обсуждались в этом параграфе,
представляются интересными не только в принципиальном
математическом отношении, поскольку они открывают
перспективу построения общей теории разностных ап-
проксимаций широкого круга вариационных задач. Они
важны также и для конкретных расчетов прикладного ха-
рактера. Дело состоит в том, что разностные методы расчета
оптимальных программ являются практически универ-
сальными методами. С их помощью удается проводить рас-
четы и тогда, когда мы сталкиваемся со сложной систе-
мой ограничений, и тогда, когда интервал времени Т — /0
настолько велик, что любая редукция к задаче Коши
приводит к неустойчивому счету. Наконец, описанные ме-
тоды по существу дают возможность решения ряда задач
синтеза. Тем не менее теоретический анализ устойчивости
разностных схем в теории оптимального управления еще
очень несовершенен. Однако уже и то немногое, что мы
имеем, позволяет дать определенные рекомендации рецеп-
турного характера. Так, например, шаги по простран-
ственноподобным переменным должны быть малыми бо-
лее высокого порядка, нежели шаг по временноподобной
переменной. Далее, шаги по тем пространственноподоб-
ным переменным, производные которых явно не зависят
от управлений, должны быть малыми более высокого по-
рядка, нежели шаги по тем пространственноподобным пе-
ременным, производные которых зависят от управлений,
и т. д.
*) См. В. И. Коробов, О множествах достижимости и об
управляемости линейной системы, ЖВМ и МФ 10, № 4, 1970.
§ 6]
СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ
241
§ 6. Некоторые задачи для систем
с дискретным временем
1. Введение. В § 1 этой главы мы подробно обсудили
возможность сведения некоторых классов задач плани-
рования к задачам оптимального управления в конечно-
разностной постановке. Методы, развитые в этой теории,
оказываются иногда весьма удобным средством их реше-
ния. Это относится прежде всего к тем ситуациям, ког-
да требуемая точность невелика. В этом случае иног-
да даже задачу линейного программирования большой
размерности оказывается проще решить, рассматривая
ее как динамическую задачу оптимального управления.
Размерность широкого класса задач оптимального
планирования столь велика, что говорить о возможности
точного решения оказывается практически бессмысленным.
Единственный путь, позволяющий надеяться на полу-
чение практически интересных результатов, состоит в
сочетании эвристических приемов, дающих некоторое
«диспетчерское» решение с вычислительными методами,
которые «улучшают» это диспетчерское решение. Методы
оптимального управления, особенно те, которые развиты
в этой главе, оказываются весьма удобным средством
уточнения «диспетчерских» решений.
В настоящем параграфе мы остановимся на нескольких
примерах подобных задач.
2. Задача с линейными ограничениями. Рассмотрим
задачу отыскания минимума функции
N
J (и1У . . ., uN) = 2 Fi (ut) (6.1)
i=i
при следующих ограничениях^
Uj>0, (6.2)
n
2ci>ui>c*, ci7>0, i = l, ...,2V, (6.3)
N
^bi^b\ bi}>0, j = l,...,n. (6.4)
i—l
Здесь щ — векторы размерности n.
242
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
Задачу (6.1) — (6.4) иногда называют также распре-
делительной задачей. В § 1 этой главы мы дали ее ин-
терпретацию.* Индексом / мы обозначили номер склада,
индексом i — номер потребителя; N — означает число
потребителей, п — количество складов.
Функция (6.1) — это затраты на распределение ре-
сурса со складов к потребителям.
В линейном программировании рассматривается тот
случай этой задачи, когда функция J — линейная
функция компонент векторов щ:
п
Pl = 3 aUut- (6-5)
У=1
Условие (6.3) означает, что запросы потребителя номера i
должны быть удовлетворены. Условие (6.4) означает,
что емкость склада ограничена.
Важной модификацией этой задачи является задача
с резервными складами неограниченной емкости.
В этом случае условие (6.4) мы перепишем так:
7 = 1, 2, . . т<п. (6.6)
г=1
Представляет известный интерес рассмотреть также и
случай, когда т п.
Такие ограничения могут возникать довольно естест-
венно. Например, если транспортные возможности склада
номера у ограничены, то, мы получим дополнительное
ограничение типа (6.6) при той же размерности вектора и.
Следуя § 1, введем новые переменные удовлетво-
ряющие уравнениям
Дх’ (ts) = х} (/8+1) — я? (/,) = bsjU] (ts), s = l,2,..., N, (6.7)
и условиям х? (tr) = 0, х* (7#+1) V, где u’ (7S) =
Рассмотрим теперь задачу определения минимума функции
N
J (и (ij), и (f2),...) = 2 л (u (ti)). (6.8)
i=®l
§ 6J СИСТЕМЫ^СЩИСКРЕТНЫМ ВРЕМЕНЕМ 243
Сформулированная задача является аддитивной, и ее
решение может быть реализовано стандартной процеду-
рой, изложенной в § 2, если построена элементарная
операция.
3. Элементарная операция. Рассмотрим сначала про-
стейший случай задачи (6.1) — (6.3), (6.6) при т = п — 1
(один резервный склад). Элементарная операция состоит
в отыскании управления, которое должно переводить
систему из состояния х (ts) в состояние х Поэто-
му величина Дж = (Дж1,. . ., Дж71-1) при построении эле-
ментарной операции известна, и (6.7) — это уравнения
для определения неизвестных «управлений» и9 (t8):
&xJ(t )
= / = 1,2,..., n — 1. (6.9)
sj
Рассмотрим теперь ограничение (6.3). Если бы оно было
записано в форме равенства, то уравнение ип (ts) следо-
вало бы находить по формуле
1 Г Vi1
un(tt)=/- с3- • (6.10)
sn L si J
Поскольку допустимо нестрогое неравенство, то надо
рассмотреть величину
AJ = F8(ui,...,u?). (6.11)
Если в это выражение подставить значения и? (ts), j =
= 1, 2,. . п — 1, то функция Д/ станет функцией
только одного неизвестного:
д/=/?;(и?),
и мы выбираем и” из условия
minFe(u"),
u?>0, (6.12)
где й" определяется формулой (6.10).
244
ПРЯМЫЕ МЕТОДЫ
[гл. 1п
В прикладных задачах функция Fs, как правило,—
возрастающая функция своих переменных. Поэтому ми-
нимум Д/ достигается при и™ — и™.
Точка х считается недостижимой из точки
х (t&), если хотя бы одна из величин u?(s) оказалась от-
рицательной.
Рассмотрим теперь ту ситуацию, которая возникает,
когда т < п — 1 (число резервных складов больше
одного). Пусть, например, т = п — 2. Тогда формулы
(6.9) позволяют определить и? ($), если ] = 1, 2,...
..п — 2. Для того чтобы свести эту задачу к рассмотренной,
нам достаточно ввести новую переменную, удовлетворяю-
щую разностному уравнению
Д^"1 (Q = и71-1 (/8). (6.13)
Таким образом, мы увеличили размерность фазового
вектора на единицу. Поскольку новая переменная отно-
сится к резервному складу неограниченной емкости, ни-
каких условий на значение xn~r мы не накладываем *).
Элементарная операция может быть построена и без
увеличения размерности фазового вектора. В самом деле,
пусть и1 (ts), и2 (ts),..., ип~2 (ts) определены при по-
мощи формул (6.9). Тогда для оставшихся двух составляю-
щих вектора управления и (ts) мы получаем одно соотно-
шение
п~2 с Ax3(t)
(s) + csnun (s) < Cs — 2 -^4-1 • (6-14)
J=1 W
Рассмотрим теперь выражение (6.11). После замены
u1,..., un“2 по формулам (6.9) мы найдем, что
Д/= ^7 (и”,^1), (6.15)
и, следовательно, для определения и? и и^1 мы получаем
следующую задачу нелинейного программирования: опре-
делить минимум функции (6.15) при условиях (6.2) и
(6.14).
♦) Это значит, что при $ == N необходимо будет еще взять ми-
нимум функции (6.8) по всем (tN).
§ 3J СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ 245
Мы рассмотрели случай, когда т = п — 2. Совершен-
но аналогично рассматривается и общий случай к складов
с неограниченной емкостью. Заметим, что случай т = О
соответствует той ситуации, когда емкость всех складов
неограниченна.
4. Элементарная операция в случае т = п. Этот
случай более сложный. Он подвергался специальному
рассмотрению в § 4. Один из методов, который был там
указан — это метод дробных шагов. В рассматриваемой
задаче шаг по «времени» фиксирован. Тем не менее для
построения элементарной операции мы можем рассмотреть
некоторый аналог изложенной там процедуры.
Будем рассматривать сразу не два, а три значения
дискретного времени G, G+i и ts^ Значения если
j п — 2, мы будем задавать на трех гиперплоскостях
t == ts> t = ts+i и t = ts+2, а значения xn и xn^ только
При t t& И t === t s+2«
Введем обозначение &х* = xte(/8+2) — x*(ts), к =
= n — 1, n. Тогда мы будем иметь следующие два со-
отношения:
Azn-1 (М + (Q = Дх^,
~ (6.16)
A*n(Ui) + A*n(M = Аяп.
Правые части равенств (6.16) заданы. Так как управ-
ления и? (t8) определяются однозначно величинами
Дя; (ts) (см. (6.7)), то выражения (6.16) — это некоторые
уравнения относительно величин и*:
(ts) + (*8+i) = A^1, /c A ~
(6.17)
tys) (^s+i) = A^n-
Предположим, что в условиях (6.3) стоит знак строго
равенства. Тогда (6.3), выписанное для i = $ и i = s +1,
дает еще два условия для определения и*-1 и ип:
TL-12 с Дх? U )
(t3) + cmun (ts) = с8 — 2 —- >
>•1 el
(6.18)
(^«+1) 4~ ^s+1>nUn (£s+l) cS+1 — 2 —------ •
j=l •+!• >
246
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
Система уравнений (6.17) — (6.18) — это система четырех
линейных неоднородных уравнений относительно четы-
рех неизвестных: и*1-1 (ts), и”-1 (£s+1), ип (ts) и ип (ts+i)-
Для разрешимости этой системы достаточно, чтобы оп-
ределитель
^8,П-1 Ьз+1,П-1 О О
д __ О О bsn &8+1,П
^*8,П-1 О ^8П О
О С8+1, П-1 0 ^8+1, П
был отличен от нуля.
Итак, когда выполнено условие
Д 0, (6.19)
элементарная операция состоит в определении управле-
ний, переводящих систему из заданного состояния на
гиперплоскости t = ts в заданное состояние на гипер-
плоскости t = ts+2- При этом на промежуточной гипер-
плоскости t = 18+1 фиксируются только (п — 2) компо-
ненты вектора состояния.
Изложенная методика может быть распространена
и на общий случай. Кроме того, здесь также применима
схема метода «бегущей волны», изложенная в § 3.
5. Транспортная задача. Транспортной задачей назы-
вается задача определения величин и* доставляю-
щих минимум линейной форме
N п
j = 2 2 (6.20)
i=l j=l
при ограничениях
(6.21)
п
3^^) = ?, i = (6.22)
>=1
N
= / = 1,2,...,п. (6.23)
i=l
Задача (6.20) — (6.23) — это частный случай задачи
(6.1) — (6.4). Однако она имеет некоторые особенности,
которые заставляют ее рассмотреть специально.
§ 6] СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ 247
Уравнения (6.7) для фазовых переменных будут в
этой задаче выглядеть так:
Д? (t9) = uj (t9), 7 = 1, 2,..., n. (6.24)
В этой задаче т = п, и, следовательно, для реали-
зации элементарной операции мы должны использовать
схему двойного шага, изложенную в предыдущем пункте.
Вычислим
110 0
0 10 1
Таким образом, транспортная задача является вырож-
денной, и методика, изложенная в предыдущем параграфе,
не может быть использована для построения элементар-
ной операции, для этого необходима специальная проце-
дура.
Система уравнений (6.24) допускает первый интеграл.
Сложим уравнения (6.24) и воспользуемся условием (6.22)
S Д^(«8) = 3 u*(ts) = c'. (6.25)
}=1
Введем функцию «времени» Ф (^):
к
ф(м=3 с‘-
8—1
Эта величина известная. Используя то обстоятельство, что
^(^1) 0, получим из (6.25):
= (6.26)
7=1
Равенство (6.26) — это и есть первый интеграл системы
(6.24). Он позволяет понизить порядок системы (6.24), ис-
ключив из рассмотрения одну из переменных, например, хп:
п—1
хп = ф- 2
7—1
248
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
Итак, мы пришли к задаче, где размерность фазового век-
тора и размерность управления совпадают, следователь-
но, после исключения хп мы можем воспользоваться схе-
мой построения элементарной операции, изложенной
в п. 4.
6. Некоторые комментарии. Мы рассмотрели несколь-
ко задач, в частности, задач линейного программирования,
для которых может быть построена элементарная опера-
ция и применены методы последовательного анализа ва-
риантов, например, метод «блуждающей трубки» или
метод локальных вариаций. Некоторые из этих задач
могут быть решены стандартными методами линейного
программирования. Тем не менее изложенные методы
в ряде случаев оказываются вполне конкурентноспособ-
ными методам линейного программирования. Возьмем,
например, класс задач, где существуют хорошие диспет-
черские решения и где речь идет не о получении точного
решения, а об уточнении решения, полученного эвристи-
ческими методами. В этом случае метод локальных вариа-
ций, например, оказывается не только более простым для
программирования, но и более экономичным с точки зре-
ния затрат машинного времени, причем преимущество
этого метода будет тем ощутимее, чем больше число N
(точнее, чем больше отношение N/n) *).
Таким образом, использование схем динамического
программирования для решения задач линейного програм-
мирования оказывается оправданным, если матрицы задач
линейного программирования оказываются сильно вытя-
нутыми (по строкам или по столбцам).
Примечания.
1. Подчеркнем еще раз, что описанные методы решения
задач линейного программирования ни в какой мере не
являются альтернативой общим методам линейного про-
граммирования. Они могут быть хорошим дополнением
последних, в особенности в задачах очень большой раз-
мерности. Стандартные методы линейного программиро-
вания позволяют легко сделать первые шаги, выводящие
*) Метод «блуждающей трубки» дает для двухиндексных задач
линейного программирования процесс, сходящийся к оптимальному
решению. Поэтому в принципе мы можем в качестве нулевого при-
ближения использовать произвольное допустимое решение.
СИСТЕМЫ С ДИСКРЕТНЫМ^ВРЕМЕНЕМ
249
§ 6]
в «окрестность» минимума. Однако последующее продви-
жение с использованием симплекс-метода часто бывает
затруднено появлением различных случаев вырождения,
резко замедляющих счет.
2. Мы сравнивали метод последовательного анализа
вариантов и методы линейного программирования» Но
методы линейного программирования — это специфиче-
ский метод решения линейных задач. В то же время ме-
тоды последовательного анализа вариантов могут быть
использованы для решения нелинейных задач.
7. О переносе граничных условии. В задачах с дис-
кретным временем может быть использована не только тех-
ника динамического программирования, но и другие ме-
тоды решения задач теории оптимального управления.
В частности, с успехом могут применяться различные
итеративные схемы, использующие идеи прогонки. Рас-
смотрим произвольную линейную систему
*П+1 ХП Н- А-ПХП Н- /п» (6.27)
где Ап — произвольные матрицы, а /п — произвольные
векторы. Предположим далее, что вектор х0 стеснен ус-
ловием
(*o, *о) а0, (6.28)
где 10 — заданный вектор, а а0 — заданный скаляр.
Мы будем говорить, что условие (6.28) перенесено
в любую точку t = tn, если мы сможем так определить
векторы 1п и скаляры ап независимо от х, чтобы любое
решение системы (6.27), удовлетворяющее условию (6.28),
удовлетворяло бы условию
(xni ^п) (6.29)
Будем искать вектор 1п как решение уравнения
Zn+1 = 1п + Вп1п, (6.30)
где Zo— заданный вектор.
Вычислим
Ai+1) (^п» W + (/п» Ai) *4“ (/п> Н- ^П> (6.31)
где величина dn определяется выражением
&п ' Un, Апхп) -|~ (#п, вп1п) -|- (Анхп, Вп1п).
250
ПРЯМЫЕ МЕТОДЫ
[ГЛ. 1П
Эту величину легко преобразовать к следующему виду:
dn = Anin 4" ^nJ'n 4” АпВп1п) (*^п> -®п^л).
Выберем матрицы Dn, а, следовательно, и Вп так, чтобы
скаляр dn был равен нулю. Тогда мы получим следующее
утверждение:
Если 1п — решение уравнения (6.30), обращающееся
в заданный вектор при п - 0, а ап - это скаляры, ко-
торые определяются как решение уравнения
ап+1 ап 4" (/n, Zn) 4- (7п, Вп1п)
при условии, что а0 — заданное число, то для любого
п имеет место равенство (6.29).
Матрицы Вп можно определять не единственным спо-
собом. Для наших целей, например, достаточно потребо-
вать, чтобы Dn = 0. Это нам дает следующее выражение
для матрицы 2?п:
ВП = -Л;(/ + 4)Л (6.32)
Доказанная теорема позволяет использовать методы ре-
шения краевых задач, изложенные в §§ 2, 3 гл. II, которые
опираются на способ переноса граничных условий (метод
прогонки).
Примечания.
1. При фактической реализации этих процедур для
конечноразностных уравнений типа (6.27) мы можем сно-
ва столкнуться с неустойчивостью решения задач Коппа
для уравнения (6.30). Эту трудность можно преодолеть,
используя неоднозначность определения матрицы Вп.
Метод А. А. Абрамова, изложенный в предыдущей главе,
полностью переносится и на этот случай. Таким образом,
процедура расчета вектора 1п всегда может быть сделана
устойчивой.
2. Предположим, что речь идет об отыскании решения
задачи Коши для системы (6.27), и эта задача оказалась
неустойчивой. Тогда, используя изложенную схему пере-
носа граничных условий, мы можем перенести все условия
на правый конец траектории (эта процедура всегда может
быть сделана устойчивой), после чего решить задачу Коши
для системы (6.27) справа налево.
§ 6]
СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ
251
8. Задача со свободным концом. Подобно тому, как
техника метода прогонки может быть перенесена на задачи
для дискретных систем, техника решения задач со сво-
бодным концом также может быть использована в этой
теории.
Рассмотрим общий случай дискретной системы
= %k 4" th faki (6.33)
и поставим задачу отыскания экстремума функции
N—1
J = S Л «<)• (6.34)
г—О
Начальное состояние будем считать фиксированным,
xQ == а, а правый конец свободным. На управление ника-
ких ограничений мы накладывать не будем.
На основании теоремы, доказанной в § 4 I гл., мы долж-
ны составить уравнение для импульсов (множителей
Лангранжа)
/а/, \* of,
% = ti-Ц + ti+1 — faT (6.35)
и разыскивать решение среди решений краевой задачи
х0 = а, = 0 для системы дискретных уравнений (6.33),
(6.35), где управление исключено при помощи уравнения
dF, \*
я; - (а?,) = °- (6-36)
Если решение этого уравнения единственно, то для ре-
шения данной задачи может быть применена итерацион-
ная схема И. А. Крылова и Ф. Л. Черноусько.
Предположим, что задано некоторое начальное при-
ближение ик = ukQ. Подставляя его в правую часть урав-
нения (6.33), мы находим последовательно все хк. Таким
образом, все коэффициенты уравнения (6.35) оказываются
определенными, и поскольку ф# = 0, то, решая эту систе-
му справа налево, мы можем последовательно определить
все величины ф^.
252
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
Одновременно вычисляем новое управление ик~ик1
из уравнений
Определив новое приближение, повторяем процедуру.
Примечание. Схема И. А. Крылова и Ф. Л.
Черноусько в применении к дискретным задачам имеет
целый ряд особенностей. Например, в непрерывных за-
дачах у нас не было необходимости запоминать фазовую
переменную х (£), поскольку мы всегда могли решить
задачу Коши в направлении отрицательного времени
столь же просто, как и в положительном направлении.
В рассматриваемой задаче дело обстоит сложнее, посколь-
ку в общем случае разрешить уравнение (6.33) относитель-
но хк, если задан, мы не можем, не используя сложных
итерационных процедур.
§ 7. Задачи теории расписаний
1. Неизбежность использования эвристических мето-
дов. В § 1 этой главы мы сформулировали задачу теории
расписаний, используя язык динамических процессов *).
Согласно сказанному задача теории расписаний сводится
к определению управления при котором величина
хь удовлетворяющая соотношению (см. (1.22))
I + I uk, (7.1)
достигает заданного значения при наименьшем индексе
i = N.
Предположим, что для решения этой задачи мы ис-
пользовали метод динамического программирования.
Оценим количество машинных операций, которые для
этого необходимы.
Напомним, что х — это целое число, имеющее столько
разрядов, сколько работ находится в нашем исходном спис-
ке. Если для описания состояния кащдой из работ мы ис-
♦) Задача составления расписания, задача календарного пла-
нирования — часто употребляемые синонимы одной и той же за-
дачи.
§ 7] ЗАДАЧИ ТЕОРИИ РАСПИСАНИЙ 253
пользуем десятичную шкалу, то число возможных состоя-
ний расписания будет М = 101, где I — число работ.
Тогда, согласно оценке трудности схемы динамического
программирования, которую мы получили для многоша-
говых процессов в этой главе, число машинных операций
пропорционально величине 102f7V.
Составление расписания работ, содержащих список
из 1000 работ, это задача довольно обычная и часто встре-
чающаяся на практике. Легко, однако, подсчитать, что
даже имея самые современные машины, нам для получе-
ния точного результата потребуется время, сравнимое
со временем существования нашей галактики.
Обратим внимание на то, что использование даже сверх-
быстродействующей гипотетической техники мало что
изменит в существе вопроса. Время для нахождения точ-
ного решения все равно будет иметь астрономический по-
рядок. Выход из создавшегося положения один — ис-
пользование эвристических методов. Этим очень неопре-
деленным термином мы называем такие математические
приемы решения задач, для которых отсутствуют привыч-
ные для математика обоснования применимости. Правдо-
подобные рассуждения, наша интуиция, опыт и машинный
эксперимент — вот пока те оправдания эвристики, кото-
рыми мы располагаем.
Примечание. Развитие математической мысли
постепенно приводит к такому расширению концепций,
в рамках которых становится понятным место тех или иных
эвристических методов. Тенденции такого процесса
хорошо видны в теории информации и теории распозна-
вания образов.
В этом параграфе мы ограничимся описанием четырех
приемов, носящих эвристический характер, которые по-
зволяют качественно упростить задачи теории расписаний.
Эти приемы следующие:
1. Придание работам весов (приоритетов).
2. Введение функций штрафа.
3. Использование промежуточных целей.
4. Агрегирование.
2. Ранжировка работ. Придание работам относитель-
ного веса качественно упрощает задачу, поскольку де-
лает множество возможных состояний вполне упорядо-
ченным.
254
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
В настоящее время предложено много способов упоря-
дочения работ. Рассмотрим здесь лишь один из возможных
способов, который основан на анализе логической струк-
туры ограничений. Технику взвешивания работ поясним
на примере. Предположим, что условие на очередность
работ (а), которому должно удовлетворять составленное
расписание, задано в виде некоторого графа (рис. 7.1).
В этом графе, состоящем из тридцати работ, 4 работы яв-
ляются выходными (финальными). Это работы, имеющие
номера 1, 2, 3 и 4. Припишем им тем или иным образом не-
которые веса. Если важность этих финальных работ оди-
накова, то будем считать, например, что вес каждой из
этих работ равен 1. Работа № 5 предшествует одной ра-
боте, вес которой равен 1, припишем ей вес 14-1=2.
Работа № 8 предшествует двум работам, каждая из ко-
торой имеет вес 1. В качестве веса работы № 8 примем число
4=24-14-1*)- Вес работы № 7 равен 2, работы № 6 —
также 2. Работа № 12 предшествует трем работам №№ 6,
*) Число работ, которым предшествует работа №'8 плюс веса
этих работ.
§ 71
ЗАДАЧИ ТЕОРИИ РАСПИСАНИЙ
255
7 и 8, имеющим веса 2, 2 и 4. Работе № 12 мы припишем
вес 3 + 2 + 24-4 = 11 и т. д. В результате мы получим
следующую таблицу (в скобках указаны номера работ,
которым предшествует данная работа). В правой колонке
указан вес и из чего он складывается.
1 (0) 1
2(0)1
3(0) 1
4(0) 1
5 (1) 1 + 1 = 2
6 (1) 1 + 1 = 2
7 (2) 1 + 1 = 2
8 (3, 4) 2 + 1 4- 1 = 4
9 (3, 4) 2 + 1 + 1 = 4
10 (2) 1 + 1 = 2
И (9, 10) 2 + 4 + 2 = 8
12 (6, 7, 8) 3 + 2 + 2 + 4 = 11
13 (2) 1 + 1 = 2
14 (5) 1 + 2 = 3
15 (13) 1 + 2 = 3
16 (13) 1 + 2 = 3
17 (9, 10) 2 + 4 + 2 = 8
23 (5) 1 + 2 = 3
18 (11, 12, 23) 3 + 8 + И + 3 = 25
19 (14, 15) 2 + 3 + 3 = 8
20 (19) 1+8 = 9
21 (13) 1 + 2 = 3
22 (20, 21) 2 + 9 + 3 = 14
24 (И, 12, 23) 3 + 8 + 11 + 3 = 25
25 (16, 17, 18) 3 + 3 + 8 + 25 = 39
26 (24, 25) 2 + 25 + 39 = 66
27 (16, 17, 18) 3 + 3 + 8 + 25 = 39
28 (9, 10) 2 + 4 + 2 = 8
29 (28) 1 + 8 = 9
30 (27, 29) 2 + 39 + 9 = 50
Итак, все множество работ разбито на двенадцать групп *):
I. № 26. IV. №№ 18 и 24.
II. № 30. V. № 22.
III. №№ 25 и 27. VI. № 12.
*) В соответствии с порядком убывания весов работ.
256
ПРЯМЫЕ МЕТОДЫ
[ГЛ. III
VII. №№ 20 и 29. X. №№ 14, 15, 16, 23, 21.
VIII. №№ И, 17, 19, 28. XI. №№ 5, 6, 7, 10, 13.
IX. №№ 8, 9. XII. №№ 1, 2, 3, 4.
Для того чтобы множество состояний {х} было вполне
упорядоченным, надо расставить работы в порядке зна-
чимости. Для этого надо еще тем или иным образом усло-
виться о соотношении работ внутри групп. Тогда число х
будет выглядеть, например, так:
Х r2er30r25r27rltr24r22r12r20r29rliri7r19r28“*
Ранжировка работ вводит на множестве {я} топологию,
следовательно, многие из изложенных способов итератив-
ного решения задач (в частности, метод «блуждающей
трубки») оказываются применимыми, и исходная задача
перестает быть безнадежной.
Примечания.
1. В уравнении (7.1) стоит знак поразрядного логиче-
ского сложения | + |. Это обстоятельство не вносит ни-
каких принципиальных осложнений, поскольку знак | + |
всего лишь специальная форма записи нелинейности.
2. Разумеется, результат, который будет получен,
зависит от введенной топологии. Изменив ранжировку
работ, мы в общем случае получим иное расписание работ
с иным временем завершения всех работ.
3. Другой способ описания задачи. Рассмотрим теперь
тот случай, когда временной интервал т = от-
носительно мал. В этом случае можно использовать язык
дифференциальных уравнений.
Изменение состояния выполнения работы номера i
будем описывать уравнением
== U (0, i = 1, 2,..., N. (7.2)
(t) — это интенсивность выполнения работы — доля
работы pt, которая была бы выполнена в единицу времени,
если бы в течение всего отрезка времени интенсивность
была бы постоянна.
Величина определяется объемом ресурса, выделен-
ного на выполнение работы номера i. Ограничимся рас-
смотрением простейшей формы зависимости интенсивности
от ресурса. Предположим, что для того, чтобы обеспечить
интенсивность равную 1, необходимо выделить аг1
ресурса первого вида, ресурса второго вида и т. д.
§ 7]
ЗАДАЧИ ТЕОРИИ РАСПИСАНИЙ
257
Тогда для того, чтобы иметь интенсивность, равную К/,
необходимо выделить Хгаг1 ресурса первого вида,
второго и т. д. Таким образом, общее количество ресурса
7-го вида, выделенное в данный момент t на выполнение
N
расписания, будет 3 Но эта величина ограни-
1=1
чена. Таким образом, реализация плана работ будет стес-
нена условием
N
2 9) (0> / = 2, . . . , 7П, (7.3)
i=l
где qj — количество /-го ресурса, который может быть
ввделен на выполнение работ в данный момент.
Начальные и конечные значения величин pi заданы:
Pt (0) = 0, Pi (Г) = 1. (7.4)
Эволюция системы (7.2) стеснена еще условиями подчи-
ненности. Их можно сформулировать следующим образом:
Pi (t) равны нулю до того момента, пока некоторые вели-
чины Pi8(t) 1. В этих условиях мы можем сформулиро-
вать для системы (7.2) задачу на быстродействие. Такая
переформулировка задачи теории расписаний открывает
определенные перспективы для применения итерацион-
ных методов, разработанных в теории оптимальных управ-
лений.
4. Функции штрафа. Переход от дискретной задачи
теории расписаний к непрерывной задаче теории опти-
мального управления вносит, разумеется, качественные
упрощения. Тем не менее эта задача остается еще очень
сложной. Одна из трудностей связана с выполнением ус-
ловия (а), наложенного на очередность работ. Какой бы
способ решения задачи теории оптимального управления
ни выбран, мы должны для каждого t определить вели-
чины Но помимо неравенств (7.3) мы должны еще про-
верить условие (а): — только тогда отлично от нуля,
когда все работы р<8 (работы, выполнение которых пред-
шествует началу выполнения работы Pi) удовлетворяют
равенству Pi8 (0 = 1.
Проверка этих условий на каждом шаге требует
большой затраты машинного времени. Преодоление этой
9 H. н. Моисеев
258
ПРЯМЫЕ^ МЕТОДЫ
[ГЛ. nt
трудности возможно с помощью метода штрафных функций.
Мы будем использовать штрафную функцию следующего
вида:
| 0, если z О,
I >0, если z^>0.
Функцию ф (z) удобно строить дифференцируемой. Для
этого достаточно, например, принять
0, если z 0,
* а (7.5)
z2, если z > 0.
Вместо функционала Т — общего времени мы будем
минимизировать функционал
N Т
i—1 0 «
(7-6)
Функция
Т N
^1 = J2 M>(Pi)St(l-P<.)<» (7-7)
0 i=l 8
определяет норму штрафа за невыполнение ограничений
(а) логического характера. Если условие (а) выполнено
в любой момент времени, то подынтегральное йыражение
в (7.7) тождественно равно нулю. Внутренняя сумма в
(7.7) распространена по всем тем работам, выполнение ко-
торых должно предшествовать началу выполнения работы
номера i.
Заметим, что составить это выражение надо лишь один
раз, и эта работа может быть сделана вручную до решения
задачи.
Начав однажды использовать штрафные функции,
естественно дойти на этом пути до логического конца и
свести с помощью этого метода рассматриваемую задачу
к классической задаче без всяких ограничений (кроме
фиксированного начального состояния).
Для этого введем еще ряд штрафных функций:
N
^а = 2 МОМ?)-!). (7.8)
<-х
ЗАДАЧИ ТЕОРИИ РАСПИСАНИЙ
259
S 7)
функция 4% определяет величину штрафа за невыполнение
граничных условий на конце траектории.
Т N
= М(-А)Л. (7.9)
О г=1
Величины pi должны быть неотрицательны. Функция 4%
определяет штраф за невыполнение этого условия.
т N
= (7.10)
0 i=l
Функция Т4 аналогична 4% — она определяет величину
штрафа за невыполнение условия pt 1.
Tfri N
J 2 Н/Ф (S (О) (7’11)
о ;=1 г=1
Эта функция определяет норму штрафа за невыполнение
ограничений по ресурсу.
Собирая выражения (7.7) — (7.11), мы придем к функ-
ционалу следующего вида:
J - Т + + Т2 + (7.12)
Задача минимизации функционала (7.12) — это класси-
ческая задача с нефиксированным временем и свободным
концом.
Примечания.
1. Описанный способ введения штрафных функций
не единственный. Анализируя конкретную природу за-
дачи, вероятно, всегда можно придумать форму функций
штрафа, более удобную для программирования, нежели
те, которые здесь описаны.
2. При ць Ji/ и ft/-*- оо решение задачи с функциона-
лом (7.12) будет стремиться к решению задачи, сформули-
рованной в предыдущем пункте (соответствующая теорема
для разностного аналога задачи доказана П. А. Непомя-
щим) *). Однако такое обоснование не снимает трудностей
♦) П. А. Н е п о’м я щ и й, Применение теории оптимального
управления с помощью метода штрафных функций к одной задаче
теории расписания, ЖВМ и МФ 10, № 4, 1970.
9*
260
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
фактического проведения счета: получение точных резуль-
татов возможно только при больших (Ху и Но при
этом задача перестает быть устойчивой: приходится умно-
жать большие величины на очень малые. Потому, как уже
неоднократно отмечалось в данной монографии, метод
функций штрафа не дает возможности проводить расчеты
с высокой точностью. Но задача теории расписаний, как
правило, и не требует высокой точности. По этой причине
указанный подход оказывается применимым к широкому
классу подобных задач.
5. Промежуточные цели. В предыдущем пункте мы
сделали еще один шаг, позволяющий внести существен-
ные упрощения в задачи теории расписаний. Но все же
задачи этого типа остаются еще очень сложными и для
организации рациональных вычислительных процедур
необходимы дальнейшие упрощения. В самом деле, вве-
дением штрафных функций мы устранили одну из главных
трудностей — устранили ограничения. Но осталась вто-
рая трудность — размерность. Еще в начале параграфа
мы заметили, что реальные задачи календарного плани-
рования требуют составления расписания для многих
сотен и тысяч работ. Как бы ни были совершенны и стан-
дартизованы вычислительные методы теории оптималь-
ного управления, они практически бессильны, если идет
речь о задачах подобной размерности. Одна из идей,
позволяющих упростить подобную задачу, состоит во
введении промежуточных целей, позволяющих одну за-
дачу большой размерности заменить несколькими значи-
тельно более простыми задачами. Промежуточная
цель позволяет заменить составление расписания работ на
весь плановый период Т последовательным составлением
расписания на отрезки меньшей длительности. При этом
мы уже должны работать не со всем списком работ, а лишь
с некоторой частью этого списка. Остановимся на некото-
рых особенностях технологии метода промежуточных целей.
В п. 2 этого параграфа мы описали способ, позволяю-
щий каждой работе pt поставить в соответствие некоторое
число yh характеризующее относительную значимость
работы Таким образом, величина
N
г—1
§ 7] ЗАДАЧИ ТЕОРИИ РАСПИСАНИЙ " 261
характеризует степень выполнения расписания. Поэтому
в качестве промежуточной цели мы можем использовать
эту величину и поставить следующую оптимизационную
задачу: определить X/ (t) таким образом, чтобы обеспечить
минимум функционала
5
•Г(М=-^о + т)+2^< (7-14)
г=1
при условиях (7.2) и
Pi (to) = Pio, (7.15)
где Pio — заданные числа.
Эта задача проще той, которую мы рассматривали
в предыдущем пункте. В самом деле, во-первых, задача
(7.14) — это задача с фиксированным временем, во-вторых,
в задаче минимизации функционала (7.14) мы должны
найти фазовую траекторию только на небольшом отрезке
времени Uo, t0 + т]. Как ни важны перечисленные обсто-
ятельства, основное упрощение, которое достигается вве-
дением промежуточных целей, состоит еще не в этом.
Рассмотрим начальный период производства работ
(длина его равна Т). На этот период может быть наз-
начена к исполнению лишь небольшая часть работ пер-
воначального списка, удовлетворяющая условию (а).
Поэтому, решая задачу (7.14), нам нет необходимости
рассматривать всю систему уравнений (7.2), а достаточно
рассмотреть только часть этой системы. Таким образом,
размерность задачи (7.14) для отрезка (0, т) будет значи-
тельно меньше размерности исходной задачи. Точно так
же на следующем интервале (т, 2т) мы должны исключить
из рассмотрения все работы, которые уже выполнены
или которые заведомо не будут удовлетворять условию
(а), и т. д.
Возникает вопрос, каким образом назначать список
работ, которые могут быть выполнены в данный отрезок
времени длины т. Для этой цели может быть использована
та же самая процедура ранжировки работ, которая нам
позволила назначить функционал (7.13).
В самом деле, предположим, что мы отобрали все ра-
боты pi такие, что соответствующие > L, где L — за-
данное число. Мы получили некоторый список работ,
262
ПРЯМЫЕ МЕТОДЫ
(ГЛ. III
некоторый подграф, все звенья которого удовлетворяют
условию (а). Это обстоятельство позволяет вновь исполь-
зовать описанный способ ранжировки работ.
Введение штрафных функций позволяет развить при-
ближенные методы расчета. Строгие математические тео-
ремы позволяют понять смысл подобных аппроксимаций
и в некоторых случаях дать оценки. Введение промежуточ-
ных целей является эвристическим приемом, который не
имеет в настоящее время никакого математического обос-
нования. Единственно, что мы знаем, это то, что при
т Т* (где Т* — решение исходной задачи па быстро-
действие) решение задачи (7.14) будет к нему стремиться.
Но эта информация практически бесполезна, поскольку
методы промежуточных целей имеют смысл только при
При т 0 метод промежуточных целей позволяет по-
лучить так называемые локально оптимальные управле-
ния, о которых речь будет идти в следующей главе. Для
некоторых классов локально оптимальных управлений
удается понять их природу и доказать соответствующие
теоремы. Что касается немалых т, то обоснование описан-
ных процедур может опираться только на правдоподоб-
ность наших рассуждений и на машинный эксперимент,
относящийся к некоторым задачам, имеющим характер
тестов.
6. Агрегирование. Метод промежуточных целей, назы-
ваемый иногда методом использования функций прогноза
J U), дает возможность эффективно построить какое-то
решение, которое мы затем можем уточнить тем или иным
способом. Однако для построения начальных приближе-
ний могут быть использованы подходы и совсем другого
типа.
В начале параграфа был изложен способ ранжировки
работ. Он позволяет упорядочить работы по их весам.
Однако если работы ps и pk имеют одинаковый вес, то меж-
ду этими работами нельзя установить соотношения упоря-
доченности
Р»-<Рк или ph^Pi
(знак означает, что одна из работ предшествует другой).
Сделаем теперь операцию агрегирования, объединив
все работы одного веса. Эти агрегированные работы будем
। задачи Теорий расписаний
263
обозначать через р*. Работы {р* } образуют граф, состоя-
щий из последовательных работ (рис. 7.2):
если *</• (7.16)
Работа р* для своего выполнения требует сх*г ресурса пер-
вого вида, ос*2 ресурса второго вида и т. д., причем
где сумма распространена по всем тем индексам для ко-
торых вес работ у8 равен весу работы р* .
Р«* Р»Ч .... Р% Р*
Рис. 7.2.
Построение расписания для графа, изображенного
на рис. 7.2, не представляет никакого труда. Время вы-
полнения работ {/?* } по этому расписанию обозначим че-
рез Т®.
Так как условие (7.16) более жесткое, чем условие (а),
то Т+ дает верхнюю оценку для оптимального директив-
ного срока Т* Т®. Хорошо известны разнообразные
способы получения нужных оценок для оптимального
времени завершения работ Т_. Такой оценкой является,
например, длина критического пути *). Разность Т® — Т_
содержит уже очень полезную информацию.
Дальнейшее улучшение расписания может быть реа-
лизовано различными способами, выбор которых в значи-
тельной степени связан со структурой графа. Например,
может иметь смысл следующая схема:
Первый шаг. Рассмотрим работы Р^* и Pn*-i-
Время, которое занимает их выполнение, обозначим через
Tjv* и Эти работы представляют собой некоторый граф
Г1? состоящий из небольшого количества работ. Для него
расписание может быть найдено одним из точных методов.
*) Критическим путем называется самый длинный путь из мно-
жества начальных вершин в множество конечных вершин.
264
ПРЯМЫЕ МЕТОДЫ
[ГЛ. Ш
В результате мы найдем некоторое время его выполнения
t14 причем Tjv* +
Обозначим через Т\ величину
Т\ = Т® — Tjv» — + ti Т±.
Мы получим новую верхнюю оценку Т*.
Т*<Т1<Т®.
Второй шаг. Рассматриваем работы Рдг*-2 и ^л*-з
и повторяем описанную процедуру. Получаем новую верх-
нюю оценку
и т. д.
7. Заключение. Расчет расписания — это первая, но
отнюдь не единственная задача обсуждаемой теории. Сле-
дующая задача — это задача управления расписанием,
возникающая из-за неизбежности помех. Задача управ-
ления расписанием — это задача создания необходимой
системы обратной связи. Одним из примеров организа-
ции процедуры управления расписанием дает известный
метод анализа критического пути *). Однако этот метод
не только не является удовлетворительным и универсаль-
ным средством управления, но он оказывается в ряде слу-
чаев просто неприменимым. Поэтому конструирование
«операторов управления» остается актуальной проблемой.
Как подойти к ее решению? В рамках классических мето-
дов теории графов не выработано никаких способов
ее решения. Метод критического пути является удачной
и единичной находкой. В то же время в теории оптималь-
ного управления разработаны многочисленные методы синте-
за систем управления. Использование языка этой теории
позволяет и в задачах об управлении расписанием разрабо-
тать методы, позволяющие решить основные проблемы синте-
за: найти оптимальную структуру обратной связи, решить
задачу резервирования, изучить влияние помех и т. д.
К некоторым из перечисленных вопросов мы вернемся
в следующих главах этой книги, специально посвященных
проблемам синтеза.
*) См., например, С. И. 3 у х о в и ц к и й, И. А. Р а д ч и к,
Математические методы сетевого планирования, «Наука», 1965.
ГЛАВА IV
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ
СИСТЕМ УПРАВЛЕНИЯ
В предыдущих главах мы изучали проблему расчета
программных движений — расчета оптимальной про-
граммы. В процессе конструирования оптимальной систе-
мы — это первый и неизбежный этап. Следующий шаг •—
синтез системы управления.
В последние годы появилось много первоклассных ис-
следований в теории синтеза и опубликован ряд моногра-
фий и учебников *). В них, как правило, основное место
уделяется общим концепциям теории синтеза и анализу
примеров конкретных систем. В данной работе внимание
концентрируется на вычислительных аспектах теории.
Общие вопросы обсуждаются лишь постольку, поскольку
мы должны сформулировать возникающие математические
задачи. Технические приложения, занимающие значи-
тельный объем в монографиях по теории синтеза, вообще
не рассматриваются.
Наиболее важные задачи синтеза — это те, в которых
существенно присутствие случайных возмущений, а функ-
ционал, минимум которого мы разыскиваем, является
математическим ожиданием некоторой случайной вели-
чины.
Основная трудность таких задач состоит в том, что
в общем случае в нашем распоряжении нет аппарата, по-
зволяющего вычислить значение функционала при задан-
ном управлении. Разумеется, мы всегда можем применить
метод Монте - Карло, однако легко себе представить тру-
доемкость такого подхода. Известные перспективы откры-
вает применение методов динамического программиро-
вания. Однако, как мы в этом убедимся, и здесь возмож-
*) Т. Т ou, Optimum design of digital control systems, Acade-
mic Press, 1963.
К. У. Мерриэм, Теория оптимизации и расчет систем
управления с обратной связью, «Мир», 1967.
266
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. IV
ности очень ограничены. Единственный путь, который
остается в нашем распоряжении — это построение при-
ближенных методов, причем, как правило, гипотезы, ко-
торые лежат в их основе, носят интуитивный характер и
строгого обоснования не имеют.
Вторая трудность, встречающаяся при реализации
вычислительных процедур — это необходимость принимать
решения в условиях неопределенности, которые возни-
кают в задачах естественным образом. Мы можем быть
недостаточно информированы о ситуации, в условиях ко-
торой протекает управляемый процесс, мы часто стоим
перед необходимостью строить систему управления, ко-
торая должна управлять набором различных программ,
в экономических и военных задачах мы не знаем страте-
гию противника и т. д. Бывают, наконец, ситуации, когда
и цели управления и критерий качества процесса нам
не известны достаточно четко. Все эти обстоятельства
приводят к тому, что и сами задачи часто оказывают-
ся нечетко сформулированными, в том смысле, что в
их формулировке присутствует элемент неопределен-
ности.
Обсуждение этих вопросов, по-видимому, и составляет
главное содержание главы, посвященной синтезу.
Разработка вычислительных методов синтеза пред-
ставляется очень важным и перспективным направлением
вычислительной математики и теории управления. Се-
годня, когда электронно-вычислительные машины стали
обычным элементом контура управления, ни один человек,
конструирующий конкретную систему управления, не
может обойтись без алгоритмов синтеза.
Есть еще одно важное приложение методов, обсуж-
дению которых посвящена данная глава,— это теория
игр.
Игровые постановки начинают все чаще и чаще исполь-
зоваться в разнообразных задачах практики управляемых
систем. Причем игровые задачи, как правило, имеет смысл
рассматривать только в рамках синтеза. Создание эффек-
тивных подходов к численному решению задач синтеза
систем управления будет одновременно очень важным ша-
гом в развитии теории игр и ее использовании для реше-
ния проблем, возникающих в конкретной деятельности
человека.
§ 11 О ПОСТАНОВКЕ ЗАДАН СИНТЕЗА 267
§1.0 постановке задач синтеза
оптимальных систем управления
1. Предварительное обсуждение. Содержание проблем,
возникающих при создании оптимальной системы управ-
ления, продемонстрируем на нескольких примерах тех-
нических и экономических задач.
Рассмотрим сначала одну задачу управления косми-
ческой ракетой. Предположим, что цель управления ра-
кетой — выход на заданную орбиту вокруг Земли. Этот
пример выбран из-за своей наглядности, хотя все, что мы
будем говорить в этом параграфе, относится к значитель-
но более общему классу управляемых систем.
Предположим далее, что задача расчета программного
движения решена. Для достижения цели управления эта
программа обеспечивает минимальный расход горючего
(или, что то же самое, при заданном запасе горючего обес-
печивает вывод на орбиту максимального количества по-
лезного груза). При расчете программного движения при-
нимается ряд гипотез: силы, действующие на ракету, счи-
таются известными и вполне определенными функциями
элементов движения (высоты, скорости и т. д.); начальное
состояние (начальное положение и скорость) принимается
строго фиксированным и т. д. Кроме того, определенные
ограничения вносятся и в саму схему движения: отбрасы-
ваются «малые силы», игнорируются некоторые степени
свободы. Например, при расчете оптимальной траектории
ракеты обычно считают возможным рассматривать ее
как некоторую точку переменной массы. Таким образом,
механическая схема движения, которая принимается при
расчете программы, игнорирует все те степени свободы,
которые связаны с движением ракеты относительно цен-
тра инерции.
В то же время^ реальное движение ракеты^происходит
в условиях, существенно отличающихся от тех, которые
были заложены в расчет программного движения. Если
к этому еще добавить, что и само программное управление
реализуется с ошибкой, то станет совершенно очевидным,
что ракета никогда не будет двигаться вдоль оптимальной
траектории. Если ракету не снабдить специальной систе-
мой коррекции, то реальное движение будет сильно от-
личаться от расчетного, и цель управления не будет
268
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. [V
достигнута. Так возникает проблема построения синтеза та-
кой системы управления, которая при данномуровнепомех,
обеспечивала бы достижение цели управления или вы-
полнение программы с максимальной точностью. Мы
снова пришли к некоторой вариационной задаче. Однако,
как мы убедимся ниже, эта вариационная задача качест-
венно отличается от вариационных задач, которые рас-
сматриваются при исследовании программного движения.
Иногда говорят не о максимальной точности, а о за-
данной точности. Например, ставят задачу о построении
системы, которая гарантирует, что дисперсия элементов
траектории у цели не будет превосходить некоторой за-
данной величины. В этом случае задача оказывается в не-
котором смысле «неопределенной».
В самом деле, предположим, что технические требова-
ния позволяют задать некоторую определенную величину
точности. В этой ситуации мы не будем иметь однозначно-
го решения и сможем (в общем случае) создать несколько
систем управления, реализующих заданную точность.
Возникает, естественно, вопрос: какой из этих систем
следует отдать предпочтение. Для того чтобы на него
ответить, мы должны иметь еще один критерий. В качестве
такого критерия может быть выбран, например, вес обо-
рудования, стоимость или энергетика, потребная для реа-
лизации управления, гарантирующего достижение цели
с заданной точностью. Когда такой критерий будет сфор-
мулирован, задача управления снова станет вариационной
задачей, а величина допустимой дисперсии превратится
в ограничение. Итак, мы видим, что процедура синтеза
приводит нас к некоторой вариационной задаче, в которой
появляется новый функционал (например, дисперсия ко-
нечных элементов траектории), отличный от того функцио-
нала, который использовался при построении програм-
мной траектории. Такая ситуация достаточно типична,
но она не единственно возможная; в прикладных задачах
встречаются и иные постановки задач синтеза. Рассмот-
рим, например, задачу достижения ракетой максимальной
дальности при заданном расходе горючего. Рассматривая
ракету как материальную точку, мы найдем програм-
му — оптимальную траекторию. Вследствие причин, о ко-
торых говорилось выше, ракета не будет двигаться вдоль
расчетной траектории. Какова в этой ситуации должна
§ 1] О ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА 269
быть роль системы управления? Эта система должна, реги-
стрируя положение аппарата, обеспечивать цель — дости-
жение максимальной дальности. В такой задаче миними-
зировать дисперсию смысла не имеет. Предположим, что,
в силу случайных обстоятельств, мы оказались в состоя-
нии достичь большей дальности. Эти возможности нам и
следует максимально использовать, не заботясь о том, что-
бы реальная траектория мало отличалась от расчетной.
Подобные требования к синтезируемой системе управ-
ления также довольно часто встречаются в практических
задачах, и не только в тех, которые нам доставляет теория
летательных аппаратов. Такие постановки задач типичны,
например, для экономических систем. Задача, которая наи-
более часто встречается в экономике, формулируется сле-
дующим образом: как распорядиться заданным количест-
вом ресурса, чтобы получить к концу периода планиро-
вания максимальный выход продукта? При построении
программного решения мы находим оптимальное распре-
деление ресурса, соответствующее определенному началь-
ному состоянию экономической системы. Задача синтеза
системы управления будет состоять в таком перераспре-
делении ресурса, которое гарантирует максимальный вы-
ход продукта, если становится известным, что состояние
экономической системы в некоторый момент времени от-
лично от программного. Это перераспределение ресурса
должно производиться с учетом информации о случайных
факторах, влияющих на поведение экономической си-
стемы.
Итак, в некоторых случаях при построении системы
управления мы можем использовать тот же самый функ-
ционал, который используется при построении програм-
мной траектории. Однако эта задача, как мы увидим
ниже, будет тем не менее существенно иной, нежели за-
дача программного движения, мы ее можем рассматривать
как частный случай общей задачи синтеза, в котором
оба функционала (программного движения и синтеза)
совпадают.
Подведем теперь некоторый итог нашему обсуждению.
Создание системы управления является, как правило,
многоцелевой задачей. В рассмотренном примере мы имели
два функционала, в соответствии с которыми исходную
задачу мы разделили на две. Сначала мы рассчитали
270
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
программу, после чего мы поставили задачу синтеза уже с
другим функционалом. У математика, который сталкивался
с подобной ситуацией, естественно возникает вопрос: ка-
кой математический смысл имеет подобная процедура?
Какой математической модели она отвечает? Эти вопросы
не носят риторического характера: в результате их ана-
лиза могут быть установлены правила, регламентирую-
щие подобное разделение и последовательное решение
задач.
2. Линеаризация. Задачу о построении системы управ-
ления решают обычно при большом числе гипотез. Одна
из наиболее распространенных — гипотеза линеаризации.
Рассмотрим более подробно некоторые особенности
этой гипотезы на том же примере движения ракеты.
Выпишем еще раз систему уравнений, которая рас-
сматривается при исследовании программного движения
ракеты:
т dt* ~ F V ’
dr
~dt ’
dm ...
ТГ = 1>^
(1.1)
Здесь т — масса, г — радиус-вектор центра тяжести ра-
кеты, F — суммарный вектор сил, действующих на ракету»
F = mg + Л, + <?,
где g — вектор гравитационного ускорения, Rx {г,
сила лобового сопротивления, Q — реактивная си-
ла (тяга реактивного двигателя). Управлением в этой
задаче являются вектор и, компоненты которого — направ-
ляющие косинусы вектора тяги, и расход массы p(t).
Компоненты вектора управления определяются в про-
цессе расчета программного движения, и при рассмотре-
нии задач синтеза мы их считаем известными функциями
времени (с точностью до помех).
Полная система уравнений, описывающая движение
ракеты, существенно отличается от системы (1.1). Так,
в первом уравнении сила лобового сопротивления на са-
мом деле зависит от углов атаки и рыскания—а и р.
I d
О ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА
271
Кроме того, имеется еще подъемная сила Rv =
5? » u> а» Р) и т. д. I
Наконец, все силы, которые входят в уравнения дви-
жения, определяются всегда с некоторой случайной ошиб-
кой. Следовательно, вектор F в полной системе уравнений
будет иметь следующий видз
F = mg + Rx + Ry + / (0,
где / (0 — некоторая случайная вектор-функция времени.
Этот случайный процесс должен быть тем или иным спо-
собом задан.
Примечание. Обычно описание случайного про-
цесса / (0 основывается на экспериментальных данных и
сведениях, не являющихся вполне достоверными. Таким
образом^ при исследовании систем управления, мы не
можем игнорировать существование неопределенностей.
Заметим, что эти оба факта — случайность и неопреде-
ленность имеют совершенно различный смысл и требуют
для своего изучения различного аппарата.
Величины аир, входящие в Rx и Ryy в свою очередь,
являются функциями, закон изменения которых описы-
вается сложными дифференциальными уравнениями отно-
сительного движения. Поэтому полная система уравнений
будет иметь следующий вид:
™ = р(О4-б(0,
(1.2)
Ь(«,Р,г,£,...) = <>,
где L — это некоторый дифференциальный оператор, а
6 (t) — случайная флуктуация величины тяги. В послед-
нем из уравнений (1.2) поставлено многоточие. Дело в том,
что изменение углов аир определяется еще целым рядом
величин, которые, в свою очередь, изменяются во времени,
и т. д. Мы не собираемся здесь изучать эти уравнения
более подробно, и поэтому многоточие в уравнениях обо-
значает те дополнительные величины, которые должны
быть учтены, чтобы считать эту систему достаточно полной
длц описания процесса движения ракеты,
272
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. IV
Обозначим через р и |л выбранное нами решение систе-
мы (1.1) и положим
r = p+g, т — р + т). (1.3)
Смысл гипотезы линеаризации состоит в том, что вели-
чины т], а, р, ... и составляющие вектора случайных сил
считаются малыми величинами первого порядка малости
О (е). В соответствии с этим, после подстановки (1.3),
в системе уравнений (1.2) удерживаются только члены
порядка О (в). Мы придем тогда к системе вида
[4 = А(5,т),а,₽,...) + Д(0,
и = 6(£),
(1.4)
а == Ла(£,т],а,?,...) + /а (О,
Р = Л3(5,т],о(,р,...) + /3 (t).
Здесь Л?, Ла, — некоторые линейные операторы. Они
известным образом зависят от времени и применяются
к функциям, которые стоят в скобках. Д, Д, Д — случай-
ные функции времени. Таким образом, система уравнений
(1.4) —это система линейных неоднородных дифферен-
циальных уравнений.
Другими словами, гипотеза линеаризации состоит
в предположении, что замена системы (1.2) системой (1.4)
приводит к допустимым ошибкам по сравнению с требо-
ваниями точности (т. е. решение системы (1.4) «близко»
к решению системы (1.2)).
Для того чтобы гипотеза линеаризации имела смысл,
недостаточно одного предположения о малости возмуща-
ющих сил Д, Д и Д. В самом деле, пусть, например; слу-
чайные возмущения вообще отсутствуют. Тогда все равно
остаются два обстоятельства, которые еще требуют об-
суждения.
а) Мы проводим линеаризацию относительно програм-
мной траектории, но программное движение в общем
случае не является частным решением системы (1.2)*
Следовательно, с математической точки зрения (как это
понимается в теории устойчивости), обосновать гипотезу
линеаризации (в общем случае) нельзя.
§ 1] о ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА 273
б) Система (1.2) имеет более высокий порядок, нежели
система (1.1). Поэтому, как бы мало ни отличались началь-
ные условия, определяющие решения обеих систем, сами
решения могут иметь качественные различия.
Вот почему законность описания процесса линейной
системой (1.4) следует считать гипотезой и необходимо
(хотя бы на интуитивном уровне) выяснить законность
ее применения.
3. Система замкнутого цикла. Рассмотрим снова си-
стему уравнений (1.4). Вводя в рассмотрение векторную
переменную г, мы можем переписать эту систему в следу-
ющем более компактном виде:
i = Az +'F (0, (1.5)
где А =||а|JI — матрица, коэффициенты которой явля-
ются заданными функциями времени и зависят от програм-
много движения, F (t) = (£)} — случайная вектор-
функция времени, математическое ожидание которой
У (0 = 0. Начальные значения компонент вектора z
мы не будем фиксировать, считая их случайными величи-
нами с нулевым*математическим ожиданием.
Систему (1.5) естественно назвать системой открытого
цикла, поскольку в ней отсутствует управление. Она
описывает процесс движения объекта управления, которое
определяется только начальным состоянием и програм-
мным управлением. Предположим теперь, что в нашем
распоряжении имеются дополнительные возможности:
вектор ш, который мы можем использовать для изменения
величины z.
Если речь идет о самолете или ракете, то эта дополни-
тельная сила создается или рулями, или изменением вели-
чины тяги двигателя. Точно так же в динамических моде-
лях экономики роль вектора w будет играть дополнитель-
ный ресурс или перераспределение ресурса.
Учитывая эти дополнительные управления, мы заме-
ним уравнение (1.5) следующим:
z = Az + w + F (/). (1.6)
Векторное уравнение (1.6) описывает некоторый управ-
ляемый процесс. Заметим, что для того, чтобы иметь право
ввести силы w в правую часть уравнения (1.5), мы обязаны
274
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
предположить, что эти управляющие силы также малы,
т. е. ускорения, которые они вызывают, имеют первый
порядок малости.
Итак, в системе (1.6) присутствует вектор и?, которым
мы можем распорядиться. В частности, мы его можем вы-
брать так, чтобы минимизировать ту или другую характе-
ристику движения.
Систему (1.6), в отличие от (1.5), мы будем называть
системой замкнутого цикла.
Примечание. Подчеркнем еще раз, что ресурс
на выполнение программы и на дополнительное управле-
ние может быть общим. В этом случае возможность до-
полнительного управления программным движением су-
щественно зависит от того, какая часть общего^ресурса
использована на выполнение программы. Предположим,
что объект управления — это космический аппарат, ко-
торый должен за минимум времени совершить переход
с одной орбиты на другую. Этот маневр должен соверша-
ться с максимальной тягой. Следовательно, система управ-
ления программой, если это управление осуществляется
с помощью того же двигателя, располагает единственной
возможностью для управления — ориентацией вектора
тяги.
Описанная ситуация порождает новый и очень важный
класс задач, аналогичных проблеме резервирования в эко-
номике: как надо распределить ресурс между системами,
реализующими программу и ее коррекцию. Этот вопрос
не может быть решен в рамках гипотезы разделения.
К нему мы вернемся в последнем параграфе следующей
главы.
4. Формулировка задачи синтеза оптимальной системы
управления. Будем продолжать изучение системы (1.6).
Поскольку ее правая часть содержит некоторую случай-
ную функцию времени, то вектор z также будет случайной
функцией времени. Следовательно, любая детермини-
рованная характеристика Ф (z) фазовой траектории будет
также некоторой случайной величиной. Поэтому в каче-
стве функционалов, характеризующих управление, имеет
смысл рассматривать математическое ожидание этих ве-
личин.
Пусть нас интересует, например, значение функции
ф (z (Г)). Тогда в качестве оптимизируемого функционала
J j] О ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА
275
следует брать математическое ожидание этой функции
J (ш) = ЕФ (z (Г)) = Ф (z (Т)). (1.7)
В дальнейшем мы будем не раз иметь дело с функциона-
лами вида
J(w)=* (71),
или
J (w) = (z, RT)t=Tt (1.7а)
где R — симметричная^по лежите л ьноё.определенная мат-
рица. Функционалы вида (1.7а) часто встречаются в при-
кладных задачах, поскольку они характеризуют точность
достижения цели управления. Иногда бывает достаточно
охарактеризовать точность по одной из координат. Тогда
J (w) = (z*)2. Разумеется, могут рассматриваться и другие
характеристики. Например, в экономических задачах
имеют дело с линейными функционалами вида
J (ш) = (с, z(T)), (1.76)
где с — некоторый заданный вектор.
Задачи с функционалами типа (1.7а) и (1.76) по ана-
логии с задачами вариационного исчисления естественно
называть задачами Майера. Имеет смысл рассматривать
также задачи Лагранжа. Этим термином мы будем назы-
вать задачи, в которых функционал, характеризующий
управление, имеет вид *)
т
J (w) — J ср (z, w) dt. (1.7в)
и
Рассматривая задачи оптимального управления, мы не
делали различия между задачами Майера и Лагранжа,
поскольку обе задачи легко сводились одна к другой вве-
дением новой переменной. В данном случае мы также мо-
жем ввести скалярную переменную | = <p (z, w) и свести
задачу (1.7в) к задаче минимизации % (Т). Однако среди
уравнений задачи окажется уравнение, правая часть
♦) Интегралы подобного рода для положительных <р характе-
ризуют, например, накопление ошибки.
276
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
которого является математическим ожиданием искомых
величин. Это обстоятельство вносит особенности, требу-
ющие специального изучения.
Итак, мы будем рассматривать следующую вариаци-
онную задачу: определить вектор w, доставляющий мини-
мальное значение функционалу (1.7) при условии (1.6),
где F (t) — заданный случайный процесс, z (£0) — началь-
ное значение вектора z — также заданная случайная
величина, причем
F(F) = 0, 7(Ц-0. (1.8)
Таким образом, сформулированная задача по своей
постановке кажется аналогичной задаче, рассмотренной
в предыдущих главах. Тот факт, что функционал записы-
вается в форме математического ожидания, на первый
взгляд не меняет дела. В действительности есть глубокое
различие в сущности этих задач.
Обращаясь к задачам оптимального управления, мы
прежде всего замечаем, что в них управление разыски-
вается как функция времени и начального состояния
w = w (z0, t). Но в задачах синтеза начальное состояние
может быть случайным, и поэтому решение вида w (z0, t)
особого смысла не имеет, поскольку в начальный момент
мы не знаем конкретного значения z0.
Предположим, однако, что мы в самом деле имеем
дело с обычной задачей оптимального управления. Это
значит, что искомая задача состоит в отыскании вполне
определенной вектор-функции w (0, которая минимизи-
рует функционал (1.7). Для определенности примем, что
J (ш) = z2. Предположим, что величина z (tQ) = 0, и мы
знаем Г — оператор Грина для уравнения z = Az + b (t)%
т. e. мы можем выписать в явном виде величину z (Т)8
z (Г) = ГЬ.
В случае уравнения (1.6) z = Гю + TF. Мы условились
разыскивать детерминированную функцию времени w (t).
Поэтому, вычисляя величину функционала z2 (Г), мы
получим
z*(T) = (Гм?)2 + (ГТ)2. (1.9)
§
О ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА
277
(£F)2 — это некоторое известное число, поскольку мы
условились рассматривать только те случайные процессы,
статистическое описание которых нам известно. Величина
(Г/Т> как это видно из (1.9), не зависит от управления.
Поэтому отыскание минимума величины (1.9) приводит
нас к абсурдному результату; дисперсия элементов тра-
ектории будет минимальна (точность достижения цели
управления максимальна), если w = 0, т. е. если управ-
ление отсутствует.
Итак, мы видим, что стандартная постановка задачи
оптимального управления в рассматриваемом случае
смысла не имеет. Для того чтобы изменить величину дис-
персии, функция w должна изменить оператор Грина, а
для этого она должна сама зависеть от вектора z. В про-
стейшем случае w может быть функцией фазовых коорди-
нат z и времени t:
w = w (z, t). (1.10)
Этот простейший случай обычно и рассматривается в ма-
тематической литературе, и задача отыскания функции
w (z, t), минимизирующей (при определенных ограниче-
ниях) функционал J (и?), называется обычно задачей син-
теза оптимального управления.
Инженеры вкладывают в это понятие несколько более
широкий смысл. Задачей синтеза в инженерной литературе
называется задача отыскания не функции w (z, t)9 а неко-
торого оператора W. Вообще говоря, управление W реа-
лизует обратную связь, которая содержит не только само
отклонение z, но и его производные z, z и т. д., а может
быть и интегралы от этой функции.
Введем (к + 1)-мерное декартово пространство 91,
лг n 1 dz к d% z
вектор а 6= 91 имеет компоненты а — z, а1 = , а =
Пусть теперь W (а) — некоторая функция от а. Тогда
задача синтеза может быть сформулирована как задача
отыскания такой функции W (а), которая доставляет
минимум функционалу J (w) = J (W (а)). Разумеется, на
класс функций W (а) могут быть наложены те или иные
ограничения.
Таким образом, формально задача синтеза системы
управления сводится к некоторой задаче нелинейного
программирования в функциональных пространствах.
278 ПРОБЛЕМА СЙЙТЁЙА ОПТИМАЛЬНЫХ СИСТЕМ (ГЛ. IV
5. Аппроксимация оптимального оператора управ-
ления. Решение сформулированной выше задачи нелиней-
ного программирования — оператор W (а), будем назы-
вать оптимальным оператором управления.
Проблема отыскания оператора, реализующего синтез
оптимальной системы управления, является очень труд-
ной и малоисследованной. До настоящего времени изуча-
лись только отдельные частные случаи, допускающие те
или другие упрощения. Например, проблема сделается
качественно проще, если нам удастся перейти от сформу-
лированной выше задачи нелинейного программирования
в функциональном пространстве к задаче нелинейного
программирования в конечномерном пространстве или
же к задаче типа оптимального управления.
Такие упрощения возможны, если функцию W (а)
аппроксимировать конечномерными функциями из неко-
торого класса;
Ж(а)~Рл(а).
Предположим, например, что Рп — некоторый полином,
Рп (а) = Ai а + (Лаа, а) + ... Если — матрицы,
элементы которых а|8 — постоянные числа, то функционал
J превращается в функцию конечного числа переменных;
J = J (ajs), и задача отыскания оптимального оператора
становится задачей отыскания экстремума функции ко-
нечного числа переменных. Если элементы матрицы —
функции времени, то мы приходим к некоторой задаче
оптимального управления.
Таким образом, аппроксимация оператора управления
сводит задачу синтеза к уже рассмотренным оптимиза-
ционным задачам. Тем не менее аппроксимация оператора
управления еще недостаточна для того, чтобы в задачах
синтеза стало возможным использовать известные методы
нелинейного программирования и теории оптимального
управления. Если в задачах оптимального управления,
которые мы рассматривали в предыдущей главе, у нас
никогда не вставал вопрос о вычислении функционала, то
в задачах синтеза этот вопрос перерастает в большую про-
блему.
Рассмотрим снова уравнение (1.6). Его мы можем
переписать в виде
z = Az + W(z) 4- F (0. (1.6)
j 11 о ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА 279
где W (z) — неизвестная функция, о которой мы знаем
заранее лишь то, что она принадлежит к некоторому классу
(например, W — это полином от z и z). Таким образом,
в общем случае уравнение (1.6) — нелинейное, хотя мы и
рассматриваем линеаризованные уравнения движения.
Теперь, имея в распоряжении уравнение (1.6), мы дол-
жны сформировать функционал тина (1.7). Заметим, что
только при заданной реализации случайной функции
F (t) и заданных коэффициентах оператора W (z) мы можем
провести численное интегрирование уравнения (1.6). Таким
образом, в общем случае, только используя метод Монте-
Карло, мы можем заданной совокупности параметров
{а}8} поставить в соответствие значение функционала. При
этом количество реализаций должно быть достаточно
большим, чтобы гарантировать необходимую точность
результата. Сказанного достаточно, чтобы представить
себе всю необозримую трудоемкость процедуры нахожде-
ния оптимального синтеза системы управления. Таким
образом, то качественное упрощение задачи, на которое
мы пошли, заменив задачу нелинейного программирования
в бесконечномерном пространстве задачей конечномер-
ной, оставляет ее еще чересчур сложной для численного
решения.
Представим теперь, что тем или иным способом нам
удалось в явном виде (в виде приближенных формул)
выразить фазовый вектор через случайную функцию.
Тогда мы в явном виде можем выписать выражение функ-
ционала и избежать применения метода Монте-Карло.
Этот путь решения задач синтеза интенсивно разрабаты-
вался В. М. Пономаревым ♦).
6. Пример применения схемы В. М. Пономарева. Рас-
смотрим снова уравнение (1.6) и оператор управления
будем искать в виде
W ~ Bz, (1.11)
где В — некоторая неизвестная матрица. Эту матрицу
условимся называть матрицей коэффициентов усиления.
Она подчинена ограничениям вида
b^b^b^ i, 7 = 1, ..., п. (1.12)
♦) В. М. Пономарев, Теория управления движением кос-
мических аппаратов, «Наука», 1965,
280
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
В частности, для некоторых элементов мы можем принять
bij = bij = 0. Это значит, что компонента z* вектора z
не входит в компоненту управления ю*.
Примечание. В реальных задачах далеко не все
координаты могут быть измерены и управление должно
выбираться как функция только тех координат, которые
могут быть «наблюдаемы». На языке теории операций
это означает, что решение в каждый момент времени дол-
жно приниматься по неполной информации о поведении
управляемого объекта.
Уравнение (1.6) примет теперь следующий вид:
z = Az + Bz +F (t). (1.13)
Обозначим через Г (/, т) матрицу Грина уравнения
z = (А + В) z. Тогда решение уравнения (1.13) можно
записать в виде
t
z (0 = Г (t, 0) z0 + J Г (t, т) F (т) dr. (1.14)
о
Предположим, что функционал имеет вид
j = (1.15)
Используя (1.14) и считая, что начальные возмущения
не зависят от возмущений F (f), мы сможем функционал
(1.15) представить в форме
т
J = (J (Г (Т, т) F (т) Л)* + (Г (Т, 0) z0, Г (Г, 0) z0) =
о
т т
= J J (Г (Т, тх) F (тх), Г (Т, т2) F (т2)) 4“
о о
+ (Т(7, О) го,Г(Л O)zo). (1.16)
Обозначим через (/, т) элементы матрицы Г (t, т).
Тогда выражение для функционала мы можем представить
в следующем виде:
т т
J = 2 f j* Гу (Т, тх) Ть (Т, Т2) kjt (тх, т2) dti dr2 +
г, s 0 0
+ (Г(Т,О)г0, Г(Т, O)zo). (1.17)
§ 1] О ПОСТАНОВКЕ ЗАДАН СИНТЕЗА 281
Здесь через kjs (тп т2) обозначены элементы корреляцион-
ной матрицы
СЧ» *2) — (*i) Р СЧ)*
Таким образом, если корреляционная матрица случай-
ного процесса нам известна, то, задав матрицу коэффи-
циентов усиления В, мы можем вычислить значение функ-
ционала, не используя метода Монте-Карло. Для этого
нам необходимо вычислить матрицу Грина, что требует
решения п задач Коши (п — размерность вектора я);
после этого нам остается вычислить квадратуру (1.17).
Таким образом, J — это некоторая функция коэффи-
циентов усиления bij, она задана через решение системы
линейных уравнений. Для отыскания минимума этой
функции мы можем использовать один из методов нелиней-
ного программирования. Заметим, что J (Ь^) будет нели-
нейной функцией даже в тех простейших случаях, когда
исходная система, описывающая эволюцию объекта управ-
ления будет системой линейных дифференциальных урав-
нений с постоянными коэффициентами.
Возможность выписать в явном виде выражение функ-
ционала через характеристики функций случайных воз-
мущений — следствие того факта, что в случае линейных
систем мы можем выписать общий интеграл через систему
фундаментальных решений. Этот вопрос можно рассмот-
реть и с более общей точки зрения. Представим себе, что
мы тем или иным образом построили приближенное или
точное выражение общего интеграла исходной системы диф-
ференциальных уравнений, тогда при вычислении функ-
ционала мы всегда можем избежать трудоемкой процеду-
ры, связанной с использованием метода Монте-Карло.
В. М. Пономарев в ряде своих работ *) развивает
методы построения приближенного выражения для об-
щего интеграла и исследуют полученные задачи нелиней-
ного программирования. Одна из трудностей состоит
*) См. В. М. Пономарев, Методы последовательной оп-
тимизации в задачах управления, Техническая кибернетика,
№ 2, 1967.
В. М. Пономарев, А. И. П т у ш к и н, Последователь-
ная оптимизация дискретной системы управления, Техническая
кибернетика, № 3, 1967.
282
ПРОБЛЕМА СИНТЕЗА ОПТЙМАЙЬЙЫХ СЙСТЕМ [ГЙ. it
в том, что функционалы в этих задачах не являются вы-
пуклыми и содержат много локальных экстремумов. С дру-
гой стороны, в задачах синтеза обычно не возникает вы-
соких требований к точности. Это обстоятельство имеет
решающее значение при разработке приближенных вычис-
лительных методов.
7. Замечание о методе Монте-Карло. Для применения
метода Монте-Карло мы должны многократно выполнить
процедуру численного интегрирования уравнения (1.6).
Рассмотрим простейшую разностную схему
Zn+1 = *П + т (Azn + W (zn) + F (1.18)
Выражение (1.18) показывает, что для того, чтобы про-
вести вычисление одной реализации случайного процесса
z (t)9 нам необходимо задать такое число случайных век-
торов F (/л), каково число N частичных интервалов
N = 77т. При уменьшений т число N растет, увеличива-
ется число случайных векторов и, следовательно, необхо-
димое число реализаций.
Обозначим через М количество необходимых реализа-
ций для каждого из векторов F (tn). Тогда общее количе-
ство реализаций будет пропорционально MN. Таким обра-
зом, при достаточно малом т метод статистических испы-
таний становится практически неприменим.
Эту трудность мы можем обойти, если использовать
каноническое представление случайного процесса F (0:
^‘(0 = 214^(0, (1-49)
к
где р4 — случайные числа, дч (t) — некоторая система
фундаментальных функций. Предположим далее, что в
(1.19) можно ограничиться некоторым конечным числом
слагаемых
(1-20)
£=1
где I АГ. Аппроксимации типа (1.20) уже вносят качест-
венные упрощения в процесс статистического моделиро-
вания и не приводят к трагичным последствиям при умень-
шении шага численного интегрирования.
$ 11 О ПОСТАНОВКЕ ЗАДАЧ СИНТЕЗА . 283
8. Некоторые обобщения. Рассматриваемая постанов-
ка задачи синтеза, несмотря на всю ее сложность, является
тем не менее еще очень простой моделью задач, возникаю-
щих в технике и экономике. Заметим несколько обстоя-
тельств, которые не были учтены при обсуждении поста-
новки задачи синтеза:
а) Мы собираемся разыскивать управление, как функ-
цию координат управляемой системы, которые могут быть
измерены (наблюдаемые координаты). В действительно-
сти же все измерения происходят с ошибкой, и мы должны
разыскивать управление как функцию измеренных зна-
чений наблюдаемых координат.
Далее, наблюдаем мы обычно не сами координаты z{, а
некоторые функции этих величин £*. В простейшем слу-
чае эти величины являются линейными функциями компо-
нент вектора z, В = Lz + Л, где h — случайная ошибка
измерений, причем матрица L обычно бывает не квадрат-
ной, а прямоугольной: размерность вектора £ меньше раз-
мерности вектора z, и поэтому выразить непосредственно
z через | и h мы не можем. Таким образом, наряду с описа-
нием модели динамической системы, которой мы управ-
ляем, мы должны научиться описывать процесс поступле-
ния и обработки информации.
б) Внешние возмущающие силы мы рассматриваем
как некоторый случайный процесс с известными статисти-
ческими характеристиками. Однако во многих практиче-
ских задачах эти свойства нам бывают неизвестны. В луч-
шем случае мы можем говорить только о границах, в
которых эти силы могут изменяться. В этом случае поста-
новка задачи синтеза должна быть иной. Функционалы,
которые рассматривались в данном параграфе, теряют
смысл. У нас остается единственная возможность: иссле-
довать гарантированные оценки, т. е. мы должны разыс-
кивать min max J вместо min J.
в) Задача синтеза, которая была сформулирована,
предполагала известной программу (матрица А в уравне-
нии (1.6) считалась заданной). Инженерам значительно
более интересна другая постановка. Объект управления,
например самолет, может выполнять самые разные про-
граммы. Он может совершать полеты на разных высотах,
на разные дальности и т. д. Но система управления —
автопилот конструируется один раз. Параметры этой
284
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
системы должны быть выбраны один раз. Каким образом в
этих условиях следует выбирать эти параметры? Постав-
ленный вопрос относится уже непосредственно к теории
операций, поскольку здесь налицо некоторая конфликт-
ная ситуация. Очень часто для решения этой проблемы
инженеры используют метод тестов. Некоторая програм-
ма, выбранная из интуитивных соображений, объявляется
расчетной, и если система управления является приемле-
мой для программы, то она объявляется приемлемой и для
всей совокупности программ, которые могут быть заданы.
Какой смысл имеет метод тестов? В каких условиях он
применим? Эти вопросы оказываются очень важными, тем
более, что легко привести примеры, когда в принципе те-
стовой программы не существует.
Приведенные здесь обобщения задачи синтеза еще не
исчерпывают всей совокупности возможных постановок
этой технической проблемы. О некоторых из них мы будем
говорить ниже.
§ 2. Детерминированные задачи синтеза
1. Постановка задачи. Рассмотрим сначала тот класс
задач синтеза, в котором случайные возмущения и ошибки
измерений не учитываются. Тогда функционал J (х, и),
характеризующий качество управления, будет детермини-
рованной величиной, и задачу синтеза мы можем сфор-
мулировать следующим образом: определить функцию
и (х (/0), доставляющую функционалу J (х, и) мини-
мальное значение при ограничениях
х = f (х, и, t), (2.1)
и GE Gu, (2.2)
х бгх, (2.3)
х (Т) е й’т. (2.4)
Так поставленная задача формально совпадает с зада-
чей оптимального управления. Различие заключается в
том, что в задаче синтеза величины х (£0) и tQ являются
произвольными. Другими словами, задача синтеза будет
решена, если мы сумеем построить управление — функ-
цию и (х (£0), Zo, 0, которая переведет за время Т — t0
систему из состояния (ж, tQ) на множество $т (т« в. для
§ 2]
ДЕТЕРМИНИРОВАННЫЕ ЗАДАЧИ СИНТЕЗА
285
каждой точки (х, tQ) мы решим задачу оптимального управ-
ления). Эта функция и (х t^t) может быть найдена
из уравнения Веллмана *). Поскольку в нашем распоря-
жении нет общих стандартных методов решения уравне-
ния Веллмана и задач оптимального управления, то ка-
кие-либо общие методы решения задач синтеза также от-
сутствуют.
2. О возможных управлениях. Трудности численного
решения задач оптимального управления и необходимость
быстро определять величину управляющего воздействия
по сигналу о состоянии управляемой системы приводят к
отказу от построения строгих оптимальных решений.
Приобретает большое значение задача отыскания допусти-
мых управлений (т. е. управлений, удовлетворяющих ус-
ловию (2.2) ), которые выводят систему в окрестность за-
данного состояния. Такие управления мы будем называть
возможными управлениями. Мы уже сталкивались с этим
понятием в гл. III при рассмотрении различных конструк-
ций элементарной операции.
Предположим, что программная траектория системы
задана. В силу каких-то причин (внешних возмущений)
состояние системы оказалось отличным от расчетного. Тог-
да мы можем представить себе две возможные линии пове-
дения:
1. Мы можем постараться немедленно вернуться на
расчетную траекторию.
2. Мы можем построить новое программное управление,
которое за некоторое время (последнее может быть и не-
фиксированным) приведет нашу систему в окрестность
цели управления.
Первый способ поведения мы будем называть коррек-
цией по заданной программе. Второй — коррекцией по
конечному состоянию. Существует много различных спо-
собов конструирования возможных управлений. Выбор
того или другого возможного управления определяется
физическими особенностями управляемой системы и тех-
нической реализуемостью предлагаемой схемы управле-
ния. Поэтому мы ограничимся только демонстрацией не-
скольких примеров.
*) Об уравнении Веллмана см., например, В. Г. Болтян-
ский, Математические методы оптимального управления,
«Наука», 1969.
286
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. Г?
Если нам удалось построить возможное управление
v (х, t), которое каждой точке (х, t0) ставит в соответ-
ствие вектор-функцию v (х, /), то мы говорим, что «синтез
реализован».
Для того чтобы не путать синтез, построенный с по-
мощью возможных управлений, с решением вариацион-
ной задачи, сформулированной в предыдущем пункте,
будем его называть возможным или виртуальным син-
тезом.
3. Локально оптимальные управления. Этим термином
мы будем называть управления, которые выбираются в
каждый данный момент времени из условия минимума не-
которой скалярной величины. Приведем несколько при-
меров таких управлений.
Пусть нам известно программное движение £ (t), оп-
ределенное управлением й (t). Введем в рассмотрение век-
торы
z ~ х — x(t\
v = и — и (t).
Первый из этих векторов будем называть вектором траек-
торного отклонения, второй — вектором корректирующе-
го управления.
Рассмотрим функцию
F(2) = ±(z,flz), (2.5)
где R — некоторая симметричная положительно опреде-
ленная матрица. Примером локально оптимального уп-
равления будет управление у, которое минимизирует ве-
„ dF
личину производной :
min^ = min , Zfz). (2.6)
Функция (2.5) определяет в некотором смысле «рас-
стояние», которое отделяет реальное положение объекта
от его программного значения. Таким образом, управле-
ние v стремится в каждый данный момент «максимально
уменьшить» это расстояние. В формуле (2.6) через Gv мы
в
$ 2) ДЕТЕРМИНИРОВАННЫЕ ЗАДА4Й СИНТЕЗА 28?
обозначили множество допустимых корректирующих
управлений.
Так как
z = / (2 + z, й + v9 t) - /й9 t), (2.7)
а выражение (2.6) линейно относительно то задача вы-
бора управления сводится к отысканию v £Gv, доставляю-
щего минимум функции
J (У) = (/ @ -j- z9 и + v,t) — / (2, й, t), Rz). (2.8)
Предположим, что Gv — открытое множество, тогда
для отыскания управления v нам необходимо решить урав-
нение
ё“«-Д2) = °- <2-9>
Управление р, доставляющее минимум выражению (2.8),
или являющееся корнем уравнения (2.9), будет, очевидно,
функцией состояния z и времени t, v = v (z, t), и, следо-
вательно, будет реализовать возможный синтез.
Рассматриваемая задача во многих случаях может
быть значительно упрощена. Если ресурс, который мо-
жет быть выделен на корректирующие управления, мал
и отклонения реального] движения от программного также
малы, то уравнение возмущенного движения (2.7) можно
линеаризовать, и мы будем иметь z = Az Bv, где А и
В — некоторые матрицы. В этом случае задача построения
корректирующего управления сводится к задаче отыска-
ния минимума линейной формы
min (Bv, Rz).
Если условия v^Gv имеют вид где сц, у* —
i
заданные числа, то это обычная задача линейного про-
граммирования.
Рассматриваемый способ управления имеет простой
механический смысл. Пусть нам дана система с одним
управлением:
А1 = ж2,
х2 = f (х1, х2, и, t),
а функция F взята в виде F = (z1)2 + a (z2)2.
288
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
В этой задаче мера отклонения от программной траекто-
рии определяется отклонением не только положения, но
и скорости от расчетного значения.
Вычислим
= 2z1z1 + 2az2z2 =
= 2zlz2 + 2az2 (/ (^+ z1,%2 z\u + — f (21, £2, iZ, /)).
Первое слагаемое не зависит от управления. Следова-
тельно, условие mm требует минимизации второго
слагаемого. Если, начиная с некоторого момента, окажет-
ся, что z2 равно нулю, т. е. скорость объекта управления
равна расчетной, то с этого момента мы лишаемся возмож-
ности изменить ситуацию. Очевидно, что такие управле-
ния могут не удовлетворять основному требованию до-
стижения цели управления: z1 = z2 = 0. Поэтому в
технике должны использоваться более сложные законы
управления. Например, в качестве функции F мы можем
взять следующую:
F(Z) = ±(z, 7?1Z) + X-±(Z,
где и - положительно определенные квадратич-
ные формы, а X — некоторый параметр.
Примечание. В автоматическом регулировании
рассматриваются законы управления, имеющие вид
v = Lz, (2.10)
где L — некоторый дифференциальный оператор. На-
пример,
т I I d ,
L = а* di* "*-1- rfT ’* a°-
Эти законы управления, реализующие виртуальный син-
тез, также являются локально оптимальными. Это озна-
чает, что для любого оператора L всегда можно подобрать
такую скалярную функцию, зависящую от z и ее производ-
ных, условие минимума которой реализует выражение
(2.10).
§ 21 ДЕТЕРМИНИРОВАННЫЕ ЗАДАЧИ СИНТЕЗА 289
Рассмотрим в качестве примера задачу управления
системой
х1 = х2, £2 = V,
и построим управление, приняв в качестве функции F
следующую функцию: F = -%- (z1)2 = 2zxz2. Тогда
(Lt
g = 2(z’)\+2rt.
Управление мы найдем из условия minz1?;.
veGj,
Если ограничения имеют вид | v| 11 z11, то
v = — Xz1,
и мы получаем простейший астатический регулятор.
Если ограничения имеют вид | < с, с 0, то
мы получаем релейное управление
v = — с sign z1.
Если в контуре управления имеется вычислительная
машина, то мы можем делать прогноз на конечное время
вперед, т. е. выбирать управление из условия
min(F(£ + Д0).
©€=Gr
Описанные типы возможных управлений могут исполь-
зоваться для коррекции как по заданной программе, так
и по конечному состоянию. Существует целый ряд специ-
фических методов, пригодных только для одного из типов
коррекции. Например, один из типов коррекции по за-
данной программе можно трактовать как следующую зада-
чу на быстродействие: определить управление v (z, t),
которое за минимум времени возвращает систему на про-
граммную траекторию. Поскольку время возвращения
невелико, то при замене исходной задачи конечно-разно-
стной мы можем взять небольшое число шагов по времени
и получить относительно простую задачу нелинейного
программирования.
4. Коррекция по конечному состоянию. При этом спо-
собе коррекции очень часто возникают задачи со свобод-
ным концом. Простейший случай — это тот, когда сама
10 Н. Н. Моисеев
290
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. IV
исходная задача является задачей со свободным концом.
Приведем один типичный пример. Предположим, что про-
граммное управление для системы (2.1) выбирается из
условия минимума функционала
J = (С, X (Т)), (2.11)
где с — заданный вектор. Такая ситуация типична, на-
пример, для экономических задач. Полагая z — х х,
v = и — й, где х и й— программные траектория и управ-
ление, и линеаризуя (2.1), придем к следующей задаче:
i = Az H-Bv, J\ = (c, z (T)), z = z0. (2.12)
В данном случае легко может быть получено точное
решение. Для того чтобы найти управление, нам достаточ-
но решить (См. гл. I, § 4) задачу Коши
ф = — Л*ф, ф (Т) — — с
и найти
max (ф, Bv).
Заметим, что полученное этим способом возможное
управление не будет локально-оптимальным по крите-
рию J (t) = (с, z (Т)). Заметим также, что оно не будет
зависеть от начального состояния.
В более сложных случаях можно использовать прибли-
женные методы синтеза. Рассмотрим один пример подоб-
ной коррекции по конечному состоянию, который сводится
к задаче со свободным концом. Задачу корректирующего
управления мы можем сформулировать как задачу дости-
жения минимума функции F (z (Г)), где Т — время до-
стижения цели управления вдоль программной траекто-
рии, F (z (Т)) — функция, характеризующая отклонение
z (Г) от начала координат. В этом случае мы можем ис-
пользовать локально оптимальные управления с функци-
ей F (z).
Приведем в заключение еще один пример локально оп-
тимального управления по конечному состоянию. Предпо-
ложим, что программа реализует решение задачи на быст-
родействие для системы (2.1) при начальном состоянии
xQ и конечном состоянии хт. Тогда в качестве функции F
§ 2] ДЕТЕРМИНИРОВАННЫЕ ЗАДАЧИ СИНТЕЗА 291
мы снова выбираем некоторое расстояние до цели управ-
ления и строим возможные управления с таким расчетом,
чтобы в каждый данный момент максимально быстро его
уменьшать.
5. Об асимптотическом характере локально оптималь-
ных управлений. Итак, мы видим, что локально оптималь-
ные управления играют большую роль в задачах при-
ближенного синтеза, поэтому естественно поставить во-
прос о том, при каких условиях локально оптимальные
управления близки к оптимальным. На этот вопрос уда-
ется ответить для одного специального класса задач. Рас-
смотрим задачу Майера — отыскания минимума функции
F (« {Т)).
Предположим, что возмущенное (реальное) движение
системы описывается уравнением
z = / (z, ер), (2.13)
где v — корректирующее управление *), а 8 — малый па-
раметр. Это означает, что мы рассматриваем тот случай,
когда корректирующее управление не может существен-
но изменить траекторию.
Считая, что функция / дифференцируема, перепишем
(2.13) в следующем виде:
z = / (z, 0) + eBv + О (ва), (2.14)
где
д _ I9f (z, у)\
V ду W
ъ отбросим малые второго порядка.
Рассмотрим далее уравнение
z = / (z, 0),
и пусть его полный интеграл имеет вид
z = Y (t, с). (2.15)
Уравнение (2.15) мы можем рассматривать в качестве
формулы замены переменных. Переходя от переменных
z к с, можно заменить уравнение (2.14) с точностью до
•) Здесь, в отличие от п, 1, v не предполагается малым.
10»
292
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. IV
величин О (е2) следующим:
с'=е(^ГВу- <2Л6)
Выпишем теперь функционал
F (z (Г)) = F (Т (Г, с (Л)) = (с (Л)- (2.17)
Итак, в случае, когда корректирующие управления
малы, задача (если отбросить величины порядка О (е2)) сво-
дится к определению минимума (2.17) при условии (2.16).
Решение этой задачи можно искать в виде
С = со 8С1 -j- О (в2),
где Со — это некоторый постоянный вектор, а сг удовлетво-
ряет уравнению
'-ОС/0' (2Л8>
Функционал (2.17) имеет вид
Г [с (Г» = F• W + (» (^Ц. «1 И) + О (s’).
Отбрасывая малые второго порядка, мы приходим к
задаче минимизации функционала
Для этой задачи, учитывая, что сопряженные переменные
ф = — =с ’ ПОЛУЧИМ функцию Гамильтона
я=(ф,т-х вр)=_8(т
Из принципа максимума следует, что управление долж-
но быть выбрано из условия минимума скалярного произ-
ведения
Построим теперь локально оптимальное управление для
системы (2.16). Управление мы будем выбирать из условия
§ 2] детерминированные задачи синтеза 293
минимума производной
Если отбросить в (2.20) множитель е, то коэффициенты
при v в (2.19) и (2.20) будут отличаться на величину по-
рядка О (в2). Поэтому мы приходим к следующему утверж-
дению: локально оптимальное управление тем ближе к оп-
тимальному, чем меньше е, т. е. чем слабее корректирую-
щее управление.
Этот факт был впервые установлен В. Н. Лебедевым *).
Его строгое доказательство дано Ф. Л. Черноусько **).
6. Проблема оценки возможных управлений. Мы при-
вели несколько примеров возможных управлений, реали-
зующих виртуальный синтез. Число подобных примеров
может быть умножено. Существование разнообразных
способов синтеза требует создания методов их сравнения и
оценки. Таких универсальных методов сравнения нет.
Предположим, что мы имеем некоторое множество техни-
чески реализуемых управлений. Какой критерий должен
быть положен в основу выбора? Разумеется, всегда в на-
шем распоряжении есть исходный критерий, но посколь-
ку возможные управления не являются оптимальными, то
для одной области значений (х, /0) — одно из управлений
может оказаться лучшим, для другой же области значе-
ний (х, £0) лучшим может оказаться другое управление
и т. д. Поставленный вопрос является типичным для ис-
следования операций, и для его решения должна быть ис-
пользована методология этой дисциплины.
Обсуждаемый вопрос имеет свою историю. Он возник
еще в довоенные времена в теории автоматического регу-
лирования, и для его решения было предложено несколько
подходов. Возможно, имеет смысл использовать некоторые
концепции теории автоматического регулирования для
оценки качества управления в теории оптимальных систем,
когда нам приходится использовать не оптимальные, а
виртуальные управления.
•) В. H. JI е б е д е в, Расчет движения космического аппарата
с малой тягой, серия «Математические методы в динамике космиче-
ских аппаратов», вып. 5, ВЦ АН СССР, 1968.
♦♦) Ф. Л. Ч е р н о у с ь к о, Некоторые задачи оптимального
управления с малым параметром, ПММ 32, вып. 1, 1968,
294
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
Одним из важных понятий, которое использовалось в
теории регулирования, является понятие устойчивости в
смысле Ляпунова. Безусловно, для более или менее дли-
тельных процессов, устойчивость является одной из важ-
нейших характеристик управляемой системы. Используя
это понятие в теории возможных управлений, мы столк-
немся с целым рядом новых задач. Проиллюстрируем
сказанное несколькими примерами.
Поскольку функция v (z, t) реализует обратную связь
(причем v (0, t) = 0), уравнение, описывающее движение
нашей управляемой системы, мы можем записать в виде
£ = <р (х, й, v (х — i), t). (2.21)
Теперь естественно поставить вопрос об устойчивости то-
го частного решения системы (2.21), которое описывается
уравнением
t = <Р (г,«, о, t), 3! (0) = г0. (2.22)
Пусть выбор функции v (z, t) определяется матрицей /?.
Первый вопрос, который здесь возникает, состоит в сле-
дующем: каким образом должна быть выбрана матрица
2?, чтобы гарантировать устойчивость решения (2.22)?
Однако устойчивость движения определяется не только
матрицей Я, но и характером программного управления.
Это обстоятельство, в свою очередь, порождает целый ряд
интересных задач.
Рассмотрим два различных, но достаточно типичных
случая:
а) Корректирующее и программное управление реа-
лизуются различными двигателями и имеют самостоятель-
ный ресурс. В этом случае уравнение возмущенного дви-
жения можно записать так:
£ = / (х, й, и, t) = /♦ (х, у, t)9 (2.23)
где й — выбранное программное управление. Структура
уравнения (2.23) определяется выбором й.
Простейшая из проблем, которая возникает в этом слу-
чае,—'прямое исследование устойчивости решения сле-
дующей задачи Коши:
х = /* (х, 0, 0, х (0) = 20. (2.24)
§ 3] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 295
Но можно поставить и более сложную задачу: как в допу-
стимых пределах изменить программное управление, что-
бы решение (2.24) осталось устойчивым?
б) Корректирующее и программное управление имеет
общий ресурс. В этом случае выбор программного управ-
ления особенно сильно влияет на устойчивость системы,
поскольку коррекция траектории возможна только за
счет перераспределения ресурса. Можно привести приме-
ры, когда оптимальная программная траектория оказыва-
ется практически некорректируемой и, следовательно
(в общем случае), неустойчивой.
В большинстве динамических задач экономики имеет
место описанная ситуация — ресурс программного и кор-
ректирующего управления общий. Поэтому исследование
устойчивости в динамических моделях экономики особен-
но важно.
Интересная задача, которая здесь возникает, состоит
в следующем: при заданной структуре корректирующего
управления так разделить ресурс между программным и
корректирующим управлениями, чтобы программное дви-
жение было устойчивым. Эта задача аналогична извест-
ной задаче о резервировании.
§ 3. Применение динамического программирования
для задач синтеза
1. Дискретный аналог задачи синтеза. Рассмотрим ди-
намическую систему, движение" которой описывается век-
торным уравнением вида (1.6):
z — Az 4- w -}- F (t). (3.1)
Заменим это уравнение разностным:
Zr+i == 4~ vht fc = О, 1, ..., N — 1, (3.2)
где N число интервалов разбиения данного отрезка
[О, Т]. Если мы используем простейшую разностную схему
первого порядка точности, то
(Dfc = I 4» А (^)т, vk = w (^)т, fk = F
где т = T/N — шаг по времени, а I — единичная матри-
ца. Замена дифференциального уравнения разностным в
296 ПРОБЛЕМА СИЙТЕЗА ОПФЙМАЛЬНЫХ СИСТЕМ (гЛ. IV
случае линейных систем может быть реализована и без
применения конечноразностной аппроксимации. Если
нам известна фундаментальная система решений уравне-
ния z = Л г, то систему (3.1) всегда можно представить в
форме (3.2), где vk и fk — некоторые функции дискретных
моментов времени, значения которых однозначно опреде-
лены заданием величин, входящих в уравнение (3.1).
Это можно сделать, проинтегрировав систему (3.1) на от-
резке Zh+1].
Рассмотрим задачу минимизации квадратичного функ-
ционала
J = (z(T),7?z(T)) = (Zn>jRzn), (3.3)
где R — симметричная, положительно определенная мат-
рица.
Итак, заменяя дифференциальное уравнение разност-
ным, мы приходим к задаче отыскания векторов р0,
vlf ..., vn^-u доставляющих минимум квадратичной форме
(3.3).
В экономических задачах поведение системы, как
правило, описывается конечно разностным уравнением, в
котором шаг по времени задан естественным образом.
Например, это цикл производственного процесса (год в сель-
скохозяйственном производстве). Поэтому задача опти-
мизации (3.2) — (3.3) имеет также и самостоятельный
интерес.
Для решения задачи минимизации (3.3) дискретного
многошагового процесса (3.2) естественно в первую оче-
редь выяснить возможности метода динамического про-
гр аммиров ания.
2. Схема динамического программирования. Введем
обозначение
?N = <ZN’ RzN> <3-4)
и предположим, что система находится в состоянии z^.^.
С помощью уравнения (3.2) преобразуем квадратичную
форму (3.4)
N ~ (ZN-V ^NZN-1) + (UN-V ^N-XZN-^ N-V H-
+ (fN-V ^N-1ZN-1) + ^N-V (//v-p (3-5)
§ 3] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 297
где
Rn = Dn-i = 2НФн-1. (3.6)
Напомним, что В* означает матрицу, сопряженную В.
Полином второй степени Jn является случайной величи-
ной, даже если состояние zn-i мы фиксируем, поскольку
правая часть равенства (3.5) содержит случайный вектор
/w-p Обозначим через Jn-i(zn-i) условное математическое
ожидание величины Jn при условии, что состояние zn~i
фиксировано:
^N-l = (Jn/ZN-1) = (ZN-V ^NZN-1) + (VN-1* ^N-1ZN-1)
+ + ^N-V ^N-l)* (3.7)
___При выводе равенства (3.7) из (3.5) мы полагали, что
— 0. Это условие мы будем принимать для всех век-
торов fi (I = 0, 1, ..., N — 1).
Функция Jn_i — это полином второй степени, завися-
щий от компонент вектора vn-i- Найдем минимум этой ве-
личины. Для этого вычислим
dvN_x = DN-izn-i + 2ДрЛТ-г
Приравнивая эту производную нулю, находим управ-
ление
VN-1 2" R"1 ^N-lZN~r (3-3)
Итак, на последнем шаге управление является линей-
ной функцией фазовой переменной: vn~i = Bn.iZn^ rjjp
матрица BN^i определяется формулой
Rn-i =----j- R"1 Bn-i = Флг-v
При подстановке найденного управления vN_i в (3.7)
сумма первых трех слагаемых дает нуль, и мы получаем
значение функционала
^n-i = (Jn-v RJn-i)9
298
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
которое, как оказалось, не зависит от значения фазовой
координаты
Процесс расчета управления закончен. Мы можем уп-
равлять произвольным образом до момента t =
В этот момент мы должны измерить фазовые переменные и
принять
VN-1 ^N-1ZN-1
Тогда
ZN~~ f N-l»
и мы получаем результат, о котором говорилось выше.
Физическое содержание полученного результата оче-
видно, мы рассматриваем систему, в которой нет никаких
ограничений на управление. Поэтому если мы хотим мини-
мизировать отклонение в момент t — то нам достаточно
в момент t = компенсировать все накопившиеся откло-
нения. Так как wk = рл/т, то wk ->оо при т 0. Итак,
если управление не стеснено ограничениями, то оптималь-
ное управление не ограничено.
Если мы рассмотрим реальный случай ограниченных
управлений, то задача определения минимума функции
(3.7) окажется некоторой задачей нелинейного програм-
мирования, в результате решения которой мы снова смо-
жем определить управление как функцию фазовых коор-
динат vn-i = Piv-i Эта функция является сущест-
венно нелинейной и может быть построена только в форме
некоторой таблицы. На следующем шагё метода динамиче-
ского программирования, когда мы будем считать задан-
ным состояние системы в момент времени t = значе-
ние функционала окажется непредставимым в аналитиче-
ской форме, и мы получим сложную задачу нелинейного
программирования. Вычислительные трудности и объем
необходимой памяти с увеличением числа шагов будут
нарастать с такой скоростью, что проведение вычислений
окажется невозможным даже в тех случаях, когда число
шагов N весьма невелико.
Поскольку прямое использование динамического про-
граммирования в задачах синтеза с ограниченным управ-
лением неэффективно, можно попытаться использовать
функции штрафа. Для этого вместо функционала (3.3)
§ з! йримененйе Динамического программирования 299
рассмотрим следующий:
N-1
J = (ZN, Rzn) + 3 (yi, Kvi), (3.9)
1—0
где К — некоторая положительно-определенная симмет-
ричная матрица. В качестве матрицы К обычно исполь-
зуют диагональную матрицу
Выбирая элементы ки ..., кп достаточно большими, можно
добиться, чтобы управления удовлетворяли требуемым
ограничениям.
Функционалы вида (3.9) представляют интерес и са-
ми по себе (вне связи с ограничениями на управление),
поэтому мы рассмотрим более подробно процедуру дина-
мического программирования применительно к таким
функционалам, сохраняя, по возможности, обозначения,
которые были введены ранее. Имеем
N—2
i==0
N—l
Сумму 2 (yi, мы разбили на два слагаемых, чтобы
г=0
подчеркнуть, что на данном шаге нам известны не только
значение но и управления (i = 0,1, ..., TV—2).
Используя уравнение (3.2), получим
N = RnZN-1) -J" &N-1 ZN-1) “Ь
“Ь ^N-l1 (R “Ь ^N-l) + ^N-V "b
N-2
+ (/w_p RfNj + 2 (fN_v RvN_t) + 2 KVi), (3.10)
i=0
где jlN и DN_r определяются формулами (3.6).
300 ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ (ГЛ. IV
\ Далее мы вычислим Jn-i — условное математическое
ожидание величины Jn, считая, что zn-i фиксировано, и
dJ
найдем минимум Jn-i из условия — о. В результате
avN-l
мы получим следующий аналог формулы (3.8):
VN-1 = (3-11)
где
BN-i = - -1- (* + к)~г <ЗЛ2)
Управление снова оказывается линейной функцией фа-
зовой переменной. Подставляя выражение (3.11) в (3.10),
мы можем привести его к следующему виду:
N ~ (ZN-V ^N-lZN-li (ZN-V Mx-lf N_^ +
N—2
+ (/„_1,я/х_1) + 3 (3.13)
i=0
где
-Rn-i = Rn + Dn-iBn-i + BN-i (R + %) Bn-ъ (3.14)
M-i = DN-i + 2Bn^R.
И, наконец, для оптимального значения функционала
Jn-i при условии, что при t = tN-i система находится в
состоянии zn-1, мы получаем следующее выражение:
N—2
На этом первый шаг процедуры динамического про-
граммирования закончен. Мы нашли, что управление яв-
ляется линейной функцией фазовых координат, а значение
функционала зависит не только от величины случайных
воздействий /дм, но и от состояния системы zN-i, а, следо-
вательно, и управлений на предшествующих шагах.
Рассмотрим еще один шаг процедуры динамического
программирования. Для этого в выражение (3.13) под-
ставим
ZN-1 = ®N-2Ztf-2 + yN-2 + f ЛГ-2’
§ 3] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ ЗМ.
После преобразований мы приведем его к следующему
виду:
= (ZN-2’ Rn-1ZN-2) “Ь Dn-2ZN-z)
Н“ ^ЛГ-2’ ^N-2 ZN-z) rb (VN-29 &N-1 + К) VN-^ +
+ (Улг-2’ $N~1 + ^N-1) f #-2) + №N-2’ ^N-l fN-?) +
+ (fN_V MN-1^N^N^) + (VN-tf .+
+ (/n_2, Afw-i/jvJ + (fN_P 4- 3 fa, Kvi),
1=0
где введены новые обозначения:
= Фуу-2-^ЛГ-1Флг-2>
Dn-2 = (Rn-1 + ^N-l) ®iV-2-
Далее, следуя общей схеме, мы должны вычислить
Jn-z (^лг-г) — математическое ожидание величины JN,
при условии, что состояние zjv_2H3BeCTHO’ ^-2 будет квад-
ратичной функцией управления ^_2; оптимальное управ-
ление найдем из условия = = 0:
VN-2 ~ ВN-<l.ZN-2' (3-17)
где
= — {.Rn-i + Rn-i + 2А)-1 ZJjv-2, (3.18)
т. e. оптимальное управление на этом участке также яв-
ляется линейной функцией фазовой переменной. Исполь-
зуя (3.17), преобразуем (3.16):
~ (Zw-S» Rn-2ZN-^ “Ь (ZW-2’ Н“
”1” ^ZN-2’ jy-i) 4” (/jV-2» Rn-1 fpf-2) 4-
N—3
+ tfN-v RNfN-J + ^-1W + S (^i, ^i),
1=0
302
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
где
= Rn-i + -b Bn-2 (Rn-i + К) Bn-^ч
^N-2 = Dn-2 + ^N-2 (Rn-1 + Rn-^4
^n-2 = BN-2Mn-i + Фдг-г^/л-ь
Rn = R-
Оптимальное значение функционала, которого можно
достичь, если система в момент времени t — tN-2 находи-
лась в состоянии zn~2, а предшествующие управления у0,
Vi, ..., Vjv-з известны, дается формулой
^N-2 = ^N^N-z) ~ (ZN-2* * ^N-2ZN-z) N-2* ^N-l^N-2^ “Ь
_____________ N—3
+ (fN-v + Vn-v M-i/jv-1) + 3 KVi). (3.19)
i=0
Эту процедуру легко продолжить по индукции, и мы
найдем, что
VN-s = Rn-9ZN~9' 5 = 1, • . . ,
где
Bn-s = — ffijV-s+l + Rn-Ы +
Rn-s= Rn-b+i + + Bn-s (fljv-e+i + К) Bn-8i (3.20)
Rn-8+i = ®n-8Rn-8+i = (7?jv-t+i + Rn~s+i)
Оптимальное значение функционала при условии, что си-
стема в момент t = tN-s находится в состоянии Zn_8>
определяется следующей формулой *):
^N-s (ZN-s* Rn-sZN-s) + 2 (fN-i* ^N-i+1^N-i)
8 8—1 ________________ TV—s—l
+ 22 tfN_v + S (Vi, KVi), (3.2i)
i>j f=l i=0
где матрицы М? определяются следующими рекуррентными
N—з—1
*) В этой формуле член (^, Kvj) при s = N следует считать
i=o
равным нулю.
§ 3] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 303
соотношениями:
Mn-s = dn_3 -р bn_, (Я]у_8+1 + -R^s+1)»
= BN_SM^1S+1 + ^N-s^N-s+b
= B^MS^ + O^s/W^28+2,
Полученные результаты мы можем сформулировать в
виде следующей теоремы:
Теорема. Оптимальный синтез управления систе-
мой (3.2) с квадратичным функционалом (3.9) при отсут-
ствии ограничений на управление реализует линейная
функция фазовых координат
Vi = BiZi, i = 0, 1, ..., N — 1, (3.22)
где матрицы Bi определяются по формулам (3.20), а оп-
тимальное значение функционала равно
N _______________
Л) = (20> ^о) + 2 +
i=l
N N—l________________
+ 22 (/N_p (3.23)
H+i ;=i
и определяется исключительно начальным состоянием си-
стемы и статистическими характеристиками случайных
возмущений.
Итак, если условия теоремы выполнены, то оптималь-
ный синтез реализуется линейной функцией, причем
матрицы Вь которые мы будем называть матрицами коэф-
фициентов усиления, могут быть рассчитаны по явным фор-
мулам. Реализация машинного счета не встречает ника-
ких существенных трудностей, даже если система (3.2)
имеет относительно большую размерность.
В результате синтеза мы получаем так называемую
систему переменной структуры, когда обратная связь,
осуществляемая функцией vh = Bhzh, меняется с тече-
нием времени.
Заметим, что все расчеты, связанные с построением
синтеза, могут быть сделаны заранее, кроме расчета самого
значения функционала, поскольку в него входит началь-
ное состояние.
304
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. IV
При доказательстве этой теоремы были сделаны сле-
дующие предположения:
1. На управляющие воздействия никаких ограничений
не накладывается.
2. Все компоненты вектора z могут быть измерены
(все фазовые координаты наблюдаемы), и мы можем воз-
действовать на все фазовые координаты системы.
3. Фазовые координаты измеряются без ошибок.
Ниже мы увидим, что изложенные методы при извест-
ных условиях остаются эффективными и в тех случаях,
когда не все фазовые координаты являются наблюдаемы-
ми, не на все фазовые координаты мы можем воздейство-
вать, и измерения производятся с ошибкой.
В реальных задачах коэффициенты усиления — эле-
менты матриц В s бывают ограничены. Как следует из до-
казательства теоремы, эти матрицы определяются только
матрицами R, К и Ф^. Матрица К находится в нашем рас-
поряжении — и, как мы уже отмечали, она может харак-
теризовать штраф за большие значения управляющих
воздействий. Из формул данного раздела видно, что увели-
чение элементов К (т. е. увеличение нормы штрафа) при-
водит к уменьшению коэффициентов усиления. Это
обстоятельство может быть использовано в разумных пре-
делах инженером, проектирующим систему обратной
связи, поскольку для всякого значения коэффициентов
усиления может быть рассчитано не только значение функ-
ционала (3.9), но и функционала (3.3), который главным
образом и интересует инженера.
Если система (3.2) получена с помощью конечнораз-
ностной аппроксимации системы (3.1), то возникает важ-
ный вопрос о зависимости найденных характеристик си-
стемы управления от шага т. Предположим, что мы
использовали разностную схему первого порядка, тогда ве-
личина управляющего воздействия w связана с управ-
лением формулой
«>< = -?-. (3.24)
В непрерывном случае в качестве функции штрафа мы
должны взять величину
Т N-1
J (w (t)9 Kw (t)) dt —x 2 (wu ^м>|).
q w
§ 3] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 305
В рассмотренной нами дискретной задаче в качестве функ-
ций штрафа мы взяли сумму 2 (уь ^уг)- Учитывая
г=0
связь (3.24), находим К = шт. В то же время из формул
(3.20) следует, что
||5^ = 0(ИП
а, следовательно, ||В^|| = О (т) и V{ = О (т).
Таким образом, управляющее воздействие Wi имеет
следующий вид:
= wiQ + О (т’), I 0,
где не зависит от шага т.
Итак, оптимальное управление ш, найденное для диск-
ретной системы, стремится к конечному пределу при не-
ограниченном убывании шага т, и этот предел не зависит
от характера дробления шага.
3. Случай, когда размерность вектора управления
меньше размерности фазового вектора. Этот случай наибо-
лее часто встречается в прикладных задачах. Например,
при управлении динамическими объектами мы можем не-
посредственно воздействовать только на величину ускоре-
ний. В этом случае вектор и входит не во все уравнения
системы (3.2).
Тогда мы можем представить вектор z в виде суммы
z = а + р,
где вектор р ЕЕ Ет имеет размерность т, равную размер-
ности управляющего вектора, причем управление входит
в каждое из уравнений для компонент zn~™+1, ...,ип. Раз-
мерность вектора а равна п — т. Он принадлежит орто-
гональному дополнению к Ет. Управление v не входит
ни в одно из уравнений для компонент вектора а. Введем
обозначение
ф,"
ф“
фП
Ф|21Г
где Ф£х и Ф£2 — квадратные
(га — т) X (га — т) и тХт,
матрицы размерности
Ф»2 и Ф»1 — размерности
306
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
(п — т)Х т и т X (п — тп). С их помощью уравнение
(3.2) можно записать в виде
= Ф?0&к + + /ifc >
(3.25)
Зк+1 = ®21ak + + filt >
к = 0, 1, ..., N - 1,
гДв Ал, fik “ случайные векторы размерности п — т и
т — соответственно. Функционал /дт (zjv) мы примем в
виде
N—1
Jя (zN) = (а^у, Run) + (Злг> SPn) + 3 (у<> ^i)> (3.26)
i=0
где R и S — симметричные положительно определенные
матрицы размерности (п — т) X (п — т) и тХт соот-
ветственно.
Попытаемся решить задачу синтеза системы (3.25) с
функционалом (3.26), применяя метод динамического
программирования. Используя обозначения данного па-
раграфа, выпишем
Jn = (aN> R<*n) + (Pn> ^Pv) 4- (l?iv-b KvN-i) +
N—2
i=0
+ (Ф^-гЗлг-ь ^Ф/v-iPv-i) + 2 (Ф^а^!, ЛФ^-хР^-х)
+ (/1N-1> RflN-1) + 2 (/1ДГ-1, 4-
+ 2 (/itf-i, ЯФ$-хРлг-1) + (Ф^-Л-ь £Фл-1<*лг-1)+
4" (®n-iPn-i? £Ф?£-1₽лг-1) + 2 (Ф^-iOtjv-i, 5Ф^_х3^1) 4“
+ (vn-i, Svn-i) + 2 (vn-ь ЗФл-ха^-х) +
+ 2 (Vn-Ъ ^Ф^-lPjV-l) + (fzN-l) SfzN-l) +
+ 2 (/^-i, S®*n-i<*n-i) + 2 (/глг-ь £Ф/?-1Р1У-1) +
N-2
4" 2 (lty-х, 4" (VN-1i + 2 (pi>
iM)
$ з] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 307
Выделим ту часть JN, которая после осреднения будет со-
держать управление
I (vn-i) = (vjv-i, (К 4- S) Vn~i) +
+ 2 (Pw-if 8 -J- On-iPn-i)). (3.27)
Так как
_ di
^VN-1 dvN-l ’
то оптимальное управление мы найдем из уравнения
Получаем
= (К 4- S)"1 4- (К 4- 5)-* $Ф1Мх-1
ИЛИ
Удг-1 = 5дг-1^-х + (3.28)
т. е. и в этом случае управление сохраняет линейный ха-
рактер. Эту процедуру можно продолжить и показать, что
на любом шаге процесса динамического программирова-
ния оптимальное управление будет линейной функцией
фазовых координат
Щ (3.29)
Примечание. Система (3.2) имеет достаточно
специальный вид. Однако изложенная схема рассуждений
остается полностью применимой и к тому случаю, когда
уравнение, описывающее движение управляемого объек-
та, имеет вид
zh+i — 4“ 4-/л>
где С — некоторая прямоугольная матрица размерности
п X т (т п).
1к. Метод динамического программирования в задаче
с линейным функционалом. Рассмотрим снова динамичес-
кую систему (3.1), но в качестве оптимизируемого крите-
рия мы примем теперь линейный функционал
J = (c,z(T)),
(3.30)
308
ПРОБЛЕМА СЙЙТЕЗА ОПТИМАЛЬЙЫХ СЙСТЕМ [ГЛ. IV
где с — заданный вектор. В предыдущем параграфе уже
говорилось о том, что подобные задачи представляют оп-
ределенный интерес для теории экономических моделей.
Они встречаются также и при исследовании технических
систем управления.
Изучение этой задачи проведем с помощью метода ди-
намического программирования. Для этого перейдем сно-
ва к дискретным уравнениям (3.2) и составим скалярное
произведение
Лу = (^ zjv). (3.31)
Фиксируя Zjv_i, перепишем (3.31) в виде
Jn = ®n-izn-i) + (<\ vn~i) + (с, /n-i), (3.32)
откуда, сохраняя обозначения предыдущего пункта, по-
лучаем
jN-l = (Jn/zN-1) + (с, Фдг-iZjv-l) + (с, У^-1).
Из этого выражения следует, что задача синтеза систе-
мы с линейным функционалом, если ее состояние в момент
t = tN_r задано, сводится к минимизации линейной формы
(с, Удг-i). Эта задача имеет смысл лишь в том случае, если
на управление наложены некоторые ограничения *).
Условимся рассматривать тот простейший случай, когда
векторы Vi удовлетворяют ограничениям
(3.33)
где Vi и vt — заданные векторы **).
Обозначим через yjv-i решение описанной задачи ли-
нейного программирования. Заметим, что оптимальное
управление не зависит от состояния zN_r и определяется
только ограничениями (3.33) и вектором с.
*) Если не накладывать никаких ограничений на управление,
то можно, используя метод штрафных функций, свести задачу с
функционалом (3.31) к задаче квадратичного программирования,
вполне аналогичной той, которая была рассмотрена в предыдущих
пунктах.
**) Неравенство (3.33) является векторным — это значит, что
оно выполняется для всех компонент вектора
§ з] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ ЗОЙ
Пусть теперь нам задано состояние системы z^_2 в мо-
мент t = ^iv-2- Перепишем выражение (3.32)
J N ~ (с» ®N-l®N-2zN-z) + (с> VN-1) +
+ (с» Jn-i +
откуда
Jn2 = (Jn/ZN-2) = (^, ®N-ly^2) + (г> +
+ (£> yN-l)-
Следовательно, z>w_2 определяется как решение следующей
задачи линейного программирования: определить век-
тор z^n-2, доставляющий минимум линейной форме
L = (с, (3.34)
при условии (3.33).
Продолжая по индукции, мы легко установим, что
управление щ (i = 0, 1,..., N — 1) должно быть решением
задачи линейного программирования для функции
Д = (С, ®N-l(I)N-2 • • • Ф|+1^г) (3.34)
при ограничениях (3.33).
Итак, решение задачи синтеза оптимальной системы,
описываемой уравнением (3.2), в том случае, если фукцио-
нал — это линейная форма (3.30), не зависит от состоя-
ния системы и характера случайного процесса F (t) и оп-
ределяется только свойствами объекта (матрицы Ф{)
и системой ограничений.
Примечание. Рассмотрим задачу оптимального
управления: определить вектор-функцию w (£), удовлет-
воряющую условиям
z = Az 4- ш, (3.35)
z (0) = 0
и доставляющую минимум линейной форме (с, z (Т)).
Используя принцип максимума, мы найдем, что в
каждый момент времени t вектор-функция w (t) доставля-
ет максимум линейной форме (р, w), где вектор-функция
р (t) — это решение следующей задачи Коши:
р = - Л*р, р(Т) = - с. (3.36)
310 ПРОБЛЕМА СЙЙТЕЗА ОЙТИМАЛЬЙЫй сйсТей (гЛ. it
Перейдем теперь к дискретному аргументу. Условие мак-
симума (и?, р) мы перепишем в виде
max (pi+1, wi)9
wi
а уравнение (3.36) заменим следующей разностной схемой
первого порядка точности:
а = (/ + т4*) pi+1,
тогда определится из условия;
max (pN, wN_±) = max {— (c, wN^)} = min (c, wN^).
WN-1 WN-1 WN-1
Управление wn.% определится из условия
max (pN.lt wN4t) = max {— ((/ + xA*) c, wN^)} =
wN-2 wN-2
= min (c, (7 + *4*)* wN_2) = min (с, Ф^ги^),
wN-2
и т. д. Таким образом, управление в задаче (3.35), (3.30)
совпадает с тем, которое мы нашли для задачи (3.2), (3.30).
Это позволяет вычисление произведения матриц типа
On_2 ••• ®N-h заменить решением задачи Коши (3.36).
5. Обсуждение. Итак, мы видим, что методы динами-
ческого программирования дают возможность относитель-
но просто найти численное решение целого ряда задач син-
теза линейных систем. Мы получили три важных резуль-
тата:
I. Если на управляющие воздействия не наложено ни-
каких ограничений, то оптимальное управление при квад-
ратичном критерии качества является линейной функцией
фазовых координат w = В (t) z, причем этот вывод спра-
ведлив, каков бы ни был характер случайного процесса
Если же на величину управляющих воздействий нало-
жены ограничения, то управление становится сложной
нелинейной функцией фазовых координат.
Этот результат имеет важное прикладное значение.
В технических системах очень часто синтезируют линей-
ные системы, используя линейные зависимости управляю-
§ 3] ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 311
щих воздействий от фазовых координат. Из результатов
этого параграфа следует, что подобные системы не явля-
ются оптимальными на всем множестве допустимых управ-
лений.
II. Система, которую мы получили в результате син-
теза, является системой «переменной структуры»: матрица
обратной связи В изменяется со временем.
Структура матрицы В достаточно сложная (особенно в
том случае, когда размерность v меньше п), однако все вы-
числения мы можем сделать заранее, причем характер
рекуррентных соотношений позволяет поручить машине
и все формальные (буквенные) преобразования.
III. Мы установили, что в тех случаях, когда критерий
качества является линейным по фазовым координатам,
оптимальное управление не зависит от фазовых коорди-
нат и характера случайного процесса. Оно определяется
исключительно свойствами самой динамической системы.
Этот факт также имеет некоторые следствия прикладного
характера. Предположим, что мы имеем линейную динами-
ческую систему
t = Ах 4- и, (3.37)
например, линейную динамическую модель экономики.
Предположим далее, что управление и (t) выбирается
из условия минимума целевой функции
J = (с, х (Г)). (3.38)
Функция u(t) в экономических моделях определяет
политику в распределении ресурсов. Условимся сначала,
что никаких ограничений на конечное состояние нет.
Предположим, что мы решили эту задачу; функция и (t),
которую мы нашли, согласно терминологии, введенной
в § 1, называется программой.
Рассмотрим теперь движение «реальной» системы, под-
верженной действиям случайных сил, и составим уравне-
ние, описывающее коррекцию. Это уравнение, очевидно,
будет отличаться от уравнения (3.37) только тем, что в
его правой части будет еще одно слагаемое — вектор слу-
чайных возмущений.
Из результатов данного параграфа следует, что скор-
ректированное управление будет совпадать с программ-
ным управлением. Другими словами, никакой коррекции
312 ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
подобной системе не требуется — политика в распре-
делении ресурсов не зависит от возмущений, которые вно-
сятся в систему извне.
Таким образом, система обратных связей и изменение
в структуре распределения ресурсов необходимы лишь в
том случае, если на конечное состояние системы наложены
определенные ограничения.
Заметим, что вопрос о том, как формулировать ограни-
чения, не является тривиальным. Предположим, напри-
мер, что при построении программного управления мы
задались условием
я1 (Г) = а, (3.39)
где а — фиксированная постоянная (в этом случае компо-
нента вектора с в (3.38) должна быть принята равной
нулю).
Под действием случайных возмущений величина х1 (Т)
в «реальном движении» будет уже случайной величиной.
Поэтому говорить о строгом выполнении условия (3.39)
не имеет смысла. Вместо этого условия мы должны нало-
жить какое-либо ограничение статистического порядка,
например, потребовать, чтобы
(^(r)-a)2<ai. (3.40)
Ограничение вида (3.40) существенно изменяет струк-
туру решения, и вывод, который мы сделали о политике
в распределении ресурсов для случая свободного правого
конца, теперь уже перестанет быть верным.
§ 4. Методы динамического программирования
в задачах синтеза с неполной информацией
и при наличии ошибок измерений
1. О постановке задачи. В предыдущем параграфе
мы рассматривали задачу синтеза системы, поведение ко-
торой описывается уравнением в конечных разностях (все
обозначения предыдущего параграфа будут сохранены):
+ fkt (Л
й = 0, 1, ..., N-i, 1 '
и разыскивали управление vk как функцию фазовых ко-
ординат. Тем самым мы предполагали, что все фазовые
| 4j ЗАДАЧИ С ЙЕЦОЛЙОЙ ИНФОРМАЦИЕЙ 313
координаты в любой момент времени нам известны и при-
том абсолютно точно. В реальных задачах мы часто не мо-
жем непосредственно измерить координаты, а измеряем
некоторые величины у, являющиеся функцией коорди-
нат z. Эту функцию в данной работе мы будем считать ли-
нейной
У = Qz. (4.2)
Размерность у в общем случае меньше размерности z.
Матрица Q — это некоторая прямоугольная матрица
т X л, причем т п. Поэтому уравнение (4.2) по
заданному у в общем случае еще не определяет вектор z.
Кроме того, измерение производится с ошибкой, т. е. ве-
личина у — это некоторая случайная величина. Считая,
что измерения производятся также в дискретные моменты
времени t = tk, запишем вместо равенства (4.2) следую-
щее ♦):
Ж) = Qz (tk). (4.3)
Из сказанного следует, что мы никогда не будем знать
точно значений фазовых координат, и, следовательно,
управления vk мы должны разыскивать не как функции
фазовых координат, а как функции их статистических оце-
нок. В этом случае возникает еще один вопрос о выборе
статистической гипотезы. Примем простейшее предполо-
жение о том, что все ошибки распределены по нормаль-
ному закону. Для построения оценок будем использовать
метод максимального правдоподобия.
2. Замечание о методе максимального правдоподобия.
Прежде, чем переходить к изложению особенностей син-
теза в системах с неполной информацией, напомним неко-
торые факты теории статистических оценок, основанные
на принципе максимального правдоподобия.
Пусть измеряется векторная величина у, а — век-
тор измеренных значений ее компонент. Обозначим через
/ (#, It) — многомерную плотность распределения случай-
ной величины Ограничимся рассмотрением того слу-
чая, когда распределение ошибки подчиняется закону
♦) Напомним, что у означает математическое ожидание вели-
чины у.
314
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ
[ГЛ. IV
Гаусса. Тогда
/ (2/, It) = с ехр {— (У — Si, D"1 (У — !«))},
где с — некоторая константа, выбирающаяся из условия
нормировки, a D — матрица вторых моментов размерно-
сти п X п (в том случае, когда у — скаляр, D — это дис-
персия). Эта матрица всегда положительно определенная
и симметричная.
Предположим, что при помощи данного способа изме-
рения произведено к измерении вектора у: £2> •••> £*•
Функцией максимального правдоподобия называется сле-
дующее произведение:
L (у, Ъ, • • •, Ы = / (У, Bi) / (У Л2) • • • / (У. =
к
= с11 ехр {— 4" 3 (У — St»(У — Si))}-
Оценкой максимального правдоподобия величины у
называется то значение которое является корнем урав-
нения
к
= = ^А)
Уравнение (4.4) называется уравнением правдоподобия.
Так как D"1 — симметричная матрица, в результате
дифференцирования получаем
к к
- 3 О-1 (у - Si) = - Д-1 (&У - 2 Bi) = о.
1=1 1=1
В силу положительной определенности матрицы Р”1
имеем
к
У = 4- 2 Bi, (4.5)
г=1
т. е. максимально правдоподобным является среднее ариф-
метическое измеренных значений.
Пусть теперь измеряется не величина у, а некоторая
функция от у, например, Qy, л пусть — измеренное
§ 4] ЗАДАЧИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 315
значение величины Qy. Тогда плотность распределения
измеряемой величины будет / (Qy, &), а функция правдо-
подобия примет вид
к
L= П f(Qy, Ы
i=l
Считая по-прежнему закон распределения нормальным,
составим уравнение правдоподобия —= 0. Это урав-
нение можно записать в следующей форме:
к
31 (Qy - (Qy - g<)i = о,
где D — матрица вторых моментов размерности к X к.
После очевидных преобразований оно примет вид:
д к
2 Ку» Q'D-'Qy) ~ 2 (у» + Gh ] = о
Ь1
ИЛИ
к
kQ'D-'Qy = Q’fr1 3 (4.6)
=1
Пусть у имеет размерность п, и предположим, что век-
тор £ = Qy имеет ту же размерность. Размерность матри-
цы вторых моментов равна п X п. Следовательно, если
матрица Q — невырожденная, т. е. если ее детерминант
отличен от нуля, то матрица Q*D~XQ — невырожденная
матрица, и уравнение (4.6) может быть разрешено от-
носительно у:
1 *
$ = ~к (Q'^Qf1 Q*D-i 3 (4.7)
i=l
Пусть теперь размерность вектора у равна т, причем
т <£п. Тогда Q — прямоугольная матрица размерности
тп х£ге,'^матрица D будет иметь’ размерность т X т.
Следовательно, матрица Q*D-1Q будет иметь размер-
ность п X п. Однако эта матрица всегда оказывается
316
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
вырожденной *), и, значит, разрешить однозначно уравне-
ние (4.6) относительно у нельзя. В этом случае мы можем
иметь оценку только для величины Qy (аналогично (4.5)).
Рассмотрим в заключение этого раздела еще один слу-
чай построения оценки. Предположим, что одновремен-
но измеряются векторы Виц, связанные с вектором у ра-
венствами £ = Qy, ц — Ry, где Q и R — матрицы размер-
ностей т1 X п и т2 X п соответственно, причем С п
и тп2 < п. Плотности распределения вероятностей изме-
ряемых величин будем обозначать через / (Qy, &) и
ф(Яу. T|i).
Предположим, что производится к измерений величи-
ны £ и $ измерений величины ц. Функция правдоподобия
для этой ситуации имеет вид
К 8
L= П/(<2у,^)Пф(^у.пА
г==1 /«1
В качестве оценки величины у мы принимаем корень
уравнения
э»[3 1п/0?У.^) + 2 1пф(Яу,т|,)] =0. (4.8)
г—1 j=l
Будем считать законы распределения величин Qy и
Ry нормальными, а матрицы вторых моментов обозначим
через и соответственно; тогда уравнение максималь-
ного правдоподобия (4.8) можно переписать в следующей
форме:
л
* i=l
8
+ -^ 2 № - w). (Ry - w)l = 0
J=1
или
к
% 2 1(У. Q^Qy) - 2 (у, DI1 У] +
8
+ £ 2 Ку. R*D*Ry)- 2(у, + (П/,р;Ч)1 = о.
♦) Так как ранг произведения матриц не выше ранга сомножи-
телей.
§ 4] ЗАДАЧИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 317
И окончательно
к s
{kQ'D^Q + sR*D^R) у = Q'D? 2 + R'D? 2
i=l )=1
Если матрица, стоящая в круглых скобках, невырож-
денная, тогда это уравнение можно разрешить относи-
тельно вектора у, и мы получаем следующую формулу для
оценки
( к * \
$ = (hQ-D?Q + sR*D?R)-i[Q'D? 2Ь S М•
4 1=1 5=1 7
(4.9)
Для этого, в свою очередь, необходимо, чтобы одна из
матриц Q или R была квадратной.
Итак, для некоторых простейших случаев обработки
информации мы получили формулы оценок измеряемых
величин. Здесь приведены только те сведения из теории
максимального правдоподобия, которые нам будут нужны
для дальнейшего. Более подробно метод максимального
правдоподобия изложен в любом серьезном курсе матема-
тической статистики *).
3. Построение оценок для фазовых переменных. Рас-
смотрим теперь снова систему (4.1) и предположим, что
измеряется величина Qz, причем измерения производятся
в моменты времени t = tk, к = 0, ..., N — 1. Изложим
процедуру построения оценок величины z. Начальное со-
стояние системы будем считать неизвестным.
Пусть |0 — это результат непосредственного измере-
ния начального состояния. Эту величину мы принимаем
в качестве первоначальной оценки вектора z0. Ошибку
этого измерения будем считать распределенной по нормаль-
ному закону с матрицей вторых моментов Д 0 и с плотностью
распределения Д:
/1 (2о> £о) = ci ехР |_— у (zo — 5о> До1 (zo — So))]-
♦) См., например, Б. Л. Ван-дер-Варден, Матема-
тическая статистика, ИЛ, 1960.
318
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
В момент времени t = tQ мы производим, кроме того, из-
мерение у0 (см. (4.2)), ошибки которого распределены по
нормальному закону с матрицей вторых моментов D. Плот-
ность распределения обозначим через /2 (Qz0, у0):
h (*2zo, Уо) = с2 ехр [— у (<?z0 — у0, D'1 (Qz0 — у0))] .
Используя информацию о первоначальном распределе-
нии величины £0 и результат измерения у0, мы можем с
помощью метода правдоподобия получить уточненную
оценку £0 этой величины. Она будет корнем уравнения
правдоподобия:
4 [(1о - U д;1 & - W) + ((< - уо), D-1 (^О-Уо))]=0.
После очевидных преобразований это уравнение при-
мет вид
(До1 + Q*D-^Q) & = д;4о + Q*D-^
или, вводя обозначение
мы можем выписать явное выражение уточненной оцен-
ки
Го = Р0Д^0 + Р^^Уо- (4.10)
Все рассуждения, которые привели нас к формуле (4.10),
остаются справедливыми, какова бы ни была размерность
вектора у0, поскольку До1 — невырожденная матрица
размерности п X п.
Величина £0 является случайной. Вычислим матрицу
вторых моментов До вектора |0, имея в виду, что матрицы
вторых моментов случайных величин и Уо равны До и
D соответственно.
Для дальнейшего нам потребуется следующее утверж-
дение:
Лемма. Пусть случайные величины £, ц и f связаны
соотношением
£ = + и +/»
$ 4] ЗАДАЧИ G НЕПОЛНОЙ ИНФОРМАЦИЕЙ 319
где v — детерминированный вектор, а т] и f -— независи-
мые случайные векторы*), причем f = 0. Тогда матрицы
вторых моментов D%, DnuDf векторов %, ч\ и f соответст-
венно связаны между собой равенством
Di = BD^B* + Df. (4.11)
Доказательство. Так как I = Bfj 4- v, то,
обозначая а = | —• £, £ = ц — if, находим, что а = Bfi 4-/.
Далее вычисляем
п
«*= %bitV + f, i = l,...,n.
8«1
и, используя независимость векторов т] и /, получаем
п ___ ___
^=2 + (4.12)
t, 1=1
Так как aW — компоненты матрицы вторых момен-
тов случайной величины g, а рв|У — компоненты матрицы
вторых моментов величины ц, то, свертывая (4.12), мы
получим формулу (4.11). Лемма доказана.
Используя формулу (4.11), вычислим До — матрицу
вторых моментов величины g0 (4.10) **):
До = (ГОД;Х) До (FoAo1)* + (F0<?’D-i) D (F0Q*D^)*.
Преобразуем это выражение, используя самосопряжен-
ность матриц Fq, Ао и D:
До = Fo {Д^ДоД^Л» + =
= Fo {До1 + Q*D~1Q} Fo = Fo. (4.13)
Используя равенство (4.13), мы можем привести (4.10)
к другому виду, исключив величину До. Для этого преоб-
разуем (4.10), прибавляя и вычитая величину |0:
io = io + (^оДо1 - FoF;1) 4- До^’Р-^о. (4.14)
♦) Векторы т), v, f — имеют размерность п.
**) В (4.10) v, фигурирующее в лемме, равно нулю, а / =
= F^D^y.,
320
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
Так как F.1 = До1 = Q*D~YQ, то (4.14) примет вид
to = - До Q*D~' QI. + До^Р-^о.
Отсюда окончательно
Io = + Д0^*Р-1 (у0 - . (4.15)
Рассмотрим теперь момент времени t = За отрезок
времени [/0, М система перешла из состояния z0 в состоя-
ние %, причем
21 = ®oZO + У0 +/о-
Так как для вектора z0 мы имели уточненную оценку £0,
то в качестве оценки вектора z± мы можем принять вели-
чину определяемую равенством
51 = Фо5о + уо Ч“/о» (4.16)
где/0 — оценка математического^ ожидания ♦). Или, ис-
пользуя (4.15),
51 = Фо5о + xFo (Уо - <?5о) + ”о +/о, (4.17)
где матрица 4% определяется формулой
То = ФоАо*?*#'1 = Фо (До"1 + QtD-'Q)-1 Q'D"1. (4.18)
Формула (4.17) дает связь между начальной оценкой
и оценкой в момент времени t =
В момент времени t = t± производится новое измере-
ние величины у = Qz. Это измерение — величина у19
позволяет получить уточненную оценку Для того что-
бы провести необходимые вычисления, заметим, что ситуа-
ция в момент времени t = tx совершенно аналогична си-
туации в момент времени t = £0: мы снова имеем два из-
♦) Имеет смысл рассматривать несколько случаев. Один из
них состоит в том, что мы можем измерять случайный вектор /,
и тогда /0 — это оценка с ошибкой, матрица вторых моментов ко-
торой равна D^. Иная ситуация возникает тогда, когда мы не можем
измерять случайные возмущения, но знаем характеристики распре-
деления. Тогда мы можем принять в качестве оценки f математи-
ческое ожидание /.
| 41 ЗАДАЧИ G ЙЕЙОЛЙОЙ ЙЙФОрМаЦйёЙ 321
мерения. В качестве одного из них мы имеем оценку £х,
а в качестве второго yv
Матрицу вторых моментов ошибок измерения величин
у будем считать по-прежнему равной D (измерения про-
изводятся одними и теми же средствами). Матрицу вто-
рых моментов Ах случайного вектора мы можем вычи-
слить, используя равенства (4.16) и (4.11):
Дх = ФоДоФ; + D, = Фо (Д^1 + Q*D~1Q)~1®*0 + Dt. (4.19)
Используя теперь уравнение правдоподобия и повторяя
вычисления начала пункта, мы получим следующий ана-
лог формулы (4.10):
+ FX(?*D-^X, (4.20)
где
Л = (AZ1 + Q*D-'Q)-^
матрица вторых моментов случайного вектора £х будет
Аг = Fx. Повторяя рассуждения, мы запишем аналог
равенства (4.15):
11 = £1
и, наконец, новую оценку для момента t =
= ®i£i +^1 (У1 — + vi
где Тх = Ф1А1^*Р"1. Рассуждая далее по индукции, мы
придем к следующему результату, который сформулиру-
ем в форме теоремы:
Теорема. Оценка | (t) фазового вектора z (£), кото-
рый является случайным процессом и описывается разност-
ным уравнением
Zk+1 = ®kzk + Vh +/fej (4.1)
при условии, что в моменты t= tk производятся измере-
ния величины уь = Qzk, удовлетворяет разностному урав-
нению
fch+1 = Ф^к +^h(yh - QW +fk, (4.21)
11 H. H. Моисеев
322 проблема сйптёза оптйМалёйы^ СйсТеМ 1гЛ. IV
где Ть = Фь (Д^1 -j- D — матрица вто-
рых моментов случайного вектора у, а матрица Дл —
матрица вторых моментов случайного вектора удов-
летворяет разностному уравнению
Ь = Фл_х (Д21 + Q'D-'Q)-1®!-! + D,k_v (4. 22)
причем Dfk означает матрицу'вторых моментов случайно-
го вектора fk-i-
Данная теорема позволяет по мере поступления ре-
зультатов измерений определять последовательно оценки
1о> 11» •••
Выпишем еще, используя формулы типа (4.20), (4.16),
уравнение для уточненной оценки £ft+1:
£л+х = Aa+i Аа+1Фа?а + + Да+1Дй+17^ +
+ (4.210
где Дл+1 = ФйДйФл + Итак, предположим, мы
имеем оценку для величины zk. Тогда Zk должна рас-
сматриваться как случайная величина со следующей плот-
ностью распределения:
/ (zft, = с ехр{-1 [((^Ь - Ук), Я"1 (QI* - У*)) +
+ (&-ад. дгЧь-ад)]},
где yh = QzK.
Таким образом, значение zk мы можем представить в
виде суммы zk = + hk, где hk — некоторая случай-
ная величина, плотность распределения которой опреде-
ляется формулой
/ (Л*) = с exp {- A [{Qhk, DriQhk) -I- (hk, Д;хад]} .
Мы видим, что = 0.
4. Построение синтеза при неполной информации. Вер-
немся теперь снова к задаче синтеза управления системой
(4.1) с функционалом (3.9):
N-1
J = (^N» + 2 (yi> (3-9)
<—0
$ 4] ЗАДАЧИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 323
В предыдущем параграфе мы установили, что оптимальный
синтез в том случае, когда мы можем точно измерить вели-
чину z, реализуется линейной функцией фазовых коор-
динат
Vi = BiZi9 (4.23)
причем матрицы Bt определяются формулами (3.20).
Теперь мы рассмотрим тот случай, когда точное значение
Zi нам неизвестно. Вместо него мы имеем оценку & или
уточненную оценку Следовательно, теперь
где hi — некоторые случайные величины, математиче-
ское ожидание которых, как мы установили в преды-
дущем пункте, равно нулю.
Рассмотрим функционал
N—1
J - (zN, Rzn) + 2 (vit KVi). (4.24)
1=0
Делая замену
+ /n-1 =®N-1£n-1 + + TiV-b
где T/v-! = ^N-ihN-i + fN_v приведем его к виду
J = (£w-i. + 2 R®N-M +
+ 2 (»w-i, + 2 (<PN_X, RvN-i) + (<PN_r R<Pn-i) +
N— 2
+ (vn-i> Rvn-i) + Kvn^ + 2 ^vi)’ (4.25)
1=0
Это выражение отличается от соответствующего выра-
жения предыдущего параграфа только тем, что в него
вместо случайного вектора входит случайный вектор
Фл-!, а вместо z^^ — величина его оценки. Поскольку
д? п
Vn_! определяется из условия т----= 0 и не зависит от
dvN-l
случайного вектора, то управление pjv-i определяется так
же, как и в случае задачи с полной информацией, если ве-
личину z заменить ее оценкой
Pjv-i = BN^N^lf (4.26)
где Вдг-i определяется так же, как в выражении (4.23),
формулами (3.20): В^х = — (R 4- К)~х При по-
11*
324 ПРОБЛЕМЫ СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
мощи (4.26) мы исключим управление vN_r из вы-
ражения (4.25). Функционал J примет вид
N-1
7 = <pw_x) + 2 (vif ^). (4.27)
г—О
где I — полином второй степени от и cpN_r.
Затем из выражения (4.27) мы исключим 1 при помо-
щи формулы gjv_i = zN_r — и, наконец, в получен-
ном выражении заменим
= ®JV-2*JV-2 + yN-2 + fN_2 = Фл-гЫ-г + VN-2 + Ф^-2»
где
zN-2 ~ &V-2 + AjV-2, <Pn_2 = Ф^2^-2 + /N_2«
В результате мы приведем J к следующему виду:
J — (vn-2, Rn-iVn-z) + (yiV-2> (Rn-i + Rn-i) Фл-гВл-г) +
+ (фдг-2’ (Rn-i + Rn-i) Vn-%) + (i?n-2, Kvn-%) + Ilf (4.28)
где Zb не зависит от у^_2,
RN-1 = ФлмЯФл-1 + (Dn-iRBn-! + В/7-1ЛФ^-1.
Так как управление находится из условия
--- = 0, то мы получаем
yjV-2 “ Rn-2^>N-29
где Вдг-2 совпадает с той матрицей Bn-2> которая входит
в формулы (4.23):
Bn-2 = (Rn-1 “1“ RN—l + 2K) 1 (Rn-1 H“ Rn-i} &N-2 (^’ 29)
и т. д. Повторяя по индукции эту процедуру, мы придем к
следующей теореме:
Теорема. Оптимальный синтез управления ли-
нейной системой при квадратичном критерии качества
(3.9) в условиях неполной информации реализуется линей-
ной функцией
(4.30)
Vi = B^i,
§ 4] ЗАДАЧИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 325
где — оценка фазовых координат, a Bi определяется фор-
мулой
= (/?i+i + /?г+1 + 2А) 1 (Л|+1 + /?г+1) фр
Итак, оптимальный синтез в условиях неполной ин-
формации реализуется той же линейной функцией, что и в
условиях полной информации, только аргументом этой
функции является не фазовая координата z, а ее оценка,
полученная из метода максимального правдоподобия.
В этом случае управление не будет зависеть ни от харак-
тера случайного процесса /ft, ни от ошибки измерения hk.
Значение функционала, разумеется, будет определяться
и управлениями, и этими случайными процессами.
Заметим, что сформулированный результат не зависит
от того, какую из оценок £ или £ мы используем, посколь-
ку все различие результатов будет содержаться в выраже-
нии для ошибки h, от которой выбор управления не зави-
сит, а зависит лишь окончательный результат, т. е. значе-
ние функционала.
Установленный факт играет важное значение в теории
управляемых систем. Он показывает, что задача построе-
ния оптимального синтеза, т. е. определение закона управ-
ления как функции оценки, и задача оптимальной обра-
ботки наблюдения для линейных систем с квадратичным
критерием качества могут быть разделены.
В этой книге мы рассмотрели лишь первую задачу.
В результате ее решения мы можем определить значение
качества как функцию оценки J (£). Но величина £, а,
следовательно, и J(g), зависит от принятой нами статисти-
ческой гипотезы. Здесь мы условились рассматривать ги-
потезу максимального правдоподобия. Но, вообще говоря,
могут быть приняты и другие гипотезы. Замена одной
гипотезы другой не будет менять найденного закона управ-
ления, но, разумеется, изменит значение критерия каче-
ства. Таким образом, здесь возникает новая оптимизаци-
онная задача.
Примечание. Величина оценки, которая вхо-
дит в формулы (4.30), определяется теорией, развитой в
предыдущих пунктах данного параграфа. Однако теперь
нам придется несколько уточнить формулы для оценок,
которые мы получили ранее, поскольку при их выводе мы
326
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ [ГЛ. IV
исходили из уравнения
Sfe+1 = + vk +
где vh предполагался некоторым детерминированным век-
тором. В действительности, как мы это установили, vk =
= Bh%k — т. е. является случайным вектором. Новые
формулы для оценок мы можем получить, если в старых
формулах положить Ф&=Ф&+^л, vk = 0. Тогда
= Фл^ + Т** (yk — Qlk) + fk,
= Ал+iAfc+i + Afc+i + &k+iQ*D (4.31)
Afe+i ~ Ф* А^Ф^ + Dfk.
Поскольку матрицы B{ могут быть вычислены заранее
до реализации процесса (напомним, что они зависят только
от матрицы Ф^иР/), то величины (f)fe также могут быть
вычислены заранее. Таким образом, вся структура управ-
ления — структура обратных связей определяется до реа-
лизации процесса.
В системе управления должно быть предусмотрено вы-
числительное устройство, задача которого — обработка
измерений ук и вычисление оценок £fe+1.
5. Комментарии и вопросы
А. Возможен качественно другой подход к построе-
нию синтеза. Весь процесс эволюции динамической си-
стемы мы можем рассматривать только в рамках уравнений
для оценок — уравнений (4.21) или (4.21'). Тогда в качест-
ве характеристики процесса мы должны брать не диспер-
сию, а оценку отклонения
N—1
г=0
которая после измерений становится детерминированной
величиной. Такая постановка имеет технический смысл,
однако, при ее реализации мы встретимся с одной трудно-
стью. Уравнения типа (4.21) являются стохастическими:
их правые части содержат случайные слагаемые, которые
становятся известными только после измерения.
§ 41 ЗАДАЧИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 327
Одно из достоинств процедуры, описанной в этом па-
раграфе, состоит в том, что процесс конструирования си-
стемы обратной связи удается отделить от процесса обра-
ботки измерений. Это позволяет проделать основные рас-
четы в процессе конструирования системы, а в контуре
управления иметь весьма простую специализированную
вычислительную машину. Можно ли при реализации пред-
лагаемого подхода добиться такого же разделения задач
построения оценки и матрицы коэффициентов усиления?
Этот вопрос требует исследования.
Б. Представляет интерес изучить некоторые асимпто-
тические свойства обсуждаемых решений задачи синтеза.
Предположим, в частности, что измерения величины у
очень точны. Это значит, что дисперсия ошибок измерения
этой величины мала. Какие упрощения в процедуру син-
теза внесет это предположение? Как осуществить пере-
ход к предельному случаю, когда измерения величины у
абсолютно точны?
Другой крайний случай — это тот, когда точность из-
мерения величины у очень мала; но зато количество изме-
рений очень велико.
В. В данном параграфе мы рассматривали задачи
синтеза, предполагая, что каждая из координат — управ-
ляемая в том смысле, что компоненты вектора и входят во
все уравнения системы (4.1), т. е. предполагая, что векто-
ры z и v имеют одинаковую размерность. Однако, как уже
указывалось в предыдущем параграфе, типичной является
иная ситуация, когда размерность вектора и меньше размер-
ности вектора z. Она может быть сведена к рассматривае-
мой при дополнительном ограничении типа
р? = 0, s = 1,2,..., п— т. (4.32)
В предыдущем параграфе мы видели, каким образом можно
справиться с этой трудностью. Ограничения типа (4.32)
требуют значительно более громоздких выкладок при вы-
числении матрицы обратной связи, однако сохраняют в
силе основной результат: управление vh является линей-
ной функцией оценки, причем управление зависит от оцен-
ки так же, как в случае полной информации управление
зависит от фазовых координат.
Для того чтобы избежать осложнений, возникающих в
случае, когда размерность вектора v Меньше размерности
328
ПРОБЛЕМА СИНТЕЗА ОПТИМАЛЬНЫХ СИСТЕМ (ГЛ. IV
фазового вектора, можно снова воспользоваться методом
штрафных функций. С целесообразностью их введения в
задачах с ограничениями мы уже встретились в предыду-
щем параграфе. Штрафная функция, которую мы исполь-
зовали, имела вид
N-1
F (^о, • •vN) = 2 (”i. Kvi)
i=0
или, если К — диагональная матрица,
N—1 п
(4-33)
1=0 8=1
Если, по условию, vj — 0, то соответствующий коэф-
фициент kj должен быть принят очень большим.
Разумеется, в этом случае уже трудно говорить об оп-
тимальном синтезе в его первоначальной формулировке.
Тем не менее в ряде случаев описанным способом мы мо-
жем получить «хороший» возможный синтез. Заметим, что
мы всегда при этом можем оценить качество полученной
этим способом системы управления, поскольку величина
отклонения от программы
(zjv, RzN)
всегда может быть вычислена, как только управление
v = Bz определено.
6. Еще одно замечание о функциях штрафа. В этой
книге мы не раз подчеркивали значение метода штрафных
функций в теории оптимального управления. В этой гла-
ве, обсуждая основные вычислительные проблемы синте-
за, мы также были вынуждены использовать функции
штрафа. Однако функции штрафа, которые были введены
ранее, имели совершенно иной характер. Напомним, что
в задаче оптимального управления мы рассматривали на-
ряду с функционалом J (и) «штрафованный» функцио-
нал A (и), который был связан с J (и) равенством
A (u) = J(u) + Mi (и),
где X — некоторое положительное число, а А (и) — функ-
ция штрафа — неотрицательная функция, которая обра-
щается в нуль на множестве допустимых управлений.
§ 4] ЗАДАЧИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ 329
Между функционалами /х и J существует одно важное
соотношение. Пусть и* — решение исходной задачи, их —
«штрафованной задачи». Тогда, очевидно,
/1 Ю < A(w*) = J (и*) + h (и*),
но h (и*) = 0, и мы находим
(4-34
Таким образом, решение «штрафованной» задачи дает всегда
нижнюю оценку. Далее, во многих случаях удается дока-
зать, что
lim Jx(u*) = J(u*),
Х-*4~оо
т. е. последовательность их слабо сходится к и*.
Никакого аналога подобных теорем для функций штра-
фа F (и0, введенных в этой главе, доказать не уда-
ется: функции штрафа F (и0, ..., v^) не обращаются в нуль
на допустимых решениях, и даже оценка (4.34) в общем
случае не имеет места.
ГЛАВА V
ЗАДАЧИ СИНТЕЗА, СВОДЯЩИЕСЯ
К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
Общая задача синтеза, которая обсуждалась в § 1
предыдущей главы, как не раз подчеркивалось, очень
трудна. В настоящее время, обсуждая вычислительные
методы, имеет смысл рассматривать только некоторые
простейшие классы задач этой теории. Наиболее просты-
ми классами задач теории синтеза являются задачи син-
теза линейных систем с квадратичными или линейными
функционалами. Для решения этих задач, как мы в этом
уже убедились, могут быть использованы методы динами-
ческого программирования* Однако эти общие и сильные
методы оказываются применимыми лишь в некоторых ис-
ключительных случаях: практическое построение реше-
ния в случае квадратичного функционала оказывается
возможным (если не использовать метод штрафных функ-
ций) лишь при условии отсутствия каких-либо ограниче-
ний на фазовые координаты и управления.
В исследованиях предыдущей главы мы не делали ни-
каких предположений о структуре оператора обратной
связи. Как следствие анализа оказалось, что оператор
управления является линейной функцией фазовых пере-
менных (или оценок).
Если форму зависимости управления от фазовых ко-
ординат системы задать заранее, то задача качественно
упростится, поскольку в этом случае нам остается опреде-
лить лишь некоторые функции времени или параметра. За-
дачи синтеза, в которых форма функциональной зависи-
мости оператора управления задана, превращаются в не-
которые специальные задачи оптимального управления.
Однако, в отличие от задач/которые мы рассматривали в
первых главах этой монографии, дифференциальные свя-
зи и ограничения носят стохастический характер. Это об-
стоятельство вносит целый ряд особенностей в структуру
вычислительных процедур. Анализу подобных задач (ли-
нейных и нелинейных) будет посвящена данная глава.
§1]
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
331
§ 1. Задачи линейного синтеза
1. Предмет исследования. В этом параграфе мы про-
должим изучение проблемы синтеза управления в линей-
ной системе с квадратичным функционалом для тех слу-
чаев, когда на управление наложены ограничения.
Возможность продвижения в данном случае достига-
ется ценой сужения множества допустимых решений: мы
будем искать оптимальное управление в классе управле-
ний, являющихся линейными функциями фазовых коор-
динат. Итак, управление мы будем разыскивать в форме
линейного агрегата
W ~ Cz, (1.1)
где С == || сц (011 — искомая матрица. Эту матрицу мы
будем называть матрицей обратной связи. Ее коэффи-
циенты условимся называть коэффициентами усиления.
Их значения могут быть стеснены различными условиями,
которые мы будем записывать в виде
c(=Gc. (1.2)
Наиболее часто мы сталкиваемся с ограничениями вида
Cij Cij ч (1*2)
где Cij и ci) — заданные числа.
В практических задачах не все координаты могут быть
измерены, и поэтому управление W может быть функцией
только некоторых из компонент вектора z. Далее, не на
все фазовые координаты мы можем непосредственно воз-
действовать управлением. Например, мы не можем непо-
средственно изменить положение механической системы—
мы можем изменить лишь скорость системы. Таким обра-
зом, в реальных системах управления матрица С будет
иметь размерность п' X п", где п' и пп удовлетворяют
неравенствам < п и л" < п, л - размерность фазового
вектора. Величины п' и п" должны быть заданы — это
конструктивные характеристики.
Легко видеть, что данная ситуация полностью вклады-
вается в ограничения вида (1.3). Можно считать, что мно-
гие из элементов матрицы С равны нулю. Эти элементы
также удовлетворяют ограничениям вида (1.3), где соответ-
ствующие им величины ci} и равны нулю. Матрицу
332 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
С (0, удовлетворяющую условиям вида (1.2)—(1.3), мы
будем называть допустимой. Итак, мы будем изучать ди-
намические системы, поведение которых описывается
уравнением
z = A(t)z +C(t)z +F(t). (1.4)
Здесь A (t) = || (£)|| — заданная матрица, F (t) — слу-
чайный процесс. В этом параграфе мы будем считать, что
F(t) нам задан; либо мы знаем все его корреляционные
функции (мы увидим ниже, что нам достаточно знать мат-
рицу вторых моментов), либо нам известно каноническое
представление случайного процесса. Не ограничивая общ-
ности, мы можем принять, что F (t) — 0.
Начальное значение вектора z
z (0) = zQ (1.5)
мы будем считать случайной величиной с нулевым матема-
тическим ожиданием z0 = 0. Как частный случай мы мо-
жем рассмотреть тот, когда начальное состояние нам из-
вестно заранее или измерено в момент начала движения.
В качестве критерия для выбора функций сц (t) мы
примем функционал
J = (z, 7?z)z==T, (1.6)
где R = || Пу || — заданная матрица. В практических зада-
чах матрица R всегда симметрична, а квадратичная форма
(1.6) — положительно определенная. Это условие мы со-
храним и в данной работе.
Итак, задача, которая изучается в данном параграфе,
состоит в отыскании допустимой матрицы С (/), достав-
ляющей минимум функционалу (1.6). Эту задачу мы и бу-
дем называть задачей о линейном синтезе.
Для дальнейшего нам будет удобно вместо системы
(1.4) рассматривать следующую:
z =Dz +F, (1.7)
где D = А + С. Матрицу D мы будем считать неизвест-
ной. В силу неравенств (1.3) ее коэффициенты будут стес-
нены условиями
гпе (0 < di3 (0 < 4 (0, (1.8)
dii (t) = Oij (t) -J- cifr dtj = aij (0 + ctj*
§ 11
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
333
2. Сведение к задаче оптимального управления. Сфор-
мулированная задача может быть сведена к задаче опти-
мального управления специального вида. Для того чтобы
это показать, рассмотрим систему уравнений, сопряжен-
ную системе (1.7):
Р = — D*pt
(1-9)
где D* — матрица, сопряженная Z). Используя (1.9), на-
ходим
7<(Р. z) = (p,F)
ИЛИ
т
(р(Т), z (Г)) = (Р (0), z (0)) + J (р (0, F (0)dt. (1.10)
о
Рассмотрим теперь векторы удовлетворяющие урав-
нению (1.9) и следующим условиям при t = Т;
(1.11)
где б’ — символ Кронекера. На основании (1.10) мы бу-
дем иметь
т
2* (Z) = (р{ (0), Z(0))+ j(p<(0, i = l,..., n.
0
Составим выражение для функционала (1.6)
п п
J - 2 razi (г)zi Ю = 2 {’•i>^pj(O)pf‘(O) +
i, 3=1 t, з, e, fc=l 1
T[T ______________
+ И г/ (*i) Pk W P'j (*i) P^ &) . (1.12)
о о y
При выводе выражения (1.12) мы предполагали, что
начальные значения вектора z и случайный процесс F(t)
взаимно не коррелированы.
Первое слагаемое в выражении (1.12) — это квадратич-
ная форма от начальных значений компонент векторов
334 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Введем обозначения
п п
3 rii^р’ (°) (°) = 2 п*PJ (°) Pi (°) =
i, Л •» Л=1 i, Л з, £=1
= -Р(Р3 (0). Pi(0))»
где
ГН = rijz*zo‘
Второе слагаемое в выражении (1.12) — это интеграл от
квадратичной формы компонент векторов р^. Введем обо-
значения
Т Т п ________________________
И 2 nZ («1) Рк (М Р} &) Р? W dh di. =
О О г, j, в, Л=1
Т Т п ~
= f J 2 rij (^i> М Ру (^i) CQ dhdt^ ==
О О i, j, в, k—l
т т
“ J J Q (^1» ^2» Pj (^1)> Р< (^2)) ^1^2»
О О
где
h) — гцР* (tj
Итак, функционал (1.12) мы можем представить в виде
т т
J = Р (pj (0), Pi (0)) + J J Q pj (£x) Pi (t2)) dt2. (1.13)
о 0
Каждый из векторов G и удовлетворяет уравнению
(1.9). Введем пространство Rn2 — прямое произведение
евклидовых пространств Я? и вектор yG Rn\ векторные
компоненты которого равны G Л? (i = 1, 2, ..., п).
Тогда для вектора у мы будем иметь следующее дифферен-
циальное уравнение:
У = В (t))y,
(1.14)
$ 1]
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
335
где матрица В, зависящая от неизвестных функций (/),
размерность которой равна п2, имеет вид
5 =
Компоненты векторов связаны очевидными соот-
ношениями
Р? = у(<-1)п+8.
Компоненты вектора у должны при t = Т удовлетворять
следующим краевым условиям:
г/°-1)п+*(Г) = 6?. (1.15)
Соответственно с этим функционал (1.13) мы можем пере-
писать в таком виде:
т т
J — Р (Уо) + J J Q (^1> ^2, У (^1), У (^2)) ^2»
о о
где
п п2
Р(Уо) = S г^(0)р?(0)= 3 ет1Уту1 = (г),Еу),
i, Ь 8, К=1 m> Z=1
п п2
Q = 2 r^PjPi = S 4>miymy‘ = (у, ®У)-
г,8, т, 1=1
Индексы i, /, 5, к и /п, I связаны равенствами
ш = (у — 1) п + 5, I — (i — 1) п + к.
Эти равенства однозначно определяют ш и I по значениям
i, /, s, к. Поскольку г, /, $, к— целые положительные числа,
не превосходящие п, то при заданных /пи / однозначно
определяются и i, j\ st к. Пусть, например, мы задали чис-
ла ш п и I п. Тогда из равенства
336 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
следует, что к = Z, i = 1. Это будет единственное решение,
удовлетворяющее нашим ограничениям.!
: Аналогично находим s — т, j = 1. Если п < I 2п,
то к = I — n, i = 2 и т. д. Наконец, если п (п — 1) <
< I < п2, то к = I — (n — l)n, i = п.
; Используя эти соотношения для индексов и симмет-
рию матрицы R и корреляционной матрицы ||zj zj||, легко
доказать самосопряженность матрицы Е.
Пусть I п, т п. Вычисляя последовательно
emt и е1т, находим что в первом случае i = 1, к = Z,
7 = 1, $ = т. Во втором случае i = 1, к = т, j = 1,
s = I. Таким образом,
„ __Z.ml___~ ml
eml — rll — r 11^0 20>
z, Z.lm - -I
elm — П1 — 7-nZoZo ,
t. e. emi —
Для полного доказательства нам надо перебрать все
возможные комбинации n < Z 2n, т п; п< I 2nt
п < т ^2п и т. д.
Матрица Ф в общем случае может быть и не самосопря-
женной, поскольку может оказаться, что Fs (Z) Fk (Z2) =/=
=j=Fk (Zx) Используя эти обозначения, функционал
J можно переписать в следующей форме:
т т
J = (У (0), Еу (0)) + П (У («1), ф («1. м У &)) <Й2. (1.16)
о о
Итак, мы пришли к утверждению, которое сформули-
руем в виде теоремы:
Теорема. Задача линейного синтеза (1.1) - (1.6)
эквивалентна следующей задаче оптимального управления:
определить управления (Z) и фазовую траекторию
у (Z) €= /?п\ удовлетворяющие условиям (1.14) — (1.15) и
доставляющие минимум функционалу (1.16).
Таким образом, задача линейного синтеза сведена к
некоторой специальной задаче теории оптимального уп-
равления. Однако в общем случае эта задача оказывается
еще достаточно сложной. Заметим прежде всего, что эта
задача существенно нелинейна. Далее, ее размерность мо-
жет оказаться весьма большой. Если в формировании
функционала участвуют все п составляющих фазового
§ 11
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
337
вектора, то размерность вектора у равна тг2. Однако это
не единственная трудность, с которой мы здесь сталкива-
емся. Вторая (и может быть главная трудность) состоит
в том, что функционалы (1.16), с которыми нам приходится
иметь дело, не относятся к тому типу, который обычно рас-
сматривается в вариационном исчислении и теории опти-
мального управления, и для изучения подобных задач у
нас нет готовой теории. Для этой общей задачи, как мы
увидим, также может быть сформулирован принцип мак-
симума. Однако его трудно использовать для фактического
решения задачи, поскольку уравнения для множителей
Лагранжа (сопряженных переменных) оказываются
интегро-дифференциальными, и вычисления с их помощью,
даже для относительно простых задач, весьма громоздки.
Одна из трудностей, с которыми приходится сталкиваться,
состоит еще и в том, что задача после ее дискретизации ока-
зывается неаддитивной, и различные эффективные методы
уточнения допустимого решения, использующие свойства
аддитивности (метод блуждающей трубки, метод локаль-
ных вариаций), в этой теории непосредственно не могут
быть использованы.
3. Градиентные методы. Обсуждение возможных вы-
числительных схем начнем с изложения методов градиент-
ного спуска.
Предположим, что из тех или иных соображений мы за-
дали матрицу обратной связи В (£). Решая задачу Коши
для системы (1.14), мы найдем значения вектора у (£), со-
ответствующие управлению В (t), а по формуле (1.16) мы
вычислим величину функционала J. Положим
В = В 4- 55,
У = У + бу.
(1-17)
Делая замену (1.17) в уравнении (1.14) и отбрасывая сла-
гаемые, содержащие произведение ЬВЬу, мы получим сле-
дующее уравнение для бу:
8у = Б8у + 8Ву. (1.18)
Функция бу (i) при t = Т должна удовлетворять следую-
щим данным Коши:
бу (Т) = 0.
(1.19)
338 СВЕДЕЙИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Выведем теперь формулу для вариации функционала.
Делая в (1.16) замену (1.17) и отбрасывая произведение
бВбу, получим
тт
8J = (МО), ВДО)) +JJ(W, K(tlt t^y^dt^, (1.20)
О о
где
^(^1» Ц) — Ф (fa t2) + Ф * (^2» ^1)>
Ег = 2Е.
т
Если обозначить через к (t) вектор к (t) = J К (t, t2) у (t2) dt2,
о
то в выражении (1.20) останется только однократный
интеграл
т
М = (бу (0), с) + f (бу (t)( к (0) dt, (1.21)
о
где
с = Е1у(0).
Таким образом, если мы задали вариацию управления
SB, то вариация фазового вектора бу определится как ре-
шение задачи Коши (1.18), (1.19), а вариация функционала
может быть вычислена по формуле (1.21).
Полученные формулы позволяют поставить следующий
вопрос: каким образом выбрать допустимую вариацию 6В,
чтобы вариация функционала 6J была минимальна. От-
вет дается решением следующей задачи Больца: определить
функции 6В (t) и бу (0, доставляющие минимум функцио-
налу (1.21) при дифференциальных связях (1.18), крае»-
вых условиях (1.19) и условии (1.8), которому должны
удовлетворять элементы матрицы В Ц- 6В.
Эта задача может быть сведена к двум задачам Коши
размерности п2 путем сведения задачи Больца (1.21) к
задаче Лагранжа и применения принципа максимума
Понтрягина. Так как
т т
бу (0) = - J 6y(t) dt = -$ (Ббу + бВу) dt,
о о
J
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
339
§ 11
то функционал (1.21) можно переписать в следующем виде:
т
8J = J [ (бу, (к — Ё*с)) — (8Ву, с) ] dt. (1.22)
о
Для задачи (1.18), (1.22) выпишем теперь 17-систему:
бу = Ябу + бВу, (1.18)
ф =+ (1.23)
Функция ЪВ определяется из условия максимума
функции Н:
Н = (^ + с, ЬВу) = ^бб^(Ч>* + q) (1.24)
г» У
при ограничениях
+6ЬО<4. (1.24')
Так как на значения бу (0) не накладывается никаких ус-
ловий, то
Ар (0) = 0. (1.25)
'Итак, схема расчета 6В и бу состоит из следующих
этапов:
а) Решаем задачу Коши (1.23), (1.25).
б) Находим 6В — для этого находим минимум линей-
ной формы (1.24) при ограничениях (1.24').
а) Решаем задачу Коши (1.18), (1.19).
Выполнив все перечисленные процедуры, мы вычислим по
формулам (1.17) новое значение элементов матрицы коэф-
фициентов усиления В± = В 6В и новое значение век-
тора = у + бу.
.Описанную процедуру можно использовать для орга-
низации спуска. Прежде всего мы вычисляем новое зна-
чение функционала J (у±). Если при этом окажется, что
J (Ух) < J (5), (1-26)
то величины ух и В± мы можем взять в качестве новых при-
ближений и повторить описанную процедуру, в результате
которой мы найдем у2, В2 и т. д.
340 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ.У
Если неравенство (1.26) не будет иметь места, и ока-
жется, что
то мы должны в качестве нового управления принять ве-
личину
В = В +XS5,
где % — положительное число: 0 < 1. В этом случае
функционал J становится функцией %, и мы выбираем зна-
чение параметра из условия
минимума J (X).
4. Случай, когда возму-
щение является стационар-
ным марковским процессом.
Все расчеты значительно уп-
рощаются, если корреляцион-
ная функция имеет специ-
альный вид, допускающий
переход в выражении (1.1Q)
к функционалу с однократ-
ными интегралами.
Предположим, что случай-
ный процесс F (t) в уравне-
нии (1.4) является стационарным марковским процессом
с гауссовским законом распределения. Тогда, согласно
теореме Дуба (Doob) *), корреляционная матрица случай-
ного процесса F (t) имеет вид
* («!, (*1) || = '’‘М К,
где К — симметричная матрица, не зависящая от времени.
Число к называется коэффициентом корреляции.
В этом случае матрица Ф (in i2), введенная в п. 2,
может быть представлена в виде
Ф(*1, =
где Т — симметричная матрица, не зависящая от времени
(доказательство симметрии матрицы Т проводится анало-
♦) Дж. Л. Дуб, Вероятностные процессы, ИЛ, 1962.
§ 1] ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА 341
гично доказательству симметрии матрицы Е в п. 2 на-
стоящего параграфа).
Рассмотрим интеграл в формуле (1.16)
т т
I = J J (У (^i)» Ф Gi» ^а) У (^)) dh. dt* =
о о,
= Ty(t2))dt,dt2,
Здесь G — квадрат (рис. 1.1). Обозначая через Gt и Сг2
два треугольника, изображенные на этой фигуре, мы
можем написать
I = JJ (У (<1), Ъ &)) dtidt, +
G,
поскольку в области G± t2^> а в области G2 имеет место
обратное неравенство.
Вычислим
Z1 = П е~^ (У <&’ ^У &)) dt* d4 =
Gi
Т tt
= J J e~k^ №). Tj/(f2))^df2.
0 0
Заменим в этом выражении на t2, a t2 на
т /1
а = И е’*('Н1) (у ^у dt*dt»
о .0
или, в силу самосопряженности матрицы Т:
т «1
Л = Л e-k^(y Yt/(«2))df2dZ1.
О о
Отсюда видно, что
/2 = J J (у &), Ту (f2)) dt2 dt, = I,.
G2
342 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ.У
Итак, функционал (1.16) может быть переписан в сле-
дующем виде:
т t
J = (y (0), Еу (0)) 4- 2 J e~kt (у (t), J e^Yy (r) dr) dt. (1.27)
Введем новую векторную переменную | размерности
п2 при помощи соотношений
а = 5(0) = 0. (1.28)
Теперь мы пришли к следующей задаче: определить век-
тор-функции у (t) и 5 (0 и управление В (t), доставляющие
минимум функционалу
т
J = (y (0), Еу (0)) + 2 J (у (0, 5 (0) dt. (1.29)
о
Заметим, что скалярное произведение (у (Т), Еу (Т)) —
это известная величина. Поэтому вместо функционала
(1.29) нам достаточно рассмотреть функционал
т
Л = J (у (t), I (0) - (Еу, By)] dt. (1.30)
о
Теперь мы получили уже обычную задачу теории оп-
тимального управления, правда, размерность этой задачи
равна 2 п2.
5. Градиентный спуск в случае, когда внешние возму-
щения — стационарный марковский процесс. В п. 3 на-
стоящего параграфа мы рассмотрели метод градиентного
спуска для общего случая. Основная вычислительная труд-
ность, с которой мы столкнулись, состоит в необходимости
вычислять и помнить функцию вида
т
к (t) = J К (t, т) у (т) dr.
о
В том случае, когда функционал представлен в форме
(1.29), в этом нет необходимости.
Обозначим через В некоторое начальное управление.
Тогда, решая задачи Коши для уравнений (1.14) и (1.28),
§ 1] ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА 343
мы находим начальное приближение для вектор-функций
у и £. Положим
у = у + бу, I = B + В = В + ЬВ.
Подставляя эти выражения в уравнения’ (1.14), (1.28) и
функционал (1.30) и проводя линеаризацию, получим
8у = Б8у + &Ву, (1.31)
6£ = ?'Тбу, (1.32)
т
6Л = j К* [(6уЛ) + (У, 6|)] -
- [бу, (ЕБ + В*Е) у - Еу, SBy]} dt.
Функция бу обращается в нуль при t = Г, а функция £ об-
ращается в нуль при t = 0. Никаких ограничений на зна-
чения у (0) и | (Т) не накладывается. Поставим снова
задачу отыскания 65, доставляющего минимум функциона-
лу 6JX. Для этого составим функцию Гамильтона и урав-
нения для множителей Лагранжа (сопряженных перемен-
ных) фу и ф^:
Я = (ф„,Лбу) + г,(ф5,Тбу) +
+ (бу, (ЕВ + TFE) у) -е*(бу, |) - е*(у, б?) + Яг,
= (Еу, ЬВу), (1.33)
% = - В^9 - + e~ktl- (ЕВ + В*Е) у, (1.34)
th = e~kty. (1.35)
Условия трансверсальности нам дают
♦/(0) = о, (1.36)
(Т) = 0. (1.37)
Выпишем в заключение общую схему одного шага гра-
диентного спуска:
а)’Решаем задачу Коши (1.35), (1.37) и запоминаем
функцию ф^.
б) Решаем задачу Коши (1.34), (1.36)~и запоминаем
функцию фу (Q.
в) Находим б5^из условия максимума функции Нх.
344 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
С этой целью мы должны для каждого t решить задачу
линейного программирования.
г) Положив В — В XSB, определяем минимум
J\ (X) для значений Хе (0, 1].
6. Видоизменение описанной процедуры. Рассматри-
ваемая задача о минимизации функционала (1.30) облада-
ет одной особенностью: на значение векторов у (0) и £ (Т)
никаких ограничений не накладывается. Это обстоятель-
ство позволяет использовать схему последовательных
приближений, аналогичную схеме Крылова — Черноусько
(см. гл. II, § 4).
Для задачи (1.14), (1.15), (1.28), (1.30) составим Л-сис-
тему:
н = (%, By) + еы (^, Т) - e~kt (у, |) + (Еу, Бу),
ф, = - В'% - - (В*Е + ЕВ) у, (1.38)
= е~ыу. (1.39)
Управление В (t) находится из условия максимума:
Н1 = (Ч>„ By) + (Еу, By). (1.40)
Схема последовательных приближений выглядит те-
перь следующим образом. Пусть задано управление В0,
которое мы принимаем за нулевое приближение. Посколь-
ку, согласно (1.15), у (Т) нам известно и, кроме того,
(Т) = 0, то мы решаем одновременно задачи Коши справа
налево для уравнений (1.14) и (1.39). В результате полу-
чаем некоторые функции у° (0 иф^ (t). Значения этих функ-
ций можно не запоминать. Нам достаточно вычислить
у° (0) И1|)| (0). Так как £ (0) = 0 и (0) = 0, то теперь мы
можем решить задачу Коши слева направо для системы
уравнений (1.14), (1.28), (1.38). Одновременно на каждом
шаге процесса численного интегрирования мы решаем за-
дачу линейного программирования для линейной формы
(1.40). В результате находим матрицу B1(t), которую и
запоминаем. Далее повторяем всю описанную процедуру,
приняв в качестве матрицы BQ матрицу В±.
Примечание.
1. Данная схема рассуждений имеет ту же цель, что
и схема градиентного спуска, рассмотренная в предыду-
щем пункте данного параграфа: построить итерационную
| 1 ЗАДАЧИ ЛИЙЕЙЙОГО СЙЙТЁЗА 345
схему, последовательно улучшая управления. По сравне-
нию с методом градиентов она требует меньшего объема
оперативной памяти машины.
2. Для улучшения сходимости метода мы можем всег-
да воспользоваться стандартным приемом: принять в ка-
честве нового управления матрицу
В% = Bq + % (Вх — Z?o),
где X ЕЕ (0,1), и подобрать 1 из условия минимума исход-
ного функционала.
7. О релейном характере коэффициентов усиления.
Продолжим изучение задачи оптимизации функционала
(1.6) при условии, что динамический процесс описывается
уравнением (1.7), где элементы матрицы коэффициентов
обратной связи D удовлетворяют ограничениям (1.8).
Функционал J является сложной нелинейной функцией
элементов матрицы D:
J = J (D). (1.41)
Если воспользоваться формулой Грина, то функция (1.41)
может быть выписана в явном виде, и мы придем к некото-
рой задаче нелинейного программирования. Структура
этой функции окажется весьма сложной, и сделать какие-
либо качественные заключения о природе решения труд-
но. Подход, который развит в этом параграфе, позволяет
с большей полнотой изучить некоторые общие свойства син-
тезируемых систем, поскольку он сводит исследование к
стандартной задаче оптимального управления, которую
можно изучать с помощью принципа максимума Л. С. Пон-
трягина.
Мы имеем, что исходная задача эквивалентна задаче
отыскания минимума функционала (1.30) при ограниче-
ниях (1.14), (1.15) и (1.28).
В предыдущем пункте мы доказали, что матрица В
необходимо должна доставлять максимальное значение
функции Ях, которую мы можем переписать в следующем
виде:
= (Ф„ +Еу, By) = (С, By), (1.42)
где С = % -\-Еу. Перепишем (1.42) в скалярном виде
t.i
346 сйеДейие к задачам оптимального управления (гл. v
Эту форму можно представить еще в таком виде:
п1
ях = 2 6А. (1-43)
8=1
где bs — надлежащим образом перенумерованные элемен-
ты bij. Так как элементы bs совпадают с элементами du
матрицы D, то они удовлетворяют ограничениям типа
(1.8), которые мы перепишем так:
(1.44)
Очевидно, что решение задачи линейного программирова-
ния (1.43) — (1.44) при as =/= О принимает граничные зна-
чения: Ь8 = Ь8 при as О, bs = bs при as< 0. Таким
образом, при as =/= 0 коэффициент усиления является ре-
лейной функцией времени. Это обстоятельство может быть
использовано для построения численных методов. В неко-
торых случаях удается показать, что число переключений
не превосходит единицы.
Если на некотором отрезке времени а8 — 0, то имеет
место особый режим *).
8. Анализ специальных случаев.
а) Процесс F (t) сильно коррелиро-
ван. В этом случае в выражении для корреляционной
функции
Я(М8) = е"*",г,‘|я.
показатель к — величина малая.
Если в уравнениях (1.28), (1.38) и (1.39) положить
к — 0, то они примут следующий вид:
% = - + & - [&Е + ЕЕ) у, (1.45)
♦) Возможность существования особых режимов в задачах
синтеза показана в работе: И. А. В а т е л ь, Е. М. Ш е в ч е н к о,
Об одном классе задач линейного синтеза, Автоматика и телемеха-
ника, № 10, 1971.
§ 11 ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА 347
Система (1.45) не содержит быстрорастущих множите-
лей и удобнее для численного интегрирования, нежели
система (1.28), (1.38) и (1.39). Кроме того, эта система до-
пускает первый интеграл
£ = + с.
Так как 'ife(T) = 0, то постоянная С определяется следую-
щим образом:
т
C = l(T) = $4?ydt.
О
Это обстоятельство также может служить источником ря-
да упрощений для численного счета.
б) Процесс F (0 слабо коррелирован.
В этом случае к — величина большая. Рассмотрим исход-
ное выражение для функционала (1.16) и выпишем выраже-
ние для двойного интеграла
т т
Z = J J (у (^), Ф (Z19 t2) у (t2)) dt± dt2 =
о о
т т
= J J е-*1 (у &), Ту &)) dt2 =
О о
т t
= 2 (у (t), f екх Ту (т)dr)dt. (1.46)
Преобразуем это выражение, вычислив внутренний интег-
рал по частям:
т
I = Ty^dt + ^I.,
о
т т t
А = J е~ы (у (0, Ту (0)) dt - J e~kt (y(t),$ екх Ту (т) dr\ dt.
о о о '
Повторяя аналогичные выкладки для интеграла Д,
мы убеждаемся в справедливости оценки 1Х = О (1/&),
348 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
и, следовательно, интеграл (1.46) представим в виде
т
/=4 $ w)dt+° • <1Л7>
о
Заменяя в выражении (1.16) двойной интеграл его
оценкой (1.47) и отбрасывая величины О (ilk2), приходим
к задаче со следующим функционалом:
т
J = (y (0), Еу (0)) + 4 jj (у (0, *У («)) dt. (1.48)
О
Выше мы видели, что
т
(у (0), Еу (0)) = (у (Т), Еу (Т)) - 2 J (Еу, By) dt.
о
Делая эту замену в интеграле (1.48) и отбрасывая слагае-
мые, не зависящие от искомых величин, мы придем к за-
даче с функционалом
т
Л = (1Л9>
О
Легко видеть, что размерность задачи с функционалом
(1.49) равняется п2, в то врем# как размерность задачи с
функционалом общего вида (1.30) равнялась 2п2.
Таким образом, в случае слабой корреляции внешних
возмущений вычислительные трудности определения оп-
тимальной матрицы обратной связи значительно умень-
шаются. В предельном случае к = оо система управления
должна компенсировать только начальные возмущения.
Заметим еще, что случай малокоррелированных внешних
возмущений очень часто встречается в практических за-
дачах.
в) Корреляционная [функция явля-
ется функцией Дирака:
Ф(^, /2) =
где Ф — некоторая постоянная матрица.
и]
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
349
В этом случае
т т т
J J (У (М» Ф Gi» ^2) У (^2)) dti dt2 = J (у (0, Фу (0)
оо о
т. е. в этом случае задача линейного синтеза также сводит-
ся к обычной задаче оптимального управления с однократ'
ным интегралом.
9. Применение канонических разложений. До сих пор
мы все время предполагали, что процесс F (t) задан своей
корреляционной матрицей. В этом случае функционал
содержит двойной интеграл, и задача может быть серьез-
но упрощена только в том случае, когда процесс F (t)
является стационарным и марковским с гауссовским за-
коном распределения. Однако далеко не всякий процесс
можно схематизировать как марковский процесс. Поэто-
му в последние десятилетия при решении инженерных за-
дач все чаще случайный процесс начинают аппроксими-
ровать агрегатом
г
F(0 = 3«i<Pi(0. (1-50)
г=«1
где oq — взаимно некоррелированные случайные векторы,
а ср* (0 — определенным образом подобранные детермини-
рованные функции времени.
Представление (1.50) называется каноническим раз-
ложением случайного процесса *). Если случайный про-
цесс нам задан своим каноническим разложением, то кор-
реляционную матрицу легко вычислить:
K(tu t2) - ||F1 &) F’(f2)II = I 3<P,(f2)I. (1.51)
Р» (L
♦) Каноническое представление дает весьма гибкое описание
случайного процесса, удобное для расчетных целей. Заметим, что
процедура обработки наблюдений, приводящая к каноническому
заданию случайного процесса, не более трудоемкая, нежели про-
цедуры, приводящие к другим описаниям. К некоторым вопросам,
относящимся к теории и использованию канонических представле-
ний, мы вернемся в § 3 этой главы.
350 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Но так как векторы ар и aQ независимы, то К (t1912) —
г _________
= || у, офХдфд (*1) <Pg (t2) ||. Используя (1.51), преобразуем
двойной интеграл в формуле (1.12):
т т _____________
J J Pi W =
о о
= S rij^q^q J Pj (0 Tq (0 & J (t) фд (t) dt =
q=l 0 0
r T T
= 2 H'a J Pi (0 Фа (0 dt j P*i (0 Фа (0 dt-
Q—1 0 О
Переходя теперь к переменной у, второе слагаемое в
формуле (1.12) мы можем переписать так:
т т
2 У J rijP Gi) Р (^а) Pi (^i) Pi (М ^2 ~
,j,k,8 о о
г п2 Т Т
= 22 gmiq j ym (0 Фа (0 dt J У1 (0 Фа (о dt’
q=l m, 1=1 О О
Введем новые векторы:
| = УФа> М0) = 0. (1.52)
Тогда окончательно функционал (1.16) мы можем предста-
вить в следующем виде:
г
j = (У (0), Еу (0)) + 3 (£, (Г), G& (Т)). (1.53)
Q=1
Здесь Gq — матрица с элементами gmiq.
Итак, в том случае, когда случайный процесс внешних
возмущений задан своим каноническим разложением, мы
приходим к следующей задаче. Определить вектор-функ-
ции у (t), (t) и управление В (t), доставляющие минимум
функционалу (1.53) при условиях (1.14), (1.15) и (1.52).
Размерность полученной задачи весьма большая —
(г 4- 1)п2. Однако следует иметь в виду два обстоятельст-
ЗАДАЧИ .ЛИНЕЙНОГО СИНТЕЗА
351
i 11
ва. Во-первых, описанная процедура редукции примени-
ма к задачам линейного синтеза в самом общем случае,
каков бы ни был случайный процесс внешних возмущений
F (t). Во-вторых, задача оптимального управления, кото-
рую мы получили,—это задача со свободным концом*).
Последнее обстоятельство значительно облегчает ее чис-
ленное решение.
10. Роль ошибок в контуре обратной связи. В этом па-
раграфе мы рассматриваем проблему управления систе-
мой, которая описывается уравнением (1.4). Управление
W (z) при этом мы все время считаем линейной функцией
фазовой переменной
W = С (t)z. (1.54)
Соотношение (1.54) реализует обратную связь. Значе-
ниям фазовой переменной z оно ставит в соответствие ве-
личину управляющего воздействия, изменяющего состоя-
ние системы.
Возможность представления обратной связи в форме
(1.54) опирается на следующую гипотезу: фазовые коорди-
наты z (t) в любой момент времени могут быть точно изме-
рены. В действительности мы измеряем эти величины всег-
да с некоторой ошибкой. Более того, мы измеряем не са-
ми величины z (t), а некоторые функции этих величин.
С этим обстоятельством мы уже сталкивались в последнем
параграфе предыдущей главы. В результате обработки из-
мерений мы получаем некоторую оценку величины z.
Мы будем обозначать ее буквой £. Следовательно, вме-
сто (1.54) мы должны искать управление в форме
W = С (0 £. (1.55)
Но величины £ и z связаны между собой соотношениями
ИО = 2(0 +h (0,1 (1.56)
где h (0 — некоторый случайный процесс. Следователь-
но, уравнение динамической системы будет иметь вид
z = Az + Cz Ch + F. (1-57)
*) Имеется в виду, что у у (t) свободен левый конец, а у (t)—
свободен правый.
352 СЙЁДЕЙИЁ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Выясним, насколько изменит структуру искомой матри-
цы обратной связи появление в правой части (1.57) сла-
гаемого Ch. Случайные процессы h (t) и F (t) условимся
считать между собой некоррелированными. Такое предпо-
ложение вполне естественно, поскольку оно отражает тот
факт, что внешние возмущения (вариации тяги двигателей,
порывы ветра и т. д.) не влияют на процессы измерения
фазовых координат *).
Коэффициенты матрицы обратной связи будем считать
подчиненными ограничениям (1.3). Поставим задачу оты-
скания матрицы обратной связи С (t), доставляющей ми-
нимальное значение функционалу (1.6), считая, что h и
F — стационарные марковские случайные процессы с га-
уссовским законом распределения.
Повторим кратко выкладки начала этого параграфа.
Введем снова сопряженные векторы(j = 1, 2, ..., п),
удовлетворяющие уравнению
Д = - Л*р< - C*Pi, (1.58)
и подчиним эти векторы условиям
Введем еще вектор у размерности п2:
р^у™”.
Он будет удовлетворять уравнению
у = М у + Ny,
где
Составим теперь выражение для функционала (1.6).
Повторяя выкладки п. 2 данного параграфа и исполь-
зуя введенные обозначения, мы приведем это выражение
*) Это предположение не является существенным, но зато при-
водит к значительному сокращению объема выкладок.
$ 1]
ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА
353
к следующему виду:
т т
J = (У (0), Еу (0)) + J J (у &) Ф (tlt t2) у (Z2)) dtv dl2 +
о о
т т
+ J J у (£х), Oj (tx, t^Ny (t%)) dtr dt2. (1.59)
о о
Элементы матрицы Ф, как мы видели, содержат сла-
гаемые
Элементы матрицы Фг отличаются только тем, что вме-
сто) случайного процесса F (0 в них фигурируют компо-
ненты случайного процесса h (0:
Г<Л
Итак, если мы будем учитывать ошибки измерений,
то придем к задаче отыскания вектор-функции у (0 и мат-
ричной функции N (0 (управления), доставляющих мини-
мум функционалу (1.59) при условиях (1.58).
Сравнивая функционалы (1.16) и (1.59), мы видим, что
они отличаются одним слагаемым, содержащим матрицу
N. Функционал (1.59) зависит не только от фазового век-
тора у (0, но и от управления N (0. Если ошибки h (0
достаточно сильно коррелированы, то оптимальное реше-
ние — величина коэффициентов усиления — в реальном
случае может весьма сильно отличаться от идеального
случая точных измерений, который мы рассмотрели в на-
чале параграфа. Для иллюстрации сказанного рассмотрим
простейший пример системы первого порядка.
И. Иллюстративный пример. Предположим, что ди-
намическая система описывается уравнением первого по-
рядка
z = az + с (z -j- h (0) -j- F (0, z (0) = z0. (1.60)
Здесь z (0, F (0, a (0, c (0 и h (0 — скалярные функции.
Рассмотрим задачу отыскания функций z (0 и с (0,
доставляющих минимум функционалу
7 = (1.61)
12 Н. Н. Моисеев
354 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. А
Введем сопряженное уравнение
р = — ар — ср, (1.62)
где р (Т) =1. Тогда
г г
z (Т) = р (0) z (0) + f Р {1} F{t)dt + ^p (0 с (0 h (0 dt.
О о
Составим выражение для функционала (1.61):
т т
j = 7(Тр = Р2 (0) ?(6j + J J р (/1) р (/а) Kf f2) dtldt* +
0 0
т т
4~ J J P Gi) c (h) P (^2)c (M Kh (ilt t2) dt1dt2. (1.63)
о 0
Здесь через Кр и Kh обозначены корреляционные функции
процессов F (t) и h (£):
*F = W(y,
Kh=h(tv)h(t2).
Будем считать эти процессы стационарными марковскими
процессами с гауссовским законом распределения. Тогда
KF = <3fexp {— kF— t2 |},
(1.64)
Kh =<32hexp{—— <2|}.
Используя выражения (1.64), преобразуем функцио-
нал (1.63):
т
J = (р2 (Г) + 2 j“ (ар2 + ср2) dt) ?(б) +
о
г г
+ 2бр J e~KF( р (t) J еКрХр (т) dt dt +
о о
т t
4- 2$ J е~кп‘ р (t) с (t) J екьх р (т) с (х) dx dt. (1.65)
о о
j 1] ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА 355
Введем еще переменные £ и тр
t = eK^fp, £(0) = 0, (1.66)
т| = екп* рс, т] (0) = 0. (1.67)
Преобразуем функционал J (р, с), используя (1.66)
и (1.67), и, кроме того, отбросим в нем величины, не за-
висящие от управления и фазового вектора. В результате
получим
т
/1=1 {(«р2 + ср8) + 4e’Kf'p^ + <&***№} dt.
О
(1.68)
Итак, мы пришли к задаче отыскания минимума функ-
ционала J (р, т), с) при условиях (1.66), (1.67) и (1.62).
Мы видим, что можно пренебречь влиянием ошибки на
выбор коэффициента усиления в двух случаях: а) если дис-
персия ошибки оь пренебрежимо мала и б) если ошибка
очень малокоррелирована, т. е. если Kh — велико.
12. Заключение. В этом параграфе была изложена тео-
рия, позволяющая для линейных динамических систем
конструировать оператор обратной связи, считая, что он
является линейной функцией фазовых координат. Эта
задача, вероятно, одна из самых распространенных в ин-
женерной теории управления. Однако численные методы
ее решения в случае конечного интервала времени почти
не разработаны.
Впервые оптимизационную трактовку задачи линей-
ного синтеза начал последовательно использовать, по-
видимому, В. М. Пономарев, который развил методы ре-
шения, основанные на ее редукции к задаче нелинейного
программирования. Для этого он использовал различные
приближенные способы построения явной зависимости
фазового вектора от искомых параметров системы.
Теория, развитая в данном параграфе, основана на
идее редукции задачи линейного синтеза к некоторой спе-
циальной задаче оптимального управления.
Оказалось, что в общем случае функционал содержит
двойной интеграл вида
т т
J j (у (0, к (/, г) у (т)) dt dx. (1.69)
о о
12*
356 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ V
Используя методику рассуждений принципа максимума
(ныне уже ставшую стандартной), нетрудно для функцио'
налов вида (1.69) получить необходимые условия экстре-
мума. Они будут получены в следующем параграфе. Однако
эти условия оказываются не очень удобными для построе-
ния численных методов. Поэтому при изучении численных
методов мы опустили рассмотрение необходимых условий
оптимальности для общего случая и ограничились для
функционалов вида (1.69) рассмотрением только одного
метода градиентного спуска.
Анализ возможностей построения вычислительных ме-
тодов, которые предоставляют необходимые условия, мы
проводили, рассматривая, главным образом, простейший
случай, когда внешние возмущения являются стационар-
ным марковским процессом с гауссовским законом рас-
пределения. Полученные задачи уже и в этом случае
имеют весьма высокую размерность. Общий случай пред-
ставляет еще большие трудности. В то же время эти труд-
ности не следует и преувеличивать.
В большинстве технических задач расчет оператора
управления производится на стадии проектирования,
когда требования к алгоритмам не содержат жестких ог-
раничений на объем затрачиваемого машинного времени.
Такая же ситуация возникает и в экономических задачах.
Наконец, следует иметь в виду, что требования точности
в задачах синтеза также невелики. Поэтому описанная
методика для широкого круга задач дает приемлемые
способы решения.
Заметим еще, что, сведя задачу синтеза к задаче оп-
тимального управления, мы можем использовать для ее
решения не только метод последовательных приближений,
которому было посвящено основное место в работе. Мы
остановили свой выбор на этом методе, поскольку он
оказывается весьма эффективным в задачах со свободным
концом, к числу которых принадлежат рассматриваемые
задачи. Для решения полученных задач теории опти-
мального управления могут быть с успехом применены
и другие методы. Развитая теория позволяет давать отве-
ты на целый ряд важных вопросов, встающих перед ин-
женером, пиоектирующим систему управления. Одна из
основных проблем синтеза, с которой сталкивается инже-
нер,— это конструирование оператора обратной связи.
§ и ЗАДАЧИ ЛИНЕЙНОГО СИНТЕЗА 357
Эта проблема может быть сформулирована на языке тео-
рии матриц, поскольку каждому оператору управления
однозначно соответствует определенная матрица С. Обрат-
но, каждый набор ненулевых элементов матрицы С опре-
деляет оператор управления. Правда, это соответствие
уже не является однозначным: обычно данную систему
обратных связей конструктивно можно реализовать не-
сколькими разными способами.
Задание данной системы обратных связей означает
задание определенного количества нулевых элементов
матрицы С и системы ограничений на остальные коэф-
фициенты. Используя аппарат, развитый в данном пара-
графе, мы можем выбрать оптимальное значение коэффи-
циентов усиления как функций времени и найти значение
критерия качества.
Следовательно, мы можем сравнивать разные варианты
операторов управления, оценивать роль различных огра-
ничений и влияние на величину критерия качества новых
обратных связей, т. е. новых ненулевых элементов в мат-
рице С.
Конструируя оператор управления, инженер подбирает
значения коэффициентов обратной связи, не пользуясь
обычно соображениями оптимальности. Чаще всего он их
выбирает из условия устойчивости *). Эти же условия
дают иногда и допустимые границы изменения коэффи-
циентов усиления. Коэффициенты усиления, как правило,
выбираются постоянными.
Когда все параметры системы управления и ограни-
чения уже выбраны, то естественно возникает вопрос
о том, насколько системы с переменной структурой и,
в частности, с переменными коэффициентами усиления
оказываются более «выгодными», т. е. насколько они могут
улучшить качество управления (понизить значение дис-
персии) по сравнению с системами управления, обла-
дающими постоянными коэффициентами усиления. Ответ
♦) Динамический объект, для которого создается система уп-
равления, может быть устойчив или неустойчив — самолет констру-
ируется устойчивым, а ракета — неустойчивой. Но система —
динамический объект плюс система управления — всегда конструи-
руется устойчивой. Если система неустойчива, то даже малые воз-
мущения могут быстро привести к большим отклонениям от про-
граммы.
358 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
на этот вопрос, как мы видели, можно получить, исполь-
зуя приемы теории возмущений. В результате линеариза-
ции мы получаем некоторую линейную задачу теории оп-
тимального управления со свободным концом, и, следо-
вательно, ответ на поставленный вопрос требует решения
двух задач Коши.
В рамках развитой теории можно решить еще целый ряд
важных инженерных задач. Однако существует, даже в
этом простом случае, целый ряд задач, который требует су-
щественного усовершенствования используемого аппа-
рата.
В §§ 3 и 4 гл. IV мы рассмотрели задачи без ограни-
чений; теперь, сузив класс операторов, среди которых
мы разыскиваем оптимальное управление, мы рассмотрели
класс задач, в которых существуют ограничения на ве-
личину коэффициентов усиления. Ограничения подоб-
ного рода не исчерпывают класс практически интересных
задач. Во многих случаях мы должны удовлетворять тем
или иным фазовым ограничениям. Наиболее важным слу-
чаем подобных ограничений являются ограничения на
мощность корректирующего двигателя (энергетические ог-
раничения). Эти ограничения в частном случае имеют вид
j|TV|| = pz||<6.
Другие типы ограничений имеют вид
или
max | z* I С1
(1.70)
(1.71)
(1-72)
и т. д. Условие (1.71) означает, что вероятность того,что
значение координаты z* меньше фиксированной констан-
ты, ограничена.
Для задач с ограничениями типа (1.70) — (1.72) методы
решения, изложенные в этом параграфе, непосредственно
применить нельзя. Для решения задач оптимального уп-
равления с фазовыми ограничениями приходится обычно
отказываться от непосредственного использования необ-
ходимых условий и искать прямые методы решения, или
использовать методы с применением функции штрафа.
S 21
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
359
§ 2. Линейный синтез с ограничениями.
Принцип максимума
В этом параграфе мы рассмотрим необходимые ус-
ловия оптимальности, аналогичные принципу макси-
мума Л. С. Понтрягина. Поскольку задачи линейного
синтеза сводятся к вариационным задачам с двойным
интегралом, то принцип максимума для этих задач не
является непосредственным следствием принципа макси-
мума для классических задач оптимального управления.
Однако применение стандартной техники игольчатых
вариаций, с которой мы познакомились в первой главе,
позволяет довольно просто получить нужные нам тео-
ремы.
1. Предварительные рассмотрения. До сих пор мы
изучали задачи синтеза без ограничений на правом конце
траектории. Однако представляют определенный интерес
задачи, в которых правый конец траектории подчинен
ряду условий. Наиболее типичное ограничение — это огра-
ничение на величину дисперсий по одной или нескольким
фазовым координатам. Например, мы можем поставить
задачу отыскания управления, при котором
(^)2(Г)<СЬ i = 0,l,2,...,/c<n. (2.1)
Остальные координаты свободны и должны быть выбраны
из условия минимума функционала
п п
Л*)=22 г^{Т)гЦТ). (2.2)
г=1 j=i
В этом параграфе мы будем продолжать изучение ли-
нейного синтеза, т. е. будем считать, что эволюция управ-
ляемой системы описывается уравнением
z = Az + Cz + F, (2.3)
где A (t) — заданная матрица, С (t) — матрица коэффи-
циентов усиления, которую мы должны разыскать из усло-
вия минимума функционала (2.2) при ограничениях (2.1)
и (1.3).
Условия (2.1) — это то новое, что вносится в рассмот-
рение. Задача с ограничением типа (2.1) весьма сложна.
' 60 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
С другой стороны, во многих практических задачах огра-
ничения выполняются со знаком равенства. Поэтому
вместо задачи с условиями (2.1) будем рассматривать
задачу с ограничением тина равенств
(2пЧ)2 (Г) = сь i = 0,1,2, ...,/< п, (2.4)
что, практически, не сужает класс рассматриваемых при-
кладных задач.
Следуя п. 2 предыдущего параграфа, каждой из пере-
менных zi (i = 1, 2, ..., п) мы поставим в соответствие
вектор рь удовлетворяющий уравнению (1.9):
Pi = — (1.9)
где D = А 4- С, a pt (Т) удовлетворяет условию (1.11).
Тогда
т
(Г) = (Pi (0), z (0)) + J (р, (0, i = 1,2,..., n.
0
Таким образом, считая случайную величину z (0) и слу-
чайный процесс F (t) независимыми, мы получим следу-
ющие формулы:
J. = (z^ (Т) = (рпЧ (0), Lpn^ (0)) +
т т
“F j* J Рп-г (^1) К (^1> h) рп-г (М I = 0, 1, 2, ... , Z,
0 0
где L и К — матрицы: L = || ZqZjq ||, К = || F* (tr) F\t2) (|.
Введем теперь, следуя предыдущему параграфу, век-
тор у, удовлетворяющий уравнению (1.14). Тогда функ-
ционалы Ji мы сможем переписать в следующем виде:
т т
Л(у) = (У (9), Ьгу (0)) + J J у (Zi) К1 (Z1? t2) у (2.5)
о о
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
§ 21
где матрица К* имеет следующую структуру:
361
ООО
►(n-i-l)n
^11^12 • • • кт
О [ 0
} &п1Лп2 • • • *nn j
о о | О
! ,t ) *
(n- i-l)n п in
n.
in
Матрица имеет такую же структуру.
Итак, мы пришли к задаче отыскания функции В (Z)
и фазового вектора у (J), связанных уравнением
У = В (0 у (1.14)
и граничным условием
У (Т) = ут, (1.15)
доставляющих минимум функционалу
J (у, В) = (у (0),Еу (0)) + j J (у (^), Ф («ь <2) у (*2)) dt! dt2
о о
(1.16)
при ограничениях
Ji(y,B) = Ch i = 0,1,2, ..., I. (2.6)
В целях более подробного изучения задачи с ограниче-
ниями типа (2.6) нам необходимо развить аппарат прин-
ципа максимума для задач оптимального управления, со-
держащих двойные интегралы. Однако для удобства даль-
нейших рассуждений мы сначала несколько преобразуем
пол ученную], за дачу.
2. Вспомогательное преобразование. Сделав замену
t = —т, мы приведем рассматриваемую’ задачу к сле-
дующему виду: определить функции у± (т) и Вг (т),
362 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
доставляющие минимум функционалу
+ У У (У1 (^i)> Фх Сч» Т'з) У1(^з)) (2.7)
—т — т
при ограничениях
(2.8)
уЛ~Т) = Ут, (2.9)
Ji (У1) = (У1 (0),£?/1 (0)) +
4” J У (Уг (^i)» (ти ^2) У1 (^2)) ~ (2.10)
—т -т
i —0,1, 2, I.
При формулировке задачи (2.7) — (2.10) мы исполь-
зовали обозначения <р (—t) = <рх (t). Задача (2.7) — (2.10)
является частным случаем следующей вариационной за-
дачи. Определить функции х (t) ъ и (t), доставляющие
минимум функционалу
J (х, и) = Ф (х &)) + И go (Z &), X (В2), ga) (2.11)
to to
при ограничениях
h h
Jj ~ Фу (# (У) 4“ У У Sj (% (51)> # (5 2)» 51» 5г) ^51» ^5a = £7»
to to
(2.12)
f = f(x, u, t), (2.13)
x (tQ) = x0. (2.14)
В задаче (2.11) — (2.14) фигурируют еще функции
Фг, зависящие от конечного состояния. Нам удобно для
дальнейшего заменить их однократными интегралами.
Прежде всего
р НФ.
ф» (х (<i)) = J f и> £) ~ ф* (ж («•))•
to
Но величины Ф« (х (t0)) — это, согласно условиям, извест-
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
363
§ 21
ные постоянные, которые в выражении функционала мож-
но отбросить.
Поэтому окончательно мы приходим к следующей
задаче: определить функции г (t) и й (t), доставляющие
минимум функционалу
G it h
J (х^ и) — J <ро u,t)dt J J g0 (х (51)? # (£г)> Si? Вг) ^£1^2
to to to
(2.15)
при ограничениях
х = f(x,u, t), (2.16)
# (/0) ~ *£()» (2*17)
h
Jj (х, и) = J ф; (ж, U, t) dt +
to
+ J J gi &), ® (u £1,i2)<«a = c}, i = 1,2,..., k,
to to
(2.18)
и e 6U. (2.19)
3. Вычисление вариаций. Итак, мы будем рассматри-
вать задачу (2.15) — (2.19). Произведем обычным обра-
зом игольчатое варьирование управления и (t) (см.
гл. I, § 3):
I v при £ €Е [Т, t + е],
и*^ (#(£) при ^E[t,t + e|.
Постоянная v должна удовлетворять условию
v^Gu.
Разность би («) = ug (t) — й (t) будем называть иголь-
чатой вариацией управления.
Следуя общим правилам вариационного исчисления,
введем вариацию фазовой переменной h. Обозначим через
2 (0, х& (t) решения уравнений
® = f (^, <)>
=== / (*Ге, ^)>
364 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
удовлетворяющие одному и тому же начальному условию
(2.17). Тогда
(dxA х, х
= -lim^----
\ д8 /е=0 г—>n ®
Пусть сначала t <Zx. Тогда очевидно, что h (t) = О,
поскольку при t < т управления совпадают, а же и Ж удов-
летворяют одним и тем же начальным условиям. Следо-
вательно, xt (t) — Ж (t), t ^.х. Пусть теперь t > т. Тогда
поскольку при t х + е имеет место равенство ис = й,
то
'+« t
Ж(<) = Ж(Т)4- f + J f@,%,%)<%,
T T-f-C
xt (t) = Ж (т) 4- J f (xt, ut, B) J f й, I) de,
т -c+e
и, следовательно,
{-Г J l/ +
h(t) = lim
e-*0
+ 4-J [/(хелл)-/(ж,йл)];^}.
т-he J
На основании теоремы о конечных приращениях имеем
= е [/ («е (V + 0J8), V, X + 0хе) —
— / (X (х 4- 028), И (х + 02е), T4-02e)],
где 0Х и 02 удовлетворяют неравенствам 0 <10/^1.
В силу непрерывности функций, входящих в это выра-
жение,
(т + 01В), V, Т 4- 0хе) = /(г (т), V, х) 4" о (в),
/(х (т-|-02е), й(т-|-02е), т4-02в) =
=/(г (т), и (т), т) 4- о (8).
§ 2] ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ 365
Используя эти оценки, перепишем выражение для h (t)
в следующей форме:
t
ft(0 = ^1 +lira4- f К/х,(^-г))4-о(|^-«|)]^,(2.20)
где
Л1 = / (г (т), p, t) — / (г (г), u (r), t). (2.21)
Заметим, что разность xz — x имеет порядок e. В са-
мом деле, xz (т) = £ (т), а на интервале (т, т + е) изме-
нение величин х z и х описы-
вается уравнениями вида
(2.16), правые части которых
различны. Но так как длина
интервала равна е, то
(* + е) — % (т + е) = О (е).
(2.22)
При t т + е эти величины
описываются одним и тем же
уравнением (2.16). Поэтому,
в силу теоремы о непрерыв-
ной зависимости решения от
(2.22) сохраняется при любых t, при которых существует
решение задачи Коши для уравнения (2.16). Поэтому,
переходя в равенстве (2.20) к пределу, мы получим окон-
чательно
t
h(t) = h1 + (2.23)
начальных данных, оценка
Таким образом, функция h (t) разрывна (рис. 2.1). При
t < х она тождественный нуль. При t х она является
решением следующей задачи Коши:
4 = Л(т) = Лх. (2.24)
Рассмотрим теперь первое слагаемое функционала (2.15)
h
J1 = J Фо (*» и, I)
to
366 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
и введем новую переменную J1 (£), удовлетворяющую сле-
дующей задаче Коши:
^ = Фо(г,М), /1(«о) = О. (2.25)
Определим вариацию этой величины
(2.26)
где J\ — это значение J1 (£), вычисленное при и =
х = хе, a J1— значение величины J1 на оптимальной
траектории.
Повторяя рассуждения, которые мы только что провели I
для величины Л, установим, что величина а — разрыв-
ная, при t < т она тождественный нуль, а при t > т она
удовлетворяет следующей задаче Коши: I
а(<) = а1, (2.27) |
где
«1 = <р0 (г (т), V, т) — ф0 (Ж, й (т), г). (2.28)
Перейдем теперь к анализу второго слагаемого в вы-
ражении (2.15). Обозначим *
J2 = J J go (х &), X &), Ъ) dlt Д2.
U К
Вычислим
= lim 4- J f {go (х< &), X, &), |2) -
,е Г. Г.
- go (« (51),* fe) Л1Л2» «2 =
io
to tQ
J
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
367
§ 2]
Меняя обозначения независимых переменных во втором
интеграле, мы приведем это выражение к виду
+ 1 h й1) d (Е1).
Введем еще одну новую переменную Р (0, кото-
рая удовлетворяет следующему дифференциальному урав-
нению:
Р(0 = J[Эуо(д(^)иД)' + {t) (2 29)
#о
При t = t0 Р (t0) = 0, и поскольку h (t) = 0 при t < т,
то
р (0 = 0, t С т. (2.30)
В конечный момент времени
a (<i) = 6Л, р (rj = 6Л.
4. Принцип максимума. Рассмотрим сначала задачу
без ограничений (2.18). Введем сопряженные перемен-
ные: вектор ф и постоянные X* и Хр. Вектор ф подчиним
следующему дифференциальному уравнению:
- Ч J « (2.30
to
и составим скалярное произведение
м (о = (ф, л) + х:« + х°эр.
Легко проверить, что, в силу уравнений (2.24), (2,27),
(2.29) и (2.31), = 0, т. е. величина М постоянна и
dt
Mi(T) =’М (tj. (2.32)
368 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Распорядимся выбором величин Zp, ф (/J, подчи-
нив их следующим условиям:
Ь® = -1 Х°э=-1, ф(^) = 0. (2.33)
Тогда, имея в виду, что 6/ = а (£х) + р (tj, подставляя
(2.33) в (2.32), получим
6J = — М (т) = - {(гр (т), ht)~ 04} = — (ф (т), / (Ж (т), р,т))+
+ Фо (r). v, т) + (ф (т), / (г (т), й (т), -г)) —
— <р0(£(т),й(т),т) = Н (ф,5?,®,т) — Я(ф,£,р,т).
Так как г, й — оптимальные траектория и управление, то
величина 6J должна быть неотрицательной; следователь-
но, на оптимальной траектории в любой момент т должно
иметь место неравенство Н (ф, f, й, т) (ф, %, v, т),
где v — произвольное допустимое управление. Этот ре-
зультат и составляет содержание принципа максимума,
который мы сформулируем в виде следующей теоремы:
Теорема. Для того чтобы пара функций й (t) и
Ж (0 доставляла минимум функционалу (2.15) при условиях
(2.16), (2.17), (2.19), необходимо, чтобы управление и (t)
в любой момент времени t доставляло максимум функции
Гамильтона
Н (ф, х, и, t) = (ф, f) — <р0, (2.34)
где вектор ф удовлетворяет уравнению
= -(<) 4’ + * +
г г dg0 (х (t), х (!•), t, 5) , dg0(x®fx(t),t,tn „
+Д [эмо + dx(t)
to
и условию
ф (tj) = 0.
5. Условия трансверсальности. Перейдем теперь к за-
даче о интегральными ограничениями (2.18) и построим
вариации функционалов
/> = J фу (х, и, |) dg,
to
fl fl
з = J J (£i)>x ёг)
$ 2) ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ 369
Повторим основные рассуждения п. 3. Сначала введем
переменную J} (t), удовлетворяющую условиям
^ = фУ(ж,и, <), Л(0) = 0,
и ее вариацию
\ «8 /е=о
Она удовлетворяет следующей задаче Коши:
= = Ч (2.35)
где
а1 = ф) (*), V, т) ~ ф; (т), U (т), *)• (2.36)
Затем вычислим 6J/:
2_
’“ЛИ
, % (* (5г), * (50. 5г, 50 1 ,£ 1 .Е . „
+——м©-----------гЧh dl1
и введем переменные Р^ (t), удовлетворяющие уравнениям
dgj{x(^xW^t)i
Р ~ J L Ox(t) + dx(t) josMO (2-37)
и начальным условиям 6? (т) = 0. При t = tr а? (/,) =
= 6М p^(i1) = 6J?.
Введем далее сопряженную систему уравнений
*
х J=o
V V- ? ГЧ V'х «)’, % Ы (0,5, о 1 /о QQ4
-2jM -----------Mi)-------+-------МО--------(2-38)
j=0 *0 V v ' J
370 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
и составим скалярное произведение
к к
М = ($,Ь) +3 ^а# + 2
7=0 j=0
Снова убеждаемся, что, в силу уравнений задачи,
dt ~
Выбирая величины тр, и так, чтобы 6J = — М, мы
приходим к условиям
= 4=-1, (2.39)
к к 1
|(г|), h) 2 ha&i 4" 2 43 ) ~ 0*
7=1 J=1 t=^h
Так как Jj = Cj, то 6J, — 0, поэтому
ai(^) + №) = 0, / = 1,2,... Д.
Тогда предыдущее выражение мы можем переписать в сле-
дующем виде:
к
{(Ч>, h) + 2 - 4) а’ (*)L. = 0. (2.40)
7=1
Но величины h (^) и а/ (^) независимы, поэтому из (2.40)
мы получаем следующие условия трансверсальности:
Ш = 0, (2.41)
4 = 4 = хд (2.42)
Для вывода принципа максимума мы используем тот
факт, что М (t) = const, и необходимое условие минимума
мы можем записать в такой форме:
6J - -М (т) > 0.
Последнее условие мы перепишем в следующем виде:
к
м (t) = (4> (т), Лх) + 2 < 0
'•’М)
§ 2]
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
371
или
Н (ф, £, й, т) > Н (ф, £, р, т),
где
к
и (if, х, и, т) = (if, /) + S
8=0
или, с учетом условия X® = — 1,
к
Я (if, х, и, т) = (if, /) — фо + 3 Ь’Ф«- (2-43)
8=1
Результаты мы сформулируем в виде следующей тео-
ремы:
Теорема. Для того чтобы пара функций й (£) и
% (t) доставляла минимум функционалу (2.15) при ус-
ловиях (2.16) — (2.19), необходимо, чтобы в любой момент
времени t управление] й (t) доставляло максимум
функции Гамильтона (2.43), где вектор удовлетворяет
уравнению (2.38) и граничным условиям (2.41), а постоян-
ные и Ц связаны условиями (2.39) и (2.42).
6. Принцип максимума в задачах с недостоверной ин-
формацией. В том случае, когда мы не имеем в своем рас-
поряжении достоверной информации о состоянии объек-
та, задача, как мы знаем, намного усложняется. Задача,
которая при этом возникает, относится к следующему
классу: определить функции и (t) и х (t), доставляющие
минимум функционалу
ч
J (х, и) = J ф (х, и, t) dt -f-
й
<1 *1
+ J J g (* (Si), u (Bl), ® (B2), U Qa), 5lt(2.44)
to to
при ограничениях (2.16) и (2.18) *).
♦) В данном случае, как это следует из формулы (1.57), случай-
ный процесс h (t) входит в правую часть уравнения в виде Ch, где
С — искомое управление.
372 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Единственное отличие этой задачи от той, которая была
рассмотрена в предыдущих
I---Г“Т------ул
I I I / I
’ 4 13 I 3 I
Рис. 2.2.
Рассмотрим функционал
пунктах, состоит в том, что
функция#, стоящая под зна-
ком двойного интеграла,
зависит не только от фазо-
вых переменных, но и от
управления. Однако имен-
но это обстоятельство не
позволяет непосредственно
использовать рассужде-
ния, которые привели к
формулировке принципа
максимума в предыду-
щих разделах, и застав-
ляет нас специально рас-
смотреть эту задачу.
I = f f S (* (В1), и (10, X &), и &), |2)
t,10
и вычислим
h
8J = lim -L J j (gt - g) d^. (2.45)
Область интегрирования разобьем на 9 частей, как это
показано на рис. 2.2. В соответствии с этим выражение
(2.45) мы представим в виде суммы
9
6 J = S 6 J*
и вычислим каждое из слагаемых.
Легко видеть, что 6JX = 0. В самом деле, при t < т
иь —й и ®е = Ж, и подынтегральное выражение
в 6Jj будет равно нулю.
Далее, также равно нулю. Этот факт следует из
того, что g — величина конечная. Поэтому
Ч-* Ч-е
Д/2= j J (g.-g)«2 = o(e8),
S 2]
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
373
и, следовательно,
6J2 = lim — = 0.
£—>0 8
Вычислим теперь 6J3:
SJ3 = lim J J (g£ — g) d^d^.
C->0 T-f-£ t4-£
Так как при t > т + e варьируемое управление совпадает
с оптимальным, то
Ы, _ J J h (Ei) А +
+ 'j j к (У А =
-+ел (2.46)
Вычислим 6/4:
6/4=lim-^- J
'-О т+l V.
(2.47)
Аналогично,
S/‘= J j (т^)- ,h &))«,. (2.48)
т
Объединяя результаты, выраженные формулами
(2.46) — (2.48), получим
Т 6)
6J5 + 6J1 = f J (-^j- , h &))
-г to
374 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
Или, меняя обозначения независимых переменных, по-
лучим окончательно
67,+V. + у,- f dt f ( ?№>. о +
" I ax w
+ ag(xft),w(gj,x(o, »(од,0] h
Вычислим теперь интегралы 6Je и 6/8:
6Je + 6J8= lim X
e-H) 8
г т-f-e
XJ (#c (£i), uz (^), x (la)> u (B2)» Bu B2) £1 ^Bi 4“
to T
4” J J I# fae (Bl)» we (Bl)» (Вг)» u (B2)» Вь B2) #1^B1J •
?4-е т
Заметим, что
J 8 (xi (Bi)> we (Bi)»xt (B2),u (B2X Bi» B2) ^Вг —
T - -
— J 8 (xt, (Bi)» (Bi)»x (Вя)> u (Вг)> Bi» B2) + 0 (e ).
T
Поэтому
t,
8J, + 6J8 = f [g (T), u€(t), x (g2), u (g2), r, g2) - ?]dg2. (2.49)
Аналогично,
ti
6/7 + 6J9 = J (g (J &), U (BOfi (t), U.(T), Blt T)-ll dBi. (2.50)
to
ЛИНЕЙНЫЙ СИНТЕЗ С ОГРАНИЧЕНИЯМИ
§ 21
Объединяя (2.49) и (2.50), получаем
375
+ 6/7 + 6Js 6J9 =
=j {[£(*(*), «е(т), x($, w(£), T, £)—g(x(x), u(t), Г(|),и(|),тЛ)Н
+ [g (x (£), и (£), x (t), ut (t), g, t) —
— g (x (I), и (£), X (x), и (т), I, T)] }dg.
Аналогично тому, как мы это сделали в п. 3 настоя-
щего параграфа, введем новую переменную, удовлетво-
ряющую следующему уравнению:
ах (t)
Й)Ж *(0> МО, Ъ 01 dg. Д (Z)
дх (0 J
Переменную 0 подчиним начальному условию 0 (т) =
= 6J6+SJ74-6J8+SJ9. Тогда очевидно, что
6J = р (/х).
Дальнейшие вычисления дословно повторяют вычис-
ления п. 4, обозначения которого мы полностью сохра-
няем. Сначала мы вводим сопряженное уравнение типа
(2.31)
ф = — fxty —
‘’{L a7(t)
&g(x(^)5(^),x(t),u(o,g,o
и составляем скалярное произведение М (t) = (ф, h) +
+ ^а<х + ^р-0, где Ар (£х), Ха, Хр мы выбираем так, чтобы
М = —6J. Отсюда мы снова получаем условия трансвер-
376 СВЕДЕНИЕ К ЗАДАЧАМ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V
сальности (2.33). Выпишем далее выражение для М (т):
М (т) = (чр, hi) — 04 — Pi = (ф, / (3f (т), и», т) —
— / @ (т), и (т), т)) — (ф (ж (т), и., т)— ф (х (т), и(х), т)) —
к
- f {[g (*), (т), ® (£), й(g), х, I) —
to
— g(x(x),u(x),x$),u(t),X^)] +
+ lg (z (£), и(I), x (т), ut (т), I, x) —
— g (x (g), и®, х(х), и (x), I, ?)]}<£.
Введем далее функцию Гамильтона
Н (ф, х, и, х) = (ф, / (х, и, х)) — ф (х, и, х) —
— 11g (Г), и (х), x(g),u (£), х, I) +
+ g [X (£), и (g), X (т), и (т), £, Т)1 d^.
Тогда выражение М (т) можно записать в следующем
виде:
М (т) = Н (ф, Я, ие, т) — Н (Ф, 2, й,
Для того чтобы £и£ были оптимальными, необходимо,
чтобы 8/ = — Л/ (т) >0. Отсюда следует принцип мак-
симума
Н (Ф, Я, Я, т) > Я (-ф, т)
для любого допустимого управления и е.
Итак, мы видим, что необходимые условия типа прин-
ципа максимума приводят к сложным интегро-диффе-
ренциальным уравнениям относительно |множителей Лаг-
ранжа. В какой мере эти условия смогут быть использо-
ваны для эффективного решения задач синтеза, покажет
будущее.
Заметим, что задача, которая была рассмотрена в двух
параграфах этой главы, представляет определенный ин-
терес и назависимо от задач синтеза. Это относительно
малоизученные вариационные задачи с двойными интег-
ралами. К подобным задачам, в частности, сводится целый
ряд оптимизационных задач математической физики.
ГЛАВА VI
ПРОБЛЕМА РАЗДЕЛЕНИЯ ЗАДАЧ
И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ СИНТЕЗА
ОПТИМАЛЬНЫХ СИСТЕМ
При формулировке задач синтеза в гл. IV и V настоя-
щей книги мы опирались на целый ряд гипотез. Две из
этих гипотез имели фундаментальное значение. Первую
из этих гипотез мы назвали гипотезой разделения задач
на задачу программного движения и задачу управления
программным движением. Смысл этой гипотезы мы под-
робно обсуждали в § 1 гл. IV.
Вторую гипотезу, которую мы принимали без обсуж-
дения, естественно было бы назвать гипотезой «полной
определенности». В самом деле, при изучении задач син-
теза программное движение мы считали заданным. Внешние
возмущения мы также считали заданными. Правда, мы их
считали некоторыми случайными функциями времени. Но
все необходимые статистические характеристики этих слу-
чайных процессов мы считали известными. Другими слова-
ми, никаких «неопределенностей» в наших задачах не было.
В этой заключительной главе мы хотим обсудить со-
держание принятых нами гипотез. Говоря о гипотезе
разделения, естественно попытаться понять, при каких
условиях и в каком смысле мы можем говорить о разделе-
нии проблемы проектирования оптимальной системы на
задачи проектирования программного движения и уп-
равления им.
Рассматривая гипотезу «полной определенности», важно
отдать себе отчет в содержании тех технических задач, ко-
торые не удовлетворяют этой гипотезе, а также понять со-
держание и трудности проблем управления в условиях неоп-
ределенности и возможные пути решения подобных задач.
§ 1. Проблема разделения
1. Предварительные замечания. Мы начали эту работу
с утверждения о том, что техническую проблему кон-
струирования оптимальной системы управления обычно
решают в два этапа. Первый — это построение програм-
378 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
мной траектории. Второй — это синтез управления, ко-
торое должно реализовать программу. В задачах, которые
являются традиционными для автоматического управле-
ния, первой задачи просто нет — ее решение тривиально. J
Во многих случаях программа — это заданное движение: J
заданное количество оборотов коленчатого вала двига- ।
теля, заданный установившийся режим полета самолета, |
наконец, заданная форма траектории самолета при его |
посадке. Однако в последние десятилетия появилось мно-
го задач, в которых проблемы расчета программного дви-
жения приобрели самостоятельный смысл: например, вы-
бор траектории запуска орбитального аппарата, требую-
щей минимума энергии. Все же по традиции инженеры
продолжают рассматривать отдельно обе задачи. Какой
смысл имеет такое последовательное рассмотрение двух
задач управления? Всегда ли оно возможно? Как указать
условия, гарантирующие, что, используя гипотезу раз-
деления, мы будем получать более или менее точные ре-
зультаты?
Число различных задач управления техническими и
экономическими объектами столь велико, и эти задачи
бывают столь различны по своей математической природе,
что указать систему правил рецептурного характера,
дающих ответ на поставленные вопросы, просто невоз-
можно.
Поэтому нам остается говорить только об общих прин-
ципах, которые должны лежать в основе подобного ана-
лиза, и ограничиться небольшим числом примеров, иллю-
стрирующих возможности этих принципов.
G математической точки зрения разделение движений
возможно лишь в том случае, когда задача содержит не-
которые малые параметры. Только в том случае процеду-
ра, которая лежала в основе решения задачи синтеза, мо-
жет приводить к результату асимптотического характера.
Таким образом, анализ проблемы разделения задач
должен проводиться с привлечением той или другой асим-
птотической теории.
Наиболее важное значение для изучаемого вопроса
имеют идеи осреднения, лежащие в основе асимптоти-
ческой теории, начало которой положено еще в 30-х годах
работами Н. Н. Боголюбова и Н. М. Крылова. Здесь
мы изложим некоторые факты этой теории в интерпрета-
§ 1]
ПРОБЛЕМА РАЗДЕЛЕНИЯ
379
ции, которая нам будет удобна для последующего изло-
жения.
2. Асимптотические методы осреднения. Предполо-
жим, что речь идет об исследовании системы дифферен-
циальных уравнений, имеющих вид
£ ~ гХ (я, у, е),
У = О) (х) + &Y (х, у, е),
(1.1)
где х — векторная, а у — скалярная переменная, в — не-
который малый параметр. Особенность этой системы со-
стоит в том, что часть переменных (компоненты вектора
х) изменяется медленно, их производные имеют порядок
О (в), а величина у изменяется быстро, ее производная
имеет порядок О (1). Спрашивается, нельзя ли найти та-
кую замену переменных, с помощью которых медленные
движения описывались бы независимо от быстрых?
Эту замену переменных будем искать в следующем
виде:
X — X + eU (х, у, 8),
м
У — У + е7 (ж, у, г),
где х и у — новые переменные.
Потребуем, чтобы новые переменные х и у удовлет-
воряли уравнениям, правые части которых не содержали
бы быстрой переменной у, т. е. чтобы уравнения для х и у
имели следующий вид:
х == еа (ж, в),
(1.3)
У = (О [х) + еЪ (х, 8),
где а и b — некоторые функции, которые мы должны оп-
ределить.
Подставив выражения (1.3) и (1.2) в систему урав-
нений (1.1) и сокращая на е, приведем эту систему к
380 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
следующему виду:
4^ =------— {? (Ж + е£7, у + eV, в) — а (х, в)},
dy со (х)
(1.4)
Л1/ 4
Ti = ~^г № + ,sU’ti +sl'-')
где
„ v ди ди к
дх ду
(1.5)
A = „(-, + ,g)_0)(}) № 6.
8 ' ох ду
Решение системы (1.4) будем разыскивать в классе
функций, ограниченных при оо.
Для эффективного отыскания решения системы (1.4)
используем метод последовательных приближений. Рас-
смотрим сначала первое из уравнений системы (1.4).
В качестве уравнений первого приближения примем
следующее:
-ф- = —7— {g & У, 8) - Я1 (х, е)}, (1.6)
ду <о(х)
где функция g вычислена при а = Ь — 0.
Предположим сначала, что g — периодическая функция
быстрой переменной периода Т. Тогда очевидно, что для
ограниченности функции Ux необходимо и достаточно,
чтобы
«1(^,е)=— g{x,y,^dy = gi(i,8). (1.7)
У9
Определив мы находим квадратурой
у
= К g (х, у, в) dy — gi (х, е) 0} + const. (1.8)
ш (х) I £ >
Vo
§ и
ПРОБЛЕМА РАЗДЕЛЕНИЯ
381
В теории асимптотических представлений этого типа
доказывается, что оценка точности не зависит от выбора
постоянной интегрирования *). Мы всегда можем принять
эту постоянную равной нулю.
Совершенно также определяются и 7X:
1 Р УЧ уч УЧ УЧ УЧ
Ь1 = -JT \ h(x, y,o)dy = ^(х.е),
Уо
(1.9)
У
71 = —К h (х, у, е) dy — (х, в) у},
(О (ж) I J
Уо
где h± вычислено при а = b = 0.
Второе приближение будем определять из уравнения
д1Ц 1
—= —-х— {g (х + eUr, у + eVlt в) — а2 (х, е)).
ду со (х)
Повторяя рассуждения, найдем
£+т
а2 =4" gix + zU^y^Yy -{гУ^х, у, г), o)dy =
Уо
V
U2 = —7л— [{g^ + ^^y + ^^dy — g2y}
(О (х) I J
Уо
и т. д. Заметим, что реализация процесса отыскания асимп-
тотического решения не предполагает дифференцируе-
мости или даже непрерывности функций X и У.
Описанный процесс последовательных приближений
в общем случае расходится, однако при известных усло-
виях он даст асимптотическое приближение. Например,
если X и У — ограниченные функции своих переменных,
то для функции хп = х + &Un-i> гДе принято UQ = 0,
♦) См., например, Н.Н.Моисее в, Асипмтотические методы
нелинейной механики, «Наука», 1969.
382 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
а $ удовлетворяет уравнению
dx \
-1Г = еап(х, Е),
имеет место следующее утверждение: для любого t из
интервала длиной порядка 1/е справедлива оценка
1 х - хп I = О (еп).
Для функции уп = У + еУп.! оценка будет следующей:
| У — Уп I = О (е""1).
В настоящее время обоснование асимптотических
представлений описанного вида получено для весьма
широкого класса задач. За подробностями мы отсылаем
читателя к обзорной статье В. М. Волосова *).
3. Метод осреднения в тех случаях, когда правые
части не являются периодическими функциями быстрой
переменной. Вернемся снова к уравнению (1.6) и пере-
пишем его в виде
Z7 — J \ g(i, у, e)dy — Л1{х, е)Т\
(О (х) I ej j
Уо
ИЛИ
Уо+Т
ui=—^r\4- g(ж,у, в)dy—«j (ж, е)|. (1.10)
0) (х) I 1 J J
Уо
Выражение (1.10) показывает, что для ограниченно-
сти Ur при Т -> об необходимо, чтобы
Уо+Т
а (х, в) = lim -яг \ g (х, у, в) dy. (1.11)
Т->оо 1 J
1/0
Таким образом, если правые части системы (1.1) не
являются периодическими функциями быстрой пере-
менной, то правые части системы (1.3) находятся как
результат осреднения по всему бесконечному интервалу
времени.
♦) В. М. В о л о с о в, ЖВМ и МФ 3, № 1, 1963, Некоторые
виды^расчетов в теории нелинейных колебаний, связанные с усред-
ненным.
ПРОБЛЕМА РАЗДЕЛЕНИЯ
383
§ Л
4. Один частный случай. Анализ возможности выде-
ления^задачи расчета программы (и «правильного» выде-
ления программного движения) опирается не только на
идеи осреднения. Важную роль в этой процедуре играет
также предположение о малости возмущений.
Рассмотрим движение объекта, который содержит
одно колебательное звено. Пусть его движение описы-
вается следующей системой уравнений *):
& = X (х) + уФ(х), (1.12)
у + %2©2 (х)у = 0, (1.13)
где % — некоторый большой параметр, а ©2 (х) а О
для любых х, х — вектор размерности и, а у — скаляр.
Для системы (1.12) — (1.13) рассмотрим задачу Коши:
X (0) = х0, у (0) = у0, у (0) = уй. (1.14)
Согласно схеме, изложенной в § 1 гл* IV, решение этой
задачи распадается на два этапа. Сначала мы выделяем
программу. Опа определяется как решение задачи Коши
для уравнения
2 = Х(2) (1.15)
при начальном условии Ж (0) = £0.
Далее мы полагаем х — % + z и линеаризуем систему
(1.12) — (1.13), считая дополнительную переменную у
(дополнительная степень свободы) также малой. В резуль-
тате мы приходим к системе
z = Az 4- г/Ф1 (0, У + X2©i2 (t)y = 0,
*(0) = 0, у (0) = у.у у (0) = у*, (1.16)
Ф1 (0 = ф (^ (0), ©i (/) = © (^ (0).
Естественно возникает вопрос, позволяет ли описан-
ная процедура получить приближенное решение исход-
ной задачи. Ответ на этот вопрос может быть получен
в рамках изложенной теории осреднения.
Заметим прежде всего, что одна из особенностей рас-
сматриваемой задачи состоит в том, что изменение пе-
ременной у происходит значительно быстрее, нежели
♦) Эта система с помощью специальной замены переменных
приводится ниже к виду (1.1).
384 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
изменение компонент вектора х: в течение одного полного
колебания величины у компоненты х (/) изменяются не-
значительно.
В уравнениях (1.12) — (1.13) сделаем замену незави-
симой переменной t = ет, 8 = 1/Х.
Тогда эта система примет вид
£ = е[Х(х) + уФ(х)], ^- = -ю2(ж)у. (1.17)
Далее, вместо переменной у (и переменной введем
две новые скалярные переменные с и тр при помощи ра-
венств *).
y = ccosif>, =—сю (ж) sin ф. (1-18)
Равенства (1.18) могут быть переписаны еще и в таком виде»
/ dy
с2 = У2 + -^#|, tgip=--------(1.19)
* 1 ш2 (х) ’ ® т шу v •
Используя (1.19), вычислим — и в силу уравне-
ний (1.17):
£ = — sin2 -ф [X (а?) + с cos 1рФ (ж)],
,, . (1.20)
_х = ш------L. _JS2. [X (ж) -{- с cos фФ (ж)] sin ф cos ф.
Перепишем еще первое из уравнений системы (1.17)
~ — £[Х(ж) 4-ссо81|)Ф(ж)]. (1.21)
Система уравнений (1.20) — (1.21) полностью эквива-
лентна системе (1.17). Но она приведена к такому виду,
который позволяет увидеть, что она содержит одну бы-
струю переменную^. Эта система принадлежит к виду (1.1),
*) Замена переменных (1.18) впервые была предложена Ван-
дер-Полем.
§ 1] ПРОБЛЕМА РАЗДЕЛЕНИЯ 385
причем правые части являются периодическими функ-
циями быстрой переменной ф периода 2л.
Выпишем первые члены асимптотических разложений
х = £, с = Э, ф = ф, где £, ф и с удовлетворяют уравнениям
# = (1.22)
Заметим, что два последних уравнения являются асим-
птотическим представлением решения уравнения
^- + ®8ЙУ = 0, (1.23)
где £ изменяется согласно первому из уравнений (1.22).
Возвращаясь к переменной мы получаем следующий
результат: асимптотическим представлением решения за-
дачи Коши для системы (1.12), (1.13) с начальными усло-
виями (1.14) является решение задачи Коши для системы
A = X(i), ^ + x«o«(i)y = 0 (1.24)
при тех же начальных условиях (1.14).
Первое из уравнений этой системы описывает про-
граммную траекторию, второе — изменение колебатель-
ной переменной у вдоль программной траектории.
Таким образом, если колебания происходят с большой
частотой, то первые члены асимптотических представлений
не содержат слагаемых, отражающих влияние дополни-
тельных степеней свободы па программную траекторию.
В этом смысле выделение программной траектории в рас-
сматриваемой задаче является оправданным.
Заметим, Что сформулированный результат был полу-
чён без каких-либо предположений о малости у.
Для уточнения результатов расчетов по уравнениям'
(1.24) могут быть предложены два пути. Первый путь —
это построение следующих членов асимптотических раз-
ложений. Второй путь — это использование методов тео-
рии возмущений. Однако для этого надо предположить,
что начальные значения у0 и {/о достаточно малы, а функ-
ции, входящие в правые части системы (1.1), дифферен-
цируемы по своим аргументам. В этом случае мы полагаем
x=x + Z. (L25)
г/а 13 Н. Н. Моисеев
386 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Подставляя выражение (1.25) в систему (1.12) и линеари-
зируя относительно Z и у (считая последнее малым), мы
придем к следующему уравнению:
z = Az -|- (i), (1.26)
где
Л = Ш Ф1(0 = Ф(^).
'ХоХ
Схема решения задачи следующая. На первом шаге
мы решаем задачу Коши для системы
#=X(i). (1.27)
Далее решаем задачу Коши:
-§- + bW(£)y = 0, у(О) = 9о, у(0) = Уо. (1-28)
И на последнем шаге мы находим поправку Z, отыскивая
решение системы (1.26), удовлетворяющее нулевым на-
чальным условиям. На основании результатов теории ос-
реднения и непрерывной зависимости решения от началь-
ных данных мы можем утверждать, что ошибка будет
иметь порядок О (-£-) + О (шах {у0, у0}).
Изложенная схема решения задачи практически без
изменений может быть использована для обоснования ос-
новной гипотезы внешней баллистики, согласно которой
полный расчет траекторий можно разделить на два этапа.
На первом этапе решается так называемая основная задача
внешней баллистики. Эта задача состоит в расчете траек-
тории в предположении, что снаряд представляет из себя
материальную точку. На втором этапе изучается рассеи-
вание, причем это изучение ведется с помощью линейных
уравнений, полученных в результате линеаризации отно-
сительно траектории, найденной при решении основной
задачи внешней баллистики.
Единственное усложнение задачи внешней баллистики
по сравнению с рассмотренной в этом разделе состоит в том,
что уравнение для у будет содержать комплексные вели-
чины»
1о
ПРОБЛЕМА РАЗДЕЛЕНИЯ
387
5. Система, подверженная внешним возмущениям.
Предположим, что уравнения объекта имеют вид
* « X (х) + (Я), (1.29)
где Ф (л) — вектор-функция такая, что
т
lim-i-^<p(T))dr] = 0, (1.30)
о
Я — быстрая переменная: она удовлетворяет уравнению
Я = X© (0, (1.31)
где X — большой параметр *), £ = £ (t) — заданная
функция времени.
В системе (1.29) и (1.30) сделаем замену переменных
t = ет, в = 1/Х. В результате мы получим следующую си-
стему уравнений:
^ = 8(Х(®) + НОФ(П)1. §-«>«♦ (1-32)
Система (1.32) относится к тому типу, который был рассмот-
рен в начале параграфа, и для ее анализа может быть при-
менен аппарат асимптотического интегрирования.
Вели повторить вычисления, приняв во внимание ус-
ловие (1.30), ограничиться первым приближением и за-
тем вернуться к переменной f, то мы получим следующий
результат: х = # 4- о (1/Х), где $ удовлетворяет урав-
нению
f—*(*). (1.33)
Таким образом, программная траектория оказывается
асимптотическим приближением траектории исходной
задачи.
Для того чтобы получить уравнения возмущенного
движения, мы снова должны сделать предположение о
малости 11|, и, используя предположения о дифферен-
цируемости правой части уравнения (1.29), мы можем
*) Простым примером рассматриваемой задачи является тот
случай, когда <р (я) ®= sin я, а <» = const.
13*
388 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
составить интересующие нас линейные уравнения
* = ^-з + &ф(П), z(O) = zo. (1.34)
Функция f(t) = В (0 ф (ц), описывающая внешние
возмущения, может считаться случайной функцией вре-
мени. Однако для того, чтобы имело смысл изучать урав-
нение (1.34), считая | z || малой, этот случайный процесс
должен обладать определенными свойствами. Мы доказа-
ли, например, что для этого достаточно, чтобы процесс
был быстро осциллирующим и удовлетворял условию
(1.30).
Примечание. Если процесс % (t) стационарный,
т. е. X (х) = 0, то задача качественно упрощается. В этом
случае разложение Фурье функции / (t) не должно содер-
жать гармоник, частоты которых соизмеримы действи-
-
тельным собственным числам матрицы .
6. Случай управляемых движений. До сих пор в этой
главе мы рассматривали примеры разделения «неуправ-
ляемых движений». Нам удалось выяснить условия,
выполнение которых служило гарантией, что разделение
исходной задачи на две последовательные задачи не при-
ведет к большим ошибкам.
Рассмотрим теперь один пример управляемых дви-
жений. Пусть уравнение управляемого объекта описы-
вается системой уравнений
£ = X (х, и (0) + уи (0 Ф (х),
(1.35)
у + %2©2 (х) у == Х2б (х, 0 + Хг? (0,
где и (0, б (х, 0 и v (0 — некоторые функции времени и
фазовых координат, которыми мы позднее распорядимся,
у — скалярная переменная, X — большой параметр.
Введем еще одну функцию времени — величину у*
и положим у = у* + а. Для величины а мы получим
уравнение
dt + X2©2 (х) а = —+ X2©2 (х) у* — Х2б] + Хг?. (1.36)
Определим теперь величину б (х, 0 при помощи ра-
венства
Х2б (х, 0 = Г + X2©2 (х) у* (1.37)
S и
ПРОБЛЕМА РАЗДЕЛЕНИЯ
389
и перепишем (1.36) в следующем виде:
« + Л2®2 (ж) а = to. (1.38)
Функцию v (0 будем называть корректирующим уп-
равлением. Перепишем еще раз первое уравнение (1.35)
с учетом введенных обозначений:
х = X (х, и) + у* (0 и (О Ф (х) + оси (О Ф (х). (1.39)
В результате уравнения, описывающие изучаемую дина-
мическую систему, мы привели к виду (1.38) — (1.39).
После замены независимой переменной t = ет, 8 = 1/Х эта
система уравнений будет выглядеть следующим образом:
= 8 {X (ж, и) + у*иФ (х) 4- аиФ (ж)},
^ + &(х)а = ю, (1.40)
dt
dx
Затем введем переменные Ван-дер-Поля
а = с cos ф, _ = — ссо (х) sin ф
или
/ da \2 da
2 \ ' Xi dx
с2 = а2 Ч--гт-г-, tg ф ---------
и вычислим и — в силу уравнений (1.40). Повторяя
с несущественными изменениями выкладки, которые мы
проделали в п. 5 данного параграфа, мы придем к сле-
дующим уравнениям относительно с и ф:
i sin ip 4- с [X (х, и) 4- у'иФ (ж) 4-
4-С cos ф иФ (ж) ] sin2 ip|, (1.41)
8 ( УСОЗТр .«to.-y, х , . zr»z \ I
ST = “ - (-Vх + -d? IX (*’ M) + иф (ж) +
4-c cos ip иФ (ж)] sin ip cos ip [•. (1.41)
390 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Уравнение для х перепишем так»
= е {X (х, и) + у'иФ (х) 4- с cos яр иФ (х)}. (1.42)
Для анализа системы (1.41) — (1.42) мы можем при-
менить изложенную выше технику асимптотического
анализа. Ограничиваясь первым приближением, мы най-
дем х = 4, где
^ = 8{Х($,и) + у*иФ($)}. (1.43)
Уравнение (1.43) описывает управляемое программное
движение. Оно является асимптотическим решением ис-
ходной задачи. Как и в предыдущих примерах, допол-
нительные степени свободы в рамках принятой точности не
оказывают влияния на программное движение.
Функции и (t) и у* (t) — это управления, их можно
менять тем или иным способом. Однако асимптотический
характер программной траектории будет сохраняться
лишь в том случае, когда производные этих функций
невелики. С увеличением производных точность асимпто-
тических представлений будет падать.
После того как программа выделена, мы поступаем
аналогично тому, как мы это делали выше. Считая вели-
чину а малой, мы составляем уравнения для возмущений.
Положив х == i + z, мы придем к следующей системе
уравнений:
z = Az + аиФх (t)9 а + Z2©2 (х) а = Xv (t)9 (1.44)
которая описывает движение в окрестности программы.
Матрица А в уравнении (1.44) имеет такой вид:
л dX . , йФ
Рассмотренная задача очень близка по своему содержа-
нию к задаче о плоском управляемом движении ракеты, об-
ладающей аэродинамическим качеством. Вектор х — это
вектор, описывающий движение центра массы, у* (t) —
это установочный угол атаки, определяемый при расчете
программного движения. Соответственно с принятой ин-
терпретацией величина VS (х, t) — это момент, создавав-
$ 1] ПРОБЛЕМА РАЗДЕЛЕНИЯ 391
мый рулями и обеспечивающий данное значение уста-
новочного (в общем случае, разумеется, переменного во
времени) угла атаки у*, отклонение от которого описы-
вается вторым из уравнений (1.44), и (t) — это тяга мар-
шевого двигателя, направление которой связано с раке-
той, kv (t) — это дополнительный момент рулей, которым
мы можем распоряжаться для коррекции программы.
Разумеется, приведенная интерпретация достаточно
условна. Реальная задача оказывается значительно слож-
нее. Тем не менее предлагаемый путь исследования впол-
не применим и для анализа реальных движений.
7. О разделении вариационных задач. До сих пор мы
рассматривали только динамические задачи и наметили
методы исследования вопроса о возможности сведения
решения исходной задачи к последовательному решению
двух задач. Последняя из рассматриваемых задач со-
держала управления! свободные функции, которыми мы
могли распоряжаться по своему усмотрению. Однако мы
никак не связывали наше исследование с решением каких-
либо оптимизационных задач.
Предположим теперь, что, занимаясь проектирова-
нием той или другой системы управления, инженер вы-
делил задачу о программном движении, которое описы-
вается уравнением
£ = X (х, и), (1.45)
и составил уравнения движения объекта управления
в окрестности программного движения:
z « Az + Bv + A (1.46)
Уравнения (1.45) и (1.46) содержат произвольные функции
и и V.
Предположим, что разделение задач сделано «пра-
вильно». То есть при заданных и и. v вектор х + z, най-
денный из решений соответствующих задач для уравнений
(1.45) и (1.46), достаточно точно аппроксимирует движе-
ние объекта управления. Какой следующий шаг делает
инженер?
Поскольку задача разбита на две, то он задает и два
критерия А и А и находит управление и, минимизируя
и управление #, минимизируя Js«
392 разделение и игровые ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Насколько такая процедура отвечает целям инженера^
проектирующего управляющую систему?
Анализ этого аспекта проблемы разделения требует
уже совсем другого подхода, и аппарат исследования
должен быть совсем иным, нежели тот, с которым мы
имели дело в предыдущих пунктах этого параграфа*
Проблема, которую мы поставили, тесно связана с поня-
тием цели, которую себе ставит инженер. Попробуем по-
казать эту связь на примере орбитального аппарата.
Инженер, создающий конструкцию ракеты и системы
управления, стремится достигнуть многих целей. В дан-
ном случае у него есть по меньшей мере две цели. Во-пер-
вых, он должен обеспечить минимальную затрату топлива
для вывода аппарата на заданную орбиту, а во-вторых, он
должен добиться максимальной точности вывода (мини-
мум дисперсии). Таким образом, используя основное уп-
равление и (/) и корректирующее управление v(t), он
должен добиться минимального значения двух функцио-
налов: (безразмерная энергия вывода) и J2 (безраз-
мерная величина дисперсии элементов траектории в мо-
мент выключения двигателя), причем оба функционала
зависят, конечно, и от и, и от v: J\ = J\ (и, г?), А ==
= J2(u, г?). Математика не дает инженеру средств для того,
чтобы одновременно минимизировать два функционала.
Поэтому он поступает так, как мы уже говорили: сначала,
используя упрощенные уравнения, он находит мини-
мум по функционалу J\ (и, 0) и оптимальное управление
и — й (t). Затем он принимает найденную траекторию за
расчетную и строит синтез, исходя из условия минимума
J2($, г). Какой смысл имеет эта процедура? Всегда ли она
дает инженеру удовлетворительное решение его задачи?
В самом деле, поскольку каждый из функционалов Jt и J2
зависит от обоих управлений, «основного» и и корректи-
рующего г?, априори не очевидно, что описанная проце-
дура не приведет нас к таким значениям J\ и J2, которые
никак не смогут удовлетворить инженера.
Для анализа этой ситуации используем идеи теории
исследования операций, поскольку здесь мы снова стал-
киваемся с неопределенностью (отсутствие однозначной
вполне определенной цели — это тоже неопределенность).
Заметим, что, если бы величину одного из функциона-
лов, например Jx, мы смогли ограничить, то обсуждае-
§ 1] ПРОБЛЕМА РАЗДЕЛЕНИЯ 393
мой проблемы не существовало бы. Вместо нее была бы
довольно сложная проблема оптимального синтеза при
ограничениях на энергетику. Однако, как правило, мы не
знаем, насколько уменьшение функционала J\ может
быть компенсировано увеличением функционала J2, и по-
этому инженер, как правило, не может сказать заранее,
какое отклонение от оптимального расхода топлива допу-
стимо. Таким образом, для выяснения вопроса мы должны
признать существование неопределенности — в данном
случае неопределенности наших стремлений. Тогда, как нас
учит теория операций, мы должны сформировать новый
функционал. Это можно сделать разными способами. Для
дальнейшего нам удобно ввести функционал
/ = c1J1 (и, г?) + c2J2 (и, г?), (1.47)
где и с2 — некоторые положительные числа, нормиро-
ванные определенным образом, например + с2 — 1. Эти
числа нам заранее не известны. Поэтому для построения
управления с функционалом (1.47) мы можем построить
только гарантирующую стратегию (u*, г?*). Это будет
стратегия, реализующая
= min max J (сх, са, и, и).
U, V с,, с2
Предположим теперь, что
а) Функционал J аналитический по и и г, и корректи-
рующее управление имеет вид v = Bz.
б) Существует малый параметр е такой, что
J1 — Jj 8t?).
Замечание. В примере с ракетой малость пара-
метра в означает, что отношение энергии корректирую-
щего управления к энергии, затрачиваемой основным
маршевым двигателем, мало.
в) Обозначим через Оу множество допустимых про-
грамм, и пусть уЕ С-, - некоторая тестовая программа,
а и — управление, реализующее г, и + би — управле-
ние, реализующее какую-либо другую программу ив мно-
жества Gf. Пусть далее
min max {J2 (й 4- би, v) — J2 (й, v)} = О (s).
° и+8и
14 H. Н. Моисеев
394 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Если условия а), б) и в) выполнены, то
/* = min max {qJj (и, 0) + c2J2 (и, v)} + О (&), с2 = О (е),
tl, V Cl, с2
и, следовательно, в рамках теории возмущений (т. е. с точ-
ностью до величин порядка О (в)) гарантирующие стра-
тегии и* и v* совпадают со стратегиями, которые мы на-
ходим из условий
J* = min J\ (и, 0), J2 = min/2 (й9 v).
и V
Сформулированная теорема дает условия, достаточные
для того, чтобы решения разделенных задач были близки
(в смысле обеих метрик и J2) к гарантирующим управ-
лениям для функционала типа (1.47).
Подчеркнем еще раз: наши желания не определены —
мы не знаем относительные веса (относительную значи-
мость) функционалов Jx и J2. Но в данной задаче это ока-
зывается не существенным. Результат почти не зависит от
неопределенности наших желаний. Очевидно, что именно
тогда, когда ситуация обладает подобными свойствами,
задача разделения имеет смысл. Разумеется, нетрудно
привести примеры, когда разделение задач может привести
к абсурдным результатам. В этом случае выбор оптималь-
ной программы и синтез системы управления надо про-
изводить одновременно.
8. Заключительные замечания. В этом параграфе мы
изучали проблему, которая с точки зрения инженера поч-
ти беспредметна. Мы пытались понять, при каких усло-
виях традиционная манера анализа систем управления
будет достигать своей цели. Инженер, создающий систему
управления самолетом или ракетой, почти всегда безоши-
бочно может ответить на подобные вопросы. Он навер-
няка правильно ответит, что быстро осциллирующими
возмущениями можно пренебречь при расчете программы,
и для него не будет проблемой задача, содержащая два
функционала и две функции, которыми можно распо-
рядиться «почти независимо» для минимизации этих
функционалов.
Но с каждым годом жизнь ставит все новые и новые
задачи, сложность которых непрерывно возрастает. С по-
явлением ЭВМ в контуре управления мы начинаем пере-
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 395
ходить от проектирования относительно простых систем уп-
равления самолетом, ракетой или спутником к задачам
управления комплексами. Причем эти комплексы — уже
далеко не всегда совокупность технических средств, много-
летнее обращение с которыми отточило инженерную инту-
ицию. Сегодня мы уже реально приступили к разработке
схем управления народнохозяйственными комплексами
глобального масштаба. В задачах такого рода интуиция
уже просто не работает — никакого накопленного опыта
практически нет. А принципы управления — структура
обратной связи, проблема синтеза, выделение программы,
управление в условиях неполной или ошибочной инфор-
мации и т. д. остаются почти такими же, как и в «простых
задачах» управления космической ракетой. Поэтому и ка-
жется важным понять математическое содержание исполь-
зуемых допущений и приемов и выработать методы,
которые дают возможность сформулировать условия, гаран-
тирующие, что эти удобные и апробированные в техни-
ческих системах методы анализа можно использовать (без
больших ошибок) в других задачах.
Мы рассмотрели несколько задач, в которых ответ был
почти очевиден заранее. В каждой из этих задач было
легко привести интуитивно оправданные аргументы. По-
пытка придать этим аргументам математический смысл —
вот цель, к которой стремился автор.
§ 2. Гарантирующие стратегии и задачи синтеза
1. Предварительные замечания. В предыдущих главах
мы рассмотрели несколько способов численного решения
задач синтеза. Эти методы являются достаточно эффектив-
ными при решении некоторых классов задач теории син-
теза. Они возникли как результат формализации инже-
нерных задач, которая, в свою очередь, основывалась на
некоторых гипотезах об уровне наших знаний характе-
ра исследуемых процессов (гипотезах информированно-
сти). Рассмотрим два примера таких гипотез:
а) Мы предполагали, что случайные процессы внеш-
них возмущений F (t) и ошибок измерений h (t) нам пол-
ностью известны: либо нам известны корреляционные
функции, либо канонические разложения.
14*
396 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Однако в подавляющем большинстве практических
задач мы не располагаем такой информацией. Даже если
инженеры или экономисты полагают, что они могут предо-
ставить полную информацию, то она на поверку часто
оказывается весьма недостоверной. Во многих случаях
информация, которой мы располагаем, является недоста-
точной для использования аппарата, который был изло-
жен. Кроме того, мы можем столкнуться и с другими спо-
собами задания процессов F (t) и h (t). Приведем два
типичных примера задания информации о случайных про-
цессах F (t) и h (t) нестатистического характера.
ах) Известно, что функции F (t) и h (t) принадлежат
некоторому классу G, например, значения h по абсолют-
ным величинам не могут превосходить некоторых зна-
чений:
|Л(0КА+.
а2) Известно, что корреляционная функция случай-
ного процесса h (t) имеет вид
Л (t) h (т) == <за ехр {— к | i — 11},
т. е. известно, что возмущения представляют из себя ста-
ционарный марковский случайный процесс, но величи-
ны Айо точно не известны. Известно, например, что
Л+].
В обоих примерах, которые мы привели, имеет место
неопределенность — мы должны принять решение — вы-
брать структуру управления (или только коэффициенты
усиления системы) в условиях неопределенности.
В подобной ситуации возможны два пути преодоления
трудностей. Один из этих путей связан с идеологией
адаптации. Во время движения управляемого объекта
мы можем получить определенную информацию о струк-
туре случайного процесса F и h (опираясь снова на опре-
деленные гипотезы типа эргодичности) и построить про-
гноз возмущений. Полученная информация может быть
использована для принятия решения. Идеология адап-
тации сейчас очень популярна, и она находит все большее
и большее применение. Но может быть использован и
другой способ принятия решения.
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 397
Предположим, например, что нам известно то, что
F (О €= Gf, где Gp — некоторое заданное множество: на-
пример, || F || е. Пусть снова в качестве критерия фи-
гурирует функционал «точности» J = (z (Г), Rz (Т)).
Значения этого функционала зависят от управления —
матрицы обратной связи В (t) и данной реализации слу-
чайного процесса F (/), т. е. J = J (В (/), F (t)).
Поскольку никаких статистических характеристик про-
цесса F (t) нам неизвестно, то в качестве критерия для
оценки системы управления в этом случае естественно
принять функционал
J+(B)= max J(B, F), (2.1)
F€=?Gp
j+ — это наихудшее из возможных значений функцио-
нала J (В, F) при заданном управлении В (I). Из двух
управляющих функций Вг и В2 мы считаем лучшей ту, ко-
торая обеспечивает меньшее значение функционалу J+.
Тогда оптимальной системой управления мы будем назы-
вать ту, которая реализует
min J+ (В) = min max J (В, F). (2.2)
В В F&Gp
Для того чтобы не путать это понятие с понятием опти-
мального управления, которое мы рассматривали в
предыдущих параграфах, матрицу В (J), реализующую
минимум функционала (2.1), будем называть нижней га-
рантирующей стратегией (или нижней гарантирующей
оценкой)»
Значение функционала, соответствующее этому управ-
лению, будем называть гарантированным качеством си-
стемы управления.
Функционал (2.1) не является аналитическим, и для
его исследования требуются специальные методы.
Метод построения гарантирующих стратегий и адап-
тивный подход не являются взаимно исключающими.
Более того, они могут в значительной степени дополнить
ДРУГ друга. Предположим, например, что устройство, об-
рабатывающее информацию, позволяет установить об-
ласть допустимых значений коэффициента корреляции
к €= 1&" (tf), к+ ($)], причем с течением времени эта инфор-
мация становится все более и более полной, т. е. при
(оо, к~ к* и Это значит, что множество
398 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
допустимых возмущений G (t) сужается. Разумеется, по-
добная информация может и должна быть использована
при построении гарантирующих стратегий.
В данной работе мы не будем изучать методы адапта-
ции и остановимся только на некоторых способах по-
строения гарантирующих стратегий.
б) Во всех рассмотренных задачах мы предполагали
известной программную траекторию. Однако суще-
ствует большой класс задач, в которых мы не располагаем
подобной информацией. В качестве примера рассмотрим
самолет. Сегодня у него одна программа: определенная
скорость и высота, определенный маршрут. Завтра у него
другая программа — он летит по другому маршруту,
с другой скоростью и на другой высоте и т. д. Несмотря
на то, что программа полетов самолета разная, автопилот
во всех случаях используется один и тот же. Как же по-
ступает инженер, конструирующий автопилот для нового
типа самолета, инженер, который должен один раз для
всех возможных режимов полета самолета выбрать
коэффициенты усиления в контуре обратной связи его
автопилота? Он задает тест — выбирает типичный (рас-
четный) режим, и только для этого режима рассчитывает
автопилот. При этом инженер неявно использует гипотезу
о том, что характеристика автопилота очень мало зависит
от программы.
Для самолета эта гипотеза практически всегда оправ-
дывается, и значение функционала, характеризую-
щего качество системы управления, действительно очень
мало зависит от того, какой из возможных установившихся
режимов мы примем в качестве расчетного. Но если речь
идет об управлении существенно неустановйвшимся дви-
жением, то законность подобной гипотезы уже становится
сомнительной. Поэтому перед инженером, который кон-
струирует систему управления, предназначенную для
управления целым пакетом траекторий, встает трудный
вопрос о выборе ее параметров. Здесь он также сталки-
вается с неопределенностью. Но эта неопределенность
будет уже другого типа, нежели та, которая возникла в
предыдущем примере.
Для выбора системы управления в описанной ситуа-
ции также естественно использовать гарантирующие стра-
тегии, т. е. разыскивать управление, доставляющее
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 399
минимум функционалу
(В (£)) = max J (В, Т), {2.3)
Y€=Gy
где Gy — множество допустимых программных траек-
торий.
Мы привели два примера, в которых естественным об-
разом возникает необходимость построения гарантирую-
щих стратегий. Число таких примеров в теории синтеза
очень велико.
2. Задача проверки качества теста. Предположим, что
конструктор должен выбрать параметры автопилота для
управления некоторым множеством возможных траекто-
рий его ракеты. Траекторию ракеты обозначим через у.
Множество допустимых траекторий обозначим через GY.
Как поступает инженер в этой ситуации? Обычно он на-
зывает некоторую траекторию у расчетной траекторией
или тестом. Каждой программной траектории у отвечает
некоторая матрица Ау (/). Следовательно, возмущенное
движение, происходящее в окрестности у, будет описы-
ваться уравнением
z = (/) z + v + F (t). (2.4)
Далее инженер решает задачу синтеза управления для
системы (2.4), и автопилот, который он построит этим спо-
собом, будет использоваться для всего множества траек-
торий Gy.
Предположим, что он оценивает качество управления
при помощи функционала
J = (z (Г), Hz (Т)), (2.5)
а управление он разыскивает в форме v = Bz и пользуется
для этого методикой, изложенной в § Г гл. V.
В этом случае, как мы знаем из предыдущего, задача
сводится к отысканию вектор-функции у (t), удовлетво-
ряющей уравнению
У = (а + ₽)У, (2.6)
где
- А* —В*
— А* —В*
400 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
и матрицы В (t), доставляющей минимум функционалу
т т
J=(y (0), Еу (0)) + J J (у (0, ф(«, Т) у (Т)) dtdx. (2.7)
О о
Вектор-функция у (t) удовлетворяет при t = Т условиям
(5.1Л5), а Ф т) и Е — матрицы, введенные в предыду-
щем параграфе. Предположим теперь, что для тестовой
программы мы решили задачу синтеза, т. е. нашли опти-
мальную матрицу В (t). Обозначим А = А~, В я у — ве-
личины, относящиеся к тестовой программе и выбранному
управлению, тогда
7 =
Первый вопрос, который естественно поставить, будет,
вероятно, следующим: насколько изменится значение
функционала J (Z?), если от расчетной программной траек-
тории перейти к другим программным траекториям мно-
жества GY? Этому вопросу можно дать другую интерпре-
тацию. Для данной расчетной траектории построен ав-
топилот, гарантирующий некоторую «хорошую» точность.
Насколько ухудшится точность выполнения программы,
если мы будем применять наш автопилот для управления
другими допустимыми программными траекториями? Вве-
дем в рассмотрение величину
А/ = max {J (Л, В) - J (Л В)}. (2.8)
ygGy
Величина А/ дает ответ на этот вопрос и характеризует
качество теста. Если величина А/ мала, то это значит, что
тест выбран хорошо и точность выполнения программы
мало зависит от выбора программы из множества Gy. Если
Д7 велика, то это значит, что расчетная программа выб-
рана плохо.
Может оказаться, что хорошего теста вообще нет.
Множество 6Y может быть настолько широким, что ка-
кую бы из траекторий у мы ни взяли в качестве теста,
всегда значение AJ окажется большим. Это значит, что
одним автопилотом нельзя обеспечить достаточно точное
выполнение каждой из программ множества бгу. Напри-
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 401
мер, один и тот же автопилот не может быть использован
и для ^управления автоматической посадкой самолета,
и для управления равномерным полетом на заданной вы-
соте.
Задача определения
max J (Лу, В)
совершенно аналогична задаче (2.5) — (2.8) — задаче оп-
ределения
min J (А~, В).
в&зв *
В самом деле, если матрица В выбрана, то уравнение,
описывающее динамический объект, будет иметь вид
i = A4z + Bz + F (t), (2.9)
где матрица В известна, а матрица Ау является искомой.
Таким образом, в уравнениях (2.4) и (2.9) матрицы В и А
поменялись местами.
3. Гарантирующее управление в задаче улучшения
теста. Предположим, что множество траекторий для
управления которыми должна быть синтезирована систе-
ма обратной связи, задано. Тогда естественно возникает
вопрос, каким образом выбрать тест — выбрать расчет-
ную траекторию.
Решение этой задачи также может быть получено в рам-
ках идеологии гарантирующих стратегий.
Будем называть гарантирующим управлением, пред-
назначенным для управления множеством программ Gy,
управление B(i)E-GB, доставляющее минимум функцио-
налу
J+ = maxJ(Ar, В). (2.10)
Таким образом, задача построения гарантирующей стра-
тегии сводится к определению
J* = min maxJ(4v, В). (2.11)
BGGp
Функционал J* недифференцируем по В, и задача опре-
деления J* достаточно трудна. В общем случае, для ее
402 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
решения нельзя предложить стандартные методы. Вместе
с тем она становится почти тривиальной, если предполо-
жить, что множества CfY и G& достаточно узкие. В этом
случае для ее решения может быть предложен алгоритм,
основанный на предположении о возможности линеари-
зации исходной задачи.
Предположим, что мы выбрали некоторую программу
у. Ей соответствует матрица А~. Предположим далее, что
для этой программы мы решили задачу синтеза и нашли
управление 5. Этим величинам соответствует вектор у (0,
который удовлетворяет уравнению
У=(*~ + Р)£ (2.12)
Рассмотрим теперь некоторую окрестность траектории f.
Это множество мы обозначим через G^. Каждая из тра-
екторий этого семейства определяет матрицу
А = + 6А
и соответственно
а = а—h ба.
Если множество GgY достаточно узкое (например, если
величина || у — Г || мала), то величина || ба || мала.
Предположим также, что мы можем только незначительно
изменять величину управления В. т. е. выбирать B(t) из
некоторой окрестности G^B управления Б. Тогда, приняв
5-5 + бВ, р = з + б₽,
мы будем считать величину || 60 || малой. Положим также
У == У + бу. Тогда вариация бу будет удовлетворять урав-
нению
бу = (а7 + Р) бу + (ба + 60) у. (2.13)
Выпишем теперь вариацию функционала (2.5). В § 1 гл. V
мы уже получили необходимую для этого формулу (5.1.21)
т
6J = (с, бу (0)) + J (бу (0, к (0) dt, (2.14)
о
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 403
где К (t) — вектор, зависящий от статистических харак-
теристик случайного процесса F (t).
Задачу построения гарантирующего управления 6Z?,
доставляющего
mim max 6J (Лу, В) = &J*, (2.15)
мы будем называть задачей улучшения теста.
Задача улучшения теста может быть сведена к реше-
нию нескольких задач Коши,
Представим величину бу в виде суммы бу = бух + бу2,
где бух и бу2 удовлетворяют уравнениям
= («7 + Р) + fay, (2.16)
S?a = («7 + Р) by2 + Ь$у. (2.17)
Используя эти обозначения, перепишем выражение функ-
ционала (2.14)
6J = 6/х (6а) + 6J2 (б₽),
где
т
6Л = (с, 6У1 (0)) + J (6У1 (0, к (0) dt,
о
т
6/2 = (С, byt (0)) 4- J (6г/2 (0, К (0) dt.
О
Соответственно с этим
6J* = max 6JX + min 6J2. (2.18)
SyExGgy SBSxGgj}
Итак, в рассматриваемой задаче определение 6J* рас-
палось на две независимые задачи — определение б Jx и
6J2« Каждая из этих задач является стандартной линей-
ной задачей теории оптимального управления и сводится
к решению двух задач Коши.
Если В — это решение задачи линейного синтеза для
траектории 7, то в результате решения задачи (2.18) мы
можем получить только оценку теста 6JX, Однако опи-
санную процедуру мы можем использовать для построе-
ния метода последовательных приближений.
404 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
В результате решения задачи (2.18) мы находим, во-
первых, некоторую матрицу а во-вторых, матрицу
(т. е. новую программную траекторию). Следователь-
но, мы можем принять эти величины в качестве нового
приближения и повторить процедуру.
По существу описанная схема последовательных при-
ближений имеет много общего с методом последовательных
приближений в теории матричных игр — методом Бра-
уна — Робинсон.
В предыдущем параграфе мы видели, что метод после-
довательных приближений может быть реализован без
использования линеаризации. Точно так же обстоит дело
и в рассматриваемом случае.
Сначала задается некоторая исходная программа у0
и разыскивается оптимальное управление, доставляю-
щее минимум функционалу Jr — J (AYo, В). Решение
этой задачи обозначим через BQ (оно может быть получено
без линеаризации задачи методом, описанным в преды-
дущей главе). На следующем шаге мы находим новую
матрицу 4Т1, доставляющую максимум функционалу
Л = J (Л, Во).
Эту матрицу мы обозначаем через ЛУ1. Эта задача ана-
логична предыдущей. Далее разыскиваем минимум функ-
ционала J3 = J (Л71, В) и. т. д.
На каждом шаге этого алгоритма мы должны решать
задачу линейного синтеза.
Сходимость метода последовательных приближений,
использующего идею метода Брауна — Робинсон для по-
строения гарантирующих управлений, никем не иссле-
довалась и об условиях его сходимости ничего не изве-
стно. Вполне вероятно, что этот метод расходится, и им
нельзя найти управление (матрицу В), реализующую
гарантированный синтез. Тем не менее этот метод удобен
для задачи улучшения управления. В самом деле, —
это характеристика теста у0: точность реализации про-
граммы с управлением Во для наихудшей из программ-
ных траекторий данного семейства. Далее мы разы-
скиваем минимум функционала J3. Очевидно, что J3 J&
И после этого для нового управления Вх определяем
= max J (Лу, 2?х).
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 405
Если окажется, что /4< J2> то зто и значит, что мы улуч-
шили тест.
4. Еще один пример гарантирующих стратегий. Рас-
смотрим задачу (2.4) — (2.5) и предположим, что случай-
ный процесс F(t) является стационарным марковским
процессом. Тогда, согласно теореме Дуба, элементы его
корреляционной матрицы имеют вид
К = II4- ехр {— ktj 11 — т |} ||.
Предположим, дополнительно, что все кц равны между
собой. Тогда корреляционная матрица этого процесса
имеет вид
К (t, т) - (2.19)
где Q — постоянная матрица: Q= ||сг/у2||. Предположим
теперь, что мы не знаем точно коэффициента корреляции
к. Мы знаем только, что он лежит в пределах
к — бйг ^к ^к + б&+,
где б/с" и 8к+ — некоторые положительные числа.
Положим к = к + 8к. Тогда для 8к мы будем иметь
условие
бйеЯзь 8к~ < 8к < б/с+. (2.20)
Решение задачи о гарантирующей стратегии сводится
к отысканию матрицы В (£), доставляющей минимальное
значение функционалу
т т
J = max {J Г (у (0, Qy (т) dx dt + (у (0), Еу (0))},
0 oj
(2.21)
где у удовлетворяет уравнению (2.6).
Функционал (2.21) неаналитический (по отношению к
У (0)» и решить поставленную задачу в общем случае
достаточно трудно. Поэтому предположим, что величины
8к~ и 8к+ малы, и линеаризируем функционал (2.21)
I
406 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
относительно 6А; обозначим
т т ~
б/ = шах 8к Г f (у (t), Q у (т)) \t — т | dx dt +
1 о о
+ (у (0), Еу (0))} = шах 81 (8к, В) (2.22)
и задачу определения /* = тш/(В) заменим отысканием |
в
I
8J* = min max 81 (8к, В).
B€E~Gg
Величина 81 — это линейная функция 8к, причем 8к I
удовлетворяет ограничениям (2.20). Следовательно, мак- (
симум 81 достигается либо при 8к = 6Аг, либо при
8к = 8к+.
Рассмотрим теперь функционал (2.22). Очевидно, что
он равен максимальному из двух чисел
8J (В) = max {81 (8к+,В); 81 (8к~, В)}.
Выпишем теперь 8J*:
8J* == min 8J (В) = min max {6/ (6&+, В); 81 (8к~, В)},
в в
Для решения этой задачи мы можем воспользоваться
методами предыдущего параграфа. Задаем некоторое уп-
равление В и предположим для определенности, что
81 (8к+,В) > 81 (8к~, В). Для первого из этих функцио-
налов определим управление В + 8В, доставляющее его
вариации минимальное значение. Затем положим В =
= В + XSZ?, где Л е [0,1]. Тогда оба функционала сдела-
ются функциями этого параметра:
81 (8к+, В) = (X), 81 (8кг, В) = /2 (%).
Обозначим через % = Х*£Е[0, 1] значение %, достав-
ляющее минимальное значение (X). Тогда могут иметь
место два случая: <
а)Л(Х*)</2 (X*),
б) А(Х*)> А(Л*).
§ 2] ГАРАНТИРУЮЩИЕ СТРАТЕГИИ И ЗАДАЧИ СИНТЕЗА 407
В случае а) управление В + Х*бВ принимаем за новое
управление и повторяем процедуру. В случае б) мы на-
ходим то значение % = X**, при котором ^(Х) — /2(Х).
В качестве нового управления мы принимаем В = 2?+
+ Х**бВ и повторяем процедуру, но уже с функционалом
81 (8к~, В).
Описанный метод позволяет находить только точки
локального минимума функционала (2.22).
Мы привели несколько примеров из теории синтеза,
показывающих необходимость использования методов тео-
рии игр и исследования операций. Необходимость учи-
тывать факты неопределенности возникает в очень многих
задачах этой теории. Однако последовательное приме-
нение идеологии гарантирующих стратегий ограничено
возможностями аппарата: мы не имеем практически
никаких общих методов определения экстремумов неапа-
литических функционалов.
В этих двух параграфах мы рассмотрели, и притом
очень конспективно, несколько частных вопросов тео-
рии синтеза оптимальных систем. Каждый из этих во-
просов может быть предметом специальных исследований,
имеющих глубокий прикладной смысл. Центральным во-
просом теории синтеза оптимальных систем, по-видимому,
следует считать эффективное построение корректирую-
щих управлений при наличии ограничения на мощность
управляющих воздействий и фазовых координат. Эти
управления будут нелинейными функциями фазовых ко-
ординат системы.
Решение этого вопроса упирается, в свою очередь,
в целый ряд труднейших вычислительных проблем. Пер-
вая из этих проблем —• это метод эффективного построе-
ния функционала в тех случаях, когда динамическая
система нелинейна. Вторая — это методы отыскания эк-
стремумов неаналитических функционалов вида
min max J (и, и),
и V
Достаточно ограничиться указанием этих двух задач,
чтобы отнести проблему оптимального нелинейного син-
теза к числу безнадежных. Однако автор верит в инту-
ицию инженера, который уже сегодня научился созда-
вать отличные системы управления. По-видимому, если
408 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
будет осмыслен опыт происходящего, будут найдены и
пути решения проблемы нелинейного синтеза. Возможно,
что решение этих вопросов будет достигнуто не на фор-
мально математическом уровне, а произойдет в резуль-
тате создания новых концепций.
§ 3. Использование канонических разложений
фазового вектора в задачах
линейного синтеза
1. О канонических представлениях случайных вектор-
функций. В гл. IV и V настоящей монографии мы уже не
раз использовали канонические разложения случай-
ных процессов, Для дальнейшего изложения нам необхо-
димо отметить некоторые особенности этого аппарата.
Пусть мы имеем некоторый скалярный случайный
процесс f(t). Его каноническим описанием (или канони-
ческим представлением) называют агрегат
m
/(О-2^(0. (3.1)
где ф/ (t) — некоторые заданные функции, a Ct — неза-
висимые случайные величины. Использование представ-
лений (3.1) в ряде случаев оказывается очень удобным
как в задачах обработки информации, так и в задачах
динамики и управления. Каноническое описание позво-
ляет в удобной форме представить целый ряд характери-
стик случайного процесса. Например, дисперсия f(t) как
функция времени вычисляется по весьма простой формуле
(Г7?)2 = 2 (Ci-G)2 ф? (О- (3.2)
Если для случайной вектор-функции f(t) известны
канонические представления ее компонент, то для нее
также можно построить каноническое представление вида
(3,2), где (fi (0 — заданные вектор-функции, a Ci — не-
зависимые скалярные случайные величины. Поясним
это на примере, когда размерность вектора / равна двум.
Пусть для компонент вектора / даны канонические пред-
ставления
/х-Сгф(0,
§ 3] КАНОНИЧЕСКИЕ РАЗЛОЖЕНИЯ ФАЗОВОГО ВЕКТОРА 409
Тогда мы можем представить / в виде
/ ~ ^1Ф1 (0 ^афа W»
где фх и <р2 — вектор-функции, определенные так:
ф| = ф(О, ф£ = 0, Ф« = О, ф2-П>(0-
Легко видеть, что и в общем случае, когда скалярные
компоненты ft вектор-функции /(£) заданы своими кано-
ническими разложениями, всегда можно для / (t) составить
представление (3.1), где Ci — скалярные независимые слу-
чайные величины, а ф$ (t) — заданные вектор-функции.
Если размерность / (0 равна п, а каждая из компонент f
аппроксимирована суммой, содержащей I координатных
функций, то вектор-функция f{t) будет аппроксимирова-
на суммой, содержащей не более п X I векторных сла-
гаемых, каждое из которых имеет размерность, равную
п. Заметим, что т = п X I п.
2. Расчет рассеивания. Задачи о рассеивании элемен-
тов траектории, как ее называют в баллистике, или за-
дача о точности системы управления, как ее называют
в теории регулирования, это одна из очень распростра-
ненных технических задач. Ее содержание состоит в
следующем. Предположим, что движение объекта проис-
ходит под действием некоторой системы случайных сил,
и часть параметров, определяющих движение объекта
(например, начальные условия), является случайными
величинами. Тогда говорить об одной-единственной фа-
зовой траектории этого объекта особого смысла не имеет.
Поэтому в подобной ситуации поступают так: выделяется
некоторая «невозмущенная» траектория. В окрестности
этой траектории уравнения движения линеаризуются и
записываются в виде
z - Az + f(t). (3.3)
Начальное состояние z (/0) — случайная величина и
/ (0 — случайный процесс внешних возмущений считают-
ся центрированными. Ставится задача: определить эле-
менты матрицы вторых моментов случайного процесса
z (t) в некоторый фиксированный момент t = Т. Для
решения этой задачи удобно использовать канонические
410 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
представления случайного процесса z (£), если процесс
f (t) также задан своим каноническим представлением.
Примечание. Очень часто для оценки точности
следящей системы используют обобщенные характери-
стики вида
J = (г, (3.4)
где R — симметричная, положительно определенная мат-
рица.
Итак, будем считать, что вектор-функция / (0 задана
своим каноническим представлением
m
7(*) = 24<М‘)» (3.5)
i«i
где т > п, — вектор-функции размерности п, С{ —
скалярные независимые случайные величины с извест-
ными статистическими характеристиками, причем Oj = 0,
а о начальном состоянии z (t0) известно, что z (tQ) = 0,
и, кроме того, известны элементы матрицы
= || 11-
Вектор z будем разыскивать в виде суммы
т
(3.6)
1=1
где Х< (0 — неизвестные вектор-функции.
Функции Xi (0 должны быть выбраны так, чтобы урав-
нение (3.3) было удовлетворено для любого t ЕЕ Uo, 24
и любых реализаций
Подставим выражение (3.6) в (3.3), после этого урав-
нение (3.3) примет вид
m
2 G{Xi — — <Pi} =0. (3.7)
i=l
Для того чтобы равенство (3.7) было справедливо для лю-
бых реализаций Ci и любых Т], необходимо и до-
статочно, чтобы величины в фигурных скобках были
§ 3] КАНОНИЧЕСКИЕ РАЗЛОЖЕНИЯ ФАЗОВОГО ВЕКТОРА 411
равны нулю для любых t е= [£0, Л:
Xi = Л%{ 4- <pt, i = 1, 2, m. (3.8)
Таким образом, функции Xi должны удовлетворять
системе дифференциальных уравнений (3.8).
Выясним теперь вопрос о начальных значениях для
вектор-функций (t). Согласно предположению задан-
ными являются элементы матрицы KZ9. Вычислим
____ *т т
e==i k=i
Так как С8 — независимые случайные величины, то это
выражение может быть переписано в виде
____ т
= 3 бШ (3.9)
8=1
Выражение (3.9) справедливо для любого t Полагая в нем
t = t0, мы получаем соотношения, которые связывают
известные величины = zl (tQ) zi (t0) с начальными
значениями компонент вектор-функций х8(^о)«
т __________________________
а«=ЗсЖ)хШ (ЗЛО)
8=1
Это уравнения для определения неизвестных величин
%з Go) G = 1» 2, ..., n, $ = 1, 2, ..., т). Так как матрица
вторых моментов симметричная, то число независимых
уравнений в системе (3.10) равно п (п + 1)/2:
т _________________________
а11 = S (%8 Go))2,
8=1
т ________
а12 “ 3 Go) Хв Go)»
8=1
т — (3.11)
а22 “ 2 ^8 (Х« Go))2,
8=1
т ________
а1з — 2 ^«Хв Go) Хе Go)»
8=1
И Т. д.
412 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Число неизвестных равно п X т > п (п + 1)/2. По-
этому часть этих неизвестных мы можем задать по про-
изволу. В зависимости от их задания остальные неизве-
стные определятся однозначно.
Нетрудно видеть, что решение системы (3.11) может
быть дано следующей системой формул;
= х| = 0,
= о, %? = О,
%2 = 0,
и т. д. Если начальные значения компонент вектора z (t0)
независимы, то все ац = 0 (i =/= 7), и, следовательно,
в этом случае (£0) = 0 для всех i =/= $.
После того, как мы определили начальные значения
для функций задача расчета рассеивания (точности)
сведется к решению задач Коши для системы (3.8) и вы-
числению характеристик рассеивания типа (3.9).
В заключение данного пункта выведем еще одну фор-
мулу для характеристики точности (3.4), которая нам
будет нужна для последующего изложения:
п _________ пт т
/= S Г^(Т)^{Т)= 3
i, j=»l г, j=i e=l R=1
В силу независимости случайных величин С8 получаем
/ = (Г) xi (Т) = 3^/8, (3.13)
$ 3] КАНОНИЧЕСКИЕ РАЗЛОЖЕНИЯ ФАЗОВОГО ВЕКТОРА 413
где
Л = (Ха (Л, Лх. (0). (3.14)
3. Сведение задачи линейного синтеза к задаче Майера.
В предыдущем пункте был описан широко известный ме-
тод расчета точности систем управления. Он сводится
в конечном счете к решению некоторой специальной за-
дачи Коши. Этот же метод может быть использован и в
задаче линейного синтеза. С его помощью, как мы уви-
дим, задачу линейного синтеза можно свести к задаче
Майера.
Рассмотрим линейную систему
z = Az + со 4-/, (3.15)
где управление со разыскивается в виде
со = В (t) z,
а случайная вектор-функция / (0 задана своим канониче-
ским разложением (3.5). Так же, как и в задаче преды-
дущего пункта, мы будем считать, что вектор z (Q яв-
ляется центрированным случайным вектором с известными
вторыми моментами.
Задача линейного синтеза, как мы это знаем, состоит
в отыскании матрицы В (0, доставляющей минимум
функционалу (3.4). Решение этой задачи снова будем ра-
зыскивать в форме агрегата (3.6). Для функций мы по-
лучим тогда систему, аналогичную системе (3.8):
Xi = ^Xi 4-^Xi 4- Ф»> i = 1. 2, (3.16)
В результате этих преобразований задача линейного син-
теза сведется к следующей задаче Майера:
Определить матрицу В (t) таким образом, чтобы она
доставляла минимум функционалу
j = S С* (X. (Л, ЯХ, (Л) (3.17)
8
при ограничениях (3.16), где вектор-функции fa удовлет-
воряют начальным условиям (3.12), а на элементы мат-
рицы В (t) наложены ограничения вида
В (0 е G, (3.18)
где G — некоторое множество. J
414 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
4. Некоторые комментарии. Итак, аппарат канониче-
ских представлений позволяет, так же как и использова-
ние сопряженных уравнений, свести задачу линейного
синтеза к задаче теории оптимального управления. Однако
в этом случае мы получаем задачу значительно большей
размерности, чем та, которая была рассмотрена в преды-
дущих параграфах этой главы.
В самом деле, применение техники сопряженных урав-
нений сводит исходную задачу к п2 скалярным уравне-
ниям. Использование канонических разложений нам дает
систему, порядок которой пХтп, где тп^> п. В этом случае,
практически, нам приходится работать с системами раз-
мерности порядка 6п2, 8п2 и т. д. Соответственно с этим
система для сопряженных переменных будет иметь поря-
док 6п2, 8п2 и т. д. Тем не менее рассматриваемый подход
имеет свои преимущества. Перечислим те ситуации, когда
метод редукции, основанный на использовании канони-
ческих разложений, оказывается более эффективным сред-
ством анализа.
а) Задача с интегральным функцио-
налом. Предположим, что критерий качества имеет
вид
т
J = J (z(i),7?z(i)) dt. (3.19)
i,
В этом случае метод сопряженных уравнений не может
быть непосредственно использован. Для метода канони-
ческих разложений этот случай не представляет никаких
затруднений, поскольку функционал (3.19) после замены
(3.6) будет иметь следующий вид:
Т т ___
J = (3.20)
fo 8=1
т. е. мы имеем стандартную задачу Лагранжа.
б) Параметрические задачи. Предполо-
жим, что конструктивная схема системы управления не
дает возможности делать коэффициенты усиления пере-
менными. Тогда задача синтеза превращается в задачу не-
линейного программирования, поскольку в этом случае
функционал (3.4) становится простой функцией неизве-
§ 3] КАНОНИЧЕСКИЕ РАЗЛОЖЕНИЯ ФАЗОВОГО ВЕКТОРА 415
стных постоянных величин Ьц, удовлетворяющих условию
(3.18). Для решения этой задачи мы будем использовать
тот или иной вариант спуска. Поскольку процедура спу-
ска требует многократного вычисления функционала (или
его производных), а вычисление функционала при исполь-
зовании техники сопряженных уравнений требует вы-
числения двойных квадратур, то использование техники
канонических разложений может оказаться более эконом-
ным, так как вычисление функционала здесь практически
не требует затраты машинного времени и совершается
по конечной формуле (3.17).
в) «Энергетические» ограничения. До
сих пор мы рассматривали задачи с ограничениями на вели-
чину коэффициентов усиления. На практике чаще всего
встречаются ограничения другого вида,
что (о1 — это угол поворота руля самолета
должна быть функцией его фазовых координат
(3.21)
i
Ограничения, которые здесь возникают естественным об-
разом имеют следующий вид:
|©*|<а, (3.22)
где а — некоторое заданное число: руль самолета не мо-
жет отклониться больше, чем на некоторую допустимую
величину. Условия типа (3.22) условимся называть энер-
гетическими. Задача с энергетическими условиями оказы-
вается уже качественно сложнее, потому что эти ограни-
чения являются фазовыми. Единственный пока (в за-
дачах большой размерности) реальный способ преодоления
трудностей, связанных с фазовыми ограничениями — это
метод штрафных функций.
Мы уже вводили функции штрафа для ограничений
типа (3.32). Они имели следующий вид:
т
То
где
О, если | со11 а1
(о? — а1)2, если | со* | > а1
Предположим,
. Величина со*
ф* =
(3.23)
416 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Но данная задача обладает одной особенностью; век-
тор г, а, следовательно, и функция со1, которая связана
с z формулой (3.21), является случайной функцией вре-
мени, и возникает еще вопрос, каким образом в рассмат-
риваемой задаче следует ввести штрафной функционал?
Так как математическое ожидание <о* = равно
i
нулю, то условие (3.22) можно заменить такими
(со*)2 «С Ла2, (3.24)
где Л > 0. В этом случае штрафной функционал мы мо-
жем принять в виде
т
(3.25)
t»
где ___
. f 0, если (со1)2 ка?9
Т*(П= А- —-
I (<о*)2 — Ла2, если ((ог)2>Ла2.
Если теперь мы сделаем замену (3.6) и перейдем к де-
терминированной задаче для функции %, (0, то выражение
для штрафного функционала мы получим в виде
т __
/ = max 2 X» (0 Хе (0 —
h i 1 9,1,*
(3.26)
г) Наконец, использование канонических представле-
ний открывает определенные возможности для построения
синтеза нелинейных систем управления при заданной
структуре нелинейности. Этому вопросу будет посвящен
следующий параграф.
§ 4. Статистическая линеаризация'
и синтез нелинейных систем
управления
1. Идея статистической линеаризации. В последние
годы идеи статистической линеаризации приобретают все
большее значение в теории оптимальных систем. На их
основе удается развить подход к построению теории син-
$ 4]
СТАТИСТИЧЕСКАЯ ЛИНЕАРИЗАЦИЯ
417
теза, который является в известном смысле альтернати-
вой той схемы исследования, которая была изложена
в начале § 1.
Статистическая линеаризация сводит рассмотрение не-
линейных систем весьма общего вида к анализу нелиней-
ных систем, обладающих рядом специальных свойств,
делающих их уже значительно более удобными для ре-
шения задач синтеза. Статистическая линеаризация от-
крывает (как мы увидим) большие возможности для тео-
ретического и численного анализа. В то же время она
основывается на некоторых гипотезах, априорная про-
верка которых крайне затруднительна. Поэтому методы,
основанные на идеях статистической линеаризации, сегод-
ня еще нельзя считать вполне строгими. В то же время
с помощью этих идей уже удалось решить целый ряд важ-
ных технических задач, и накапливаемый инженерами
опыт показывает, что идеи статистической линеаризации
приводят к методам, точность которых оказывается впол-
не приемлемой для технических расчетов.
Именно поэтому автор счел нужным включить в данную
книгу специальный параграф, посвященный применению
идей статистической линеаризации для построения чис-
ленных методов синтеза.
Идею статистической линеаризации поясним сначала
на примере скалярной функции скалярного аргумента *).
Рассмотрим скалярную функцию <р (х) случайной ве-
личины х = х + z, где z — центрированная случайная
величина (т. е. z = 0). Аппроксимируем функцию ср (х)
функцией ф (х):
= to +tl2. (4Л)
где ф0 и фг — некоторые постоянные, которые мы выберем
из условий
ф(х) = ф(х), (4*2)
(ф (х)Я3 (ж))2 = а = min (<р (х) — ф (х))2. (4.3)
Фо, Ф1
♦) Более подробно см. монографию: И. Е. Казаков, Ста-
тистические методы проектирования систем управления, Машино-
строение, 1969, где для исследования качества управления после-
довательно используются идеи статистической линеаризации.
418 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Примечание. В некоторых случаях условие (4.3)
заменяют таким:
(ф (®) — ф (я))а = (ф (ж) — ф (ж))2.
(4.4)
Мы в дальнейшем будем использовать только условие (4.3).
Если нам известна Ф (х) — функция распределения
величины х, то условия (4.2) и (4.3) нам позволяют оп-
ределить ф0 и Так как z, по условию, центрированная
случайная величина, то из (4.2) мы получаем
Фо = J Ф (я) йФ (х).
(4-5)
Преобразуем величину, стоящую в правой части равен-
ства (4.3), учитывая, что z = 0:
(ф (х) — ф (х))2 = ф2 (х) + фо — 2ф0ф (х) —
— 2ф1ф (х) (х — X) + фЬ2- (4.6)
Если функция распределения величины х известна, то
z2 = dx — дисперсия х. Для того чтобы величина (4.6) до-
стигала минимального значения, необходимо, чтобы фх
было корнем уравнения {(ср (х) — ф (я))2} = 0. Отсюда
мы получаем
\ 1_ С (4.7)
х V ах
Однако метод статистической линеаризации употреб-
ляется для решения задач, в которых величина х, а, сле-
довательно, и ее закон распределения неизвестны. По-
этому в методе статистической линеаризации используют
еще одну аппроксимацию. Закон распределения величины
х аппроксимируется законом Гаусса, но с неизвестными
математическим ожиданием и дисперсией. В этом случае
ЙФ (х) = со (x)dx,
/ \ 1 I (я — я)2 ]
где “(ж) = ехр{“
$ 4]
СТАТИСТИЧЕСКАЯ ЛИНЕАРИЗАЦИЯ
419
Равенства (4.5) и (4.7) в этом случае примут следующий
вид:
оо ~(Х-Х)2
= -Л==- $ ф(ж)е 2dx dx, (4.8)
X —CO
00 -(x-x)*
i|>i=—y=l=- J <p(«)(« — z)e dx. (4.9)
у —eo
Мы видим, что равенства (4.8) и (4.9) определяют ве~
личины ф0 и *4»! как некоторые функции неизвестных X
и dx. Таким образом, аппроксимация (4.1) заменяет одну
нелинейную функцию <р (х) другой нелинейной функцией
ф (х). Однако эта последняя является линейной относи-
тельно центрированной составляющей случайной вели-
чины z.
Последнее обстоятельство и служит источником тех
упрощений, которые удается получить в теории синтеза
с помощью метода статистической линеаризации.
2. Замечание о вычислении функции ф0 и фг. Итак,
формулы (4.8) и (4.9) определяют величины ф0 и фх как
функции % и dx:
= to («. dx), ti = ti (*♦ dx). (4.10)
В общем случае функции (4.10) — это сложные транс-
цендентные функции, содержащие интегралы. Однако
для многих нелинейных функций, используемых в техни-
ке, удается получить простые аналитические выражения.
Пусть, например, <р (х) = х3, тогда
= I ж8ехр{- (4Л1)
Но определенный интеграл (4.11) легко вычисляется —он
является табличным:
ф0 = 3dx$ + Xs. (4.12)
Заметим, что, получив величину ф0 (^, dx)> нам нет
необходимости для получения ф вычислять еще один
интеграл. На основании формул (4.8) и (4.9) мы находим,
что
= (4.13)
420 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Используя (4.13) в рассматриваемом примере, мы легко
вычислим
$ = 3dx + Зя*. (4.14)
В цитированной выше монографии И. Е. Казакова ♦) дана
сводка типичных нелинейных зависимостей, которые ис-
пользуются на практике и которые допускают простые
аналитические представления.
3. Пример. Для иллюстрации тех возможностей,
которые^ открывают идеи статистической линеаризации
и той техники, которая здесь может быть использована,
рассмотрим простейший пример. Пусть уравнение, опи-
сывающее эволюцию управляемого объекта, имеет вид
z = G>+f(t), (4.15)
где z — скалярная величина, / (0 — случайный процесс,
а управление со разыскивается в форме
о — ki (0z + К (0 (4*16)
Функции (О и &2 (<) должны быть выбраны так, чтобы
доставить минимум функционалу
J = (4.17)
Начальные условия z (0) будем считать центрированной
случайной величиной.
Величину z3 подвергнем статистической линеаризации:
z*3z8z + iz8 3(z8 -f- z8) z. Так как 2 = 0, то
z8 — 3z8z. (4.18)
Используя (4.18), уравнение, описывающее эволюцию
состояния объекта управления (4.15), мы перепишем так:
z = it, (t) z + 3&2 (i) z8z + / (t). (4.19)
Уравнение (4.19), как мы видим, остается нелинейным.
Предположим теперь, что процесс / (0 задан своим ка-
ноническим разложением
tn
/(0 = 3 (4.20)
8—1
♦) И. Е. Казаков, Статистические методы проектирования
систем управления, «Машиностроение», 1969.
S J /СТАТИСТИЧЕСКАЯ ЛИНЕАРИЗАЦИЯ 421
Величину z будем разыскивать в виде
s = 2 QUO- (4.21)
•=1
Перепишем (4.19), используя (4.20) и (4.21):
т
2 с. {i, - к (О х, (0 - з*2 (О (0 - <ps (0) = о,
в=1
т __
где z2 (t) = 2 (*) = У является детерминированной
функцией неизвестных величин.
Потребуем, чтобы функции %8 (t) удовлетворяли урав-
нениям
!%. = *1(0Х. + ЗА1(Оух. + Ф.. 8 = 1,2,... ,т. (4.22)
В начальный момент считаем заданной величину z2(0).
01 _________________
Так как z2(0) = 2 £»X»(0)i то, положив
Ха (0) = Хз (0) = ... = Хп (0) = 0, (4.23)
Xi (0) мы найдем по формуле Xi (0) = у .
Составим еще уравнение для величины у:
т
У = 2 2 CJ X» (*х (О X. + 3*2 (0 ух. + Ф.). (4.24)
?=»1
причем ___
у (0) = z2 (0). (4.25)
Итак, исходную задачу синтеза мы свели к следующей
стандартной задаче оптимального управления: определить
управления *х (t) Tikrit) и фазовые переменные Xi, •••> Хт»
у, удовлетворяющие уравнениям (4.22) и (4.24) и началь-
ным условиям (4.23) и (4.25) таким образом, чтобы доста-
вить минимум величине у (Т).
К перечисленным ограничениям должны быть еще до-
бавлены ограничения на управление.
422 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
4. Общий случай. Рассуждения, которые мы исполь-
зовали для анализа простейшего примера, позволяют
построить схему синтеза нелинейной системы управления
и в общем случае, если только структура нелинейности
задана. Изложим конспективно схему расчета для следую-
щего случая: объект линеен, т. е. его уравнение имеет вид
z = A (t) z + со + /, (4.26)
управление задается в форме
V = 2 bijZf + к^ (z1,..., zn), (4.27)
;=1
где Fl — заданные функции своих переменных. Коэф-
фициенты матрицы обратной связи Ъц и коэффициенты
усиления к{ (t) должны удовлетворять ограничениям вида
I Ьц | bij, | ki | kt, где btj и kt — заданные числа.
В качестве функционала мы будем рассматривать снова
функционал типа дисперсий
J = (z (Г), Rz (Г)) (4.28)
т
или J = j (z (Г), Rz (Г)) dt.
5. Статистическая линеаризация функций многих пе-
ременных. Первым шагом на пути решения поставленной
задачи является статистическая линеаризация функций
F*, входящих в выражение (4.27).
Заменяем
п
где Т = То + 2 ^i2** Полагаем, что плотность распреде-
i=l
ления вероятностей гауссова:
со (z1,..., zn) = —1 exp (z, D“1z),
' ’ /2'WA
где D — матрица вторых моментов, а Д — ее определи-
тель. Тогда величину То находим из условия То =
= F (z1, za,..., z”). Условимся рассматривать только фу-
нкции F, для которых 4% = 0. Величины Tj мы найдем из
§ 4] СТАТИСТИЧЕСКАЯ ЛИНЕАРИЗАЦИЯ 423
условия минимума выражения
__________________ п п
/ = (F - 2 = -22 Т{77 4- 2 TyD„ + а,
i=l i, i—1
где Di} — элементы матрицы D, а величина а не зависит
от Т<.
Величины находим из уравнений
п
_ 2Т^? + 22 ТуДу = 0. (4.29)
i >=1
Примечание. Нетрудно заметить, что нам нет
необходимости решать систему (4.29), поскольку для
функций мы имеем следующие формулы:
Итак, в результате статистической линеаризации мы за-
меняем функции Fz (z1, ..., zn) выражениями
п
F‘(Z\...,z’‘) = 2 (4.30)
У—i
в которых коэффициенты являются функциями вторых мо-
ментов фазовой переменной z.
После замены (4.30) система (4.26) принимает вид
п п п
i‘= 2 «<; (0 и + 2 Ьц (О ? + ki 2 Т) (Dlk) j + Д (4.31)
/«1 /=1 У=1
i — 1,2,... tn.
6. Задача синтеза. Считая, что случайный процесс
т
задан каноническим разложением /‘ = 2 С»Ф» (0* будем
8=1
т
искать решение в виде г* = 2 (О-
•=1
424 РАЗДЕЛЕНИЕ И ИГРОВЫЕ ПОСТАНОВКИ ЗАДАЧ [ГЛ. VI
Вторые моменты этих величин выражаются формулами
m __________________________
1>а = А‘~2сЫ(9х5(0. (4.32)
8*=1
Повторяя рассуждение предыдущих пунктов этого
параграфа для функций х», получим следующие уравнения:
n n m
£ = 2 «iiXi + 2 Mi + xi + q>i, (4.33)
/“1 w
i = lt2f... t n9 s = 1,2,... , m.
Система (4.33) имеет порядок n X m. Начальные зна-
чения для переменных %8 даются формулами (3.12).
Система (4.33) является системой нелинейных уравнений,
поскольку функции фу зависят, в общем случае, нелиней-
ным образом от величин которые определяются фор-
мулами (4.32).
Функционал (4.28), как мы уже знаем, легко выра-
жается через функции %8 (Г) и известные дисперсии С8.
Таким образом, рассматриваемая задача нелинейного
синтеза с заданной формой нелинейности сведена к задаче
оптимального управления со свободным концом.
7. Заключение. В этом параграфе мы познакомились
с методом, который позволяет нелинейные задачи синтеза
сводить к задачам оптимального управления и, следова-
тельно, использовать для их решения хорошо разрабо-
танные методы этой теории.
Заметим еще одно достоинство методов, использую-
щих статистическую линеаризацию: несмотря на нелиней-
ный характер рассматриваемой задачи, они дают воз-
можность вычислить значение функционала, не прибегая
к методу Монте-Карло.
Однако до сих пор методы статистической линеари-
зации еще не получили своего строгого обоснования. Без-
условно, они являются асимптотическим приближением
для некоторых классов задач, и вопрос о том, чтобы четко
выделить эти классы и, следовательно, до конца понять со-
держание методов статистической линеаризации, является
одним из важных и интересных вопросов теории синтеза.
Цена 1 р. 58 к.