Текст
                    ОПТИМИЗАЦИЯ
И ИССЛЕДОВАНИЕ
ОПЕРАЦИЙ
Редактор серии
Н. Н. МОИСЕЕВ
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 1970


Н. Н. КРАСОВСКИЙ ИГРОВЫЕ ЗАДАЧИ О ВСТРЕЧЕ ДВИЖЕНИЙ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1970
517.8 К 78 VflK 519.9 Игровые задачи о встрече движений. Красовский Н. Н. Главная редакция физико-математической литературы изд-ва «Наука», 1970. Монография посвящена одному из новых разделов теории управляемых систем — дифференциальным играм. Она представляет собой первое в отечественной литературе систематическое изложение ряда проблем, связанных с изучением игровых задач сближения и уклонения от встречи для объектов, описываемых обыкновенными дифференциальными уравнениями. Стержнем предлагаемого в монографии метода решения игровых задач является правило экстремального наведения, разработанное автором с учетом и на основе современных достижений теории управляемых процессов. Рисунков 108, библиографических ссылок 171. Николай Николаевич Красовский Игровые задачи о встрече движений (Серия: «Оптимизация и исследование операций») М., 1970 г., 420 стр. с илл. Редактор В. В. Нрементуло Техй. редактор А, А. Благовещенская Корректор И. Б. Маму лова Сдано в набор 19/И 1970 г. Подписано к печати 22/VI 1970 г, Бумага 84X108V32. Физ. печ. л. 13,125 Условн. печ. л. 22,05 Уч.-изд. л. 21,11 Тираж 10 000 экз. Т-09764. Цена книги 1 р. 56 к. Заказ № 154. Издательство «Наука» Главная редакция физико-математической литературы Москва, В-71, Ленинский проспект, 15. 2-я типография издательства «Наука». Москва, Шубинский пер., 10. 2-2-3
ОГЛАВЛЕНИЕ Предисловие * 7 Введение 9 Глава I. Примеры дифференциальных игр 14 § 1. Простейшие понятия из теории игр 14 § 2. Пример дифференциальной игры 19 § 3. Другой пример дифференциальной игры ... 29 § 4. Третий пример дифференциальной игры 46 Глава II. Постановка игровых задач 55 § 5. Уравнения движения 55 § 6. Допустимые стратегии 59 § 7. Конфликтная задача о сближении 71 § 8. Игровая задача наведения 82 § 9. Информационная игровая задача наведения . . 87 Глава III. Экстремальная конструкция 93 § 10. Эвристические- соображения 93 § 11. Экстремальная конструкция 103 § 12. Экстремальное прицеливание 115 § 13. Свойства экстремальной конструкции 121 § 14. Пример экстремальной конструкции 134 § 15. Допустимость экстремальных стратегий .... 143 Глава IV. Решение конфликтной задачи сближения . . 149 § 16. Теорема о седловой точке в регулярном случае 149 § 17. Устойчивость оптимальных движений 157 § 18. Устойчивость седловой точки 161 § 19. Аппроксимирующая схема 163 § 20. Сближение однотипных объектов 168 § 21. Регуляризируемый случай 176 § 22. Существенно нерегулярный случай игры сближения 190 Глава V. Решение игровой задачи наведения 201 § 23. Сближение с выпуклой областью 201 § 24. Трансформация экстремальной конструкции . . 211 § 25. Пример 221 § 26. Решение задачи наведения 235 § 27. Обобщение задачи наведения 240
6 ОГЛАВЛЕНИЕ Глава VI. Решение информационной игровой задачи 250 § 28. Информационная игровая задача как задача сближения 250 § 29. Огрубленная информационная задача сближения 257 § 30. Решение огрубленной задачи 263 Глава VII. Задача об оптимальном преследовании . . 274 § 31. Постановка задачи 274 § 32. Особенности минимаксной по времени задачи преследования . * 278 § 33. Грубый случай 293 § 34. Очень регулярный случай 301 § 35. Регулярный случай 307 Глава VIII. Задача об оптимальном уклонении .... 314 § 36. Особенности задачи об уклонении 314 § 37. Смешанная экстремальная стратегия уклонения 321 § 38. Преследование и уклонение в случае однотипных объектов 328 Глава IX. Разные задачи 343 § 39. Стабильная игра преследования 343 § 40. Обобщенное экстремальное управление 351 § 41. Сближение нелинейных объектов 362 Приложение 370 § 42. Формула Коши 370 § 43. Задача об управлении 373 § 44. Оценка ресурсов управления 374 § 45. Проблема моментов . . .Л 380 § 46. Решение задачи 43.1 об управлении 386 § 47. Пример решения задачи об управлении 390 § 48. Область достижимости управляемого движения . 399 § 49. Обобщение задачи об управлении 406 Литература 413 Учебная литература 413 Специальная литература 414
ПРЕДИСЛОВИЕ Данная монография посвящена одному из новых разделов теории управляемых систем — дифференциальным играм. В ней основное внимание уделяется задаче о конфликтной встрече двух управляемых движений и задачам, близким к этой проблеме. По тематике наша работа примыкает к монографии Р. Айзекса «Дифференциальные игры» (Изд-во «Мир», 1967 год), однако отличается от нее и выбором задач, и характером изложения. Предлагаемый материал, основу которого составили лекции, прочитанные в 1964—1968 годах в Уральском университете им. А. М. Горького, концентрируется вокруг правила экстремального прицеливания, высказанного автором в 1963 году и усовершенствованного затем в ряде журнальных статей. Общие теоретические положения иллюстрируются на простых модельных примерах. В книге по возможности использованы публикации советских и зарубежных исследователей, так или иначе связанные с разбираемыми вопросами. Соответствующая библиография, доведенная до 1968 года, дана в конце монографии в списке специальной литературы. При этом, однако, не делается никакой попытки дать исторический обзор оригинальных исследований по теории дифференциальных игр и смежным дисциплинам. Все ссылки на литературные источники носят учебный или справочный (по существу дела) характер. Изложение ориентировано на математическую подготовку университетского студента-механика III—IV курса, которая, вероятно, отвечает уровню современных требо-
ПРЕДИСЛОВИЕ ваний к стандартному математическому образованию инженера. Сведения из математики, выходящие за эти рамки, сообщаются по ходу дела (или указываются источники, где эти сведения можно почерпнуть). Кроме того, книга содержит Приложение, содержащее элементы теории линейных управляемых систем. В книге принята сплошная нумерация параграфов. Задачи, теоремы, формулы, рисунки и т. д. занумерованы двумя числами: первое число означает номер параграфа, второе число есть номер внутри параграфа. Помимо специальной литературы в конце монографии дан список учебной литературы, занумерованной числами со звездочкой. Автор пользуется случаем, чтобы сердечно поблагодарить редактора книги В. В. Крементуло и сотрудников кафедры прикладной математики Уральского университета А» Б. Куржанского, Ю. С. Осипова, А. И. Субботина, В. Е. Третьякова и Г. С. Шелементьева, труд которых способствовал изданию данной монографии.
ВВЕДЕНИЕ Задача о конфликтной встрече управляемых движений и другие родственные ей проблемы, входящие в круг дифференциальных игр, составляют существенный раздел в современной теории управляемых систем. Эти проблемы имеют своим источником такие прикладные задачи, как (1) задача о преследовании одного управляемого объекта другим, (2) задача о приведении управляемого объекта в заданное* состояние при неизвестных заранее возмущающих силах, (3) задача об управлении объектом при неполной информации о его текущем фазовом состоянии. Для подобных прикладных задач были предложены известные конструктивные решения. Например, были разработаны способы преследования, основанные на движении по кривым погони, способы преследования, опирающиеся на правило пропорциональной навигации и т. п. Базу таких решений составляют обычно избираемые наперед удобные законы управления, которые могут обеспечить желаемый исход дела (встречу движений, уклонение от встречи, вывод объекта в заданную область и т. д.). В связи с развитием математической теории оптимальных процессов в последнее время делаются попытки привлечь к решению игровых задач эту теорию и найти на этом пути возможность усовершенствования (пока хотя бы в принципе) известных способов управления, а также — найти рациональные методы управления в таких игровых ситуациях, где не удается решить задачу из более простых соображений. Процесс управления, основанный на известных, часто эмпирических, правилах, не всегда оказывается оптимальным (по времени до встречи, или по рассогласованию координат, или по затрате ресурсов управляющих органов), если оценивать этот процесс с точки зрения того или иного партнера, участвующего в управлении данной системой. Поэтому возникает и такая новая задача: выбрав какой- либо показатель качества процесса, искать оптимальные
Ю ВВЕДЕНИЕ по этому показателю законы управления (для каждого из партнеров). Таким путем обсуждаемые задачи попадают в круг проблем оптимального управления. При этом вследствие игрового характера рассматриваемых ситуаций здесь обычно возникают задачи на минимакс или максимин выбранного показателя качества процесса. Предмет настоящей монографии составляют те из этих проблем, которые связаны с необходимостью разрешения следующего конфликта: в деле участвуют два партнера, управляющие данной динамической системой 2; один партнер стремится уменьшить выбранный показатель у качества процесса, другой, напротив, стремится увеличить этот показатель. Такие ситуации целесообразно трактовать как дифференциальную игру двух лиц (игроков). Эта трактовка предполагает математическую модель системы 2 в форме векторного дифференциального уравнения t = / (*, х, и, v), (0.1) описывающего изменение фазового вектора системы х It] во времени t под действием управляющих воздействий и и у, выбором которых распоряжаются соответственно первый и второй игроки. Игра полагается законченной в некоторый момент t — д, когда точка {£, х [t]} попадает на заданное многообразие J\T (в пространстве {t, x}). При этом первый игрок стремится привести точку {t, x It]} на многообразие JT с наименьшим возможным значением платы игры в Г = l(*(t,x[t],u[t],vlt))dt+m(xm) (0.2) to (t0 —• момент начала игры, (о, щ — заданные функции). Второй игрок заинтересован в том, чтобы помешать выводу точки {t,х [t]} на многообразие Ж. Если сделать это ему не удается, то он ставит своей задачей хотя бы добиться возможно большего значения платы у. Управления и и v по условиям задачи обычно стеснены известными ограничениями. Данная модель охватывает довольно широкий круг задач. В частности, к ней сводится задача о преследовании
ВВЕДЕНИЕ 11 одного объекта, описываемого тг-мерным фазовым вектором z It], другим объектом, который описывается тг-мерным фазовым вектором у [t], причем движения у [t] и z [t] задаются уравнениями V=fV{t,y,u), (0.3) i = /<»> (*,*,*). (0.4) Пусть, например, целью преследования является совпадение каждой координаты г/, с соответствующей координатой z.. Тогда в (0.1) надлежит полагать х =-■ п [/(«J' / = U . (°-5) а многообразие Ж определить равенствами г/. = zt (i = 1, ..., тг) или иначе — равенствами ^г = ^г+п (l = 1, ..., 7l). (0.6) В качестве платы игры (0.2) здесь можно выбрать, например, величину Г = J Л = * — *о, (0.7) /о имеющую смысл времени до встречи объектов. Если векторы и и у, которые описывают управляющие силы, не могут принимать значений, превосходящих заданные пределы, то ограничения на управления и и v принимают вид u[t)&% H4Ef, (0.8) где символы % и W обозначают некоторые ограниченные множества в соответствующих векторных пространствах W и {у}. Полная формулировка задачи о минимизации величины Y (0.2) по и и максимизации ее по v должна включать описание той информации, которой располагают игроки в каждый текущий момент времени t при выборе воздействий и It] и и It]. Обычно такую информацию составляют
12 ВВЕДЕНИЕ сведения о позиции х [t], которая реализовалась в данный момент времени t. Законы управления задаются тогда функциями и (t, х) и v (t, x), а реализации и [t] и v [t] управляющих воздействий и и v определяются равенствами [t] = и (*, х [*]), v[t) = v (t, х [t]). (0.9) Примечание 0.1. Равенства (0.9) означают, что управление реальной системой 2, которая описывается уравнением (0.1), осуществляется по принципу обратной связи (рис. 0.1). Измерительные устройства определяют реализовавшееся в данный текущий момент времени t значение фазового вектора x[t]. Это значение х [t] подается в регуляторы [/иУ, подчиненные первому и второму игрокам соответственно. Регуляторы в соответствии с избранными законами управления и (t, x) и v (t, x) вырабатывают воздействия и [t] и и [t] (0.9), которые и подаются на систему 2 в момент времени t. WMW]) - 1 1 \ »- vKhv(t, Е x=f(t,x,u,v) *Ж^и- x[t) — 1 x[t] xlt] i Sto- На более строгих формулировках задачи мы здесь, однако, не останавливаемся. Они даются в монографии при . разборе конкретных ти- ^-^ пов игровых задач. Теоретическое исследование дифференциальных игр оказалось трудным делом. Тем более игровые задачи об оптимальном управлении оказались трудными для эффективного решения. Сейчас исследование их или [сводится к общим теоремам, которые описывают регулярные случаи, или концентрируется вокруг простых модельных ситуаций. Таким образом, для серьезных игровых задач, интересных для приложений, трудно пока находить наилучшие решения, которые следовали бы из общих фундаментальных принципов математической теории оптимального управления. В то же время организация процесса на основе простейших эмпирических принципов может оказаться далекой от оптимальной. В связи с этим целесообразно поставить вопрос о выделении таких, в меру общих игровых Игроки Рис. 0.1.
ВВЕДЕНИЕ 13 задач, которые допускают эффективные решения, оптимальные или близкие к оптимальным. Этот вопрос и определил содержание данной монографии, где основное внимание уделено задаче о конфликтном сближении двух линейных управляемых объектов. Итак, в данной книге речь идет прежде всего об игровом сближении объектов, собственная динамика которых описывается обыкновенными линейными дифференциальными уравнениями. Следует, однако, заметить, что законы оптимального управления, вытекающие из условий игры, как правило, оказываются нелинейными. Поэтому обсуждаемые нами задачи можно рассматривать как задачи из нелинейной механики.
ГЛАВА I ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР § 1. Простейшие понятия из теории игр В этом параграфе мы напомним читателю некоторые простейшие понятия из теории игр. Более подробно с этими понятиями можно познакомиться, например, по книге Дж. Мак-Кинси [9*]. Математическая теория игр имеет своим предметом исследование конфликтных ситуаций. Одна из таких типичных ситуаций именуется игрой двух лиц. В ней участвуют два игрока, преследующие противоположные цели. Нам удобно принять, что эти игроки оказывают воздействия на некоторую систему 2 и в результате этих воздействий вырабатывается величина у, характеризующая исход игры. Примем, что в интересах первого игрока получить возможно меньшее численное значение показателя у, в интересах второго, напротив, сделать значение у возможно большим. Величину у называют платой игры. Допустимые действия игроков оговорены правилами игры. Каждый из игроков действует в рамках этих правил, руководствуясь какими-то своими соображениями. Эти соображения составляют то, что принято называть стратегиями. Мы ограничимся лишь такими случаями, когда можно строго очертить классы {U} и {V} допустимых стратегий U и V, которые могут выбирать соответственно первый и второй игроки. Тогда данное выше несколько расплывчатое понятие стратегии отождествляется с каким- либо определенным математическим объектом, изображающим эту стратегию. Например, символ U, обозначающий некоторую стратегию, может быть или числом, или вектором, или функцией, или словесной инструкцией, или программой, которая вводится в вычислительную машину, и т. д. Принимается, что при прочих равных условиях величина v является известной функцией у [С/, V] от U из
§ 1] ПРОСТЕЙШИЕ ПОНЯТИЯ ИЗ ТЕОРИИ ИГР 15 допустимого множества {U} и от V из допустимого множества {V}. Важно подчеркнуть, что каждый из игроков при выборе своей стратегии не информирован о том, какую стратегию избирает его партнер. Игрок знает только мно жества допустимых стратегий {U} и {V} своих и противника и вид функции у (U, V). Итак, рассматриваемая игра двух лиц характеризуется следующей схемой (рис. 1.1). Даны запасы стратегий {17} и {V}, откуда первый игрок выбирает одну какую-то стратегию С/, а второй игрок выбирает одну какую- то стратегию V. Игроки «вводят эти стратегии в систему 2», т. е. оказывают на систему 2 такие воздействия и и v, которые диктуются выбранными стратегиями U и V. В результате в системе вырабатывается величина у (U, V). Задача первого игрока — выбором U минимизировать у, задача второго игрока — выбором V максимизировать у. Примечание 1.1. Полезно подчеркнуть следующее важное обстоятельство. Стратегия, вообще говоря, не есть то или иное одно конкретное воздействие игрока на систему 2 в какой-то отдельный момент времени t. В более или менее содержательных играх стратегией является инструкция, которой должен руководствоваться игрок при всех своих действиях в течение всего процесса игры. Воздействия же и = и [t] и и = v [t] игроков на систему, предписанные их стратегиями, могут развертываться во времени t от начала игры t = t0 и до момента t~$, когда игра завершается и система 2 выдает величину у. При этом характер и величина таких воздействий в каждый текущий момент времени * обычно предписываются избранной стратегией с учетом того состояния (позиции), в котором находится система 2 в этот момент времени, или с учетом и тех состояний, в которых она находилась в предыдущие моменты времени. (Возможность учета информации о реализовавшихся позициях 2 отмечена на рис. 1.1 пунктирными линиями.) Поэтому, в частности, утверждение о том, что данный игрок выбирает свою стратегию, не зная, какую стратегию выбрал его противник, не исключает таких правил игры, при которых допустимы стратегии, предпиеы- \.rVJ?_ Рис. 1.1.
16 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I / вающие (вычисляющие) то или иное текущее воздействие на систему 2 в каждый момент времени t на основании информации, включающей и сведения о реализовавшемся воздействии противника на 2 в этот же момент времени t. В подобных случаях во избежание порочного круга следует лишь исключать допустимость таких стратегий для обоих игроков. Мы видели, что рассмотрение игровой ситуации приводит к задаче о минимаксе величины у (U, V) (или к задаче о максимине этой величины). Уточним эти задачи. Будем рассуждать сначала с точки зрения первого игрока, который стремится выбором стратегии U предельно уменьшить значение у. Пусть он выбрал U = С/ф. Очевидно, самый неблагоприятный для него случай осуществится тогда, когда второй игрок выберет стратегию У*, удовлетворяющую условию Y (U„ V) = max Y (ff., V) = % IU,] (V <= {V}). (1.1) Плату у (U, V) здесь удобно трактовать как проигрыш первого игрока. Тогда величина % [UJ определяет самый большой проигрыш, который может постигнуть этого игрока, если он выберет стратегию U^. И от этого проигрыша при выборе U = U0 первый игрок никак не застрахован, ибо по условиям игры он не может предугадать, какую стратегию V выберет второй игрок. Желая предельно ослабить грозящую ему неприятность, первый игрок будет искать такую стратегию t/°, для которой X W°] = min х W] по всем U из {£/}. Итак, для первого игрока представляется разумным выбирать стратегию U = U* из условия % [*7°] == min max y (U, V). (1.2) и v Стратегия U° гарантирует первому игроку, что его не постигнет больший проигрыш, чем % [С7°], как бы ни действовал второй игрок. При этом нельзя указать другую стратегию U из {£/}, которая гарантировала бы первому игроку меньший, чем % [U0], проигрыш. Заметим следующее. Мы молчаливо предполагали, что при каждом U = U^ существует максимум % [С/ф] (1.1),
\ 1 § 1] ПРОСТЕЙШИЕ ПОНЯТИЯ ИЗ ТЕОРИИ ИГР 17 который достигается на некотором элементе V* из {V}. Однако может случиться, что такого элемента V* в наборе {V} нет. Тогда рассуждения можно вести по тому же плану, что и выше, заменяя только величину % [C7J (1.1) величиной v В соответствии со всем сказанным оптимальной минимаксной стратегией первого игрока мы будем называть такую стратегию £7°, которая удовлетворяет равенству %[{/°] = minsupr(£/,F). (1.3) и v Примечание 1.2. Обратим внимание на два обстоятельства. (1) Мы предполагаем, что существует элемент U = U0 из {£/}, на котором достигается минимум (1.3). Иначе надлежит полагать, что рассматриваемая задача об оптимальной стратегии U0 решения не имеет. (2) Для рассматриваемой задачи на минимакс (1.3) предположение о том, что второй игрок не информирован о стратегии, выбранной первым игроком, несущественно. По смыслу данной задачи дела первого игрока ничуть не ухудшатся, если предполагать, что обо всех его замыслах второй игрок полностью информирован заранее. Рассуждая аналогичным образом за второго игрока, можно прийти к выводу, что его оптимальную макси- минную стратегию V0 разумно искать из условия <ф[У°] = тах«ф[7], v где y[V] = intr{UtV). и Стратегия V0 обеспечит второму игроку выигрыш не меньший, чем ф[К°] = maxinfr(f/,VT), (1.4) v и и никакая другая стратегия не может гарантировать ему больший выигрыш. (И здесь мы предполагаем, что существует элемент V = V0 из {F}, на котором достигается максимум (1.4). Для задачи (1.4) об оптимальной стратегии V0 также сохраняет силу и замечание о том, что
18 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I характер информированности первого игрока о задуманных действиях второго несуществен.) Вообще говоря, г|) [V0] Ф % [U0], необязательно справедливо неравенство ylV°]<xlU?], (1.5) ибо первый игрок, очевидно, не может гарантировать себе, что его проигрыш будет строго меньше, чем тот минимальный выигрыш г|? [V0], который может обеспечить себе второй игрок. Наиболее привлекательны, однако, случаи, когда в (1.5) справедливо равенство. Такие случаи приводят к ситуациям, именуемым седловой точкой игры. Именно, говорят, что игра имеет седловую точку (£7°, F0), когда выполнены неравенства у (*7°, V) < у (t/°, V°) < y (U, V0). (1.6) В случае седловой точки справедливы соотношения minmaxr(J7,!') = maxminr(U,У) =r(U°,V*). (1.7) и v v и При этом оптимальные стратегии С/0, F0, доставляющие седловую точку (1.6), означают для каждого из игроков, по-видимому, наилучший возможный способ действий. Действительно, из (1.6) следует, что отклонение какого-либо игрока от его оптимальной стратегии при условии, что другой игрок придерживается своей оптимальной стратегии, может только ухудшить результат игры у для «уклониста». Минимаксная и максиминная оптимальные стратегии £7° и F0, если они не доставляют седловой точки, этим качеством не обладают. Рассмотрим простейший пример игры двух лиц. Пример. 1.1. Пусть стратегии U я V отождествляются с действительными числами аир, причем допустимые множества {а} и {Р} заданы неравенствами — оо < ос < сю, — °о < Р < °°» а функция у (а> Р) имеет вид Y (а, Р) = а« - Р2. (1.8) Тогда, очевидно, X [а] - а2, ф [Р] = -Р2, а° = О, Р° = О, и оптимальная минимаксная стратегия а0 = 0 вместе с оцтимальноц
21 ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 1$ максиминной стратегией р° = 0 доставляют седловую точку игры, ибо выполнены неравенства (1.6) Y (а<\ Р) = -р2 < y (а°, Р°) = 0 < у (а, р°) = а*. Более содержательный пример игры рассмотрен в следующем параграфе. § 2. Пример дифференциальной игры Рассмотрим систему 2, которая складывается из двух точек тМ и гФ\ перемещающихся в плоскости {£, т]} (см. рис. 2.1; на этом рисунке и в дальнейшем полые стрелки Рис. 2.1. соответствуют векторам управления, в отличие от всех других векторов, изображаемых сплошными стрелками). Движение £-й точки управляется £-м игроком. Пренебрегая инерционностью точек, примем, что в каждый текущий момент времени t точке т(> (точке гФУ) первый игрок (второй игрок) может сообщить скорость и М (скорость u[t]), произвольно направленную, но стесненную неравенством ||и М|| < |i (\\v М|| < v) (2.1) (\i и v — положительные постоянные).
20 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. 1 Здесь и ниже символ ||д|| означает евклидову норму вектора д, то есть Помимо ограничений (2.1), выбор скоростей и и v мы стесним еще требованием, чтобы реализующиеся переменные векторы скоростей u[t] и v[t] с течением времени изменялись непрерывно. Обозначим координаты первой точки через уХ1 у2, а координаты второй точки — через zx и z2. Тогда движение наших точек опишется системой дифференциальных уравнений У1 = И1, Уъ = Щ, z1 = v1, z3 = ya, (2.2) где гг., v. (i = 1, 2) — проекции на оси | и т) векторов гг и у. В векторной форме уравнения (2.2) принимают вид if. = в, i = у, (2.3) причем у ж z суть двумерные векторы "-£]• г=й- (Условимся здесь и в дальнейшем, если не будет какой-либо оговорки, трактовать рассматриваемые векторы как векторы-столбцы.) Совпадение точек т,М и т<2> будем именовать встречей. В соответствии с этим момент времени t = Ф, когда впервые выполнится равенство »(*)=* (*), (2.4) будем называть моментом встречи. Примем, что целью первого игрока является встреча точки га<1> с точкой т<2>, и он заинтересован в том, чтобы это событие произошло как можно раньше. Второй игрок, напротив, стремится избежать встречи или хотя бы предельно оттянуть ее. Поэтому в данном случае в качестве платы у, которая оценит исход игры, мы выберем разность У = * - 'о (2.5)
[ § 2} ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 21 (Ф — момент встречи, t0 —- момент начала игры). Если встреча вовсе не осуществляется, то полагаем # = оо. Теперь надлежит пояснить, что мы будем понимать здесь под стратегиями игроков. С этой целью введем сначала следующее наименование. Будем называть позицией системы 2 четырехмерный вектор х — {х(}, составленный из векторов у и z, то есть Г*1п #2 #3 L_^4_ . *уГ Уг Ч _zaJ Таким образом, осуществившиеся в какой-то момент времени t состояния у [t] и z [t] точек т^ и т<2> определяют позицию х [t] = {у [t], z U]}, реализовавшуюся в этот момент. Стратегией U (стратегией V) первого (второго)-игрока мы будем называть правило, указывающее для любой возможной позиции х} в которой у =j= z, какая скорость и (скорость v) должна быть сообщена точке ir№ (точке т^) в тот момент t, когда в системе 2 реализуется эта позиция. Иначе говоря, каждая стратегия U отождествляется с некоторой вектор-функцией и (х), а каждая стратегия V — с некоторой вектор-функцией v (х), определенными для всех переменных х = {у, z}, где у ф z. Тогда воздействия и [t] и v U], реализующиеся в системе 2 в текущий момент времени t при выборе первым игроком стратегии и (#), а аторым игроком стратегии v (x), определяются равенствами и [t] = и (х [*]), vlt] = v (x [t]). (2.6) Множества {U} и {V} допустимых стратегий мы стесним двумя условиями. (1°) Векторы и и у, сопоставляемые позициям х правилом (2.6), должны удовлетворять неравенствам ||и||^[л, IMKv. (2°) Векторы и (х) и v (x) должны изменяться непрерывно с изменением х\ более того, мы потребуем, чтобы вектор-функции и (х) и v (x) в каждой ограниченной замкнутой области $ пространства {#}, не содержащей точек
\ 22 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I х, щеу — z, удовлетворяли условиям Липшица | и (a<i>) - и {х&) ||< % ||хЫ - «(2) |f \ причем величина К может зависеть от области $. Условие (1°) является необходимым следствием ограничений (2.1), принятых в постановке задачи. Условие (2°) является более жестким, чем оговорка о непрерывности реализаций и [t] и v It], сделанная в исходной задаче. Однако данное более жесткое условие (2.7) удобно принять пока й связи со свойствами нашего аппарата дифференциальных уравнений, так как это условие гарантирует единственность решений у [t] и z [t] системы (2.3) при допустимых и = и (г/, z) и v = v (г/, z). Итак, множества {£/} и {V} допустимых стратегий изображаются соответственно совокупностями {и (х)} и {v (x)} всех вектор-функций и (х) и v (x), удовлетворяющих условиям вида (2.7) и неравенствам |в(х)|<ц, |i>(*)|<v. (2.8) Таким образом, выражение «первый игрок избрал стратегию и (#), а второй игрок избрал стратегию v (x)» в математической модели игры будет означать, что движение точек rr№ и га<2) описывается уравнениями (2.3), где правые части и = и (у, z) и v = v (у, z) еуть какие-то вполне определенные вектор-функции от у и z. При этом, если в некоторый момент t реализуется позиция x[i\ = {y[t], zW}, то в этот момент согласно (2.3) и (2.6) точке т^ сообщается скорость у It] = и [t] = и {х It]), а точке т<2> — скорость z[t] = v[t] = v(x[t]). Ясно, что в описанной игре плата у при фиксированной исходной позиции s U01 = {У Uoli z l*oU вполне определяется избранными стратегиями и = и (х)
§ 21 ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 23 и v = v (х), так как согласно известным теоремам из анализа (см. [15*], стр. 140—153, [12*], стр. 165) при услови ях (2.7), (2.8) начальные данные у [t0] = у0, z [t0] = z0 определяют единственное решение {у [t], z [t]} соответствующей системы дифференциальных уравнений У = и {у, z), z = v (г/, z), и это решение {у [£], z It]} существует при всех тех t ^ ^ *0, для которых у It] Ф z [t]. Отсюда следует, что при данной исходной позиции {У [t0], z [t0]} = х [t0] = х0 = {i/0, z0} момент встречи Ф (£0<C Ф^ оо) определен единственным образом выбором допустимых стратегий, то есть выбором вектор-функций и (х) и v (х). Таким образом, здесь действительно при фиксированной исходной позиции х [t0] = х0 плата у является функцией от стратегий U и V. Примечание 2.1. В § 1 было сказано, что плата у является функцией у (U, V) от стратегий U п V при прочих равных условиях (см. стр. 14). Эта оговорка там не была расшифрована. Теперь мы видим, что в разбираемом случае роль этих «прочих условий» исполняет начальная позиция x[t0] — х0 системы S. В обсуждаемой игре стратегии U и V отождествляются с функциями и (х) и v (х). Поэтому в данном случае плата у при фиксированном значении х [t0] = x0 фактически является функционалом, определенным на всех парах вектор-функций и (х), v (#), удовлетворяющих условиям (2.7), (2.8). Это обстоятельство мы изобразим следующей записью: у = (y |и, v\ *01 х0). Задача на минимакс величины у формулируется теперь следующим образом. Задача 2.1. Среди допустимых стратегий и (х) (2.7), (2.8) требуется найти оптимальную минимаксную стратегию и0 (х), которая удовлетворяет условию sup (г | w° (я), v (х)\ *0, я0) = min sup (r | u\x),v (x)\ *0, хо), г(х) и(х) v(x) какова бы ни была исходная позиция х [t0] = xQ.
24 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I Задача на максимин величины у формулируется так. Задача 2.2. Среди допустимых стратегий v (x) (2.7), (2.8) требуется найти оптимальную максиминную стратегию v° (х), которая удовлетворяет условию inf (г | и (х), v° (х); *0, хо) = max Inf {r\u(x),v (x); t0j x0), и(х) v(x) и(х) какова бы ни была исходная позиция х [t0] = х0. Рис. 2.2. Итак, мы полностью описали некоторую игру преследования. Эту игру принято именовать дифференциальной игрощ поскольку динамическая система 2, подверженная воздействиям и и и игроков и «вырабатывающая» величину у == ф — t0, описывается здесь дифференциальными уравнениями. Предположим, что (Д, ^> v. Тогда оказывается, что данная игра имеет седловую точку. Оптимальные стратегии и° (х) и v° (х), которые доставляют эту седловую точку, таковы. Стратегия и0 (х) сопоставляет позиции х скорость гг, имеющую максимально возможную абсолютную величину |)wj = fi и направленную от точки т^ на точку
§ 2] ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 25 т(2) вдоль прямой, соединяющей эти точки. Стратегия v° (х) сопоставляет позиции х скорость у, тоже имеющую максимально возможную для нее абсолютную величину || v\\ = v и направленную от точки т(2> также вдоль прямой, соединяющей т(1) и га(?\ но в сторону, противоположную направлению на точку га(1> (рис. 2.2). Функции и0 (х) и v° (х), описывающие названные оптимальные стратегии, имеют, очевидно, следующую векторную запись: и°(х) = и°0/, з) = |1 yZyz{l . »°W = »°(», з) = v цуЦ^ц (2.9) или в координатной форме Для исходной позиции оптимальная плата у0 = 'О'0 — г0, определенная оптимальными стратегиями гг° (л;) и у0 (х), выражается равенством т°(уо,^)= "у;~г;". (2.Ю) Таким образом, если оба партнера придерживаются оптимальных стратегий й° (я), у0 (#), то при данной исходной позиции {у U01» * l*ol} = {*/о> *о} встреча осуществляется по прошествии времени flo _ /о = го = (т | ио? уо; toj yQj Zq) = l*~*l . Если преследователь выбирает свою оптимальную стратегию и0 (#), а преследуемый отклоняется от стратегии v° (х) и выбирает какую-то другую допустимую стратегию- v (х), то реализующийся момент встречи Ф
26 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I обязательно удовлетворяет неравенству о-*о-=(ПцМ>;*„у„,*о)< "у;~;°в • Напротив, если преследуемый выбирает свою оптимальную стратегию у0 (х), а преследователь останавливается на какой-то допустимой стратегии и (#), то необходимо реализуется неравенство O-t0 = (r\u,v»;t0,y0,z0)> ^Zl°l] • При этом, следовательно, выполняются соотношения (Г | и0, v°\ tQj г/о, z0) = min max (r | и, v\ *0, y0, zQ) == u(x) v(x) = maxmm(T|w^;i0,J/o,2o). (2.11) v(x) u(x) Справедливость высказанных утверждений следует из той общей теории, которая развита в последующих главах (см. главу VII, § 33). Однако эти утверждения можно проверить и непосредственно, если исходить из простых наглядных соображений. Такую проверку мы пока предоставляем читателю. П римечание 2.2. Класс допустимых стратегий мы ограничили функциями и (х) и у (х), которые, помимо неравенств (2.8), стеснены еще условиями Липшица (2.7). Этот класс можно расширить, допуская все функции и (х) и v (я), которые лишь непрерывны при у ф z (и удовлетворяют, разумеется, также неравенствам (2.8)). Более того, можно было бы допустить и некоторые разрывные функции и (х) и v (я), но лишь такие, для которых при и — и (х) и и — v (х) уравнения (2.3) имели бы нужные решения у [t] и г [t] при любых возможных исходных данных у [t0] ф z[t0]. Однако в рассматриваемой игровой задаче это не привело бы к изменению решения, хотя в связи с возможной неединственностью движений у [t] и z [t] сама постановка задачи потребовала бы некоторой модернизации (см. следующий параграф, стр. 37). По-прежнему для каждого из игроков оптимальными остались бы те стратегии, и = = и0 (х) и и = v° (я), которые описаны на стр. 25 и которые дают оптимальную плату игры у0 (2.10). Проверку справедливости этого утверждения пока мы также можем предоставить читателю. В заключение параграфа на конкретных реализациях проиллюстрируем свойства стратегий и° (х) и у° (х) (2.9).
2] ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 27 Пусть \i = 2, v = ]/3 — 1 и в начальный момент игры t0 — 0 сложилась исходная позиция (все числа выбраны исходя из удобства счета) x[t0] = \ulto) L*l*o]. = 0 0 (2.12.) Если оба игрока придерживаются стратегий и° (х) и v° (х), то траекториями точек m(l) и иг<2> будут отрезки прямой ОхС и 02С (рис. 2.3), и встреча в точке С произойдет в соответствии с (2.10) в момент 3„^ 11У.-го|| _ 2 |i-v Ъ-УЪ '
28 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I Пусть теперь преследуемый пользуется стратегией v° (#), а преследователь руководствуется стратегией где UL * и2 coscp sincp (х) (х) = - — — = и = и- VJzT COS (ф — sin (ф — zi — yi a), a), — 2/i)2 + (22 — 2/2)2 Z2 — У-l т. е. ф есть угол, который составляет с осью £ луч {т^\ тЩ, направленный от точки т(1) на точку т^\ а величина а есть некоторый постоянный угол между лучом {ra(l\ m<2>} и скоростью и точки т1гК Примем, что \х cos a ^> v. Тогда, как нетрудно подсчитать, встреча состоится в момент времени ф* = It З/о — soil у, cos a — v ' который, как и следует из наших общих утверждений, наступает позже, чем момент Ф = Ф0. На рис. 2.3 сплошными линиями изображены соответствующие траектории точек для исходной позиции (2.12) при a = 30°. Если же, наоборот, преследователь пользуется стратегией и0 (х), а преследуемый руководствуется стратегией v\ (х) = v cos (ф + Р), v2 (х) = v sin (ф + Р), где р — некоторый постоянный угол, то встреча происходит раньше, чем при t — Ф0, а именно в момент ||Уо—zol <0°. * [Л — V COS& Траектории, соответствующие этому случаю, изображены штриховыми линиями на рис. 2.3 для исходной позиции (2.12) и для р = 90°. Упражнение 2.1. Опираясь на наглядные соображения, доказать оптимальность стратегий и0 (я), и0 (х) (2.9) в классе допустимых функций и (х) и v (я), которые удовлетворяют условиям (1°)
§ 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 29 и (2°). Обсудить случай, когда класс допустимых стратегий составляют всевозможные непрерывные (при уфг) функции и (х) и и (х). Какое обстоятельство и как надлежит учесть в последнем случае в постановке и при исследовании задачи? § 3. Другой пример дифференциальной pirpbi Игровая задача о преследовании, разобранная в предыдущем параграфе, свободна от большинства трудностей, сопутствующих дифференциальным играм. Ее приятной особенностью является «гладкая» седловая точка (2.9), которая определяется дифференцируемыми (при у =f= z) -v m и о < ч» >> э- о ( Рис. 3.1. функциями и0 (х) и v° (х). Теперь мы обсудим другую, менее регулярную задачу. Она потребует известной модификации исходных проблем минимакса и максимина, поскольку нам придется обратиться к дифференциальным уравнениям с разрывными правыми частями, для которых априори не гарантирована единственность решений. Итак, рассмотрим следующую конфликтную ситуацию. Пусть динамическая система 2 есть материальная точка т, перемещающаяся по горизонтальной оси | и управляемая двумя силами, проекции которых на ось £ суть переменные и и —v (рис. 3.1). Управляющие воздействия ии v, подчиненные соответственно первому и второму игрокам, мы стесним неравенствами N<[x, H<v, ' (3.1) где символ | w\ есть знак модуля числа w, a \i > v — положительные постоянные. Игра начинается в некоторый момент времени t = t0; момент окончания игры t = Ф > t0 задан. К этому моменту первый игрок стремится подвести точку т как можно ближе к положению | == 0. Одновременно он 'желает предельно уменьшить абсолютную величину скорости этой точки. Второй игрок препятствует осуществлению этих намерений.
30 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I Обозначим координату точки т через | [t]. Тогда плату у в рассматриваемой игре можно задать равенством у = (i2 т + I2 т)% (з.2) По второму закону Ньютона уравнение движения точки га, массу которой примем за единицу, будет иметь вид I = и — v. Обозначая | = #1? | = д:2» трансформируем это уравнение в линейную систему двух дифференциальных уравнений хх = #2, £2 = и — у, (3.3) которую запишем также в нормальной матричной форме х = Ах + Ь (и — v). (3.4) Здесь х — двумерный вектор-столбец матрица А имеет вид /0 1\ А - 1о о/ ' символ Ь обозначает двумерный вектор переменные и и у суть скаляры. Плата у (3.2) изобразится теперь равенством Г = И*]|. (3.5) Обсудим рациональный выбор класса допустимых стратегий. Момент окончания игры здесь задан явным условием t = Ф. В отличие от ситуаций из § 2, это приводит к неравнозначности различных моментов текущего'временив. Поэтому теперь нельзя рассчитывать обойтись лишь стратегиями, отождествляемыми с функциями и и v, за-
§ 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 31 висящими явно только от (векторного) аргумента х = = {#i> хъ}- В число аргументов стратегий-функций и и v сейчас придется включить и переменную t. В соответствии с этим теперь удобно именовать позицией системы 2 совокупность {t, #}, состоящую из скаляра t и вектора (двумерного) х. Тогда снова под стратегией U (стратегией V) первого (второго) игрока мы сможем понимать правило, указывающее для любой возможной позиции {t, x) (t0 ^ <! t < Ф), какая сила и (сила — v) должна прикладываться к точке т, оказавшейся в момент t в состоянии х [t] = х, то есть в состоянии I It] = #x, | [t] = Х2. Иначе говоря, стратегии U и V мы отождествляем теперь с функциями и (t, х) = и (t, хг, х2) и v (t, х) = v (t, #1? х2) соответственно. Следовательно, управляющие воздействия и [t] и v It], которые в каждый текущий момент времени t будут реализоваться в рассматриваемой системе 2 при выборе стратегий и (t, x) и v (t, x), определятся равенствами и [t] = и (*, х [*]), v [t] = v (t, x [t]), (3.6) а движение x It] = {£ [t], | [t]} точки т опишется тогда уравнениями (3.3), где надлежит полагать и = и (t, x), v = v (t, х). К сожалению, попытка обойтись только функциями и (t, x) и v (t, #), которые подобно функциям и (х) и v (х) из § 2 удовлетворяют условиям Липшица, или попытка обойтись хотя бы только непрерывными функциями и (t, x) и v (t, x) в рассматриваемой игре оказывается малоудачной. Дело в том, что здесь не удается доказать существование в классе непрерывных функций и (t, x) и v (t, x) оптимальных стратегий и0 (t, x) и v° (t, x), разрешающих задачу о минимаксе или максимине платы у (3.5). Не разбирая подробно и строго этого вопроса, мы приведем лишь косвенные эвристические соображения в пользу необходимости допустить и разрывные законы управления и и v. Пусть в начальный момент t = t0 точка т находится в состоянии •
32 Примеры дифференциальных игр [гл. i а игроки выбрали какие-то стратегии U и F, отождествленные с функциями и (£, x) и v (t, x), во всяком случае такими, при подстановке которых в уравнение (3.4) это уравнение будет иметь решение х It] = {хх U], х2 [t]} (t0 < t < *), удовлетворяющее начальному условию x[t0] = x0. Тогда в системе 2 будет реализоваться движение x[t] = foM, x2[t]} = {lit], | [*]}, которому будут сопутствовать реализации и [t] и v [t] (3.6) управляющих воздействий. Итак, реализация движения определяется уравнениями x1[t] = x2[t], x2[t] = w[t], w[t] = u[t] — v[t]. Будем рассуждать, исходя из интересов первого игрока. Обсудим поэтому задачу о минимаксе величины у (3.5). По смыслу этой задачи (см. § 1, стр. 16) при выборе каждой стратегии и (t, x) надлежит считаться и с той возможностью, что реализация v [t] управления v при всех t (t0 ^ t <^ 0) будет удовлетворять равенству ибо мы можем столкнуться с любой (в меру регулярной) реализацией v[t], стесненной неравенством |i;U]|^v. Но в таком случае функция w It] в правой части уравнения (3.7) будет удовлетворять неравенству МЯК £ = |A-v. Отсюда следует, что лучший результат, на который можно рассчитывать, решая задачу о минимаксе платы Y (3.5) при данной исходной позиции х [t0] = x0, никак не может дать величину, меньшую, чем величина 8°, получающаяся из решения следующей вспомогательной задачи о программном управлении. (3.7)
§ 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 33 Задача 3.1. Рассмотрим движение х (т) = {хг (т), х2 W} (^о ^ т ^ 'в1)» описываемое уравнением ** ^f -$.=*. (3.9) dt а' dx Обозначим символом (|# (в^Щм?; t0, х0) значение \\х (Щ\ для движения х (т), порожденного каким-то управлением w = w (т) из начальной позиции {£0, #0}. При данных (0<9иж (£0) = х0 среди интегрируемых функций и? (т) (t0 ^ т ^ Ф), стесненных неравенством Мт)|< ^ = fx — v, (3.10) требуется найти программное оптимальное управление w° (т), которое обеспечивает минимум г* = (1х(Щ\ю«^0,х0) = тт(1х(Щ\ю^01х0). (3.11) Примечание 3.1. Здесь и ниже в аналогичных случаях, обращаясь к вспомогательным задачам, мы обозначаем текущее время буквой т. Напротив, время, в котором развертывается исходная игра, будем обозначать буквой t. При этом аргумент т в обозначениях тех функций, которые описывают движения и управления во вспомогательных задачах, мы заключаем в круглые скобки. Напротив, прямые скобки, заключающие аргумент t, будут подчеркивать, что речь идет о движениях и управлениях, реализующихся на деле в процессе игры. Решение задачи 3.1 известно (см. Приложение, § 49, стр. 411—412). Искомое программное оптимальное управление при 8° ^> 0 единственно (с точностью до значений на множестве точек т, имеющем нулевую меру (см. [6*], стр. 271)). Это управление изображается, вообще говоря, разрывной релейной функцией w° (т), которая принимает два значения: либо w° (т) = £, либо w° (т) = — £. При этом точка разрыва т# ЕЕ (t0, Ф) У функции w° (т) обязательно имеет место для многих начальных условий х, (t0) = = х0. (Мы рекомендуем читателю решить задачу 3.1, пользуясь материалом из Приложения.) Итак, величина 8° (3.11) оценивает снизу оптимальное значение платы у (3.5) для начальной позиции {t0, х0}. Заманчиво определить класс допустимых стратегий и (t, x) так, чтобы эта нижняя оценка достигалась, то есть так, чтобы для каждой возможной исходной позиции {£0, х0} 2 Н. Н. Красовский
34 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I выполнялось равенство min suv\\x[$]\\ = s0 = (hx(m\w°;t0,x0). (3.12) (Еще раз обратим внимание читателя на то, что в левой части равенства-(3.12) фигурирует значение вектора х [О], которое реализуется в ходе игры при управлениях и = = и (t, x), v = v (t, x) в системе 2, описываемой уравнениями (3.3); в правой же части равенства (3.12) фигурирует вектор х (Ь), отвечающий движению х (т) (3.9) во вспомогательной задаче 3.4.) Однако согласно предыдущему равенство (3.12) возможно (если вообще возможно!) только при условии, что мы допустим разрывные функции-стратегии и (t, х). В самом деле, предположим от противного, что равенство (3.12) осуществляется при выборе в качестве допустимых стратегий только функций и (t, x) и v (t, x) непрерывных. Пусть далее минимум в левой части (3.12) достигается на некоторой непрерывной функции и^ (t, x). Так как то функция ^(M) = -1TM"(*.*) также есть допустимая функция-стратегия для второго игрока. Но при выборе управлений и = иЛ (t, x), v — = vt(t, x) в системе (3.3) будет реализоваться непрерывное управление wm It] = и, (t, х It]) - v, (*, x Itl), которое будет удовлетворять неравенству |и>, М|< С = [X - v. Поэтому если начальная позиция {t0, х0} такова, что отвечающее ей решение задачи 3.1 w° (т) есть функция разрывная, то по смыслу функции w° (т) будет выполняться неравенство (И*)|1К;<о,^)>(И<>)1Н«*;*о.а*>). Но это неравенство противоречит (3.12), ибо величина (jx ($)\\\w^ t0, х0) равна как раз той величине |]а: Ю]||ч которая реализуется в системе (3.3) при управлениях
§ 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 35 и =z u^(t, x), v = i^ (£, #), а эта величина в свою очередь по выбору и^ (t, x) и ut (t, x) не больше, чем левая часть (3.12). Подученное противоречие доказывает неосуществимость равенства (3.12) в классе непрерывных стратегий- функций и (t, x) и v (t, х). (Чтобы не загромождать рассуждений, мы пока пренебрегли тем обстоятельством, что система (3.3) при данных t0, х0, и (£, х) я v (t, x) может обладать неединственным решением х [t]. Читатель может сам подправить нас, учтя это обстоятельство должным образом (см. также ниже, стр. 37)). Приведенное рассуждение и свидетельствует в пользу допуска разрывных законов управления и (t, x) (и v (t, x)). Разумеется, все это приобретает цену лишь при условии, что равенство (3.12) действительно осуществляется в классе разрывных допустимых стратегий и (t, x). Но в данном случае дело обстоит именно так *) (см. ниже стр. 44, а также общую теорию в § 16). Аналогичные доводы в пользу допустимости разрывных функций v (t, х) (и и (t, x)) можно привести, рассуждая за второго игрока и обсуждая, стало быть, задачу о максимине величины у (3.5). Примечание 3.2. Более веским обоснованием необходимости допуска разрывных стратегий и (t, x) и v (t, x) явилось бы доказательство того факта, что в классе непрерывных стратегий- функций и (t, x) (и (t, x)) вообще не существует такой оптимальной стратегии и0 (t, x) (v° (t, x)), которая доставляет минимум величине sup || х [Щ || (максимум величине inf || x [$] ||) для достаточно широкого V U множества исходных позиций {*0, х0}. Однако попытка такого обоснования перегрузила бы здесь наше изложение и увела бы в сторону от главной задачи данного параграфа — описать конкретный пример дифференциальной игры с разрывными оптимальными законами управления. Такую попытку можно порекомендовать интересующемуся читателю в качестве упражнения. Итак, попробуем допустить для описания стратегий U и V также и некоторые разрывные функции и (t, x) и v (t, x). При этом мы немедленно наталкиваемся на неприятность. При подстановке разрывных функций и = и (t,x), v = v (t, x) в правые части уравнений (3.3) возникает *) Если только левой части (3.12) придать должную форму, учитывающую упомянутую выше возможную неединственность движения х [t]. 2*
36 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I нелегкая проблема существования решения х [t] = {хг [t], x2lt]}. He обсуждая ее пока по существу, мы позволим себе здесь выйти из положения формально при помощи популярной у математиков уловки: отождествим допустимые стратегии U и V первого и второго игроков соответственно с такими функциями и (t, x) и v (t, x) (в том числе и разрывными), при подстановке которых в уравнения (3.3) уравнения эти будут иметь решения х [t] (t0 ^ t ^ О) для всех возможных начальных данных х [tQ] — х0. При этом мы не будем пока углубляться в обсуждение вопроса о том, что же следует понимать под решением х [t] получающихся не очень регулярных дифференциальных уравнений. К данному вопросу мы вернемся ниже в этом же параграфе. Таким образом, класс допустимых стратегий-функций и (t, x) и v (t, x) формально определен. Начинаются новые неудобства. Допуская разрывные функции и = и (t, x) и v = v (t, x) в правой части (3.3), мы должны считаться всерьез с возможной неединственностью решений х [t] данных дифференциальных уравнений: возможны ситуации, когда одной и той же исходной позиции {t0, х0} будет отвечать не одна, а целое множество различных реализаций х [t] (tQ^t^Lft), каждая из которых будет решением построенных дифференциальных уравнений при фиксированных и = и (£, х) и v = v (t, x). Если мы хотим по- прежнему отождествлять стратегии U и V с функциями и (t, x) и v (t, х), нам придется несколько трансформировать исходные задачи на минимакс и максимин, сформулированные в § 1. Сделаем это. Обозначим символом 9G [и, v; t0, x0] множество всех решений х [t] (t0^ t <! Ф) системы уравнений (3.3), удовлетворяющих начальному условию х [t0] = x0 и получающихся при данном конкретном выборе стратегий u=u(t,x), v = v (t, x). Это множество решений х [t] породит множество Г [и, v] t0, х0] значений величины у = \\х [Щ\. Следовательно, имея исходную позицию х [t0] = x0 и выбирая стратегии и (t, x), и {t, x), игроки должны считаться с тем обстоятельством, что к моменту t — О система 2 может «выдать» любое значение у из множества Г [и, v\ t0, x0]. Но тогда, рассуждая за первого игрока, подобно тому, как это сделано в § 1 (стр. 16—17), мы при
§ з] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 37 выборе стратегии и (t, x) должны учесть самую неблагоприятную для нас ситуацию, обусловленную и выбором стратегии v (t, x) противника, и самой неприятной для нас реализацией движения х [t], которая только возможна при избранных стратегиях и (t, x) и v (t, x). Поэтому задачу о минимаксе величины у (3.5) теперь целесообразно сформулировать следующим образом. Задача 3.2. Среди допустимых стратегий и (t, x) требуется найти оптимальную минимаксную стратегию и° (t, x), которая удовлетворяет условию supsup(nfl]|||#[<Mo,*o])== v(t,x) x[t] = min sup sup(|s[*]||$?[M,i;;*0,a:o]), (3.13) u(t,x) v(t,x) x[t] какова бы ни была исходная позиция {£0, х0}. Здесь и ниже символ (J х[$] j \£С [и, v\ t0, х0]) обозначает величину ||^['0,]fl, которая реализуется в системе 2 (3.3) при осуществлении какого-либо движения х [t] из семейства 9С\и, v\ t0, x0]. Аналогичным образом можно прийти к следующей задаче о максимине величины у (3.5). Задача 3.3. Среди допустимых стратегий и (£, х) требуется найти оптимальную максиминную стратегию v° (t, x), которая удовлетворяет условию inf ml(lx[ti]\\\3;[u,v<>;t0,x0]) = u(ttx) x[t] -max inf Ы(\х[Щ\&lu,v;t0,x0]), (3.14) v(t>x)u(ttx) x[t] какова бы ни была исходная позиция {t0, х0}. Примечание 3.3. Отождествляя стратегии U к V игроков с функциями и (t, х) и и (t, x)t мы вынуждены были вследствие возможной неединственности движений х [t] отказаться от предположения о том, что плата y является однозначной функцией у (U, V) от стратегий U и V (при фиксированной начальной позиции х [t0] == х0). Это вызвало определенную трансформацию сформулированных в § 1 общих игровых задач в модернизированные задачи 3.2 и 3.3, в условиях которых появились дополнительные операции saPx[*] и infxrj-j. Такая трансформация, однако, не потребовалась бы, например, в случае задачи о минимаксе величины у, если бы мы поступили следующим образом: стратегии U снова отождествили бы с функциями и (t, я), а каждую стратегию V отождествили бы с не-
38 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I которой парой, состоящей из функции v (t, x) и «механизма», вырабатывающего ту или иную определенную реализацию движения х [t], возможную в системе 2, описываемой уравнениями (3.3) при v = v (t, x). Тогда при фиксированной начальной позиции х [t0] = x0 плата у (3.5) снова оказывается однозначной функцией у (U, V) от стратегий U и V. Однако такой формальный выход из положения не очень удобен, ибо неясно, как описать конструктивно математический механизм, который отбирает ту или иную определенную реализацию х [t] из множества SO [и, v; t0, x0]. Тем более непонятно, как дать второму игроку реальную возможность выбора этого механизма. Аналогичное замечание можно сделать и по поводу задачи о максимине величины у. В связи со сказанным мы и предпочли отказаться здесь от предположения о том, что плата у является однозначной функцией от стратегий U и V и отождествили эти стратегии с функциями и (t, x) и v (t, x), трансформировав несколько исходные игровые задачи из § 1. Итак, нами описана некоторая дифференциальная игра, характеризуемая двумя конфликтными задачами 3.2 и 3.3. Оказывается, что обе задачи имеют решения и0 (t, х) и v° (t, x). Для одной и той же исходной позиции {£0, х0} величины, стоящие в левых частях равенств (3.13) и (3.14), оказываются равными друг другу. Более того, они равны величине 8° (3.11), которую доставляет решение вспомогательной задачи 3.1 для тех же начальных данных х (t0) = = х0. Оптимальные стратегии определяются здесь разрывными функциями гг° (t, x) и v° (t, x), что вполне согласуется с рассуждениями, приведенными выше на стр. 34. Эти функции имеют следующую структуру. В трехмерном пространстве интересующему нас множеству значений аргументов {t, хг, х2} отвечает полупространство t ^ Ф. Рассмотрим поверхность S, которая описывается уравнением F (t, xu х2) = 0, где | {$-t)x1 + x2[(®-t)*+i) + ^L х X (О _*)[({>-*)*+ 2] При а^ + (^ —V)(0—0<°. ^2 + /2 (|а — v) хг при хг > О и | х2 | < (|i—v) (Ф —О» ; Г < #2 — Y— 2 ((А — V) Хг При Ях<; О И | Х2 К (|1 —V) С&—О» I X (* — *)[(* т-О2+ 2] при 3fc — (|i— v) (<> — *)> 0.
§ 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 39 В полупространстве t < Ф данная поверхность S разделяет две открытые области Ж^> и Ж<2> (рис. 3.2). Значения функций и0 (t, x) и v° (t, x) будут определяться положе- Рис. 3.2. нием точки {t, х} = {£, х19 х2} относительно поверхности S: если {£, о:} е ^(1), то ю°(*, а?) = |i, i>°(*, а;) =* v; (3.15) если же {t, ,<c}^jr&), то U0 (t, X) = — |А, У0 (*, Ж) = — V. (3.16) Таким образом, функции и0 (t, x) и v° (t, x), отождествляемые с оптимальными стратегиями £7° и V0, пока определены в точках {t, #}, лежащих в областях Ж*1) и */И2 . В каждой из этих областей они постоянны и являются, следовательно, функциями, непрерывными и дифференцируемыми. Поэтому пока движение х It] совершается в
40 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. t пределах Ж(1> или Ж&\ не выходя на границу этих областей, дифференциальные уравнения (3.3), где и — и0 {t,x), v = v° (t, x), отлично работают как обыкновенные дифференциальные уравнения, реализации оптимальных воздействий и0 [t] и v° [t] определяются равенствами ю° It] = и0 (*, х М), v° [t] =» v° (t, x It]) (3.17) и осуществляются как непрерывные функции времени. Значения функций и0 (£, х) и v° (t, x) на пограничной поверхности S нами пока никак не определены. Следовательно, пока мы не имеем правила, которое назначало бы реализующиеся значения и0 It] и v° U], диктуемые оптимальными стратегиями U0 и V0 в те моменты времени t, когда точка х [t] оказывается на поверхности S. Для того чтобы дать удобную математическую формулировку этого правила, сейчас уместно вернуться к вопросу о том, что же следует понимать под решением х [t] = {хг [£], х2 It]} системы уравнений (3.3) с разрывными правыми частями (см. выше замечание на стр. 36). Обсудим этот вопрос. Итак, предположим, что в правой части уравнений (3.3) фигурируют некоторые функции и = и (t, х) и v = v (t, x), вообще говоря, разрывные. Сопоставим этим функциям новые функции и+ (t, х), иГ (t, х), у+ (t, x), v~ (t, x), которые определим равенствами w+(£, x) = lim sup и (**,#*), {t*,x*}-*{t,x} uT(t,x) = lim inf и (**,#*), (3.18) {t*,x*}-+{t,x} v+(t,x) = lim sup у (£*,#*), {t*,x*}~4tt,x} v~(t,x) = lim iniv(t*,x*)* {t*,x*}-+{t,x} Очевидно, если в точке {t, x) функция и {t, x) (v (t, x)) непрерывна, то и (*, х) = гг+ (t, х) = и~ (t, x) (v (t, x) = = v+ (*, x) = v~ (t, х)). Для функций гг° (t,x) и v° (t,x), заданных условиями (3.15) и (3.16) (и определенных как- либо на поверхности S с соблюдением неравенств |гг| ^ [х,
§ 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 41 | у| О), на поверхности разрыва S будем иметь соотношения и0+ (t, х) = \i, w°~ (t, х) = — \i, v0+< (t, x) = v, vo~ \t, x) = - v. (3.19) Теперь решением х [t] системы (3.3) при и = и (t, х), и = v (t, x) мы назовем всякую абсолютно непрерывную вектор-функцию х [t] = {xx [£], x2 It]} {t0^ t <! Ф), которая при почти всех значениях аргумента t удовлетворяет равенствам ±±lt] = x2lt] ±2 It] = и [t] — vlt], (3.20) где и [t] и v [t] — интегрируемые функции, удовлетворяющие условиям u~(t,x[t])^u[t]<iu+{t,x[t]), v~ (t,х [t])<H*]<p+(M [']). В частности, при и = и0 (t, х) и v = у0 (£, #) правило (3.21), назначающее реализации w U], у U] и вытекающее из данного выше определения решения х U], гласит: при {t, х [t]} е Ж<*> (г = 1, 2) величины а U] = гг° [fl, i? [fl = = у0 U] задаются равенством (3.17), при {t, x\t]} ЕЕ 5 реализующиеся значения гг U] = и0 [t], v It] = у0 [Д задаются априори неоднозначно, будучи стеснены лишь неравенствами —у < гг° [t] < ja $.22) и -v < v° [t] < v, (3.23) соответственно, и требованием интегрируемости функций и [t] и v [t] при t0 г< г <; Ф, тесно связанным с условием абсолютной непрерывности функции х [t]. Впрочем, последнее требование является очень сильным и оставляет, как правило, не слишком большой произвол для реализаций и It] — v [t]. Напомним, что функция х [t] называется абсолютно непрерывной (на отрезке ^ ^ t ^ £*), если она удовлетворяет следующему условию: для любого числа е ^> 0 (3.21)
42 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I можно указать число А ^> 0 такое, что на каждой системе взаимно непересекающихся отрезков U., ^+1], расположенных на исходном отрезке It^t*] и имеющих суммарную длину г будет выполняться неравенство 2l*[*uil — *[*i]||<e- г Известно (см. [6*], стр. 337—338), что такая функция х [t] имеет производную ± [t] при почти всех значениях t ЕЕ [^, t*]. Более того, абсолютно непрерывная функция х It] изображается в форме интеграла с переменным верхним пределом t x[t] =x[tj+ V x[x]dr К от своей производной, которая, следовательно, интегрируема. Таким образом, понятие абсолютно непрерывной функции очень близко к известному из обычного курса анализа понятию функции, дифференцируемой при всех t из интервала (^, f). По определению решение х It] = = {%i It], x2 [t]} системы уравнений (3.3) при почти всех t £1- Uo> Ф) удовлетворяет равенствам (3.20). Но тогда из интегрируемости производной х [t] = {х± It], ±2 [t]} вытекает интегрируемость реализации и [t] — v It]. Более того, и каждую из функций и [t] и v It] мы полагаем интегрируемой. (Здесь и ниже, говоря о вектор-функциях, мы позволяем себе именовать их просто функциями.) Примечание 3.4. Физический смысл данного определения решения х [t] и физический смысл сопутствующего ему правила (3.21), определяющего реализующиеся значения и = u[t]t и = = v [t] на поверхностях разрыва функций и (t, х) и v (t, x), можно пояснить следующим образом. Пусть, например, в реальной системе 2, описываемой уравнениями (3.3), закон управления и = и° задается построенной выше разрывной функцией и0 (t, я), причем на поверхности разрыва S значения этой функции тоже как-нибудь доопределены; происхождением интегрируемой реализации и = — v [t] мы здесь интересоваться не будем. Таким образом, мы принимаем, что по крайней мере первый игрок управляет системой 2
g 3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 43 по принципу обратной связи: измерительное устройство определяет реализующиеся значения хх [t], х2 [t] и эти значения по каналам обратной связи подаются в регулятор, где и вырабатывается управляющее воздействие и [t] = и0 (t, х [t]), которое прилагается к точке т. Рассмотрим в трехмерном пространстве {t, xv х2) движение точки {t, x[t]}= {t, x±[t], x2 [t]}, изображающее там движение реальной точки т под действием сил и [t] и — v [t]. Случай, когда точка {t, x [t]} пересекает поверхность S или касается ее в какой-то момент времени t = £* и затем сразу уходит от этой поверхности, нам здесь мало интересен, ибо в этом случае значением и [/*] в один- единственный момент времени t = и можно просто пренебречь. Поэтому попробуем предположить, что изображающая точка {t, x [t]} перемещается строго по поверхности S в течение какого-то малого отрезка времени Дг. Однако осуществить такое предположение на деле вряд ли возможно, ибо на материальную точку в реальных условиях обязательно будут действовать малые случайные неучтенные возмущающие силы, которые приведут к малым смещениям изображающей точки {£, х [t]} с поверхности S. По этой причине, а также вследствие неизбежных ошибок в измерительных органах при движении изображающей точки {£, х [t]} возле поверхности S в течение малого отрезка времени At на систему 2 на деле будет подаваться управляющее воздействие и [t]t изменяющее свои значения хаотичным образом от и = ц к и = —ц и обратно. Вследствие инерционности системы эти хаотичные воздействия, смешиваясь, дадут на малом отрезке времени At такой же эффект, как и некоторое усредненное воздействие u[t], описываемое какой-то функцией и° [*]» удовлетворяющей неравенству (3.22), и опять же вследствие инерционности системы 2 мы принимаем, что для этой системы невозможны реализации движения x[t], которые носили бы слишком нерегулярный характер. Отсюда вытекает требование абсолютной непрерывности функции х [t] и связанное с ним требование интегрируемости функции и0 [t]. Итак, мы определили достаточно строго, что следует понимать под решением х [t] системы уравнений (3.3), когда в правой части ее фигурируют разрывные функции и (t, x) и v (t, x). Оказывается, что для достаточно широкого класса разрывных функций и (t, x) и v (t, x) могут быть доказаны теоремы существования решений х It], понимаемых в смысле данного определения (см. ниже § 6). Здесь мы на этом вопросе останавливаться не будем, а заметим только, что нужные решения х [t] в рассматриваемом нами теперь случае действительно существуют при и=и° (t,x) и и = v° (t,x), выступающих в паре, а также в случаях, когда в правой части (3.3) функция и = и0 (t, x) (функция и= v° (t, x)) выступает в паре с функцией v (t, x) (с функцией и (t, x)) из достаточно широкого класса функций. При
44 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫЕ ИГР ГГЛ. 1 этом, как мы видели, и априорный выбор тех или иных значений u° (t, х) и v° (t, x) на поверхности разрыва S не важен, так как движение х [t] согласно (3.20) и (3.21) диктуется функциями и0± (£, х) и v0± (t, x), которые вполне определяются и на поверхности S уже значениями функций [ и0 (*, Л< х) и V0 (*, X) вне S. В и=и° v=0 J^V \Х2 4 3 2 1 —>- -10 -9 -8 -7 -8 -5 -4 Рис. 3.3. -3 -2 О xf Вернемся к задачам 3.2 и 3.3. Можно доказать (см. §§ 23—25), что в классе решений х U], понимаемых в смысле условий (3.20) и (3.21), функции и0 (t, x) и v° (t, x), заданные равенствами (3.15), (3.16), действительно доставляют оптимальные стратегии, разрешающие задачи 3.2 и 3.3. Эти стратегии, назначающие управления и и v в соответствии с равенствами (3.17) и неравенствами (3.22) и (3.23), мы обозначим символами £7° и У0. Оказывается, что данные оптимальные стратегии U0 и V0 составляют седловую точку для рассматриваемой дифференциальной игры, причем справедливы следующие соотношения: (||* [Ф]|| | #[и°, »°; U, х0]) = е° = (|| а» (0)11 IV" <\х[Щ ЗС Ы°, v; to, x0]) < 8° | ЗС [и, i/»; t0, *»]) > 8°. (3.24) (3.25) (3.26)
3] ДРУГОЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 45 А' Рис. 3.4. в и=и° v=v° 1 с \&2 4 ' 3 2 1 40 -9 -8 ~7 -6 -5 -4 -3 -2 -1 О х1 Рис. 3.5.
46 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I Процесс управления рассматриваемой системой 2 в случае \х = 2, v = 1, О = 4 был смоделирован на ЭВЦМ для следующих исходных данных: t0 = 0, x[t0] = {-10,3}. (3.27) При этом были испытаны стратегии С/и) = С/0, и<*> (t, х) = 0, V0) = F\ **> (*, x) = 0 (3.28) в комбинациях друг с другом. 1^ \-го'' -9 -8 -7 ' и = -5 iff :V0 -4 -3 -2 -4 С/ г 1 \0 х с. Рис. 3.6. На рис. 3.3 — 3.6 изображены движения х [t], которые реализовались при различных сочетаниях указанных допустимых стратегий (3.28). Здесь полезно обратить внимание на характер движения х [t] по поверхности S в случае U = £7°, v = I/») (*, х) = 0 (см. рис. 3.3, 3.4). § 4. Третий пример дифференциальной игры Во втором и третьем параграфах были разобраны конфликтные ситуации, в которых участвовали противоборствующие силы и It] и и [t], подчиненные соответственно
§ 4] ТРЕТИЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 47 первому и второму игрокам. Теперь мы рассмотрим другой (по форме исходной проблемы) тип дифференциальной игры, где в начальной постановке задачи явно конфликт уже не фигурирует. Игровая трактовка предлагаемой ниже проблемы порождается теперь неопределенностью, возникающей из-за недостатка информации о текущих состояниях х [t] управляемой системы 2. Однако, в конце концов, введение фиктивного второго игрока, олицетворяющего слепой случай, и здесь снова создает картину дифференциальной игры двух лиц. Примечание 4.1. Игровые задачи, рассмотренные раньше, также могли получиться в результате подмены слепого случая вторым игроком. Например, можно представить себе следующую исходную проблему, приводящую к игровой задаче 3.2. Пусть снова дана система 2 из § 3, где, однако, воздействие v имеет теперь смысл случайной помехи, точные значения которой v = v[t] заранее предсказать нельзя; известно лишь, что значения эти не могут выходить из пределов, назначенных неравенством — v < v [t] <J v. Управление u, стесненное условием | и | ^ \i по-прежнему организуется на разумных основаниях по принципу обратной связи и реализуется в форме и [t] = и (t, x[t]). Задача управителя (бывший первый игрок) опять состоит в том, чтобы выбором функции и (t, x) добиться возможно меньшей величины у = || х [Ф] || (к заданному моменту времени О). Не умея предсказывать будущие значения помехи v [t], мы (управитель) можем призвать на помощь известный «принцип наибольшей пакости», согласно которому нам надлежит ожидать в каждый будущий момент времени t осуществления самых неблагоприятных для нас значений u[t]. Но это и означает, что слепому случаю, определяющему на деле реализации v[t], отводится роль второго игрока-вредителя, замысел которого нацелен на максимизацию величины у. Так, из-за недостатка информации о помехе v [t] возникает игровая ситуация, приводящая к задаче 3.2. Перейдем к основной задаче этого параграфа. Рассмотрим систему 2, которая, как и система 2 из § 3, состоит из материальной точки т, движущейся вдоль оси £. Однако теперь мы предположим, что эта точка т подвержена лишь одному управляющему воздействию и, стесненному условием I и\ ^ И- (Iх — постоянная). (4.1) Задача состоит в таком выборе управления и, который обеспечивал бы наименьшее возможное абсолютное значение координаты | [О] точки т в заданный момент времени д. Новым будет следующее обстоятельство. Примем?
48 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I что теперь уже нельзя точно измерять текущие значения координаты | [t] и скорости | [t] точки т. Стало быть, здесь мы ре можем реализовать управление и It] в форме и It] - и (*, I [t], g [t]) (или в форме иг (t, I [*J, | [t]) < <! и It] <! и* (£, I [t], £ [£]), если допускать и разрывные функции и (t, |, £)), как это было раньше (см. выше § 3, стр. 41). Допустим, что возможно измерять только текущую координату | [t] и притом с некоторой погрешностью w [t], значение которой нам неизвестно, но которая во всяком случае оценивается неравенством | w [t]\ < v. (4.2) Скорость же х2 [t] — | [t] мы можем оценивать лишь на основании неточных измерений координаты x±[t] = lit]. Во избежание путаницы реализующиеся на деле значения координаты точки т мы обозначим символом | [t]; значения этой координаты, найденные измерением, обозначим через £* [t]. Наша ближайшая цель — руководствуясь данным выше содержательным описанием проблемы, подобрать подходящую математическую постановку задачи. Как и в § 3, обозначим I [t] == хг [t], g [t] = х2 [t] и перейдем от уравнения движения | = и к нормальной системе из двух дифференциальных уравнений первого порядка #i = хъ ±2 = и. (4.3) (Массу точки т мы снова считаем единичной.) Получающиеся измерением значения координаты хх будем обозна-- чать символом хх [t]. Иначе говоря, х\ [t] = Г It] = хг It] + w [t]. (4.4) Пусть управление точкой т началось в заданный момент времени t0 и продолжалось в течение отрезка времени *о^ т <!£ вплоть до некоторого текущего момента t, который мы пока зафиксируем. По смыслу задачи исходное положение х [t0] следует считать неизвестным. Поэтому мы примем, что известна только некоторая область на плоскости {хъ х2}, в которой может оказаться точка x[t0] = = {хг [t0], хг U0]} к моменту t = tQ. Эту область обозначим
§ 4] ТРЕТИЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 49 символом $ [t0 — 0]. Слагаемое «—0» при аргументе t0 подчеркивает, что область $ [t0 — 0] определяется информацией, поступившей до начала игры, которое определяется моментом t = t0. Будем предполагать далее, что управление и [т], действовавшее при tQ <! т < t, можно точно измерять, причем получающиеся в результате измерения величины и [т] можно запоминать. Итак, в рассматриваемый момент времени t нам известны: исходная область & [to — 0J, измеренные прошлые значения координаты Х\ W (ta^t^t) и реализовавшиеся раньше управляющие усилия и [т] (t0 ^ % <С t). Эти данные ф [t0 — 0], х{ [т], и [т]} и составляют всю ту информацию, на основании которой мы можем делать заключения о состоянии х [t] системы 2 в момент времени t. Поэтому представляется разумным в качестве аргументов, определяющих управляющее усилие и в момент времени t, выбрать как раз набор {& [t0— 0], хх [т], и [т]}, складывающийся из области & [t0 — 0] и реализовавшихся переменных хх [т] (t0 ^т^ 0» и М {t0 ^ т <С t). Кроме того, вследствие неоднородности условий задачи по времени t, обусловленной тем, что моменты начала t = t0 и окончания t = Ф процесса заданы, в число явных аргументов, определяющих управление и, надлежит включить и переменную t. Таким образом, реализующееся в момент t управляющее воздействие и [t] следовало бы определять, исходя из равенства u[t] = u (*, {$ [*0 - 0], х[ [т], и [%]}), (4.5) где и (t, {$, хи и}) — функция (точнее, функционал) от скалярного переменного t, от двумерной области $ = & [t0 — 0] и от функций #1 [xj (t0^X ^ t), и [т] (^о^т<^). Однако такая форма законов управления представляется не очень конструктивной. Поэтому мы несколько преобразуем задачу и придем к более конструктивному описанию стратегий и. В момент t известный нам набор данных {S [t0 — 0], х\ [т], и [т]} позволяет оценить ту область $ [t] на фазовой плоскости {хг, х2}, в которой в этот момент t обязательно должна содержаться точка х [t] = {хг [t], хг [t]}, изображающая на этой
50 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I плоскости движение материальной точки т. Эта область строится следующим образом. Пусть в какой-то момент времени т = т^ ^ t реализовалась величина хх [tJ. Согласно (4.2) и (4.4) это означает, что точка х [tJ = {tfjtj, Рис. 4.1. х2 [tJ}, изображающая действительное состояние системы 2 на фазовой плоскости {хг, х2}, должна лежать в полосе Gl>*,^]: *i [*J - v< агх ftj < x\ [tj + v (4.6) (—oo <>a[Tj<oo) (рис. 4.1). Под действием известного нам управления и = и [т] (т, <; т < t) фазовая точка х [%] = {хх [т], х2 W} к
§ 4J ТРЕТИЙ ПРИМЕР ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ 51 моменту т = t перемещается в положение t хг It] = хг [XJ + (t - Tj x% [rj -f \ (t - т) и [x] dx, (4.7) ar2 [*] = *2 [*J + $ w[t]dt, как это следует из формулы Коши (см. § 42, стр. 370). Следовательно, если мы будем опираться только на результат х[ [xj одного-единственного измерения, выполненного в момент т = т#, то согласно (4.6) и (4.7) сможем утверждать, qTO фазовая точка х [t] в момент t должна содержаться в области 6r[f>T#], которая описывается неравенствами (см. рис. 4.1) t i x[[xm] + (t-r*)[x2[t]- S u[x]dx] + ^(t-x)u[x]dx- — v<«i [*]<«! [tJ + («-t#) [as, It]— 5 u[x]dx] + + J (* —T)«[T]dT + v. (4.8) Желая учесть все результаты хг* [xj измерений при к ^ х^ <! t, а также исходное условие х [t0] £= $ Uo — 0]» мы должны в качестве искомой области $ U] выбрать пересечение всех областей Gtf,Tj при х^ е [£0> t] и области Сф, /0-0], в которую деформируется область & [t0 — 0] в соответствии с равенствами, аналогичными соотношениям (4.7). Эта область Gt^/0_0] опишется соотношениями t *i[*l=*i[*oJ + (' —*o)*i[*o] f J (* —т)и[*Н*. x*lt] =x*[t0]+ I u[x]dx, (4.9)
52 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. I Итак, область $ [t] определяется как пересечение области (4.9) с областями (4.8), отвечающими всем значениям т^ из отрезка t0 <[ т, ^ t. Получилось не очень удобное описание области & [t]. Ниже в § 29 мы постараемся дать более эффективные, хотя естественно и более грубые оценки области $ [t]. Во всяком случае примем пока, что области 2? It] на основании измерений хг [х] мы строить умеем. Область $ [t] мы и выберем в качестве аргумента, который наряду с аргументом t будет определять управляющее воздействие и в момент t. Иначе говоря, закон управления и мы опишем равенством и It] = и (t, & It]), (4.10) где и (t, &) есть функция (функционал) от скалярной переменной t и от переменной двумерной области $. Такое описание законов управления и может оказаться более конструктивным, нежели (4.5). Следовательно, закон управления и, описываемый равенством (4.10) (или, что то же самое, стратегия, описываемая равенством (4.10)), есть правило, которое указывает, каким должно быть управляющее воздействие гг = гг [^] в тот момент времени t, когда на основании доступной нам информации возможное фазовое состояние х It] = {xx[t], x2[t]} системы 2 оценивается областью $ It]. Допустимые стратегии и (4.10) мы пока в этом параграфе опять определим формально, отождествляя их с такими функциями и = и (t, $), при подстановке которых в правую часть второго уравнения системы (4.3) система эта будет иметь решение х [t] = = fait], x2[t]}, определенное подходящим образом (при тех изменениях переменной области & = & It], которые будут диктоваться текущими измерениями величины хх It]). Таким образом, класс допустимых стратегий и хотя бы формально мы оговорили. Теперь надлежит сконструировать подходящий ми- нимакс для величины yH^iI^II» которую будет минимизировать первый игрок, получающий в свое распоряжение допустимые стратегии U, отождествленные с функциями u(t,$). (Кроме того, каждая стратегия первого игрока U должна включать в себя описание операций, которые
§ 4j Третий пример дифференциальной йгрЫ 53 используются этим игроком для оценки области $ [t] по доступным ему сигналам {хг [т], и[т]}. Однако на этом обстоятельстве мы здесь внимание не акцентируем, предполагая, что нужная операция первым игроком найдена (см. ниже § 29), он признал ее наилучшей и неизменно применяет во всех используемых им стратегиях U). Второго игрока мы домысливаем. «Трансцендентальные» действия этого фиктивного игрока определим следующим образом. Предоставим ему выбор исходной позиции х [t0] eS^o-0] и любых текущих значений x*±[t], которые не противоречат неравенству \хг[г]-х1 m|4w[*]|<v. Тем самым второй игрок получает возможность выбором х [t0] и помехи w [t] влиять на текущие оценки областей &[t]. Отсюда формально в глазах первого игрока в момент окончания процесса при t = ■& второму игроку предоставляется право поместить точку х [Ф] в любое положение х из области .^[О]. Стало быть, стратегиями V второго игрока будут те соображения (те правила), которыми он должен руководствоваться, назначая x[t0] из области &[t0 — 0] и «выдавая» x*x[t] в текущие моменты времени t0^t<^&. При этом, поскольку мы собираемся сформулировать задачу о минимаксе величины у = kil^ll можно предполагать, что в процессе игры второй игрок располагает любой мыслимой информацией, какую он только пожелает иметь. Допустимыми стратегиями U и V будем считать такие, при которых можно вести речь о решениях x[t] = {x1[t], x2[t]} системы уравнений (4.3), где u = u(t,9[t]). Теперь можно сформулировать искомую игровую задачу о минимаксе величины т = \хг [Ф] |. Задача 4.1. При данных tQl 2?[*0_0], Ф среди допустимых стратегий u(t,&) требуется найти оптимальную минимаксную стратегию и°(£, 2?), которая удовлетворяет условию sup (| а^ [*] 11 U\ V; ^о_0]) = min sup (| хг [О] 11 Г/, V; %_0]). (4.11)
54 ПРИМЕРЫ ДИФФЕРЕНЦИАЛЬНЫХ ИГР tl\JI. I Здесь символ (|#i [#] 11 £7, V; &ц0о]) обозначает величину \хг [Ф] |, реализующуюся в системе (4.3) при каких-то определенных стратегиях U, V и при исходной области Этой задачей мы и завершим здесь обсуждение предварительных примеров из теории дифференциальных игр. Упражнение 4.1. Для системы, описываемой уравнениями ±i = x2i ±2 = — XI + и, (^-12) вывести соотношения, которые определяют области Grt T •. при условии, что наблюдается сигнал h(x) = *i[t] +w[r] (4<т<0. (4.13) r-или сигнал (4.14) ' Л (т) = я2 [т] + w [т] (т,< т < *), и (г) (т,<т<*). причем помеха м> [т] стеснена условием |«?[t]|<v. Пользуясь материалом из книги [7*], для систем, описываемых уравнениями *1==ж.1 *2=»м и (4.12), решить задачу о точном определении фазовых координат xi [t] по идеальным сигналам (4.13) и (4.14) (т. е. в случаях, когда помеха w [т] отсутствует, иначе говоря, когда w [т] = 0), Решить также задачу об оптимальном определении координат xi [t] по реальным сигналам (4.13) и (4.14) в случаях помехи \w [t]|^v.
ГЛАВА II ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ § 5. Уравнения движения Мы будем рассматривать динамические системы 2, описываемые векторным линейным дифференциальным уравнением & = A(t)z + u — v + f (t). (5.1) Здесь х — /с-мерный вектор фазовых координат xi (i = 1,.. .,&) данной управляемой системы (короче, х — фазовый вектор); и, v—А-мерные векторы управляющих воздействий (короче, управления), которыми будут распоряжаться первый и второй игроки соответственно; матрица-функция A (t) характеризует динамику системы; / (t) — jfc-мерный вектор внепших воздействий. По условиям задачи допустимые реализации u[t] и v[t] управляющих воздействий и и и будут стеснены условиями и!*]е%, ИЧе^ (5.2) где %t и Vt суть ограниченные, выпуклые и замкнутые множества в Ar-мерном векторном пространстве; индекс t в записи %t, Vt подчеркивает, что множества % и V могут зависеть от времени t. Иногда будем полагать, что множества % и V от времени не зависят; в таких случаях индекс t писать не будем. Если же окажется все-таки, что множества %t (или множества Wt) зависят от времени t, то будем предполагать, что с изменением t они изменяются непрерывно в следующем смысле: каково бы ни было возможное значение t = t^ и чйЩо е ^> 0, можно указать число А ^> 0 такое, что каждое множество %t (каждое множество Wt) при \t — *J <! А будет содержаться в е-окрестности! множества %t^ (или 2Ftm соответственно) и, наоборот, множество %t^ (WtJ будет лежать в е-окрестно- сти каждого множества % {fat). При этом говорят, что
56 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II в векторном пространстве {w} множество W содержится в е-окрестности Wz множества W*, если для любого вектора w из W найдется такой вектор w*, который содержится в W* и притом удовлетворяет неравенству || w — w*\ <^ 8. Часто (особенно в примерах) уравнение (5.1) нам будет удобно записывать в форме ± = A(t) х + B(t) и + C(t)v + /(*), (5.3) где х будет по-прежнему /с-мерным вектором, но буквы и и и будут обозначать уже И^-мерные и И2)-мерные векторы соответственно, И*> ^ к (i = 1, 2); при этом В (t) будет к X rW-мерной матрицей-функцией, С (t) — к X г<2>-мер- ной матрицей-функцией. Допустимые реализации и [t] и v [t] управлений и и v из (5.3) снова будут стеснены некоторыми условиями »WG^ v[t\^Vu (5-4) где %t и °№г будут ограниченными, выпуклыми и замкнутыми множествами в И ^-мерном и И2>-мерном векторных пространствах {и} и {v} соответственно. Нетрудно заметить, что ситуация, описываемая соотношениями (5.3) и (5.4), всегда может быть описана и соотношениями (5.1), (5.2). В самом деле, снабжая во избежание путаницы обозначения из (5.1), (5.2) верхним индексом — звездочкой, мы сразу перейдем от записи (5.3), (5.4) к записи (5.1), (5.2), если только выберем в качестве %t и Wt множества, которые пробегаются А-мерными векторами и = В (t)u, v* = —С (t) vf (5.5) когда векторы или пробегают множества %t и Vt из условий (5.4). Пример 5.1. Рассмотрим систему 2 из § 2. Полагая, как и раньше (см. стр. 21), х — L*. ~У1 У-2 Z1 _Zo J
I 5l УРАВНЕНИЯ ДВИЖЕНИЯ 57 мы можем систему уравнений (2.2), принимающую, следовательно, вид XI = Wl, X2 = W2, Хз = 271, #4 = ^2, (5.7) изобразить в форме векторного дифференциального уравнения (5.3) х = Ах + Ви + Си, (5.8) где х есть четырехмерный фазовый вектор (5.6); и==Н- v=\z\ суть двумерные векторы управлении, допустимые реализации которых и [t] и v [t] по условиям (2.1) стеснены неравенствами Иначе говоря, управления и и у стеснены здесь условиями (5.4), где 41 \ и Vt суть не зависящие от времени множества 41 и ^ в Рис. 5.1. двумерных векторных пространствах {и} и {у}, изображаемые сферами (кругами) || и [| = (и\ + и»)1'' < и, И = (t$ + ф1'. < v (5.9) с радиусами [Л и v соответственно (рис. 5.1). Матрица Л в (5.8) согласно (5.7) состоит сплошь из одних нулей, то есть (О 0 0 0\ 0000 оооо- (5Л°) оооо/ * Матрицы В и С в (5.8) надлежит определить равенствами '10\ /0 0N в = \ с = \ о о 1 0 \0 V
58 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II Итак, векторное дифференциальное уравнение (5.8), отвечающее системе (5.7), имеет такую подробную матричную запись: 0 0\ XI Х% is *4 = /0000. ' 0 0 0 0 ) 0 0 0 0 J \0 0 0 0 ' Гя1 Х2 Хз Х\ '♦| /1 0\ :; U о/ [::Ы::а к0 1 х Ах В и С v Изобразим теперь систему (2.2) и ограничения (2.1) в форме соотношений (5.1), (5.2). Опять во избежание путаницы снабдим обозначения управлений и множеств ^, V% из (5.1) и (5.2) верхним индексом — звездочкой. Для фазового вектора х (5.6) будем иметь тогда векторное дифференциальное уравнение х = Ах + и* — v*9 (5.11) где матрица А снова изображается равенством (5.10). Множества *U* и V » не зависящие от времени t, будут заданы условиями К)2+К)2<^2, «;=of u;=o, (5.12) ($2+(<)2<А г,;=0, г>; = 0 (5.13) соответственно. В самом деле, согласно предыдущему (см. (5.5)) % и V суть множества, пробегаемые четырехмерными векторами когда двумерные векторы и = {иг, и2} и и — {uv v2} пробегают множества % и V, заданные условиями (5.9). Итак, искомое векторное дифференциальное уравнение (5.11) имеет следующую подробную матричную запись: Г«1 #2 Хз #4 L - /0 0 0 0\ | 0 0 0 0 | = 1 0 0 0 0 1 М) 0 0 0 А "«Г хг Хз Xi - - X л- - *" "1 * .и2 * **3 * «4 и* ~ - *-1 *1 * * "8 * »4 L J у* нричем реализации и* [t] и у* U] четырехмерных векторов-управлений и* и v* должны быть стеснены условиями
§ 6] ДОПУСТИМЫЕ СТРАТЕГИИ 59 где множества %1* и V* заданы соотношениями (5.12) и (5.13) (см. рис. 5.2, дающий, конечно, условное изображение четырехмерных пространств). В заключение этого параграфа нам надлежит еще оговорить класс тех матриц-функций A(t), B(t), C(t) и класс тех вектор-функций / (t), которые будут встречаться в рассматриваемых нами ся, что в случае отсутствия каких-либо оговорок, будут иметься в виду матрицы-функции A (t), B(t), C(t) с непрерывными элементами а^ (t), Ъ^ (t), си (t) и вектор-функция f(t) с ограниченными интегрируемыми компонентами /.(£)• Запись данных матриц в форме А, В, С будет означать, что речь идет о матрицах с постоянными элементами. Упражнение 5.1. Для управляемой системы 2, рассмотренной в § 3, записать ее уравнения движения: (3.3) в векторных формах (5.1) и (5.3) и определить множества <Ut и Vt, фигурирующие в соответствующих условиях (5.2), (5.4) и отвечающие ограничениям (3.1). уравнениях. Условим- § 6. Допустимые стратегии В соответствии с общей постановкой игровых задач описанной во введении (см. примечание 0.1 на стр. 12), а также в соответствии с примерами дифференциальных игр, разобранными в §§ 2—4, нам надлежит предполагать, что управляющие воздействия и и v формируются по принципу обратной связи. Это означает, что реализую-
60 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II щиеся значения и [t] или v [t] в каждый текущий момент времени t определяются на основании информации о тех состояниях системы 2, которые реализовались на деле к этому моменту времени t. В § 2 законы, диктующие величины и [t] или v [t] и отвечающие избранным стратегиям игроков U или У, нам удалось описать при помощи вектор-функций и (х) и v (х). При этом для описания множеств {U} и {V} всех допустимых стратегий С/и V оказалось возможным использовать только совокупности {и (х)} и {v (х)} всех возможных вектор-функций и (х) = и (хг, х2, хг, х±) и v (х) = v (хг, х2, xs, #4)> непрерывных и удовлетворяющих условиям (2.8) и условиям Липшица (2.7) в каждой ограниченной замкнутой области $, не пересекающейся с поверхностью х. = Xi+2. (i = 1, 2). Таким образом, в § 2 реализации и [t] и v [t] управлений и и v определялись равенствами ult] = u{zli\)9 vlt]=v(x[t]) (6.1) при выбранных стратегиях U ~- и (х) и V ~~ v (x) (значок -ь- изображает соответствие между символом стратегии и ее конструктивным описанием). В § 3 попытка реализовать управляющие воздействия и = и [t] и v = v [t] в форме и [t] ■= а (*, х [t]), v[t] = v (t, x It]), (6.2) аналогичной (6.1), но учитывающей также и явную зависимость условий задачи от времени t, оказалась не вполне состоятельной. Появление нового явного аргумента t у функций и (t, x) и v (t, x) в правой части (6.2) совсем несущественно, ибо переменную t можно формально включить в число фазовых координат#., полагаяхкл1 = t и пополняя векторное уравнение (5.1) еще одной скалярной компонентой хклх — 1. Неудачная попытка описать законы управления равенствами (6.2) в § 3 объясняется тем, что там не удается ограничиться только непрерывными функциями и (t, x) та. v (t, x). Поэтому в угоду подходящему математическому аппарату дифференциальных уравнений с разрывными правыми частями нам пришлось на поверхности разрыва функций и (£, х) я v (t, x) заменить детерминистическое условие (6.2) более расплывчатыми условиями (см.
§ 6] ДОПУСТИМЫЕ СТРАТЕГИИ 61 неравенства (3.21), стр. 41): и~(*,*[*])<и[*]<и+(*, *Ш), 1 v~(t,x[t])^v[t]^v+(t, x[t]). J ( * ) Эти условия задают, следовательно, в момент t не одно определенное значение и = и [t] или v = v [t], как это было бы в случае (6.2), а "определяют целые множества % It] и V It] априори возможных в данной позиции {fc#Ul} значений и = и [t] или v=v[t]. Отбор действительно реализующихся значений и [t] или v [t] подчинен при этом лишь тому дополнительному требованию, чтобы на деле получалось абсолютно непрерывное движение x[t], которому сопутствуют интегрируемые реализации и [t] и v It] (t0 ^ t ^ Ф). Уже отмечалось, что последнее ограничение оказывается достаточно сильным, и математический механизм, определенный условием интегрируемости функций и [t] и v U], существенно стесняет произвол для реализаций и [t] и v[t], вытекающий, казалось бы, из условий (6.3). Таким образом, можно сказать, что в § 3 каждая стратегия U (каждая стратегия V) отождествляется с некоторой совокупностью множеств % (t, x)(W (t, x)), определенных для всякой возможной позиции {t, x} (to ^ t <^ Ф). При этом позиции {£, #}, где соответствующая исходная функция и (t, x) (v (t, x)) непрерывна, сопоставляется множество и = и (t, x) (v — v (t, x)), состоящее из одного-единственного значения и (t, x) (v (t, x))\ позиции же {t, х), где исходные функции и (t,x) (v(t, x)) терпят разрыв, сопоставляется множество % (t, x) (V* (t, x)), образующее отрезок u~(t, x)^u^u+(t, x) (или отрезок v" (t, x) ^ v <; Vе (t, x) соответственно). Именно в такой форме мы и перенесем описание стратегий U и V на общий случай игровых задач того типа, какие были разобраны в §§ 2 и 3. Проблемы, подобные задаче из § 4, мы пока оставим в стороне. О них речь пойдет ниже (см. §§ 28—30). Итак, пусть управляемая динамическая система 2 описывается векторным дифференциальным уравнением (5.1). Стратегию U первого игрока мы определим как совокупность складывающихся из /с-мерных векторов и множеств % (t, x), сопоставляемых каждой возможной в рассматриваемой игре позиции {t, x}. Таким образом,
62 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II выражение «первый игрок избрал стратегию U» будет означать что выбрано правило U, которое каждой возможной позиции {t, х} сопоставляет некоторое множество % (t, х), состоящее из /с-мерных векторов гг. И этот выбор стратегии U будет означать, что управляющие воздействия и [t] определяются двумя требованиями. (lu) При каждом t должна выполняться включение и [*](=%(*, xlt]). (6.4) (2J Функция и [t] должна быть интегрируемой на отрезке времени i0 ^ t ^ Ф, отвечающем продолжительности игры. Данное соответствие между стратегией U и совокупностью множеств % (t, x) будем изображать символом U -=-%(*, *)• (6.5) Аналогичным образом стратегию V второго игрока мы определим как совокупность складывающихся из /с-мерных векторов v множеств W(t, х), сопоставляемых каждой возможной в рассматриваемой игре позиции {t, x}. Выбор стратегии V будет означать, что управляющие воздействия v [t] определяются двумя условиями. (1Р) При каждом t должно выполняться включение v It] ЕЕ V (t, х It]). (6.6) (2у) Функция v [t] должна быть интегрируемой на отрезке времени t0^ t^$, отвечающем продолжительности игры. Данное соответствие между стратегией V и совокупностью множеств ffl (t, x) будем изображать символом V~V(t, x). (6.7) Аналогичным образом определяются стратегии U и V и в том случае, когда движение системы 2 описывается векторным уравнением в форме (5.3). На этих формулировках мы позволим себе здесь не останавливаться. Заметим еще, что множества % или W в (6.5) или (6.7) могут оказаться не зависящими явно от переменной t, тогда аргумент t в соответствующих записях будем опускать и писать % (х) или V {%) соответственно. Условимся, наконец, именовать
§ 6] ДОПУСТИМЫЕ СТРАТЕГИИ 63 соотношения (6.4) и (6.6) контингенциями, которые диктуются стратегиями U и V. Теперь надлежит осуществить основную цель данного параграфа — определить классы допустимых стратегий (6.5) и (6.7). Для того чтобы сделать это в более или менее эффективной форме, мы обратимся к одному свойству, которое будет характеризовать зависимость множеств % (t, x) и УУ (t, x) от аргументов t и х. Пусть каждой позиции {t, x} из некоторой открытой области & в (к + 1)-мерном пространстве {£, хх, ..., Xk) сопоставлено некоторое множество W {t, x), состоящее из r-мерных векторов w. Будем говорить, что множества W в точке {£*, х*} из \§ полунепрерывны сверху по включению при изменении t и х, если для любого числа е ^> О найдется число А ^> 0 такое, что все множества W {t, x) будут содержаться в е-окрестности множества W (t\ x*), как только \\х\ — х\\ < Д и \t — f | < А. (Напомним, что е-окрестностыо некоторого множества W в векторном пространстве {w} называется такое множество Wc, которое состоит из векторов w, удовлетворяющих условию: вектор w содержится в Wz тогда и только тогда, когда для него найдется вектор w* из W, удовлетворяющий неравенству \\w — w* ||< е.) Очевидно, множества %° (t, x) и 2^° (t, x), которые отвечают оптимальным стратегиям [/° и F0, построенным в § 3 на базе разрывных вектор-функций (3.15), (3.16), то есть множества °Ц0 (t, x) и 2Р0 (t, x), характеризуемые равенствами и = и0 (t, x), v = v° (t, x) в точках, где функции и0 и v° непрерывны, и неравенствами — \i ^ и ^ \х, — v^y^v в точках {t, x}, лежащих на поверхности разрыва этих функций и° (t, x) и v° (t, x), будут как раз множествами, полунепрерывными сверху по включению в каждой точке {t, x} (t <^ д). Теперь можно дать определение допустимой стратегии U (или V). Определение 6.1. Стратегию С/, заданную согласно (6.5) множествами % (t, x) (стратегию F, заданную согласно (6.7) множествами V" (t, x)), будем называть допустимой для некоторой открытой области $ в (к + 1)- мерном пространстве переменных {t, хг, ..., хк}, если совокупность этих множеств будет удовлетворять
g4 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ . 1 [ГЛ. II следующим условиям (для всех возможных позиций {£, х} из$): 1) выполняются включения <U(t,x)c:% (r(t,x)czWt\ (6.8) 2) множества % (t, x) (^ (t, x)) замкнуты и выпуклы, 3) множества % (t, x) (V (t, x)) полунепрерывны сверху по включению при изменении t и х в окрестности каждой возможной позиции. (Здесь %t и Vt суть множества, фигурирующие в условиях (5.2).) Опять заметим, что стратегии £7° и V0 из § 3 удовлетворяют, очевидно, всем трем требованиям, предъявляемым к допустимым стратегиям во всем полупространстве {*, х19 х2} (*<Ф). Аналогичным образом определяются допустимые стратегии U и V и в тех случаях, когда система 2 описывается векторным дифференциальным уравнением в форме (5.3), а ограничения на допустимые реализации и [t] и v [t] управляющих воздействий имеют вид включений (5.4). На соответствующих формулировках мы позволим себе здесь не останавливаться. Заметим, что в дальнейшем мы часто позволяем себе следующую вольность: вместо слов «допустимая стратегия U (F), определенная множествами % (t, x) ($? (t, #))», говорим короче — «допустимая стратегия % (*, х) {W {t, x))». Договоримся еще о следующем обозначении. Если потребуется обратить внимание на те аргументы (t, x и т. д.), которые при выборе стратегии U или V определяют множества % и W, то при записи символа стратегии эти аргументы мы будем добавлять справа, заключенными в фигурные скобки, например, будем писать U {t, x} или V {t, x}. Иначе говоря, буквы, заключенные в фигурные скобки справа от символа стратегии, будут явно указывать ту информацию о реализующихся состояниях системы 2, которая используется при формировании управляющих воздействий и и v, диктуемых данной стратегией. Определение 6.1 допустимых стратегий U и V будет оправданным, если окажется, что при выборе этих стратегий уравнение (5.1) будет иметь решение x[t], определенное должным образом. Покажем, что желаемое уело-
§ 6] ДОПУСТИМЫЕ СТРАТЕГИИ 65 вие действительно выполняется. С этой целью дадим сначала подходящее определение решения x[t], которое отвечает тому пониманию решения x[t], о котором уже шла речь вцше в частном случае, разобранном в § 3. Определение 6.2. Пусть первый и второй игроки избрали стратегии (6.5) и (6.7) соответственно. Назовем решением уравнения (5.1) при управлениях u£E%{t,x) v^W{t%x) (6.9) (на отрезке ttl <! t <: t%) всякую абсолютно непрерывную вектор-функцию x[t], которая при почти всех значениях t e= [tx, t2] удовлетворяет равенству ±[t] = A(t)x[t] +u[t]-v[t] + f(t), (6.10) причем интегрируемые вектор-функции u[t] и v [t] удовлетворяют условиям (6.4), (6.6). Данные решения x[t] уравнения (5.1) будем также именовать движениями системы 2, диктуемыми стратегиями U (6.5) и V (6.7), а также —движениями системы 2 при управлениях (6.9). Примечание 6.1. Условия абсолютной непрерывности функции х [t] тесно связаны с требованием, чтобы реализации и [t] и v [t] были функциями интегрируемыми (см. аналогичное замечание выше, на стр. 41). В самом деле, пусть реализация w[t] = и [t] — v[t] ограничена и интегрируема. Тогда функция х [t] согласно (6.10) при почти всех t имеет интегрируемую производную х [t] и, следовательно, является функцией абсолютно непрерывной ([6*], стр. 335—338). Напротив, если функция х [t] абсолютно непрерывна, то она имеет при почти всех t интегрируемую проиэводную х [t]. Отсюда вытекает, что разность w [t] = u[t] — v [t] является функцией интегрируемой, и эту разность мы разбиваем на две интегрируемые функции и [t] и v It], Требование абсолютной непрерывности вектор-функции х [t] выглядит, по-видимому, достаточно естественным, ибо его можно обосновать теми физическими соображениями, что вследствие инерционности реальной системы 2 менее регулярные движения, чем движения абсолютно непрерывные, для нее противоестественны. (По поводу физического смысла определения решения х [t] см. также выше примечание 3.4 в § 3 на стр. 42.) Справедливо следующее утверждение. Теорема 6.1. Пусть стратегии U (6.5) и V (6.7) допустимы для некоторой открытой области S§ в (к + 1)- мерном пространстве переменных {t, хг, ..., xk}. Тогда, каковы бы ни были начальные условия {£0, х0} ЕЕ &, урав- 3 Н. Н. Красовский
66 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II пение (5.1) при управлениях (6.9) {соответствующих стратегиям U и V) будет иметь решение на некотором отрезке времени t0^.t^:'&. Этот отрезок времетЫ, где существует решение х [t], можно расширять, увеличивая величину Ф до тех пор, пока позиция (в*, х [&]} не выйдет на границу об- ласти &. Справедливость теоремы 6.1 вытекает из результатов работ А. Ф. Филиппова [17* а, б]. Поэтому мы здесь не будем приводить ее доказательство. Рекомендуем, однако, интересующемуся читателю выполнить это доказательство самостоятельно. Итак, если игроки выбирают допустимые (для некоторой открытой области $ в пространстве {t, х}) стратегии U (6.5) и V (6.7), то при данной начальной позиции {t0, x0}Ez& мы имеем право говорить о движениях х It] (t I> t0) системы 2, порожденных управлениями (6.9) и данной начальной позицией {t0, #о}- К сожалению, теорема 6.1 не„ утверждает, однако, что данной позиции {t0, х0} и управлениям (6.9) отвечает единственное решение х [t] уравнения (5.1) (или иначе — единственное движение системы 2). Вектор-функции x[t], удовлетворяющие условиям определения 6.2 при данных {U, V; t0, x0}, могут составлять целое множество, состоящее более чем из одного решения. Это множество решений (движений) х [t] мы будем обозначать символом 30 [U, V; tQ, х0] (или 30 1%, W\ t0l x0]). Следует иметь в виду, что различные движения х [t] из 30 [U, V; t0, Xq] могут оказаться существующими на различных (по Ф) отрезках времени t0 ^ t ^ Ф. Пример 6.1. Рассмотрим систему 2, описываемую уравнениями *1 = Х2 + Ul — VV *2 = и2 — У2> (6.11) где реализации u[t] и v[t] стеснены условиями Mi U) ^ О, К [*]| < [л, vx [t] = 0, | v2 [t] | < v (6.12) fo _ v = 1). Будем трактовать систему уравнений (6.11) как векторное уравнение в форме (5.1), а ограничения (6.12) тогда надлежит толковать в форме включений (5.2).
§ 61 ДОПУСТИМЫЕ СТРАТЕГИИ 67 В трехмерном пространстве {*, xv х2) построим поверхность S, заданную уравнениями Х2 = V — 2X! ПРИ XI < 0, 1 а:2 = — VZzi при si ^ О J (рис. 6.1). Поверхность S в пространстве {t, xv х2) отделяет друг от друга две области Ж(1) и Ж(2\ причем символом Ж*1* обозначаем ту из Рис. 6.1. них, где при одинаковых t и хг координата х2 больше. Определим множества 110 (xv%x2) и Vq (xv х2), состоящие здесь из двумерных векторов ми!;, следующим образом: в области JV^ каждое из множеств ^0 и V0 состоит из одного элемента иг = 0, и2 — —ц, vx = 0, и2 = —v, (6.14) в области jy-№ каждое из множеств ^0 и ^0 также состоит из одного элемента Wj = 0, и2 = jut, i^ = 0, v2 = v, (6.15) 3*
68 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II на поверхности S множества %о и Vo задаются неравенствами •—|л < и2 < |х, —v < у2 < v (i*i = vi = 0). (6.16) Нетрудно проверить, что стратегии U0 и V0i определенные совокупностями множеств %ъ (х) и Vt> {x), допустимы для всего пространства {t, х\, х2}. Таким образом, каковы бы ни были начальные Рис. 6.2. условия {t0i x0i, х02}, рассматриваемая система 2 при управлениях u£%W, »€Уо(«) (6.17) будет обладать движением х [t] = {хг [t], x2[t]}, продолжимым для всех значений времени t > t0. На рис. 6.1 изображено одно из гаких движений. Заметим, что поскольку множества %о («i, #2) и Vo (х\, хч) не зависят явно от времени и поскольку коэффициенты при Xi в правых частях уравнений (6.11) также не зависят явно от времени, в данном случае движение x[t] системы 2 удобно изображать на фазовой плоскости {zi, #2}, игнорируя третье, измерение t в пространстве {t, xi, x2]. На рис. 6.2, где поверхность S превращается в линию S, изображено то же самое движение w\t], которое было построено на рис. 6.1.
§ 6] ДОПУСТИМЫЕ СТРАТЕГИИ 69 Рассмотрим теперь стратегию F, которую зададим множествами V(x), состоящими каждое из одного-единственного элемента v = 0. Очевидно, эта тривиальная стратегия также допустима для всего пространства {£, a?i, х%}. На рис. 6.3 на фазовой плоскости {xi, xi) изображены движения x[t] = {xi[t], #2 [t]} нашей системы при управлениях к£ 3*0 (*ь **), » = 0. (6.18) Здесь следует обратить особое внимание на характер движений х [t] = [хг [t], x2 [t]}, проходящих по линии S. Эти движения называют обычно скользящими режимами. Траекториями {«Я?*1)} Рис. 6.3. и {<#?(2)} (см. рис. 6.3), подходящими к S из областей Ж(1) и Ж<2\ фазовая точка х [t] ~ {хг [t], x2 [t]} прижимается к линии S, вдоль которой и вынуждается таким образом ее скольжение. Определение 6.2, данное выше для решения x\t], обретает здесь следующий геометрический смысл (см. рис. 6.3);* Уравнения (6.11) и условия (6.18) для каждой точки на плоскости {#!, х2) задают возможные направления — двумерные векторы{ЩЩ *== {х2, щ) (и е %o(?))i вдоль которых только и может смещаться фазовая точка х [t] — ** {*1 [*L x% [t)}f изображающая движение системы 2, ибо па
70 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II условиям определения 6.2 при почти всех значениях времени t > h касательная к траектории х [t] = {xx [t], x2[t]} должна иметь направление вектора {х2 [t], и2 [t]} (и [t] e ^o (^i [*], х2 №]))• В областях J\T^ и/(2) эти направления в соответствии с (6.14) и (6.15) определены однозначно. Напротив, на линии S условия (6.18) задают целый пучок векторов {х2 [t], щ), определяющих возможные направления касательной к траектории х [t] (см. точку С на рис. 6.3). Требование абсолютной непрерывности реализаций х [t] (или требование интегрируемости сопутствующего управления u[t]t (см. примечание 6.1) смыкается здесь с тем обстоятельством, что движение х [t] не может сорваться с кривой S, будучи прижатым к ней другими движениями, подходящими к линии S из областей Jf№ и J\T^. Это приводит к тому, что из всех возможных направлений {х2 U], и} автоматически выбирается одно-единственное направление, отвечающее скольжению по кривой S. Нетрудно проверить, что это направление определяется величиной и [t] = —1 при xx[i\ < 0 и и [t] = 1 при хг [t] > 0. Упражнение 6.1. Доказать теорему 6.1. Указание. Задавшись числом А>0 и опираясь на последовательность моментов времени То = *о, т»+1 = Tj +Д (/ = 0, 1, 2,...), построить непрерывную вектор-функцию хА (t), удовлетворяющую начальному условию хА [to] = x0 и уравнению хА [t] = A (t) хА [t] + uA [t] - vA [t] + f (t) <Tj<*<Tj+i: 7 = 0,1,2,...), где вектор-функции uA[t] и vA [t] определяются равенствами идШ = и<Ле^(т *д[т,]), | (6'2°) при тj ^ t < %j+1 и, следовательно, сохраняют постоянные значения и^ и i/;) на полуинтервалах [т7-, *j+1). Выбрав последовательность {AJ (i = 1, 2, ...) положительных чисел Дг-, сходящихся к нулю, рассмотреть соответствующую последовательность вектор- функций x^[t] = xA,[t] (на подходящем отрезке t0 < t <й). Из этой последовательности равномерно ограниченных и равностепенно непрерывных ([6*], стр. 106) вектор-функций х^ [t] выбрать подпо- (i ) следовательность х 8 [*], сходящуюся равномерно ([20*], стр. 32) к некоторой вектор-функции х [t]. Показать, что эта абсолютно непрерывная ([6*], стр. 335) вектор-функция х [t] удовлетворяет условиям (6.10) и является, следовательно, искомым решением х [t] уравнения (5.1). Именно в этом пункте доказательства используется свойство полунепрерывности выпуклых множеств 41 (t, x) и V* (*, х) по включению. Рассуждения можно вести по тому плану, \
§ 71 КОНФЛИКТНАЯ ЗАДАЧА О СБЛИЖЕНИЯ 71 как это сделано в работе А. Ф. Филиппова ([17*а], стр. 27). Построив решение х [t] для какого-то отрезка [t0j /J, следует показать далее возможность его продолжения до границы области ^. Упражнение 6.2. Доказать следующее утверждение. Пусть для всех достаточно малых А > 0 построены непрерывные вектор-функции хА [t] (t0 < t < О; хА [t0] = х0), удовлетворяющие на отрезке \t0, -О1] условиям (6.19) и (6.20). Тогда для любого е > 0 найдется А£ > 0 такое, что при А < А£ каждая вектор-функция хА [t] будет лежат в г-окрестности 30\ W, V\ t0i x0] семейства 30 YU, W\ *о> ^оЬ Иначе говоря, при А ^ Ag для любой вектор- функции хА [t] найдется решение х [t] e= SCVU^V'i *oi so] уравнения (5.1), определенное при t0 < t ^tt, такое, что для всех t из отрезка [t0, ft] оудет выполняться неравенство ||*Ш~*дШ1!<е. (6.21) Указание. Рассуждая от противного, построить последовательность вектор-функций х^ [t] = xA[t] (i = 1, 2, ...; А$ -> 0), не лежащих каждая в 8-окрестности семейства 30 YU, V\U,xJ[. Опираясь на эту последовательность, построить решение х [t] подобно тому, как это предлагается выше в указании к упражнению 6.1, и прийти таким путем к противоречию. § 7. Конфликтная задача о сближении В этом параграфе мы рассматриваем динамическую систему 2, которая складывается из двух управляемых объектов. Один из них, подчиненный первому игроку — преследователю, описывается дифференциальным уравнением у = ЛО) (t)y + u+ /&> (*), (7.1) где у есть и^-мерный фазовый вектор. Другой объект, подчиненный второму игроку — преследуемому, описывается уравнением z = л<-2> (t) z + v + p) (t), (7.2) причем z есть тг(2)-мерный фазовый вектор. Процесс рассматривается на заданном отрезке време- ни *о ^ t ^ Ф. Допустимые реализации и [t] и v [t] управлений и и v стеснены условиями u[t]^%. v[t]^Wt. (7.3) Здесь %х и Vt — ограниченные, выпуклые и замкнутые множества в тг^-мерном и в тг<2)-мерном векторных
72 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ТЛ.. it пространствах {и} и {v} соответственно. Вектор-функции /(!>(£) и /<2> (£), описывающие внешние силы, предполагаются заданными. Объединяя векторы рп один /с-мерный фазовый вектор х (к = п(1) + п<2)) [:]• (7.4) можно заменить систему уравнений (7.1), (7.2) одним стандартным векторным уравнением вида (5.1) ± = A(t)x + и' -v* +f (*), (7.5) где A(t) = Г {t) ° ) /<о-Г(|)1 V 0 A^{t))' П) 1/<2)(*)J и причем £(1) и £(2> — единичные п^ X п(1)-мерная и п№ X X тг(2>-мерная матрицы соответственно. Ограничения (7.3) заменяются соответствующими включениями u[t]£E%l V[t]€z!fu (7.7) в которых множества % и Vt из /с-мерных векторных пространств {и*} и {v*} получаются преобразованием множеств %t и %^t при помощи соотношений (7.6). Однако мы не будем пока переходить к записи (7.5), предпочитая работать с парой уравнений (7.1), (7.2), чтобы подчеркивать наличие двух (преследующего и преследуемого) объектов. Задача преследователя будет состоять в том, чтобы минимизировать величину ' Т = Р{»[*]}т-{2[*]}«|| (™0(1\ т\<и<2>), (7.8) задача преследуемого, напротив — максимизировать значение платы у- Здесь и ниже символ {р}т означает вектор, составленный из первых т компонент р. вектора р, символ ||д[| как всегда означает евклидову норму вектор^ q.
§ 7] КОНФЛИКТНАЯ ЗАДАЧА О СБЛИЖЕНИИ 73 Таким образом, расстояние между преследуемым и преследующим объектами оценивается здесь величиной у (7.8), характеризующей рассогласование между какими- то (указанными наперед) т фазовыми координатами г/, и z., которые при подходящей нумерации оказываются первыми т координатами для каждого из объектов. Уточним постановку задачи в соответствии с теми особенностями дифференциальных игр, с которыми мы столкнулись в примерах из § 2 и 3. При этом будем опираться на понятие допустимой стратегии, введенное в § 6. Сформулируем сначала задачу о минимаксе величины у (7.8). Будем предполагать, что управляющее воздействие и формируется по принципу обратной связи и реализующиеся значения его и [t] в каждый текущий момент времени t ЕЕ lt0, Ф] определяются реализующейся в этот моменъ позицией {t, х [t]} = {t, у [t], z [t]}. Поэтому допустимые стратегии U преследователя в соответствии с определением 6.1 мы отождествим с контингенциями (6.4), то есть установим соответствие U~%{t, у, z), (7.9) где множества % (t, у, z) определены и удовлетворяют условиям 1—3 из определения 6.1 для всех у и z при каждом t ЕЕ [t0, Ф]. Для преследуемого мы допустим любые интегрируемые реализации v It] (tQ <! t < ft), стесненные вто^ рым условием (7.3). Задача формулируется следующим образом. Задача 7.1. Среди допустимых стратегий (7.9) требуется найти' оптимальную минимаксную стратегию U° {t* У* z}i которая удовлетворяет условию fl{y[*]}m-{*[*]}mll«97[^ * *о, 2/о, *о]) < < mm , sup inf (J {у [*]}«-{* [♦]}т|1|Л?[СГ,{»);*о,Ув,^]), (7.10) какова бы ни была исходная позиция {/0, yQ, z0}. Здесь символ 9С [U, v; t0, y0, z0] обозначает семейство движений {у U], z It]} (t0^ t < #) системы 2, отвечающее начальной позиции t0, у [t0] = у0, z [t0] = z0 при
74 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II управлениях v = v [t] и и It] е % (*, У Ul z [t]). (7.11) Примечание 7.1. Как уже отмечалось выше, выбранная пара {U -*- <U (t, у, z), v [t]} законов управления и и v при данной исходной позиции {гс, 2/0, г0}, определяет, вообще говоря, неединственное движение {y[t], z[t]}. Отмеченным обстоятельством и объясняется знак inf^ „-, г „, в правой части неравенств (7.10). В левой части неравенства (7.10) имеется в виду любое движение у [t], отвечающее выбранным законам управленияU и v [t] и данной начальной позиции {*0, у0, z0}. Таким образом, искомая оптимальная минимаксная стратегия U° {t, у, г}, если она существует, должна обладать следующим свойством: при выборе стратегии U0 -г- %о, какова бы ни была исходная позиция {£0, у0, z0} и какой бы ни оказалась реализация v[t] управления ь>, результат сближения y (7.8) окажется никак не хуже, чем он оказался бы при выборе любой другой допустимой стратегии U, сопутствуемой самыми неблагоприятными для нее реализациями v [t]. При этом в последнем случае при выбранных управлениях ц£^ и v ~ v[t] результат игры у (7.8) оценивается в (7.10) справа снова самой благоприятной для преследователя реализацией у[ t], z [t] движений (7.1), (7.2). В связи с этим полезно обратить внимание читателя на то, что мы теперь требуем от оптимальной минимаксной стратегии U0 несколько большего, нежели требовалось раньше в аналогичном случае в § 3 от стратегии U0 (см. условие (3.13) из задачи 3.2). Примечание 7.2. Задача 7.1 есть задача о минимаксе величины у (7.8) (minw maxv у). Поэтому мы должны были оговорить способ формирования именно для управления и, причем надлежало ясно указать ту текущую информацию, на которой базируется построение реализаций u[t]. Это и было сделано: текущую информацию в момент t доставляют сведения о позиции {£, у [*], z [t]}, реализовавшейся в этот момент времени t\ допустимые управления и [t], формируемые по принципу обратной связи, диктуются контин- генциями (7.11). Напротив, допустимые способы формирования управления у, равно как и ту информацию, на которой базируется формирование реализаций v[t] по ходу процесса, мы здесь будем игнорировать (см. стр. 17 в § 1). Предполагается лишь по принципу «наибольшей неприятности», что преследователь в любой ожидающей его ситуации может столкнуться с самой неблагоприятной для него реализацией v[t]. При этом и слепой случай выбора v = = v [t], и направленное на максимизацию величины у формирование управления и = v[t] по какому-либо разумно организованному закону, базирующемуся на сколь угодно полной информации о преследователе и его замыслах, здесь в равной мере нивелируется «черным ящиком принципа наибольшей неприятности». Сиособы формирования управления v [t] (стратегию V) мы ограничиваем здесь только тем условием, чтобы стратегии U {£, у, z} и V были в паре допустимыми в том лишь смысле, что при их выборе существуют движения {у [t], z [£]!}. При этом во множество стратегий V, фигурирующих в задаче 7.1 ? мы во всдком случае включаем все
I 7j КОНФЛИКТНАЯ ЗАДАЧА О СБЛИЖЕНИИ 75 стратегии V {t, у, z}, допустимые в том смысле, как это определено в § 6, а также все возможные программные (то есть выбираемые априори) управления v [t] (tQ^ t ^ft). При этом, чтобы подчеркнуть, что класс стратегий F, вообще говоря, шире чем множество допустимых стратегий (в смысле определения 6.1 из § 6) V {£, у, z}, мы в правой части (7.10) обозначаем допустимую стратегию не символом V, но символом {v}. Подобные замечания по поводу символов {и} и {^} следует иметь в виду и ниже в аналогичных случаях. Выражение же «допустимая стратегия U (или F)», если не будет оговорки, следует ниже понимать так, что речь идет о стратегии U (или V) вида (6.5) (или (6.7)), допустимой в смысле определения 6.1. Примечание 7.3. Разумеется, задачу 7.1 можно было бы сформулировать иначе, выбирая и для преследуемого только законы управления у, характеризуемые допустимыми (в смысле определения 6.1) контингенциями v [t] £^ V (t, у, z). В частности, можно для преследуемого игрока выбрать стратегию V {it} -r- Vt. Выбор такой стратегии преследуемым игроком означает, что преследователь может столкнуться с любой интегрируемой реализацией v [t] Ei V%* Поэтому задачу о минимаксной стратегии U0 можно сформулировать, например, следующим образом. Задача 7.1*. Среди допустимых стратегий (7.9) требуется найти оптимальную минимаксную стратегию (7° {t, у, z}, которая удовлетворяет условию (II {У №Ьт - {* \Щт III X \U\ V {*}; *., 2/о, *о]) < < min sup inf (Ofcf[*]Jm—{*№»ml| *[^,{»[*АУМо1), V{t,v,z) {v[t]} vlthtW { (7.12) какова бы ни была исходная позиция {tfQ, y0, z0}. При этом в левой части (7.12) имеется в виду любое движение {(У It], 2W}6^[f/°, V{t}; t0, i/0, z0]. Наконец, условие (7.12) можно заменить и таким условием: (II {У [<>]}т - {? W)m \\&\U*,V ДО; «в, УЬ, *о]) < < min sup <t{ymm-*m}mU&lV,V{*r.to,Vo,*9])f U{tty,z} ?/[ *],*[*] которое априори требует от оптимальной стратегии U0 несколько меньшего, чем условие (7.12). Подобные обстоятельства будут сопровождать наши игровые задачи и дальше, но мы уже не будем давать разъяснений, подобных приведенным сейчас. Примечание 7.4. В § 6 была сформулирована теорема 6.1 о существовании решений х [t] уравнения (5.1) в предположении, что оба управления миг? определяются контингенциями (6.4) и (6.6), где U и V суть стратегии, допустимые в смысле определения Ь.1. Теперь, обсуждая задачу 7.1, мы должны работать с решениями
7ё ПОСТАНОВКА ИГР0ЙЬ1Х (ЗАДАЧ tttf.'li х U] уравнения (5.1) (иначе говоря, с решениями x[t] уравнения (7.5), изображающего систему (7.1), (7.2)) и в таких случаях, когда лишь одно управление и = u[t] задается допустимыми континген- пиями (7.11), а реализация второго управления и = v [t] (t0 ^ t ^ 0) предполагается заданной непосредственно (см. выше примечание 7.2). Однако и в этом случае утверждение о существовании решения х [t] уравнения (7.5) (или, иначе говоря, утверждение о существовании решения х [t] — {y[t], z[t]} системы уравнений (7.1), (7.2)), аналогичное теореме 6.1, целиком сохраняет свою силу. Доказательство этого утверждения проводится снова по плану, содержащемуся в указании к упражнению 6.1, и здесь лишь упрощается. По вопросу о реальной допустимости в паре стратегий U и V, задающих контингенции (6.9), следует сделать еще одно замечание. Фактически теорема существования решения х [t] (теорема 6.1) утверждает лишь непротиворечивость условий (6.9), ибо она говорит, что существует по крайней мере одна абсолютно непрерывная функция x[t], которая удовлетворяет уравнению (6.10) при условиях (6.4), (6.6). При этом мы игнорируем математические механизмы, которые отбирают для первого и второго игроков реализации и [t] и v[t], стесненные условиями (6.4) и (6.6). Однако, учитывая конфликтный характер исходных задач управления (в частности, задачи 7.1), нам следовало бы обсудить и такой вопрос: при выборе преследователем некоторой допустимой стратегии U -г- У, (£, у, г) (в смысле определения 6.1 из § 6) не окажется ли в распоряжении преследуемого такого механизма для текущего назначения допустимой реализации управления v [t] ЕЕ Vt, при котором будет получаться абсолютно непрерывное движение г [t], удовлетворяющее уравнению i = 4<2>№z + *M + /<2><*). но никак не сможет осуществиться абсолютно непрерывное движениь y[t], которое удовлетворяло бы уравнению у = Л<х> it) у +и [t] + /<х) (0 (и [t] <= Ц (*, у It], z [t]) при почти всех значениях £? Аналогичный вопрос можно поставить и для преследуемого: при выборе им некоторой допустимой стратегии V -$- V (*, у, z) (в смысле определения 6.1 из § 6) не окажется ли в распоряжении преследующего такого механизма для текущего назначения допустимой реализации и [t]Ez%ti ПРИ котором будет получаться абсолютно непрерывное движение у [t], удовлетворяющее уравнению у = A^(t)y + u[t] + f^(t), но никак не сможет осуществиться абсолютно непрерывное движение z[t]y которое удовлетворяло бы уравнению i = A^z +v[t] + /(2) (t) (v [t] e Vt (*, У M, z [t]) при почти всех значениях t? Обсуждение этих вопросов о произволе выбора управлений u[t] n'v[t], удовлетворяющих контингвнциям (6.4) и (6.6), мы оставим здесь в стороне и в дальнейшем упомянутую
$7l конфликтная задача о сёлйШёнйй ^ в них трудность будем игнорировать. Рекомендуем читателю обду^ мать ответы на эти вопросы самостоятельно. Подобные замечания следует иметь в виду - и ниже в исходных ситуациях, Итак, задачу о минимаксе величины у (7.8) мы сформулировали. Перейдем теперь к задаче о максимине величины у. Здесь уже надлежит полагать, что по принципу обратной связи формируется управление v, организуемое преследуемым. Примем поэтому, что реализующиеся значения v [t] в каждый текущий момент времени t ЕЕ [t0, Ф] теперь определяются реализующейся в этот момент позицией {£, х [t]} = {t, у [t],z [t]} и задаются контигенциями vlt] Gf(^W,zW), (7.13) которые диктуются допустимыми стратегиями V-+-V!(t,y,z)t (7.14) удовлетворяющими условиям 1—3 из определения 6Л. Для преследователя мы допустим любые интегрируемые реализации и [t] (t0^ t^. Ф), стесненные первым условием (7.3). Тогда задача сформулируется следующим образом. Задача 7.2. Среди допустимых стратегий (7.14) требуется найти оптимальную максиминную стратегию V° {£, у, z}, которая удовлетворяет условию ЫУ№т-1*№т1\&1и, V°> 'о, 2/0, *о]) > i\\\&[{uhV;t0, (7.15) > max inf sup (|| у {[ft)}w- {z [Щ}т\\ \ 30 [{u}, V; t0, y0, z0]), V {*, V, z) {u if]} z [*], V [t] какова бы ни была исходная позиция {t0, z/0, z0}. И здесь максиминную задачу 7.2 можно сформулировать в форме, получающейся при условии, что преследователь выбирает стратегию U Щ -*- 41%. Задача 7.2*. Среди допустимых стратегий (7.14) требуется найти оптимальную максиминную стратегию V0 {*, у, г}, которая удовлетворяет условию (II {У [ft]}m - {* [*]}m III 30 [U{t}y Fo; t0i уо, z0]) > > max inf sup (\\{y№}m - {*[0])mll) 1^[{И^ Ч>У*М\ V{tlV,z} {u[t]} z[t],y[t] m m (7.16)
78 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II какова бы ни была исходная позиция {t0, у0, zo). При этом в левой части (7.16) имеется в виду любое решение {yAt]> z [t]} *= €z$s[U{t}, V°\t0l y0, z0](cm. для сравнения задачу 7.1*). И здесь условие (7.16) можно заменить несколько более слабым требованием к оптимальной стратегии V0 (см. выше стр. 75). Именно, можно потребовать выполнение неравенства (II {у Wim - {* I*I»m II1& [и {ti}t ^°; *o, 2/0, *o]) > >^ sup^ inf (| {y [*I}m - {z I»]}m III SO [U {*}, V; t0t y0M)- Объединяя задачи 7.1 и 7.2, можно сформулировать следующую задачу о седловой точке рассматриваемой игры. Задача 7.3. Среди допустимых стратегий (7.9), (7.14) требуется найти пару оптимальных стратегий U0 {t, z/, z} и V° {t, у, z}, которые доставляют седловую точку игре и, следовательно, удовлетворяют условиям sup (\\{yW}m-{z№}m\\\&[U\ V; *о,Уо, *о»< z[thv[t] <(!{»[*]}«-{«[*]}«IIЖ[170, V\t0,yQi *])< < inf (||{y [*]}mp—{^[0]}т|)]й7 [t/, F°;^0, yo,^o]), (7.17) v[t],z[t] какова бы ни была исходная позиция {t0l z/0, z0}. Рассмотрим пример. Пример 7.1. Пусть динамическая система 2 складывается из двух тяжелых материальных точек т(1) и тР\ движущихся в вертикальной плоскости {£, ц} и управляемых силами ш^ и w^ соответственно (рис. 7.1). Двумерные векторы u;(1) = {w^\ w^} и и>(2) = {w^\ w^} в каждый момент времени t могут принимать любые направления, однако абсолютные величины реализаций w^ [t] и w^ [t] стеснены условиями II <"(1) Ш К ^(1)> II ™(2) Ш II < Ь(2)> (7.18) где А/1* и Х^ суть заданные положительные постоянные. Первый игрок — преследователь, управляющий точкой тР-\ стремится к заданному моменту времени Ф сблизить ее координаты |(1) [t], r\W [t] с координатами ^ [t]y r\№ [t] точки т^2\ которая управляется вторым игроком — преследуемым. Второй игрок препятствует осуществлению этих намерений. Следовательно, в качестве платы игры у
КОНФЛИКТНАЯ ЗАДАЧА О СБЛИЖЕНИИ 79 здесь целесообразно выбрать величину Y = Ui(1) №1 - S(2) Ш)2 + (Л(1) [♦] - V2) W)2]4* , (7.19) равную евклидову расстоянию между точками т^ и т^ на плоскости {£, г\} в момент времени t = д. Рис. 7.1. Уравнения движения данной системы имеют вид m(l) -(1) = „(1) _ m(l)gt m(2) » (2) = Ц2) _ т(2)^ (7.20) причем т№ и т^ обозначают также и массы соответствующих точек, g — ускорение силы тяжести. Обозначая *<1) = !&, т](1) = У2, £(1) = 2/з, П(1) = 2/4, 5(a) = *i, Л(2)-^2, |(2) = гз, Л<2> = ** и полагая U\ = 0, «2 = 0, U3 = »1 = 0, г>2 = 0, г?з = «£> „с» «.(о „(2) U4= »(« „(2) m(2) • *~ ^(2) . /f ) = /(« = /« = 0, /« = = —?. >/» = ^) = /(«==01/<«) =
80 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II мы приведем систему уравнений (7.20) к нормальной форме (7.1), (7.2) 2/1 2/2 2/з L2/4J *1 Z2 ZS \-Zi + 112 .u& J + 0 0 0 2/3 2/4 Ui 0 0 0 1 0 0 0 0 \0 0 0 0 Zl Z2 z% -24- + Vl V2 V3 _»4- + ' 0 " 0 0 -— £-J = z3 24 v3 -Vi—g\ (7.21) (7.22) где согласно (7.18) «i = 0, u2 = 0, (в» + и\ )*/• < ц, Vl = 0, г>2 = 0, (4 + »» )*'• < v (7.23) (' № п(1) V = m<2> J Величина у (7.19) изобразится теперь равенством II {У WU - (<* [♦]% II = f(Ш I»! - * ДО)2 + (2/2 [О] - *2 IWf*. (7.24) Задача 7.1 принимает здесь, стало быть, следующий смысл: найти допустимую стратегию £7° {t, у, zj, сопоставляющую каждой Возможной позиции {it, у, г} контингенцию и е ^° <*, у, г) или- — в переменных ш^ Д) 41} - контингенцию «W 1 .0) ^[1](*, »1, • • • ,»4, *1. • • • ,^4), определяющую такой закон изменения вектора и [t] e ^° (*, у [tf9 г [t]) (иначе говоря, вектора силы ш(1) [t] E: $^ij (t, y[t],z [*])), который обеспечивает наименьшее расстояние между точками т(1)* тп(2) в момент времени t = d в самом неблагоприятном случае реализации силы w^ [t]. Задача 7.2, напротив, требует найти стратегию V° {t, у, z}, сопоставляющую каждой возможной позиции {t, у, г} контингенцию
§ 7] КОНФЛИКТНАЯ ЗАДАЧА О СБЛИЖЕНИИ 81 или — в переменных w^ №\ w&' — контингенцию !,<»>" 42)J Wl2\(t,yU.. .,1/4, «!•-• .,«4). определяющую такой закон изменения вектора y[f]e 2^° (*, у [t], г [t]) (иначе говоря, вектора силы w<2)[t] e Wfy^U у [t], г (*])), который обеспечивает наибольшее расстояние между точками т^ и яг^ в момент времени t — Ф в самом неблагоприятном случае реализации силы w^ [t]. Рис. 7.2. Вернемся к общим задачам 7.1—7.3. Эти задачи можно сформулировать, изображая движение рассматриваемой системы 2 в к = (nW + и(2))-мерном пространстве векторов х (7.4). Для этой цели надлежит ввести в данном пространстве {х} многообразие М, складывающееся из всех точек *1> -. .f Zn(2)}»
82 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II координаты которых удовлетворяют равенствам х1^' хип<Х> (i = U...,m) (7.25) (см. рис. 7.2, имеющий, разумеется, условный смысл). Очевидно, при любом г ^>0 величина у (7.8) тогда и только тогда становится меньше или равной ^2е, когда изображающая точка х [Ф] попадает в замкнутую е-окрестность Лг множества М, то есть когда в пространстве {х} расстояние со (х [Ф], Л) от точки х [-в1] до множества М оказывается не большим, чем е. Иначе говоря, УЦ{у)ш - {*U = ©(*, М). (7.26) Поэтому заменяя в условиях задач 7.1—7.3 величину Y = \\{У W}m — {z W}m\\ на величину (о (х [д], Л), мы получим нужные модификации этих задач. Соответствующие формулировки здесь, однако, приводить не будем, так как подобные задачи составляют уже предмет следующего параграфа. § 8. Игровая задача наведения Рассмотрим динамическую систему 2, описываемую стандартным дифференциальным уравнением ±=A(t)x+u — v + f (t), (8.1) где допустимые реализации и [t] и v [t] управляющих воздействий и и v предполагаются интегрируемыми и стеснены традиционными ограничениями u[t]^%u v[t]&Wt. (8.2) Игра будет осуществляться на заданном отрезке времени t0 ^ t ^ О1, причем плата у пусть изображается равенством у = со (х ИИ). (8.3) Здесь со (х) = со (хх, ..., #*) — заданная непрерывная скалярная функция от векторного аргумента х. Можно сформулировать три игровые задачи наведения,
§8l йГРОвай Задала йаёёдёййй 83 Задача 8.1. Среди допустимых стратегий U {t, х\ to, #0} требуется найти оптимальную минимаксную стратегию U°{t, x; t0, x0), которая удовлетворяет условию (a>(*[*])|#[tf°f v\ t0.*b])< <minsup inf (ю (я-[*])!#[#, {и}; t0> x0]). (8.4) U {v[ty x[t] Задача 8.2. Среди допустимых стратегий V {t, x\ t0, x0} требуется найти оптимальную максиминную стратегию V° {t, x\ t0, x0}, которая удовлетворяет условию (®(«[*])|а?[иД°; *о, *о])> >тах inf sup (со(«[*]) \ЗС [{и}, V; t0l x0]). (8.5) V {u[t]\ x[t] Задача 8.3. Среди допустимых стратегий U {t, х; t0, x0) и V {t, x\ £0> #о) требуется найти пару оптимальных стратегий U0 и V0, которые определяют седловую точку игры и, следовательно, удовлетвотворяют условиям (ю ИО])|#М£/°, v; t01 я0])< <(со(*[#])|ЯМЕ/°, V0; *0, *0)]< <(a>(s[<M)l#b, F0; *01 *0]). (8.6) П римечание 8.1. Обратим внимание читателя на следующее обстоятельство: в отличие от задачи 7.1—7.3, теперь оптимальные стратегии U0 и V0 задают управления и и v с учетом исходной позиции {tQl #0}. При изменении этой позиции множества 6U°, V*, отвечающие стратегиям £/°, V°> также могут изменяться. Разумеется, это условие не исключает ситуаций, когда множества <U°, ^°, отвечающие оптимальным стратегиям £7°, V0, оказываются не зависящими от начальных данных {tf0, x0}. Укажем один частный случай задач 8.1—8.3, который, однако, в данной монографии будет встречаться наиболее часто. Этот частный случай осуществляется, когда функция со (#), задающая плату (8.3), имеет смысл евклидова расстояния со (х, Л) от точки х до некоторого выпуклого многообразия Ж в пространстве {#}. Как отмечено в конце § 7, к этому случаю задач 8.1—8.3 сводятся и задачи 7.1—7.3, если только многообразие Л, задается соотношениями (7.25). Следует заметить, однако, что верно и обратное заключение. Именно, всякую задачу 8.1—8.3,
84 йостайовКа йг*>обь!£ Задач [Ш. И где функция со (я), определяющая плату (8.3), имеет смысл расстояния со (х, Ж) от переменной точки х до заданного выпуклого многообразия М в пространстве {#}, можно интерпретировать как некоторую конфликтную задачу о преследовании. При этом следует лишь несколько расширить класс допустимых управлений и. В самом деле, пусть в пространстве {х} задано некоторое выпуклое, замкнутое множество Л и для случая со (х) = со (х, Ж) сформулирована, например, задача 8.1. Рассмотрим систему 2*, которая складывается из двух управляемых объектов, описываемых соответственно уравнениями ±d) = A (t) a№ + u + f (*), (8.7) iW = A (t) x& + v, (8.8) причем допустимыми реализациями v It] управления v снова являются интегрируемые функции, стесненные условием v[t\SEWu (8.9) а допустимые реализации ир It] управления и имеют вид up It] = u[t] + pb (t - #), (8.10) причем и It] — интегрируемые функции, стесненные условием u[t]ZE%u (8.11) а вектор р может принимать любые значения из некоторого множества 5s, определенного условием: вектор р содержится во множестве £Р тогда и только тогда, когда вектор (—р) содержится во множестве ,М; символ б (t) обозначает б-функцию Дирака (см. стр. 408). В соответствии с условием (8.10) мы расширим и класс допустимых стратегий XJV {£, я*1), #<2)}. Именно, отождествим теперь допустимые стратегии Uv с множествами %v (£, #(1)» #(2))> которые при t<$ снова удовлетворяют условиям!—3 из определения 6.1, а при t = О будут совокупностями, складывающимися из элементов вида pb (t — Ф), где рЕ^. (8.12) Иначе говоря, при условии (8.12) движение x^Ht] в момент t = Ф может совершить разрывное скачкообразное
§ 8l Й1Ф0ВАЙ*ЗАДАЧА ЙАЙЕДЁНЙЯ 85 изменение, которое описывается равенством (рйс. 8.1) Zb*D - р (реЗ5). Теперь нетрудно проверить, что задача 8.1 эквивалентна следующей конфликтной задаче о сближении объектов (8.7) и (8.8). х(Ш Рис. 8.1. Задача 8.1*. Среди допустимых стратегий Up{t, хР-\ х№) требуется найти оптимальную минимаксную стратегию Up {£, я*1), #(2>}, которая удовлетворяет условию (II *(1) т - *(2) т II i & [и% V\ *0, {$\ ^2)}]) < . < min sup inf (!| *<*> [О] -хЫ [Щ || | SO [Up, {г;}; tb,{x£\ *<2)}J, Up <*[*]} x[t] (8.13)
86 ПОСТАНОВКА ЙГРОВЬ1Х*!ЗАДАЧ [ГЛ. II какова бы ни была исходная позиция {£0, х<у , #о }. Здесь символ £C\UV, v\ t0,{x(o\ #э2)}1 означает множество движений {x&Ht], x&4t]} системы!]*, отвечающих исходной позиции {£0, х{о\ xf}) при управлениях v It] и и It] GE SE.%v{t,xM[i\, х& It]). Примечание 8.2. Мы рассматриваем здесь тот вариант задачи 8.1, который снабжен дополнительными требованиями независимости множеств ^°, отвечающих искомой стратегии £/?, от исходной позиции {to, #o}, так как именно этот вариант задачи 8.1 нас будет интересовать дальше при со (х) = со (я, Ж). Аналогичным образом конструируются задачи 8.2* и 8.3* о конфликтном сближении движений #(1> [t], я<2> U], эквивалентные задачам 8.2 и 8.3 соответственна. Мы не будем доказывать высказанное выше утверждение об эквивалентности задачам 8.1 и 8.1*, предоставляя это читателю в качестве упражнения. Упражнение 8.1. Доказать эквивалентность задач 8.1 и 8.1 *. Указание. (1) Проверить сначала утверждение: пусть для исходной позиции {*о, #о} при управлениях и = и [t] и и — v [t] в системе 2 (8.1) осуществляется условие ж[0]б1£, (8.14) где ,Мг есть замкнутая 8-окрестность множества Мл тогда можно подобрать вектор р£^ так, что управление ир [t] = и [t] + + рд (t —-ft) при управлении v = v [t] в системе 2* (8.7), (8.8) будет обеспечивать неравенство Ц^Ж-^^Ке, (8.15) если только исходная позиция {t0l х^\ х^} удовлетворяет условиям X0=x(O-xW, (8.16) и обратно — если допустимые управления uv[t] = и [t] + рд (t — Ф) и v = v [t] в системе 2* при исходной позиции (8.16) обеспечивают неравенство (8.15), то соответствующие управления и = и [t] и v = v [t] в системе 2 (8.1) обеспечивают условия (8.14) (см. рис. 8.1). . (2) Оптимальная стратегия. Vp—UpV, #(1\ я(2)} для задачи 8.1, если эта стратегия существует, такова, что данный ею закон управления определен множествами ^°, зависящими от разности
§ 9J ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА НАВЕДЕНИЯ 87 U°p {*, х«\ х^} - U* {*, х^ - х^} = С/» {*, *}. Упражнение 8.2. Сформулировать и обсудить конфликтные задачи 8.2*, 8.3* о сближении объектов (8.7) и (8.8), эквивалентные задачам 8.2 и 8.3 соответственно. § 9. Информационная игровая задача наведения В § 4 был рассмотрен частный случай задачи наведения, игровой характер которой был обусловлен недостатком информации о текущих состояниях фазового вектора х [t] управляемой системы 2. Теперь мы сформулируем одну довольно общую задачу такого рода. Пусть динамическая система 2 описывается векторным дифференциальным уравнением ± = A(t)x + u + /(*), (9.1) где допустимые реализации и It] управляющего воздействия и суть интегрируемые функции, стесненные обычным условием и It] ЕЕ %. (9.2) Управляемый процесс осуществляется на заданном отрезке времени t0 ^ t <! О. Информация о текущих состояниях х It] системы 2 складывается из следующих данных: (1°) оговорена ограниченная область & U0 — 0] в фазовом пространстве {ж}, в которой может оказаться точка х [t0] = = х0; (2°) для каждого текущего момента времени t > t0 известен сигнал h[T] = H{T)x[T]+w[%] (*0 <*<*). и [X] (*а<Т<«), ( ) доставляющий сведения о прошлом (т <! t) движении х [т] системы 2 и о той прошлой реализации и [х] (т < t) управления и, под действием которой осуществилось движение х [т]. Здесь h [x] есть р-мерная вектор-функция (р <[ <! к), Н (х) — заданная непрерывная (р X &)-мерная матрица-функция; w [х] — р-мерная вектор-функция помехи, стесненная только условием |u>[t]||<v. (9.4) Задача состоит в таком выборе управления щ при
88 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II котором обеспечивается наименьшее возможное уклонение со (х [ft], Ж) точки х [ft] от заданного множества Ж. (Это множество Л мы будем полагать выпуклым и замкнутым.) Уточним задачу. Для этой цели нам прежде всего надлежит оговорить класс допустимых стратегий U, которыми будут диктоваться реализации и [t] управления и. Это управление должно формироваться по принципу обратной связи. Следовательно, реализующееся значение и [t] в данный текущий момент времени t должно определяться на основании доступной к этому моменту информации о фазовом состоянии х [t] системы 2. По условиям задачи эта информация доставляется сигналом (9.3). Данный сигнал вместе с условием (1°), задающим область $ U0 — 0], позволяет оценить ту область $ U] фазового пространства {х}, в которой может находиться точка х [t]. Оценка эта достигается следующим образом. Пусть на деле в момент t реализовалось (неизвестное нам) значение х [t] фазового вектора х. Согласно формуле Коши (см. Приложение, § 42, равенство (42.2)) движение х [т] при т <I t должно удовлетворять равенству -с -с х[х] = X [т,t]x[t] + \x [х, \\ и [\\ dl + IX [х, t) /(g) d$, t t (9.5) где X [%, т0] — фундаментальная матрица решений для уравнения % = А{х)х. (9.6) Умножая равенство (9.5) слева на матрицу Н (т) и учитывая (9.3), получим соотношение Я (т) X [г, *] х It] - U4x] = w W, (9.7) где вектор-функцию т h{u) [х] - h [x] - Н (т) J X [х, |] (и Ц] + f (%)) dl (9.8) t по условиям задачи надлежит считать известной для всех т ЕЕ U0» *!• Но теперь из (9.4) следует нужное нам
I 9) ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА НАВЕДЕНИЯ 89 ограничение на х It]: \\Н(х)Х[х, t]xlt]-hM hr]||<v (9.9) (t0 < t < t). Таким образом, в момент t могут реализоваться те и только те значения х U], которые одновременно удовлетворяют условиям (9.9) и условию Х[*0, t]x[t]+^X[t0lT](u[T]+f(x))dx = t = x[t0]t=9[t0-Q]. (9.10) Соотношения (9.9), (9.10) и определяют нужную нам область $ It]. Именно переменную область 9 [^ мы и выберем в качестве основного аргумента, который будет определять реализации управления и It]. Однако, прежде чем определить класс допустимых стратегий, мы условимся о следующем обороте речи: будем говорить, что область Шх) отличается от области $(2) не больше, чем на е ]> 0, если для любой точки q ЕЕ $(1) найдется точка р ЕЕ $(2) такая, что |p-<7fl<e, (9.11) и обратно — для любой точки q e Э(2) найдется точка р £Е $(1), также удовлетворяющая условию (9.11). Теперь определим допустимые стратегии U. Определение 9.1. Пусть каждый паре {£, $}, состоящей из скаляра t ЕЕ U0> ^1 и из некоторой области $ в Zc-мерном пространстве {х}, сопоставлено множество % (£, ^), складывающееся из ft-мерных векторов и. Скажем, что данная совокупность множеств % (t, &), отвечающих всем возможным значениям t и $, определяет допустимую стратегию (стратегию U {t, $}), и запишем #-*-%(*,»), (9.12) если только выполнены следующие условия: I. Справедливы включения %(U$)t=%t. (9.13) II. Множества % (t, &) выпуклы и замкнуты.
90 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. Л III. Множества % (t, 9) полунепрерывны сверху по включению (относительно изменения t и 9). При выборе допустимой стратегии U (9.12) реализации и It] управления и диктуются условием и It] e % (*, 9 [*]), (9.14) сопровождаемым, как обычно, требованием интегрируемости функции и It] (t0 ^ t <! Ф). Условие III в определении 9.1 означает, что при данных t = f, 9 = 9* для любого е > 0 можно указать такое А ^> 0, что все множества % (t, 9) будут лежать в е-ок- рестности %z (t*, 9*) множества % (£\ 9*), если только \t — t*4\ ^ А и область 9 отличается от области 9* не больше, чем на А. Примечание 9.1. В определении 9.1 достаточно потребовать, чтобы множества ^ (t, &) были определены не для всех возможных подмножеств & точек х из пространства {х}, но лишь для всех таких множеств ^, которые могут встретиться в качестве реализаций областей & [t], определенных условиями (9.9) и (9.10). Определение 9.1, данное только что для допустимой стратегии U (9.12), будет иметь ценность лишь при том условии, если выбор этой стратегии обеспечит существование решения х It] для уравнения (9.1), причем реализации и [t] будут удовлетворять соотношениям (9.14), а области 9 It] будут находиться из условий (9.9) и (9.10). Это будет действительно так, если только допускать достаточно регулярные реализации вектор-функции h [х] (то есть достаточно регулярные реализации помехи wlx]; в частности, мы условимся допускать реализации w [т], которые описываются кусочно-непрерывными функциями, имеющими лишь точки разрыва первого рода, в которых они непрерывны слева). Однако на данном вопросе мы здесь останавливаться не будем. В дальнейшем мы несколько огрубим задачу и тогда уже рассмотрим более подробно вопрос о существовании решения х [t] уравнения (9.1) при выборе определенных ниже допустимых стратегий U (см. § 29). Здесь исследование вопроса о существовании решения х [t] мы предоставляем интересующемуся читателю в качестве упражнения. Теперь мы сконструируем игровую ситуацию. Для этой цели введем двух игроков. Первый игрок, представляю-
§ 9] ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА НАВЕДЕНИЯ 91 щий разумное начало, будет распоряжаться управлением и. Второй игрок, олицетворяющий слепые силы] природы, будет распоряжаться выбором исходной позиции х [t0] = = XqEz $ U0 — 0] и реализациями помехиЪ [т]. Последнее Рис. 9.1. означает, что в каждый текущий момент времени t второй игрок «выдает» первому игроку искаженный результат измерения hlt] = H{t)xlt] + wlth Который, разумеется, не должен противоречить условию (9.4) (см. выше на стр. 53 аналогичную ситуацию в частном случае обсуждаемой игры, рассмотренном в § 4). В качестве платы у здесь, очевидно, следует выбрать величину Г = sup©(*[*!, Л?) (9.15) при х т <= & т (рис. 9.1).
92 ПОСТАНОВКА ИГРОВЫХ ЗАДАЧ [ГЛ. II Допустимые стратегии U первого игрока названы в определении 9.1. Поскольку мы сформулируем лишь задачу о минимаксе платьГ'у (где ищется минимум почи), механизм, при помощи которого второй игрок выбирает позицию х [t0] и реализации wit], мы будем игнорировать. Итак, можно сформулировать следующую игровую задачу. Задача 9.1. Среди допустимых стратегий U {£, Щ требуется найти оптимальную минимаксную стратегию U° {U Щ<> которая удовлетворяет условию (Г|Ф[#0,и>; t0f *„])< <min sup sup inf (r\3?[U, {w}; t0, x0]), (9.16) какова бы ни была исходная область $ lt0— 0], (в (9.16)— начальная позиция х0 =;ж lt0] G= & U0 — 0]). Здесь символ W [С7°, w\ t0, x0] обозначает семейство решений х It] уравнения (9.1) для исходной позиции х [t0] = х0 при выборе стратегии U° (£, Щ и при помехе wit], причем предполагается, что области $ It] определяются из условий (9.9), (9.10), Упражнение 9.1. Исследовать вопрос о существовании решения х [t] уравнения (9.1), когда реализации управления и [t] диктуются условиями (9.14), причем области & [t] определяются из условий (9.9), (9.10). Указание. Рассмотреть предельный переход от дискретной схемы управления, подобной той, какая предложена в указании к упражнению 6.1, к непрерывному управлению. Упражнение 9.2. Показать, что задачу 9.1 можно также интерпретировать как конфликтную задачу о сближении двух управляемых объектов. Указание. Рассмотрим объекты, описываемые фазовыми векторами я(1) [t] и #(2) [*], где #(1) [*] = x^[t] + х It]. При этом вектор- функцию я(1) [t] можно подчинить уравнению вида (8.7), а изменение фазового вектора я(2) [t] описать уравнением *(2) [t] = А ф s(2) [t]i (9.17) полагая, однако, что реализующиеся значения ж(2) [t] величины я(2) точно неизвестны, но оцениваются областями & U] (9.9), (9.10) в соответствии с равенствами я<2) It] =» х<1) [t] - х [tl x [t] e &U]. (9.18) Затем надлежит ввести фиктивное известное первому игроку значение х^* [t] и фиктивное управление t>, истолковав смещение x^[t] — x№*[t] как возможный неизвестный априори результат действия фиктивного управления v.
ГЛАВА III ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ § 10. Эвристические соображения * В этом и следующем параграфах мы приведем некоторые предварительные соображения в пользу того метода решения игровых задач, который составляет основу данной монографии. Предлагаемые нестрогие рассуждения базируются на простых наглядных представлениях и имеют целью пояснить суть дела. Строгое обоснование решений дается в §§ 16—22. Обсудим для определенности задачи типа минимакса (то есть задачи вида 7.1, 8.1). Предположим, что в какой- то зафиксированный момент времени t = t* в системе 2 реализовалась позиция {t*, х If] = х*}. Для этой позиции надлежит найти управляющее воздействие и, отвечающее наиболее выгодному для первого игрока способу поведения. Допустим сначала, что первый игрок умеет вычислять тот наилучший для него результат игры у0, к которому он может прийти в момент t = О, отправляясь от данной позиции {£*, #*}, если будет придерживаться оптимальной стратегии U0 (при наиболее упорном сопротивлении партнера). Более того, допустим, что первый игрок умеет вычислять этот наилучший исход игры у0, достигаемый при выборе им оптимальной стратегии (и при максимальном сопротивлении противника), уже не только для данной исходной позиции {t*, я*}, но и для всех возможных исходных позиций {г, х}, близких к ней. Иначе говоря, пусть наилучший возможный для первого игрока результат игры у0 известен ему как функция y° (t> x) от исходной позиции {£, х}, определенная для всех {£, х) из некоторой Д-окрестности * > f, \t - П < А, \\х — af 1 < А (10.1). реализовавшейся позиции {£*, х*}. Тогда, очевидно, для достижения этого наилучшего возможного результата y°
94 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III первый игрок должен в течение малого будущего отрезка времени t ^U*, t* + At] (At > 0) действовать так, чтобы к моменту t = t* + A £ система 2 перешла в позицию {t* + At, x (t* + At)}, для которой выполняется неравенство V0 (Г + At, х (t* + At)) < v° (?,*?)> (Ю.2) то есть в такую позицию {t* + At, x (t* + At)}, которая по показателю у0 не хуже, чем позиция {t*, x*}. Итак, если обсуждаемая задача (7.1 или 8.1) действительно имеет решение £7° и если наилучший возможный исход игры, достижимый при самых неблагоприятных действиях противника, оценивается первым игроком при помощи функции у0 (t, x) правильно, то оптимальная стратегия £7° характеризуется следующим свойством: диктуемые ею управляющие воздействия и It] {t*^ t ^ t* + At) обеспечивают неравенство (10.2), каков бы ни был образ действий второго игрока на отрезка времени [f, t* + At]. Условие, выражаемое неравенством (10.2), мы будем именовать принципом неухудшения позиции. Таким образом, оптимальную стратегию £7° надлежит искать, исходя из принципа неухудшения позиции. Ввиду важности этого соображения поясним его еще раз на примере, выходящем за круг дифференциальных игр. Пусть играется шахматная партия; первый игрок распоряжается белыми фигурами, второй — черными. Предположим, что к некоторому i-му ходу белых, то есть перед им ходом белых (i = 1,2 ,...), на доске сложилась какая- то позиция, которую обозначим символом х Uq] = х*. Предположим далее, что первый игрок обладает безошибочной шахматной интуицией, которая говорит ему, что данная позиция х* является для белых (а) выигрышной или (Ь) ничейной, или (с) безнадежно проигрышной. Прежде чем выбрать свой i-й ход, первый игрок может проделать следующую мысленную работу: он будет задаваться по очереди всеми возможными г-ми ходами белых и будет оценивать те позиции х (i4), которые будут создаваться после каждого из этих ходов (то есть те позиции х (ij), которые тогда будут складываться на доске перед 1-м ходом черных). Умея безошибочно оценивать эти гипотетические позиции х (ц), первый игрок (если
§ io] ЭВРИСТИЧЕСКИЕ СООБРАЖЕНИЯ 95 он ориентируется на наилучшую игру своего противника в будущем, начиная с хода гч) должен остановиться на таком i-м ходе, который приводит к позиции х (гч), не худшей для него, чем позиция х Uq] (то есть к позиции х (гч), которая в случае (а) снова будет выигрышной для белых, а в случае (Ь) по крайней мере будет гарантировать белым ничью). И такой г-й ход обязательно найдется, если только первый игрок действительно умеет безошибочно оценивать позиции х [io\ и х{1ч). Стало быть, искусная игра в шахматы (например, за белых) требует совсем немногого — надо лишь уметь безошибочно оценивать позицию х Uq] и все те позиции х (i4), в которые можно перейти от позиции х [ц] за один ход, а затем остается только выбирать всякий раз согласно принципу неухудшения позиции такой г-й ход, который приводит к позиции х (гч), не худшей (с точки зрения интересов белых), чем позиция х [iq]. Иначе говоря, для полного успеха в шахматах достаточно играть так, чтобы никогда не портить позицию. Вернемся к нашим минимаксным дифференциальным играм. Принцип неухудшения позиции, выражаемый неравенством (10.2), может подсказать первому игроку наилучший образ действий (выбор и It] при f ^ t ^ t* + + Д£), если величина у0 известна как функция у0 (г, х) от переменной позиции {t, x} (по крайней мере в окрестности (10.1) данной реализовавшейся позиции {t*, #*}). Итак, дело за немногим — следует научиться оценивать функцию y°(t, x). Это можно попытаться сделать следующим образом. Предположим, что искомая функция у0 (t, x) является функцией дифференцируемой. Тогда задавшись какими-то управлениями и = и (t) и v = = v (t) (£„ <1 t ^ £„ + Дг), непрерывными справа в точке t = f, можно подсчитать правую производную по времени для функции у0 It] = у0 (t, x It]), вдоль соответствующего движения х (t) системы 2 описываемого уравнениями ± = A(t)x + u(t) — v{t)+f (t). (10.3) Если управление и = и0 (t) диктуется оптимальной минимаксной стратегией U0, то согласно предыдущему неравенство (10.2) должно выполняться для всех достаточно
96 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III малых At > 0, какой бы ни была реализация v (t). Следовательно, при таком управлении и = и0 It] должно выполняться неравенство какова бы ни была реализация управления v = v (t)< С другой стороны, по правилу дифференцирования сложной функции у0 It] = у0 (*» х ^1) производная dy° [t]/dt изображается равенством (см, [10*], стр. 34) 1*1° \ _ аТ°(* V dt /*=** dt i г=1 , а?) , у дГ° (*, x) dxj \ ^ & dx{ dt д-р (t ^+2^(W,+ i=l * ?=1 + «?(')-MO+ /i (O))^^- (Ю-5) Из (10.4) и (10.5) следует, что при и = и0 (f) должно выполняться неравенство »P[fi^+2?#L(il««(0^ + «!(*)- . -^ + /«(0)L.iW<o. (Ю.6) Более того, в (10.6) должно даже выполняться обязательно строгое равенство, ибо иначе при и = и0 (t) первый игрок имел бы возможность в течение малого отрезка времени At строго улучшить позицию х [t*]-*~ x (t* + At) по показателю у0 (t, x), а это невозможно по смыслу величины у0 (£, х) (доказательство предоставляем читателю). Наконец, левая часть в (10.6) не может быть уменьшена заменой и° на какой-нибудь вектор и = и* Ez%. В самом деле, иначе первый игрок, выбирая подходящее управление и = и, мог бы опять за малое время At строго улучшить позицию, что невозможно. Итак, мы приходим
§ 10] ЭВРИСТИЧЕСКИЕ СООБРАЖЕНИЯ 97 к следующему соотношению: Vi + fi(t))\ =0. /Jt=t*t х=х* (10.7) Исключая в левой части (10.7) величины ut и vt из условия minw и sup^ а также учитывая, что наши рассуждения годятся для произвольной реализующейся позиции {t, х} — {£*, х*}, мы выведем из (10.7) для функции Y° (t, x) некое дифференциальное уравнение в частных производных Нч(Г* ,^%^,...,U^)=0. (10.8) Здесь вид функции ф, получающейся в результате исключения переменных ut и vt из (10.7) по условиям минимума по и и максимума по v, определяется строением множеств %t и Wt- Теперь для вычисления нужной нам функции у° (t, x) достаточно проинтегрировать уравнение (10.8). Это уравнение надлежит разрешить для всех х и t ^ Ф, причем следует исходить из краевого условия т Г° («, х) = || {у}т - {z}m|| = ( 2 (-WD - ^i)2) ' (10-9) в случае задачи 7.1 или, более общо, из краевого условия f ({>, х) = о> {х) (10.10) в случае задачи 8.1, как это сразу следует из смысла величины у°. В самом деле, игра, начинающаяся в момент Ф (ее окончания) при исходной и одновременно завершающей позиции х М = х может иметь очевидный единственный результат у° = со (х Ш) = со (х). 4 Н. Н. Красовский mm sup —*г^ + г=1 г s j=l
98 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III К сожалению, указанный путь определения функции у0 (t, x) интегрированием уравнения (10.8) чреват большими затруднениями даже в тех случаях, когда искомая функция у0 (t, x) действительно является дифференцируемой и когда можно так или иначе оговорить свойства управлений, аналогичные сделанному выше предположению о непрерывности реализации u[t] в каждой точке t = t* справа (см. наше предположение на стр. 95—96) и, следовательно, использование уравнения (10.8) имеет законные основания. Трудности тем более усугубляются, когда функция у0 (t, x) не является гладкой при всех t, x. Следует также учитывать, что методы численного интегрирования уравнения (10.8) по смыслу рассматриваемых задач оказываются часто недостаточно эффективным средством. Поясним, в чем состоит одна из главных неприятностей, связанных с определением функции у° (t, x) (которая в конечном счете нужна для вычисления управления и0 [t*] в реализовавшейся позиции {t*, x*}) путем интегрирования уравнения (10.8), исходя из краевого условия (10.10). Для момента окончания игры t = Ф функция у0 (■&, х)= = со (х) известна. Интегрируя уравнение (10.8) для значений t < Ф, то есть сдвигаясь по времени назад, мы можем (хотя бы в принципе) вычислить значения функции y°(t,x) для всех тех позиций {t, #}, которые могут реализоваться в процессе игры. И содержательный смысл математической операции интегрирования уравнения (10.8) в (к + 1)-мерном пространстве переменных {t, xx, ... • ••.> xh}i смещением от гиперплоскости t = $ в сторону убывания времени t, состоит в следующем: мы как бы проигрываем назад во времени t всевозможные оптимальные реализации игровых движений х U], оканчивающихся в момент t = d во всех возможных конечных позициях х W (где, как мы знаем, у0 ('О1, х Ш) = со (х [Ф]), см. рис. 10.1). Подсчитав таким образом значения у0 (t, x) для всех возможных позиций {t, #}, то есть для всех х и гЕЕио, О], и запомнив найденные величины, мы, столкнувшись на деле с какой-то реализовавшейся позицией {£*, х*}, будем знать и нужные нам значения у0 (t, x) в окрестности данной позиции {£*, #*}. Это очень хорошо, ибо согласно
S Ю] ЭВРИСТИЧЕСКИЕ СООБРАЖЕНИЯ 99 предыдущему таким образом мы получаем возможность определить искомое управление и = и0 UJ, как вектор и = и° ЕЕ %f> минимизирующий левую часть (10.7). (Последняя операция при известной функции у° (t, х) обычно не сложна.) Плохо то, что для определения функции Y° (t, x), которую по ходу процесса нам надо знать лишь Рис. 10.1. в окрестностях реализующихся на деле позиций {£*, я*}, мы вынуждены проделывать колоссальную излишнюю работу, заготовляя значения функции y°(t,x) для всех возможных х и tEz\t^ Ф] и, стало быть, по сути дела проигрывая всю игру назад несчетное число раз, возвращаясь от всех возможных заключительных позиций х [Ф], к большинству из которых в данной конкретной реализации игры мы никак не сможем прийти. Эта колоссальная работа, если выполнять ее численными методами, часто лишает эффективности описанный способ построения управления и = и0 UJ. К тому же, если выполнять всю работу по вычислению y° (t, x) заблаговременно, то есть До начала игры, то приходится запоминать слишком много 4*
100 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III данных, относящихся в большинстве своем к позициям, которые совсем не встретятся в ходе игры. Попытка выполнения всех нужных вычислений по ходу игры в свою очередь затруднена реальными ограничениями на быстроту вычислений. Обратимся опять к шахматной аналогии. Пусть первому игроку, который распоряжается белыми фигурами, надлежит сделать i-й ход, причем перед ним на доске сложилась позиция х [/б! = х*. Тогда, следуя пути, который аналогичен численному интегрированию (10.8) назад по времени t от краевых условий (10.10), первый игрок может поступить следующим образом. Он перебирает сначала все возможные заключительные позиции, где черным мат, и, отталкиваясь от них, мысленно проигрывает для каждой такой заключительной позиции игру назад (на самое разнообразное число ходов), пятясь каждый раз при помощи лучших (в известном смысле) ходов своих и противника. (Мы не обсуждаем здесь вопроса о выборе этих образцовых (попятных) ходов, так как рассматриваемая фантастическая картина вряд ли заслуживает здесь усилий, которые пришлось бы затратить на это обсуждение.) Таким путем первый игрок сконструирует и запомнит некое множество {х}в выигрышных позиций х. Если позиция х [iq] = х содержится во множестве {#}в, то она для первого игрока есть выигрышная. Кроме того, во множестве {х}в будет еще по крайней мере одна выигрышная для белых позиция х = х (гч), в которую из позиции х* можно перейти одним ходом белых. Этот ход и выберет первый игрок, благо он помнит все позиции из {х}в. Если же среди выигрышных позиций {х}в позиции х не окажется, то первый игрок должен будет перебрать все возможные заключительные позиции, которые явно ничейны. Проиграв опять назад по времени (опять на самое разнообразное число ходов) всевозможные образцовые партии, заканчивающиеся ничейными позициями, первый игрок сконструирует множество {х}н ничейных позиций. Если окажется, что реализовавшаяся позиция х Uq] = х* содержится во множестве {х}п, то первому игроку обеспечена ничья и, более того, он может найти во множестве {х}н и такую позицию х = х (гч), в которую можно перейти, сделав один ход. Этот ход первый игрок
§10] ЭВРИСТИЧЕСКИЕ СООБРАЖЕНИЯ 101 и выбирает. Наконец, если позиция х не содержится ни в {#}в> ни в {^}н> то дело плохо. Позиция х* е {х}и, то есть она безнадежна для первого игрока и партию он должен сдать, если, конечно, уверен, что его противник тоже обладает такими аналитическими способностями, которые позволяют ему конструировать множества {#}в, (х}а и {#}п- Впрочем, между такими игроками дело вообще до игры не дойдет. Они сообща сконструируют {#}в» {#}н и {х}п, мирно выяснят, в каком из этих множеств содержится позиция #*, отвечающая начальному расположению фигур, зафиксируют соответствующий исход игры и разойдутся. Вернемся опять к дифференциальным играм. Разумеется, картина использования уравнения (10.8) для решения задач не является на деле столь мрачной, как это, может быть, выглядит в предыдущих рассуждениях. Мы намеренно сгустили краски, чтобы подчеркнуть некоторые трудности, возникающие при использовании методов, базирующихся на множествах реализаций всех «образцовых» игр, которые для оценки величины у° (г, х) проигрываются назад по времени t смещением от всевозможных заключительных позиций х [Ф]. Во всяком случае эти методы важны для строгого теоретического исследования проблемы. Уравнение (10.8) (или его аналоги, которые можно сконструировать дляЛ случаев, когда функщш у0 (*> х) не является гладкой) доставляет также и эффективные средства для решения игровых задач, если уравнения эти удается проинтегрировать в замкнутой форме (см., например, книгу Р. Айзекса [1*]). Предыдущими рассуждениями мы, однако, старались подчеркнуть трудности использования уравнения (10.8) при его численном интегрировании, не облегченном какими-либо дополнительными полезными соображениями. Обсудим теперь другой (по форме) способ оценки величины у° (t, x). Итак, пусть снова в данный момент сложилась позиция х [t*] = х*. Для оценки т* ожидаемого исхода игры у первый игрок может попытаться пристроить к этой, реально осуществившейся уже позиции {*\ ж*}, некую мысленную конструкцию, которая позволила бы ему составить прогноз будущего течения игры, оценила бы, таким образом, позицию {**, х*} и одновре-
102 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. Ill менно наметила бы различимую цель, к которой стоит стремиться, чтобы достичь наилучших возможных результатов. При этом принцип неухудшения позиции требует, чтобы оценка ее, даваемая такой конструкцией, не ухудшалась, когда управление диктуется целью, доставляемой данной конструкцией. Если найденная оценка у* такова, что, опираясь на нее, можно выбирать управление и, отвечающее принципу неухудшения позиции (по показателю у* (t, #)), то первый игрок, следуя этому управлению, начиная с момента t = Г, во всяком случае обеспечит себе результат игры у, не худший, чем у* (t*, х [Г]). Этот результат, конечно, может быть хуже, чем неизвестная величина у0 (Г, х U*]). Однако можно указать немало задач, где при удачном подборе у* «плата» у* — у° за незнание строго наилучшего решения не слишком высока по сравнению с затратами на отыскание точного оптимального решения. Этот путь представляется заманчивым по той причине, что упомянутая мысленная конструкция теперь пристраивается к данной реализовавшейся уже позиции {£*, х*}. Отталкиваясь от позиции {Г, х*} по времени вперед, конструкция предполагает учет только тех позиций {t, x}, к которым от данной позиции {Г, х*} действительно может прийти игра в будущем. Указанное обстоятельство, пожалуй, делает такие конструкции более экономичными по сравнению с теми построениями, которые идут назад по времени, отталкиваясь от всех возможных заключительных позиций х Ш, и которые «разыскивают» в момент t = t* < Ф реализовавшуюся на деле позицию xlf] = х* (см. выше, стр. 98—101). Разумеется, эта экономичность должна оплачиваться здесь другими недостатками, например, меньшей универсальностью. Простейший пример такой конструкции, нацеленной в будущее, доставляет, пожалуй, мысленная прямая, которая проводится от носа безынерционной «собаки» к хвосту преследуемого ею безынерционного «зайца» (см. § 2) и которая может служить руководящей нитью для организации преследования по известной из курса анализа «кривой погони» (см. [15*], стр. 170, а также см. решение задачи 2.1 из § 2, приведенное на стр. 24—28). Вероятно, справедливо утверждение, что на деле «мыс-
§ Ц] ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ ЮЗ ленная» конструкция, определяющая преследование зайца собакой, является более сложной. Однако все-таки вряд ли, преследуя зайца, собака мысленно проигрывает назад по времени всевозможные реализации погони, отталкиваясь от всех возможных заключительных позиций. Одна из конструкций, пристраиваемых к реализующейся позиции {f, х*} и нацеленная в будущее, и составляет основу предлагаемого в книге способа решения рассматриваемых игровых задач. Описание этой «экстремальной конструкции» составляет материал следующего параграфа. Отметим еще следующее. Фактически предлагаемая ниже конструкция доставит нам не что иное, как известное каждому охотнику «упреждение» при нацеливании (преследователя на преследуемого). Это упреждение вычисляется нами так, что оно учитывает будущие возможности преследователя и преследуемого и определяется оно уже совершенно стандартным путем на базе строгих представлений математической теории оптимальных процессов. П римечание 10.1. В этом параграфе речь шла все время об игровых задачах на минимакс платы у (minn тах?уу). Разумеется, рассуждения можно провести и для максиминных задач (maXj, minuY), а также и для тех случаев, когда требуется (и можно!) найти седловую точку игры. § 11. Экстремальная конструкция В этом параграфе мы опишем экстремальную конструкцию, которая будет использована в дальнейшем для построения оптимальных стратегий U° {t, у, z} и V°{t,y,z}, разрешающих задачи 7.1—7.3. Эта воображаемая конструкция сопоставляется в каждый текущий момент времени t реализующейся на деле позиции {t, у It], z It]}. Работая с экстремальной конструкцией в этом параграфе и в дальнейшем, мы будем руководствоваться принятым раньше условием (см. § 3, стр. 33): действительно изменяющееся в процессе игры время будем обозначать латинской буквой t; греческая буква т, напротив, будет обозначать время во вспомогательных построениях; прямые скобки, заключающие аргумент t, будут подчерки-
104 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ.'Ш вать, как правило, что речь идет о реализациях соответствующих функций, осуществляющихся в процессе игры. Итак, рассмотрим игровую ситуацию, которая служит основой для задач 7.1—7.3. Следовательно, мы рассматриваем два движения: преследующее движение у It], описываемое уравнением (7.1), и преследуемое движение z[t], описываемое уравнением (7.2); реализации и It] и v It] допустимых управлений и и v стеснены условиями (7.3). Пусть в какой-то текущий момент времени t = £„ реализовалась позиция у [tj = у^ z [tj = zt. Зафиксируем данные значения t#, у^, z^ Сконструируем воображаемые движения у (т) и z (т), tt <J т^ ft, у (*J = у^ z (tj = zt, подчиненные уравнениям *v = AW(T)y+u± /(l)(r), (11.1) d-l=A(»(x)Z + v + f(2)(x), (11.2) которые отличаются от уравнений (7.1) и (7.2) лишь обозначением независимой переменной. Сформируем в m-мерном пространстве {q} точек q — {y}m,q =^ {z}m об- ласти достижимости (см. Приложение, § 48, стр. 399) G(1) (К> У*-> ft) и ^(2) (**» z*i ft) к моменту т = ft для движений у (т) и z (т) (^ ^ х ^ ft) при исходных данных У (О = У*' z (О — z* и ПРИ ограничениях м(т)е«т. ^(т)е^т (И.З) соответственно (рис. 11.1). Символом (т£1} (£„, г/*, Ф) (е ;> 0) будем обозначать замкнутые е-окрестности области GW (^, у^ ft). Полезно вспомнить (см. Приложение, § 49, стр.407—411),что области Gs(1) (£,, £/„, ft) в свою очередь можно трактовать как области достижимости к моменту х = ft для движения у (х) (^ ^ х ^ft) опять при исходном состоянии У (О = У*> но теперь уже при всевозможных допустимых ^-управлениях и = ир (т) вида ир (т) = и (х) + рб (т - О), (11.4) где и (х) (t^ ^ х ^ ft) — произвольная интегрируемая вектор-функция, удовлетворяющая условию (11.3), а
§ ц] ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ 105 л—произвольный ^-мерный вектор, стесненный условием (см. рис. 11.1) ПРИ < е (11.5) (символ б (т) в (11.4), как обычно, обозначает дельта- функцию). Рис. 11.1. Пусть е° (^, у^, zj — наименьшее значение е > 0, при котором справедливо включение G(2)(*„ *„ b)czG?(t., у.,*) (Н.6) (рис. 11.2). Величину е° (t^ у^ zj назовем гипотетическим рассогласованием, отвечающим данной позиции {^, у^, zt). Эта величина имеет следующий смысл. Выберем произвольное допустимое управление
106 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. v = г?+ (т) (£„ ^ т ^ #). Пусть оно переведет движение (11.2)* из положения z (t~) = ^ в состояш^ {z (#)}£». ШУт Рис. 11.2. Тогда можно подобрать к нему допустимое управление и = иф (т) (^ ^ т <! Ф) так, что движение г/ (т) (11,1)
§ 111 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ 107 управлением и = и^ (т) из положения у (tj) = у^ будет переводиться в состояние {у (Ф)}™, которое в пространстве {q} удалено от точки {z {&)}*т на расстояние, не большее е° (t^ у*, zj. Если же выбрать какое-нибудь положительное число е < е° (*,, г/%, zj, то можно будет задаться таким управлением v^ (т), для которого уже we будет существовать управления ит (т), сближающего точки {у (®)}mi {z ($)}m на величину не большую, чем е. Символом Q° (^, у^ z,) мы будем обозначать множество точек q, лежащих на пересечении границ н£* (^, у^ Ф) и Я<»> (*„ z,f *) областей G{° (t^ у^ #)и№) (*#, z, ,*)* Области G(eV(^, 'y#, d), G<*> (*„, z„ О) и множество <?° (*,, Уф, zj и составляют основу экстремальной конструкции. Вернемся теперь к одной из наших исходных игровых задач из § 7, например к задаче 7.1, и прикинем, какую роль в решении этой задачи может играть величина 8°. Пусть q°— некоторая точка из множества Q] (^, у^ zj. Иначе говоря, q° — точка в m-мерном пространстве {q}, лежащая в области достижимости G<2) (^, ^, #) и в то же время — на границе области G{1} (t^ у^ Ь) (см. рис. 11.2). По смыслу величины е° (t^ у^ zj такая точка q° обязательно найдется и расстояние от этой точки до области £(l) (hi У*' *) будет как раз равно величине е° (^, у^ zj. Точка q° содержится в области GW (^, z#, 'О1), поэтому можно указать допустимое управление v = ve (x)(t^ т ^ ^ О), под действием которого система, описываемая уравнением (11.2), переходит из положения z (tM) = z^ в состояние z (Ф), характеризуемое равенством {z (Ф)}т = q°. Предположим, что второй игрок, распоряжающийся объектом (7.2), выбирает на деле при t^ ^ t ^ Ф именно такое управление v = ve It] — ve(t). Тогда в реальном движении z[t] объект (7.2) перейдет из положения z[tj = z^ в состояние {zH),]}m = g0. Какой бы ни оказалась при этом стесненная условием (7.3) реалигация и It] (^ <1 ^t<^$) управления гг, приложенного к объекту (7.1), объект этот к моменту t = d может быть переведен из положения у UJ = г/^ лишь в такое состояние у [Ф], для которого точка q = {у [$]}т обязательно содержится в области достижимости G(l) (U, г/и Ф). Но это означает, что
l6S ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [fЛ. ill при управлении v = ve It] (^ ^ t <; Ф) расстояние от точки {z [ftfym = #° до точки {у [Ъ]}т = q никак не может быть меньше, чем е° (^, у^ zj, какой бы ни была допустимая реализация u[t] (^ ^ t ^ 'О1). Таким образом, если второй игрок реализует управление v = ve It], то какие бы допустимые действия ни реализовал первый игрок, он никак не сможет добиться в момент t = ■& рассогласования ||{i/['0,]}m— {з[Ф]}т11> которое было бы меньшим, чем величина е° (^, г/ф, zj. Так как наши рассуждения годятся для любой фиксированной исходной позиции, в том числе и для начальной позиции {t0, г/0, z0}, то приходим к выводу, что в игре, отвечающей задаче 7.1, первый игрок никак не может гарантировать себе результат у лучший, чем 8° (t01 у0, z0). Следовательно, решение U0 задачи 7.1, если оно существует, должно непременно удовлетворять условию sup (Цу [Ф]}т - {z [Щ}т || | ЗС \U\ v\ t0j i/0, z0]) > 8° (*0, i/0, zj. (11.7) Итак, гипотетическое рассогласование 8° (£0, y0, z0) оценивает оптимальный результат игры из задачи 7.1 снизу. Представляется заманчивым так организовать управление и, чтобы эта нижняя оценка достигалась. Иначе говоря, заманчиво надеяться, что задача 7.1 разрешается оптимальной стратегией IP {t, у, z}, которая в (11.7) обеспечивает строгое равенство и, следовательно, удовлетворяет условию (\\{y№}rn-{zW}rn\\\&lU°, v;t0, у0, z0])<8°(*0, i/o, *о), (11.8) какова бы ни была допустимая реализация v It] управления v (и каким бы ни оказалось движение у It], порожденное стратегией U0 {£, г/, z) при осуществившейся реализации vIt]). В обозначениях из § 10 наша гипотеза изображается равенством у0 (t, у, z) = е° (t, у, z). Предположим на время, что эта надежда действительно оправдывается (строгий разбор данного вопроса приведен ниже, в § 16), и посмотрим, какими свойствами должны тогда обладать реализации и [t] управления и, порождаемые
§11] ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ 109 оптимальной минимаксной стратегией U° {t, у, z}. Итак, пусть в момент t = tM реализовалось состояние y[t#] = y^ z UJ — z^ которому мы сопоставляем конструкцию, складывающуюся из областей GiV (t^ у*,®) и G(2) (^, zm, ft), определяющих величину e°(^'^,zj. Предположим, что в течение некоторого малого полуинтервала времени t+ ^ t < ^ + А £ ==■ t* <; ft второй игрок придерживался введенного выше допустимого управления v = г;е [t], которое будучи продолженным! на весь отрезок ttt <J £ ^ ft в виде допустимой функции ve(t), привело бы движение (7.2) в состояние {z(ft)}m = = q° ЕЕ 0°- О таком управлении ve [t] (^ ^ t < Г) будем говорить, что оно нацеливает движение z Ы на точку {z (ft)}m = <7° (на полуинтервале t^^ t <. f). ^Первый игрок пусть придерживается оптимальной стратегии U0 {t, у, z}, которая продиктовала ему на полуинтервале tt ^ t < t* реализацию ич It] управления и. Под действием этих управлений и^ U] и ve It] движения у It] и z [t] приводятся в какие-то состояния у It*] = у*, z [f] = z*. Новой реализовавшейся позиции {£*, г/*, z*} мы опять сопоставим области достижимости G^> (Г, у*, ft), Cf(2) (£*? z*, ft) и найдем новое гипотетическое рассогласование е° (t*, i/*, z*), как наименьшее значение е > 0, при котором обеспечивается включение G(2)(ri^,ft)c:G(e1)(f, /,*). (11.9) Посмотрим, как деформируются области G(i) при переходе от старой позиции {^, z^, zj к новой позиции {Г, у*, z*}. Прежде всего из определения понятия области достижимости немедленно вытекает, что должны выполняться включения G(i) (t\ w^\ О) о G(i) (*„ иК*)ф1 ft) (i = 1, 2), (11.10) то есть за время At^>0 области G& деформируются, стягиваясь только внутрь. Здесь и№ = у и г//2) = z. Далее, мы знаем, что управление ve It], будучи продолженным на отрезок It*, ft] в виде функции ve (t), привело бы движение (7.2) в состояние {z (ft)}m = g° g=(?°. Но это означает также, что допустимое управление г>=г?е(т)
НО экстремальная Конструкция [гл. lit (f <1т^#) переводит движение z (т) (И.2) из положения z \f) = z в состояние {z ($)}m = q°. Таким образом, выбранная вторым игроком точка нацеливания q = = q°(E.Q° (£+, y^, zj, остается в новой области достижимости G&) (t*, z*, Ф) (ибо, как мы видели, существует Рис. 11.3* допустимое управление v = ve (т) (t* <! т ^ Ф), переводящее движение z (т) из положения z (t*) = z* в состояние (z(#)}m = g°). Следовательно, область 6г<2> деформируется, вообще говоря, сжимаясь внутрь, но сохраняя в себе неизменную граничную точку q° (рис. 11.3). С другой стороны, для области G-M выполняется включе-
§ 111 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ 111 яие (11.10). Отсюда вытекает, что при v=ve[t] (^ ^ t< О новая величина 8° (Г, г/!, z*), которая не меньше, чем расстояние от точки q° <= #(2> (Г, z*, Ф) до области G(1) (£*, у*, Ф), должна непременно удовлетворять неравенству е°(Л»*, О>е0(^^О- (11И) В частности, если управление #=veU], нацеливающее движение z [t] на точку q° ее (?° (*0> #o> *о)> выбрано, начиная с момента t — t0 на весь отрезок U0, О], то как бы ни действовал первый игрок, будет выполняться неравенство 8° (*, у U], Z[t\) > 8° (*0, l/0, Z0). (11.12) Изучим теперь подробнее деформацию области G^\ а с ней вместе и деформацию области 6г(1)еч<*, г/*, г*) (при неизменном пока значении е° (t0, ущ, zj). Предположим сначала, что на полуинтервале ^ ^ t <С f оптимальная стратегия £7° {£, у, z) реализовала такое управление и = ю# U], которое никак нельзя продолжить в виде допустимой функции и = и (t) на остающийся отрезок времени [f, Ь] таким образом, чтобы для всего отрезка К ^ t <^$ получилось управление и, переводящее движение у (t) (7.1) из положения у UJ = у^ в состояние {У (Щт = ?* где \q — g°| = е° (*,, ^, zjf. Иначе говоря, предположим, что реализовавшееся . управление и — и^ [t] (^ ^ t< f) никак нельзя распространить на весь отрезок (^ <1 t <1 'О1) до управления up (t) (t^^ t ^ Ф) вида (11.4) (где т = £ и 8 = е° (^, г/^, zj), которое переводило бы движение у (7.1) из положения у UJ = ^ в состояние {г/ ('&)}m = д°. (В противном случае мы говорили бы, что управление и^ [t] (t^^t<C t*) е°-нацели- вает движение у [t] на точку q° (на полуинтервале [^, t*)). Теперь же скажем, что управление и^ [t] на полуинтервале U#, f) не является е°-нацеливающим на точку q°.) Но такое наше предположение будет означать, что точка q = q° больше уже не будет содержаться в области £$**,?'•, z*) (**> У*»*) (и^° не будет существовать допустимого /-управления ир (т) (Г < т < д), ||р|| < 8° (^, г/^, sj, которое переводило бы движение у (т) (11.1) из положения у (f) = у* в состояние {г/ (Ф)}т = ?° (рис. 11.4),
112 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III Однако, поскольку точка q° содержится в области G№ (t , 2*, Ф), мы должны заключить, что эта область GW(t*, z , Ф) теперь уже не будет умещаться в области @*чи, ?/*, zj (£*, у*, Ф). Иначе говоря, мы должны заключить, что будет справедливым строгое неравенство e°(f, гЛО>в°(*.,у.,*.)- (II-13) Но это невозможно и противоречит принципу неухудшения позиции, если верно предположение о том, что 7° Рис. 11.4. оптимальная стратегия U° {t, у, z) обеспечивает результат игры не худший, чем у = е° (^, у^ zj (по условиям задачи 7.1 позицию {^, у^ zj мы можем считать начальной позицией {t0, у0, z0}). В самом деле, если бы выполнилось неравенство (11.13), то согласно предыдущему (см. выше стр. 109—111) второй игрок, начиная с момента t= t*, мог бы на отрезке £* <! t^ft выбрать такое допустимое управление v = ve (/), которое обеспечило бы ему неравенство I! {У WU - {z №}т | > е° (t\ у*, О > е° (*., y„ zt), как бы при t ;> t* ни действовал первый игрок. Таким образом, мы приходим к следующему выводу. Вывод 11.1. Если только в игре из задачи 7.1 существует оптимальная минимаксная стратегия U0 {£, у, z},
§11] ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ ИЗ которая обеспечивает неравенство (11.8), то она непременно должна обладать следующим свойством: на всяком полуинтервале ^ ^ t < £*, где второй игрок будет реализовать управление v=ve[t], нацеливающее движение z [t] (на этом полуинтервале ^ < ^ < f на точку q° Ez (?° (**, УФ, z#), оптимальная стратегия £7° {£, г/, 2} должна диктовать такую реализацию и, Ше<й°(*.»[*]* МП) (*,<*<0 (И-14) управления и, которая е° (^, i/^, zj-нацеливает движение I/ U] (на полуинтервале tt^ t< t*) на ту же точку q°. Только в этом случае оценка позиции {^, у^ zj величиной е° (^, z/A, zj не будет противоречить принципу неухудшения позиции при выборе оптимальной стратегии £7°. Важно подчеркнуть, что это условие должно выполняться на любом, сколь угодно малом полуинтервале времени ^ ^ t < f. Теперь из данного условия нам, рассуждая за первого игрока, надлежит попытаться извлечь полезные соображения, которые подсказали бы способ эффективного построения оптимальной стратегии U° {t, у, z). При этом будем учитывать следующие обстоятельства. (1°) Мы должны найти в реализовавшейся позиции {**> У*-> *Л оптимальную реализацию и [tj управляющего воздействия и, которое надлежит приложить к объекту (7.1) в данное мгновение ^. (2°) Нам известна реализовавшаяся в этот момент tt позиция {^, у^ z#}, но мы не знаем, какое управляющее воздействие v=v[tj реализует в данный момент tM второй игрок. При этом нельзя не считаться с тем, что он, возможно, задумал реализовать управление v=v[t], которое на ближайшем полуинтервале времени tj^ t<C £„+ + At будет нацеливать движение z [t] на точку q° ЕЕ: В таких обстоятельствах, учитывая вывод 11.1, нам следует, очевидно, при выборе управления и UJ обеспечить е° (^, у^ zyнaцeлuвaнue движения у [t] на ту же точку q°. Однако такое е°-нацеливание было определено выше лишь для управления и It] (или v It]), работающего на полуинтервале U#, Г), где f ]> t^. Теперь придется
114 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III определить это свойство для одного-единственного мгновения t = t^ ибо, зная позицию {^, у^ zj, нам надо ведь (и мы можем только) определить управление и UJ лишь в данный момент t = ^. Увы, перенос нужного нам определения нацеливания на точку q° от целого полуинтервала £+ ^ t < t* на одно мгновение ^ очевидным образом не осуществляется, так как значение управления и (или г;) в одной-единственной точке t = t^ вообще ничего не решает: каким бы ни было управление и = и UJ (или v = = v It J), его всегда можно продолжить на полуинтервал ^ <С t ^ ft так, чтобы привести движение у It] (или z (t)) в любую точку q из области достижимости G(1) {t^y^ ft) (или из области достижимости GW (^, ^, ft) соответственно). Тем не менее оказывается, что и для одного-единственного мгновения t = tt можно довольно естественным образом определить условие прицеливания движения у [t] (z [t]) в момент t = ^ на ту или иную точку {У (*)}т= Я ({z {ft)}m= Я), лежащую на границе области достижимости GM (г+, г/+, ft) (или G^ (£+, z#, ft)). Это условие формулируется в следующем параграфе в процессе дальнейшего обсуждения экстремальной конструкции. Подытожим этот параграф. Мы построили в нем основные элементы экстремальной конструкции: области G%mt y„, z,) (*ft, уА,"Ф), G<2> (*#, z„ ft) и множество @° U*> У*ч О* Высказали гипотезу, что оптимальная минимаксная стратегия £7° {t, г/, z}, разрешающая задачу 7.1, обеспечивает неравенство (11.8). Обосновали вывод 11.1 и на этом основании перешли к обсуждению вопроса о построении искомой стратегии £7° {t, у, z}. Наши рассуждения создали потребность дать подходящее определение условия е°-прицеливания для движения у It] в момент t = ^ на точку {у (ft)}m = q° EEQ°. Это условие прицеливания и предполагается положить в основу оптимальной стратегии U° {t, у, z). Примечание 11.1. Мы обсудили минимаксную задачу 7.1 и пришли к выводу, что в предположении у0 (t0, у0, zo) = — е° (*о> 2/о> zo) оптимальная минимаксная стратегия U° {£, у, г} должна вырабатывать управление и [t], которое е°-прицеливает движение у [t] в точку q° ЕЕ Q° (t, у [t], г [t]). Точно так же, рассматривая максиминнуш задачу 7.2, можно опять в предположении
§ 12] ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ Ц5 у° {к, 2/о> z0) = 8° (*о* 2/о> 2о) прийти к выводу, что, по-видимому, наиболее рациональный выбор управления v[t], диктуемый оптимальной максиминной стратегией V0 {£, у, г}, снова должен исходить из условия прицеливания движения z [t] в точку q° 6E Q° (t, y[t], z [t]). Следует, впрочем, заметить,что здесь уже гтот вывод не будет носить столь же категорического характера, как вывод 11.1 в случае игры из задачи 7.1. Соответствующие рассуждения мы предоставляем читателю в качестве упражнения. Упражнение 11.1. Обсудить изменение экстремальных элементов G^ (t, z [t], О) и G(eV/f ?/m z mj (t, у [t], $ ) при изменении позиции {t, у [t], z[t]}, в связи с игрой из задачи 7.2, задаваясь при этом различными реализациями и [t]nv [t], отличающимися по характеру нацеливания движений у [t] и z [t] в различные точки {у{®))т — Я и {z($)}m = g из соответствующих областей достижимости G(1)(*, У Ul ft) и G&(t, z[th О). § 12. Экстремальное прицеливание В настоящем параграфе формулируются условия прицеливания управляемых движений у [t]wz It] (в момент t) на множество (?° (£, у [t], z It]). Это множество, которое, как мы помним, является пересечением границ Н^ иЯ(2) областей достижимости G%, ?/[*], z[*]) (t, у It], Ф) и G(2) (t, z [t], Ф), будем именовать областью прицеливания. Начнем с наглядных представлений. Как и в § И, зафиксируем некоторую позицию {^, г/^, ^} и сопоставим ей экстремальную конструкцию. Пусть е° (^, г/л, zt) ^> 0. Выберем какую-нибудь точку q° из области прицеливания Q°(t^ у#, zj. Через эту точку д°, лежащую на границе области G^ (^, ^, -О1) в пространстве {#}, можно провести гиперплоскость 35 (/°), касательную к поверхности ^} (**>£/*> ^) и ортогональную к некоторому единичному яг-мерному вектору /°, являющемуся внешней нормалью к поверхности Н§* (рис. 12.1а). Возможны две ситуации. I. Ситуация. Множество Q° (tt, y^, zj целиком лежит на гиперплоскости X (1°). Эту ситуацию, изображенную на рис. 12.1а, назовем регулярной. II. Ситуация. Множество Q° (^, г/А, zj не умещается целиком на одной гиперплоскости X (1°) и, следовательно, оно содержит точки q, лежащие вне этой гиперплоскости. Такую ситуацию, изображенную, например, на рис.12.16, будем называть нерегулярной.
116 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. Ill -Х(1в) Рис. 12.1а. 0(1) Рис. 12.16.
I 12I ЭКСТРЕМАЛЬНОЕ ГФиЦЕЛЙВАЙИЁ Ц7 На первых порах мы займемся только регулярными ситуациями. Согласно материалу из Приложения (см. § 49, стр. 410) оптимальное программное р-управление ир (т) = ие (т) + Л-Ре§ (f — ^) (^ ^ т ^ Ф), которое переводит движение (11 Л) из положения г/(**) = 2/* в состояние {у ($)}т = = q° ЕЕ Я^ (см. рис. 12.1а), подчиняется условию принципа максимума sd>' (т) ие (т) = max sW (t) и, (12Л) uewT s<1)'(«)pe= max sW (#)/?, (12.2) llPlKe" где s (т) — га^-мерная вектор-функция, удовлетворяющая уравнению <£—.-А<*{х)& (12.3) и краевому условию s<1.)W = [o], (12.4) причем символ в правой части (12.4) изображает га^-мерный вектор-столбец, первые т координат которого суть координаты вектора Z0, а остальные (тг(1)— т) координат суть нули; верхний индекс штрих означает транспонирование, поэтому символ s' означает вектор-строку (см. замечание в начале § 42, стр. 370). Напомним еще, что п№ — это размерность вектора у. Именно соотношение максимума (12.1) мы и положим в основу нужного нам условия прицеливания в область (?° (**i У*1 z*)- Дадим соответствующее определение. Определение 12.1. Скажем, что управление ц UJ = щЕ=. %^ъ момент t = ^ < ft г°-прицеливает движение у It] (7.1) в область Q0 (^, у^ zj, если оно удовлетворяет условию максимума sCi>'(*jue = max s№(tju, (12.5) где s (т) (£„ <! т <! д) — вектор-функция, определенная соотношениями (12.3), (12.4).
118 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. Ill Примечание 12. 1. Данное определение имеет пока совершенно формальный смысл. Его содержательная полезность выяснится в § 16, где обосновывается решение задачи из § 7. Условие (12.5) из принципа максимума мы привлекли затем, чтобы условие прицеливания движения у [t] на точку д° £Е Q0 как-то (пока формально!) перенести с конечного полуинтервала [**, t*) на одно-единственное мгновение £*. Напомним, что для полуинтервала t < т < t* условие максимума (12.1) имеет строгий содержательный смысл: это есть необходимое условие, которому должно удовлетворять оптимальное управление ие (т) при почти всех значениях xel^.f) (см. § 49, стр. 411). Из-за слов «при почти всех значениях т» этот содержательный смысл необходимости условия (12.1) для решения ие (т) вспомогательной задачи об оптимальном управлении при переходе к одному-единственному мгновению т = ^ утрачивается, но зато при t = t* соответствующее условие (12.5) приобретает новый полезный смысл, определяя, как мы увидим в § 16, оптимальную стратегию [/° = /7С, назначающую наилучшие реализации управления и [t ] в игре из задачи 7.1. Заметим еще, что приставку 8° в термине е°-прицеливание мы позволим себе, как правило, опускать, если не надо будет почему-либо сделать на ней акцент. Следует обратить внимание на два обстоятельства. (1) В регулярной ситуации, которая нас здесь интересует, мы действительно имеем право (формальное) именовать соотношение (12.5) условием прицеливания в область ч?° U*» У*ч z*)i ибо в этом случае вектор s (tj для любой точки q° из Q0 (^, г/^ zj) оказывается одним и тем же. (2) Условие (12.5) определяет, вообще говоря, не один- единственный вектор ие из %t^ а целое множество %e(t^ у^ z0) таких векторов. Аналогичным образом определяется и условие прицеливания движения z [t] в область (?°. Сконструируем это условие. Оптимальное программное управление ve (т) (^ ^ <1т < Ф), которое переводит движение z (т) (11.2) из положения z (tj) = z+ в состояние {z (ft)}m = }° G Ж2) (см. рис. 12.1а), подчиняется условию максимума (§ 48, стр. 405) s<2>' (т) ve (т) = max s^'v (*,< t< #), (12.6) ибГт где s<2) (т) — ^-мерная вектор-функция, удовлетворяющая уравнению JP- =_4(3>'(t)S(2) (12.7) Ч
g 12] ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ 119 и краевому условию (12.8) (причем п^ — размерность вектора z). В соответствии с этим примем следующее определение. Определение 12.2. Скажем, что управление v [tj = v^ ЕЕ %ri^ в момент t = ^ < 'О1 прицеливает движение z U] (7.2) в область Q0 (^, г/^, zj, если оно удовлетворяет условию максимума &y(t)Ve= max sW (*ф) у, (12.9) '* где s(2) (t) (^ ^ r <! d) — вектор-функция, определенная соотношениями (12.7), (12.8). По поводу этого определения надлежит сделать такие же замечания, какие были высказаны выше в адрес определения 12.1, однако с той разницей, что управление v It J = ve (12.9) будет исполнять главную роль уже в игре из задачи 7.2. Выбор управлений и UJ = ие и v UJ = ve из условий (12.5) и (12.9) при е° (tm, у^ zj >0 мы будем именовать экстремальным прицеливанием, которое определит экстремальные стратегии. Дадим определения этих стратегий. Определение 12.3. Пусть для всех возможных позиций {t, у, z) (t0 <1 t<C$), для которых справедливо неравенство е° (t, у, z) ^> О, имеет место регулярная ситуация. Тогда экстремальными назовем те стратегии Ue и Уе, которые (в соответствии с материалом из § 6) определяются множествами %е (t, у, z) и V е (t, у, z) следующего вида: (1°) если 8° (^, у^ zj > О, то множества % {tm, y^ zj и We (*+, у^ zj складываются соответственно из всех векторов ие и ve, удовлетворяющих условиям (12.5) и (12.9); (2°) если же е° (*,, у„ zj = О, то ««('•■ ?.,*.)==%. и «М*.. ».•*.) = «\- Иначе говоря, экстремальные стратегии — это такие стратегии, которые в каждой реализующейся позиции
120 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. Ill {t, у [t], z It]}, где e° (t, у [t], z U]) > 0, определяют воздействия U [t]^ % (t,\y It], Z [t]), V [t] e Ve (t, У It], Z [t]), Рис. 12.2. прицеливающие движения у It] и z It] в момент t в область Q°(t, у It], z[t]). Вектор 1°, вектор-функции s^ (т) и № (т) (t^ ^ т ^ О) и множества %е (t^, уч, zj) и We (t<, у^, zj мы также включим теперь в экстремальную конструкцию. Таким обра-
§ 13] СВОЙСТВА ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 121 зом, в регулярной ситуации при е° (t^ у^ zj > 0 эта конструкция окончательно складывается из следующих элементов: из областей достижимости G<2) и G(eo\ области прицеливания Q0, вектора Z0, вектор-функций s(1) (т) и 5(2) (Т) и множеств % и Ve (рис. 12.2). Для эффективного построения экстремальных стратегий и для исследования их свойств требуется уметь находить вектор 1° (tm, у^ zj как функцию от позиции {^, ул, zj. Обсуждению этого вопроса, связанного с общими свойствами экстремальной конструкции, посвящен следующий параграф. Упражнение 12.1. Построить экстремальную конструкцию для системы 2 из § 2, задаваясь различными значениями Ф > t § 13. Свойства экстремальной конструкции В этом параграфе выводятся некоторые основные соотношения, характеризующие экстремальную конструкцию. Запишем сначала неравенства, которые задают области достижимости 6ге и G&K Зафиксируем снова некоторую позицию {^, у^ z^}. Рассмотрим [движение у (т) (^ ^ т <; Ф), описываемое уравнением (11.1) и удовлетворяющее начальному условию у (tj) = у^. Если бы на отрезке ^ ^ т ^ О управляющее усилие и совсем не прилагалось, то есть если бы в уравнении (11.1) было и (т) = 0, то к моменту т = д движение у (т) пришло бы в состояние {У° («)}« == \Y (Ф, *.) у. + ^ F (*, г) /(1> (г) dx\ = = {»"('.. у., *)U (13.1) как это следует из формулы Коши (см. Приложение, § 42, стр. 370). Здесь Y (т, т0) — фундаментальная матрица решений уравнения %=АЩт)у.
122 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. Ш Согласно той же формуле Коши воздействие и (т) приводит движение у (т) к моменту т = Ф в состояние {У(в)}т = {1Р(К,У.,Ъ)}т+-\\г(Ъ, x)u(x)dx\ , (13.2) вызывая, таким образом, в пространстве {q} дополнительное ЫЫУт <У°(»)}т Рис. 13.1. смещение {Аг/}т точки q = {у (Ф)}т, описываемое вектором (рис. 13.1) {А»}т=Кг(*, x)u(x)dx\ . Зададимся теперь каким-нибудь единичным т-мерным вектором I и оценим максимальное смещение о(Р точки q = {у ($)}т в направлении вектора Z, которое только можно осуществить выбором допустимого управления и (т), стесненного условием (11.3), то есть условием и(х)ЕЕ%т Очевидно, для того чтобы найти величину а/Х), надлежит составить скалярное произведение V {у {&)}т и выбрать управление и (т) = щ (т) из условия максимума этого произведения. Поэтому согласно (13.2) получим ep> = max V {у (Щт = V {*/> (*„ уш% ®)}т + + max ($ Г {У (ft, т)и(т)}тл) =
§ 13] СВОЙСТВА ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 123 Искомый максимум действительно достигается на некоторой интегрируемой функции щ (т) ЕЕ %х (см. Приложение, § 44, стр. 379, и § 48, стр. 400). Рис. 13.2. Последнее слагаемое в правой части этого равенства мы обозначим символом pW (^, д, V). Величина p(D(r,ft, Z) = max (\l'{Y($,T)u(x)}mdx) (13.3) определяет, следовательно, то максимальное возможное отклонение V {Аг/}т точки q= {у ($)}т от точки q = = {у0 ($)}ш в направлении вектора Z, какое только можно осуществить за счет выбора допустимого управления и (т). Точку #, в которую к моменту т = ■& движение {У (т)}т переводится управлением щ (т), обозначим символом qx (рис. 13.2). (Следует иметь в виду, что условию (13.3) может удовлетворить не одно управление и = щ (т) и, более того, может получиться не одна точка #;.)♦
124 экстремальная конструкция [гл. ш Очевидно, точка qx лежит на границе Я^> области достижимости G(1) {t„ у^, Ф). Через эту точку q = qx проведем гиперплоскость X (I), ортогональную вектору I. Она будет описываться уравнением ор> - Vq ^ 0. (13.4) Ясно, что область G№ (t^ уф, Ф)не может содержать точек q, которые были бы сдвинуты за гиперплоскость X (I) в направлении вектора I. Всякая точка q из G№ (t^ уф,Ь) удовлетворяет неравенству a(i) _ Гд > 0 или в подробной записи неравенству Р<1) (*., Ф, I) + V {f (*,, у., Щм - Vq > 0. (13.5) Гиперплоскость X, обладающая перечисленными свойствами, называется опорной к области G^\ а множество точек #, которые удовлетворяют неравенству (13.5), составляет опорное полупространство для области С?*1* (отвечающее вектору I). Итак, область GM (t0, у^ О) содержится в своем опорном полупространстве (13.5). Но подобные рассуждения можно провести для любого единичного m-мерного вектора Z. Стало быть, область GW (£ф, г/д, Ф) лежит в пересечении всех своих опорных полупространств (13.5), отвечающих всем возможным значениям единичного вектора I. Таким образом, если точка q лежит в области G(1)(**> У*, Ф)» то она необходимо удовлетворяет неравенству (13.5), каков бы ни был единичный вектор L Возникает обратный вопрос: если некоторая точка q удовлетворяет неравенству (13.5) при любом выборе единичного вектора Z, то следует ли отсюда, что эта точка q содержится в области QW (t^ у^ О)? Иначе говоря, возникает вопрос: совпадает ли область GW (£ф, у^ Ь) с пересечением всех своих опорных полупространств (13.5)? Это уже не совсем простой вопрос, для решения которого приходится привлекать довольно серьезный математический аппарат из теории функций. В результате (см. Приложение, § 48) ответ на данный вопрос оказывается
§ 13] СВОЙСТВА ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 125 положительным. Именно, согласно материалу из § 48 справедливо следующее утверждение. Область достижимости GW (^, у^, ft) является выпуклым замкнутым множеством, которое описывается неравенствами (13.5): точка q тогда и только тогда содержится в области С?(1) (^, у^, ft), когда она удовлетворяет неравенству (13.5) при любом выборе вектора I. Точно так же область достижимости б<2)(*#1 z,, ft) для движения [z (т) (11.2) при ограничении (11.3), являющаяся выпуклым и замкнутым множеством, описывается неравенством • р<«> (*„ ft, I) + V {z» (t,, z„ ft)}m - Vq > 0. (13.6)1 Здесь z° (*., *., ft) = Z(ft, О z^ + JZ(ft, t)/(2) (t) dt, (13.7) причем Z (t, t0) — фундаментальная матрица решений для уравнения а символ р<*> (^, ft, Z) обозначает величину р<«(*.,0, 0= max (0'{Z(«fT)i;(T)}mrfA (13.8) Неравенства (13.5) и (13.6) и составляют ту базу, на основе которой вычисляются элементы экстремальной конструкции — гипотетическое рассогласование е° (^, у^ zj, область прицеливания Q° (^, у^ zj и управления Щ UJ, ^ tU> реализующие экстремальное"прицеливание. Выведем оценку для величины е° (^, у^ zj. Теперь уже мы будем исходить не из наглядных соображений, а непосредственно из неравенств (13.5) и (13.6), строго описывающих области достижимости G^K От наших несколько формальных рассуждений мы будем по ходу дела возвращаться к наглядным соображениям уже только для иллюстрации, поясняя геометрический смысл получающихся соотношений.
126 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III Выберем какую-нибудь точку q = q^ лежащую на границе Ш2) области G<2) (^, z#, ®). Тогда обязательно найдется единичный вектор 1 = 1*, удовлетворяющий равенству Р(2) (*., #, К) + I'* {2° (<„ *., О)}» - /Л = 0. (13.9) Докажем это. Поскольку точка q^ содержится в области G<2) (^, z^ Ф), она удовлетворяет неравенству (13.6). Но если бы при q = qt в (13.6) выполнялось строгое неравенство для всех единичных векторов Z, то такое неравенство выполнялось бы для всех векторов I также и при выборе любой точки q из некоторой, достаточно малой окрестности <7#. А это невозможно, ибо точка q^ лежит на границе Я<2> области G<2> (t^ z+, ■&). Полученное противоречие и доказывает существование вектора I = Z^, который удовлетворяет равенству (13.9). Обратно, для любого единичного вектора I = 1^ найдется точка q = q^ которая содержится в области G(2) (^, z#, Ф) и для которой справедливо равенство (13.9). Для проверки этого утверждения достаточно повторить то, что говорилось выше при оценке области (?(1) (^,у„, Ф) (см. стр. 121—125). Именно, следует векторное равенство {Z (0)}да = {** (*., z„ *)}те + J {Z (*, t) р (Т)}да dX и умножить слева на вектор-строку Z/ и получить соотношение К U (*)}», = К (2° (*., *., Щт +\l'.{Z (*, t) V (Т)}тЛ, из которого следует, что допустимое управление v (т) = = К (т) (** ^ т < ^)» найденное из условия & в ^ l[ {Z (Ф, т) *, (T)}mtfT = max ft Г {Z (Ф, т) у (t)}mdt) - (и такое управление у, (т) существует (см. стр. 123)), приведет движение {z (т) }т в нужную нам точку q = qtE:
§ 13] свойства Экстремальной конструкций 127 Напомним геометрический смысл равенства (13.9). Единичный вектор I = 1Л есть вектор внешней относительно области G(2) (^, z#, #) нормали к гиперплоскости 2£ (ZJ, опорной (касательной) к этой области &(2) Рис. 13.3. G(2> (*,, 2Ф, 'О1) в точке q = q4 (рис. 13.3). Гиперплоскость % (ZJ в пространстве {q} описывается уравнением Р'2) («., *. У + Ч*° (*., *., #)}т - Uq = О, аналогичным уравнению (13.4). Перейдем теперь к описанию областей G& (*„, y^ Ф). Согласно материалу из Приложения (см. § 49, стр. 407) область Се (£+, у^, Ф) описывается неравенством е + рО> (*., О, 0 + Г {I/0 (*., </*, 0)}то - Г« > 0, (13.10) которому удовлетворяет каждая точка q из G^ (К, J/»» $)> каков бы ни был единичный m-мерный вектор I. Обратно, если некоторая точка q из m-мерного пространства {q} удовлетворяет неравенству (13.10) при всех возможных значениях яг-мерного единичного вектора Z, то q£E G{P (f,, У^$)- Здесь вектор г/° (^, г/^, д) снова изображается равенством (13.1). ОбластиG(P (t^ yA, д) при е > 0 мы условились трактовать (см. § И, стр. 104—105) как области достижимости для движения у (т) (11.1) из состояния у (tj) = ym к моменту т = Ф, когда допустимы программные р-управления ир (т) (11.4), удовлетворяющие условиям: на полуин-
128 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III тервале ^ ^ т < Ф воздействия ггр (т) описываются интегрируемыми функциями и (т), которые стеснены условием u(x)Ez% (**<*<#)> а в момент т = йк этим воздействиям добавляется мгновенный импульс р произвольного направления, но по абсолютной величине не больший, чем е. Этот импульс Рис. 13.4. описывается при помощи дельта-функции (рис. 13.4) ^ (т) =/>6(т-#)(!> || <е). Тогда соотношение (13.10) приобретает тот же самый смысл, что и соотношение (13.5), ибо при ||/|| = 1 имеем = max (ll,{Y(^x)up(x)}mdx). Теперь совершенно очевидно, что область GW (^, z^ Ф) поглощается областью G(ex) (^, у^ Ь) (то есть выполняется условие (11.6)) тогда и только тогда, когда для каждой точки д, которая при всех / (||Z|| = 1) удовлетво-
§ 13] СВОЙСТВА ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 129 ряет неравенству (13.6), при всех таких Z выполняется также и неравенство (13.10). А для этого в свою очередь необходимо и достаточно, чтобы выполнялось неравенство е + р« (*„ О, I) Н- V {У0 (*., У., *)}т - - Р(2)(*., Ф, I) - *'{*„(*., yt, O)}m>0, (13.11) каков бы ни был единичный вектор Z. Проверим справедливость этого утверждения. Пусть (13.11) выполнено для всех единичных векторов Z. Возьмем произвольную точку q из области G<2) (^, z*, Ф). Для этой точки при всех значениях I выполнено неравенство (13.6). Но тогда точка q будет и подавно удовлетворять неравенству (13.10) также при всех Z, ибо по условию (13.11) при каждом Z сумма первых трех слагаемых в левой части (13.10) не меньше, чем сумма первых двух слагаемых в левой части (13.6). Однако выполнение для точки q неравенства (13.10) при каждом Z означает, что q ЕЕ G £l) (^, у^ д). Таким образом, достаточность условия (13.11) для поглощения области G<2> (t0, z^ Ф) областью G^ (t^ г/#, О) доказана. Проверим необходимость условия (13.11) для выполнения условия (11.6). Предположим, что при "некотором 1=1* неравенство (13.11) нарушается, то есть предположим, что справедливо неравенство в + PW (*., *, ZJ + I'jy0 (t„ ** Щт - -р(2)(г„ *, К)-1'Л*0(К> *., ^)}m<0. (13.12) Выберем точку q =q^ лежащую на границе #<2> области G^ (^, z^ д), для которой как раз справедливо равенство (13.9) при данном 1^. Мы знаем, что такая точка qm в области Сг<2> (^, z^ Ф) обязательно найдется. Выбранная точка q^ однако, в области G^ (t0i у^ Ф) лежать не может, ибо -из (13.9) и (13.12) следует неравенство е + p(i) (*., в, lm) + Zl & (*,, уф9 #)}m - Z>,<0, которое противоречит условию (13.5). Итак, при нарушении условия (13.11) область GW (^, z^ Ф) областью ^ * (**> У*> ®) не поглощается. Тем самым доказывается 5 Н. Н. Красовский
130 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. Ill необходимость этого условия для осуществления включения (11.6). Геометрический смысл условия (13.11) таков. Область £(2) {t*, z^ §) поглощается областью б(е1} (t^ ут, #) тогда и только тогда, когда каждое опорное полупространство области б<2> содержится в соответствующем опорном полупространстве области G[l\ отвечающем тому же Рис. 13.5. самому вектору I. Стало быть, имеет место следующая картина. Выберем какой-нибудь единичный (любой) вектор I и рассмотрим в пространстве {q} параллельные гиперплоскости Х^ (I) и S$P (Z), опорные (касательные) к областям б<2> (tm, z^ О) и G[2) (t„ у^ ft) и такие, что вектор I является нормалью к этим гиперплоскостям, внешней по отношению к областям б(2> и б! • Тогда условие (13.11) означает, что гиперплоскость Х^ (I) либо совпадает с гиперплоскостью Хе {I) (если при данном I в (13.11) выполнено равенство), либо гиперплоскость 55<а> (Z) сдвинута относительно гиперплоскости Х(1) {I) в направлении, противоположном направлению вектора I (если при данном I в (13.11) выполнено строгое неравенство) (рис. 13.5). Итак, мы выяснили, что неравенство (13.11) доставляет необходимое и достаточное условие для поглощения
„ 13] СВОЙСТВА ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 131 (И.6) области №>(*,, zt, #) областью Gj° (tt, y„ Щ. Но это означает, что гипотетическое рассогласование е° (К' У»> z*)есть наименьшее число е ^> 0, удовлетворяющее условию (13.11), то есть условию е >р<« (*.,*, U-Р<>> («..*, О+ + l[({Z°(t„ Zm, &)}т-{УЧК, У», #)}т), которое удобно записать в такой эквивалентной форме^ е > max [р<2> («., д, /) - р« (*., d, I) + + Г ({2°(*„ г., 0)}т - {г/°(*„ у„ *)}т)]. Отсюда следует, что искомая величина^е0 (£., у,, zj определяется равенством е° (*., У,- *.) = max [р(») (*., ф, /) - рО) («., О, /) + + Г ({«• (*., г., fl)}m - {г/> (*., г,,, *)U], (13.13) если правая часть этого равенства положительна, иначе е° (*., у„ О = 0. Теперь в соответствии с материалом из § 12 мы разграничим два возможных случая, которые охарактеризуем следующим определением. Определение 13.1. Скажем, что имеет место регулярный случай, если для всех позиций {^, уА, z%}, которые могут встретиться в рассматриваемой игре и для которых 8° (tm, у^ zj) ^> 0, максимум в правой части (13.13) достигается на единственном векторе I = 1° (*ф, у^ zj. Иначе скажем, что случай нерегулярен. Для того чтобы установить связь этого формального определения с тем наглядным определением регулярности, которое было введено в § 12 (см. стр. 115), мы посмотрим теперь, что можно сказать в регулярном случае о строении области прицеливания Q0 (^, у^ zj. Пусть Я = q* — какая-то точка из области прицеливания Q° (**i У*» О- По определению множества Q0 точка ^ лежит на границе #<2> области G<2> (t0, £„,#). Поэтому существует множество {/,,} единичных векторов 1^ которые удовлетворяют равенству (13.9). Но точка qt лежит и на границе Н$ области С$ (*„, уф, ф). Значит, найдется 5*
132 экстремальная конструкция [гл. ш также единичный вектор Г, который удовлетворяет равенству в° + р«(*., О, Г) + Г {y°(tt, yt, 0)}m_ Г?, - 0, (13.14; аналогичному равенству (13.9), но составленному теперь для области GgV. При е° ^> О единичный вектор Z*, удовлетворяющий условию (13.14), единствен. Покажем это. Примем от противного, что условию (13.14) удовлетворяют два различных единичных вектора № и №. Складывая тогда соответствующие равенства, мы получили бы соотношение 2е» + p(i) (*., d, lw) + р(1) (*., *, Z(2)) + + [Z(1) + Z(2)]' {у0 (*., у„ Ъ)}п - [lw + l(2)Y g, = 0. (13.15) Функция рМ (f, d, Z) обладает свойством (см. Приложение, § 45, стр. 381) Pu> (*., *, *<»> + Р<г) (*„ о, z(2)) > р(1) (г., о, Я + z<2)). Следовательно, из (13.15) следует неравенство 2eo + p(i)(^ *, Z(1)+ Z(2))+ [Z(1)+ 1(2)]'{уЧК, У.. Пт- - [Z(1) + Z(2)]'g,<0. (13.16) Из этого неравенства вследствие условия р<х> (^, О, 0)- = 0 (см. (13.5)) вытекает, что № =j= — №К Но в таком случае можно составить единичный вектор 1^ = = [Z(D + Z(2) ]/|| *(1) + Z(2) ||. Учитывая далее, что при а > 0 имеем р(1)(^, #, aZ) = ар^> (*„ Ф, Z) (см. опять § 45, стр. 381), мы из (13.15) выведем еще одно неравенство „jw + iffl/ + р(1)('*' *' z**> +'«^°('*' »•■ *)}- - ^-<°- Так как 2/|| /О) + Z<2> || > 1 (ибо /W =£ Z<2>), то из последнего неравенства заключаем, наконец, что в точке q = q* из G^o при Z = Z^+ не выполняется необходимое условие (13.10). Это невозможно. Полученное противоречие доказывает единственность вектора Z*, удовлетворяющего равенству (13.14).
g 13] СВОЙСТВА ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 133 Далее, вектор Г обязательно содержится во множестве |/}+ векторов 1^, которые удовлетворяют равенству (13!9). Действительно, иначе при условии (13.14) и при условии рЮ (*., в,Г) + Г (2° (*., *., 0)}т - Г д. > О, которое тогда должно выполняться для точки q0 из области (№ (*ф1 z,, О), нарушалось,бы (при 8 = 8°, I = Г) необходимое условие (13.11) поглощения области б(») (*,, 2 , ф) областью Gjl* (*„ г/#, д). Итак, Г е {Z},. Однако если Г £:{/},, то из (13.9) и (13.14) вытекает, что e°(t.f ^ 0 = Р<2)('.. *> П-Р(1)('.. *> О Ь + П{*°(*.. V *»т - №(К, 0., *)}тХ то есть согласно (13.13) вектор Z* есть не что иное, как гот единственный единичный вектор Z0, на котором достигается максимум в левой части (13.13). Итак, в регулярном случае при е° (^, у^ zj ]> 0, если точка qm содержится в области прицеливания Q° (^, у^ zj, то выполняются равенства (13.9) и (13.14), где следует положить /ф = = 1° (**> V*i z*) и l* = l° (**> У*> *.)• Иначе говоря, если имеет место регулярный случай в смысле определения 13.1 и, следовательно, для фиксированной позиции R У*> **Ь гДе е° (*•» У** z*) > 0» максимум в правой части (13.13) достигается на одном-единственном векторе ^° (*♦» У*, &*)» то всякая точка д^ из области прицеливания Q°(t^ y^ zj) лежит обязательно на сливающихся гиперплоскостях %$ (1°) и XW (1°), опорных к областям С(еУ и С?<2>, ортогональных к вектору 1° (^, у^ zj) и описываемых соответственно (совпадающими) уравнениями е° (*„*/„ Z,) + P(1)('..«M°)+ + W{^a.y..*)}m-(^)'? = 0, Другие пары опорных к G{V и С?<2) гиперплоскостей 5fso> (Z) и Ж<2> (Z), ортогональных к иным единичным векторам I =f= Z°, уже никак сливаться не могут (рнс. 13.6), Полезно кстати заметить, что расстояние (евклидово) со/
134 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III между такими плоскостями %(*о} (I) и 55<2> (Z) изображается равенством (доказательство предоставляем читателю) (Di - е° + ра>(*„ О, I) - р<2>(*„ «, I) + Итак, мы видим, что регулярность в смысле определения 13.1 в точности согласуется с теми условиями регулярности, о которых щла речь в § 12. Более того, в регулярном случае при е° (*,, {/„> z#) > 0 единственный .хю{Ю=&№ Рис. 13.6. единичный вектор 1° (^, у^ zj, доставляющий максимум в правой части (13.13), есть как раз тот вектор /°, который по условиям (12.3)—(12.5) и (12.7)—(12.9) определяет экстремальные стратегии Ue и Ve, введенные в конце § 12. На этом мы закончим пока обсуждение свойств экстремальной конструкции. § 14. Пример экстремальной конструкции Рассмотрим игру на сближение для динамической системы 2, которая складывается из двух управляемых материальных точек т^ и т®\ перемещающихся^в][вер- Ъ'икальной плоскости {|, т]}. Примем, что управляющие
g 141 ПРИМЕР ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИЙ 1&> силы ы>(1) и и>(2\ приложенные к этим точкам, стеснены неравенствами 1к(1)Ш|<^(1), к(2)ШК^(2) (14.1) (А,(*) — положительные постоянные) и в каждый текущий момент времени t могут принимать любые направления. Обозначим координаты i-й точки символами #1\ т)Ф. В качестве платы у выберем расстояние Г = t(i(1) [О] - i(2) [*])* + (Л<М - Л(2)Wff' (14.2) между точками га*1* и яг<2> в заданный момент времени Ф. Уравнения движения рассматриваемой системы 2 имеют вид т(1)цй) = v^—mmg, т(2Уг](2) = wf - m(i)g. После замены переменных |(1) = ух, т](1) = т/г, |(1) = у3, ffl] г>2 *>8 *>4 = Г ° 1 0 «42> 2 L/n<2)J уравнения движения приводятся к нормальной форме стандартных уравнений (7.1), (7.2) #1 = Уз» ^==23, У% = J/4» ^2 = ^4» Уз^^з, *з = *>з» (14.3) у4 = гг4 — g, i4=:^4 — g- Г«1" "2 Из И4 — и - 0 У»
136 ЭКСТРЕМАЛЬНАЯ КОЙСТРУКЦИЙ trJl. lit Ограничения на управляющие воздействия и и v примут вид ad) иг -О, щ = 0, (и; Ш + Mj [*])* < [А = ^_ = 2^ '(14 4) m(2) -v1*-^ ^ = 0, i7a = of шг] + и\[г])ъ* Плата у (14.2) изобразится теперь равенством у = [(уг Ш - zx mf + (ft [d] - z2 №])»]''■. (14.5) Построим экстремальную конструкцию, с которой надлежит работать при исследовании данной игры. Элементы {£?,№ {&, п¥> Рис. 14.1. этой конструкции мы найдем, исходя из наглядных соображений. Итак, зафиксируем некоторую позицию {*.. ??> Ч?\ $?\ Ч?\ 6». Л», e\ *П> ^арактери- зуемую здесь координатами {^\ т£г)} и скоростями {^\ т£г)} обеих точек mW и т<2> в данный момент времени ^ < О (рис. 14.1). Построим область достижимости - <Я (*., у., О) = G« (*., «» i£>, $», tf>>. *) для первой точки т^. В соответствии с выражением (14.5) для платы у область GW должна строиться здесь в «двумерном пространстве» {q} точек q = {у}ш = {у}2 с координатами qx = уг и д2 = у2» то есть, попросту говоря, на плоскости {£, г)}. Если бы в течение времени
ПРИМЕР ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 137 х€Е К' *1 на Т0ЧКУ mix) не Действовала управляющая сила ^а), то эта точка описала бы параболу (см. рис. 14.2) r,(i)(t) ^ Л(1) + ^(D(t _ к) _ iSL^bL (14.6) и к моменту т = ft оказалась бы в некоторой точке q^ = = {£э1) (*)i г\о) (*)}• Прикладывая к точке т^ различные силы w№ (т) (^ ^ т < -О1), стеснённые неравенством ||н>(1) (т) II ^ ^(1)» мы можем приводить ее в различные точки q= {£(l> (ft), т)*1) (ft)}, расположенные вокруг точки ^1}. Совокупность этих точек и дает искомую область С№\ Чтобы составить представление об этой области, поступим следующим образом. Предположим, что в течение всего полуинтервала времени ^ < т < # на точку т^\ помимо силы тяжести m^g, будет действовать еще постоянная управляющая сила w{x\x)^w\ |^|К^(1). (14.7) Соответствующее движение обозначим символом £(1)(*), Л(1) (*)}*• Теперь на движение $? (т), т|?> (т)}, (14.6) точки гФ-\ которое осуществляется при отсутствии управляющих сил, наложится еще равноускоренное движение в направлении вектора w* и это дополнительное .движение будет осуществляться с векторным ускорением а^=,ю*/тп^. Поэтому к моменту времени т = ft точка q = {^(1)(*)» Л(1) (&)}* сместится от точки Ф^ по направлению вектора w* на расстояние, равное |u?*j|(ft- 02/2m(1) (рис. 14.2). Выбирая всевозможные управления w№ (т) вида (14.7), мы заполним соответствующими точками q* = {^(ft), T](D (ft)у целый круг ЖЫ с центром в точке q™ и с радиусом И1) = [х (ft— О2/2» гДе И':==^(1)/^(1). Этот круг и составит искомую область (х^. В самом деле, с одной стороны, точку яг(1) можно привести к моменту т = ft в любую точку q из круга Ж№, если выбрать подходящее управление и№ (т), вида (14.7), полагая W* = {q - #>)2л»<1>/(* - О2-
138 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИ [ГЛ. Ill С другой стороны, если точка q* не лежит в данном круге $W, то никакая (в том числе переменная) сила и?Ы (т) (*« ^ т < О), стесненная условием [и*1) (т)|| ^ АД), не сможет привести движение {£<1> (т), т]^ (т)} к моменту т = Ф в эту точку q* (доказательство предоставляем читателю). Итак, область ff1>(^, {£\ г$\ £\ г)<1}}, О) Рис. 14.2. построена. Одновременно наши рассуждения подводят к такому выводу. Если точка q = (p из области достижимости GM лежит на ее границе, то есть на границе круга Ж<1\ то управление w^ (т), которое к моменту т = О приводит точку т№ в эту точку q°, есть постоянная сила ufp (т) = м>б, причем вектор we направлен от точки q(o} на точку q° и ||u?6| = АА>. Следовательно, управление ц/р [t], которое на каком-то полуинтервале t^^t<i < t* <'0 нацеливает движение {£<1} Ы, ti(1) U]} на точку <Д лежащую на границе Шх) области &г\ реализуется силой ufp [t] = we, неизменной на этом полуинтервале
g 14] ПРИМЕР ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 139 и по абсолютной величине и по направлению* Заметим также, что в случае, если в течение времени t0 ^ t <C С реализуется управление idp [t] = u?e, нацеливающее движение {£(1) It], r\W It]} на неподвижную граничную точку q°, то деформированная область достижимости которая будет отвечать новому состоянию </[м = {1(1)1М,л(1)[м, i(VWV]} точки т^, реализовавшемуся в момент t = Г, будет кругом радиуса r<l> U*] = |л (Ф — £*)2А> касающимся изнутри окружности #<1) в точке #° (см. рис. 14.2). Если же на полуинтервале ^ ^ t < Г реализуется такое управление и*1) (0, которое не нацеливает движение {£ [ *] ,т| [ t]} ни на какую граничную для области G(1) (*., {£\ ч!°,£(.'\ tf0}, «) точку q, то новая область достижимости с(1)(Лаа)[п,ч0)[м, s(Vi. 4w[**j},*) снова будет кругом радиуса г^> [Г] = \i (Ф — 02/2> но теперь этот круг уже будет лежать строго внутри круга Ж^. Замкнутые е-окрестности G(e1} области достижимости №> в данном случае, очевидно, будут кругами с центром в точке q[l) и с радиусами г[{) = \а (® —- ff/2 + е (см. рис. 14.2). Аналогичным образом можно убедиться, что областью достижимости G(*4h, <e rf, if, v\ ♦) для точки m<2> будет служить круг WW с центром в точке <7о2) = {if (О), 42) (О)} и с радиусом *» = v (d - *,)2/2. Здесь v = №*>/тЮ и ■ ^W-^+t» (*-*.), ^ (148) т,(2)(#) = т,(2) + ^2)(е _ tt) - g(e~*»)2 .
140 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. ill Зная форму областей достижимости нетрудно уже составить экстремальную конструкцию. Примем, что \х > v. Возможны следующие ситуации. (1) Позиция {^, z/^, zj такова, что круг Ж№ лежит целиком в круге CftW. Тогда е° (^, у^ zJ = 0 и экстре- Рис. 14.3. мальная конструкция вырождается. (2) Позиция {£*> У* i^} такова, что круг СН?№ имеет точки, лежащие вне круга Э№ (рис. 14.3). Теперь 8° (*,, ут, zj > 0, причем е° (^, р„ zj = ||g£° — ~ ?о2)|1 + r(2) "" r(L)- Область прицеливания Q0 (^, у^ zj) сводится к одной-единственной точке q° (^, г^, zj. Единичный двумерный вектор внешней нормали 1° (£#, у^ zj, определяющий «гиперплоскость» X (1°) (здесь — просто
g 14J ПРИМЕР ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИЙ 141 прямую X (I0)), касательную к обоим кругам Ж№ и Ж№ в точке q° (^, уф, zj изображается равенством '°Wi- (14'9) Следовательно, согласно (14.6) и (14.8) этот вектор имеет такие компоненты: /?=[(**1-гЫ + (**з-2Ы (Ф-*.)] {[(2д~Ы +(14.10) + («•» - У.8)(* - 012 + f(^2 - У,.) + (*.4 ~ Ы (* - О]2}'17' + (^з - у*) (О - 01е + к*., - Ы + + (^4-»*4)(*-0П"1/3. При условии 8° (£#, i/^, zj ^> 0 окружности, которые являются границами областей G$ и G(2>, имеют одну- единственную общую касательную X (1°). Поэтому рассматриваемый случай игры является регулярным. Чтобы завершить картину, остается построить экстремальные стратегии. Для этого, согласно определению 12.3, надлежит найти управляющие усилия w^ [tj и wi2) [fj, которые прицеливают точки 7»<1> и т<2) в момент t=t, из позиции {*,, у^ zj в точку д° (^, у^ zm) (в смысле определений 12.1 и 12.2). Учитывая предыдущие рассуждения, нетрудно.догадаться, что искомые усилия будут изображаться векторами (см. рис. 14.3) (14.11) e-tf»1 Однако, мы найдем сейчас эти усилия по всем правилам науки, следуя определениям 12.1 и 12.2. Экстремальное управление wil) [tj определяется условием максимума (12.5). Поэтому для определения
142 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ tl\JI. Ill It J прежде всего надлежит найти вектор-функцию s (т), фигурирующую в этом условии. Искомая вектор- функция s (т) удовлетворяет векторному дифференциальному уравнению (12.3), которое в нашем случае сводится к системе уравнений ^==°.-£=°. &=-*.&"*. <14Л2> сопряженной к однородной части первой системы (14.3) £2 == #4, ^3 == 0» #4 = 0. S (т, t0) решений системы ^з> Фундаментальная матрица (14.12) имеет вид 5(tft0) = 1 0 о — 0 т 0 1 0 *о — 0 0 1 т 0 0 0 0 1 Следовательно, нужное нам решение s (т) — {sx (т),..., s4 (*)} системы (14.12), удовлетворяющее краевому условию (12.4), изображается равенством Гм*)" s2 (т) «3 (Т) L««(*). / 1 0 0 0\ / 0 10 0 1 ~\*—т 0 10 \ 0 Ф—*01/ "«" Й 0 .0. " 1? ' в #(0-т) (14.1 3) *(т) = Таким образом, вектор л w{P ltm] = {и^и^тЮ следует искать из условия максимума (12.5), которое с учетом (14.13) и (14.4) принимает вид (О - т) {1\ще + 1\ще) - max (О - т) {1\щ -f 1\щ) (14.14) при »| + »1!
§ 15] ДОПУСТИМОСТЬ ЭКСТРЕМАЛЬНЫХ СТРАТЕГИЙ 143 Ясно, что решение задачи (14.14) определяется вектором М-и* откуда следует, что экстремальное прицеливание точки т^ в момент t = tm осуществляется силой u£1}[g =a(1)z°. (14.15) Аналогичным образом, найдем, что экстремальное прицеливание точки т№ в момент t — tm осуществляется усилием u><2)[*.] = A,(a)Z°. (14.16) Итак, мы видим, что в данном случае экстремальные стратегии Ue и Ve определяются следующим образом. (1) Если реализуется позиция {^, 1/А, zj, для которой е° (**» У*> z*) = О» Т0 стратегии Ue и Fe допускают в этой позиции любые управляющие усилия v№lt] и и№ [t]t стесненные лишь неравенствами (14.1). (2) Если же реализуется позиция {^, у^ zj, для которой е° (t#, у^ zj > ^> 0, то стратегии Ue и Ve допускают в этой позиции каждая лишь единственное усилие vf? It J и м/е2) [*J, задаваемое равенствами (14.15) или (14.16) соответственно. Используя равенство (14.10), векторы w{P [tj и w(P It J можно выразить в явной форме через координаты и скорости точек т^ и т<2>, которые реализовались в момент t = tt. На этом описание экстремальной конструкции для рассматриваемой системы 2 мы закончим. Упражнение 14.1. В этом параграфе в рассматриваемом частном случае системы 2 мы нашли элементы экстремальной конструкции, пользуясь простыми физическими соображениями. Требуется найти эти элементы, пользуясь формально теми соотношениями, которые были даны в § 13 для общего случая. 15. Допустимость экстремальных стратегий Будем предполагать, что имеет место регулярный случай. Тогда любой реализующейся позиции {t, у U], z [t]} (tQ <! t < #) будут отвечать экстремальные
144 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ [ГЛ. III контингенции ult]e=%(t9y[tiz[t]), 1 151) v[t]^We{t,y[t],z[t]). J Если е° (*, у It], z It]) > 0, то множества % (t, у [t],z It]) и We (t, у [t], z [t]) складываются из управлений и it] = ue, v [t] = ve, которые экстремально прицеливают движения у It] и z It] в область Q° (t, у It], z It]); иначе %е (/, у Ш, z It]) = %, We {t, у It], z [t]) = %. В соответствии с определением 12.3 контингенции (15.1) порождают экстремальные стратегии Ue{t,yfz} + %(t,y,z), (15.2) Ve{t,y,z}~We(t,y,*)- (15-3) Приступая к работе с этими стратегиями, важно убедиться в том, что они допустимы. Согласно материалу из § 6 для этого достаточно проверить, что множества % (*» У> А и We (*> У, z) полунепрерывны сверху по включению в каждой точке {£, у, z} (t0 <! t < О). В тех позициях {t, у, z), где е° (t, у, z) = 0, это свойство является тривиальным следствием непрерывной зависимости множеств % и Wi от параметра t. Поэтому достаточно рассмотреть только такие позиции, где е° (£, у, z) ^> 0. Сформулируем сначала три вспомогательных утверждения. Лемма 15.1 Гипотетическое рассогласование &°(Ъу9г)естъ функция непрерывная. Следовательно, область в пространстве {t, у, z}, где выполняются неравенства £° (t, уЛ z) ^> О, t < Ф, является гобластью открытой. Это утверждение имеет простой геометрический смысл, ибо области ff1) (t, у, О) и С?(2) (t, z, $) с изменением t, у и z деформируются непрерывно. Формально справедливость леммы 15.1 выводится сразу из равенства (13.13), которое определяет величину е° (t, у, z). Мы не будем останавливаться здесь на этом формальном доказательстве, предоставляя его желающему читателю в качестве упражнения. Л ем м а 15.2. В регулярном случае в области е° (t, у, z)^> ^> 0, t0 ^ t < Ф вектор 1° (t, у, я), участвующий в щ-
§ 15] ДОПУСТИМОСТЬ ЭКСТРЕМАЛЬНЫХ СТРАТЕГИЙ 145 стремалънои конструкции, зависит от аргументов t, у и z непрерывно. Предположим, что лемма 15.2 неверна. Тогда можно указать позицию {^, ут, zj, в которой е° (tm, y^ zj > О, to ^ ** < ^ и в которой вектор-функция 1° (t, у z) не является непрерывной. Область в пространстве {t, у, я}, где 8° (t, у, z) > 0, и t < Ф согласно лемме 15.1, является открытым множеством. Следовательно, точку {^, у^ zj) можно окружить достаточно малой окрестностью К-М<в, \{У,*}- {».. *.>!<*. (15.4) в которой будет справедливо неравенство е° (t, у, z) ^> О (при ^ = t0 полагаем в (15.4) t > t0). Значит, в каждой точке {£, у, z} из этой окрестности (15.4) вектор 1° (t, у, z) будет определен единственным образом. Этот вектор 1° (£, у, z) находится из условия максимума (13.13). При нашем предположении должна существовать последовательность позиций {t^\ у^\ т№) (i = 1,2,...), лежащих в окрестности (15.4), такая, что lim*(i) = *„ UmyM = yt, Ит^*> = ^ (15.5) при i -»- оо, но тем не менее Iг» (t(i\ />, z(i))-i°(tt, yt, *,)!><*> о (15.6) при всех i. Однако из последовательности единичных векторов № = 1° (№\ у^\ z^) можно выбрать подпоследовательность {/(гЯ} (/= 1,2,...), сходящуюся к какому-то единичному вектору Z*. Учитывая непрерывность функций pW, y° и z° от их аргументов, нетрудно проверить, что вектор Г доставляет максимум в правой части (13.13), то есть Г = 1° (*„ у^ zj. В самом деле, предположим, что это не так. Тогда справедливо неравенство Р«(*.,0,/')-р«(*„0,0 + + Г ({*» (*,, *., Ъ)}т - {У° (*., у,, Щт) < < р(« (*„ О, г° (*., у., О) - Р(1) (*., О, '° С-1/., О) + + I0' (К, J/,, *.) ({г° (<„ *., #)}т - {*/> («., у., *)}т),
146 экстремальная конструкция [гл. m Но из (15.5) и из сходимости векторов № к вектору Г вытекает теперь, что при достаточно больших значениях / должны также выполняться неравенства р(2> (№, о, #>) - Р(1) (№, о, №) + ■ ь № ({Z« (*<V, 2«;>, &)}т - {*,« 0\ fi\ щт) < < Р(2) (№, о, /о (<e> y>t 2>)) _ ро)(t(iJ)j д> jo (^ ^ г<)) + f *°'(*„ »., О ({z0('(£>\ *(1*\ 0)}т- {?(№, y(ii\ Ф)}т). Однако эти неравенства противоречат тому условию, что при их левые части максимальны. Противоречие показывает, что Г = Z0 (^, г/^, zj, ибо вектор Z, доставляющий максимум в правой части (13.13), в регулярном случае единствен. Однако условия Г = = 1° (^, у^, zj и lim Z(,i} = Г при / -> со противоречат неравенству (15.6). Последнее противоречие означает, что наше предположение о разрывности вектор-функции 1° (t, у, z) в позиции {^, у^ zj) неверно. Этим и завершается доказательство леммы 15.2. Лемма 15.3. Пусть Wx — ограниченные выпуклые замкнутые множества в k-мерном векторном пространстве {и?}, зависящие непрерывно от параметра х ЕЕ [£, -в1]; далее, пусть символ s означает k-мерный вектор. Тогда множества Ws,x, складывающиеся из всех векторов w0 ЕЕ Wx, удовлетворяющих условию s'wq— max srw, (15.7) полунепрерывны сверху по включению в каждой точке {т*, 5Л относительно изменения х и s; сама величина максимума в правой части (15.7) есть также непрерывная функция аргументов х и s. Докажем лемму. Очевидно, достаточно рассмотреть. случай st =/= 0. Предположим от противного, что в некоторой точке {ти sj свойство полунепрерывности множеств WT>S не выполняется. Тогда можно построить последовательность пар {т<*\ $Ф} ($ = 1,2,...) таких, что Иш т^> = x^HimsW = sf при г —> оо, (15.8)
§ 15] ДОПУСТИМОСТЬ ЭКСТРЕМАЛЬНЫХ СТРАТЕГИЙ 147 но тем не менее расстояние со (м?ог\ Wt„8#) от векторов w^ до множества Wt*tSm удовлетворяет неравенству И^'.^^^ОО (15.9) при всех i. Здесь Wq — подходящие элементы из множеств Wx^\ s^ удовлетворяющие, следовательно, условию s(0'M;(i)= max sW'w. (15.10) Как и при доказательстве леммы 15.2, нетрудно проверить, что предельный элемент w* для подпоследовательности w(0l\ во-первых, будет содержаться во множестве Wx^ а во-вторых, он будет удовлетворять условию sjv* = max s>. (15.11) Но условие (15.11) означает, что w* EEWx^s^ а это противоречит (15.9), так как и>* — предельный элемент для множества {w^} (* = 1,2,...). Полученное противоречие доказывает первое утверждение леммы 15.3. Точно так же проверяется и второе утверждение этой леммы. Вернемся теперь к вопросу о допустимости экстремальных стратегий (15.2) и (15.3). Согласно определению 12.3 при условии е° (г, у, z) ^> 0 множество %е (t, z/, z) (множество 2Ре (^ У» z)) складывается из всех векторов ^eG%feEf(), которые удовлетворяют условию максимума SW [t] ue = max s№ [t] и (15.12) (или условию максимума s{2y[t\ve= maxsW [t]v (15.13) соответственно). Здесь векторы № [t] изображаются равенствами ^т = ^\1,щ1Ц1,у, 2),
148 ЭКСТРЕМАЛЬНАЯ КОНСТРУКЦИЯ (ГЛ. III где S& (t, О) — фундаментальная матрица решений уравнения |Но множества %е и Ve, задаваемые условиями (15.12) и (15.13), очевидно, выпуклы и замкнуты. Далее по лемме 15.2 векторы № [t] зависят непрерывно от t, у и z. Но тогда нужная нам полунепрерывность сверху множеств %е (t, у, z) и Ve (t, У, z) является прямым следствием леммы 15.3, ибо множества %t и Vt непрерывны по t по условиям задачи. Итак, справедливо следующее заключение. Теорема 15.1. В регулярном случае экстремальные стратегии Ue (15.2) и Ve (15.3) допустимы. Следовательно, какой бы ни была исходная позиция {*о» У'о» zo}i ПРИ выборе стратегии Ue (Fe), какой бы ни оказалась допустимая интегрируемая реализация u[t] (v[t]), система 2, описываемая уравнениями (7.1) и (7.2), будет обладать семейством движений SC [Ue, v; t0, y0, z0] {30 [u, Ve; tQ, i/o, z0]), складывающимся из абсолютно непрерывных вектор- функций х It] = {у It], z It]} (t0 < t < *).
ГкЛАЁА IV РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ § 16. Теорема о седловой точке в регулярном случае В этом параграфе мы показываем, что задачи 7.1 — 7.3 в регулярномслучае разрешаются экстремальными стратегиями Ue и Ve, которые были определены в § 12. Стало быть, в этом случае в каждой реализовавшейся позиции {t, у It], z It]}, где оказывается е° (t, у It], z [t]) <> 0, наилучшим способом действия для каждого из игроков является выбор управления и It] или v It] из условия экстремального прицеливания. Докажем сначала одно вспомогательное утверждение. Лемма 16.1. В области е° (t, у, z) ]> 0, t <^ § гипотетическое рассогласование е° (t, у, z) есть функция дифференцируемая (в регулярном случае). Будем исходить из равенства (13.13). Полагая в нем аргументы ^ = t, у+ = у, z^ = z переменными и подставляя в правую часть (13.13) значения максимизирующего вектора I = 1° (t, у, z), получим е" (*, у, z) = р<2> (*, О, 1°) - р(« (t, О, Р) + + /»' ({z° (t, z, Щт - {у° (t, у, д))ж). (16.1) Нам надлежит проверить, что правая часть (16.1) имеет непрерывные частные производные по t, i/i и zt. Вычислим сначала производную de°/dt. Следуя известным правилам, составим частное приращение Де°, отвечающее приращению аргумента At. Найдем Ае° = [р<*> (t + At, d, /° (t, у, z)) - -pW(t+ At,$,l<>(t,y,z)) + + I0' (t, y, z) ({2° (t + At, z, $)}m-{y° (t + At, y, d)}m) - - p<« (t, d, 1° {t, y, z)) + p(D (t, d, 1° (t, y, z)) - - 1°' (t, y, z) (K (t, z, Щт - {y° {t, y, d)}J] +
150 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЛИ СБЛИЖЕНИЯ (ГЛ. IV + [рЩ + At, О, 1° (t + At, у, z)) - - pd) (t + Д*, О, Р (t + At, у, z)) + /о' (t + At, у, z) X X ({z° (t + Д*, z, Щт - {у0 (t + At, у, *)}и) - -pW(< + A*. *, *° (*, У, *)) + pW (* + At, <►, Z° (t, i/, z)) - - Z<" (t, y, z) {{z° (t + At, z, d)}w - {y° (t + At, y, d)}m)]. (16.2) По смыслу вектора P, который максимизирует правую часть в (13.13), заключаем, что второе слагаемое в правой части (16.2), содержащееся в квадратных скобках, неотрицательно. Следовательно, справедливо неравенство Ае° > [pW (t + At, d, P (t, у, z)) - - p(D(* + At, Ф, *»(*, г/, а)) + + P' (t, y, z) «*° (* + At, z, #)}m - {y° {t+At,y,0)}m)- - Рщ, d, z° (t, i/, z)) + Pa>(*, ф, z° (t, j/,z)) - - P' (t, y, z,)({z° (t, z, Щт - {у0 (t,y, tyj]. (16.3) С другой стороны, можно записать и такое равенство: Де° = [р«> (t + At, О, Р (t + At, y, z)) - - pft)(t + A«, Ф, P (t+ At, y, z)) + P' (t + At, y, z) X X ({z° (t + At, z, Щт - {y* (t + At, y, *)}») - - p» (t, Ф, J° (t + At, y, z))+ pW (t, Ф, J° (t + At, j/, z))- - /o' (* + Д*, у, Z) ({20 (t> z> #)}m _ {yo {t> y, щт)] + + [p<2> (t, d, J° (t + At, j/, z)) - -pW(t,*,P(t+At,y,z)) + + *>' (t + Д«, У, z) ({a? {t, z, #)}m - {*/> (t, j/, d)}m) - - p(«(t, Ф, Z° (t, j/, z)) + p« (t, d, P (t, г/, z)) - - P' (t, y, z) ({z° (t, z, fl)}m - {j/> (t, y, d)}m)], (16.4) причем теперь по смыслу вектора Z° второе слагаемое в правой части (16.4), заключенное в квадратные скобки, будет неположительным. Следовательно, справедливо не равенство Де° < [р(2) (t + Д*, О, l° (t + At, у, z)) - - pd) (t + At, Ф, *° (* + Д*, 2/, «)) + + Г (t + m;V, z) ({z° (t + At, z, $)}m ~
§ 16] ТЕОРЕМА О СЕДЛОВОЙ ТОЧКЕ В РЕГУЛЯРНОМ СЛУЧАЕ 151 - {у" (t + At, у, Щт) - р(«) (*, О, I» (t + At, у, z)) + + Ра>(*, О, 1° (t + At, у, z))- - Г (t + At, у, z) ({z« (t, z, #)}m - {y* (t, y, *)}TO)]. (16.5) Разделим теперь неравенства (16.3) и (16.5) в обеих частях на Дг и в полученных неравенствах перейдем к пределу при Д£->0. Учитывая непрерывную зависимость вектор-функции Z° (t, у, z) от t, убедимся тогда, что правые части обоих неравенств имеют один и тот же предел, равный, следовательно, частной производной de°/di. Итак, + Дв° ^ W2)(t,b,l*(t4y, z)) _ d9M(t9 », *°(*,У, z)) dt I dt dt +"' с у- *> (Р*Ч - PWJl—• <1M> причем нижний индекс Z° = const в правой части (16.6) показывает, что когда производится дифференцирование по переменной t, зависимость вектора 1° от t игнорируется. Вспоминая теперь выражения для функции pW (13.3), (13.8) и для вектор-функций z° и у0 (13.1), (13.7), найдем из (16.6) -^ - max [/<>'(*, у, *){Г (*, *) »}«] - u&Ut -m&x[l<>'{t,y,z){Z($,t)v}m\ + +.r>{t,y,z)({°M^l-z-Z(e,t)f«\t)}m- _{£I^L,_y(#,0/a)(f)}J. (16.7) Справедливы равенства (см. § 42, стр. 372) Y(fl,t) = SW(t,Q), Z (*, t) = SW (t, Ф), где SW (r, t0) — фундаментальная матрица решений уравнения
152 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Кроме того (см. § 42, стр. 371), ?L§lL=-Y(<>,t)AV(t), Учитывая эти соотношения и вводя векторы .(*) m = 5w(«,0)[H (i = l,2,...), равенство (16.7) можно переписать окончательно следующим образом: — = max (s^f [t]u) — max (sf*Y [t]v) + + sw [t] (A™ {t) у + /(1) (*)) - s(2)' [*] (^(2) (0* + /(2) (*)). (16.8) Таким образом, приходим к следующему выводу. Функция 6° (t, z/, z) в области е° (t, г/, z) ^> 0 имеет частную производную de°/dt. Эта производная изображается равенством (16.8), где s& It] — как раз те векторы, которые определяют экстремальное прицеливание согласно условиям (12.5) и (12.9). Из (16.8) заключаем, кроме того, что .частная производная de°/dt есть непрерывная функция от позиции {t, у, z}. Важно отметить, что производную de°/dt можно получить формальным дифференцированием выражения (16.1) по 2, игнорируя зависимость вектора 1° от t. Причина этого явления, как мы видели, состоит в том, что вектор 1° доставляет максимум соответствующему выражению (16.1). Совершенно также находятся и производные де°/ду. и de°/dzj, и эти производные снова можно вычислить формальным дифференцированием выражения (16.1), где следует игнорировать зависимость вектора 1° от соответствующих аргументов у. или z-r Опуская промежуточные выкладки, запишем сразу результат. Получим dzx 3 (i = l,2„..>nW; j = 1 ,...,в<*>). (16-9>
§ 16] ТЕОРЕМА О СЕДЛОВОЙ ТОЧКЕ В РЕГУЛЯРНОМ СЛУЧАЕ 153 Итак, действительно функция 8° (£, г/, z) в области е° (t, у, z) >• 0, имеет непрерывные частные производные (16.8), (16.9) и является, следовательно, функцией дифференцируемой. Лемму 16.1 можно считать доказанной. Обратимся теперь к задаче 7.1. Справедливо следующее утверждение. Теорема 16.1. Пусть имеет место регулярный случай игры из задачи 7.1. Тогда при выборе первым игроком экстремальной стратегии Ue~%e(t, г/, z) будет обеспечено неравенство (l{ym}m-^m}m\\\^lUe,v'yt0,y0,z0])^e"(t0,y0,z0), (16.10) какова бы ни была исходная позиция {£0, i/0, z0} и какой бы ни оказалась допустимая реализация v lt](t0 ^ t < Ф) управления v. Таким образом, теорема 16.1 утверждает, что в регулярном случае экстремальная стратегия Ue обеспечивает первому игроку результат игры у не худший, чем гипотетическое рассогласование е° {t0, у0, z0), отвечающее исходной позиции {t0, у0, z0}, как бы ни действовал второй" игрок. Докажем теорему. Рассмотрим некоторое движение {#[*], я U]} системы (7.1), (7.2), отвечающее исходной позиции {t0, у0, z0} и порожденное управлениями ult] е %(t, у It], z It]), v [t] е Vu (16.11) Величина е° (t, у, z) есть непрерывная функция от t, у и z при всех у, 2 и ге lt0, *]• Поэтому реализация е° It] = = 8° (t, у [t], z [t]) является непрерывной функцией от времени tEz [t0, Ф]. Покажем, что в нашем случае эта функция не возрастает со временем. Очевидно, для этого достаточно проверить, что функция е° It] не может возрастать при условии е° It] > 0. Но в области е° (t, у, z) ^> 0 функция е° (t, у, z) согласно лемме 16.1 ^есть. функция дифференцируемая. Следовательно, полагая 8° Ы>0, мы можем при этом значении t подсчитать производную абсолютно непрерывной функции 8° It] = e° (t, у, It], z It]) вдоль движения {у It], z [t]}. По правилу дифференцирования
154 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЙ [ГЛ. IV сложной функции 8° (t, у It], z It]) найдем nU> , n(2) <fe° [t] _ дг* ъ дг* dy. ^ д&о dz} г=1 *ъ j=i О (Функции z/. It] и Zj It] являются абсолютно непрерывными, поэтому такое дифференцирование является законным при почти всех значениях t (см. [14*], стр. 226).) Учитывая выражения (16.8) и (16.9) для частных производных ds°/dt, дг0/ду{ и de°/dz^ получим ^1Ш. = max (sW [t]u) — max (sW [t] v)'— . — 5(D' It] U [t] + SW [t] V [t]. (16.13) Так как при почти всех значениях t функция и It] удовлетворяет условиям максимума (12.5), то из (16.13) следует неравенство ^Ш.<0 (16.14) Cut при почти всех t (при условии 8° It] ^> 0). Итак, мы видим, что когда функция 8° [t] положительна, при почти всех значениях t она имеет неположительную производную. Но при 8° It] > 0 функция е° It] есть функция абсолютно непрерывная. А тогда из (16.14) вытекает, что функция эта действительно не возрастающая. Следовательно, 8о [о] = 8о (of у №]f z Щ < ео (^ Vo9 Zq). (16Л5) Неравенство (16.15) доказывает теорему, так как при t = Ф области достижимости G№ (Ф, у [О], О) и (т<а)(д, z Ш, Ф) обращаются в точки {у Ш}т и {z Ш}т и величина 8° (О, у Ш, zl®]) превращается просто в расстояние Y=||{y [&1}т — {^ [Ф]}т II- Теорема 7.1 доказана. Обратимся теперь к задаче 7.2. Справедливо следующее утверждение. Теорема 16.2. Пусть имеет место регулярный случай игры из задачи 7.2. Тогда при выборе вторым игроком экстремальной стратегии Ve -ч- We (*» У» z) ему
§ 16] ТЕОРЕМА О СЕДЛОВОЙ ТОЧКЕ В РЕГУЛЯРНОМ СЛУЧАЕ 155 будет обеспечено неравенство (10/ К>]>« - (z Ш}т\ | 2С [и, Ve; t0, y0, z0]) > > 8° (*„, Уо, Z0), (16.16) какова бы ни была исходная позиция {t0, у0, z0} и какой бы ни оказалась допустимая реализация и [t] {t0^t ^$) управления и. Таким образом, теорема 16.2 утверждает, что в регулярном случае экстремальная стратегия Ve обеспечивает второму игроку результат игры у не худший, чем гипотетическое рассогласование е° (t0, у0, z0), отвечающее исходной позиции {t0, у0, z0}, как бы ни действовал первый игрок. Доказательство теоремы 16.2 проводится по тому же плану, что и доказательство теоремы 16.1 с очевидной заменой неравенства (16.14) на неравенство ^i>:o (16.17) при 6° [t] > 0. Поэтому доказательство это мы здесь опустим, предоставляя его желающему читателю в качестве упражнения. Прямым следствием теорем 16.1 и 16.2 является следующая теорема о седловой точке. Теорема 16.3. В регулярном случае игры из задач 7.1—7.2 экстремальные стратегии Ue {t* у, z } и ^е {*» У-> z) доставляют решения этих задач. Они являются соответственно оптимальной минимаксной стратегией U0, оптимальной максиминной стратегией V0 и составляют, наконец, пару оптимальных стратегий {U0, V0}, которые разрешают задачу 7.3 и доставляют седловую точку рассматриваемой игры, причем (\{у №}т - {*>]>«! I Я lUe, Ve; t0, y0, z0]) = = е° (t0, y0, z0), (16.18) то есть оптимальная плата игры у0 (t0, yQ, z0) для всякой исходной позиции равняется гипотетическому рассогласованию е° (t0, у0, z0). Примечание 16.1, Полезно заметить, что функция е° (*» Уj z) = y° (t, у, z) в области 8° (t, у, z) > 0 удовлетворяет дифференциальному уравнению в частных производных, о котором шла
РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV речь в § 10. Однако мы здесь определили эту величину у0 = 8 не, интегрированием данного уравнения, а исходя из экстремальной конструкции. Пример 16.1. В качестве примера рассмотрим игру на^соли- жение в системе S, которая была описана в,§ 14. Так]как рассмотренный там случай игры был регулярным, то к нему применима Г 20 т® 10 т® 0 ^ 1 ^=^4 0 s * \ \ "1 Рис. 16.1. теорема 16.3. Значит, экстремальные управления w^ (14.15) и w^ (14.16) доставляют здесь решения задач 7.1—7.3. Реализации движений системы 2, порожденные парами управлений w<2> = w' ,(2). ,М=.М w&=wf. изображены на рис. 16.1—16.3 соответственно. Здесь w{^ и w& задаются равенствами (14.15) и (14.16), если 8° (*, у, г) > 0, в противном случае w^ и ы><2) — произвольные векторы, стесненные условием (14.1); а и>(1) и ы/2> задаются равенствами ■„CD /,(2) __. Х<х> '*2 Xi ]/х\ + х1 ]fx\+, Л i(2)
§ 17] УСТОЙЧИВОСТЬ ОПТИМАЛЬНЫХ ДВИЖЕНИЙ 157 если х\ + х\ ф О, в противном случае ш(1), ш(2) — любые векторы, удовлетворяющие неравенствам (14.1). При этом выбраны следующие значения величин: *<!> = /»<«> = 1, АЯ> = 60, А,(2) = 60 —10 Yb, g = 10, *0 = 0, О = 0,9 и исходная позиция: ^>=15,^)=_5. Заметим, что на рис. 16.1 изображены границы областей достижимости G™ [t0j у0, *1 и G<2> [*0, z0, О], на которые к моменту t = # приходят точки т(1) и т(2). § 17. Устойчивость оптимальных движений Рассмотрим наряду с системой 2, описываемой уравнениями (7.1) и (7.2), также возмущенную систему 2*, которая будет описываться уравнениями (17.1) (17.2)
158 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV где матрицы AW*(t) и функции /(i^*(f) несколько отличаются от матриц A^(t) и функций /(i)(0 из уравнений (7.1) и (7.2). Примем, кроме того, что сигналы обратной связи, несущие информацию о реализующихся значениях у* It] и z* It], сопровождаются помехами u/ij) [t], так что реализации управлений и It] и vlt], назначаемые стратегиями U {t, у, z) и V {t, у, z), должны теперь удовлетворять контингенциям u[t)eE%(t,y*[t] + wM[t],z*lt]+wW[t]), (17.3) v[t]e^W(t, у* [t] + wW [t], z* [t] + wW [t]). (17.4) В этом параграфе мы исследуем вопрос об устойчивости движений у [t] и z U], порождаемых экстремальными стратегиями Ue или Ve по отношению к малым возмущениям Д4(*> = А&* — Л<*\ Д/ГО = р * — Я параметров системы 2 и помехам ufifi. Именно, пусть 90 W, г?; t0, у0, z0] — семейство движений {у [t], z [t]} (t0^ t^ft) системы 2, отвечающее исходной позиции {*о> Уо1 zo) ПРИ управлениях: u[dE«(«,y[fl,«[fl), (17.5) v=v[t), (17.6) а 90* Wу v; t0, у0, zQ] — семейство движений {у* [tl, z* [t]} (t0 ^ £ ^ Ф) системы 2\ отвечающее той же исходной позиции {*0, у0, z0} при управлениях (17.3), (17.6). Будем говорить, что стратегия U обеспечивает устойчивость движений {z/U],z[*l} из 90, если для любого а > О, можно указать число А ^> 0, такое, что всякое движение {\f It], z* [t]} (t0 < £<; Ф) щ семейства Сбудет проходить в а-окрестности семейства движений 90, как только будут выполнены неравенства |iiK«)(«)|<A (*0 <*«>). ( ' (Здесь а^}* и а^ — элементы матриц 4<!>* и Л<!) соответственно.) » Иначе^говоря, если стратегия U обеспечивает устойчивость движений {у It], z [t]} из 90, то при выполнении неравенств (17.7) для любого движения {у* It], z [t]} из семейства 90* найдется такое движение {у It], z [t]j из
§ 17] УСТОЙЧИВОСТЬ ОПТИМАЛЬНЫХ ДЁИЖЕНИЙ 159 ЗС, которое будет удовлетворять неравенству \\{у It], z It]} - {у* It], z* lt]}\\ < a (17.8) (*o < t < 0). Аналогичным образом определяется устойчивость движений {у It], z it]} из ЗС lu, V; t0, у0, z0], порождаемых управлениями vlt] Gf(Uld, zlt]), (17.9) u=ult\. (17.10) Справедливо следующее утверждение, которое вытекает из общей теории систем дифференциальных уравнений в контингенциях. Лемма 17.1. Допустимые стратегии U {t, у, z} и V {t, у, z} обеспечивают устойчивость движений {у It], z[t]} из семейств 30, порожденных соответственно управлениями (17.5), (17.6) или (17.9), (17.10). Мы не будем здесь доказывать подробно лемму 17.1, а лишь наметим план этого доказательства. Оно проводится от противного. Пусть, например, лемма неверна для какой-то стратегии U при исходной позиции {t0, у0, z0}ip при реализации vlt]. Тогда можно построить последовательности матриц All)*(t), вектор-функций fil)*(t) и функций w\3 (t) {s = 1, 2,...) таких, что равномерно по t будут выполнены соотношения lim/f>>) = /<*>(*), НтЛГ (*) = Л»(0 limuf*>(*)=0(*) ( } При S-* 00, но тем не менее каждое соответствующее семейство 30s движений {у* [t], z* [iiy*\ системы 2*s не будет лежать в какой-то определенной а-окрестности семейства 30. Далее оказывается возможным построить подпоследовательность движений {у* [t], z* It]}8* (/ = 1,2, ...), которые при *о ^ t ^ Ф будут равномерно сходиться к некоторой вектор-функции {у It], zlt]y°\ причем каждое из движений {у* It], z* [t]}s* не будет лежать в а-окрестности семейства ЗС. Однако можно проверить, что {у 11], z U]}<0) есть движение системы 2, содержащееся в 30. В то же время, будучи
1бО РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV пределом для движений {у* It], z* [t]}sJ, вектор-функция {у It], z [t]yo) не может содержаться в а-окрестности 30. Получается противоречие, которое и доказывает лемму. В регулярном случае экстремальные стратегии Ue и Ve суть стратегии допустимые. Поэтому они согласно лемме 17.1 обеспечивают устойчивость движений {у It], z [t]} из семейств 30 lUe, v; t0, у0, z0] и SO [и, Ve; t0, y0, z0] соответственно. Важно заметить, что число А ]> 0 в условиях (17.7) можно выбрать не зависящим от реализации v It] управления v. Для того чтобы убедиться в этом, достаточно снова принять от противного, что данное утверждение неверно, и рассмотреть последовательность реализаций vs[t] (s — 1, 2,...), для которых при данном а > 0 в условиях (17.7) неизбежно lim As = 0 при 5 ->- оо. Из этой последовательности vs можно выбрать слабо схо- дящуюся подпоследовательность (см. [6*], стр. 192) и т. д., как выше. Но в таком случае справедливо следующее заключение: для любого а > О можно указать число А ^> О, такое, что при условиях (17.7) экстремальная стратегия Ue обеспечит первому игроку результат у* сближения движений {у* It], z [t]} не худший, чем е° (t0, у0, zQ) + а, (то есть Ue обеспечит неравенство у* <! е° + а), какой бы ни была допустимая реализация v [t] управления v. Точно так же, при условиях (17.7) экстремальная стратегия Ve обеспечит второму игроку результат у* для него не худший, чем е° (tQ, у0, z0) — а (то есть Ve обеспечит неравенство у* ^ е° — а). Наконец, опираясь на непрерывность функции е° (t0, у0, z0), можно опять убедиться, что число А ^> О в (17.7) можно выбрать не зависящим и от исходной позиции {t0, у0, z0} для всех таких позиций из каждой ограниченной области 2? в пространстве {t, у, z). Эти результаты можно подытожить в виде следующего утверждения. Теорема 17.1. В регулярном случае игры из задач 7.1, 7.2 для каждой ограниченной области & в пространстве {t, у, z} при любом выборе а ^> О можно указать число А ^> О такое, что будут справедливы неравенства (\\{y*W}m--{z*№m\\\&mlUe, V; t09 l/o, *oJX <*°(t0fy0, z0) + a (17.12)
§ 18] УСТОЙЧИВОСТЬ СЕДЛОВОЙ ТОЧКИ 161 и (НУ* [*]}т - {** [Ф]}т|| I 30* [", ^ *о, ЙЬ *0J) > >е<>('о, */о, *о)-а, (17.13) каковы бы ни были начальные условия {t0, г/0, z0} из области <$ и допустимые реализации y[rfGfj,it[rfG %, ес/ш только возмущения параметров системы 2 и помехи стеснены условиями (17.7). Упражнение 17.1. Дать полное доказательство утверждений, приведенных в этом параграфе. Упражнение 17.2. Доказать или опровергнуть следующее утверждение: для любого а > О можно указать А > 0 такое, что при выполнении условий (17.7) расстояние между семействами 30 и 30* будет меньше а, то есть что при условии (17.7) не только семейство 30* будет лежать в а-окрестности 30 у но и, обратно, семейство 30 окажется в ос-окрестности 30 „ § 18. Устойчивость седло вой точки В предыдущем параграфе мы показали, что оптимальные движения {у U], zlt]} системы 2, которые в регулярном случае игры из задач 7.1, 7.2 порождаются экстремальными стратегиями Ue и Ve, обладают известной устойчивостью по отношению к малым возмущениям параметров данной системы 2. При этом стратегии U = Uei V = Ve, прилагаемые к новой возмущенной системе 2*, предполагались прежними экстремальными стратегиями, найденными для исходной невозмущенной системы 2 (хотя вследствие помех w^ законы управления (17.3) и (17.4), доставляемые стратегиями Ue и Vey также несколько искажались). Таким образом, в § 17 нас интересовало влияние малых возмущений параметров системы 2 на движения {у It], z[t]} при неизменных стратегиях Ue и Ve. Теперь мы обсудим другую задачу об устойчивости игры, а именно, задачу об устойчивости самих оптимальных стратегий Ue и Ve по отношению к малым изменениям параметров системы 2. Поэтому зададимся следующим вопросом: можно ли в регулярном случае утверждать, что малое изменение условий игры оказывает малое влияние на решение задач 7.1—7.3. В соответствии с этим б Н. Н. Красовский
162 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV вопросом теперь наряду с исходной системой 2, описываемой уравнениями (7.1), (7.2), где допустимые реализации управлений и [t] и v It] стеснены условиями (7.3), мы будем рассматривать возмущенную систему 2И, описываемую уравнением V* = М(1)(0 + ^(1)(')1 Ifc + u.+ fV(t) + M(1)(0, (18.1) ^ - [AW (t) + yJW (О] % + и + /<2> (t) + м(2) (*). (I8-2) причем будем предполагать, что допустимые реализации и [t] и v It] стеснены новыми условиями u[t]^%u^ v[t]^%\^ (18.3) Здесь [X —малый параметр и зависимость выпуклых замкнутых множеств %% ц и (fflu ^ от этого параметра предполагается такой, что в точке ц = 0 эти множества непрерывны относительно изменения [X. Предположим, что для системы 2^ при всех достаточно малых значениях параметра [X в игре из задач 7.1—7.3 имеет место регулярный случай. Обозначим символами U^ и V^ экстремальные стратегии, которые, как мы знаем, доставляют оптимальные стратегии, разрешающие задачи 7.1—7.3. Соответствующее гипотетическое рассогласование будем обозначать символом е£ (£, у, z). Справедливо утверждение. Теорема 18.1. В регулярном случае игры для любого а ^> 0 и для любой ограниченной области 2? в пространстве {£, j/, z} можно указать число А ]> 0 такое, что при выполнении неравенства ||i| < Д (18.4) будет справедлива оценка \4 (*о> У о *о) — 8° (*оэ У <>•> zo) l< a> (I8-5) какова бы ни была исходная позиция {£0, j/0, zQ} из области $. При этом для {t, y,z} Е§ при \\х\ ^ A (t, у, z) множества %^ (t, у, z) и °0^ (t, у, z)y определяющие экстремальные стратегии U^ и V{^\ будут содержаться в а-окрестностях множеств %е (t, у, z) и Ve (t, у, z), которые определяют экстремальные стратегии Ue и Ve.
§ 19] АППРОКСИМИРУЮЩАЯ СХЕМА 163 Мы не будем доказывать здесь теорему 18.1, предла- гвя выполнить это доказательство желающему читателю в качестве упражнения. Таким образом, мы видим, что в регулярном случае малое изменение параметров системы вызывает малое изменение оптимальных результатов игры е£ (t0, у0, z0). При этом седловая точка игры, определяемая стратегиями Uf\ Vf\ проявляет, таким образом, определенную устойчивость по отношению к возмущениям параметров системы. Надлежит обратить внимание на следующее обстоятельство: мы предполагали, что регулярный случай игры имеет место не только для исходной системы 2, но и для возмущенных систем 2^. Рекомендуем читателю в поряд- ве упражнения проверить, не вытекает ли такая регуляр- кость игры для системы 2^ при всех достаточно малых нначениях [х, если только игра регулярна для исходной системы 2 (то есть при \i = 0). Упражнение 18.1. Доказать теорему 18.1. Упражнение 18.2. Доказать или опровергнуть утверждение: если игра регулярна для системы S, то при всех достаточно малых значениях \i игра будет регулярной и для системы 2^. § 19. Аппроксимирующая схема Описание движений {у [t], z [t]} системы 2 при помощи дифференциальных уравнений (7.1) и (7.2), где реализации и [t] или v [t] управлений определяются кон- тингенциями и [t] е % (*, у It], z M), v It] ^W(t,y [t], z [*]), (19.1) является формальным математическим аппаратом, удобным для теоретических построений. Однако возникает естественный вопрос о том, как эти движения {у [t], z [t]} и управляющие усилия и [t], и [t], описанные данным формальным аппаратом, строятся конструктивно. Для ответа на этот вопрос мы привлечем здесь" ту схему коррекции управляющих усилий и [t] и v [t] в дискретные моменты времени xiy которая уже упоминалась выше при б*
164 решение конфликтной задачи сближения [гл. iv обсуждении проблемы существования решений уравнений (7.1), (7.2) в контингенциях (см. § 6). Напомним вкратце эту схему. Заданный отрезок времени [t0,-&] покрывается системой полуинтервалов xt <Г t < xi+1 (*о — t0, xi+i —xi — Д > 0). При выбранной стратегии U или V реализации ггд [t] или vA [t] управлений определяются равенствами (при xt<^ t <ах11г) uA[t] = и [х,] ее% (т4, уА [г*], *д [tj), (19.2) *д It] = г; [tj ЕЕ У (rif уд [т,], zA [т,]), (19.3) где {z/д [J], zA[t]} — решение тех обыкновенных дифференциальных уравнений, которые получаются из уравнений (7.1) и (7.2) при и = ид [£] или у — уд [t] (и при интегрируемой допустимой реализации v [t] или и [t] другого управления, если только какое-нибудь одно из двух управлений (и или v) конструируется по схеме (19.2) или (19.3)). Таким образом, реализации управлений, конструируемые по схеме (19.2), (19.3), сохраняют постоянное значение на полуинтервалах xt <C t <Z t^+i и величина их на этих полуинтервалах определяется позициями {**, у [tj, з [т$]}, которые реализуются в системе 2 к моментам t = xt. Выбор значений и [xt] или v [xt] в (19.2), (19.3) стеснен лишь указанным там вложением, но, разумеется, на каждом шаге должно выбираться какое-то определенное значение вектора и [xt] или v [xt]. Для упрощения записи мы здесь предполагаем, что длина Д полуинтервалов [хи х(+г) в условиях (19.2), (19.3) одна и та же, а множества %t и V*t не зависят от t, однако соответствующие выкладки можно провести, не делая этих предположений. Итак, в дальнейшем мы предполагаем, что множества %t и Wt в условиях (7.3) от t не зависят, и будем обозначать их через % и ^. В случае, если множества °Ut и Wt переменные, управления ид [t] (19.2) или vA It] (19.3) могут оказаться недопустимыми в том смысле, что при %i <^ t <^ t|4-i для них могут нарушиться вложения ггдМсЕ%или Рд Мее?^. Тогда стратегии £ЛА> или 7<А> надлежит строить иначе, полагая функции иА [t] или vA [t] переменными при xt<^t <^хь+г, но определенными снова лишь позицией {хь у [tj, z [t|]}. Подробный раз-
§ 19] АППРОКСИМИРУЮЩАЯ СХЕМА 165 бор этой ситуации, отвечающий переменным %t или W%, мы представляем читателю в качестве упражнения. В § 6 было отмечено, что движения {уА [£], 2Д [t]} порожденные в системе 2 управлениями (19.2), (19.3), аппроксимируют движения {у [t], z [t]} этой системы, порождаемые интегрируемыми управлениями и [t] и v [t], которые диктуются контингенциями (19.1). Обозначим символом &а [U, у; t0, у0, z0] (или && [и, V; t0, у0, z0], или 9Сь W, V; t0, у0, z0]) семейство движений {уА [t],z± [t]} системы 2 при управлении ид U], диктуемом правилом (19.2), и при какой-то допустимой реализации и It] другого управления (или при управлениях Уд [t] (19.2) и и [t], или, наконец, при управлениях мд [*], г;д [t] (19.2), (19.3) соответственно). Тогда можно высказать утверждение. Лемма 19.1. Пусть выбраны допустимые стратегии U {£, y,z} и V {£, z/, z). При данных £0, z/0, z0 для любого наперед выбранного числа а ^> О можно указать число Да ^> О такое, что при выполнении неравенства Д<Да (19.4) семейства движений 9С'д [U, v; tQ, z/0, z0], 9Cд [и, V; t0, у о, z0] и Й7д [U, V; t0, z/0, z0] будут лежать соответственно в а-окрестностях семейств 9C\U,v\ *0, y0,z0], 30 [и, V; t0lу0,z0], ЗС [U, V; *0, y0l z0], каковы бы ни были допустимые реализации и [t] или v [t]. Для каждой ограниченной области & в пространстве {t, у, z} число Да в условии (19.4) можно выбрать независимым от позиции {t0, у0, z0} Ez&. Доказательство леммы 19.1, как и доказательство теоремы 18.1, которому оно подобно, мы здесь опустим, предоставляя его желающему читателю. Прямым следствием непрерывности функции е° (t, у, z), леммы 19.1 и теорем 16.1—16.3 является следующее утверждение. Теорема 19.1. В регулярном случае игры из задач 7.1, 7.2 для каждой ограниченной области & в пространстве {t, у, z} при любом выборе а > О можно указать число Да ]> 0 такое, что при выполнении условия (19.4) будут
166 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV справедливы неравенства (11&/Д [О ]}т - {*fo Dm!! |#Д [Ue, и; t0, l/o, ZQ]) < < e° (*0, y0l z0) + a, (19.5) (llfofoDm- {zaMUI |й?дЫ, Fe; *0, i/0, z0]) > > e° (*0> 0o> *o) ~ a, (19-6) какова бы ни была исходная позиция {£0, г/0, z0} ггз области & и какой бы ни оказалась допустимая реализация и [t] или v [t]. Итак, мы видим, что схема управления (19.2) и (19.3) в регулярном случае достаточно хорошо аппроксимирует оптимальные стратегии Ue и Ve, указывая таким образом конструктивный механизм (19.2), (19.3), аппроксимирующий формальные законы управления, описываемые контингенциями (19.1). Однако описанной схеме дискретного управления (19.2), (19.3) можно придать и самостоятельный характер, если игровую задачу с самого начала поставить в классе стратегий £ДД) и V^A\ каждая из которых по определению является совокупностью управлений ид U], Уд [t] вида (19.2), (19.3), отвечающих всем достаточно малым положительным значениям Д. При этом, конечно, и результат игры, отвечающий той или иной стратегии £ЛА> или V^A\ надлежит оценивать сконструированным должным образом показателем. Поясним это подробнее. Предположим, что каждой позиции {£, у, z} сопоставлены множества % (/, y,z) ЕЕ%и?/ (t, у, z) £= V*, складывающиеся из векторов и и v соответственно. Аппрокси- мационной стратегией U(A\ отвечающей множествам ЭД (*> У, z)i будем называть совокупность тех способов управления, которые определяются правилом (19.2) при всевозможных значениях А ^> 0. Каждый такой способ управления при фиксированном А можно называть тактикой, содержащейся в стратегии £ДА>. Будем обозначать тактики символом £/д. Таким образом, £/д есть закон управления, осуществляемый по правилу (19.2) при фиксированном А, а lftA) — есть совокупность тактик [7Д, отвечающих всевозможным^ А ^> 0* Это обстоятельство будем отмечать символическим включением U& ее е £7(Д). Аналогичным образом аппрексимационная страте-
И91 АППРОКСИМИРУЮЩАЯ СХЕМА 16? гия V(A), отвечающая множествам V (t, у, z), определяется как совокупность тактик Уд, которые задаются правилом (19.3) при всевозможных значениях А, что будем изображать символическим включением Гд ЕЕ У(Л). Будем говорить, что стратегия СЛЛ> обеспечивает преследователю предельный результат игры yW(U^; t0, 2/o> *о)> определяя эту величину равенством т(д> ([ЛЛ); *о, Уо. *о) = Hm sup sup (r| SVa [UAi v\ t0, y09 z0])t (19.7) где £/д GE ?7(Л) и верхняя грань берется по всем допустимым реализациям и [t] е? W% {h <. £ < d). Иначе говоря, при выборе стратегии £ЛД> -f- % (t, у, z), каково бы ни было число а > О, можно указать число Да ^> О такое, что осуществление любой тактики С/д ЕЕ ЕЛД) при Д <Г Аа обеспечивает преследователю реализацию рассогласования \\{Уа t#]}m ~ {z[Ol}m|| He большую, ЧвМ у(д) + а, с какой бы реализацией v [t] преследователь не столкнулся. И уЛ) есть наименьшее число, удовлетворяющее этому условию. Аналогичным образом будем говорить, что стратегия V^ обеспечивает преследуемому предельный результат игры у(д) (F<A); t0, y0 z0), определяя эту величину равенством - lim inf inf (г | 9Са [и, VA\ t0, y0y z0]), (19.8) А -* 0 и [*] где Va ЕЕ V^ и нижняя грань берется по всем допустимым реализациям и [t] ЕЕ % (£0 *С t^ft). Иначе говоря, при выборе стратегии У(д> ч- 2^ (t, у, z), каково бы ни было число а ^> 0, можно указать число Да > 0 такое, что осуществление любой тактики Va ЕЕ F<A> при Д <J Да обеспечивает преследуемому реализацию рассогласования 11{у[Ф]}т ~ {з[<Н}т|| не меньшую, чем у(Д) — а, с какой бы реализацией и [t] преследуемый не столкнулся. И 7(Д) есть наибольшее число, удовлетворяющее этому условию. При такой трактовке теорема 19.1 превращается в следующую теорему о седловой точке для игры на рассогла-
1в8 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ! trjl. IV сование у = \\{у [Щ}т — {z[$]}m\\ в аппроксимационных стратегиях £ДА) и У<д). Теорема 19.2. В регулярном случае игры из задачи 7.3 аппроксимационные экстремальные стратегии £/(еЛ) -ь % {tj у, z) и ViA) -~- ^е (£, I/, z) обеспечивают предельную седловую точку игры на рассогласование у = ||{i/[d]}w — {^[dljmll так, что выполнены равенства Г(А)(С/(еД);*о,2/о, *о)=- minr<*>(t/<A>; «о, 1/о, во) = и(д) = тахГ(Д) (F<A>; *0l y0, z0) = у(Д) - Т(Д) (F<A>; *о. 2/о, *о) - е° (*0| у0, *0), (19.9) какова бы ни была исходная позиция {t0, у01 z0}. (В соотношениях (19.9) величины пппи(Д) и таху(Д) вычисляются по всем возможнык аппроксимационным стратегиям £ЛА> и F<A) соответственно). § 20. Сближение однотипных объектов В предыдущих параграфах было показано, что в регулярном случае игра из задачи 7.3 имеет седловую точку, которая доставляется экстремальными стратегиями Ue и Ve. Эта седловая точка устойчива и хорошо аппроксимируется. Стало быть, данный случай игры обладает приятными свойствами. К сожалению, для системы 2, описываемой уравнениями (7.1), (7.2) при ограничениях (7.3), трудно указать более или менее общий эффективный критерий, который позволил бы заранее определить по параметрам уравнений (7.1), (7.2) и множеств %t и V\ в (7.3), встретимся ли мы с регулярным случаем игры. (Подчеркнем, что речь идет именно об априорной проверке регулярности игры по параметрам системы 2. Проверка регулярности ситуации, которая складывается в той или иной конкретной реализующейся позиции, не доставляет, пожалуй, столь больших трудностей, ибо для этого согласно определению 13.1 достаточно убедиться в единственности вектора Z0, разрешающего задачу на ъшксимум из (13.13).) Поэтому в данной монографии мы опишем
§ 20] СБЛИЖЕНИЕ ОДНОТИПНЫХ ОБЪЕКТОВ 169 лишь один, довольно простой тип системы 2, для которой гарантирован регулярный случай игры. Это будет система 2, складывающаяся из двух однотипных объектов. Именно, будем говорить, что преследующий и преследуемый объекты, однотипны, если размерности фазовых векторов у и z совпадают, матрицы AW (t) и Л<2) (t) в уравнениях (7.1) и (7.2) одинаковы и множества %t и Wt в условиях (7.3) подобны и одинаково ориентированы в пространствах {и} и {v}. Таким образом, движение однотипных объектов описывается уравнениями }/=A{t)y + u + fi» (0, (20.1) z = A (t) z + v + /W (0, (20.2) причем управления и и v стеснены условиями и[*]е%, »[<]Sfi, (20.3) где множества %t и Vt при каждом * подобны. Примем, что отношение размеров множества %{ к соответствующим размерам Vt равно числу р, которое будем называть коэффициентом подобия. Справедливо следующее утверждение. Лемма 20.1. Если в условиях (20.3) Р > 1, то в игре на сближение однотипных объектов (20.1), (20.2) имеет место регулярный случай. Ге ометрический смысл леммы 20.1 совершенно прозрачен. Области достижимости G^ (t, у,О) и G(2) (£, z,ft) для однотипных объектов в пространстве {q} являются, как обычно, замкнутыми и выпуклыми множествами, которые теперь еще и подобны и одинаково ориентированы в пространстве {q}. При этом размеры области G<M (t, г/,О) в р раз больше, чем соответствующие размеры области Х(1°) Рис. 20.1.
170 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV №> (t, z,0), если р ]> 1. Если же р = 1, то размеры областей &$ (t, у, ft) и G& (t, z,ft) совпадают. Но тогда понятно, что при условиях р > 1 и 8°>0 граница Н®* области G& может пересекаться с границей И$ области G^o лишь по такому множеству Q0, которое укладывается целиком на одну-единственную гиперплоскость X (/°), касательную к поверхности Н^о (рис. 20.1). Строгое доказательство леммы 20.1 получается следующим образом. Гипотетическое рассогласование 8° (t, у, z) при условии е° ^> 0 определяется соотношением (13.13), где величины р^>, z° и у0 задаются равенствами (13.1), (13.3), (13.7), (13.8). В нашем случае однотипных объектов фундаментальные матрицы Y (т, т0) и Z (т, т0) совпадают и множества %t и Wt подобны с коэффициентом подобия р. Поэтому р<1> (£,#, I) = Рр(2> (£,$, I) и, следовательно, соотношение (13.13) принимает вид ео (*, у, z) = шах [(1 - р) р(« (Г, О, I) - V {*о (f, х, *)}m], (20.4) где z = y — z и я° (*, х, О) = X (d, t)x + [x (д, т) (/(D (т) - /(2) (т)) dt, (20.5) причем X (т, т0) — фундаментальная матрица решений для уравнения *L=A(t)x. (20.6) Надлежит рассмотреть два случая: р = 1 и Р ^> 1. Пусть сначала Р = 1. Тогда в (20.4) при условии е° ^> 0 обязательно {х°}тф 0, то есть вектор {х°}т не может быть нулевым. Но хорошо известно (см., например, [8*], стр. 195; [19*], стр. 235—239), что получающаяся теперь задача: найти вектор 1°, который доставляет максимум выражению — V {х°}т при условии ||Z|| = 1, имеет един- ственное решение 1° = ~{х0}т/\\{хР}т\\, если только, как у нас, {х°}ш Ф 0. Пусть теперь Р ]> 1. Тогда мы сталки-
g 2o] СБЛИЖЕНИЕ ОДНОТИПНЫХ ОБЪЕКТОВ 171 ваемся с такой ситуацией, с какой уже имели дело раньше в § 13 на стр. 131—132, где была доказана единственность вектора Z\ удовлетворяющего условию (13.14). Поэтому проведем здесь аналогичное рассуждение. Предположим от противного, что максимум в правой части (20.4) достигается на двух различных векторах Z<L> и №. Не может быть Z<2) = —Z<1>, ибо тогда по известному свойству функции р<2> (см. § 45, (45.7), кроме того, данное свойство можно усмотреть прямо из определения (13.8) этой функции) имеем р(*> (*, Ф, Я») + Р(2) (*, 0, *(2)) > Р(2) (*, Ф, № + /(«)), (20.7) и поэтому из (20.4) вытекает неравенство 2б0 = (1 - Р) [р(2) (*, ф, /(D) -f p(2) (*, #, P2))] < < (1 - Р)р(« (t, О, Z*1) + *(2)) = (1 — P) P(2) (*, #, 0) = 0, которое противоречит условию e° > 0. Однако если /(i) ф —/(-), то можно составить новый единичный вектор Z* = [Z(0 + 1Щ1\\1<Х) + Щ\ . Вычислим правую часть (20.4) при Z = Г. Учитывая свойства функции р<2>, описываемые неравенством (20.7) и соотношением (см. § 45, (45.8)) р») (*,*, al) = сср« (<,ф, I) (а > 0), получим (1-Р)р»)(*,0,Г)-Н{«о}т> > |/<о"^%)|-[р(2) (<' #''(1)> + р(2) <*• d'Z(2))1 - Так как || Я» + »»> || < |»» | + || ДО 1=2, то из' (20.8) следует неравенство (1-Р)р<«(М>,Г} -Г {*?}«> е°, которое противоречит (20.4). Полученное противоречие доказывает единственность вектора Z0, максимизирующего правую часть (20.4). Тем самым лемма 20.1 доказана.
172 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Итак, задачи 7.1—7.3 для системы 2, складывающейся их двух однотипных объектов, при условии Р > 1 характеризуются регулярным случаем игры и разрешаются, следовательно, экстремальными стратегиями Ue и Ve. Оказывается далее, что при условии р > 1 эти стратегии можно искать, опираясь на упрощенную экстремальную конструкцию, которая получается свертыванием общей экстремальной конструкции, описанной в § 13. При этом главную роль будет играть следующая вспомогательная задача об оптимальном программном управлении. Задача 20.1. Рассмотрим управляемую систему, описываемую уравнением 2L=..A(x)x + w+f(t). (20.9) Для заданной исходной позиции {^, xt) требуется среди допустимых управлений w (т) (^^т^Гф), стесненных условием w(x)^W^ (20.10) найти оптимальное управление w° (т), которое доставляет минимум величине 8 = |{*(0)}»1- (20-11) Здесь Wt — ограниченные выпуклые замкнутые множества, непрерывные относительно изменения т. Решение задачи 20.1 известно (см. Приложение, § 49, стр. 411—412). Минимальное значение е° (^, xj), доставляемое искомым оптимальным управлением w° (т), определяется равенством (если правая часть его положительна, иначе е° = 0) в°(*.,<)= тах [-Р('*> *. 0-П*°('.. *..*)}«]. (20.12 1141=1 где, как обычно, р(* , О, /)= шах (l'\ {Х(Ф, x)w(x)}mdx) (20.13)
g 20] СЁЛШКЁЙЙЕ ОДНО*ГИПН4лХ ОБЪЕК'ГОЙ \% *° (*.. Х*^) = х (*. К) х* + \х (*. т) / (*)dT> (20-14) причем X (т, т0) —фундаментальная матрица решений для уравнения (20.6). Если е° (t#, #J ^> 0, то само опти- -Ш1 2(1°) C»,t;&...<m) Рис. 20.2. мальное управление w° (т) удовлетворяет условию максимума s' (х) w° (х) = max s' (т) w\ (20.15) где s (т) — решение уравнения удовлетворяющее краевому условию «(d) ■ 0 (20.16) (20.17) причем 1° — единичный m-мерный вектор, максимизирующий правую часть в равенстве (20.12). Таким образом, решение задачи 20.1 в случав е° (*»> х,) ^> 0 Дает следующую картину (рис. 20.2).
174 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Оптимальное управление w° (т), удовлетворяющее условию максимума (20.15), приводит оптимальное движение х (t)° к моменту ^=д на сферу S fi{*}m|| = e° (*.,*,) в некоторую точку q*. В этой точке область достижимости G (t^ £,,-&) (для движения х (т) (20.9) к моменту т = # Рис. 20.3. из положения х (tj) = x^ и при ограничении (20.10)) касается указанной сферы £, причем гиперплоскость X (Z0), касательная и к сфере 5\ и к области G в точке (Д описывается уравнением 8о _|_ /о'д = 0. Можно построить и другую картину (рис. 20.3). Рассмотрим замкнутую е°-окрестность GE* (^, х^ -&) области G (t^ x^ ф). Мы знаем, что эту е°-окрестность Geo в свою очередь можно трактовать как область достижимости для движения х (т) (20.9) к моменту т =# из состояниям (tj) = хф, но теперь уже при допустимых управлениях wp (т) = w (т) + рб (т —О),
§ 26] СБЛИЖЕНИЕ ОДНОТИПНЫХ ОБЪЕКТОВ 175 где интегрируемая функция w (т) по-прежнему стеснена ограничением (20.10), а вектор р стеснен условием 1рК*° ('..*•)• Область Geo(^, х^ -&) касается точки q° (^, xj =0 своей границей Я£о. Гиперплоскость X (1°), касательная к поверхности Яео в точке д° = 0, описывается уравнением l°'q = 0, (20.18) причем вектор Z0 есть вектор внешней нормали к Нго, Последняя картина и дает нам упрощенную экстремальную конструкцию, о которой шла речь выше. Именно, величину е° (tm, x^) мы будем именовать гипотетическим рассогласованием, пересечение Q° (^, xj поверхности #ео (^, хт) с гиперплоскостью % (1°) (20.18) — областью прицеливания, а векторы we€EWt*, удовлетворяющие условию максимума s'(t)We= max s'(tjwf (20.19) которое вытекает из (20.15), назовем экстремальным управлением (в момент t = tm) — все в упрощенном варианте. Основание для таких наименований доставляет следующая теорема 20.1. Обозначим символом We (**» #*) совокупность векторов we, удовлетворяющих условиям (20.19). Те о р е м а 20.1. Пусть Р > 1 ив задаче 20.1 /(t)=/(i)(t)-/(2)(t), а множество Wx подобно множеству ¥УХ и одинаково с ним ориентировано, причем отношение размеров Шч к размерам V\ равно числу Р — 1. Тогда экстремальные стратегии Ue и Ve для игры сближения однотипных объектов (20.1) и (20.2) при ограничениях (20.3) задаются множествами 41 е (t, у, z) и We (£, у, z), которые получаются из множества We (t, х) при х — у -~z подобным преобразованием с коэффициентами подо- бия кх — R_ , и к2 = R __м соответственно. Величина гц-
176 РЕШЕНИЕ КОНФЛИКТНОЙ'ЗАДАЧИ СБЛИЖЕНИЯ 1ГЛ. IV потетического рассогласования е° (t, у, z) равна величине 6° (*, х) (х = у — z). Справедливость теоремы 20.1 обусловлена тем обстоятельством, что в случае однотипных объектов рассогласование х [t] = у [t] — z [t] описывается уравнением ±=A(t)x + u—v+ /<*> (*) - /(« (*). (20.20) (Здесь полезно вспомнить рассуждения из § 3, стр. 32— 35). Формально доказательство теоремы 20.1 вытекает немедленно из (20.19) при сравнении соотношений (20.4) и (20.12), (13.8) и (20.13), (20.5) и (20.14). Итак, мы видим, что для построения экстремальных стратегий Ue и Ve в случае однотипных объектов можно пользоваться описанной выше упрощенной экстремальной конструкцией, которая определяется решением вспомогательной задачи 20.1. Пример регулярного случая игры на сближение однотипных объектов дает задача, сформулированная в § 14. Другим полезным примером будет задача из § 3, если эту задачу наведения в пространстве {х} = {хг, х2} развернуть в задачу о сближении двух однотипных управляемых движений у [t] = {уг [t], y2 [t]} и z [t] = {zx [t], z2 [t]}, полагая x It] = у [t] — z [t]. На последнем примере особенно удобно проследить, как экстремальные стратегии Ue {t, i/, z} и Ve {t, г/, z} определяются законом управления We {t, x}. He обсуждая здесь подробно этот вопрос, отметим лишь, что поверхность S, определяющая оптимальные законы управления в § 3, есть как раз та поверхность, которая определяет оптимальное управление we {t, х} в задаче синтеза системы & = А (т) х + w при условии минимума величины |1#[ф]|| и при ограничении И<1* - v- § 21. Регуляризируемый случай В §§ 16—20 был исследован регулярный случай игры из задач 7.1—7.3. Было показано, что в этом случае экстремальная конструкция, описанная в §§ 11—15, доставляет способ построения оптимальных стратегий Ue и V?, которые разрешают упомянутые задачи. Теперь мы
§211 РЕГУЛЯРИЗИРУЕМЫЙ СЛУЧАЙ 177 перейдем к обсуждению менее приятных случаев игры на сближение, когда условие регулярности, указанное определением 13.1, уже не выполняется. Предмет данного параграфа составляют, однако, такие нерегулярные ситуации, которые допускают все-таки определенную регуляризацию, достигаемую смешиванием управлений, прицеливающих движение у [t] в различные точки, лежащие на границе области достижимости G^ этого движения к моменту времени О. Данная регуляризация хотя и не дает строго оптимальных решений, но (по крайней мере в принципе) позволяет преследователю приблизиться сколь угодно близко к предельной оценке б° (*о> Уо, zo) результата игры. Мы ограничимся при этом лишь обсуждением проблемы минимакса, интересуясь, следовательно, только задачей о построении рациональных стратегий для первого игрока — преследователя. Вопросы построения рациональных стратегий, диктующих управление по принципу обратной связи второму игроку — преследуемому, остаются читателю для самостоятельного обсуждения. Для осуществления нужной регуляризации нам прежде всего придется несколько модифицировать экстремальную конструкцию так, чтобы можно было извлечь из нее упомянутый выше смешанный способ экстремального прицеливания. Сделаем это. Итак, рассмотрим снова систему 2, складывающуюся из двух управляемых объектов, описываемых уравнениями (7.1) и (7.2) при ограничениях (7.3). Пусть реализовалась позиция {^, у^, z^}. Сконструируем опять, как и в § И, воображаемые движения у (г) и z(t) (^<т<0, У (О = У*> z (О ~ z*)> подчиненные уравнениям (11.1) и (11.2), и сформируем в m-мерном пространстве {q} точек q = {у}т, q = {z}m области достижимости G(1) (**> У., #), GiX) (*., У., О) и №> (*,, z,,fl) этих движений у (т) и z (т) при ограничениях (11.3) — (11.5). Пусть снова G^o (£+, у+, Ь) — наименьшая область Ggl), содержащая ©9>*(^, ^,0). Мы знаем уже (см. стр. 107—108), что первый игрок, выбирая допустимые управления м 1*1 (£„ <^ £ <'Ф), никоим образом не может гарантировать* себе сближение у — \\{у [-&]}т — (z[d]}m|| меньшее, чем e°(f„, уф, zj. Мы знаем также, что в регуляр-
178 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV ном случае, когда границы Я^ и Н^ областей G&V,,'[«]. *[«]>(*. У['1.Ф) и &2) (*. ^ М.О) при е° ^> 0 пересекаются всегда при t^> tt лишь по множеству Q° (t, у It], z [£]), которое укладывается в одну-един- ственную гиперплоскость X (1° [*]), экстремальная стратегия Ue {t, у, z} обеспечивает преследователю сближение не большее, чем е° (^, у^ zj. Этот регулярный случай теперь мы оставим в стороне и допустим такие ситуации, когда для некоторых позиций {^, I/,, z,}, где е0(^, уш, 0>0» множество (?° (*„*/„ zj не будет укладываться целиком на одну какую-нибудь касательную к области G(eV гиперплоскость Ж. Если и в этих случаях, начиная с позиции {t0, у0, z0}, мы пожелаем управлять движением у [t] (7.1) так, чтобы обеспечить преследователю результат игры у не худший, чем е° (tQ, */о> zo)> то нам придется позаботиться о сохранении вложения <?<•>(*,*[*], *)-с GJi)(fiiV#i,t>(*, »,[*], д) (21.1) при всех 2 > £0, как бы ни действовал допустимым образом преследуемый. Однако сохранить такое вложение в нерегулярных ситуациях не так-то просто. Чтобы убедиться в этом, мы предлагаем читателю самостоятельно просмотреть возможные способы управления, например, в ситуации, когда границы имеют две общие точки q№ и #(2\ одна из которых лежит на одной касательной к G^o гиперплоскости X (Z&)), а другая — на другой касательной к GgV гиперплоскости X (Z(a)). В таких ситуациях для сохранения вложения (21.1) (или для выполнения какого-либо другого аналогичного условия, обеспечивающего успешное завершение игры) целесообразно в число аргумздгтв, которые определяют управляющее воздействие 1#.|р*:мШент £, вводить величину v = = v [t], предполагая, таким образом, что преследователю в этот момент уже известно, какое управляющее воздействие реализует преследуемый (см. по этому поводу в § 1 примечание 1.1, стр. 15). Однако мы рассмотрим здесь другую возможность, избегая прямого использования значений v [t] при вычислении управления и [t]. Но при этом придется несколько проиграть на гарантированном
§ 21J РЕГУЛЙРЙЗЙРУЕМЬТЙ СЛУЧАЙ 1?9Ч рассогласовании у = \\{у [$]}т — {z {r}]}m||, которое уже окажется большим, нежели величина е° (*0, у0, z0). Перейдем к конкретным построениям*), причем будем иметь в виду лишь случаи т <^ 3 с тем, чтобы не выходить за рамки стандартной инженерной математики. (Нам придется интегрировать по поверхности сферы в т-мерном пространстве. При желании читатель может распространить конструкцию на случай любого т.) Пусть а — малая положительная постоянная, которую мы зафиксируем. Область G<2> (tQ, £о>Ф) лежит строго ВНУТРИ G%Qt Vnf Zl) + a(t0,y0, f) ) (рис, 21.1). Выбор управления и [t] при t > t0 мы Рис. 21.1. постараемся осуществить так, чтобы сохранить вложение G%(t, z[t],b)a G&a (t,y [i], *) (21.2) для всех t^t0 при неизменных значениях а и 8° = = е° (^о> Уо> zo) и ПРИ положительной переменной r\[t]. (Символ G^2) обозначает Ti-окрестность области С?<2>.) Предположим на время, что вложение (21.2) действительно удается сохранить для всех t^t0 вплоть до момента t =ft. Но вложение (21.2) при t =ф означает, что точка {z [О ]}т находится в (е° + а)-окрестности точки {Vfo]}m, так как G(2>(ft, z Ш, ft) = {z [f}]}w и £(i) (Ф, J/1#],0) = {г/ [ft]}m. Следовательно, сохраняя вложение (21.2), мы получим рассогласование У = \\{У Ш}т - {^ [*]}m!l < е° (*0, 1/0, z0) + a. Итак, пусть в какой-то момент t = ^ > £0 сложилась позиция {^, I/ UJ = i/,, z [tj = z^}, причем для данного t = t^ выполняется условие (21.2). Выберем какой- *) Другой подход к построению управления в нерегулярных случаях описан в конце книги в §§ 39—41.
180 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. iV нибудь единичный m-мерный вектор/ внешней нормали к границе Я^!+а области G(e!+a (t„ г/+, ф). (Напомним, что величину 8° мы предполагаем при всех t !> 10 неизменной, равной 8° (£0, г/0, z0). Однако мы не пишем аргументов t0i y0, z0, чтобы не загромождать запись.) Обозначим символом со (^, у^ z^ l) расстояние от гиперплоскости 35<1> (Z), касательной к поверхности Я^о+а(^, */*,#) и ортогональной к вектору I, до гиперплоскости i£(2) (Z), которая также ортогональна к вектору I и является опорной к области G<2> (^, z^ft). При этом обе области ^ц_а и 6?<2> расположены от соответствующих плоскостей %М (I) и X™ (I) в направлении, противоположном направлению вектора I (рис. 21.2). (Гиперплоскость %М (I) мы назвали касательной к Hil+a, а гиперплоскость 3!№ (I) — опорной к Сг<2). Разница в наименовании объясняется желанием подчеркнуть следующее обстоятельство. Поверхность #еч-а в точке q соприкосновения с плоскостью %W (I) имеет кривизну не большую, чем е° + а, и, следовательно, плоскость ХМ (I) является касательной к этой поверхности в самом обычном смысле, принятом в математике. Разумеется, эта плоскость является одновременно и опорной к области С?У+а. Точка же соприкосновения поверхности Я<2> с гиперплоскостью Х^ (I) может оказаться конической точкой (см. Приложение, § 48). Тогда уже опорную гиперплоскость Х<2) (Г) не совсем удобно именовать касательной к поверхности Ш2К) Мы знаем (см. § 13, стр. 134), что величина со (**> У » 2*> I) изображается равенством ©С. У** С 0 = ео -Ь« + Р(1)(*„ v„ J)-p<»>(*., v„ Z) + + J'({0°('.. V.. *)}m- {*°(*„ г., 0)}m), (21.3) Рис. 21.2.
§ 21] £ЁГУЛЯРИЗИРУЕМЫЙ СЛУЧАЙ 181 где функции р\ у0 и z° определены соотношениями (13.1), (13.3), (13.7), (13.8). При условии (21.2) величина со (t, у [t], z [t], I) положительна для всякого I. Обратно, если со (t, у It], z [fl, Z) > 0 при всяком значении единичного вектора Z, то справедливо вложение (21.2) (проверку этого факта предоставляем читателю). Выберем теперь некоторую функцию ф[£, col, удовлетворяющую условиям: (1°) функция <р [t, со] определена, дифференцируема и неотрицательна при t0 <I t <l -&, со > 0- (2°) При каждом фиксированном значении t функция ф U, со ] монотонна по со и при со -> 0 имеет порядок величины агт+1 при т ^> 1 или порядок со"1 при т = 1. Составим функцию Ц^у, з) = $<£[*, ю (*,P,z, /)]dt, (21.4) s где 5 — поверхность единичной сферы || 11| = 1 в m-мерном пространстве {Z},d£ — элемент поверхности этой сферы. Переменная со (t, у, z, l) имеет непрерывные частные производные по t, ^ и ^, как это следует немедленно из выражения (21.3) с учетом равенств (13.1), (13.3), (13.7), (13.8), которые определяют величины р^>, у0 и z°. Но тогда и функция ф будет иметь непрерывные частные производные по t, ft и Zj, если только со (£, у, я, I) ^> 0 при всех I. Следовательно, согласно известной теореме из анализа о дифференцировании интеграла по параметру (см. [18*, т. II], стр. 665), мы можем утверждать, что и функция X (t, у, z) имеет непрерывные частные производные по t, уi и Zi, если только для точки {t, у, z) выполняется включение Gf{tfz,b)aG%a{t,y,b) (21.5) й\ йУ, Я7 при г) ^> 0. Эти производные -^т-, — и — определяются равенствами (вычисление производных d®ldt, d^ldy^ да/dZi аналогично вычислению производных в § 16 для функции 8° (13.13) (см. стр. 149—152), но это вычисление упрощается здесь из-за действительного постоянства
182 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ 1!ГЛ. IV вектора I) at ~~ }[dt ~т~д<й * dt J fc IE -"•j-gojg,^ p.,,.,- - max (s<»>' [t, l]v) + sd)' [*, *] (AW (t) у + /<«(<)) — -*«'[*, Ш4<»(0* + /(1>(0))Г<*£. (21-6) г *>*• »J £L Здесь символы $0') [^ /] обозначают решение s<# [t, I] уравнений 2£ = -А0У(х)еИ> (/ = 1,2) при краевом условии S& [Ф Составим вектор •""[о] (21.9) (21.10) «(*,*/, z)^= — dyi д% L«*„(i) =-$[Ss(1)[M]]d?: (21л1) и назовем смешанным экстремальным управлением (в позиции {£, у, z}) всякий вектор ueEz%t, удовлетворяющий следующему условию максимума: s' (t, г/, z) ие = max s' (г, г/, 2) и. u&Ui (21.12) Смешанную экстремальную стратегию Ue мы зададим теперь множествами %е (t, у, z\ e°, а), которые для каж-
§ 21] РЕГУЛЯРИЗИРУЕМЫЙ СЛУЧАЙ 183 дой позиции {t, у, z} складываются из всех векторов ие, удовлетворяющих условию (21.12). Эти множества Че (*» У-> z\ 8°» °0» разумеется, имеют смысл только для таких позиций {t, у, z}, где со (t, у, z, I) > 0 при всех /, то есть где выполнено вложение (21.5). Множество таких позиций {t, у, z} при г<Ф составляет открытую область & в (тг(1) + nW + 1)-мерном пространстве {t, у, z}. (Доказательство предоставляем читателю.) В этой области & смешанная экстремальная стратегия Ue допустима. В самом деле, множества %е (t, у, z\ е°, а), задающие стратегию Ue, складываются из векторов ие, удовлетворяющих условию (21.12). Эти множества, очевидно, выпуклы и замкнуты, так как выпуклы и замкнуты множества %. Но из равенства (21.11), которое определяет вектор s (t, у, z), заключаем, что с изменением позиции {t, у, z) в области & этот вектор изменяется непрерывно, ибо подынтегральное выражение в правой части (21.11) есть функция непрерывная по всем своим аргументам. Из непрерывности вектора s(t,y,z) по лемме 15.3 заключаем далее, что выпуклые замкнутые множества %е (t, у, ъ\ е°, а) полунепрерывны сверху по включению относительно изменения переменных t, у, z в области $. Это и доказывает допустимость стратегии Ue в данной области $. Следовательно, при допустимом управлении v = v [t] и при управлении и, которое определяется контингенцией dflGC (*, y'ltl z It]; 8°, a), (21.13) система уравнений (7.1) и (7.2) будет иметь решение {у It], z [t]} (у [t0] = y0, z [t0] = z0), продолжимое для всех тех значений t > t0l при которых позиция {£, у [t], z [t]} будет еще оставаться в области $, то есть до тех пор, пока позиция {t, у [t], z [t]} не выйдет на границу области $. Теперь, следовательно, надо указать условие, которое позволяло бы проверять сохранение позиции {t, у [t], z[t]} в области &. Для этой цели мы и используем функцию X (£, у, z), которая как раз определена в области &. Справедливо следующее утверждение.
184 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Теорема 21.1. Составим выражение x(t,y,z) = n(D дХ n(i) u=«^ *=у( I-§£- -+- Zj %. Zj aij It) J/j -г Щ + h кч + n(2) n(2) + 2 |гГ2 <#(«>* f Vt + fPit)]). (21.14) £Ъш # любой позиции {t, у, z} из области & выполнено неравенство * (*, У, *)< U (*, У, *), (21Л5) где £ — положительная постоянная, то смешанная экстремальная стратегия Ue {t, z/, z; е°, а} обеспечивает сохранение движения {у [t], z [Л} в области & вплоть до момента t =ф и, следовательно, управление и [t], диктуемое контингенцией (21.13), обеспечивает тогда результат игры У = \\{уШ}т - {z[Q]}m\\< е° (*0, »о. *о) + а, (21.16) какова бы ни была допустимая реализация v [t] управления v. Для доказательства теоремы 21.1 следует вычислить производную функции X (t, у [t], z [t]) вдоль движения системы (7.1), (7.2) при управлении и = и UlEE %> (t, у [t], z [t]; 8°, а) и v = v [t]. Так как вектор-функции у [t] и z It] абсолютно непрерывны (на том полуинтервале времени t0 <Г t < Г, для которого движение {у [t], z [t]} остается в области $), а функция X (t, у, z) дифференцируема, то функция К [t] = X (t, у [t], z [t]) будет абсолютно непрерывной функцией, которая при почти всех значениях t G= [t0, t*] будет иметь производную dk[t]/dt, выражаемую равенством п(1) п(1) ■^ = ^ + Sf[S«8)(o»i + «.m+/i1)(o] + п(2) п(2) + 2 ^Г2 «ИЧо^ + мш-/!* (о]. (21-17)
§ 21] РЕГУЛЙРИЗИРУЕМЫЙ СЛУЧАЙ 185 Так как и [t] ЕЕ %е (t, y'[t],z [t]; е°, а), то и [t] = ие, где вектор йе удовлетворяет условию максимума (21.12). Иначе говоря, и = и [t] — это как раз то значение вектора и, при котором в позиции t, у = у U], z = z [t] осуществляется минимум, фигурирующий в правой части (21.14), ибо. 1= — {дХ/дуг,..., дХ1ду<Р}п. Но тогда из (21.17) и (21.15) по определению функции и (21.14) следует неравенство ^<^[«]. (21.18) Проинтегрируем это неравенство, начиная от момента t = t0 и до момента t = £*, когда движение {у [t], z [t]} выходит на границу области $. Получим X [Г] < X [t0] е«**-ь> < Х\ (21.19) Неравенство (21.19) означает, что при всех£0< t*Ct* функция X [t] остается ограниченной числом X*. Но тогда не может быть t <0. В самом деле, предположим от противного, что движение {у [£], z [t]} выходит на границу области & к моменту £ = £*<0. Это означает, что к этому моменту границы Н^л и #<2> областей достижимости Сг£0^а (t, у U],0) и№) (t, z U],0) сближаются, смыкаясь при t = f. А это совершенно равносильно утверждению о том, что при t = t* смыкаются границы областей G[o+2aL (t, у [t],$) и G(a2) (t, z [t],ft). (Доказательство предоставляем читателю.) Однако это возможно лишь при условии, что X ->• оо. (Проверку данного утверждения, вытекающего из свойства (2°) (см^ стр. 181) функции ф, мы также предоставляем читателю.) Итак, если граница Я(а2) приближается к границе #£<4_2а, смыкаясь с ней, то величина X при этом необходимо должна возрастать до бесконечности. Следовательно, если при t-+t*<^-& движение {у [t], z [t]} выходит на границу области $, то имеем lim X [t] = оо при t-> t*. А это противоречит неравенству (21.19). Полученное противоречие доказывает, что при управлении и — и [t] (21.13) движение {у It], z [t]} сохраняется в области $. Но для всех позиций {t, у, z} из этой области справедливо включение (21.5). Значит, управление (21.13)
186 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV обеспечивает сохранение включения (21.5) для всех tEz[t0,-&]. А это и доказывает неравенство (21.16). Тем самым теорему 21.1 можно считать доказанной полностью. Таким образом, мы видим, что для осуществления успешного сближения движения y[t] с движением z [t] к моменту О, при котором достигался бы результат у (21.16), отличающийся от величины е° (t0, у0, z0) не больше, чем на произвольно малую, наперед выбранную величину а > 0, достаточно найти функцию ф [t, ©], которая обеспечила бы выполнение условия (21.15). К сожалению, мы не можем указать общего эффективного метода, который позволил бы выяснить заранее, исходя из параметров уравнений (7.1) и (7.2) и множеств %t и <fflu можно ли подобрать такую функцию ф [t, со]. Этот вопрос мы можем выяснить лишь в достаточно простых частных случаях. Разумеется, вычисление вектора s [t] из (21.11) при выбранной уже функции ф [t, о)] в каждой реализовавшейся позиции {t, у, z} и проверка для этой позиции условия (21.15) осуществимы всегда, по крайней мере численно. Мы укажем здесь только один класс систем 2 и соответствующих ограничений (7.3), когда условие (21.15) обязательно выполняется, какова бы ни была функция ф [w], удовлетворяющая условиям, перечисленным для нее на стр. 181. Это будут системы 2, складывающиеся из однотипных объектов, описываемых уравнениями (20.1) и (20.2) при ограничениях (20.3), где множества %t и Wt подобны, причем коэффициент подобия (см. стр. 169) Р<Г 1. (При Р > 1, как мы помним из § 20, имеет место регулярный случай.) В самом деле, тогда для величины х (t, у, z) из (21.14) согласно (21.6) — (21.8) получается следующее выражение: *(*,»,*) = min m»x [\;8-(*'[*>*] (и— у) — — mbxs' [t,l]u+ тъхз' [t,l]v) dt] , (21.20) где символ s [t, l] обозначает совпадающие теперь вектор- функции s№ и №. Из (21.20), учитывая подобие множеств
§ 21] РЕГУЛЯРИЗИРУЕМЫЙ СЛУЧАЙ 187 °Ht и fflh выведем соотношение х (*, y,z) = ^=^$ [ж<*' [*'/] "• -£*"' [t>l] u^\ dS<0' (21.21) которое и означает выполнение условия (21.15). (В (21.21) символ ие обозначает вектор из условия (21.12).) Подытожим наши рассуждения. Мы рассмотрели нерегулярный случай игры из задачи 7.1. В этом случае мы выделили такой «подслучай», когда при каждом выборе а > О удается найти функцию ф U, со], которая обеспечивает выполнение условия (21.15). Тогда удается построить смешанную1 экстремальную стратегию Ue {t, у, z\ 8°, а}, обеспечивающую преследователю результат игры у (21.16), отличающийся не больше чем на величину а от того оптимального результата сближения Y° = ц° (t0, y0, z0), который гарантирован преследователю в регулярном случае. Поэтому рассматриваемый в данном параграфе случай естественно назвать регуляризи- руемым. Наконец, мы показали, что случай игры на сближение из задачи 7.1 для однотипных объектов (20.1) и (20.2), когда в условиях (20.3) множества %t и Vt подобны с коэффициентом подобия (3^11, является регуля- ризируемым. В заключение параграфа рассмотрим пример. Пример 21.1. Рассмотрим систему 2 из § 14, складывающуюся из двух управляемых материальных точек т^ и ml2\ которые перемещаются в вертикальной плоскости {£, х\). После замены переменных, приведенной в § 14, движение системы 2 будет описываться уравнениями (14.3), а ограничения на управляющие воздействия примут вид (14.4). Будем предполагать, как и в §§ 14, 16, что плата у определяется равенством Т = V(Vi № - *i [О])2 + (2/2 [#] - z2 [О])2. (21:22) Однако, в отличив от случая, рассмотренного в §§ 14, 16, будем считать, что значения величин и. и v, ограничивающих управляющие воздействия и и v, удовлетворяют неравенству j*<v. (21.23) Поскольку уравнения (14.3), описывающие движение точки т^ и движение точки гг№\ совпадают, а множества % и V подобны, то данная игровая задача относится к регуляризируемому случаю и
188 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV при ее решенид можно воспользоваться результатами, полученными выше в этом параграфе. Приведем соотношения, определяющие в данном примере стратегию Ue {*£, у, г; е°, а). Учитывая, что функции р(1) (£, 0, /), р<2) (£, ft, /), {у0 (/, у, Щт и {2° (t, z,Ф)}т, определяемые соотношениями (13.1), (13.3), (13.7), (13.8), в рассматриваемом примере изображаются равенствами рю(г,ъ,ъ=1£^- Yq + ib . (У° (*, У, ®)}т = {«!+«>-*) Уз, 2/2 +(#-*) 2/! -^-^2-^-} , {о- (А . £)2 v *! + (# — *) К. г2 + (#_*)*_ 2 }, получим, что в этом примере + h (xi + (ф -1) xs) + h (xi + (fl — t) x%), (21.2 i) где xt = yt— zt (i = 1, 2, 3, 4). Поскольку здесь т = 2, то, полагая q> (£, со) = —, получим, что со функция X (t, у, г) (21.4) определяется равенством 27С dt() Х(''*,)а$о<мг,«,*)- (2L25) О Заметим, что здесь при вычислении интеграла (21.4) сделана замена /х = cosi|), l2 = sin \f, поэтому величина Q (*, у, z, г|)) = со (£, у, z, /) изображается равенством (и — v) (Ф — О2 + cos ф (а?1 + (А — 0 *j) + sin г|) (*а + (<& — *) #4). (21.26) Из формул (21.9) — (21.11) далее получаем, что в рассматрвиаемом случае — (* (А — £)cosib '.(«>y,«)=S а»(*. у, ,,?)*»>■ (21-27> о ^ л /А — £) 8|п ф »(«,>,*)=$ !у«,у,,,^ ^ <21-28^ о
§ 21] РЕГУЛЯРИЗИРУЕМЫЙ СЛУЧАЙ 189 причем, вычислив интегралы (21.27), (21.28), получим — (О — t) С! >(*, У,*) = If so + а + 2 st(t,y, z) =- — (Ф — t) Сг (ц-у) (0-0^2 2 [Y , . ^ — vm^ — т г л л ^8о + а + g / ~~ ci "" с2 (21.29) уГ'(21-30) где 3/1 + (д - *) уз — (2i + (* — *) *з)» ^2 = 2/2 + (# ~^) 2/4 - (Z. + (<>-*) ^4). (21.31) Следовательно, множество <Ue (t, у, г\ 8°, а) определяется в соответ- ■ - т(1)ь 10 20 $ о Рис. 21.3. Рис. 21.4. ствии с (21.12), (14.4), (21.29), (21.30) равенством 70 £
190 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV если у с\ + с\ф^ч в противном случае He (t, у, г\ е°, а) = ^, то есть является совокупностью векторов и = [0, 0, м3, щ}, где У ul + и^ц. Реализации движений системы 2, порожденные парами стратегий Ue ч- йе (*, у, z\ 60, a), F<1} -5-4" % (*, у, г; ео, а), ^ -*-#е(*,У, г,£о,а), И2>- 0,0, ■ V#i • V#2 г/в (tfyfr,eo,a),F<8>4-{Ol0l0,O}t 7 1В 12 \ д изображены соответственно на рис. 21.3—21.5. При этом были выбраны значения величин ц = 60—10 |/"5, v = 60, g = 10, t0 = 0,О = 1 и исходная позиция i/01 = 2/02 = 2/оз = 2/о4 = 0»г01 = 0, г02 == 15, ^оз == 5, 2о4 == —'5. Упражнение 21.1. Проверить, является ли регуляризируемым случай игры из задачи 7.1 для однотипных объектов (20.1) и (20.2), когда в условиях (20.3) множества ^ и V*t подобны с коэффициентом подобия Р^1? Иначе говоря, требуется проверить, является ли этот регулярный случай игры также и регуляризируемым Упражнение 21.2. Доказать или опровергнуть утверждение: всякий регулярный случай игры из задачи 7.1 является одновременно и случаем регуляризируемым. Упражнение 21.3. Доказать утверждение: lim X [t] = ос, если t — момент Рис. 21.5. *->**-о времени, когда впервые граница области G$+2aL (t, у It], Ф) имеет хотя бы одну общую точку с областью G^ (t,z[t],b). § 22. Существенно нерегулярный случай игры сближения В регулярном случае игры из задачи 7.1, разобранном в § 16, экстремальная стратегия Ue обеспечивает вложение GV(t,z[thb)<z.G§n{t,y[t],b) (22.1) в течение всего хода игры t0 ^ t ^ О при условии не- О 4
§ 22З СУЩЕСТВЕННО НЕРЕГУЛЯРНЫЙ СЛУЧАЙ ИГРЫ 1$1 возрастания функции е [tY= е° (t, y[i\, zlt]). Тем самым преследователю обеспечивается сближение \\{уШ}т- 0*]>тКвв<«О.0О. *0>- В регуляризируемом случае этой игры, рассмотренном в § 21, смешанная экстремальная стратегия Ue сохраняет в течение всего хода игры t0 <i t <Г Ф вложение fi№(t, z Ш, Ф) с <?&]+«(*, У Ш, *) (22.2) при неизменном e°[t0] = е°(£0; г/0, zQ) и при выбранном наперед сколь угодно малом значении а ]> 0. Тем самым в регуляризируемом случае преследователю обеспечивается сближение 1ДО01}» - {*НИ>»| < 8°(*в. Vv *<>) + «. Теперь мы обсудим существенно нерегулярный случай, когда вообще никаким выбором допустимого управления ult] (даже при условии, если управление v [t] известно преследователю заранее) невозможно сохранить вложение (22.1) при невозрастающей функции e°U] и невозможно также сохранить вложение (22.2) при каждом достаточно малом а ^> 0. Пример такого случая доставляет игра, разбираемая подробно в конце этого параграфа, где система 2 складывается из двух материальных точек m^> и т<?>, перемещающихся в горизонтальной плоскости {|, т]}. Преследующая точка т(1> {|(1>, г)(1)}, управляемая первым игроком, предполагается инерционной и движение ее описывается уравнениями (см. § 14, стр. 135) 1и(1)|(1) = w?, mOfy1) = u£\ (22.3) где сила и?М стеснена неравенством " pi)|| < WD (ДО) — постоянная). (22.4) Преследуемая точка т(2>{|(2\ Т1(?)}, управляемая вторым игроком, предполагается безынерционной, так что в каждый текущий момент t ей можно придать скорость v[t], произвольно направленную, но стесненную условием || v\\ < № (А,<*> - постоянная). (22.5)
192 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Движение этой точки описывается уравнением (см. § 2, стр. 20) lW = vu 4(2)=*V (22.6) Плата игры у определяется сближением точек т(1> и т(2> в заданный момент Ф, то есть Г = l(l(l) [®] - 10) [#])2 + (г](1) [Ф] — т](2) [Ф])2]1'1 • (22.7) Областями достижимости G(1) (£, г/, Ф) и G(2>(£, z, Ф) на плоскости {|, г)} здесь будут круги. Радиус r№(t, Ф) области 6?а>(£, г/, Ф) будет изображаться равенством (см. § 14, стр. 137)* ИО(^) = ^£^, (22.8) а радиус г<2> (г, Ф) области G<2> (г, z, Ф) будет задаваться равенством r(2) (t, Ф) = №*> (Ф — 0- (22.9) Из выражений (22.8) и (22.9) с очевидностью вытекает возможность подбора таких исходных состояний у [t0] и z[tQ], когда никак невозможно будет удержать область G(2) (*, z U], Ф) в сколь угодно малой окрестности области ЯеП'о] (*» ylrti Ф) ПРИ всех^е? [£0>Ф)> ибо при уменьшении разности Ф — t радиус И1) убывает, как квадрат величины Ф —• £, радиус г(2> имеет порядок величины Ф — t, а начальное значение е° U0] = 8° (*о» #о> zo) подходящим подбором исходной позиции {tQ, y0, z0} всегда можно сделать сколь угодно малым числом и даже нулем. Возвратимся к общей игре из задач 7.1, 7.2 и обратимся к тем ситуациям, когда преследователь никоим образом не может сохранить вложение (22.2). Мы не будем здесь досконально исследовать все возможные ситуации и искать наилучший способ управления для преследователя или для преследуемого. Наша задача скромнее — указать один способ выбора управления для преследователя, который естественным образом вытекает из рассмотрений, содержащихся в предыдущем параграфе, и представляется довольно рациональным. Суть этого способа состоит в том, что мы снова будем пытаться сохранить вложение
§ 22] СУЩЕСТВЕННО НЕРЕГУЛЯРНЫЙ СЛУЧАЙ ИГРЫ 193 (21.1), но теперь уже не требуя обязательно, чтобы функция е It] не возрастала. Мы допустим рост этой функции с течением времени, стремясь, однако, к тому, чтобы возрастание переменной 8 It] было в каждый момент t > t0 настолько малым, насколько это возможно при сохранении вложения (21.1). Простейший и наиболее грубый путь к этой цели открывает следующий способ построения функции е It]. Зададимся снова числом а>0и рассмотрим опять функцию X (t, у, z, е) (21.4), определенную какой-нибудь подходящей функцией ф It, со]. Появление нового аргумента 8 у функции X объясняется тем, что в (21.4) постоянная раньше величина 8 = e°(t0) = 8° (t0, ]/q,z0) теперь заменяется на переменную величину 8, которая может изменяться с течением времени t в процессе реализации движения {t, у [t], z [t]}. Управление u[t] опять зададим контингенцией (21.13), диктуемой смешанной экстремальной стратегией, Tte. Однако постоянную величину 8° в соотношении (21.13) мы заменим теперь переменной 8 It]. Считая переменную 8 It] > 0 дифференцируемой функцией времени (при почти всех значениях t), мы можем опять вычислить производную dk [t]/dt функции % It] = = % (t, у It], z It], 8 [t]) вдоль движения {у It], z It]} системы 2 при допустимых управлениях v = v It] и и = = и lt]<=% (t,y It], zlt], e У], а). К выражению (21.17), которое давало величину dX/dt при неизменном значении 8 [t] = 8°, у нас теперь прибавится только одно дополнительное слагаемое «■"*$[£]*• <2г-10> Следовательно, по смыслу величины и (21.14), при допустимой реализации v = v It] и при управлении и It] (21.13) мы будем иметь оценку ^<н(ММ,«[Ч,.[т+^$[£]«. (22.11) S (Появление нового аргумента е = е It] у функции и опять объясняется заменой постоянной е == 8° на переменную е = 8 It]). 7 Н. н. Красовский
194 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Если теперь выбрать величину е It] из условия S то согласно (22.11) функция A, Ы окажется невозрастаю- щей функцией времени t, ибо будет выполняться неравенство ^<0. (22.13) Из приведенных предварительных соображений можно сделать следующие выводы. Пусть функция ф при всех со>0 имеет отрицательную производную. Тогда в любой позиции {t, у, z, е} из области $, где t0 <(<*, е>0 и GW(t, z, Ф) лежит строго внутри Ga}z(t, y,$), знаменатель в правой части (22.12) будет отличен от нуля. Но тогда вся правая часть дифференциального уравнения (22.12) будет определена в области с3 и будет там непрерывной функцией от t, у, z и е (при е > 0). С другой стороны, в области $ при е > 0 множества %е (t, у, z; 8, а) полунепрерывны сверху относительно включения при изменении переменных t, у, z, г (при 8 = 0 полагаем %е = = %t). Наконец, для области е<0мы можем дополнить уравнение (22.12) соотношением de/dt = 0, (22.14) а при 8 = 0 изменение г It] можно стеснить'подходящей контингенцией ^-GeE (*,*,,*). (22.15) Тогда система уравнений (7.1), (7.2), (22.12), (22.14), (22.15), при v= v[t]n и [t] e %e(t> у It], z[t]\ г It], а) в области $ при всех 8 будет удовлетворять условиям теоремы 6.1 о существовании решения {у It], z [t], г [t]}. Но тогда полученная выше оценка (22.11) производной dX/dt принимает реальный смысл неравенства, которое действительно соблюдается для производной dk/dt функции X (t, у [t], z It], e It]) вдоль движения {у It], z It], г It]} си-
§ 22] СУЩЕСТВЕННО НЕРЕГУЛЯРНЫЙ СЛУЧАЙ ИГРЫ 195 стемы (7.1), (7.2), (22.12), (22.14), (22.15), пока это движение сохраняется в области &. Однако, повторяя'рассуж- дения из § 21, мы убедимся далее, что выполняющееся теперь в области & неравенство (22.13)^ свою очередь гарантирует сохранение позиции {t,ylt],z[t],B[t]} в области g? вплоть до момента времени Ф. Следовательно, построенный нами способ управления и действительно обеспечивает вложение (22.1), где переменная г It] описывается уравнением (22.12). Таким образом, мы видим, что смешанная экстремальная стратегия Z7e, определенная множествами %e{t, У> zi e> °0> ПРИ условии, что изменение переменной е определяется уравнениями (22.12), (22.14), (22.15), обеспечивает преследователю в момент t = Ф вложение #»>(*,*[<>], #)с4]+«(»,»[#], <>)• Но это вложение означает, что точка {яИИ}™ лежит в (е [Ф] + а)-окрестности точки {у №]}т. Значит, при этом обеспечивается результат игры У = [{У НИ}» - {z МММ < е Ш + а. (22.16) Посмотрим, как все эти обстоятельства реализуются в частном случае игры для рассмотренной выше системы 2, описываемой уравнениями (22.3) и (22.6)* Пример 22.1. Обозначая 5(1) =2/i, у\^ =У2, £(1^ = 2/з, т)(1) = 2/4, £(2) — zlt т](2) = 22, нз = u>W I m^\ щ = и>№ /тР-\ запишем системы дифференциальных уравнений (22.3) и (22.6) в нормальной форме Уг = Ш» У* = 2/4, 2/з = Ш, Ш = Щ, zi = vu £2 = г>2. (22.17) Ограничения (22.4) и (22.5) в новых обозначениях записываются теперь в форме (м| Ш + и\ [t])V. < р, {v\ [t] + v\ [*])V. < v, (22.13) где [л = b№fm(i)f v = A/2\ Плата игры у (22.7) в новых обозначениях принимает вид У = [(2/1 [О] - *i №)2 + (2/2 !♦] - *2 [О])1]*. (22.19) Проиллюстрируем на задаче (22.17), (22.18), (22.19) способ выбора управления для преследователя, предложенный в настоящем параграфе. 7*
196 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV Пусть в некоторый момент времени t выполнено вложение G(2) (*, z [*], О) С G$]+a (t, у [«], О). (22.20) Для нашего примера, как уже отмечалось выше, область G^2' представляет собой круг радиуса г(2) = v (ft — t) с центром в точке 0(2), имеющей координаты {гх [t]t z2 [t]}, а область ^^]+a — круг радиуса г^ = ц (О — t)2/2 + г [t] + а с центром в точке 0(i), имеющей координаты {уг [t] + (ft — t) уь Ы, у2 U] +(* — *) 2/4 [*]> (рис. 22.1). Рис. 22.1. Пусть А — расстояние между центрами кругов 0^ и 0®\ так что А2 = (*х + (*-*> 2/з)а + (*2 + (•-<) 2/4)а, (22.21) где *i U] = у % It] - z( [t] (i « 1, 2). Проведем теперь необходимые построения. В качестве функции <р [*, ©], фигурирующей в (21.4), в рассматриваемом примере можно взять ф [*» ©]„= от1 (*, у, *, ф, 8). (22.22)
§ 22] СУЩЕСТВЕННО НЕРЕГУЛЯРНЫЙ СЛУЧАЙ ИГРЫ 197 Здесь, однако, в отличие от (21.3), для удобства аргумент I заменен на угол ф (см. рис. 22.1). Кроме того, в число аргументов функции со входит теперь еще величина е. Из геометрических соображений легко найти со (*, t/, z, ф, е) = г<г) - г<2) - Л cos (% - г|>) = = \i (ft - *)V2 + в [t] + а - v (О — *) — Л cos (x — Ф), (22.23) где % — угол, определяемый соотношением д?з + (Ф— *)у4 lSX —*! + (*—*) Ув' а величина Л определена формулой (22.21). Очевидно, что функция Ф [г, со] (22.22) обладает всеми нужными свойствами, отмеченными в § 21. Составим далее функцию I (*, у, *, в) =-^L $ со-* (*, у, *, ф, 8) <*г|> = [(г?> - r<2>)* -Д*]-1/. о (22.24) и вычислим от нее полную производную по времени dk/dt в силу системы (22.17). Будем иметь £ = - Я» [(г<1> - № (v- ц (• - 0) + (^ - *>) 5- - — («1 + (» —*)У8)(« —0"8 —(*2 + (# —0У«)(* —0М* + + («1 + (О — 0 2/з) г?х + («г + (О — t) г/4) г>2]. (22.25) Для определения смешанного экстремального управления ие 6Е ^ выпишем для нашего примера условие максимума (21.12) *' С» 2/» *, е) и = max 7' (*, г/, г, е) г/ = = max [78 (*, г/, z, в) и3 + ^ (*, г/, z, 8) щ\, (22.26) где в соответствии с (21.11), (22.24) (22.27) Ч (*, 2/, z,8) = - [*2 + (♦- 0 г/4] (♦- *) №• Из условия (22.26), учитывая, что 0?з +1ф,/а == ^вД(*—*)• легко определяется множество %*, задающее смешанную экстремальную
198 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СБЛИЖЕНИЯ [ГЛ. IV стратегию Ue: если А ф 0; в противном случае ^e(*,2/,z,e,a)==^, (22-29) то есть при А = 0 множество ^е является совокупностью всех векторов и = {0, 0, н3, Щ>, стесненных условием wj + и* < ^2. Теперь для завершения осталось вычислить величину х (t, у, z, г) = min max dtyd*. Учитывая (22.25) — (22.29), находим * (*, 2/, *, 8) = *» [(г« - г<2> - А) (И (*-*)- V) - (г?) - r<2>) -J ] . (22.30) Отсюда в соответствии с материалом настоящего параграфа получим dz A ^Г^1-^!)^))^--*)-^] (в>0) (22.31) . и, следовательно, -jf <и(*,У,*,в) = 0, что обеспечивает сохранение вложения (22.20) во все время игры Таким образом, к моменту t = ту будем иметь где величина 8 [д] есть значение решения г [t] дифференциального уравнения (22.31) при начальном условии е [t0] = s° (t0l y0i z0). Найденная стратегия Vе (22.28), (22.29) определяет, очевидно, следующее поведение преследующего объекта: в случае, когда А ф 0, то есть когда центры кругов 0^ и 0^ не совпадают, преследователь в каждый такой момент времени t нацеливается на точку д^ (см. рис. 22.1), если же окружности становятся концентрическими, то есть А = 0, то в такие моменты времени преследователь может пользоваться любым управлением, стесненным условием u|+u^ <^ цЛ
СУЩЕСТВЕННО НЕРЕГУЛЯРНЫЙ СЛУЧАЙ ИГРЫ 199 Найденная стратегия Ue (22.28), (22.29) была испытана на ЭЦВМ сочетании со следующими двумя стратегиями V преследуемого ?* \/ V ч \ \\ к \ О 6 / i у \ / / / [ V \ ш / Р^у*^»— mi ,.„q <и»' N^ ^; С*^ / \ \ ^1 / / у i*p< г \ \ ММ / / 7 / Рис. 22.2. игрока. Первая стратегия V задается множеством ^(',г/,*,е,а) = = {^v^ + ^^^\^V^+f^^^}npnA^O, (22.32) <fte(t,y, z,8, а) = ^ при А— О, то есть управление v>e выбирается из условия максимума, аналогичного (22.26), 7 (t, г/, z, г)Т?е = max ? (*, г/, z, е) v и соответствует при А ф О нацеливанию движения z [*] на точку ^2 (см. рис. 22.1). Вторая стратегия преследуемого задается множеством ^(^,г) = (-^г;-7^=Г} при ,! + ,!*<), I Y^+y\ уп+п \ WA*,y,*) = W ПРИ у1 + у1=° (22-33)
200 РЕШЕНИЕ КОНФЛИКТНОЙ ЗАДАЧИ СЁЛиШЕЙЙЯ [ГЛ. IV и состоит в том, чтобы двигаться наперерез направлению скорости преследующей точки. На рис. 22.2 и 22.3 изображены_траектории точек т№ и п№> соответствующие парам стратегий Ue (22.28), (22.29), Ve (22.32) О [ J \L \ А У / / S* N* f Ф- / / \i<; г£РМ * • 'Рис. 22.3. п (рис. 22.2) и Це (22.28), (22.29), 7,. (22.33) (рис. 22.3). При этом было выбрано р = 2, у=1,Ф=1ив качестве исходной была использована следующая позиция: Уг (0) = 0, к (0) = 0, у, (0) = 0,5, ft (0) = 0,8, 2i (0) — 1.2^ (0) — 1. Упражнение 22.1.^Доказать или опровергнуть утверждение о том, что стратегия %е% построенная при решении примера 22.1, является оптимальной минимаксной стратегией для задачи 7.1, отвечающей ситуации, разбираемой в этом примере.
Г Л А В]А V РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ § 23. Сближение с выпуклой областью Обратимся к игровым задачам, поставленным в § 8. Прежде всего мы рассмотрим те из этих задач 8.1 — 8.3, где фигурирующая в них функция со (х) имеет смысл расстояния со (#, Л) от выпуклого множества Л, заданного в пространстве {#}. Без ограничения общности множество Л можно предполагать замкнутым. В самом деле, иначе можно просто заменить множество Л его замыканием М, ибо значение функции со (х, Л) от такой замены, очевидно, не изменится. Более того, множество Л в процессе исследования задачи можно даже полагать ограниченным. В самом деле, пусть игра начинается из какой-то позиции {tQ, х0}. Тогда за ограниченное время tQ ^ t <!й при любых допустимых ограниченных реализациях и It] и v It] управлений и при заданном ограниченном воздействии f(t) фазовая точка х [£], описываемая уравнением (8.1), никак не сможет покинуть некоторую сферу S0(t0, x0) (\\х\\ < i?0) достаточно большого радиуса i?0 (*0, х0). Следовательно, можно ограничиться лишь функцией© (х, Л), которая определена только для всех ie50 (tQ, x0). Но значения функции со (#, Л) в сфере S0 (t0, x0), очевидно, не изменятся, если мы выбросим из множества Л все точки х, которые лежат вне сферы S (t0, x0) (\\x\\ <! R) достаточно большого радиуса R (t0, x0). Итак, исследуя игру из задач 8.1—8.3 при со (х) = со (#, Л) для какой- то выбранной исходной позиции (£0, х0}, мы можем ограничиться лишь случаями ограниченных множеств J0, лежащих в сфере S (t0, xQ). Разумеется, с изменением исходной позиции {t0, Xq} сфера S (t0, x0) может изменяться, но для тех вопросов, где важна ограниченность множества Л, это не будет играть существенной роли (нам будет важен сам факт ограниченности множества Л, а не оценка сферы iS, содержащей это [множество).
202 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V Обратимся сначала к задаче 8.1, где, следовательно, со (х) = со (#, Л), причем множество Л будем считать выпуклым и замкнутым (а если потребуется, то и ограниченным). Стало быть, нам надлежит решить следующую задачу. 3 а д а ч а 23.1. Среди допустимых стратегий U {t, x\ t0, x0} требуется найти оптимальную минимаксную стратегию U0 {t, x\ t0, я0}, которая удовлетворяет условию <min snp inf (о(a:I*], Jt)\3?[U, {v}\ *0, x0]). (23.1) U {»[*]} x[t] В § 8 уже было отмечено, что задачу 23.1 можно заменить эквивалентной ей задачей 8.1* (см. стр. 85). Обоснование этого утверждения в § 8 было предоставлено читателю. Поэтому мы и здесь, заменяя задачу 23.1 на задачу 8.1*, не будем обсуждать законность этой замены во всех деталях. Однако по ходу решения задачи 8.1* мы все-таки будем возвращаться к задаче 23.1, чтобы лучше пояснить связь задач 8.1* и 23.1. Задача 8.1* есть задача о конфликтном сближении двух объектов, описываемых фазовыми векторами х^ и х^ соответственно. Изменение этих векторов х^ [t] и х^ It] во времени t подчинено дифференциальным уравнениям *<0 = А (*)а*0 + и + f (*), (23.2) ±т = A \t)xW + г>, (23.3) причем допустимы интегрируемые реализации v=v[t], стесненные условием v[t](E Wu (23.4^ и реализации и = ир It] = и It] + p6{t - *), (23.5) где ult] — интегрируемые функции, стесненные условием И*]е%, (23.6) а р — произвольный вектор, удовлетворяющий включение -р^М, (23.7)
§ 231 СБЛИЖЕНИЕ С ВЫПУКЛОЙ ОБЛАСТЬЮ 203 Множесто векторов /?, которые удовлетворяют условию (23.7), мы обозначим символом 3F*. Согласно (8.15) плата т в данной игре сближения изображается равенством г = ||яКО [О] — яКз) £*] ||. (23.8) Теперь мы можем повторить для игры из задачи 8.1* те же рассуждения, которые были проведены в §§ 10—22 относительно задачи 7.1. Таким образом, мы автоматически получим решение задачи 8.Г. Сделаем это совсем в конспективной форме. При построении экстремальной конструкции, отвечающей позиции {t*, х(*\ а£а)} (см. § 11), теперь следует рассмотреть области G$(t„ x('\ д) и ©»>(*,, х®\ Ф) достижимости для движений ^(т) и^2) (т) (ж(1>(^)= =- х*, #(2) (О = 0, £* <С т <; #), подчиненных уравнениям *g=A(x).tf» + u + f{x), (23.9) *£ = A(x)*»+v, (23.10) и при допустимых управлениях и{г)£Е9Л, (23.11) ир (т) = и(х) + рд(х — #) (Mt)Gl,?E^). (23.12) Это будут снова ограниченные, выпуклые и замкнутые множества в /с-мерном пространстве {#}, описываемые неравенствами р#(*„ О, Z) + /^1)0('., ^1}, *) - l'q > 0, (23.13) Р(2) (*.. *, Z) 4 /'*(**> (*#, */2>, 0) _ /'? > 0 соответственно (см. Приложение, § 48, стр. 399, и § 49,
204 ^ейенйе игровой ЗаДаЧй йаЁеДеййя [тА. V стр. 407—410). Здесь Р$(*,, <М) = max ft /гХ(«,т)ир(т)йт1 = = max К 1'Х{й,х)и(т)с1%)+тах{1'р) = = Р«(*,Ф,/) 4-^(0, С23-*4) P(?) (*., <M) = max (С ГХ (d, t) i; (t) dt^l f (23.15) причем X (т, т0) — фундаментальная матрица решений уравнения ~ = А (т) х, dx л ' ' векторы х№° и х<2)0 определены равенствами а№> = X (Ф, *.) з^ + J X (0, т) / (т) dx, . (23.16) Л<«° = Х (<>,*.) xf , наконец, I — произвольные единичные йнмерные векторы. Замкнутые е-окрестности6?$£ (^, ж^^О^областиб^^^,^,О) опять можно трактовать как области достижимости для движения ^(т) (23.9) при допустимых р-управле- ниях ир (т) = и (т) + рб (т - О), (23.17) где ы (т) е= %т, а вектор р содержится в замкнутой е-ок- рестности SPz множества ЗР. Области G$,e (tt, x{+\ #) определяются поэтому неравенствами е + Р$ (*., *, Z) + Г*М> (*., а£>, О) - /'? > 0. (23.18) Гипотетическое рассогласование е° (tm, x{^\ х{®) определяется опять как наименьшее из чисел е ^> 0,
§ 23l СЁЛЙЖЕНЙЁ С ВЫПУКЛОЙ ОБЛАСТЬЮ 205 удовлетворяющих условию G» (*., x? , d) cz G%\ (*., *« , д). (23.19) Все дальнейшие рассуждения автоматически повторяют материал из § 10—22, где следует лишь всюду заменить величину pW(t,0, I) (13.3) на величину р$(*, О, Z) (23.14). Мы здесь эти рассуждения приводить не будем. Выпишем только неравенство, определяющее условие поглощения (23.19), и выражение для величины е°. Согласно неравенствам (23.13) и (23.18), задающим области G$, G<2> и G$,g, и в соответствии с теми рассуждениями, которые были бы аналогичны рассуждениям из § 13 (см. стр. 128—134), получим, что условие поглощения (23.18) определяется неравенством (при х* = х^ — х^) е + Р$ (*., <М) - Р(2) (*.,<>,*) + v (*(1)0 ~ *(2)0) = - Р(1) (*., <М) + Р*'{1) - Р(2) (К, <М) + * + + ГХ (<>,*.) *•+''§ Х(О,т)/(т)Л>0, (23.20) а величина е° (£, а:) изображается равенством (при х = = а&> — а*2>) е°(t, а:) =■- е°(t, ad>, аФ) = max (р<2> («,*,/) — р<х)(*,*,/) — 11 * II =1 -pW^-Z'Jr^O^-^Sx^T)/^)^), (23.21) если правая часть этого равенства положительна, иначе е° (t, x) = 0. Здесь величины р*1), р<2> и pW и векторы дК1)0, а*2>° определены равенствами (23.14), (23.15) и (23.16). Сформулируем теперь понятие экстремальной стратегии. Определение 23.1. Пусть имеет место регулярный случай игры из задачи 8.1*. Иначе говоря, пусть для любой позиции {£, я(1\ х<$} (tQ^ t < Ф) максимум в правой части соотношения (23.21), когда он положителен, достигается на единственном векторе I = l° (t, xP\ аК2)). Тогда назовем экстремальной стратегией Ue такую допустимую стратегию, которая при е° (t, х^\ а*2>) ^> 0 задается
206 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАЁЕДЕЙЯЯ [ГЛ. V множествами %e{t, #(1), х^), складывающимися каждое из всех Ar-мерных векторов ue<Ez%u удовлетворяющих условию максимума s'(t)ue= maxs'^w, (23.22) где 5 (т) — /с-мерная вектор-функция, подчиненная дифференциальному уравнению и краевому условию, *(*) = P{t, «CD, ^2)), (23.24). а при 8° (t, x^l\ х^) = 0 полагаем %(t,xV,xW) = %.. Справедливо утверждение, отвечающее здесь теореме 16.1. Теорема 23.1. В регулярном случае игры задача 8.1* разрешается экстремальной стратегией Ue{t, x^\ #(2)}, которая обеспечивает преследователю (8.7) результат сближения Г = [*<» [OJ - *<« [Ф] К «° («о, 4°, 42)), (23.25) какова бы ни была исходная позиция {£0, ^ , хо } и до- пустимая реализация v [t] управления v. Важно заметить, что множества 4le(t, ж(1\ ж(2)), задающие экстремальную стратегию С/е, фактически зависят лишь от t и от разности х = х№ — #<2>. В самом деле, из (23.21) мы видим, что величина е° (t, #(l), я(?)) и вектор l°(t, х&\ х^) являются функциями от ^ и от этой разности х = #(!> — #(2>, а значит, именно эта разность и аргумент t и определяют множества %e(t, #(1\ х^) по условиям (23.22) - (23.24). Из эквивалентности задачи 23.1 и задачи 8.1* ца основании теоремы 23.1 вытекает справедливость следующего заключения. Теорема 23.2 Пусть имеет место регулярный случай игры из задачи 23.1, то есть пусть максимум в правой (23.23)
§ 23] СБЛИЖЕНИЕ С ВЫПУКЛОЙ ОБЛАСТЬЮ 207 части соотношения (23.21) достигается на единственном векторе 1° (t, x) (когда этот максимум положителен). Тогда экстремальная стратегия Ue{t, х) оказывается оптимальной минимаксной стратегией U° {t, х}, разрешающей задачу 23.1. Эта стратегия обеспечивает первому игроку сближение со (х [Ф], Л) с множеством Л, удовлетворяющее неравенству ю(я№], Л) < е° (*0, х0), (23.26) какова бы не была исходная позиция {t0, x0} и какова бы ни была допустимая реализация v[t] управления v. Здесь экстремальной стратегией Ue{t, x) названа такая стратегия первого игрока в игре из задачи 23.1, которая задается множествами %е (t, x), складывающимися из векторов ие, удовлетворяющих условиям (23.22) — (23.24), где надлежит полагать Z°(£, #(i\ я<2)) = l°(t, х) (х = = xW — xW). Теорема 23.2 является следствием теоремы 23.1, так как задачи 23.1 и 8.1* эквивалентны. Однако полного доказательства этой эквивалентности в основном тексте книги дано не было (см. выше § 8). Поэтому теперь для очистки совести мы выведем теорему 23.2 из теоремы 23.1 непосредственно. Итак, пусть Ue{t, x} — экстремальная стратегия, построенная в соответствии с текстом теоремы'23.2. Следовательно, Ue{t, x^ — #(2)} — экстремальная^ стратегия, разрешающая задачу 8.1*. Это означает следующее: управление и It] ^.% (*, хМ It) - х<2> It)) (23.27) {t0 < t < Ф) обеспечивает к моменту t = Ф такое сближение движений х^ It] (23.2) и х& [t] (23.3) (*0> lt0] = х£\ xf»lt0] = а?\ Жо — #о?) = х0), что из состояния #(1> [ft — 0] можно перейти в состояние а^2> [ft — 0], сместившись на вектор рЕЕ^е» {— р е Л€.) (рис. 23.1). Здесь символы З5^ и Лео обозначают замкнутые е°-ок- рестности множеств 5°, Л соответственно. Но сказанное означает, что вектор разности х [д - 0]^= зР> [* - 0] - х№ [О - 0] = —р
203 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V содержится в е° (*ог #0)-окрестности множества Л (х0 = = х[1) — а:о2)). В то же время разность х It] = я(1> It] — — х№ It] удовлетворяет уравнению х = A {t) х + и It] — v It] + f (*), (23.28) и It] ЕЕ % (t, x It]), (23.29) и притом всякую вектор-функцию x[t], удовлетворяющую условиям (23.28) и (23.29), можно изобразить подходя- где xffah4l^x(1)[t]< w<»fco) xox *>[Ь]-аР>т-ю<»Ю x(2Ht] хЩй-о] x®[t0]=42) Рис. 23.1. щей разностью х [t] = ж(1) [t] — я(2) It]. Отсюда следует, что экстремальная стратегия Ue {t, x} в игре из задачи 23.1 обеспечивает попадание точки х Ш в е°(г0, #0)-ок- рестность множества Л. Предположим теперь, что есть какая-то стратегия £/,{*, х}, которая обеспечивает попадание движения (23.28) в еф(£0, #0)-окрестность множества Л и е^ < 8°. Тогда стратегия U,{t, #(1) — х№) гарантировала бы приближение движения х^ It] (23.2) к движению x№lt] (23.3) к моменту t = д обязательно так, что точку #(i) [о — 0] можно было бы сместить в точку #(2>[д—0], перемещая ее на вектор р = — р*, где р* £= «Д^. Но это означает, что стратегия Ut{t,z№ — х№) = J7„ {t, a*1*, x'®} обеспечивает сближение движений xW [t] и х№ [t] в момент О на величину меньшую, чем е°. А это невозможно. Все эти рассуждения и показывают, что Ue{t, x) есть оптимальная стратегия для задачи 23.1 и теорема 23.2 действительно верна.
§ 23] СБЛИЖЕНИЕ С ВЫПУКЛОЙ ОБЛАСТЬЮ 209 В заключение этого параграфа обратимся к задаче 8.2, которая в случае со(а:) = со(#, Л) отвечает задаче об оптимальной максиминной стратегии. Таким образом, обсудим кратко решение следующей вадачи. Задача 23.2. Среди допустимых стратегий V{t, х} требуется найти оптимальную максиминную стратегию V°{t, #}, которая удовлетворяет условию 1(й(х[Щ,Л)\Ж[и,У<>\^,Хо])>тъх inf sup x V {u[t]\ x{t] X (соИН JC)\&[{u], V; t0, xo]). (23.30) При решении этой задачи поступим так же, как и выше при исследовании задачи 23.1, а именно, для системы 2* (23.9)—(23.12) рассмотрим предварительно следующую задачу. Задача 23.2*. Среди допустимых стратегий V{t, х^\ з№) требуется найти оптимальную максиминную стратегию V°{t, afi-\ ж(2)}, которая удовлетворяет условию (|*» [Ф] - хЫ [Щ || | ЗС [Up, V°; t0f4X), xf]) > > sup inf max (lx№ [*] — x& [0] || I (23.31) ®[{up}> V; t0, 41}, 4°]), какова бы ни была исходная позиция {£0, 4*\ 42)}« Решение подобной задачи приведено в |§ 16—22. Повторяя с должными изменениями данные там рассуждения (см. также выше стр. 203—206), убедимся, что справедлива следующая теорема. Теорема 23.3.Б регулярном случае игры задача 23.2* разрешается экстремальной стратегией Ve{t, xll\ #(2>}, которая обеспечивает преследуемому игроку результат Г = || *(1) W - *(2) [*] || > е° («о, 4г), 42))> (23.32) какова бы ни была исходная позиция {г0, x^\ 42)}- При этом экстремальная стратегия Ve{t, #(1\ а*2)} задается множествами Ve (U #(1\ #(2))> которые определяются следующим образом. Если величина е° (t, x^l\ х^) (23.21) положительна, то множество V§ {t} ж(1), з№) есть
210 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V совокупность векторов ve, удовлетворяющих условию максимума s'(t)ve = maxs'(t)v, (23.33) где вектор s (t) так же, как и в условии максимума для стратегии Ue -~ %б, определяется соотношениями (23.23), (23.24). Если же величина е° (t, #(L), #<2)) = 0, то полагаем We = ^ь Заметим теперь, что и здесь множества We (t, #(1\ #(2)) фактически зависят лишь от времени t и от разности х = х^ — х&\ поскольку лишь от этих переменных зависят функция е° (t, а£г\ аК2>) и вектор-функция 1° (t, x(l\ аК2)), определяющие в конечном счете множество We (t, хЫ, xW) (см. соотношения (23.21), (23.23), (23.24), (23.33)). Перейдем теперь к решению исходной задачи 23.2. По аналогии с приведеным выше решением задачи о минимаксной оптимальной стратегии воспользуемся эквивалентностью задач 23.2 и 23.2% откуда получаем следующее заключение, вытекающее из теоремы 23.3. Теорема 23.4. Пусть имеет место регулярный случай игры из задачи 23.2, то есть пусть максимум в правой части соотношения (23.21) достигается на единственном векторе 1° (t, x) (когда этот максимум положителен). Тогда экстремальная стратегия Ve{t, x} оказывается оптимальной максиминной стратегией V° {t, x}, разрешающей задачу 23.2. Эта стратегия обеспечивает второму игроку уклонение со (х [Ф], Ж), удовлетворяющее неравенству со (х [ф], М) > 8° (*01 а?0), (23.34) какова бы ни была исходная позиция {tQ1 х0} и какова бы ни была реализация и It] управления и. Здесь экстремальной стратегией названа стратегия Ve{t, x), которая задается множествами We (*, х) = We (t, *(1), *(2)), х = хО) - xW. (23.35) (Подчеркнем еще раз, что множеста We(t, #(1), #(?>) зависят лишь от времени t и разности х = #(1) — х{2).)
$ 241 ТРАНСФОРМАЦИЙ ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИЙ 211 § 24. Трансформация экстремальной конструкции В предыдущем параграфе игровые задачи наведения были трансформированы в подходящие конфликтные задачи о сближении двух управляемых объектов. Таким образом, был открыт путь к решению задач наведения на основе экстремальной конструкции, разработанной раньше для задач сближения. Однако подобная трансформация проблемы не обязательна. Можно наоборот, сохраняя неизменной форму задачи наведения, трансформировать изученную раньше экстремальную конструкцию так, чтобы она соответствовала новой исходной проблеме. Эта работа и выполняется в настоящем параграфе. Итак, опишем экстремальную конструкцию, приспособленную непосредственно для задач наведения из § 8. Пусть в некоторый текущий момент времени t = tn <С$ реализовалась позиция {^, а^}, которую мы зафиксируем. Построим воображаемые движения х(х) (t0 <^ х ^ Ф» х (tj = ##), подчиненные уравнению *L=A(x)z+u-v + f(x)f (24.1) где допустимые управления и(х) и v(x) стеснены ограничениями в(т)б«, у(т)ее^. (24.2) Выберем какое-нибудь допустимое управление v(x) (t^<i x <СФ), которое обозначим символом v (•). Здесь точка, заменяющая всю совокупность значений аргумента те!^, О], подчеркивает, что речь идет обо всей функции v (x) (**^ т<; Ф) как о едином целом, но не об одном каком-то значении этой функции при том или ином частном значении аргумента т. При выбранном управлении г;(-) сформируем в Ar-мерном пространстве {q} = {х} область достижимости G (£#, х^ d; v (•)) для движения х (х) (24Л) к моменту т = ■& из состояния x(t^) = xt и при допустимых управлениях и (т), стесненных первым условием (24.2). Таким образом, каждая допустимая функция #(•) породит отвечающую ей область достижимости G (^, х^ Ф; v (•)). Символом Gz (tm, x,, Ф; v (•)) будем обозначать замкнутые е-окрестности областей 6(^,^,0; г;(-)). Через
212 *>ЁШЁЙЙЁ ИГРОВОЙ ЗаДа*Ш НАЁЁДЁЙЙЙ tt\fl. V е(£#, x;, г;(-)) обозначим расстояние от области G(t^ x^ О; v (•)) до множества .//. Иначе говоря, е(^, ^; г;(-)) есть наименьшее значение е, при котором область Gz{t^z^b\ v (•)) еще содержит точки q из ,М. Можно сказать и так: е (^, а^; v (•)) — есть наименьшее значение е, при котором е-окрестность Лг множества М \X[tJ -Х(%) 2(1°) Рис. 24.1. еще содержит точки из области G (£„,#„, О; v (•)). Назовем далее гипотетическим рассогласованием е° (х#, J J величину 1 ('..*•) = (24.3) maxе(*„#.; у (•)) (рис. 24.1). Смысл этой величины таков. Выберем произвольное допустимое управление v=v^(-). Тогда можно подобрать к нему допустимое управление и=и^(') так, что система, описываемая уравнением (24.1), где и — и^(х) и v == г;#(т), перейдет из положения x(t^ = xm в состояние х (#), отдаленное в фазовом пространстве {ж} от множества М не более, чем на величину е° (£., sj. И число е°(^, xj) есть наименьшее из чисел е, удовлетворяющих подобному условию. Выведем теперь выражение для величины е° (t^ sj. Очевидно, область G (t0, х^ *&; г; (•)) тогда и только тогда пересекается с замкнутой е-окрестностью Mz множества М%
§ 2^1 ^ансфорМаЩм экстремальной койс*грукЦйй 2lft когда к данному управлению v (•) (г; = г; (т) е ^т> ** < < х ^ Ф) можно подобрать допустимое р-управление uv(x) = и (т) + рб (т — *) (24.4) такое, что выбранная пара управлений {ир(х), v (x)} переведет движение х (т) (^< т< #, x(tj = a J (24.1) в Рис. 24.2. состояние х (Ф) = 0 (рис. 24.2). Здесь 5s» — замкнутая е-окрестность множества З5, определенного в § 23 условием: р ЕЕ ^ равносильно -pGJ. С аналогичными рассуждениями мы уже встречались выше (см. § 23, рис. 23.1, а также сравни рис. 20.2 и 20.3 в § 20). Но в таком случае можно сказать, что искомая величина 8° (t^ хт) есть наименьшее значение е > 0, при
214 МШЕНЙЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V котором область достижимости G^z (^, #*, Ф; v (•)) движения х (т) (24.1), порожденная управлениями ир(х) (24.4) при каждом фиксированном управлении #(•), содержит в себе точку х = 0 (рис. 24.3). Рис. 24.3. Однако область G^,e(^, zm, ft; v (•)), как и всякая область достижимости для ^-управлений ир(х) (24.4), описывается неравенством (см. Приложение, § 49, стр. 410) РГ ° ('•• *• '; v (')) f *'*° (t„ *ф| Ф) - Z'g > 0, (24.5) где p<*.«) = max (/' *J X (0, t) (ир (t) - v (t)) dt) = = max (/' [ X (*, t) (и (t) — и (t)) Л) + ™ax Vp = = P»)(*.,*,i;i;(-)) + P(*)(0 + Ii||e, (24.6) причем Z(t, t0) — фундаментальная матрица уравнения %r = A{x)x, (24.7)
§ 24] ТРАНСФОРМАЦИЯ ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 215 а вектор х° (tm, #„, О) определен равенством х° (*ф, х., О) = X (Ф, О ^ + J X (О, т) / (т) dr. (24.8) и (В (24.6) мы воспользовались равенством max Vp = max Z'g + max Z> *= || I ||e f pW (/).) P£^£ ||?H<e Pe^° Из (24.5), (24.6) заключаем, что искомая величина е° (^, xj) есть наименьшее из чисел е !> О, которое удовлетворяет условию P?(t.'*,bv(-)) + P{"}{l)+ * + №(*.**•' *)>° (24-9) при всех I с нормой || Ц = 1 и для всех допустимых г; (•). Можно сказать и иначе: искомая величина е° (t^ xj есть наименьшее из чисел 8^0, которое удовлетворяет неравенству О -[р<1}(^*,*;»(■)) + р(*>(0 + *'*°(*.,*.*)] (24.Ю) при всех I с нормой ||Z|| = 1 и для всех допустимых v (•). Но тогда из (24.10) немедленно следует, что справедливо равенство е°(* , *) = max [max (— р&>) — р(^> — J'a°], (24.11) (JIM- *(•> и если правая часть этого равенства положительна. Отсюда, учитывая определения функций р£\ р*1) и р<2> (24.6), (23.14) и (23.15), получаем окончательно следующее выражение для величины е° (£, х): 8° (*, х) = max [р<*> (*, О, Z) - р<*> (*, О, Z) - II «11-1 _р<*>(/)-/Ъ° (*,*,*)], (24.12) если правая часть этого равенства положительна, иначе г° (*, х) = 0. Сравнивая (24.12) с равенством (23.21) (и учитывая при этом (24.8)), мы увидим, что гипотетическое рассогла-
216 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V сование е°, определенное в § 23, равно гипотетическому рассогласованию 8°, определенному в этом параграфе. Однако теперь величине е° мы придали несколько другой геометрический смысл. Именно, рассмотренным сейчас соотношениям отвечает следующая^геометрическая картина (рис. 24.4). Рис. 24.4. Совокупности всевозможных допустимых управлений v(-) отвечает семейство областей G^>£ (^, х.м, Ф; #(•))• Каждая из них при е = 8° обязательно содержит точку х = 0. Среди областей G^)£ (е = 8°) есть такие области G^,g, которые только касаются точки х = 0 своими границами. Эти области (их может быть не одна) порождаются каждая некоторым (своим) управлением г;е(-). К каждой такой области через точку х = 0 можно провести касательную (опорную) гиперплоскость %&>, е (Z0), ортогональную к единичному вектору Z0, который является внешней нормалью к области Сг^,е. Векторы 1° — это как раз те векторы, которые максимизируют правую часть в (24.11). Управления ve(-) (г; (т) £=2?%, ^ <1 х ^Ф),^порождающие области G^,go, удовлетворяют условиям максимума (см. (24.11)) -p(»[*f, ф, г°; ».(.)] = max[-pO>(t О, I»; */(•)]
I U\ ТРАНСФОРМАЦИЙ ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИЙ Щ или, иначе, согласно (24.6) и (23.15) условиям максимума Z0' [ Х(Ф, x)ve(x)dx= max U°' [ Х(ф, T)i;(T)diA. (24.13) Случай является регулярным, если вектор Z= J°(£, x), максимизирующий правую часть (24.12) при условии е°(£, х) Ъ> 0, единствен. Рис. 24.5. Рассмотренным сейчас соотношениям можно сопоставить и другую геометрическую картину (при е° > 0). Подробное обоснование этой картины мы предоставляем читателю, а здесь лишь опишем ее (рис. 24.5). Множеству всевозможных допустимых управлений #(•) отвечает семейство о'бластей (?ео (^, ##, О; v (•)). Каждая ив этих областей обязательно имеет общие точки с множеством М. Среди областей <rt«(f,, а£, О; г;(-))есть, однако, такие области Geo, которые только касаются множества М своими границами. Эти области (£• соприкасаются с множеством Л по некоторым своим подмножествам ф°,
218 решение игровой задачи наведения [гл. v лежащим на гиперплоскости X (1°у. Последние гиперплоскости ортогональны к единичным векторам Z0, являющимся внешними нормалями к областям G*eo. Это как раз те векторы 1=1°, которые максимизируют правую часть в (24.12). Управления г;е(-), порождающие области б£о, удовлетворяют условиям максимума -Р^С. *. h ".(О) ^ niax[-pW(* d, I; v(.))], (24.14) где величина р(ух) определена равенством (24.6). Можно эту картину истолковать иначе (см. снова рис. 24.1). (Ограничимся теперь только регулярным случаем при е° > 0.) Множеству всевозможных допустимых управлений v (•) отвечает семейство областей G (t^ х^ Ф; v (•)). Каждая из этих областей обязательно имеет общие точки с е°-окрест- ностью Jtzo множества М. Среди областей G(t^ х^ Ь; v(-)) есть, однако, такие области G*, которые только касаются множества Jlzo своими границами. Эти области G* соприкасаются с множеством J£eo по некоторым своим подмножествам (?°, которые в регулярном случае составляют множество Q° (t^ xj), лежащее целиком в одной гиперплоскости X (/°), касательной к Лгшл Гиперплоскость X (1°) ортогональна к тому единственному вектору I = = Z0, который максимизирует правую часть в (24.12). Управления ve (•)> порождающие области G*, удовлетворяют условиям максимума (24.14) при I = Z0. Обсудим теперь подробнее регулярный случай. В этом случае основу экстремальной конструкции составляют области достижимости Gv»,eo или G* (см. рис. 24.6, где совмещены картины из рис. 24.1 и 24.3). Роль области прицеливания будет играть множество <?° (£„, #„). Экстремальные стратегии Ue (t, x) и Ve (t, x) задаются множествами Ше&, х) и Ve (*>#)» складывающимися при е°]> 0 из векторов ue€Ei%t, veEzWu которые удовлетворяют условиям максимума s' (t) ue = max s' (t) и, (24.15) s' (t) ve = max s' (t) и (24.16)
§ 24] ТРАНСФОРМАЦИЯ ЭКСТРЕМАЛЬНОЙ КОНСТРУКЦИИ 219 при ds(x) = -A'(x)s, dx 8(U) = l*(t4x), (24.17) (24.18) и управление ие It] прицеливает теперь движение х It] в момент t из позиции х [t] = х в] область Q° (£, x) (или, W *&(№ Рис. 24.6. иначе, управление ие [t] (^,8°)-прицеливает движение х It] в точку х = 0). Итак, в регулярном случае игры из задач 8.1 — 8.3 экстремальная конструкция, отвечающая позиции {t, x}, где е° (t, x) >> 0, складывается из областей достижимости G (t, х, ft; ve (•)), 8°-окрестности J£e<> множества .М, из области прицеливания Q° (t, x) и из экстремальных стратегий Ue и Ve, которые задаются кон- тингенциями ultlj=%(t9zlt])t vlt]^re(t,xlt]).
220 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V Таким образом, мы описали выше экстремальную конструкцию, в которую в случае игры наведения развертывается экстремальная конструкция для игры сближения. Свойства этой конструкции понятным образом трансформируются из свойств экстремальной конструкции для игры сближения, и мы их здесь снова обсуждать не будем. В заключение параграфа рекомендуем читателю в качестве упражнения перенести на случай игры наведения из задачи 8.1 те геометрические построения, которые были выполнены в § 22 при построении смешанной экстремальной стратегии Ue в регуляризируемом случае игры сближения из задачи 7.1. Примечание 24.1. Решение игровой задачи наведения было описано выше в предположении, что для рассматриваемой игры имеет место регулярный случай, то есть вектор 1° (*, я), максимизирующий правую часть (24.12), единствен, если е° (*, х) > 0. Оказывается, что это условие всегда выполняется в том случае, когда множества %t и Vt подобны, одинаково ориентированы и отношение размеров множества Чх к соответствующим размерам множества 2^, равное числу Р, удовлетворяет неравенству р>1. (24.19) Для того чтобы показать справедливость этого утверждения, обратимся к соотношению (24.12). Используя подобие множеств <Ut и W%, непосредственно из (23.14) и (23.15) получим, что Р(1)(*Ф,*,0=Р?(2) («•,»• Ч- (24.20) Таким образом, соотношение (24.12) теперь запишется в виде ео (*,, хф) = max I- ф -1) Р<2> (*„ *, /) - №1=1 * - Pw (О - VX Id, U *, - J VX (О, т) / (т) eft], (24.21) где функция (Р - 1) Р(2) (*•. <М) + ?{~Л) (0 = ?(*•• *, 0 при любых значениях векторов /(1^ и № удовлетворяет неравенству Р (*.,*, *(1)) + Р (*., *, *(2)) > Р (**, ♦, <(1) + 1{\ (24.22) поскольку аналогичное неравенство имеет место для функций р*2* и р^ (см. Приложение, § 45). Используя неравенство (24.22) д повторяя выкладки, которые приведены в § 13 при доказательстве един-
§ 25] ПРИМЕР 221 ственности вектора I , удовлетворяющего равенству (13.14), нетрудно показать, что при е° {t , х ) > О максимум в (24.21) или, что то же самое, в (24.12) достигается на единственном векторе 1° (t , х ). Итак, мы показали, что в случае подобия одинаково ориентированных множеств <Utn<^/t при Р > 1 в игре наведения имеет место регулярный случай. Упражнение 24.1. Выполнить в фазовом пространстве {х} геометрические построения, которые определяют смешанную экстремальную стратегию в регуляризируемом случае игры наведения из задачи 8.1. § 25. Пример В качестве примера к материалу из §§ 23, 24 найдем решение задач 3.2 и 3.3 из § 3. Решение этих задач было приведено в § 3 без обоснования. Сейчас мы построим оптимальные стратегии Г/° и F0, следуя общей теории. Рассматриваемый случай игры наведения оказывается регулярным, и поэтому оптимальные стратегии U0 и V0 доставляются экстремальными стратегиями Ue и Ve. Заметим сразу же, что эти стратегии Uen Ve будут несколько отличаться от тех оптимальных стратегий, которые бцли указаны в § 3, так как там во избежание загромождения несущественными деталями множества % (£, ж)и^ (£, #), задающие оптимальные стратегии, отличаются от множеств %е (£, х) и Ve (*» #)» которые мы построим здесь (и это различие проявляется в некоторой области W0, см. ниже стр. 224). Однако это различие совершенно не оказывает влияния на свойство оптимальности рассматриваемых стратегий, как это будет ясно читателю из следующих ниже построений. Напомним, что в § 3 рассматривалась система 2, динамика которой описывается уравнениями tx = а:2, £2 = £ — т), (25.1) где управляющие воздействия £ и т|, подчиненные соответственно первому и второму игрокам, стеснены ограничениями К1<1*. Ш1 < v (И > v). (25.2) (В отличие от § 3, мы обозначаем здесь управляющие силы буквами £ и т), так как буквы и и v будут использо-
222 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V ваться теперь для обозначения векторов-управлений и и v при описании системы 2 каноническим векторным уравнением вида (8.1).) В соответствии с постановкой задач 3.2 и 3.3 нам надлежит исследовать игру наведения для системы 2 (25.1), где плата у изображается равенством у = со (х [<> ]) - {х\ Ш+х22Ш Г* (25.3) и оценивает, следовательно, евклидово расстояние || х [-& ]|| от фазовой точки х [ф] до множества Л, состоящего из одной-единственной точки х — 0. Таким образом, задача 3.2 оказывается задачей наведения 8.1 (или, иначе, задачей 23.1), а задача 3.3 — задачей отклонения 8.2 (или, иначе, задачей 23.2). При этом нас интересуют те варианты этих задач, в которых ищутся оптимальные стратегии U°{t, x} и V°{t, x}, диктующие управления u\t]nu It], зависящие лишь от текущей {£, х [t]}, но не от исходной {t0, х0} позиции. Найдем решения U° = Ue, V° = Vei следуя материалу из §§ 23, 24. Запишем систему уравнений (25.1) в форме уравнения м-аи+м-м- ™ где согласно (25.1) ui = 0» vi — °» Щ = d v2 = 11- Из (25.2) вытекает, что ограничения и^%, уе^(8.2) в данном случае описываются соотношениями и>х = 0, |щ|< [г, vx = 0, |и21< v. (25.5) Следовательно, множества % и 2^, определяющие ограничения (8.2), в данном случае суть множества, подобные и одинаково ориентированные, причем коэффициент подобия Р = \x/v ^> 1. Поэтому согласно замечанию, сделанному в конце § 24, заключаем, что мы имеем дело с регулярным случаем игры наведения. Стало быть, в соответствии с теоремами 23.2 и 23.4 задачи 3.2 и 3.3 разрешаются экстремальными стратегиями Ue{t, x} и Ve {£, #}. Таким
§ 25l ПРИМЕР m образом, для решения задач 3.2 и 3.3 надлежит определить множества %e(t, x) и 2^е(£, #), которые определяют экстремальные стратегии Vеж Ve. Найдем эти множества, следуя §§ 23, 24. Фундаментальная матрица Х[т, т0] решений для однородной части dxldx = Ах системы (25.4) имеет вид Х[т,т0] /1 т-т0\ \0 1 / Множество S5, определенное условием (23.7), состоит здесь из одного нулевого вектора р = 0. Поэтому величины р$ и р<2> (23.14), (23.15) определяются следующими равенствами: р&> (*,#,/) = max (U'X[b,x]u(T)dx) = = max [\[li-{ft — x) + l2]u2(T)dx) = |Ul(T)|<lb V«> / = ^\l1-(u-x) + l2\dx9 t p<*> (*, d, Z) = max (C Z'X [Ф, T] i; (t) dt) = . = max (\[Zi(d— t)+ l2]v2(x)dx=^ l^(T)f<vW = vJ|Z1(0-T) + Za,|.dte Далее, согласно формуле Коши заключаем, что вектор а° = *° (*,*,<»,
224 РЁШЁЙЙЁ ЙРРОЁОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V фигурирующий в равенстве (24.12), изображается здесь равенством Учитывая полученные соотношения, мы видим, что согласно (24.12) гипотетическое рассогласование е°(£, х) = = 8° (£, xv х2) определяется равенством б°(t, хи х2) = max |(v — \i)\|(d — т) Zx + l2\dx — imi=iL J - M*i + (* — *) Ъ) - *a*i] , (25.6) если правая часть этого равенства положительна, в противном случае е°(£, я1э х2) = 0. Мы знаем, что в области е° (t> хг, х2) = 0 экстремальные множества %e(t, х1У х2) и Ve (t, xv х2) просто совпадают с множествами % и V, которые фигурируют в условиях (8.2). В нашем случае это означает, что в области е° (£, хг, х2) = 0 экстремальные управления ив [t] и ve [t] диктуются контингенциями unlt]^0, — (i<HeaUl<y; vn[t] = 0, —vOe2U]<v. (25.7) В качестве первого шага при определении стратегий Ue и Ve мы и найдем теперь ту область W0 в полупространстве {t, x±J x2} (t <Cft), где выполняется равенство 8° (£, Хц х2) = 0 и где, следовательно, реализации оптимальных управлений ие [t] и ve [t] диктуются контингенциями (25.7). Согласно предыдущему (см. (25.6)) область W0 определена условием lUINiL f - h (*i -h (* - 0*2) - /2*2] < 0. (25.8)
§ 25] ПРИМЕР 225 Обозначим ф — * = Г, и>! = — (хг + (ф — 0 #2), w2 = — а?я. (25.9) В новых переменных неравенство (25.8), определяющее область W0, принимает вид т max|>M?-0i-v) [ \(Т- т)/х +/2 |л1<0, (25.10) imi=iL $ J где символ w означает двумерный вектор w = И>1 Wo Теперь нетрудно проверить, что множество точек w, которые приданном Т !> 0 удовлетворяют условию (25.10)» можно описать неравенствами (25.11) 1 9 1 Т2 F2(^, u>2, ЗГ) = г»г + 4(|A-V) ^2 - — ^^2 — — (ц — v)<0, которые для каждой точки w из (25.10) должны выполняться одновременно. Заменяя в (25.11) переменные wt в соответствии с равенствами (25.9), мы и получим нужные нам неравенства *1 + 401-V) + 2 Г"" ^-V)^0, (25.12) ^ * 4ft*-v) + 2 + ~ (I* —v)>U, которые опишут область W0. Пусть Sx есть поверхность, выделяющая область W0 в полупространстве {t, xx, х2}> t^ft. Тогда из (25.12) следует, что пересечение поверхности Sx с плоскостью t = const = с (t0 <^ с <^Ф) 8 Н. Н. Красовский
226 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V состоит из кусков двух парабол xz (О — t) (ft — tf Хг Хг 4 ([л — v) х2 4([Л—v) + + х2 (ft — t) (ft — *)2 f -(fi-v) = 0 (рис. 25.1). Итак, мы получили достаточно полное представление о той области W°, где управления ue[t] и ve [t] диктуются контингенциями (25.7). Теперь нам надлежит определить оптимальные управления ие и ve для тех позиций {t, хг, х2}, где е° (t, xx, х2) > 0. Мы знаем, что при условии 8° (£, хг, х2)^>0 экстремальные управления ие и ve определяются условиями максимума (23.22) и (23.33). Значит, для определения множеств %еж °1Уе нам надлежит най- Рис. 25.1. ти решения s (х) уравнения (24.17), удовлетворяющие кра- (24.18). В нашем случае матрица А' имеет евому условию вид А': а Поэтому уравнение (24.17) для двумерного вектора L52(t)J сводится к следующей системе двух уравнении: dS2 dsi о, dx — SX. (25.13) Интегрируя эту систему уравнений при краевом условии (24.18), то есть при краевых условиях sx (ft) = Z? (t, xv x2), s2 (ft) = f2(t, xx, x2),
- 25] ПРИМЕР 227 найдем si (t) = ll (t, Si, ar2), *2 (0 = (0 - 0 • # (t, *i, x2) + ll (t, xx, x2), (25.14) где символ 1° (t, хг, x2) обозначает вектор Z, максимизирующий правую часть (25.6). Из (25.14) (и из (25.5)) заключаем, что соотношения (23.22) и (23.33), которые при условии 8° (*,#1, х2)^>0 определяют множества %е и Ve, имеют вид h{t)ue2= max [(&-t)l°i + l02]u2; ые1 = 0, (25.15) s2(t)ve2 = max [(# — t)%+l°2]v2; vel = 0. (25.16) Обозначим символом Wz ту область в полупространстве {£, хъ х2} (t*^$), где выполняется неравенство с" (*, a?i, ^)>0. Из соотношений (25.15) и (25.16) заключаем, что эту область следует разбить на три части. Первую из этих частей составит поверхность S2l на которой выполняется равенство (О - *) Й (*, хг, х2) + Г2 (*, хх, х2) = 0. (25.17) На этой поверхности условиям максимума (25.15) и (25.16) будут удовлетворять любые значения и2 и v2. Следовательно, на поверхности S2 реализации экстремального управления ue[t] и ve [t] снова будут определяться контингенциями (25.7). Вторую часть Wz составит множество тех позиций {ty хъ х2], для которых будет выполняться неравенство (О - t) Й (*, хг, х2) + ll (t, xt, x2) > 0. (25.18) Эту часть W* мы обозначим символом W%- Из условий (25.15) и (25.16) вытекает, что в области W% экстремальные управления ие и ve определяются равенствами «е=[°1, Ve==\°v}' (25Л9) и, следовательно, в области Wl каждое из множеств %е (t,xv ж2)или Ve (t, xv x2) состоит лишь из единственного 8*
228 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V элемента ие или ие соответственно. Наконец, третью часть Ws составляет множество W-, складывающееся из тех позиций {t, хх, х2}, для которых справедливо неравенство (О - t) Z? (t, хг, х2) + l°2 (*, xx, х2) < 0. В этих позициях экстремальные множества %е (t, хг, х2) и We (Z, хг, х2) также будут состоять каждое лишь из единственного элемента ие или ve, причем согласно (25.15) и (25.16) значения ие и ve определятся равенствами [-,]• *-[-М Итак, мы видим, что для определения множеств %е и We в области Wz достаточно построить поверхность £2, на которой выполняется равенство (25.17) и которая разделяет области Wl и W\ Опишем построение этой поверхности S2. Учитывая равенство ||Z°|| = 1, из (25.17) получим, что для точек l»(t,xllx2) = lV^I[ y====, Yi+(»-yl (25.20) или Таким образом, для построения поверхности S2 надлежит найти все точки {£, хх, х2) из области We, где е° (£, а^, х2) > *> 0, для которых максимум в (25.6) доставляется вектором № (25.20) или вектором № (25.21). При этом удобно опять перейти к переменным (25.9). Тогда задача построения поверхности S2 сведется к отысканию тех точек w = = {w±1 w2}, для которых максимум в (25.10) доставляется вектором № (25.20) или вектором № (25.21). При отыскании таких точек воспользуемся следующим фактом. Пусть G — некоторое выпуклое, замкнутое множество векторов w и функция p(Z) определена равенством p(Z) = max I'm при w e G. (25.22)
§ 25] ПРИМЕР 229 (Такая функция называется опорной функцией этого множества.) Предположим, что задан некоторый вектор ^(||ZJ| = 1) и требуется определить те точки w^ для которых max [w'j - р (/)] - wmlt - р (ZJ > 0. (25.23) Оказывается, что условие (25.23) выполняется для тех и только тех точек wt, для которых справедливо равенство w, = m>(U + 4. (25.24) где а — положительный числовой параметр, a w (ZJ — те точки из G, которые удовлетворяют соотношению l[w(lj = niax Ijv при Wi G. (25.25) #«*; Для того чтобы пояснить содержание этого утверждения, обратимся к геометрической интерпретации соотношения (25.23). Опираясь на материал из § 13, <*w* можно показать, что величина (25.23) есть расстояние от точки w^ до множества G, при этом направление вектора Z#, на котором достигается максимум в (25.23), совпадает с направлением вектора, проведенного от точки w0 к точке w^ где w0 — ближайшая к и>„ точка из множества G (рис. 25.2). Кроме этого оказывается, что w (lj= Рис. 25.2. = w0, то есть опорная гиперплоскость, проведенная к граничной точке w0, определяется вектором Z^. Обратимся теперь к рассматриваемому примеру. Будем понимать под множеством G сечение области W0
230 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V какой-то фиксированной плоскостью t = const = с, (Ь — с = Т). Найдем сначала те точки w^, для которых максимум в (25.10) достигается на векторе Z^> (25.20). Учитывая, что т p(l) = (V-v)[\(T-r)k + h\dT — опорная функция выпуклого множества G, заданного, стало бЫ{Ть, неравенствами (25.11) при выбранном фиксированном Т = ф — с, w(i(f)) получим, что в соответствии с равенством (25.24) задача отыскания точек wn сводится к нахождению точки w (P1)), определяемой условием Z(1)^(Z(1))==maxZ(1)'w при weG, (25.26) где область G задается неравенствами (25.11). Нетрудно проверить, что координаты точки w (ZW) определяются равенством Рис. 25.3. w (*«)*={.£ (ц _;v), 4Г 0*-v)}. (25.27) Заметим, что го (№) — точка заострения на границе множества G (25.11). При этом вектор № (25.20) является вектором внешней (по отношению к G) нормали к кривой Рг(и>1У w2l Т) = 0, вычисленным в точке w — w (ZW) (рис. 25.3). Совокупность точек и?#, отвечающих вектору Z<1> (25.20), определяется соотношениями (25.24), (25.27), то есть
§ 25] ПРИМЕР 231 является полупрямой YitTT <25-28> (<х>0). Аналогичным образом рассматривается второй случай (25.21), где w (*(,)) = {- -£(,х - v), - Г (|i - v)} , (25.29) а соответствующие точки wt лежат на полупрямой w*1~ 2—1 + VTTW' У1+Т (25.30) tfl*=-(,i-v)r—p^=r (<%>0). Возвращаясь к исходным обозначениям, получим, что {t, xv ж2}е<52 тогда и только тогда, когда выполняется одно из двух соотношений '«1 + ач(0 - <) =. - -&^-(* - if -f a, х2 = — (ц - V)(* — 0 — а(д — О ж8 = (ц —у)(Ф — *)+ «(<> —0 (а>0). Исключая здесь параметр а, получим с учетом неравенства а ]> 0, что S2 состоит из кусков двух поверхностей, которые определяются уравнениями (*-0»i+*.[(*-*)*+i]+-Q!^(*-W-08+2]=o
232 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАЁЕД&НИЙ 1ГЛ. V при *f + (H-v)(<>-0<0, (25.31) ^^t)x1 + xA(^-tf + l]^^^(^t)[^-tf+2]^0 при «t-(l*-v)(* -<)>0. (25.32) Таким образом, поверхность S2, разделяющая области Wl и W-, определяется соотношениями (25.31) и (25.32). Для завершения построения множеств %е и Wе надлежит определить область Wl (Wt), где выполняется неравенство (О - 0 1\ (*, *!, а:,) + Z£ (*, хх, *2) > О ((О - О А (*, я1? *2) + Z£ (*, a?lf я2) < 0). При построении этих областей удобно опять перейти к переменным (25.9); после соответствующих выкладок получим, что точка {t, xx, х2} принадлежит области W+ тогда и только тогда, когда для этой точки одновременно выполняются соотношения Xl 4(n-v) ^ 2 + 4 <•* v'^u» _1IL^(0-0[(*-0' + 2]<0, (25.33) (ф - 0*i+ *,[(<>-0*+ 1] Ь или когда для точки {t, хг, х2} имеет место неравенство (* - t)xt -f *2 [(О - *)2+ 1]+ ^^ (*-*) [(А-02+2]<0. (25.34)
§ 25] ПРИМЕР 233 Аналогичным образом область We_ задается соотношениями + (JL^(# - t) [(О - О2 + 2] >0, <25-35) (О -*)*i + *2 [(*- О2 + 1] - -(-^-(^-ОК*-02 + 2]<о, или (*-o^+^[(*-o4i]--(i41^(*--o[(*~o2+2]>o. (25.36) Окончательно получаем, что множества %е (t, хг, х2) и %Уе (t, xx, х2) определяются следующим образом: если для точки {t, хг, х2) выполняется условие (25.12) или (25.31), или (25.32), то %е (*, ХХ, Х2) = %, °1Ге (*, Ъ, Х2) = фх если для точки {t, xv х2} имеет место условие (25.33) или (25.34), то %е (*, хх, х2) = {0, [х}, V. (*, хг, х2) = {О, v}, если же выполняется условие (25.35) или условие (25.36), то %е (*, ХХ, Х2) = {0, - Jl}, We (*, Хг, Х2) = {О, -V>. Поверхность переключения S2 и область W0 изобра- жены на рис. 25.4. Рассматриваемая игровая задача была смоделирована на ЭЦВМ. При этом были выбраны следующие начальные данные: х01 = —7, х02 = 4, t0 = 0. Реализации движений, просчитанные при ф = 4, \i = = 2, v = 1 для пар стратегий U -ч- %e (t, xx, х2), V -~ -- WAU *x, x2y, U ч- <йв (*, xx, x2), V~t\= {0, 0}, изображены на рис, 25.5, рис. 25.6 соответственно, где буквой А обозначено исходное состояние системы Б, точка В отвечает моменту попадания на поверхность Sv С — поло-
234 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V жение системы в конечный момент времени. Причем во втором случае в момент *ф = 0,265 происходит попадание Рис. 25.5. . Рис. 25.6. точки {t, хг, х2) в область W0- Начиная с этого момента ^ = 0,265 точка {t, хг, х2} скользит до границе Sx об-
§ 26J РЕШЕНИЕ ЗАДАЧИ НАВЕДЕНИЯ 235 ласти W0. (Заметим, что в области W0 при вычислениях мы полагали и = 0.) Движение точки {t, xx [t], х2 [t]}, осуществляющееся по границе области W0, изображенное на рис. 25.6 на плоскости {хх, х%), представлено также на рис. 25.4 в пространстве {t, хг, х2}. § 26. Решение задачи наведения Обратимся теперь к задачам 8.1—8.3, где уже функция со(#) не обязательно имеет смысл расстояния о)(#, Л) от какого-то выпуклого множества Л. Однако и здесь мы ограничимся только такими случаями, когда поверхности уровня функции со(#), то есть поверхности а(х) =Х (26.1) при каждом значении X отграничивают выпуклые множества Л\, вложенные друг в друга, так что М\х с= Jh2 при Х2 > Xv (26.2) Тогда естественно, руководствуясь соображениями, аналогичными тем, какие приведены в §§ 23, 24 для частного случая этой задачи при ($(х) =со(#, Л), попытаться и здесь привлечь к решению задач 8.1—8.3 следующую экстремальную конструкцию. Пусть, как мы это уже принимали не раз, в некоторый текущий момент времени t = U <Ф реализовалась позиция {£*, х*}, которую зафиксируем. Построим опять движения х (т) (24.1), (24.2) и рассмотрим семейство областей достижимости G (£*, #*,ф;у (•)), отвечающих всем возможным допустимым управлениям v (•). Символом X (t*, x*\ v (•)) обозначим наименьшее значение X, при котором множество Л\ еще пересекается с областью G (£*, #*,-&; v (•)) (рис. 26.1). Назовем далее гипотетической платой Х°(и,х*) величину J^,*J = maxM'*,^(-))- (26.3) и(.) Руководствуясь соображениями, аналогичными тем, какие приведены в §§ 23 и 24 можно убедиться, что гипотетическая плата Х° есть наименьшее из чисел X, которое
236 £ШПЁЙЙЁ ЙГРОЬОЙ ЗАДАЛИ ЙАЁЁДЁЙЙЯ |ТЛ. V удовлетворяет условию pO)(t., d, Z; »(.))+ р^(0 + l'z°(tt, x„ О)>0 (26.4) при всех Z с нормой |Z| = 1 и для всех допустимых v (•). Здесь величина р^ определена равенством (24.6), Рис. 26.1. вектор х° определен соотношением (24.8), величина р<^л) в соответствии с (24.6) задается условием р<*х>(*) = тахГр, (26.5) причем множество ёР\ определяется следующим образом: pEz£P\ равносильно —pGJx. Из условия (26.4) вытекает, что искомую величину Х° (£*, х*) можно определить как корень следующего уравнения: min [minpa)(*,f *, I; v(.)) + PW(0 + W(tel«„ 0)] = 0, ll'll=i n(.) (26.6) если только это уравнение имеет решение, иначе Я0 = = min ы(х). Опять естественно назвать регулярным тот х
§ 26] РЕШЕНИЕ ЗАДАЧИ НАВЕДЕНИЯ 237 случай, когда минимум в правой части (26.6) достигается на единственном единичном векторе 1° (£*, х*). Тогда приведенным соотношениям отвечает следующая геометрическая картина (рис. 26.2), которую мы приводим без пояснения, так как она совершенно аналогична картине, изображенной на рис. 24.1. Рис. 26.2. Следует сразу же оговориться, что выделение регулярного случая условием единственности вектора 1° (£*, х*) теперь уже значительно сильнее, чем раньше (в случае (й(х) = (о(х, Л)), сужает класс задач. Это объясняется тем, что поверхности уровня функции и>(х) = ы(х, <М) = = i = е при е ^> 0 являются достаточно гладкими, имеют в каждой точке q единственную касательную гиперплоскость £, и поэтому предположение, что множества Лео = = .МхоЪ G (U, х*, Ф; v€ (•)) = G* разделяются в точках их соприкосновения Q0 лишь единственной гиперплоскостью X (Z0), отвечающей вектору Z0, выглядит не слишком жестким. В общем случае, однако, точки соприкосновения области G* и множества <М\о могут оказаться точками заострения с обеих сторон (рис. 26.3) и тогда уже появится
238 РЕШЕНИЕ Й1ЧР0Ё0Й ЗАДАЧИ НАЁЁДЕНЙЯ trjl. V целое семейство гиперплоскостей X, разделяющих множества Л\о и G* в точках их соприкосновения, а это означает, что появится семейство единичных векторов Z, ортогональных каждый к одной из гиперплоскостей X и минимизирующих левую часть в (26.6). Несмотря на отмеченное обстоятельство, мы все-таки выделим определенный выше регулярный случай, назовем областью прицеливания Q° (U, х*) множество, являющееся пересечением границы Mv- с областями G*, и построим экстремальные стратегии Ue и Ve, задаваемые кон- тингенциями v МееП (*, х [*]), (26.7) прицеливающими движение х [t] в область Q° (t, х [t]) в соответствии с условиями максимума (24.15), (24.16) (если i° (t, x [t]) есть корень уравнения (26.6) (при t* = = t,x^ = x It]), иначе %е = = %t, Ve = Wt)- Заманчиво далее, имея в виду материал из §§ 23,24, высказать гипотезу о том, что и теперь в регулярном случае игры задачи 8.1—8.3 разрешаются экстремальными стратегиями (26.7). Увы, при попытке обосновать справедливость этой гипотезы мы наталкиваемся на новую трудность. В § 16 получилось, что гипотетическое рассогласование 8° (t, х) ]> 0 (х = = {у, z}) является дифференцируемой функцией от t и х. Теперь же гипотетическая плата А,0 в соответствии с уравнением (26.6) определяется как неявная функция А,0 (t, х) из уравнения Рис. 26.3. minpO>(*f *, /о(*, х); *(.))+ p(^(Zo (*, х)) + + l°'(t,x)x°(t,x,$) = 0. (26.8)
g 26] РЕШЕНИЕ ЗАДАЧИ НАВЕДЕНИЯ 239 Поэтому, несмотря даже на сохранение хороших свойств функции min p„L) и вектора l°(t, я), для дифференте-) цируемости А,°(£, х) важно, чтобы функция р<^х> (Г) имела не равную нулю частную производную др(^х) /дк. Если это условие выполняется, то положение существенно упрощается и проходят те же рассуждения, что и в § 16. Эти рас: суждения мы предоставляем в качестве упражнения желающему читателю. Обратимся к более неприятной ситуации, когда производная др(^л) /9Я, пусть даже существующая, может обращаться в нуль для отдельных позиций {t, x). Здесь доказать оптимальность экстремальных стратегий Ue и Ve (26.7) для задач 8.1—8.3 не так-то просто. Мы снова предоставим исследование этого вопроса интересующемуся читателю, а сами перейдем к другому способу построения оптимальных стратегий. При этом, однако, нам придется ввести в число аргументов, определяющих множества %е и ffle9 исходную позицию {t0J х0}. Опишем соответствующую конструкцию. Итак, вернемся к обсуждению игры из задач 8.1 — 8.3 с самого начала. Примем опять, что поверхности уровня (26.1) при каждом X (для определенности пусть всегда со (х) > 0 и, следовательно, X ^ 0) выделяют выпуклые, ограниченные, замкнутые множества, удовлетворяющие условию (26.2). Пусть игра начинается из позиции {t0,x0}. Сопоставим этой позиции {t0, х0} множество Jho(t0>x0)> найденное по правилам, описанным выше (см. стр. 235— 236), где, таким образом, Х° (t0l x0) — гипотетическая плата игры. После того, как это сделано, заменим исходную задачу 8.1 (или задачу 8.2, или задачу 8.3) аналогичной задачей 8.1 (или 8.2, или 8.3), где, однако, вместо предложенной сначала функции со (х) будет фигурировать новая функция (д(х; t0, х0) = со(х, Лщц,Хо)). Теперь нетрудно проверить, например, следующее утверждение. Теорема 26.1. Пусть в игре из вспомогательной задачи 8.1 при со(#; t0, х0) = со(#, Jh»(t0ix0)) имеет место регулярный случай *). Тогда исходная задача 8.1,'j где *) Кстати, здесь и условие регулярности уже является более естественным требованием, чем в случае исходной функции со (я) (см. выше замечание на стр. 237—238),
240 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V о = со(#), разрешается экстремальной стратегией Ue(t, х; t0, x0), которая разрешает вспомогательную задачу в соответствии с теоремой 23.2. При этом найденная оптимальная минимаксная стратегия Ue (£, х; £0, x0) обеспечивает первому игроку результат (со(ж И | 90 [Ue, v\ t0, x0] < X»(t0, xQ), (26.9) какова бы ни была допустимая реализация v[t] управления v второго игрока. Аналогичным образом строятся утверждения, относящиеся к регулярным случаям игры из задач 8.2 и 8.3. Точно так же, заменяя исходную задачу 8.1 вспомогательной задачей 8.1 с функцией со (#, Ао(/0)То)), можно, опираясь на материал из § 21, построить регуляризируемый случай игры из задачи 8.1. Все эти вопросы мы оставляем читателю для самостоятельного обсуждения. Упражнение 26.1. Доказать или опровергнуть следующее утверждение: в регулярном случае игры из задачи 8.1 при условии др /дХ > 0 (см. стр. 239) экстремальная стратегия Ue {t, х} (26.7) является оптимальной минимаксной стратегией, разрешающей эту задачу. Упражнение 26.2. Доказать или опровергнуть следующее утверждение: в регулярном случае игры из задачи 8.1, когда нарушается условие dp х /дХ ф 0, экстремальная стратегия Ue {t, x} (26.7) является оптимальной минимаксной стратегией, разрешающей эту задачу. Рассмотреть случай непрерывной функции со(я), случай дифференцируемой функции (о(#). § 27. Обобщение задачи наведения Теперь мы обсудим одну игру наведения, где плата имеет несколько более общий характер, нежели в тех случаях, которые были изучены в предыдущих параграфах. В то же время мы выясним, что при определенных условиях такая более общая игра приводится к разрешению проблем, аналогичных разобранным ранее. Итак, рас- , смотрим управляемую систему 2, движение которой х [t] описывается уравнением (8.1) при стандартных ограничениях (8.2). Примем, что плата игры у теперь изображается
§ 27] ОБОБЩЕНИЕ ЗАДАЧИ НАВЕДЕНИЯ 241 равенством и (27.1) где созс, о)ш со», о>& суть заданные непрерывные функции, соя еще и дифференцируема по х\ момент окончания игры Ф также задан. Как обьгчно, конфликт состоит в стремлении первого игрока минимизировать величину у, второй игрок стремится максимизировать у. Для того чтобы получилась привычная ситуация, мы введем дополнительную переменную t afc+i Ш = J [ю* (*, ж [t]) + (ou (t, гг [t]) — со, (t, и [t])] dt, *» (27.2) пополняя /с-мерный фазовый вектор исходной системы 2 до (к + 1)-мерного фазового вактора ~#1 а: = новой динамической системы 2, движение которой х [t] согласно (8.1) и (27.2) будет описываться системой дифференциальных уравнений ± = A(t)x + u — v+f (*), (27,3) *ft+i = <оя (*, ж) + сои (*, и) — со0 (*, у). (27.4) Плату у (27.1) теперь можно выразить равенством у = о (Ж fo]) = a?fc+1 fo] + ю* (^ fol). (27.5) Но в таком случае мы сталкиваемся с той ситуацией, которая уже встречалась нам раньше в § 26. В самом деле,
242 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V здесь опять речь пойдет о минимаксе (или о максимине) функции со (£ [ф ]) от конечного состояния х [ft ] фазового вектора ос [t], описываемого векторным дифференциальным уравнением $ = / (*, X, Щ V), (27.6) объединяющим систему уравнений (27.3), (27.4). Однако теперь это уравнение обладает новым, не совсем приятным качеством: последняя строка (27.4) векторного уравнения (27.6) содержит в правой части нелинейные, вообще говоря, функции Ob, о)м и о)у. Однако, поскольку в системе (27.3), (27.4) нелинейным является лишь одно-единственное уравнение (27.4), правая часть которого к тому же не зависит от «своей» переменной #&+1 [t], построение областей достижимости G для системы (27.3), (27.4) все-таки существенно упрощается и приобретает черты, сходные с чисто линейным случаем, изученным раньше. Попробуем составить экстремальную конструкцию, аналогичную той, какая описана в § 26. Пусть реализовалась позиция {^, ос [tJ = ос^}. Рассмотрим движения # (т) (£*^т<4*, я (О — ~*)> описываемые уравнениями £ = A(x)x + u-v + f(x), dx, *+i dx <">*(*, *)+ Wft+i — У*+1, (27.7) (27.8) где управления «(t) = щ(х) l_Wft+i (T) J v(x). ■Vl(x) стеснены ограничениями u(x)ze%, v(x) e $V (27.9) Здесь символами %ти^, обозначены выпуклые оболочки тех множеств, которые пробегаются (к + 1)-мерными
§ 27] ОЁОЁЩЁНЙЕ ЗАДАЧИ НАВЕДЕНИЙ 243 векторами когда fc-мерные векторы ии v пробегают множества %т и 2^т соответственно. (Напомним, что выпуклой оболочкой множества W называется наименьшее выпуклое множество, которое содержит W-) Мы ограничимся пока таким формальным выбором ограничений на управления Ъ (т) и v (т), откладывая выяснение содержательного смысла их на будущее (см. ниже стр. 247—248). Теперь, следуя материалу из § 26, мы сформируем в пространстве {х } области достижимости G(^, £*,$; v (•)) Для движений х (т) (27.7), (27.8) при ограничениях (27.9) на-й (т) для каждого фиксированного программного управления v (•) (у (т), ^<т<Гф), стесненного вторым условием (27.9). Области G (^, £„,0; v (•)) СУТЬ ограниченные и замкнутые множества в пространстве {$} (см. упражнение 27.1). Примем, кроме того, что они.еще и выпуклы (см. упражнение 27.2). Тогда они являются пересечениями своих опорных полупространств (см. Приложение, § 48, стр. 401, а также § 13, стр. 124-125) Р(*.,*„*;1,?(-))-^>0, (27.10) где опорная функция р вычисляется из условия гГ(-) гГ(т)е9гт + 5 X(0,T)[M(T)-i;(T) + /(T)]dt4- + Jfe+i (*. ft+1 +5 [®х (Т, * (Т)) + ^fe+i (Т) — У/с+1 (Т)] d%)\ , (27.11) ^ = "а (0„
244 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ ЙАВЁДЕЙЙЯ [ГЛ. V причем символ I означает единичный (к -f- 1)-мерный вектор 'к 1 = U 1к а символ I означает ^-мерную составляющую 'к' I = ' к J вектора L Итак, областьG(tt, х^ Ф; v(•)) описывается неравенствами (27.10), которым удовлетворяет каждая точка Рис. 27.1. ^ из G (и только такие точки) при любом выборе единичного вектора L Теперь мы рассмотрим в пространстве {х} множества ,Лл, определенные неравенствами со (£)<*,, (27.12) и примем опять, что эти множества при каждом Я тоже
§ 2?] ОЁОЁЩЁНЙЁ ЗАДАЧИ НАВЕДЕНИЙ 245 являются множествами выпуклыми. Тогда совершенно так же, как это было сделано раньше в § 26 (стр. 235), можно определить величину А,0, равную наименьшему значению X, при котором множество Л\ еще пересекается с каждой областью G (^, 5f#, ft; v (•)). Соответствующее множество Мк и касающиеся его области достижимости G(t^, #д,0; i>e(')) и определят искомую экстремальную конструкцию (см. рис. 27.1, имеющий, разумеется, условный смысл). Назовем случай регулярным, если пересечение Q0 множества Л\о со всеми областями G (^, #*,#; уе (•)) сводится к единственной точке д°. Тогда опять можно определить экстремальное управление й (tt) = йе из условия прицеливания движения х (т) (27.7), (27.8) в точку х (ф) — д°. Это управление йе будет определяться теперь из условия максимума (см. [7*], стр. 110) s' (Ю Ue ^ ma5 S' (tj U, где s(r) — (к + 1)-мерная вектор-функция S(t)=l^(t) Uc+i(T)J удовлетворяющая уравнениям t> 1 i(«)J' ds "dr ™=-A'(x)s-b(x)sM, dS] 'fc+i rft 0 (27.13) (27.14) при краевом условии s (#) =7°. (27.15) Здесь компоненты bt (t) вектора & (t) будут определены равенствами М*>=(Йг) _ , (27-16) N г / х=Хе (Т)
246 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЁДЕЙИЯ СгЛ. V причем символ яе (т) обозначает то движение х (т) системы (27.7), (27.8), которое приводится в точку д° в момент т =ф управлением и = ие (т), i; = г;е(т) (см. рис. 27.1). В условие регулярности игры мы включим теперь еще предположение о том, что движение хе (т) единственно. Тогда можно проверить (см. упражнение 27.3), что вектор s (£J в условиях (27.13) зависит непрерывно от позиции Для построения множества %е (^, xj экстремальных векторов ие (27.13) надлежит уметь находить вектор 1°. Но этот вектор находится из известного нам условия (см. § 26, стр. 236, условие (26.6)), которое определяет величину Я0: min (minp (t, x, О; Z, v(.)) + Р(^>}(/)) = 0. (27.17) ПП1=1 ?(•) Это условие совершенно аналогично условию (26.6), и поэтому на его пояснении мы здесь останавливаться не будем. Напомним лишь, что /°в (27.15) есть как раз тот вектор, который минимизирует левую часть в (27.17). Наконец, в условие регулярности игры мы включим еше предположение о том, что выполняется неравенство Jr(min [minp(t, *, Ф; J, ?(.)) + Р(^Л>(*)])> 0, (27.18) аналогичное условию dp^ti/дХ =f= 0 из § 26. Теперь все подготовлено для построения экстремальной стратегии Ue{t, х}. Именно, эта стратегия определяется контингенциями И*] е #.(*,*[*]), (27.19) где множества %е складываются из (к + 1)-мерных векторов ие, удовлетворяющих условию максимума (27.13), если Я0 > 0, иначе в[Чб|. (27.20) Справедливо следующее утверждение.
§ 27] ОБОБЩЕНИЕ ЗАДАЧИ НАВЕДЕНИЯ 247 Теорема 27.1. Рассмотрим систему S*, движение которой описывается уравнениями ^ ±* = A(t)x* + u*-v* + f{t) причем управления (27.21) *-[<}■ стеснены ограничениями и*[*]еЭД«, ? = " V* 1 ?[1]Е^,. (27.22) В регулярном случае игры экстремальная стратегия Ue {t, #*}, определенная контингенциями (27.19), (27.20), разрешает для системы (27.21) задачу о минимаксе величины Y = co (Г[<Н) (27.23) и обеспечивает, таким образом, выполнение неравенства (©(2 [Ф])|#* [#., у; «о, <; ^+10- 0])< <min sup sup (©(?[#]) | <Г [СГ, v; t0, xl; x*K+l0 = 0]), (27.24) какова бы ни была начальная позиция {t0, x% }. Доказательство теоремы 27.1 лишь в деталях отличается от доказательства теорем 23.2 и 26,1, и мы его предоставляем читателю. Итак, теорема 27.1 указывает оптимальную минимаксную стратегию U = Ue для игры (27.21) — (27.23). Теперь нам остается обсудить, как связано это решение задачи о минимаксе величины у (27.23) для вспомогательной
248 РЕШЕНИЕ ИГРОВОЙ ЗАДАЧИ НАВЕДЕНИЯ [ГЛ. V системы 2* (27.21) с исходной задачей о минимаксе величины у (27.5) для исходной системы 2 (27.3), (27.4). Связь эта поясняется следующим образом. Пусть для вспомогательной системы 2* в какой-то момент времени t контин- генция (27.19) вынуждает некоторое управление иЧ*1 €=$,(*>•[*]), (27.25) Тогда по смыслу множеств %t мы можем найти такие (&+1)-мерные векторы *ДО [*],..., и№> [t] (см. [5*], стр. 783), которые содержатся во множестве %?, составленном из векторов и удовлетворяют притом условию /С+2 fe+2 • »' М «= S Ml)« f«Г, 3^=1- (27-26) i=l г=1 Но тогда мы можем полагать, что и в исходной системе 2 в момент t может реализоваться управление и [t] = = и* [t], причем это управление и [t] получается смешиванием (см. выше в § 3 примечание 3.4 на стр. 42) управлений и& It] на предельно малом отрезке времени At вблизи момента t. Управления же й^ [t] действительно могут реализоваться в системе 2. Примечание 27.1. Если функция о (х) зависит лишь от части фазовых координат щу то множества Л^ и области достижимости G (t, х, -б1; г?(-)) можно формировать в подпространстве {{х}ш}, которое отвзчает множеству аргументов х^ функции со(#). Удобный пример для задачи, рассмотренной в этом параграфе, доставляет система 2, описываемая уравнением (8.1) при ограничениях (8.2), где A (t) — const, / (£) = 0, множества % и Vt заданы неравенствами ИЮ> НЮ (27.27)
§27] ОБОБЩЕНИЕ ЗАДАЧИ НАВЕДЕНИЯ 249 причем плата у (27.1) изображается равенствами У = \(lx[t]f ±\\u[t]f ±\\v [t]f)dt. (27.28) и Разбор всевозможных случаев, отвечающих различным комбинациям знаков + в (27.28), мы предоставляем читателю. На этом мы и завершим обсуждение предложенной в этом параграфе обобщенной задачи наведения. Упражнение 27.1. Доказать, что области G(t , х ,%\ v(>)) при ограничениях (27.9) суть ограниченные и замкнутые множества в пространстве {.х}. Упражнение 27.2. Обсудить условие выпуклости областей G (t , а? , О; v (•))• Построить пример, когда области G (t ,!c э Ф; гГ(-)) при ограничениях (27.9) не являются обязательно выпуклыми (или доказать, что они обязательно выпуклы). Упражнение 27.3. Доказать, что в регулярном случае вектор s (t) из условий (27.13) зависит от позиции {t ,1с } непрерывно. Упражнение 27.4. Доказать теорему 27.1. Упражнение 27.5. Построить для системы 2 (27.3), (27.4) управления ь?д [t], аппроксимирующее управление гГ[£], задаваемое контингенциями (27.19), (27.20). Упражнение 27.6. Доказать или опровергнуть следующее утверждение: множества %<> (t, x) на деле зависят лишь от t и х, то есть доказать или опровергнуть следующее утверждение; экстремальная стратегия Uе {*, х\ на деле является стратегией Ue{t, х). Упражнение 27.7. Сформулировать и исследовать задачу о максиминной оптимальной стратегии Ve {t, я}, которая разрешает задачу о максимине величины у (27.5). Упражнение 27.8. Исследовать игровую задачу наведения при условиях (27.27) и (27.28). Построить обобщения этой задачи, в которых переменные х, и, v в подынтегральных функциях (27.28) перепутываются.
ГЛАВА VI ищшда информационной ИГРОВОЙ ЗАДАЧИ § 28. Информационная игровая задача ' как задача сближения Обратимся к задаче 9.1, сформулированной в § 9. Оказывается, ее можно трактовать как игровую задачу сближения, родственную тем конфликтным задачам, какие были исследованы в §§ 10—22. Установив это обстоятельство, мы тем самым откроем путь для решения задачи 9.1. Начнем со случая, когда множество Л в условиях этой задачи есть точка х = 0, и следовательно, плата у изображается равенством у = \\х [ф]||. Итак, рассмотрим систему 2, описываемую уравнением (9.1) при условии (9.2). Разобьем движение х [t] на два движения х^ [t] и х^ [fl, полагая х [t] = хЫ It] - х& [t] (28.1) и принимая в соответствии с (9.1;, что эти движения х^ [t] и #(2) [t] определяются дифференциальными уравнениями £<!> = А (*)*(!> + и + f(t), (28.2) № = A (t) х®. (28.3) Напомним, что по условиям задачи 9.1 фазовое состояние х [t] системы 2 в текущие моменты времени t ЕЕ [*<г,Ф 1 первому игроку (нам) точно неизвестно, но предполагается известной лишь область $ [t] в фазовом пространстве {#}, в которой содержится точка х It]. Теперь эту неопределенность в положении х [t] мы перенесем на движение #(2> [t]. Именно, мы примем, что фазовое состояние xW [t] в каждый момент времени tei [t0,О1 нам (первому игроку) известно совершенно точно. Таким образом, фазовое состояние х№ [t] мы должны считать неизвестным, но таким, что точка #(2) It] содержится в некоторой области
§ 28] ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА 251 $(2) [t], которая согласно (28.1) состоит из точек #<2> вида *(*> =а&>[*] -я, Х£Е$М (28.4) (рис. 28.1). Мы пока руководствуемся тем соображением, что на самом деле какое-то движение #<2> [*], подчиненное уравнению (28.3), действительно реализуется и это движение Рис. 28.1. вполне определяется начальным условием х(2) [t0] = 42) = (*(1) [*о1 - *[«о» е S(2) [t0 - 0] (»Мб9[«о-0]), которого мы, к сожалению, не знаем. Обозначим символом (?(2> [£,ф] ту область в пространстве {#}, которую опишет точка #(2)[ф] (28.3) при всевозможных выборах z№ [t] ЕЕ *E2?(a)Ul (*е [^о»*!)- Значит, G<2> [*,<>] состоит из точек а?, которые определены условием (см. рис. 28.1) * = Х(<М)*(2), *(2)€=£(2)Ш, (28.5)
252 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. V] где X (т, т0) — фундаментальная матрица уравнения l%L = A(x)x. dx v ' Преобразуем картину явления. Сначала мы введем некое фиктивное движение х$ [t], которое опишем символическим уравнением (работать с этим уравнением не придется, оно потребуется лишь для эвристических соображений) xf[t] = A{t)xf[t] + v. (28.6) Примем, что фазовые состояния x$[t] нам «известны», но будущие «реализации» v (x) (£<.'т<3) «управления» v в каждый данный текущий момент времени t точно неизвестны. Фиктивное движение Хф [t] мы свяжем с реальным процессом нашей игры следующим условием. Пусть в момент t стала известна область $<2) [t]. Тогда мы принимаем, что реализовавшееся состояние x$ [t] и сеуейство допустимых реализаций г;(т) (t^x^ft) таковы, что домысленный второй игрок имеет возможность выбором управления v (т) привести движение 0$ (т) (t^ x <3) к моменту -& в любую точку q = х$ (д) из области ОЩг, Ф]. Иначе говоря, область G^ [t,ft] оказывается теперь областью достижимости G<2) (t, x$[t], -&) для движения #Ф} (т) (*^т<^0) к моменту ф из состояния x$ (t) = = 42) М (см. рис. 28.1). Лишь это условие и будет стеснять возможные движения Хф [t]. Однако данное построение окажется полезным только при условии, если введенные выше фиктивные области достижимости GM (t, Хф\ ф) будут обладать следующим важнейшим для нас свойством обычных областей достижимости (см. выше стр. 109, условие (11.10)): как бы ни протекал процесс игры, должны реализоваться включения G(2) (Г, х$ [Г], О) с G(2) (*„ xf [*,], d), (28.7) если только t* ^> tM. Покажем, что это важное условие действительно выполняется. По определению G<2>(£, х^ [t], •&) = = G(2) [*,#]. Но согласно (28.5) область G<2> [*,ф] явля-
§ 28] ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА 253 ется образом области &W [t], получающимся в результате линейного преобразования х = X (-&, t) x^ с матрицей Х(Ь, t). Отсюда в соответствии с условиями (28.4), (9,8), (9.9) и (9.10) вытекает, что область G^ [£, Ф] складывается из тех точек х, каждая из которых удовлетворяет всем следующим соотношениям: || Я (т) X (т, t) (x(l) р] - Х-1 (Ф, t) х) - h (т) + + tf(t) JX(Tl|)(B[6]+/(g))d6|<v (*0<т<0,(28.8) t X(t(ht)(x(1)[t}-X-1($J)x) + to + lx(t0,x)(u[x] f /(T))dTe»[*o-0]. (28.9) Но по формуле Коши в соответствии с уравнением (28.2) имеем *(1) ш = х (*, t0) xa) [t0] + $ х (г, i) (и [i] + / (D) dg. Подставляя это значение а№ [t] в соотношения (28.8) и (28.9), после несложных преобразований получим следующие выражения: || Н (т) *и> [т] - Л(т) - #(т) X (т, #) я|| < v (*0 < т < 0, (28.10) а*« [*01 - X (*0,Ф) «gSUo-OI- (28.11) Из (28.10) и (28.11) мы видим, что с увеличением t от ^ до t* условия, определяющие область G& [t,-&], изменяются следующим образом: для области GW [Г ,0] к соотношениям, задающим 6г<2>[^,0], лишь добавляются новые ограничения, а все прежние ограничения сохраняют свою силу. Отсюда и вытекает вложение (28.7). Теперь можно сделать такое заключение. Пусть в момент t = U первому игроку стала известна ситуация {£*, & [£*]}• Тогда он должен считаться с тем обстоятельством, что в начале игры объект (9.1) находился в любом из тех состояний х [t0], которые к моменту t = t^
254 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI переходят в состояния х [tj ЕЕ 2? [tj. Но это равносильно тому предположению, что объект (28.3) вначале игры находился в любом из тех состояний #(2) [t0] =#(1>[г0] — —x[t0], которое к моменту t = t^ переходят в состояния at2)[tj ЕЕ &(2)ltJ. Значит, первый игрок в момент t = tm должен считаться с тем обстоятельством, что объект (28.3) в момент t = ф может оказаться с любом состоянии #(2)[ф ]ЕЕ ЕЕбг(г)[£„,0]. Этот и только этот вывод о будущем состоянии #(2)[ф ] может сделать первый игрок на основании информации о реализовавшейся ситуации {^, 2? UJ}. Поэтому, желая обеспечить наименьшее возможное значение платы игры Г = \х[Щ = \аР)[Ъ]-х{')[#]Ъ первый игрок должен выбирать управление в момент t = **> учитывая возможность появления #(2)[ф] в любой точке из области ОЩЬ^ ф]. Но из построения фиктивного движения x$ [t] (28.6) вытекает в свою очередь, что реализовавшаяся ситуация {^, & UJ} определяет для него как раз такое «реализовавшееся» состояние х$ [t] и такой «ресурс» допустимого управления v на будущее, которые позволяют ему оказаться к моменту t =ft в любой точке х из области G<2> (*„ х{$ ltj,i>) = G(2)[^, Ol. В связи с рассуждениями из § 11 это дает нам основание заменить задачу о наилучшем сближении фазового вектора af$[t] с фазовым вектором #<2> [t] (к которой сводится исходная задача 9.1) новой вспомогательной задачей о минимаксном сближении объекта at^lt] (28.2) с объектом x$U]. Таким образом, приходим к следующей задаче. Задача 28.1. Среди допустимых стратегий U{t, х^\ х$} требуется найти оптимальную минимаксную стратегию U0 {£, х<1\ x$), которая удовлетворяет условию (I Х{1) т - xf т 11 зс \и\ Vi «о, 4\ 41]) < <minsupinf (||*(i) [Щ - 42) [*]\\&[U,{»};t0f x{1\ *$]), U М*Ш (28.12) какова бы ни была исходная позиция {£0, з$\ х$).
§ 28] ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА 255 Подчеркнем, что здесь для краткости письма в символе х$ скрыто довольно большое содержание: предполагается, что знание вектора х$ [t] позволяет сформировать область достижимости GW(t, x$[t], -Q). Итак, на основании некоторых правдоподобных рассуждений мы заменили исходную задачу 9.1 некоторой «обычной» игровой задачей 7.1 о минимаксном сближении движений хЩЛ и x$[t]. Теперь остается найти решение задачи 28.1 и показать, уже более или менее строго, что оно доставляет решение исходной задачи 9.1. Поскольку решения задачи 7.1, предложенные в §§ 10—22, опирались на вспомогательные конструкции, составленные из областей достижимости (в наших теперешних обозначениях) G^\t, а*1*,*) и №> (£, Хф\ ф), и поскольку области достижимости (ЯР(t, аР-\$) для движения х№ строятся стандартным образом, а области С?<2)(£, а$\ф) = G^lt^ft] задаются прямо по условиям задачи 28.1 соотношениями (28.10), (28.11), то возможность повторить для решения задачи 28.1 основные положения из §§ 10—22 не должна вызывать сомнений. Здесь, однако, придется учитывать одну довольно существенную особенность — деформация реализующихся областей С?(2)(£, x$U], ft) во времени t, определяемая соотношениями (28.10), (28.11), потребует новых конкретных оценок по сравнению с теми оценками из §§ 13 и 21, которые вытекали из описания области G<2) соотношениями (13.5). В конкретных задачах это может иногда затруднить и без того нелегкую априорную проверку выполнения условий регулярности или регуляризи- руемости игры. Тем не менее, задаваясь формально общими определениями регулярности или регуляризиру- емости случаев игры из задачи 28.1 в соответствии с определением из §§ 13 и 21, можно проверить, что в регулярном случае игры задача 28.1 (авместе с ней и задача 9.1!) будет разрешаться экстремальной стратегией Ue(tt #(1), х$) = = Ue (t, $), которая обеспечивает результат игры у не худший, чем гипотетическое рассогласование е°(*0, xW (to), 42) (*о)) = е° (*о. # [*о - 0]),
256 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI какова бы ни была исходная ситуация {tQ, & [t0 — 0]}; в регуляризируемом случае игры из задачи 28.1 при любом выбранном наперед а Ъ> 0 смешанная экстремальная стратегия Ue обеспечивает результат игры у < e°(*0, & lt0 - 0]) + а. Следует, однако, отметить, что теперь уже условия регулярности или условия регуляризируемости игры, пожалуй, более существенно сужают класс задач, нежели в случае обычных задач сближения из § 7. Мы не будем проводить здесь соответствующие рассуждения, ибо, с одной стороны, они, повторяя рассуждения из §§ 10—22, будут в значительной части малоинтересными; с другой стороны, решение конкретных задач при условии, что область GW описывается общими соотношениями (28.10), (28.11), затруднительно. По этой причине в следующих параграфах мы несколько огрубим задачу так, чтобы облегчить ее решение. Это решение для огрубленной задачи мы уже и обсудим более подробно. Наконец, следует сказать, что выше в этом параграфе мы обсуждали все время частный случай задачи 9.1, когда у = ||#[0]||. Общий случай у == ы(х, Ж) сводится к этому частному случаю известным нам приемом (см. стр. 83 — 86). Прием этот заключается в том, что в уравнении (9.1) допускаются реализации ир [t] управления и, которые имеют вид ир [t] = ult] + р8 (t -ф), (28.13) где и [t] ЕЕ %t и вектор — р ЕЕ. Л* Соответствующие рассуждения мы предоставляем желающему читателю. Упражнение 28.1. Дать определение регулярного случая игры из задачи 28.1 и проверить, является ли экстремальная стратегия Ue {ty х^\ х&} решением задачи 28.1, которое доставляет решение Ue {t, &} задачи 9.1. Найти подходящий пример. Упражнение 28.2. Определить регуляризируемый случай игры из задачи 28.1 и исследовать свойства смешанной экстремальной стратегии Uе как в приложении к игре из задачи 28.1, так и в приложении к игре из исходной задачи 9.1. Упражнение 28.3. Сформулировать задачу, аналогичную задаче 28.1, но уже для общего случая у = со (я, Ж). Исследовать для нее вопросы, поставленные в упражнениях 28.1 и 28.2 для задачи 28.1.
§ 29] ОГРУБЛЕННАЯ ИНФОРМАЦИОННАЯ ЗАДАЧА СБЛИЖЕНИЯ 257 Указание. Во всех трех упражнениях обратить особое внимание на вопрос о допустимости экстремальной стратегии Uе или смешанной экстремальной стратегии Uе соответственно. При переходе от игры из задачи 28.1 к игре из задачи 9.1 важно проверить, что стратегии 1/ея Uе для игры из задачи 28.1 на деле определяются множествами %е (*, *(1), 42>) = ^е С &)> &е С *(1)> *ф2>' 8°> *> = ^е (*> &> е°> *)> зависящими от области S? = S? [*]. § 29. Огрубленная информационная задача сближения Для решения задачи 9.1 в соответствии с теми соображениями, которые изложены в § 28, надлежит знать области достижимости GW (t, 42,W>#)> реализующиеся по ходу игры. Иначе говоря, надо уметь находить области G(2) [£,$], являющиеся отображением вдоль движений я<*> (т) (*<т<0) *£ = Л(т)*<» ;(29.1) тех областей $<2) [£], в которых может содержаться фазовая точка а*2> Ш (см. рис. 28.1). Точное описание областей GW [t,ft] = G<2> (£, #ф2) U],0) задается соотношениями (28.10) и (28.11). Однако работать с этими соотношениями в общем случае неудобно, так как области №> [t, -Q] имеют, вообще говоря, достаточно сложную форму. Поэтому мы откажемся теперь от точного описания областей 6?<2) [t,ft] соотношениями (28.10) и (28.11) и обратимся к приближенному описанию их некоторыми соотношениями, которые будут оценивать эти области сверху. Именно, мы заключим области С№ U, ф] в некоторые новые мажорирующие области П<2) U,fH, которые будут иметь форму параллелепипедов и поэтому будут допускать сравнительно эффективное описание. Мажорирующие области П<2) U,ft] строятся следующим образом. Рассмотрим для определенности тот случай задачи 9.1, когда плата игры у изображается равенством Г41{*[#]}т||. (29.2) Тогда области достижимости 6?<2) (t, x{$ [t], ft) = G(2) lAft] следует формировать в /n-мерном пространстве {q} 9 H. Н. Красовский
258 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI точек q={x}m. Предположим, что к моменту t =^£E: [t0,-&] нам (то есть первому игроку) стал известен наблюдаемый сигнал (см. стр. 88—89) {№) [Т]} « (Я (т) X (т, у х UJ + w[x]} (29.3) (*0<*<О> {«W} (*о<*<0 или, иначе, с учетом равенства х [т] = я*1) [т] — х^ [т] — сигнал {А. [т]} = {-Я (т) X (т, О *<*> [tj + и> [t]}. (29.4) Здесь /г# [т] = ЛЫ [т] - Я (т) X (т, у я<1> [д. Напомним, что движение аКх> [£], описываемое уравнением (28.2), мы считаем известным. И мы имеем на это право, ибо начальное состояние #<l> U0] мы можем задать по своему произволу (всюду ниже полагаем для определенности #(0 [tQ] = 0), а затем, зная реализующееся воздействие и [т] (t0 ^ х<С О» мы из уравнения (28.2) находим х& [tj по формуле Коши xV [у = X [t„ t0]*U> [t0] + \X(t^x)u(t)dt + to t* + \x(t,,x)f(x)dx. и Теперь мы можем поставить задачу об оптимальном определении по сигналу \ [т] координат вектора {х [ft ]} w. Поясним, о какой задаче идет речь. Предположим сначала, что помеха w [x] отсутствует. Тогда можно поставить такую задачу: дан идеальный сигнал g [т] = -Н (т) я№ [х] = -# (т) X (т, О ар) [tj (*о <*<*,)■ (29.5) где #(2) [т] (£0 ^ т ^ ^) — реализовавшееся движение объекта (28.3); требует найти такую операцию фi^ [# [t]], которая, будучи выполненной над сигналом g [•] (то есть
§ 29] ОГРУБЛЕННАЯ ИНФОРМАЦИОННАЯ ЗАДАЧА СБЛИЖЕНИЯ 259 над функцией g [t] (t0 < х < ^) (29.5)), давала бы в рет зультате i-ую координату х[2) [ft] вектора aPHft], описывающего то состояние объекта (28.3), в каком он окажется в момент t =-& (рис. 29.1). Рис. 29.1. Таким образом, искомая операция ф^ \g [т]] должна давать следующий результат: %ttJg[r)] = xWW. (29.6) При отсутствии помехи предложенная задача о точном определении #*2)[ф]по идеальному сигналу g[x] имеет смысл. При наличии помехи w [х] ф О уже нельзя надеяться разыскать операцию ф^„, которая, будучи выполненной над реальным сигналом h^ [т] (29.4), дала бы точное значение 42) fob Из-за наличия в сигнале неизвестной помехи w [х] неизбежны ошибки. Можно, однако, поставить (опять игровую!) задачу (см. [7*], стр. 270) об оптимальной разрешающей операции ф?,^ [hj, которая давала бы величину #j2) [ф] с наименьшей возможной ошибкой со в самом неблагоприятном случае помехи w(x), стесненной, как мы помним, неравенством (9.4). Пусть такие операции Ф?,^ [hj найдены для всех i = l,...,/w, и пусть они 9*
260 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI гарантируют нам ошибку о) ^ со?,^. Тогда мы можем утверждать, что будут осуществлены неравенства <*.-<«.<.а18)^<<*.+ *»?.«. (* = 1,....т),(29.7) где <«. = Фм.ГМ*]]- (29-8) Иначе говоря, выполнив операцию ср*^ над сигналохМ А„ [т] (29.4), мы определим в пространстве {#} некоторый параллелепипед (29.7), в котором только и может оказаться будущее значение {#(2)[ф]}т. Значит, область G(2) U„» #1 обязательно должна содержаться в параллелепипеде ачл — <°и* < ?4 < *и. + ®Ъ* (* = 1* . • •, "*). (29.9) Но к моменту ^ — ^ мы можем, действуя и при £ < ^ подобным же образом, понастроить семейство аналогичных параллелепипедов (29.10) и придем тогда к выводу, что область G<2> U#,ft] должна содержаться в пересечении этих всех параллелепипедов. Кроме того, область G<2> [^,0] также должна содержаться и в той области G& [t0 — 0,*] из пространства {#}, в которую переходят точки о№ [t0] ЕЕ $(2) [t0 — 0] по движениям системы (28.3). Предположим, что область G№[t0— — 0,ft] также мажорируется некоторым параллелепипедом П [t0—0,ft]. Пересечение этого параллелепипеда со всеми параллелепипедами (29.10) и дает нам параллелепипед Ш2) [^,0], который будет мажорировать область G& U„,ft] (рис. 29.2). Из построения области Ш2>и, ф] ясно, что реализации этих областей П<2)[£, ф] снова обладают нужным нам свойством областей достижимости П(2)[*\ »]сПпР(, Ф], (29.11) если только f > ^. Поэтому мы примем теперь, что области достижимости G<2) (t, Хф] Ш,0) для движения х{%
§ 2UJ ОГРУБЛЕННАЯ ИНФОРМАЦИОННАЯ ЗАДАЧА СБЛИЖЕНИЯ 261 определяются равенствами J2) G<2>(*, 44'U) =П<»> [*,<>], (29.12) и сформулируем следующую вспомогательную задачу. Задача 29.1. Среди допустимых стратегий U{t,o№\W^} требуется найти оптимальную минимаксную стратегию £/a{£,#(1), IK2)}, которая обеспечивает неравенство (Wix^m-xfmUW \&[U», v-tQ,x£\ 4o])<mmsup x X inf (||{*"> W - *g> WU\ \9C\U, M; «o, ^>7^2J])}, (29.13) какова бы ни была исходная ситуация {t0, П<2> [t0—0]}. Здесь прежде всего надлежит пояснить, что следует понимать под допустимой стратегией U {t, з£1\ П<2)}. Как я раньше, стратегия U задается совокупностью множеств % (t, х^\ 'П<?)), складывающихся из fc-мерных векторов и, которые сопоставляются каждой возможной в игре
262 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI ситуации {t, c№\ П<2>} (набор {£, а*1*, П<2)} мы намеренно называем теперь ситуацией, а не позицией, чтобы подчеркнуть его своеобразие). Так как область П<2) есть параллелепипед, описываемый неравенствами 0i<<7i<bi 0"=i »), (29.14) то множество % (t, Жх\ Ш2)) определяется, следовательно, следующими аргументами: временем t, фазовым /с-мерным вектором х№ первого объекта (28.2) и двумя га-мерными векторами а и Ь, которые характеризуют фазовое состояние второго объекта (28.3). Итак, U{t,x^\W*>} = U ftaW, а, Ъ). Таким образом, допустимой окажется такая стратегия U {£, я(1\ а, Ь}, которая будет диктовать контингенции и [t)tE%(t, *U>M, a it], b [ф, (29.15) обеспечивающие существование решения afl)[tl уравнения (28.2). При этом переменные а [t] и Ъ [t] должны изменяться в соответствии с оценками параллелепипедов Ш2>[£, О ] (29.14), вытекающими из (29.10). Этот вопрос о существовании решения х^ [t] в данном случае упрощается, поскольку реализации ai [t] и Ь\ [t] обязательно должны быть функциями монотонными и ограниченными (при * > *о) (доказательство этого факта предоставляем читателю), а такие функции обязательно непрерывны при почти всех значениях t. В результате оказывается, что для допустимости стратегии U в паре с некоторой реализацией a [t], Ъ [t] достаточно, чтобы множества % (t, а*1), а, Ъ) были выпуклы, замкнуты, ограничены и полунепрерывны сверху по включению относительно изменения переменных t, ж<г>, а и 6. (Проверку этого утверждения мы предоставляем читателю). Итак, вопрос о допустимых стратегиях будем полагать выясненным. Теперь осталось обсудить связь задачи 29.1 с исходной игрой из задачи 9.1. Очевидно, справедливо следующее утверждение. Если некоторая стратегия U{t, atl\ а, Ъ) гарантирует первому игроку результат у игры из задачи 29.1 не худший, чем какая-нибудь величина e°(£0, х^\ П$2)),
§30l МШЕНЙЁ О^РУВЛЕЙНОЙ ЗАДАЧИ 2бЗ * то этой стратегии U {t, з£х\ а, Ъ) отвечает такая стратегия U {t, {h (т), и (т)}} в исходной игре, которая гарантирует такой же результат. Справедливость этого утверждения вытекает немедленно из того замечания, что сигнал {h (т), и (т)} достаточен для определения всех величин а*1), а и Ъ. Исследованию задачи 29.1 посвящен следующий параграф. Упражнение 29.1. Исследовать вопрос о допустимых стратегиях U {£, х^\ а, Ъ) и доказать существование решения x^\t) при условиях, указанных на стр. 262. § 30. Решение огрубленной задачи В этом параграфе мы обсудим решение задачи 29.1, которой мы заменили исходную игровую проблему из § 9. Прежде всего нас будет интересовать регулярный случай игры. Опишем его совсем кратко. Сопоставим реализовавшейся ситуации {U afl-Hth 1К2> [*,#]} экстремальную конструкцию, которая будет складываться из области достижимости GW(t, xf[t],ft) = = П<2)[£, #] и из наименьшей охватывающей ее е-ок- рестности G$(t, а*1*!*], ф) области * достижимости ©!>(*, a(i> [*],ф) (рис. 30.1). Будем говорить, что игра регулярна в некоторой (открытой) области {X (к + 2т + 1)-мерного пространства переменных Рис. 30.1. ^1,..., Ьщ), если какова бы ни была ситуация {Z,#u>, a, ft} из этой области, удовлетворяющая условию е° (t, a(l\ а, Ь) ^> 0, пересечение Q° границ соответствующих областей ai<?i<&i (* = 1, . • .,ю) (ЗОЛ)
264 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ-VI и Geo}(^ #(l),-&) целиком укладывается в единственную* гиперплоскость £(1°). Далее совершенно так же, как и раньше (см. § 12), строится экстремальная стратегия Ue {£, #(1); #, &}, которая задается векторными множествами %е (t, х^\ <z, 6), складывающимися в каждой ситуации {t, х^\ а, Ъ) в области Ж при 8°^>0 из векторов-управлений и =ие, прицеливающих движение х^ (28.2) в область Q° (t, #(1\ а, Ъ) и удовлетворяющих, следовательно, соответствующим условиям максимума (12.5), (12.3), (12.4). Подчеркнем, что теперь множества %е (t, х^\ а, Ъ) определены только для ситуаций {t, x^\ а, 6} из области Ж, и поэтому экстремальная стратегия Ue работоспособна лишь в тех случаях, когда в процессе игры текущая ситуация {£, a*1) [t], a[t], b [t]} сохраняется все время при t£E [t0,-&) в области Ж. Эта оговорка про область Ж обусловлена здесь тем, что требование регулярности всех возможных ситуаций, которое фигурировало раньше в случае игры из §§ 7 и 8, теперь было бы крайне стеснительным, ибо при t-^Ь область GW (t, x^\-&) обязательно стягивается в точку, а область П<2) (30.1) этим свойством, вообще говоря, не обладает. Справедливо утверждение. Теорема 30.1. Если в процессе игры текущая ситуация {t, х( > U], ГО2) [£, О]} не покидает области Ж, где ситуации {£, xW,a, Ъ) регулярны, то эта стратегия для объектов (28.2), (28.3) обеспечивает сближение \\{хЫ[Щ- х^[Щт\\^гЦи, х£], И?'). (30.2) Для доказательства теоремы 30.1 достаточно проверить, что при ее условиях гипотетическое рассогласование 8° [t] = 8° (t, x№ [t], 1Б2) U,dl), которое реализуется на текущих ситуациях {t, x(l)[t], П<2) [t, ft]} при управлении u[t]t=4e(t,x{l)[t], П(2) [*,#]), (30.3) является невозрастаю щей функцией времени tEE [t0,ft]. В аналогичном случае теоремы 16.1 мы для этой цели вычисляли производную de° [t]/dt (см. выше стр.153—154) абсолютно непрерывной там функции 8° [t] и проверяли, что производная эта неположительна при почти всех зиа
§ 30] РЕШЕНИЕ ОГРУБЛЕННОЙ ЗАДАЧИ 265 чениях t, откуда и следовало тогда невозрастание функции 8° [t]. При этом в § 16 мы опирались на дифференцируе- мость функции e°(t, х) при е° (t, x) ]> 0. Теперь для разнообразия мы проведем рассуждения, несколько отличающиеся по форме, делая акцент на геометрическую сторону явления и не связывая себя излишними предположениями регулярности функции е° [t]. Итак, пусть в некоторый момент t = ^ <С& реализовалась ситуация {г+, x^J [tj, П(2)[^,0]}, которой отвечает гипотетическое рассогласование e!![U = e0(^*(1>fU, n(f).[^, О]). Следует учесть две возможности: (1) в точке t = ^ функция е° [t] терпит разрыв; (2) в точке t = tt функция е° [t] непрерывна. Обсудим первый случай. Область G<1> (t, х^1\-&) с изменением ее параметров t и х№ деформируется непрерывно, поэтому и реализация ее &Ы [t] = GW (t, rtl) lt],ft) с изменением t также деформируется непрерывно, ибо вектор-функция эс№ [t] непрерывна по t. Мы не связываем себя предположением о непрерывном изменении параметров a'[t] и Ъ [t] области П<2) [£,ф]. Поэтому нам надлежит учитывать скачкообразные изменения реализации Ш2> U, ft], которые и могут вызвать скачкообразное изменение величины 8° [t]. Однако при любом своем изменении область П<2) [£,ф ] с увеличением времени t обязательно уходит внутрь самой себя. Отсюда немедленно следует, что в случае разрыва в точке t= tt функций a\[t] или b^t] функция 8° [t] обязательно должна удовлетворять неравенству lim е° [t] > ТЕГ e°[t ]. (30.4) Пусть теперь в точке t = ^ величины at [t] и bt [t] непрерывны, а поэтому и функция е° [t] также непрерывна. Пусть e°[£J^>0. Оценим правое верхнее производное число функции e°[t] в точке t = t^. При этом важным обстоятельством будет непрерывное (доказательство предоставляем читателю) изменение вектора 1° [t], который определяет гиперплоскость %(1°), содержащую область прицеливания Q\[t] (см. рис. 30.1), и который согласно (12.5),
266 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI (12.3), (12.4) задает экстремальное прицеливание ue[t] из ситуации {£, #<D [t], ГЕ2> [*,#]}. Обратимся к следующей геометрической картине (рис. 30.2). Зададимся некоторым малым положительным числом а и отметим гиперплоскости X (Z), касательные к границе З^1) области <?$[<,] (t^ #(l)U#],0) и ортогональные Рис. 30.2. к единичным векторам Z, удовлетворяющим условию М-И*.] К*. (30.5) ОбластьП<2) [^,$1 содержится в области GSpj (^, #(1)[*„],Ф), поэтому относительно каждой из выделенных гиперплоскостей X (Г) она лежит целиком в направлении, противоположном направлению вектора Z. В то же время , расстояние от области G^] (£,, а^ UJ»ft) до каждой из
§ 30] РЕШЕНИЕ ОГРУЁЛЕННОЙ ЗАДАЧИ 267 выбранных гиперплоскостей X (Z), очевидно, равно нулю, ибо Щ1) суть гиперплоскости, касательные к Оценим теперь расстояния от тех же гиперплоскостей Х{1) до новой области достижимости G^j (t* + Aty xW [U + ДЛ,д), отвечающей новому фазовому состоянию хЩи + At], в которое перейдет объект (28.2) к моменту времени t = t*+At (Д^^>0) под действием уп_ равления и It] (30.3). (При этом значение е° [t*] мы остав ляем пока неизменным.) Из геометрической картаны- рассмотренной в начале § 13 (см. рис. 13.1), ясно, что эт, расстояние Да (Г) оценится равенством Да(/) = p(D(t,f О, I) - р<1>(*. + Д*, ф, I) +. + V [X [О, tj *а> [tj - X [О, tm + At] *<■> [tm + At]}m, (30.6) где X [t, т0] — фундаментальная матрица решений для уравнения (29.1). Опираясь на определение функции р<1>, на свойства матрицы X, а также учитывая, что я№ [t] есть решение уравнения (28.2) при и = ие It], получаем после простых преобразований следующую оценку: Д*(9< [ max (Г{Х[<М]и(*)}«- -l'{X[$,t]ue[t]}m)dt. (30.7) Вспоминая теперь, что функция ue[t] удовлетворяет условию максимума s' [t] ue [t] = max s' [t] и, (30.8) где вектор-строка s'[t] есть не что иное, как {l°'[t], 0} X №> *]> а также учитывая, что максимум в (30.7) непрерывен по t, мы выведем из (30.7) нужную нам оценку Да (I) < р(а, ДО А*, (30.9) где р (а, At) — функция, бесконечно малая в точке а = = 0, At = 0. Из этой оценки вытекает следующий вывод. Выберем достаточно малое значение At ^> 0. По этому А* подберем а ^> 0 такое, чтобы гиперплоскости X&t (Z),
268 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ [ГЛ. VI касательные к области Gi1^] (U + At, atl)[t* + At],ft) и ортогональные к векторам I из семейства ||Z-Z4Ufl>a, (30.10) никак не соприкоснулись с областью П(2) [£*,$]. Такой выбор а возможен потому, что все пересечение Q° [t*] границ областей G^ и П(2) содержится в единственной гиперплоскости X (1° [Щ. Более того, а —> 0 при At -> 0. Но в таком случае, если новая область Ш2) [U + At, ft] окажется за пределами новой области G^j (t* + AZ, хЩЬ* + + Д*],0), то это будет возможно лишь при условии, что П(2)[^ _[_ д^^] пересечется с одной из новых касательных гиперплоскостей Х-ы(1) при I из семейства (30.5). А тогда из (30.9) следует, что все точки П<2) {U + At, ft), вышедшие за границу новой области бЗД„](** + At, хЩи + Д*],ф), будут удалены от нее не более чем на величину (30.9), то есть на величину более высокого порядка малости, чем At, Значит, для того, чтобы заключить область II^U* -f- + At,ft] в область G\t[tt+Aii (t* + At, хЩи + At],ft), достаточно увеличить е° на величину Де° = е° [U + At]— —е° [£*], имеющую высший порядок малости, чем At. Таким образом, мы приходим к выводу, что в точке t = t* справедлива оценка Де° = 6° [и + At] - е° lU] < о {At), (30.11) где символ o(At) означает бесконечно малую более высокого порядка, чем бесконечно малая At. Следовательно, правое верхнее производное число функции е° [t] в точке t = U, где она непрерывна и положительна, неположительно, то есть Щ^<0. (30.12) Однако функция е° [t], которая удовлетворяет условиям (30.4) и (30.12), есть функция невозрастающая (проверку этого факта с учетом того, что число точек разрыва монотонных функций а\ [t] и bi[t ] не более чем счетно, предостав-
g 30J \ РЕШЕНИЕ ОГРУБЛЁННОЙ ЗАДАЛИ 269 ляем читателю). Следовательно, при условиях теоремы 30.1 экстремальная стратегия Ue обеспечивает все время вложение n^^OjczG^i^^m, *) (30.13) при невозрастающей функции е° [t] <^ е° [t0], а это и доказывает данную теорему. Точно так же для игры из задачи 29.1 можно было обсудить и регуляризируемый случай, и случай существенно нерегулярный, однако мы здесь этим заниматься не будем, так как то небольшое (только в принципе!) отличие от рассуждений из §§ 10—22, которое вызывается здесь отказом от предположения о достаточно регулярном изменении области достижимости G№[t9ft], было уже продемонстрировано выше при доказательстве теоремы 30.1. На этом мы и закончим обсуждение задачи из § 9 и рассмотрим следующий пример. Пример 30.1. Рассмотрим в качестве примера задачу 29.1, которая получается из задачи 4.1. Следовательно, мы будем рассматривать систему, динамика которой описывается уравнениями (см. (4.3)) *i= *2> *2 = Л> (30.14) причем управляющее воздействие г\ стеснено условием |т)| < |л (30.15) и имеется возможность измерять скалярный сигнал Л(т) = [1,0]Г*1[Т[]+и;[т1 = Я?1[т1 + и;[т], (30.16) L X2 [Т] J где помеха w [т] стеснена неравенством |w[t]|<v. (30.17) (И здесь мы обозначаем управление буквой т), а не буквой и, чтобы не путать этот скаляр с ^-мерным вектором управления и, который всюду в книге используется для обозначения векторного управления и в стандартной записи уравнения движения в форме (9.1) и в других аналогичных записях.) Задача будет состоять в минимизации величины Y = K№|. (30.18) Следуя материалу из §§ 28—30 введем два движения х^ [t] и х^ U], разность между которыми х [t] = x^ [t] — х^ [t] и будет
270 РЕШЕНИЕ ИНФОРМАЦИОННОЙ ИГРОВОЙ ЗАДАЧИ /[ГЛ. VI исходным движением (30.14). Для решения задачи нам надлежит прежде всего сформировать области достижимости G^ ) (*, я(г\ Ф) и П(2)[/, Ф]. В рассматриваемом частном случае, когда задача минимизации величины (30.18) сводится к задаче сближения движений x^\t] и x^[t] лишь по первой координате х^ [О], области G(!) и следует формировать в одномерном пространстве, то есть попросту на прямой — оо < qt < оо. Сформируем области G^i\t*x^i\x2'\ft)' Пусть реализовалось состояние {t ,x vx 2}. Область достижимости G^ (t^ х^, #^' $) есть множество всех точек цг = = х^' (Ф), в которые можно к моменту т = О из состояния x^(t) = — х^ привести движение х^ (т): dx -хъ ' rft -^W за счет выбора управления |т] (т)| < [х. По формуле Коши имеем *(i> (♦) = *£> + (*- t J *<» + $ (О - т) t| (т) dx. Отсюда легко видеть, что область GO) (£ , x , -б") есть отрезок + (1^1Ы1ев (30.19) Для определения области П^ [t, Ф] прежде всего надлежит найти оптимальную операцию (р° [h [т]], которая восстанавливает величину х*р [#] с наименьшей возможной ошибкой <о° по сигналу (см. выше § 29, стр. 259—260) \ [т] = -Я (т) X (т, t) я<?) [t) + w [т] (tQ < т < g. В нашем случае \ W = -*i2) М + ш М ('о < т < *> (30.20) Итак, перед нами стоит задача восстановить по сигналу (30.20) величину х^ [Щ для движения я(2) [т], описываемого уравнениями **?> dx& =-«.(2) 5 о <*Т "" *2 ' dx
30] РЕШЕНИЕ ОГРУБЛЕННОЙ ЗАДАЧИ 271 Оказывается, что искомая оптимальная разрешающая операция ф° [hv[т]] имеет вид Ф? [M*I1 = t itn lK[t*](to-®)-K[to](t*-m (30.21) 1 * t'jjj ^^ *•'' и дает ошибку ■to м<<= v(2fl —*» —*о) ** —to (30.22) (Мы не останавливаемся здесь на вопросе об определении операции ср? , отсылая читателя к книге [7*], стр. 285—287.) Таким образом, область П^2^ [t, $] является здесь пересечением отрезков вида (см. (29.9)) v(2^-^-io)+<[^[T]]<?i< v(2ft — t — *0) <<Р?.[\МГ+ T=to Co <*.<*) £ (30.23) ** —*o -^«L -в$ 4 a) -П(2>- r IK "eo с отрезком e[*e-0]<g1<b[t0-0]t (30.24) задаваемым априори. Зная области G(1) (£, s(12 [*],*) и П(2) [*,«], нам надлежит формировать экстремальное управление r\e [t]. Здесь это* можно сделать совсем просто", не при б е- * гая к общим формулам (12.5), (12.3),(12.4).Именно, нетрудно сообразить, что (в регулярной ситуации) в случае, когда область П ^[t, Ф], лежащая внутри области Gff (tf x(1)[t], ft) '- (е° > 0), примыкает к правому концу последней (рис. 30.3, а), тогда г\е Щ = = |х; если область П(2^ [£, ф], лежащая внутри области G<V(*, *<1>[*], ft) (8° >0), примыкает к левому концу победней (рис. 30.3, б), то r\e [t] — —[л; если же область П(2)[£,Ф] лежит внутри области G(1) (*, я(1) [*], О) (рис. 30.3, *), то 4) *—V(fX!Wi;::ss>'Kss;;A .Q(D- в) Рис. 30.3.
о со Дч
§ 30] \ РЕШЕНИЕ ОГРУБЛЕННОЙ ЗАДАЧИ 273 управление r\e [t] диктуется контингенцией Итак, мы построили экстремальную стратегию для задачи 29.1, которая получается из задачи 4.1. Процесс был проигран при следующих исходных данных: д0 =—Ю, Ь0 = 5, хх (0) = — 3, я2(0) = —1, 0 = 1, ц = 10, v = 0,4; при этом счет производился в дискретной схеме при шаге А = 0,1. Неизвестная в органах управления помеха была выбрана такой: w [0] = 0,2, w [т] = v cos к т2, к — 133 при т > 0. В результате получилось значение величины у = 1,038. Реализации областей П(2) [t, ft], &г) [*, ft] и движений хх [t], х\{) It], х™ [t] изображены на рис. 30.4, 30.5. Примечание 30.1. Рассуждение, приведенное при доказательстве теоремы 30.1, показывает, что для справедливости подобных теорем при условии регулярности игры многие конкретные свойства второго объекта оказываются совсем несущественными. Важно лишь, чтобы реализации его областей достижимости или мажорирующих их областей удовлетворяли основному условию: с увеличением времени t они должны деформироваться так, чтобы оставаться внутри самих себя. В частности, второй объект может, следовательно, описываться нелинейными уравнениями.
ГЛАВАУИ / ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ § 31. Постановка задачи Этим параграфом мы начинаем изучение игры преследования одного управляемого объекта другим при условии, что плата игры у определяется временем до встречи объектов. Примем, как и в § 7, что система 2 складывается из двух объектов (преследователя и преследуемого), описываемых соответственно уравнениями ^.= 4<1>(о» + « + /(1)(0, (31.1) dt dz * =Л<« (0*+ *+/<*>(*), (31.2) где все переменные имеют тот же самый смысл, как и в § 7. Отличие рассматриваемой здесь игры от игры из § 7 будет состоять в том, что момент окончания процесса преследования ф теперь не будет задан. Напротив, именно неизвестная величина -& и будет определять плату у. Простой частный случай подобной игры преследования описан в § 2. Теперь мы поставим задачу в более или менее общей форме. Предположим, что целью первого игрока (преследователя) является такое сближение с преследуемым объектом, когда в т-мерном пространстве {q} изображающая точка {zU]}w попадает в некоторую область влияния Л точки {i/U]}m. Эту область влияния .М, пристраиваемую в яг-мерном пространстве {q} к точке (*/U]}m, мы опишем при помощи некоторого выпуклого, замкнутого и ограниченного множества З5, складывающегося из m-мерных векторов р. Именно, скажем, что точка q содержится в области влияния,^ ({y[t]}m) точки {y[t]}m тогда и только тогда, когда вектор р = ц — {y[i\)m будет содержаться во мно-
§ 31] ПОСТАНОВКА ЗАДАЛИ 275 жестве ^ (рис. 31.1). Теперь можно дать определение для момента Встречи объектов (31.1) и (31.2). Определение 31.1. Пусть движение системы 2 началось в некоторый момент t — t0. Момент времени t =-& J> t0, когда впервые точка {z[0]}m оказывается в области влияния Л({у[Ь\}т) точки \y[t]} iTi, назовем моментом встречи объектов. Будем обозначать момент встречи символом # W. Разность flW — t0 будем называть временем до встречи. В частном случае, разобранном в § 2, область влияния Jt точки {ylt]}m = ylt] = {yXltl у2Ш} просто совпадала с самой этой точкой. Поэтому там моментом встречи ftW оказывался такой момент, когда впервые преследующая точка y[t] = = W*l» у2^]}совпадала с преследуемой точкой z[t] = fait], z2[t]}. Конфликт состоит в следующем. Первый игрок, управляющий движением (31.1), стремится захватить преследуемую точку {zUl}m (31.2) в область влиянияМ(\у [t]}m) точки {y[t]} т и он заинтересован в том, чтобы это событие осуществилось как можно раньше. Второй игрок, управляющий движением (31.2), напротив, избегает захвата точки {zW}w областью влияния <M({y[t]}m), и усилия его направлены на то, чтобы это неприятное для него событие либо вовсе не осуществилось, либо, по крайней мере, осуществилось как можно позже. Таким образом, платой в рассматриваемой игре будет служить время до встречи Г = 0(в1С)-*о. (31.3) Рис. 31.1.
276 ЗАДАЧА OB ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ , [ГЛ. Vll Как и раньше в § 7, в случае игры сближения ц/ы разобьем проблему на две задачи: рассмотрим отдельно задачу минимаксного (по времени) преследования и задачу макси- минного (по времени) уклонения. Первая задача, вытекающая из интересов преследователя, составляет предмет этой седьмой главы книги. Вторая задача, важная для преследуемого, рассматривается в следующей, восьмой главе. Итак, сформулируем минимаксную задачу преследования. Поскольку эта проблема отражает интересы преследователя, мы примем сейчас, что управление и, стесненное обычным условием и [*]€=%, (31.4) формируется по принципу обратной связи и реализации его u[t] диктуются контингенциями u[t]^<U{t,y[t],z[t]), (31.5) которые определяются той или иной допустимой стратегией U~%, избранной первым игроком. Как обычно, полагаем, что преследователь может столкнуться с любой допустимой реализацией v[t] управления и, удовлетворяющей известному ограничению р[«]еП (31.6) Начнем со следующей задачи. Задача 31.1. Среди допустимых стратегий U{t, y,z} требуется найти оптимальную минимаксную стратегию U°{t, у, я}, которая обеспечивает неравенство (*(Л)-*о]Д?[^°^;*о,Уо,«о])< < mm sup sup (O^-io | # [*/,{!>}; *o, й>, *ol), (31.7) U {v[t]\ y[t] какова бы ни была исходная позиция {t0, у0, z0} и какой бы ни оказалась допустимая реализация v [t] управления v. Здесь символ (#W — t0\& [С/, v; t0, y0, z0]) обозначает время до встречи движений у [t] и z[t] из семейства 30 [U у; t0l y0, z0]
§31] ПОСТАНОВКА ЗАДАЧИ 277 Примечание 31.1. Мы ограничиваемся игровой задачей, где плата у задается величиной (31.3), имеющей смысл времени до встречи двух управляемых объектов" (31.1) и (31.3). Также можно было бы рассматривать аналогичные игровые задачи о приведении одного движения x[t], описываемого уравнением x = A(t)x + u — v + f (0, (31.8) на заданное многообразие .М в пространстве {х} при условии, что плата у задается временем до выхода точки х U] на это многообразие (сравни с материалом из § 8), а также — игровые информационные задачи, подобные задачам из § 9, но при новом условии, что плата у изображается опять-таки временем до выхода точки х [t] (31.8) на заданное многообразие Ж в пространстве {х}. Однако, как и раньше (см. §§ 23 и 28), такие игровые задачи для систем, описываемых линейными уравнениями, при желании можно свести к задаче вида 31.1. Отсюда вытекает, что исследование их будет отличаться от исследования задачи 31.1 только по внешней форме. Поэтому мы и ограничиваемся задачей 31.1. Заметим наконец, что и задачу 31.1 можно свести формально к ее частному случаю, когда область влияния М ({у [t]}m) точки {у [t]}m в пространстве {q} будет просто совпадать с самой точкой {у [t]}m. Для этого достаточно лишь заменить допустимые реализации u[t] (31.4) допустимыми реализациями ир It] = u[t]+ pb (t - О), * (31.9) где и [t] G <Ut и р £^ &>. (В отличие от аналогичных случаев, разобранных раньше, где также вводилось управление вида (31.9), теперь момент Ф не известен заранее. Однако это несущественно, ибо имеется в виду, что импульс рб (t — ft) может прилагаться лишь в момент окончания игры.) ) Проиллюстрируем постановку задачи о преследовании следующим примером. Пример 31.1. Пусть динамическая система 2, как и в § 14, складывается из двух материальных точек п№ и т^2\ движущихся в вертикальной плоскости под действием силы тяжести и управляющих сил и = {0, 0, и3, щ} и v = {0, 0, и8> %}• Уравнения движения точек т№ и тУ^ имеют вид У1=УЗ, #2 = 2/4, 2/3 = «8, #4 = М4 — g, (31.10) £i = z8, *2 = Z4, 23 = г?3, 24 = г?4 — g, (31.11) где г/1, t/2 и zv z2 — геометрические координаты точек; у3, у& и z3, *i— проекции скоростей точек на соответствующие оси, а управляющие воздействия или стеснены ограничениями И1 = 0, "2 = 0, (и»М +и* [*])*'■ <!i, ) (31.12) vi = 0, г;2 = 0, (^[*] + »J[*])1/8<v. J
278 ЗАДАЧА ОЁ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИЙ .[ГЛ. VII Пусть целью преследователя является совпадение геометрических координат точек т№ и т^ в некоторый момент времени Ф, и преследователь заинтересован в том, чтобы этот момент времени наступил как можно раньше. Следовательно, областью влияния преследователя JI ({у [t]}2) будет здесь, как и для примера из § 2, точка {у U]h c координатами $уг [t], y2 [t]} в плоскости движения материальных точек. Преследуемый, напротив, стремится избежать встречи с преследователем по геометрическим координатам, а если ему этого сделать не удается, то он старается по возможности отсрочить указанную встречу. Таким образом, платой игры в рассматриваемом примере будет служить время до встречи объектов по геометрическим координатам т = <>(•«>— to. (31.13) Может, однако, представиться случай, когда преследующий объект (31.10) не имеет целью в результате преследования добиться точного совпадения геометрических координат точек т^ и гг№> но желает лишь как можно быстрее сблизиться с преследуемым объектом на расстояние, не превосходящее некоторого наперед заданного положительного числа а > 0. Тогда, очевидно, областью влияния Л ({у [t]}2) в нашем примере будет круг (?1-У1[ф2 + (?2-2/аи])2<а2 (31.14) с центром в точке {у [t]}2 и радиусом а. В этом случае платой игры будет время до встречи (31.13), равное теперь времени до захвата точки {z [t\}i областью влияния Л ({у МЫ (31.14). Решение приведенного примера как с позиций преследователя, так и с позиций объекта п№\ уклоняющегося от встречи, будет приведено после изложения общей теории в § 38. § 32. Особенности минимаксной по времени задачи преследования В данном параграфе мы обсудим некоторые особен" ности игровой задачи 31.1. Это обсуждение обусловлено тем, что проблема минимакса времени до встречи Ф<ж> — t0 оказывается, вообще говоря, менее регулярной, чем рассмотренная раньше проблема минимакса рассогласования 1ШФ]}т — {*1^]}т| в заданный момент Ф. Начнем с примера. Пусть система 2 складывается из двух материальных точек т<г> и тФ\ движущихся по горизонтальной оси | и подверженных управляющим силам, проекции которых на ось £ сУть соответственно скалярные переменные и;<1>
§ 32] •МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 279 и u?(2\ стесненные условием Иг)и]|<ц, HI*Kv (32.1) (u, > v — постоянные). Кроме того, мы примем, что на точки rr№ и иг<2> действуют силы gW и $2\ пропорциональные отклонению этих точек от начала координат £ = 0 и притягивающие их к точке |=0. Массы точек примем равными единице и будем полагать, что притягивающие силы gW изображаются равенствами §{i) = -?\ где £<*> — координата i-й точки. Тогда движения точек т(1) и т(2) будут описываться уравнениями |U> = _ gd) + ^ g(») = _ 6<« + ^») (32.2) или, в стандартной нормальной форме, системами уравнений «1=22+1?!, 1 . , (32. z2 = — *i + и2, J 3) #1 = Уа + "l, Уг = — J/i + «2. где u2 = w^\ i;2 = w(2) и ux = 0, ^ = 0. Пусть целью преследования, осуществляемого первым игроком, который управляет точкой т(1\ является совпадение т^ с точкой п№\ причем необходимо, чтобы в момент встречи ft совпали и координаты |<l> [ft], и скорости |(i) [ft] обеих точек. Иначе говоря, здесь областью влияния J/f{y[t]) точки у [t] = {^х>, g*1*} на -фазовой плоскости {#i»#2} = {£> 1} будет сама эта точка y[t] и момент встречи ft W определится как такой момент, когда впервые совпадут точки ylt] = {gw Ш, |w W} Hrfri={gw M, t<2> Ш}, изображающие движение точек тп(1) и w(2) на плоскости Ы = {Яц Яг) (Рис- 32Л).
280 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII Попробуем оценить результаты игры, на которые может рассчитывать первый игрок. С этой целью введем одну вспомогательную задачу о программном управлении, подобно тому, как мы это делали раньше в §§ 3, 20. Итак, сформулируем следующую задачу. Задача 32.1. Рассмотрим управляемую систему, описываемую уравнениями dx (32.4) Для заданных начальных условий {^, хи, x2J среди допустимых интегрируемых управлений w(x) (^ ^ т < <х>), стесненных условием I и>(т) К |* — v, (32.5) требуется найти оптимальное программное управление w° (т), которое обеспечивает минимум 0° для величины d (w(-)), где ft (w (•)) —- момент, когда при данном управлении w(-)(w(x), ^<Cf <C со) впервые выполняется равенство Ф) = fatt». *2(#)} = 0. Решение этой задачи хорошо известно (см. Приложение, § 46, стр. 388—389). Обратимся теперь к нашей исходной игровой задаче и примем, что в момент t = £+ = t0 реализовалась позиция {^, z/+, zj = {£0, z/0, z0}. Тогда можно утверждать, что никаким способом игры (никакой стратегией U) первый игрок не сможет гаран-
i § 32] МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 281 тировать себе результат у =ft(°*t)_ ^ меньший, чем величина #° — £0, где значение Ф0 доставляется решением задачи 32.1 при х^ — х0 = у0 — z0. В самом деле, примем от противного, что данное утверждение неверно и существует такой способ выбора управления и, при котором гарантируется результат у <СФ° — t0. Но по смыслу задачи 31.1 нам следует теперь учесть ту возможность, что преследующий может столкнуться с такой реализацией v[t] управления у, которая в каждый момент времени t будет удовлетворять равенству v[t] = — u[t]. Заметим [Л что стратегия {у}, которая осуществляет управление vlt] по указанному сейчас закону, является допустимой в том смысле, о котором идет речь в примечании 7.2. Действительно, нетрудно проверить, что при выборе любой допустимой (в смысле определения 6.1) стратегии U {t, у, z) и при выборе стратегии {и}, диктующей управление vlt] = vu[t]/\i, система 2, описываемая уравнениями (31.1), (31.2), будет иметь абсолютно непрерывное решение {y[i\, z[t]}, где вектор-функция y[t] удовлетворяет уравнению (31.1) при и— u[t\Ez% (t, y[t], z\t]), a функция z[t] удовлетворяет уравнению (31.2) при vlt] — = vu\t]/\i. Для того чтобы убедиться в справедливости этого утверждения, достаточно построить искомое движение {y[t]~, z[t]}, пользуясь известной нам схемой дискретного управления, описанной в § 6. Итак, пусть реализуется именно такое управление v\t]. Составим разность x[t] = y[t] — z[t]. Согласно (32.3) вектор-функция x[t] = = {xx[t], x2lt]} будет удовлетворять уравнениям х2 = — Хх + w[t] (32.6) (wit] = ujt] - v2[t]), и при нашем предположении в (32.6) работает управление wit], которое удовлетворяет неравенству | wit] | <1 \i — v. Мы приняли, что управление ult] обеспечивает встречу движений ylt] и zlt] в момент t =0(<Ж) <-&°. Но это равносильно предположению, что управление wit] реализует такое движение xlt], которое приводится им в состояние
282 задача оё оптимальном преследовании [т. vii #=0 к моменту #^><д0. Однако это невозможно по смыслу величины д°, ибо функция w[t] удовлетворяет неравенству \w[t]\ <; \i — v и x[t0] = х0. Полученное противоречие доказывает наше утверждение о том, что величина ф° действительно доставляет нижнюю границу для величины ftW, которую может гарантировать оптимальная стратегия U0 из задачи 31.1 (если, конечно, такая стратегия вообще существует). В аналогичнОхМ случае задачи о минимаксном сближении || {г/bfr] }m— {z [ftl}m|| к заданному моменту ф мы видели, что подобная нижняя граница действительно достигалась (см. § 20) при выборе экстремальной стратегии (для рассматриваемого здесь случая однотипных объектов). Попробуем проверить гипотезу о том, что аналогичная ситуация имеет место и в данном случае игры преследования одного объекта другим, однотипным с первым. Поскольку речь идет об однотипных объектах, и чтобы лучше оттенить связь наших рассуждений со вспомогательной задачей (32.1), мы будем исходить из упрощенного варианта экстремальной конструкции (см. § 20, стр. 172—176). Оптимальное управление w°(x) из задачи 32.1 удовлетворяет условию максимума (см. Приложение, § 46, стр. 387—390) sQ'{x)w°(x)^ max s<>'(x)w, (32.7) где s°(x) — минимальное движение, которое определяется условием | s°2 (x)\dx = min J | *а(т) | dx = j^^- u и (при x°'s(Q) = 1). Умея решать задачу 32.1, мы можем теперь построить «экстремальную» стратегию Ue, действуя по аналогии с материалом из §20 (см. стр. 175—176). Именно, для исходной позиции {^, хЛ нам надо будет определить управление w°(x) (^ < т <Ф°), которое решает задачу 32.1, сконструировать множества W(t#i #J, складывающиеся из всех значений ufi(tJ=weJ удовлетворяющих условиям максимума (32.7) при х = ^, и определить
§ 32] МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 283 %e{t*, яф) как множества, складывающиеся из векторов— ие = и(1 ие2 О Важно заметить, что теперь множества %е явно от t зависеть не будут (доказательство предоставляем читателю) и, следовательно, Ue = Ue{x) -г- %е (х). Рис. 32.2. Управление w°(r), разрешающее задачу 32.1 для исходного момента времени т = ^ и для исходного состояния #„, зависит, разумеется, от этих начальных данных. Таким образом, w°(x)= w°(x; ^, xj). Функция we[x] = w°(t; t, x), которая задает экстремальное управление для состояния х (и которая вследствие стационарности задачи не зависит от t), оказывается разрывной и характеризуется следующей геометрической картиной на фазовой плоскости {хх, х2} (рис. 32.2). В области Ж<1), лежащей выше кривой 5, выполняется равенство we[x] = •— (\х — v); в области Ж<2\ лежащей ниже кривой S, выполняется равенство we [х] = \i — v. Рассуждая теперь по аналогии со случаем, разобранным в § 20, мы попробуем принять Щ [t] = и>ег(у[Ц~ Ue*{y[t]- -z[t]) = -z[t]) = ■ — v> ^ при при X х ■ = 0/- = (y- -z)e=JV*\ (32.8)
284 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИЙ [ГЛ. VII а на кривой S, как и положено для разрывных управлений u2[t] при формировании их в рамках контингенций (31.5), примем — Ц < uJLti <Ц при x[t] = (y[t] - zlt]) e S. (32.9) Пусть ^ > 2, [х — v = 1. Тогда сразу же можно убедиться, что управление (32.9) решения задачи 31.1 в данном случае не доставляет. В самом деле, зададим исходную позицию у0—z0— x0—(—2, 0) и управление v\t] = = 0. Выбирая u2[t] = — 2, мы увидим, что система уравнений (32.3) будет обладать решением yxlt] - zx[t] - - 2, у2 [t] - z2 [t] = 0 (t0 < * < оо) при данных управлениях и[£] и у[£], удовлетворяющих всем нужным условиям (то есть условию | v2 It] |^ vh условию (32.9)). Следовательно, контингенция (32.9) не обеспечивает нужного сближения точек m,W и т^ не только ни за кратчайшее, но и вообще ни за какое время. Итак, наша гипотеза провалилась. Здесь, однако, пока еще остается надежда исправить положение, руководствуясь следующими соображениями. Собственно говоря, в случае игровых задач на минимакс сближения || {гДд]}т— — {з[01}т|| к заданному моменту времени О нам удалось построить работоспособные экстремальные стратегии Ue\ приняв за основу правило экстремального прицеливания в позициях {t,y, z}, где гипотетическое рассогласование е° (t, у, z) строго положительно, а формирование управлений ue[t] в позициях, где 8° (t, г/, z) = 0, уже оказывалось производным процессом, который был связан законом формирования ие [t] в области е°(£, у It], z[t])^>0 и условием абсолютной непрерывности движений y[t] и z[t]. Однако выше в этом параграфе в случае задачи на минимакс величины у =ftW — t0 для системы 2, описываемой уравнениями (32.3), мы фактически пытались строить управление и [t], выбирая за основу экстремальное прицеливание все время только из позиций x[t] = у [t] — — z U], которым отвечала величина e,°(y[t], z[t])~ 0 (обоснование предоставляем читателю). В связи с этим можно надеяться, что хотя бы для более'регулярной задачи 31.1, где область влияния Jl(y [t]) не является самой точкой
§ 32] МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 235 y[t], а представляет собой некоторую а-окрестность U- У М || < а (32.10) этой точки, правило экстремального прицеливания окажется все-таки работоспособным (снова хотя бы в случае однотипных объектов). Проверим эту гипотезу сначала опять на том же примере системы (32.3). Итак, пусть для системы 2, описываемой уравнениями (32.3), поставлена задача 31.1, причем область влияния Jl(y [t]) точки y\t] определена неравенством (32.10), где а есть некоторое выбранное наперед положительное число. Следовательно, момент встречиО(еЖ) определится теперь как такой момент времени t, когда впервые выполнится неравенство \\ylt]-z[t]\\<a. (32.11) Желая построить экстремальную стратегию Ue (исходя снова из упрощенного варианта экстремальной конструкции), мы должны использовать следующую вспомогательную задачу об оптимальном программном управлении. Задача 32.2. Рассмотрим управляемую систему, описываемую уравнениями (32.4). Для заданных начальных условий {^, #J = {t^ хи, x2*} требуется среди допустимых интегрируемых управлений w(x) (^ <Г т < оо) (32.5) найти оптимальное программное управление иРа (т), которое обеспечивает минимум #°а для величины #а (w (•)), где Фа (ю( •)) — момент, когда при данном управлении w (•) (w (т), ^ <; т < оо) впервые выполняется неравенство |x[*U = (4f>[*]+«!l*])Vi<a. Решение этой задачи известно (см. Приложение, § 49). Если определить управление wl (tj) в начальный момент времени т = tm как функцию от исходного состояния х^ = х, то эта функция wae [x] опять оказывается разрывной и характеризуется следующей геометрической картиной на фазовой плоскости {х1ч х2} (рис. 32.3). В области .fll), лежащей выше кривой Sa, выполняется равенство waelx]^= — (|л — v); в области Жа2),
286 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII лежащей ниже кривой £а, выполняется равенство wae[x] = = р, — v. Таким образом, правило экстремального прицеливания приводит здесь к следующим соотношениям, определяющим формирование управления u[t]: иг [t] = - [х при х [t] = (у [t] - z [t]) e Лма}, щ Ц] = [х при х It] = (у It] - z It]) ЕЕ Л^\ (32.12) —•[* < Щ [fl<jx при а: [t] = (у [*] — z [t]) e 5а. Пусть |л > 2,1, [л — v = 1, а а = 0,1. Тогда снова можно убедиться, что управление (32.12) в данном случае опять решения задачи 31.1 не доставляет. В самом деле, задавая исходную позицию* j/0B— z0 == л;0 = (—2,1; 0) ■К"' | /*"У~> x„(-2(n-v)-oc,0) Ч. Я2 Ил J& х, -s* Рис. 32.3. и управление у U] = 0, мы, выбирая управление u2[t] — = — 2,1, убедимся, что система уравнений (32.3) будет обладать решением Ух It] — *i It] = — 2,1; yt [t] — z2 [i] = 0 (*0 < *< оо) при данных управлениях u\t] и v[t], удовлетворяющих условиям |уа [t]\ < v и (32.12). Следовательно, и в случае а ^> 0 контингенция (32.12), вытекающая из условия экстремального прицеливания, не обеспечивает нужного сближения точек т^ и т^. Итак, наша гипотеза окончательно дискредитирована. Попробуем выяснить причину провала нашей попытки привлечь к решению задачи 31.1 правило экстремального прицеливания, подобное тому правилу из § 12, которое в случае задачи 7.1 о сближении оказывалось вполне работоспособным в аналогичном случае однотипных объ-
I 32l МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 287 ектов (см. § 20). Мы ограничиваемся при этом лишь более регулярной задачей 31.1 для системы 2 (32.3), когда плата у есть время до а-сближения (32.11). Обсудим подробнее ту экстремальную конструкцию, которая послужила базой для экстремальной стратегии, изображаемой соотношениями (32.12). Однако теперь мы уже будем рассматривать не упрощенный вариант этой конструкции, связанный с задачей 32.2, а основной ее вариант, опирающийся на области достижимости G^ и G<2>. Пусть реализуется позиция {^, у^, zj, которую мы фиксируем. Рассмотрим, как обычно, вспомогательные движения у(х) = = 0/1 (Т)> У% (Т)> и Ф) = {zl W* *2 (*)} (К < Т < оо , у (tj = у^ z (t#) = zj), подчиненные уравнениям dyi . dz\ -^-= ».+ »!, -3r = 2, + i;1, («!= 0, 17J, = 0, | Щ (t) К (.1, | У2 (t) | < V), (32.13) которые отвечают исходным уравнениям (32.3). Задаваясь различными значениями # }> £„, будем формировать области достижимости Ga1} (^, Уф,0) и С?<2> (^, £+,ф) для движений у (т) и z (т) соответственно при управлениях y(t)Ef, (32.14) (то есть иг (х) = 0, \и2 (т) | ^ v) и ир(т) - и(т) + р8(т-д), и(т)е%т, || р || ^ a (32.15) (то есть ггх(т) = 0, |u2(t) | ^ (х). Пусть* = Фа есть наименьшее значение йремениф, когда выполняется включение Gw(t„z.,0)c £?>(*., у,,*). (32.16) Эта величина da совпадает с величиной ф a, доставляемой решением задачи 32.2 (см. материал в § 20, стр. 172—176, из которого вытекает справедливость высказанного утверждения). Экстремальное же a-прицеливание движения у [t] из позиции {^, у^ zj в область Q°(t^ y^ zm,
288 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII в1 а (£*, #*, zJ ), лежащую в пересечении границ Я11} и Я(2) областей G^ (^, г/+, фа) и G<2> (г*,^, фа), осуществляется как раз тем управлением, которое изображается соотношениями (32.12) (при t = tj (см. снова материал из § 20, стр. 172—176). Раньше, в случае задачи 7.1, величина ф в процессе игры оставалась неизменной, а величина а = = е° (£, у U], z [t]), вообще говоря, изменялась. Теперь, напротив, в ходе игры величина а неизменна, а значение Ф = — Фа, вообще говоря, изменяется, подбираясь из условия (32.16). Если бы оказалось, что величина фа (£, у It], z[t]) с изменением позиции {t, y[t], z[t]} при экстремальном управлении (32.12) не возрастала бы со временем, то это управление обеспечивало бы сближение || у [t] — z [t] || <! a не позже, чем в момент t = t0 + фа (t0, y0, z0), то есть это управление разрешало бы задачу 31^.1. Однако разобранный только что пример показывает, что это не так. В самом деле, там значения yUl = {—2,1; 0} и z [t] = {0; 0} при экстремальном управлении u[t] (32.12) оставались неизменными при всех £> £0, поэтому величина Фа [*] = Фа (*, y[t], z [t]) там неизменно возрастала с той же скоростью dfta[t]ldt = I, как растет время t. Почему это оказалось возможным? Построим уравнение, которое будет определять нам величину Фа(^, у*, О- Для эт°й цели, задаваясь опять всевозможными значениями ф > t^ рассмотрим области достижимости Gi1} (^, 1/#,ф) и G(2) (£,, ^,ф) для движений г/(т)' и z(t) (32.13) при управлениях v (х) (32.14) и ир (т) = и (т) + р8 (х -ф), u(t) e «И* (32.17) и для каждого ф найдем наименьшее значение г = = е^(^, у^ zj, которое удовлетворяет условию , Gw(t,,zm,b)<zGp(tm,y.,0). (32.18) (Иначе говоря, е£ (^, i/^, zj есть гипотетическое рассогласование е°(^; у^ zj которое мы получили бы для позиции {^, у^ z^} в экстремальной конструкции из §11, если бы речь шла о задаче сближения к заданному моменту t = ф.)
§ 32] МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 289 Величина el (t, у, z) есть непрерывная, функция от Ь {& >*о) и> очевидно, величина#а(^, у*, zj есть наименьший корень уравнения <£(*..».,*.)--* = О (32.19) (рис. 32.4). Пусть теперь позиция {t, y[t],z[t]} изменяется в соответствии с уравнениями (32.3), где v = v [t] — какое- нибудь допустимое управление, а управление и = и [t] диктуется экстремальной стратегией. Если бы величина о а e$(t,yrt],z[t]) Jj$(t+At,y[t+Atl z[t+At]) Рис. 32.4. г? ^ = Оа[^] =0,а(*»У М» ^ [^) при этом не изменялась с течением времени, то, как мы знаем из материала § 16 (см. стр. 153—154), величина el (t, у [t], z[t]) не возрастала бы и, следовательно, при рассматриваемом изменении позиции {t>yU],z[i\} кривая е% (*, y[t],z [t]) в точке О =*а It] никак не могла бы смещаться вверх, а в случае, если v[t] не прицеливает движение в область (?° [t], то кривая эта el (t, у [t], z [t]) даже обязательно должна смещаться вниз (см. рис. 32.4, где пунктиром изображена кривая е& (tm + А*, y[t^ + A*], z[tt + А£]), которая получилась бы из кривой eS (tm, yUJ, ZUX ПРИ изменении позиции {^, у UJ, z[tj} в позицию {^ + At, у U* + At],z[tm + At]} при управлении u[t](t9 ^ t < t^ + At), диктуемом экстремальным прице 10 Н. Н. Красовский
ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII ливанием при неизменном О =$а UJ). Иначе говоря, можно сказать, что при управлении и U], диктуемом континген- цией (32.12), выполняется соотношение dt /*=*0 [*]=const :0, (32.20) каким бы ни было допустимое управление v[t]. При этом и для переменного на деле ф =-&а [^производную в левой eS(t*,fffUzft*J) e$(U+At,i/[t*+At],z[t*+At]) части (32.20) представляется правдоподобным трактовать как частную производную функции dqt}(t,y[t\, z[t]) по t, когда дифференцирование учитывает изменение со временем t только позиции {t, у [t], z [t]}, а величина $. =^^a[t] фиксируется. (Вопроса о существовании этой производной мы пока не обсуждаем, так как наши рассуждения носят наводящий характер.) Теперь следует обсудить следующие три возможные ситуации: (1°) Для рассматриваемого момента времени t справедливо неравенство (рис. 32.5) dBl(t9y[t]fz[t]) 50 /&=« ,<° =М<] z It]} = const). (32.21)
§ 32] МИНИМАКСНАЯ ПО ВРЕМЕНИ ЗАДАЧА ПРЕСЛЕДОВАНИЯ 291 Тогда, очевидно, при условии (32.20) величина О = = фа [t], являющаяся наименьшим корнем уравнения u(t,ylt], zlt]) -a = 0, (32.22) никак в окрестности момента времени t возрастать не сможет, то есть случай (32.20), (32.21) благоприятен для преследователя. (%<0-порядка At) ос e£(t,y[t],z[t]) e$(t+At,y[t+At],z[t+At]) О &xft+Atj fy[t] « Рис. 32.6. (2°) Для рассматриваемого момента времени t справедливо равенство ('"■';""Ur' с*-»» ({£, у U], z[t]} = const), но при этом в (32.20) выполняется строгое неравенство (из-за того, что управление v[t] не прицеливает движение z [t] в область Q°[t] на ближайших полуинтервалах [t, t + А*)). Тогда, очевидно, опять величина 0 = фаШ, являющаяся наименьшим корнем уравнения (32.22), в. данный момент t возрастать не может (рис. 32.6). Следовательно, этот случай снова благоприятен для преследователя. 10»
292 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VH (Зф) Для рассматриваемого момента времени t справедливо равенство (32.23), причем и в (32.20) тоже имеет место равенство (рис. 32.7). Тогда не исключена возможность нежелательного для преследователя возрастания корня -& =-&a[t] уравнения (32.22). Именно, эта возможность, изображенная на рис. 32.7, и осуществляется в разобранном выше примере движения {y\[i\\z[i\} = {— 2,1; 0; 0, 0} Системы (32.3). Хотя там и выполняется все время соотношение (32.20), ('%- величина (может быть, даже положительная) порядна о (At)) . х ( e$(t+At,y[t+utlz[t+At]) Рис. 32.7. e однако благодаря (32.23) это не препятствует скольжению корня Ь =Фа It] уравнения (32.22) по оси О вправо. Подведем итог наших рассуждений. Мы предположили, что правило экстремального прицеливания, аналогичное правилу экстремального прицеливания для игровой задачи 7.1 сближения, но построенное здесь должным образом, то есть так, что момент ф =Фа> определяющий теперь экстремальную конструкцию, меняется как корень уравнения (32.22), разрешит и задачу 31.1, хотя бы в тех случаях, когда для каждой возможной позиции {t, y[i\, z [t]} ситуация прицеливания оказывается регулярной в прежнем смысле (то есть прицеливание^ определяется единственным вектором 1° [t]). На примере мы убедились, •что это предположение неверно и выделили1 неприятные ситуации (32.20), (32.23), когда ^правило экстремального прицеливания не срабатывает должным образом. [В то же время отделились и благоприятные для преследовате-
§ 33] ГРУБЫЙ СЛУЧАЙ 2ЭЗ ля случаи, когда можно рассчитывать на успешное применение правила экстремального прицеливания. Приведенные здесь рассуждения послужат основой для дальнейшей классификации случаев преследования по признакам работоспособности экстремальных стратегий. Упражнение 32.1. Проверить, что в задаче преследования из § 2 в любой позиции {t, у, z} обязательно выполнено условие (32.21). Упражнение 32.2. Проверить, возможны ли неприятные ситуации (3°) в случае игры преследования, аналогичной рассмотренной выше игре для системы 2 (32.3), но теперь уже для системы 2 *, описываемой уравнениями 2/i = 2/2, i/2 = u>(1), ii = Z2, z2 = w(2\ (32.24) Пользуясь, полученными выводами, проверить, не являются ли стратегии U0 и V0 управления системой (32.24), которые задаются при помощи множеств % и Vq из примера 6.1, если положить х = у — z, оптимальными для задачи о встрече движений у и г (32.24) при условии минимакса (или максимина) времени до встречи ф(ЛО по обеим координатам, то есть при условии, что встреча определяется равенствами yt [ft] = z\ [Щ (i = 1, 2). § 33. Грубый случай Начнем обсуждение правила экстремального прицеливания для задачи 31.1 с самого благоприятного для преследователя случая, который характеризуется соотношением (32.21). Этот случай будем именовать грубым. Охарактеризуем его теперь подробно для общей системы 2, описываемой уравнениями (31.1), (31.2). Построим экстремальную конструкцию, отвечающую задаче 31.1. Пусть реализовалась позиция {t^ y^z^}, причем вектор р = {zt — у^) не содержится в 9Ь. (Только такие позиции для нас интересны, иначе игру следует полагать в момент t = tm уже законченной.) Рассмотрим вспомогательные движения у (т) и z (т) (^<т<оо, У(К)~У^ 2 (О ~ z*)> подчиненные уравнениям *y. = AV(x)y + u + f(l){r), (33.1) *=Л«(т)*+» + /«(*). (33.2)
294 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. ЛШ Задаваясь различными значениями ф > t^ будем формировать области достижимости GS? (tm, у^, О) и G<2> (^, z*,0) для движений у (х) и z(x) соответственно при управлениях у(т)е^т (33.3) и ир(т) = и(т) + р6(т-Ф) (u(t)(B%T, ре5>). (33.4) Определение 33. 1. Назовем (первым) моментом поглощения 0<^(£+, у*, zj процесса (33.2) процессом (33.1) наименьшее значение ф Г> ^, при котором выполняется включение С(?)(<„г„*)сСй)(«Л.)«). Иначе говоря, момент поглощения 0#> — это такой момент О, для которого область достижимости G<?> (^, а#, ft) впервые оказывается внутри ^-окрестности области достижимости GW(t^, y^ $)• Следовательно, какое бы допустимое управление г\(т) (0^г<СФ^) мы ни выбрали, всегда для него можно подобрать управление иДт) (** *С * ^Ф<#>) такое, что воздействия и = и#(т) и i; = я^(т) приведут движения у(х) (33.1) и z (т) (33.2) к моменту т = ф^в состояния (?/(0)}тИ {г(ф)}т* различающиеся на вектор р = {z(0)}m — {#(0)}т, который содержится во множестве .9\ определяющем область влияния .Ж точки у(0) (рис. 33.1). Условие поглощения области G<2)(^, z^ft) областью #$(**, */*,$) нам известно (см. § 23, стр. 205, (23.20)). Это условие следует записать здесь в виде неравенства ■№ (*., *, I) - р(2) С, *, 0 +1' {»?('., г/.. *) - которое удобно переписать следующим образом: max [р<»> (*.,<>,*)-р&>(*.,<М)- - *' {У0 (*., J/., О) - *° <*., г., д)}т] < 0. (33.5)
33 ГРУБЫЙ СЛУЧАЙ 295 Величина, стоящая в левой части этого неравенства, с изменением ф изменяется непрерывно (доказательство предоставляем читателю). Отсюда вытекает, что момент Рис. 33. . поглощения^ (^, у^ z^) определяется наименьшим корнем ф следующего уравнения: max[pW(t„d,0-p(3L>(«.,*,0- -пу0(^г/..#)-*о(^ф,д)}т]=о: (зз.б) Определение 33.2. Скажем, что случай игры из задачи 31.1 является очень регулярным, если максимум в левой части (33.6) в любой возможной позиции {t^ уЛ> zj, где вектор р = {zjm— {у*}т не содержится в S&, достигается на единственном векторе 1 = 1° ft, у^ zj (при ф =*^ ft, у^ zm) < ос). Если же при этом в каждой позиции ft, *Уш9 zj, где р = (ft}w — {yjm) ф $>,
296 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII выполняется еще и неравенство (-^rtp(2)(*., о, П-рЬЧК, о, P)-i°'{y°(t„ v., *)- -*°(*.,*.,*)}т])^<0, (33.7) то будем говорить, что имеет место грубый случай игры из задачи 31.1. Для того чтобы проиллюстрировать данные формальные определения 33.1 и 33.2, обратимся к частному случаю, когда ^-окрестность, определяющая область влияния Л точки у [t], есть просто сфера радиуса а вокруг точки {y[ft]}m, то есть когда область влияния Л ({у [t\}m) в m-мерном пространстве {q} задается неравенством А{<7}т-0/Ш}тК« (33.8) (а — положительная постоянная). Именно такой частный случай мы и обсуждали в § 32. Тогда моментом поглощения^ = fta будет такой момент ft, для которого область достижимости GW (^, z^ ft) впервые оказывается лежащей целиком в а-окрестности Gf£* (tm, y^,ft) области достижимости GW (t^ y^,ft). Пусть далее г$ (^, у^ zj) — наименьшее значение е, при котором для какого-то выбранного ft ^ ^ выполняется включение G(*> (*..*..*) с G(.l)(t,f^t*). (33.9) Момент поглощения ft&> = Фа тогда есть наименьший корень уравнения &(t;V., *.)-*= О- (33-10) Вспоминая выражение для величины е% (tm, у^ zj, которое вытекает из равенства (13.13) (ибо el (t#, ym, zj есть гипотетическое рассогласование к моменту ф для позиции {t#, y^ яф}), мы приведем уравнение (33.10) к виду max [p<»> (*., ft, I) - pd) (tm4 ft, I) + + l'{z0(t^ *ф| ft) - yo(t., ymf ft)}m) - a = 0. (33.11)
§ 33] ГРУБЫЙ СЛУЧАЙ . 297 Так как для множества S5, заданного условием (33.8), согласно (13.3) и (23.14) имеем Р# ft, Ф, I) = р<*> ft, Ф. 0 + а И, (33.12) то видно, что уравнение (33.6) это есть не что иное, как уравнение (33.10). Наконец, неравенство (33.7) есть не что иное, как неравенство с которым мы уже встречались в § 32 (см. (32.21)). Эти *№&№№> Рис. 33.2. обстоятельства и устанавливают связь формальных определений 33.1 и 33.2 с той содержательной картиной, которая рассмотрена в § 32. Заметим еще, что геометрический смысл неравенства (33.7) такой: при увеличении ф вблизи значения d=fl> область достижимости G& ft, z,,<>) уходит строго внутрь области G$ ft, у^ -&) и притом так, что расстояние между границами^2* ft, ^,ф) и Н$ ft, у.,,,0) этих областей возрастает, имея порядок величины О — Ф^> ft, у*, z0). При этом кривая ю = ю(Ф){*„у,.*.ь (33.14) где со (Ф){,.,„„*,> = max [p<*> ft, ft, /) - р£> ft, О, Z) .+ II «ll=i + Г {*° ft, *f. Ф) - У0 ft, If., Ф)}«] (33.15)
298 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII .(и, следовательно, w(ft)fo, r„ zj = ъ$ (**, у^ zj) — а при е^°>0), пересекает ось со = 0 под строго отрицательным углом р (рис. 33.2). Вернемся к нашей экстремальной конструкции. Пусть, следовательно, для нашей зафиксированной позиции {^, у^ zj найден момент поглощения ф = ф^ (^, у^, zm). (Мы предполагаем, разумеется, что такой момент ф = ф«^ существует.) Пересечение границ ДЙ? и Н^ областей (*&> (^» У*&&) hG^^,^,^^) определит нам обычным образом область прицеливания (?°(^, у^ zj. Если случай, игры очень регулярен (в смысле определения 33.2), то вся область (?°(^, у^ zj оказывается лежащей в одной- единственной гиперплоскости 5?(Z°), ортогональной к вектору 1° (см. рис. 33.1), и мы можем известным нам образом (см. § 12) определить экстремальное прицеливание ие движения y[t] из позиции {^, у^ z^} в область (?°(**> 2/*^**)• Таким образом, в регулярном случае приходим к экстремальной стратегии С/е, задаваемой множествами °^e(Kf У*' z*)> которые складываются из векторов ие £Е Е_-%*„, удовлетворяющих известным условиям максимума 5' (О м« = тах 5' (О и, (33.16) где s (т) (^ <Г т <: д^ (^, г/^, zj) — решение уравнения eft при краевом условии * =_4<1>'(т), (33.17) >) = (33.18) Множества %«, (£, i/, z) определяются лишь для позиций {t, у, z), в которых разность /? = {z — z/}m не содержится в й°, ибо только для таких позиций и требуется выбор управления и. Впрочем, для «общности» можно доопределить множества %е (t, у, z) и для тех позиций, где {z — у}т =pG^, полагая Ue(t, у, z) = %t. Справедливо утверждение.
§ 33] ГРУБЫЙ СЛУЧАЙ 299 Лемма 33.1. В грубом случае игры из задачи 31.1 экстремальная стратегия Uе обеспечивает преследователю ^-сближение {*fo]}m- {»[»]}m=pG? (33.19) с преследуемым не позже, чем в момент времени $ ^ ч9> (^о» Уо-> zo)> какова бы ни была исходная позиция {t0,y0l z0} и какой бы ни оказалась допустимая реализация управления v. Доказательство леммы 33.1 вытекает из следующих соображений. В грубом случае игры величина $j*(t, y} z) оказывается непрерывной функцией от позиции {t, у, z) в открытой области 0^(^, у, z) > t. Эта функция согласно известным теоремам о неявной функции (33.6) при условии (33.7) оказывается дифференцируемой и производная d$&[t]/dt =dfl>(/, у [t], z[t])/dt реализации f>^ [t] на движении {y[t], z[t]}, порожденном экстремальной контингенцией wWGlft y[t], z{t]), (33.20) оказывается неположительной (эти утверждения при условии (33.7) проверяются выкладками, аналогичными тем, какие были проведены в § 16, и мы здесь эти выкладки приводить не будем). Таким образом, функция $At] оказывается невозрастающей и, следовательно, все время, пока £<ф<^(£, у It], zlt]), выполняется неравенство <Ы*. »U1, z[t])<&* (t0, y[t0], z[t0]). Отсюда вытекает, что наступит момент времени *=Ф.<<Ы*о> у1*оЪ zltQ]),' когда окажется и в этот момент по определению величины $> выполнится вложение G<2) (*., z [*.], OJcG^ (О., у [О.], д.). (33.21)
300 ЗАДАЧА ОВ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. ЛШ Так как a G^O*, ylftJ, О J есть не что иное, как ^-окрестность точки {j/toj}™, то из (33.21) вытекает соотношение {M«J}m-{HM}m = PE^ которое и доказывает лемму. Предположим далее, что функция (о(0)г/,?у,2} (33.15) есть монотонная функция О для t ^-Q ^ -в> (£, i/, 2) (при неизменных t, у я z). Тогда в этом грубом случае экстремальная стратегия Ue оказывается оптимальной стратегией, которая доставляет решение задачи 31.1. Для обоснования этого утверждения, однако, требуется еще построить экстремальную стратегию Ve(t, z/, z) для преследуемого. Эта стратегия также задается множествами We (t, y,z), которые складываются из векторов ие, прицеливающих движение z[t] (из позиции {£, y[t], z[t]} в область прицеливания Q°(t, y[t], z[t])). Справедливо утверждение. Лемма 33.2. В грубом случае игры из задачи 31.1, когда функция со (О)/*, у ,2) монотонна по ft при t^ ^ft ^ftg* (t,y, z), экстремальная стратегия Ve охраняет преследуемого от 9й-сближения (33.19) с преследователем на полуинтервале t0^ t <$&> (t0, y0, z0), какова бы ни была исходная позиция {t0, г/0, z0} и какой бы ни оказалась допустимая реализация u(t) управления и. Доказательство этой леммы мы предоставляем читателю. Прямым следствием лемм 33.1 и 33.2 является следующая теорема. Теорема 33.1. Пусть имеет место грубый случай игры из задачи 31.1 и функция со (ф) п Уъ z\ монотонна по д при t^Lft ^ft<?p{t, у, z). Тогда задача 31.1 разрешается экстремальной стратегией Ue(tyy,z), причем справедливо равенство min sup (*<•*> - t01ЗС [С/, {v It]}; *0, У о, *о]) = и мш = ^(t0,y,z0)-t0i (33.22) какова бы ни была исходная позиция {t0, y0, z0}.
§ 341 ОЧЕНЬ РЕГУЛЯРНЫЙ СЛУЧАЙ 301 Наконец, полезно заметить, что в рассматриваемом случае экстремальные стратегии доставляют седловую точку игры. Упражнение 38.1. Доказать лемму 33.1. Упражнение 33.2. Доказать лемму 33.2. Упражнение 33.3. Подробно проверить, что в грубом случае экстремальные стратегии Uе и Vе доставляют седловую точку для рассматриваемой игры преследования. § 34. Очень регулярный случай Грубый случай игры из задачи 31.1, рассмотренный в предыдущем параграфе, удобен для исследования, так как в этом случае игра имеет седловую точку. Однако условия, перечисленные в леммах 33.1 и 33.2, являются весьма ограничительными. В то же время примеры, разобранные в§ 32, показывают, что одной только регулярности (в смысле определения 33.2) недостаточно для того, чтобы экстремальная стратегия Ue обеспечила нужное сближение движений y[t] и z[t]. Именно, пример из § 32 показывает, что при нарушении условия грубости (33.7) (в § 32 нарушено условие (32.21)) возможно проскальзывание корня ft<^ [t] уравнения (33.6) в сторону его возрастания. Желая сохранить работоспособность экстремальной стратегии в очень регулярном случае и при нарушении условия (33.7), мы, следовательно, должны воспрепятствовать упомянутому выше проскальзыванию корня $<&> [t] уравнения (33.6) по оси f> вправо. Иначе говоря, мы вынуждены наложить явное дополнительное условие, которое не допускало бы возрастания момента поглощения Ь& [t] = fl> (t, у It], z [t]) по ходу реализации движений y[t] (31.1) и z[t] (31.2)при управлении u(t), диктуемом экстремальной контингенцией (33.20). Формально это сделать совсем легко. Покажем это. Добавим в число переменных t, у [t] и z [t], реализующихся по ходу игры, еще одну скалярную переменную t}Ul, от которой потребуем, чтобы она удовлетворяла двум условиям. (1°) Если в системе 2 реализовалась позиция {t,y [*], z [£]}, то отвечающая этой позиции реализация -&[t] переменной -& должна быть корнем уравнения (не
$02 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ ЙГЛ. VII обязательно наименьшим) ю(Ф){*,1/М.*[Ф = 0- . С34-1) (Здесь функция и> (&){t y z} определена- равенством (33.15).) (2°) Реализация ft [£] должна быть функцией невозра- стающей, причем ftU0l =**>(*<>. Уо> *о). (34.2) Условие (2°) мы будем называть торможением момента поглощения ft> [£]. Далее мы определим тормозящую экстремальную стратегию Ue {t, у, z, ft }, которая будет управлять теперь изменением и переменной у [t] и переменной ft. Именно, если реализуется ситуация {t, у [t], z [Я, ft It]}, то изменение y[t] в данный момент t будет диктоваться уравнением (31.1), где управление и — и [t] будет стеснено контингенцией «WgW, у It], z[t], ft М), (34.3) причем множество %e(t, y[t], z[t], ft [t]) есть совокупность всех векторов иеЕЕ%и которые в известном нам смысле прицеливают движение у [t] из позиции {t, у [t], z [t]} в область прицеливания Q° (t, у [t], z[f],ft[£]), лежащую на пересечении границ П$ и Я(2) областей G$ (t, у Ul,ft It]) и G& (t, z l*],ftUl). Изменение же переменной ft [t], диктуемое стратегией Ue, мы определим условиями (1°) и (2°). В таком формальном построении тормозящей экстремальной стратегии U9 нет ничего предосудительного, за тем исключением, что мы не указываем «конструктивного» математического аппарата, который реализовал бы изменение переменной ft It] в соответствии с условиями (1°) и (2°). гВпрочем, считать дифференциальные уравнения (31.1) и (31.2) для переменных y[t] и z[t] более «конструктивным» математическим механизмом, чем наборы слов из пунктов (1°) и (2°), диктующих изменение переменной ft [t], есть в конце-то концов только дело вкуса. Во всяком случае мы избавимся от всех нареканий тем, что дадим «хорошее» определение «движения» {у Ш, z [t], ft [t]} замкнутой системы 2 (то есть системы (31.1), (31.2) вместе с присоединенным к ней «регулято-
§ 34] ОЧЕНЬ РЕГУЛЯРНЫЙ СЛУЧАЙ 303 ром», вырабатывающим переменную ftU] и реализацию и [t] (34.3) ) и докажем, что такое движение «существует». (Полезно подчеркнуть, что мы не то что приписываем свойства (1°) и (2°) какой-то заданной нам извне переменной ф U], а сами добавляем к системе управления некоторое регулирующее звено, которое вырабатывает вспомогательную переменную ftU], полезную для организации процесса управления.) Итак, назовем движением замкнутой системы 2 при управлении (34.3) вектор-функцию {у [t], z UbftUI} (t0^ t), обладающую следующими свойствами: функция ft [t] удовлетворяет условиям (1°) и (2°); функция z[t] абсолютно непрерывна и при почти всех значениях t удовлетворяет уравнению (31.2), где и [t] — допустимая интегрируемая функция; наконец, у [t] — абсолютно непрерывная функция, которая при почти всех значениях t удовлетворяет равенству (31.1), где интегрируемая функция u\t] {to ^t) стеснена условием (34.3). Мы будем рассматривать дальше очень регулярный случай игры из задачи 31.1. При этом будем полагать, что регулярны не только ситуации {£, у, z, ft}, для которых справедливо равенство со (ft)**, y>Z} = 0 (см. определение 33.1), но регулярны также и близкие к ним ситуации, для которых выполняется неравенство 0<co(ft){My,z}<a (34.4) (a > 0 — малая постоянная). Следовательно, называя случай очень регулярным, мы будем предполагать, что максимум в левой части (33.5) достигается на единственном векторе Z0 всякий раз, как этот максимум со (ft)/*, Vt z\ удовлетворяет неравенству (34.4). Геометрически данное предположение означает, что в каждой ситуации {£, у, z, ft}, для которой граница области G<2>(£, 2,ft) и граница е-окрестности G^ (£,у, ft) (0 ^ ^ е ^ а) области GQ)(t,y, ft) соприкасаются (при условии G<2> e: Gg^), пересечение этих границ Q0 укладывается в одну-единственную гиперплоскость Х(1°). Справедливо утверждение. Лемма 34.1. В очень регулярном случае игры из задачи 31.1 тормозящая экстремальная стратегия
304 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII Ue{t, у, z, 0} обеспечивает существование движения {y[t], z[t], О [t]} замкнутой системы 2 при t0^t^ 0^, где-&^ —момент времени, когда осуществляется ^-сближение (33.19) движения у [t] с двиясением z[t]. При этом О.«М'о,0о,*о). (34.5) какова бы ни была исходная позиция {£0, у0, z0} и какой бы ни оказалась допустимая реализация v[t] управления v. Таким образом, лемма 34.1 утверждает и существование движения {у [£], z It], ft [t]} при «управлении» (34-3), (1°), (2°), и тот факт, что тормозящая экстремальная стратегия обеспечивает .^-сблцжение движений у [t] и z[t] не позже, чем к моменту поглощения^ (t0, y0l z0,), подсчитанному для исходной позиции {t0, z/0, z0}. Второе утверждение леммы 34.1, выражаемое неравенством (34.5), выводится как прямое следствие первого ее утверждения, если учесть условия (1°) и (2°). Итак, нам достаточно доказать лишь первое утверждение леммы 34.1. Следовательно, нам надлежит проверить существование движения {t, у [t], z [t], ft [t]} замкнутой системы 2 при управлении u[t] (34. 3). Сделаем это. Обратимся к дискретной схеме формирования управления и. Рассмотрим случай, когда множество %t не зависит явно от времени t. Модификация предлагаемых в этом и в последующих параграфах дискретных схем управ- лейий ид и Уд на случай, когда множества % и Vt зависят явно от времени t, предоставляется читателю в качестве упражнения. Построим систему полуинтервалов т*^ t <Z x-l+1 (i = — 0, 1, 2, ...; т0 = tQ, ti+i — т4 = А > 0) и будем полагать управление и a It] постоянным на каждом из этих полуинтервалов иА [t] = uA [rj (т4 < t < ti+O- (34.6) Выбор значений иА [т$] мы определим ниже. Сначала зададим характер изменения переменной Од [*], которую также будем полагать неизменной на каждом полуинтервале %{ ^ t < ti+1, то есть Од [t] = Од [т*] (xi < К т1+1). (34.7)
§ 34] ОЧЕНЬ РЕГУЛЯРНЫЙ СЛУЧАЙ 305 В момент t = t0 = т0 полагаем Фд[*о] = <М*0,И>.*о). (34-8) Дальнейшее изменение дд [t] по интервалам [xt, xi+1) (i = 1, 2,...) определим рекуррентно. Именно, пусть в момент t = tj реализовалась позиция {ть z/[rj, zttj}. Определим для этой позиции момент поглощения ф,#>(Т(, y[tj, z[xt\). Если Ф* (tit у [т4], z [г*]) < #д [ти], то полагаем иначе Од [tj = Од [т^х]. Теперь можно назначить выбор ид[Т|]: если <Ы*Л<<М^.И1ч].*[1Ч]). то будем выбирать в качестве мд lxt] любое управление ие, прицеливающее движение у [t] в момент t = т,- в ту область прицеливания (?°[tj, которая является пересечением границы области G№ (xt, z[xt], # [tj) с границей наименьшей, содержащей G& е-окрестности GWlt.] (т4, у [т4], * [т4]) области Gg? fa, у[т4], *[tJ); если же OA[Ti] = *^(Tiftf[T4],2[T4]), то в качестве цд fa] будем выбирать любое управление щ удовлетворяющее условию и^%. Такой выбор управления ua fa] е % fa, у fa], z fa], * fa]) (34.9) имеет смысл во всяком случае, пока efa] < а. (34.10) Поэтому теперь надлежит проверить, что при достаточно малом значении А ^> 0 все время при Tj<ft[Tf]<^(*o,yoizo)
306 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII будет выполняться неравенство (34.10). Проверка этого условия опирается на те оценки, которые были использованы в § 16, и мы здесь на этой проверке останавливаться не будем. Составим далее движение (»<*>М, z[t], <><*>[*]} (i = l, 2,...) системы 2 (31.1), (31.2), построенное описанным выше способом для значений Д = Д$ -»- 0 при i ->■ оо. Из последовательности {у№ [t], z[t], ftW [t]} можно выбрать подпо- с ледовате льность {№Ш, zlt], №Ш} (7 = 1, 2,...) такую, что монотонно невозрастающие функции ф^ [t] будут сходиться в основном (см. [6*], стр. 360) к некоторой монотонно невозрастающей функции ф It] (при t0 <! ^£ < -в* J и "равномерно ограниченные и равностепенно непрерывные функции y^$ [t] будут сходиться равномерно (при t0 ^ t <С #„) к некоторой абсолютно непрерывной функции y\t]. Предельная вектор-функция [y[t], z[t], ф It]} и доставит нам искомое движение замкнутой системы 2 при управлении (34.3). Мы по-прежнему не будем проверять здесь справедливость этого утверждения, а заметим только, что выполнение равенства У It] = A[t]y[t] + u[t]+f(t) при выполнении контингенции (34.3) достаточно проверить только в точках непрерывности предельной функции ф [t]y так как известно (см. [6*], стр. 318), что все точки разрыва монотонной ограниченной функции -& [t] составляют множество нулевой меры. Итак, существование движения {у [t], z[t],$ [t]} будем полагать проверенным и лемму 34.1 доказанной. Параллельно мы указали здесь и реализуемую конструкцию дискретного управления ил [t] (34.9), которое аппроксимирует формально описанный раньше способ управления u(t) (34.3). В заключение этого параграфа заметим следующее: лемма 34.1 утверждает лишь, что в регулярном случае игры тормозящая экстремальная стратегия Ue {t, у, z, Ь}
§ 35] РЕГУЛЯРНЫЙ СЛУЧАЙ 30? обеспечивает ^-сближение {*[*.]}«-{»[*#]}я1=РЕУ движений у [t] и z [t] к моменту но она не утверждает, что эта стратегия Ue {t, у, z, ф} является оптимальной минимаксной стратегией £7°, которая разрешает задачу 31.1. И это, вообще говоря, действительно не будет так, даже если трансформировать задачу, допуская стратегии, учитывающие дополнительную переменную О [t]. Разбор возможных здесь положений мы предоставляем читателю в качестве упражнения. Упражнение 34.1. Провести детальное доказательство леммы 34.1. Упражнение 34.2. Доказать или опровергнуть утверждение об оптимальности тормозящей экстремальной стратегии Ue {*, уt z, Ф} для трансформированной задачи 34.1, где допускаются стратегии вида U \ty у, z, О}. Указание. Разобрать различные случаи, обращая особое внимание на обстоятельства, связанные с возможной немонотонностью фуНКЦЦИ 0) (®)ftlVizy} П0 ^' Упражнение 34.3. Рассмотреть дискретную схему формирования управления иА для случая, когда множество Шг зависит явно от времени t. § 35. Регулярный случай Очень регулярный случай, разобранный в предыдущем параграфе, естествен лишь тогда, когда множество £Р, которое определяет область влияния Jt({y[t]}m) точки {i/W}m, имеет гладкую границу. Если же это не так, то требование регулярности ситуации {t, у, z, Ф} при условиях (u(-&)/t л = 0 оказывается слишком стеснительным. В частности, это условие оказывается чересчур стеснительным в случае, когда множество £Р состоит из одного нулевого векторар = 0, то есть когда область влияния М ({у [t]}m) точки {y[t]}m в m-мерном пространстве {q} совпадает с самой точкой {*/U] }m. В этом случае область достижимости G$ (t, у, О) в пространстве {q} будет просто совпадать с областью достижимости G& (£, г/, О), граница
308 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИЙ [ГЛ. VII которой Н^ (t, у,О) для весьма широкого класса случаев имеет точки заострения. Предполагать в таких случаях единственность касательной гиперплоскости X (1°) неудобно. Поэтому теперь мы несколько ослабим требования регулярности и потребуем только, чтобы регулярными были лишь такие ситуации {t, у, z,$ }, для которых выполняется неравенство 0<ю(Ф)1М,,г,><а (35.1) (сравни с условием (34.4)). Итак, введем следующее определение (вполне согласующееся, между прочим, с определением 13.1). Определение 35.1. Скажем, что имеет место регулярный случай игры из задачи 31.1, если максимум со (u){ttV9z) - max [pW (t, Ф, I) - Pg? (t, d, I) + +V ({zo (t, z, Щт - {y*(t, y, d)}J] (35.2) достигается на единственном векторе 1° всякий раз, как максимум этот удовлетворяет неравенству (35.1). Геометрический смысл определения 35.1 таков: в регулярном случае в каждой ситуации {2, у, z, <&}, для которой граница Я<2> области G<2> (t, z, -&) и граница Я(1)е,^> е-окрестности G^&> (t, у,-&) области G(J)(t,y$) соприкасаются (при условии G& a G^, 0<Се<[а), пересечение этих границ Q0 укладывается в одну-единственную гиперплоскость £(1°). Отличие же регулярного случая от случая очень регулярного состоит в том, что в регулярном случае уже не требуется единственности гиперплоскости Х(1°) для тех ситуаций {£, у, z, Ф}, в которых <«>Ф){* у г}~г~®' как эт0 полагалось в случае очень регулярном. В регулярном случае, как и в случае очень регулярном, также можно построить некую тормозящую экстремальную стратегию Ue{t, у, z, Ф}, которая будет обеспечивать ^-сближение (34.11) объектов (31.1) и (31.2) к моменту ^ ^ Ф^ (t0, у01 20). Однако это построение, аналогичное построениям из § 34, мы выполним теперь в обратном порядке: сначала построим соответствующую дис-
§ 35] РЕГУЛЯРНЫЙ СЛУЧАЙ 309 кретную аппроксимационную стратегию (см. § 19), а затем укажем путь ее формализации в непрерывной схеме дифференциальных уравнений. Итак, построим аппроксимационную тормозящую экстремальную стратегию U(eA){t, у, z, $}. Она^будет складываться из тактик £/де (t, у, z, ft), которые определяют реализации ид U], Фд Ш, конструируемые примерно по тому же плану, как и реализации управления иА [t] и переменной Фд [t] в § 34. Управление иА [t] и переменная фд[£] будут опять иметь характер, определенный равенствами (34.6) и (34.7). Зададим снова изменение переменной fl^l/rj тем же самым способом, какой описан в § 34 (см. стр. 305). Управление же и& [тt] определим теперь несколько иначе. Именно, если реализуется ситуация {t^, y[xt], z[tj, * [tj}, для которой то в качестве ггд [т4] можно выбирать любой вектор и ЕЕ ЕЕ%с£ если же реализуется ситуация {х{1 у [tf], z [т.], Ф [т.]}, для которой ©(*['fi]){TiiV[Tf]>*[Tf]}>0l то в качестве ua [t.] будем выбирать управление ие, прицеливающее движение у It] в момент t = т. в ту область прицеливания Q0 [т.], которая является пересечением границы HW области G<2) (т., z [т.], д [т.]) с границей наименьшей, содержащей G№ е-окрестности £$£[Т.](т., у [т.],д[т.]) области G§) (т., I/ [т.], Ф [т.]). Напомним, что условие ©(*M){Ti.t/[Ti]>«[tf]}>0 означает, что е [т.] ^> 0 (см. выше стр. 298). Теперь надлежит определить величину, которую мы выберем в качестве показателя, характеризующего полезность апдроксимационной стратегии Ui \ складывающейся из всех возможных тактик £/де, задающих описанные выше реализации u&U] и $аШ при всех достаточно малых Д > 0 (см. § 19, стр. 166-167).
310 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИЙ [ГЛ. VII Определение 35.2. Скажем, что аппроксимаци- онная стратегия UA (t, z/, z, Ф) обеспечивает преследователю предельный результат у(А\ если выполняется равенство sup lim sup sup (#е,И$?д[£Гд, Mo> */o, *ol) = Г(А). (35.3) s>0 Д-*0 v[t] Здесь Ф6><^ — тот момент, когда впервые точка{z lt]}m оказывается в е-окрестности области влияния J£({z/ lt]}m) точки {у lt]}m, символ «27д [С/д, v\ t0, y0, z0] обозначает семейство движений системы 2 (31.1), (31.2), порожденных управлениями и = идЫ, v = v It] из позиции {t0, у0, z0}. Справедливо утверждение. Теорема 35.1. В регулярном случае игры из задачи 31.1 аппроксимационная тормозящая экстремальная стратегия U^t\t, у, z,$) обеспечивает преследователю предельный результат - г£А)<^('о,*/о,*о). (35.4) Доказательство теоремы 35.1 мы предоставляем в качестве упражнения читателю. Итак, из теоремы 35.1 мы видим, что в регулярном случае игры для любого наперед выбранного числа е ^> О можно указать число Ае> 0 такое, что экстремальное управление или]при А < АЕ будет обеспечивать преследователю сближение {M«J}»-{lf[*J}« = ?E?. (где З^е есть е-окрестность множества SP) к моменту Предельный результат движения {у [t],z Ы,ФдЫ} при А —>■ 0 можно формализовать в схеме, включающей дифференциальные уравнения в контингенциях следующим образом. Разобьем все пространство {£, у, z, ■&} (£< Ф) на две части W0 и W г по следующему признаку: ситуация {t, у, z, ■&} будет содержаться в области Wг тогда и только тогда, когда справедливо неравенство *<<М*,0,*), (35.5)
§ 35] РЕГУЛЯРНЫЙ СЛУЧАЙ 311 иначе {t, у, z, §}Gf0. Множество Wz является областью открытой (доказательство предоставляем читателю). Тормозящая экстремальная стратегия Ue{t, у, z, ft} задается следующими условиями. (1°) Переменная ft It] не возрастает, ft [t0] = fl> (*0, у0, z0) и функция $ [t] не Гможет претерпевать разрыва при переходе из области W0 в область We. (2°) В области Wz переменная ft It] сохраняет постоянное значение, переменная у U] есть абсолютно непрерывная функция, удовлетворяющая уравнению (31.1), причем u[t] = ие есть вектор экстремального прицеливания из позиции {t, у [t], z[t]} к фиксированному моменту ft = ft [t] = const. (3°) В области Wq переменная ft It] все время удовлетворяет условию со(0[П){^],2[Ш = 0. (35.6) (4°) Переменная у It] есть абсолютно непрерывная функция, удовлетворяющая уравнению (31.1) при u = u[t]^%e. Можно проверить, что такое определение стратегии Ue имеет смысл, ибо движения {у It], z [t], ft It]}, порождаемые ею, можно получить предельным переходом от движений {z/д It], z It], ftA It]}, порожденных описанной выше аппроксимационной тормозящей экстремальной стратегией. Далее можно также проверить, что стратегия Ue {t, у, z, ft} обеспечивает преследователю ^-сближение {z Г0;]}т — {у №J}m = рЕ? не позже, чем к моменту времени ft; ^ft (t0, y0, z0). Полезно заметить, что движение у It], порожденное данной экстремальной стратегией Ue, оставаясь все время в области W0, осуществляется, вообще говоря, как скользящий режим. На этом мы завершим пока обсуждение задачи о минимаксном по времени преследовании движения z It] движением у It]. Отметим лишь, что можно было бы и здесь рассмотреть регуляризируемый случай, взяв за основу регуляризируемый случай из § 21 и построив соответствующую «тормозящую смешанную экстремальную стратегию» Ue (t, и, z, ft; e, а), что мы и предоставляем интересующемуся читателю в качестве упражнения.
312 ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ [ГЛ. VII В заключение приведем результаты численных^ экспериментов по реализации предложенной дискретной схемы управления на примере, явившемся предметом обсуждения в § 32. Пример 35.1. Для системы двух материальных точек «(1) и т(2\ движущихся по горизонтальной оси в соответствии с дифференциальными уравнениями (32.3), описанная в настоящем параграфе аппроксимационная тормозящая экстремальная стратегия Рис. 35.1а. Ат=0,04 x1(0)^BJx2(0)--OJ\ ji=5f v=4 I I I I i Щ Ш & Рис. 35.16. U(A)(t, у, z, ft) была смоделирована на ЭЦВМ при выбранных значениях \i = 5, v = 4. В качестве исходной была выбрана позиция, соответствующая значениям хг (0) = —3, х2 (0) = 0, где х± — ух — __ г х2 = уг — z2* При использовании конструкции дискретного управления иА [*], связанной с торможением величины О [*], и при v* [t] = 0, и2 [t] = min {v, | хг\} в плоскости (xv х2) получена картина движения, изображенная на рис. 35.1а. Эта картина демонстри-
M51 Регулярный случай 313 рует работоспособность дискретной экстремальной Конструкций» приведенной в настоящем параграфе. Если отказаться от торможения величины Ф [t], то имеется возможность подбора таких начальных данных хх (0), х2 (0), что при сколь угодно малых значениях А экстремальная тактика UAe способна порождать на плоскости (а*, я2) возле точки заострения х* с координатами {—2, 0} периодические движения, стягивающиеся к этой точке покоя при А -> 0. Это явление, возникающее в данном примере при vx [t] = 0, v2 [t] = — xx [t], A = 0,04, xx (0) = —2, хч (0) = —0,1, также было смоделировано на ЭЦВМ и изображено на рис. 35.16. Следует заметить, однако, что положение равновесия х* = {—2, 0<} неустойчиво по отношению к различного рода малым возмущающим воздействиям и, следовательно, при численной реализации даже обычной экстремальной конструкции «застревание» движения x[t] в точках покоя, подобных точке я*, маловероятно. Упражнение 35.1. Рассмотреть систему, описываемую уравнением *i = *2> *2 = — xi + и — v + Ък6 (t — xk) (35.7) (|»К ц, М <v, |i — v = 1), где |fe — независимые при различных к = 1, 2, ... случайные величины с нулевым математическим ожиданием и дисперсией а2; Т/с — независимые от %к случайные мгновения, распределенные на оси t по закону Пуассона с частотой Я; символ б (t), как обычно, обозначает 6-функцию. Исследовать влияние случайной добавки £^6 (£— — tfc) на особое состояние {— 2,0}, возникающее в системе (35.7) (в случае отсутствия случайных сил) при управлениях и [t], диктуемых экстремальной стратегией Ue, и при управлении v [t] = 0, например. Исследовать предельный переход при а2Я -»0в предположении а -> 0, X -* оо. Рассмотреть аналогичные вопросы в дискретном варианте.
гл;ава viii ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ § 38. Особенности задачи об уклонении В предыдущей главе мы обсудили задачу о формировании такого управления и, которое обеспечивало бы преследователю встречу с преследуемым при условии мини- макса времени до встречи или хотя бы гарантировало эту встречу не позже некоторого определенного момента времени ф. Оказалось, что, по крайней мере, в регулярных случаях, задача имеет удовлетворительное решение: она разрешается для преследователя правилом экстремального прицеливания и роль упомянутого выше момента О играет момент поглощения #& (t0, yQl z0) преследуемого процесса процессом преследующим. Раньше в главах III—V, разбирая игровые задачи о сближении к заданному моменту времени Ь, мы видели, что там в регулярных случаях игра имела седловую точку и наилучшим способом управления для преследуемого также было экстремальное прицеливание. Естественно, что здесь в случае игры, где платой служит время до встречи, также возникает следующий вопрос: не будет ли и для преследуемого экстремальное прицеливание (в область Q° It] к моменту Ф = Ь&> [t], см. выше § 33, стр. 298—300) наилучшим способом управления и не может ли преследуемый при помощи такого управления избежать встречи с преследователем вплоть до момента времени Ф = О^>(^0, у, zQ). Из §33 мы уже знаем, что в грубом случае игры, когда функция w (Ф)^ TJ 2j является монотонной по Ф, это действительно так и экстремальные стратегии Ue и Ve доставляют тогда седловую точку игры на минимакс и максимин времени до встречи. При этом оптимальное значение у0 платы игры у, то есть оптимальное значение времени до встречи, отвечающее выбору обоими партнерами оптимальных экстремальных стратегий Ue и Ve, изображается равенством V0 (*о> Уо» *о) = **('* Уо» zo) ~ *о- (36-1)
§ 36] ОСОБЕННОСТИ ЗАДАЧИ ОБ УКЛОНЕНИИ 315 К сожалению, в более общих случаях, начиная уже со случая очень регулярного (см. §§ 33 и 34), такое удобное утверждение может оказаться неверным, если функция со ('fl,)/f,vr,r} окажется немонотонной. (Предположение о немонотонности функции со (®)п, у, z} в грубом случае было бы неестественным.) Поясним это обстоятельство на примере. Рассмотрим систему 2 из § 14, состоящую из двух материальных точек т№ и т^\ перемещающихся в вертикальной плоскости {£, т]} (см. рис. 14.1) под действием управлений иК1) и w(2\ стесненных условием (14.1). Теперь в качестве платы игры у мы выберем время flW — t0 до встречи, понимая под встречей совпадение точек т^ и т<2> (только по координатам, но не обязательно по скоростям). Иначе говоря, область влияния М точки т№ на плоскости {£, г)} мы отождествляем с самой этой точкой. Из § 14 мы знаем, что областями достижимости для движений у = {£<!), т|<1\ £<1}, Л(1)} и ъ = {£<2>, л(2\ 1(2), *1(2)} на плоскости {|, т]} = {qx, q2} в данном случае являются круги (см. § 14, стр. 136—139). При условии И, = Щт& > v = АДО/jwW, которое мы примем, радиус круга GKD (t, у, ft) оказывается для любой ситуации {t, у, z, Ф} большим, чем радиус круга G<2>(£, z, Ф). Отсюда вытекает, что рассматриваемый случай игры является очень регулярным в том смысле, как это определено в § 33 (стр. 295). Поэтому мы можем здесь определить экстремальное прицеливание (и для преследователя, и для преследуемого) в соответствии с рецептами из § 33. Так как теперь нас интересует проблема уклонения от встречи, то остановимся подробнее на экстремальном управлении ve [t] для преследуемого, которое раньше в § 33 подробно не обсуждалось. Пусть реализовалась некоторая позиция {t, у U], z It]}. Определим отвечающий ей момент поглощения &&> [t] = fl> (t, у It], z It]), который определяется наименьшим корнем О = <)>[£] следующего уравнения: (0(*){адо,*т> = °- (36.2)
316 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИИ [ГЛ. VIII Здесь функция со ($)н )Vt 2} в общем случае задается равенством (33.15). В нашем частном случае функция со (0){/, у, 2) имеет вид = Y(*lV] + ($-t)x3[t))*+(X2[t] f (Ф- *)*4 [*])"- (fl-*)2 (l*- v)- (*гШ = р4ш-мч) (36.3) О Ц0 0,9 Tift V l) W 14 \ 1,6^ \7 & Рис. 36.1. (см. рис. 36.1, где пунктирной линией изображен график со = со (Ф)^ Vt 2) для позиции *о = 0, Уо = Г 3 1/2" ' 4 ! 1/2 4 /2 У! L wo . » zo — 0 1 о 0 0 (36.4) при \i = 1,5; v = 0,5 и g = 10; отсчет # начинается с Ф = 0,7). Мы видим, что в данном случае fl>(£0, y0, z0) = = 1,48.
36] ОСОБЕННОСТИ ЗАДАЧИ ОБ УКЛОНЕНИИ 317 Экстремальное управление w& = w^ [t], которое находится из условия прицеливания движения z It] = = {&*4thi\<*>[t], ^2) М, rf2) It]} из позиции {*, у It], z It]} в точку q° (t, у It], z[t], d [t]) пересечения границ Рис. 36.2. #(1)(*. УГЙ» * [*]) и #(2)(*» 2 It], fUt]) (здесь просто окружностей Ж^ и Ж&) областей €№{t, у [t], tilt]) и G(2) (t, z[t],ftlt\) (см. рис. 36.2), изображается равенством wT [t] = v ll{z°[^]-2/0[M}JI m(2) (36.5) (см. равенство (14.11) § 14 на стр. 141). * Предположим, что, начиная с позиции (36.4), преследуемый все время будет придерживаться экстремального управления и№ = и/Р It] (36.5). Спрашивается, сохранит ли его это управление от встречи с преследователем на полуинтервале t0 ^ t <[ чЭ> (£0, у0, z0) (какие"бы действия ни предпринимал преследователь)? Проверим это. Пусть, следовательно, преследуемый при t^ t0 придерживается
318 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII экстремального управления и?(2)== юТ It] (36.5), а преследователь выбирает управление при V«| + *;=f 0, (36.6) где V Со)-* V (*о)-& COS Я = — sin а- = — gi + К — *) д?з /[*i + « -1) *з]2 + [«I + (5 - 0 *]*' #2 + (£ —*) ^4 Vl*l + « - 0 *3]2 + [*2 + (5 - t) Xtf и йК1) есть вектор длиной \i произвольного направления, если -\- ai = 0. Определенное таким образом управление йХ1), между прочим, экстремальным не является. Процесс деформации кривой со (d)^ y w „j, отвечающий изменению позиции {£, у U], я U]} при выбранных управлениях ?7KD и Же2), изображен на рис. 36.1 (при указанных выше значениях [л ===== 1,5; v = 0,5). Из этого рисунка видно, что с момента времени t = = t0 = 0 до момента t ===== ^==0,25 наименьший положительный корень ft&>[t] = $& (t,y,lt],z It]) уравнения (36.2) возрастает (и это для преследуемого очень хорошо). Однако в момент времени ^ == 0,25 появляется новый корень д^> = = 0,97 уравнения (36.2), который меньше чем «прежний» корень -в> UJ = 1,67, являющийся левым пределом величины fl> It] при t—> ^. Это для преследуемого плохо. В самом деле, именно этот новый корень, начиная с момента t = t^ = 0,25, и будет определять момент поглощения fl> It] = /Q> (t, у It], z It]) процесса z процессом г/,если преследователь сумеет удержать новый корень. Но из материала § 34 мы знаем, что такая возможность у преследователя есть. Для этого ему достаточно, начиная с момента
§ 3GJ ОСОБЕННОСТИ ЗАДАЧИ OB УКЛОНЕНИИ 319 t = t^ перейти на экстремальное управление We U] (t ^ Р? tj] порожденное экстремальной тормозящей стратегией. Тогда преследователь обеспечит себе встречу не позже, чем в момент времени * - Ф* (К, У [*.], z [*J) = {& = 0,97 < $<? (t0, i/o, *o) = l,48f как бы при t^> t# ни действовал преследуемый. Итак, t-t*=0,25 &fi(U=W fy(W=W Рис. 36.3. мы видим, что из-за возможного появления нового корня у уравнения (36.2), корня, который вызывает скачкообразное смещение момента поглощения О^ It] влево, экстремальное управление w№ = i42) It], вообще говоря, не охраняет преследуемого от встречи с преследующим на полуинтервале t0 <! t <C/9>(£0> Уо-> zo)- (На рис. 36.3 изображена ситуация, отвечающая позиции *. = 0,25fy[tJ = -0,746" 0,330 3,113 -0,214. *IU = -0,015 -0,005 -0,118 -0,311j
320 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII когда происходит скачкообразное изменение экстремальной конструкции, вызванное появлением нового корня # = <0> у уравнения (36.2)). На рис. 36.4 изображены сплошными линиями траектории точек rr№ и т<2> в описанной выше реализации процесса преследования, когда преследуемый все время придерживался экстремального управления и/2> = = wT 11], а'преследова- тель при \t0 = 0 <С t < <^ ^ = 0,25 придерживался управления wW — = w (36.6), а затем, начиная с момента t = = ^ = 0,25, перешел на экстремальное управление и?М =юе(1) It]. Для сравнения на рис. 36.4 пунктирными линиями отмечены траектории точек mW и 7tt<2> в случае, когда оба игрока придерживаются сначала и до конца экстремальных управлений. Полезно подчеркнуть, что в разобранном примере появление нового корня Ф = -в> у уравнения (36.2) было обусловлено немонотонным характером функции CD[(ft)/t у 2\ по Ф. Мы предлагаем читателю самостоятельно исследовать нелегкий вопрос о том, возможно ли при экстремальном управлении v = ve It] неприятное для преследуемого ^смещение влево момента поглощения •0> U], если функция о> (0)^ у^ zy монотонна по Ф (в очень регулярном случае, в регулярном случае)? 36.4.
§ 37] СМЕШАННАЯ ЭКСТРЕМАЛЬНАЯ СТРАТЕГИЯ УКЛОНЕНИЯ 321 Итак, на разобранном примере мы видели, что экстремальное управление w(2) = w^ It], если его изберет преследуемый, не исключает смещения момента поглощения ty^U] в ходе игры влево. А отсюда вытекает, что такое управление не обеспечивает преследуемому уклонение от встречи на полуинтервале tQ <; t < $<&> (t0, у0, z0). Поэтому нашим ближайшим действием будет попытка такого усовершенствования правила экстремального прицеливания для преследуемого, которое обеспечило бы в ходе игры при t^t0 удержание наименьшего корня §At] уравнения (36.2), то есть удержание момента поглощения ft^U] = = 0^» (t, у It], zlt]) вне полуинтервала t0^'t<fi& (£0, у0, z0) или хотя бы вне полуинтервала t0^ t< $&> (t0, у0, z0) — — а, где а — положительное произвольно малое наперед выбранное число. Оказывается, что последнее условие иногда действительно удается выполнить за счет перемешивания экстремальных управлений. Описание такой смешанной экстремальной стратегии Ve для преследуемого составляет содержание следующего параграфа. Упражнение 36.1. Исследовать свойства экстремального управления ие в случаях, когда функция со (О), * является монотонной по Ф. § 37. Смешанная экстремальная стратегия уклонения В этом параграфе описывается построение смешанной экстремальной стратегии, которая в ряде случаев позволяет преодолеть рассмотренную в § 36 трудность, осложняющую уклонение от встречи при выборе преследуемым экстремальной стратегий. Именно, мы построим стратегию ¥е, которая при определенных условиях обеспечивает неравенство p&[t) = Q&(t, s[*])><M*o, яо) — а 37 4 (а = const ^> 0, t<^Q&[t]) для момента поглощения $&> It] и тем самым охраняет преследователя отвстречи, по крайней мере, на полуинтервале t0 ^ t < Ф^ (Z0, х0) — а. Для разнообразия в этом 11 Н. Н. Красовский
322 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [Ш. VIII параграфе задачу об уклонении мы будем рассматривать не в форме игры преследования и уклонения двух управляемых объектов, как трактовались игры в §§ 31—-36, а в форме игры наведения на заданное множество JC и уклонения от него одного объекта, управляемого, однако, двумя конфликтующими игроками. Мы знаем (см. § 8), что это лишь формальное различие, ибо подходящей заменой переменных нетрудно проверить эквивалентность тех и других проблем. Итак, рассмотрим динамическую систему 2, описываемую дифференциальным уравнением х = A(t) x+ и- v + f (*), (37.2) где управления и и v стеснены известными ограничениями u[t]&%, v[t]^Wt. (37.3) Задано ограниченное выпуклое замкнутое множество М, являющееся желанной целью для первого игрока, и он стремится привести фазовую точку х It] на ,М как можно раньше. Второй игрок стремится предельно оттянуть вывод точки х It] на М. Таким образом, плата игры изображается равенством г= <><.*>_ j0> (37.4) где Ф* — момент, когда точка х It] впервые попадает на множество М. Обратимся к соответствующей экстремальной конструкции (см. для сравнения § 24). Обозначим символом ёР множество всех А-мерных векторов р, которые удовлетворяют условию -f£.#. (37.5) Очевидно, при выбранном v = v (t) некоторое программное управление и (i) (£„ ^ t<C Ф) тогда и только тогда приводит точку х (t) к моменту Ф на многообразие Л, когда можно подобрать вектор р из £Р такой, что р-уп- равление Up(t) = u{t) + pb(t-ft) приведет движение х (t) к моменту О в точку х = О (рис. 37.1).
§ 37] СМЕШАННАЯ ЭКСТРЕМАЛЬНАЯ СТРАТЕГИЯ УКЛОНЕНИЯ 323 Пусть реализовалась позиция {^, х It J = х^}. Рассмотрим вспомогательные движения х (т) (^ ^ т < <х>, # (jj = #J, подчиненные уравнению £=4(т)* + ц-1; + /(т), (37.6) и, задавшись значением Ф > ^, сформируем в Аг-мерном пространстве {ж} области достижимости G&> (t^x^ Ф; v (•)) Рис. 37.1. (см. § 24) для движения # (т) к моменту т = О при управлениях ир (т) = и (т) + рб (т - Ф), (37.7) отвечающие всем возможным выборам управлений v (•) И*), *,<*<*) (Рис. 37.2). В соответствии с материалом §33 (определение 33.1) назовем (первым) моментом поглощения ^(^, xj (точки х = О процессом х (т)) наименьшее из чисел Ф, при которых любая (по v (•)) область Сг^> (^, ##, Ф; г; (•)) обязательно содержит точку х = 0 (именно такой случай изображен на рис. 37.2). Значит, при каждом значении О < Ф> (^, ж J можно указать, по крайней мере, одну область G&>(tt,xt,h; v(-)) (то есть, по крайней мере, одно управление г;(-)), которая не будет содержать точки х = 0. Пусть П*
324 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII далее г% (t^ xj есть гипотетическое рассогласование, отвечающее ситуации {^, х^ $}, иначе говоря, el(t^ xj) есть наименьшее значение е, при котором е-окрестность £^>,е(**>#*> <К v(-)) любой (по v(-)) области Ggp(t^, х^ #,г<.)) содержит точку х = 0. При д < Ф^*, #+) обязательно Рис. 37.2. е^(^*^*) !> 0- Будем полагать, что случай является регулярным, то есть мы примем, что при каждом значении Ф < <С^(^п х*) чеРез точку х = 0 можно провести лишь единственную гиперплоскость Х(1°), касательную ко всем областям G&>,eo (^, x^$i v(-)), содержащим точку х = 0 (если таких областей вообще не одна). Этот случай реализуется тогда и только тогда, когда в известном нам соотношении (24.12), определяющем величину sl{t^ xj, то есть в соотношении г% (*„ хт) - ш[р« (*„ Ф, 0 - р^> (*., О, 0 - ~P<«№-W^.*..*)b (37<8) максимум достигается на единственном единичном &-мер~ ном векторе l°(t^ хщ, $). В соответствии с материалом из
§ 37] СМЕШАННАЯ ЭКСТРЕМАЛЬНАЯ СТРАТЕГИЯ УКЛОНЕНИЯ 325 § 33 (стр. 297) обозначим 4 ft, *J = ©(<>)*.,,.,. (37.9) Итак, рассмотренная конструкция определила нам функцию со (#)<*„ «л (ft ^ $<&> {tm, xj) (37.9), которая отвечает реализовавшейся позиции {t^ xj (см. рис. 37.2). Теперь при помощи этой функции со (#){**, **} мы сконструируем своеобразную функцию Ляпунова %(t^ х^ t0, x0, а) (см. для сравнения материал из § 21). Для этой цели зададимся некоторым достаточно малым числом а^>0 и, имея в виду исходную позицию (t0, х0), определим функцию % (£„, хщ, t0, #о> а) равенством Ъ&> (to, х0)-л Ь (*., *., *0f x0l a) = j о)""1 (Q){Ut Xt) <ГО. (37.10) t* Функцию к (t^ xm, t0, x0, а) мы можем определить для всех позиций {*„,#,,}, для которых справедливо неравенство $*(Кх *.)><М*о, *о) - «■ (37.11) Множество этих позиций составляет в (к 4- 1)-мерном пространстве {£, x} открытую область & (доказательство предоставляем читателю). Далее в области & функция % (t, х; t0f x0, а), определенная равенством (37.10), является функцией дифференцируемой, ибо такова, как мы знаем из §§ 16 и 24, функция со (d){f, х} = е° (t, x) при каждом фиксированном А1, и частные производные de°/dt, де°/дх., определенные равенствами вида (16.8), (16.9), суть функции непрерывные. Таким образом, мы можем вычислить частные производные д% (t, х)/дх. (г = 1,...., к) и <ЭА,(£, x)/dt. Эти производные изображаются равенствами $= $ .•£■«,[«.*.*]*>, '(37.12) ~v^x(s'lt,^^)u)~s'[t,x^){A(t)x-\-f{t))]d^-^ Ue" (37.13) ug«, ' ' "»w<t, *>
326 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VII! где s'U, ж, ф] = X' [О, t] Z° {U х, fl). Вернемся теперь к нашей исходной игре. Пусть в уравнениях (37.2) реализуются какие-то допустимые интегрируемые управления и = u[t] и v = г; Ы, и пусть речь идет о позициях {£, х Ы}, лежащих в области $ (при значениях t из некоторого интервала т# <^ t <C т*). Рассмотрим функцию X Ы = X (t, х It]; t0, x0, а). На выделенном интервале времени х^ < £ < т* функция А, U] будет функцией абсолютно непрерывной (проверку этого факта предоставляем читателю). Следовательно, при почти всех значениях JEE(t.i т*) она будет иметь производную dX [t]/dty и эта производная будет изображаться равенством + ui[t]-vi[t] + fi(t)), (37.14) которое соответствует известному правилу дифференцирования сложной функции (см. [18*, т. I], стр. 202, [16*], стр. 226, а также см. выше § 16, стр. 154). Нам важно добиться того, чтобы функция X [t] возрастала с течением времени t возможно медленнее. В самом деле, если нам удастся обеспечить столь медленное возрастание функции A, U], при котором эта функция X It] будет оставаться ограниченной каким-то числом X (t0, x0), то позиция {t, x [t]} будет оставаться все время при t0 <C t < $&> (£0, х0) — а в области S и не сможет при t < $&>{t0, x0) — а выйти на границу области S (проверку этого факта предоставляем читателю). Но для того, чтобы добиться по возможт ности медленного возрастания функции X It], целесообразно выбирать управление v It] из условия минимума по v^ffit выражения dX [t]jdt (37.14). Это условие минимума величины dX [t]/dt по г; равносильно следующему условию максимума: ? (£, х) v0 =■■ max ? (t, x) v, (37.15)
I 31] СМЕШАННАЯ ЭКСТРЕМАЛЬНАЯ СТРАТЕГИЯ УКЛОНЕНИЯ 3^7 где /с-мерный вектор Г (г, х) определен равенством ?(£, #) = gradx X (t, x; t0, х0, а). (37.16) Теперь мы и определим нужную нам смешанную экстремальную стратегию Ve {t, x\ t0, х0, а} как такую стратегию, которая в каждой позиции {t, x} из области W задается множествами Ve (t, х\ *о» #о» а) всех векторов ve из V''и удовлетворяющих условиям максимума (37.15). Эти множества 2^е будут ограниченными, выпуклыми, замкнутыми и, кроме того, они будут полунепрерывны сверху по включению при изменении позиции {t, x} в области & (доказательство предоставляем читателю). Следовательно, определенная нами смешанная экстремальная стратегия Ve в области $ допустима. Справедливо следующее утверждение, доказательство которого мы предоставляем читателю. Лемма 37.1. Обозначим "ТтГ (37.17) t ai /u,ve при ve<=Ve(t, x;tQ,x0,a). Пусть {t0, x0}Ei&. Если всюду в области & выполняется неравенство Ф {t, x; t0, #0, a) < £Я (t, x\ t0, x0, а) (37.18) (£ = const > 0), то смешанная экстремальная стратегия Ve {t, x; t0, £0, а}, избранная вторым игроком, охраняет движение х It] от вывода на множество М, по крайней мере, при t0 ^ < *<0>(*Oi x0) — a. Эффективная априорная проверка условий (37.18) по параметрам уравнения (37.2) и множеств %и Vt и -^ в общем случае затруднительна. Мы укажем лишь один частный случай, когда, тем не менее, выполнение условия (37.18) можно гарантировать априори. Этот случай, осуществляющийся в игре преследования и уклонения однотипных объектов, мы рассмотрим в следующем параграфе. Упражнение 37.1. Доказать лемму 37.1.
328 Задала оё оптимальном укйонейии [гл. Viii § 38. Преследование и уклонение в случае однотипных объектов Рассмотрим систему 2, которая состоит из двух однотипных объектов, описываемых уравнениями y = A{t)y + u+^(t)9 (38.1) z = A(t)z+v + fW(t) (38.2) при ограничениях u[t]&%, ?[ПеП ' (38.3) где множества %t и Wt подобны и одинаково ориентированы. Будем полагать, что размеры множества %t не меньше, чем размеры множества V*t, и отношение этих размеров определяется коэффициентом подобия (см. § 20, стр. 169) Р > 1. Пусть далее в лг-мерном пространстве {q} оговорена область влияния Л точки {у \i]}m 'и нас интересует игра преследования и уклонения для объектов (38.1) и (38.2) при условии, что плата у изображается временем до встречи г=О<*>_*0. , (38.4) Обсудим сначала задачу преследования объекта (38.2) объектом (38.1). Мы знаем (см. § 20, стр. 169), что рассматриваемый случай игры является регулярным (в смысле определения 35.1 из § 35). Следовательно, существует тормозящая экстремальная стратегия Ue{t, у, z, Щ, которая обеспечивает встречу движений у It] и z [t] [z [*]}«.- {У [*]}« = Р е9: (38.5) не позже, чем к моменту времени <><<M*i.Po.*o)- (38.6) Данная стратегия Ue характеризуется континген- циями и It] S %е (*, У Ul zith * 1Й), (38.7) где d [t] — вспомогательная невозрастающая переменная. На движениях {у U], ъ It], ft [t]}, порожденных стратегией
§ 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ 329 Ue и при начальном условии $ [t0] = Ъ& (t0, y[tol zlt0]) переменная Ф It] есть нёвозрастающий корень уравнения (35.6) , , . ®(*)(M/W. *[']»'=°. (38-8) которое в рассматриваемом частном случае имеет вид (см. § 20, стр. 170, где дано выражение (20.4) для <»(*){*,!/.*> = 4 (*, У\ Z) в случае р^> (I) = 0, ибо там множество 3* совпадает с точкой р = 0) шах[(1 - Р)р<«(*, d, I) -р<*>(9 - Z'{* (*. ')*[']}« - НЧИ1 -rgZ(*fT)/(T)dt}J = 0 (*[*] = »[*]-*[*]). (3S.9) При этом fHt0] = 0>(*Of у0, z0). . Множества %е (t, у [t], z It], Ф [fl) в случае, если О [Лесть корень уравнения (38.9), совпадают с множеством JUt. Если же при реализовавшихся {у It], z It], ^ It]} левая часть (38.9) положительна и равна величине 8 U], то множества %t (t, у It], z It], d It]) складываются из всех k- мерных векторов ие, которые суть управления, прицеливающие (точнее говоря, $\ е-прицеливающие) движение у It] из позиции {t, у It], zlt]} к моменту О = <НЙ в область Q° It], являющуюся пересечением границ областей достижимости ©а) (*, z It], О It]) и С$,6Ш (t, у It], ft It]). В аналитической форме векторы ue^%t определяются из условия максимума (12.5). В данном' частном случае это условие принимает вид s'(t)u9=maxs'(t)u. (38.10) Здесь s (т) (£ <; т ^ Ф It]) — решение уравнения * =_Л'(т)* (38.11)
330 • ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII при краевом условии *(*[*]) = 0 ] , (38.12) в котором 1° [t] = Z° (t, у [t], z It], О It]) есть т-мерный единичный вектор, максимизирующий левую часть (38.9). Мы знаем также (см. § 20, стр. 172—-176), что при |3 > 1 экстремальные управления ие (38.10) можно трактовать и иначе. Именно, рассмотрим движения х (т) (t ^ т <^ Ф Ы, х (t) = х [t] = у It] — z U1), описываемые уравнением *L=A(x)x + w + /« (т) - f»Y(x), (38.13) где управления w стеснены условием w(x)eeWi, (38.14) причем множество WT, подобно множествам %т и Vх, ориентировано одинаково с ними и отношение размеров Wх к размерам Vх определено коэффициентом подобия, равным р — 1. Тогда момент поглощения ti> U0] = '9> (^oi У о» *о) есть не что иное, как ближайший момент времени t = Ф°, когда движение х (т) (38.13) можно из положения х (t0) = = х0 = у0 — z0 привести в состояние {х (Ф)}™ = 0 за счет выбора допустимого р-управления wv (т) = w (т) + р& (т - Ф) (38.15) (w(x)tEWr, PEE.9) (доказательство предоставляем читателю). Векторы же мее %e(t,y[t\* z[t], $[t]) при условии е U] > 0 суть век- торы вида «• = Р=Т^ (3816) где we -— это управления we = w (t), прицеливающие (точнее говоря, S5, е-прицеливающие) движение х{х) (38.13) в точку {х(® U])}m =s 0t
§ 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ 331 Наконец, следует сказать, что рассматриваемая стратегия Ue обеспечивает минимакс времени до встречи (38.4). В самом деле, чтобы проверить это утверждение, достаточно рассмотреть управления v It], формируемые по правилу v[t]=±-u(t,y[t],z[t],u[t]). (38.17) Такие реализации v It] при нашей постановке задачи возможны (см. в § 7 примечание 7.2, а также см. § 32). При таких управлениях разность х It] = у It] — z [t] будет описываться уравнением x = A(t)xlt] + w It] + Я (*) - Я (*), (38.18) причем w[t] = u[t]-v[t] = £=±u[t]e.Wt. (38.19) Но мы знаем уже (см. выше в этом параграфе стр. 330), что управление w It] (38.19) никак не может привести движение (38.18) из положения х0 = у0 — z0 в состояние {#[Ф]}т = 0 к моменту Ф, который предшествовал бы моменту Ф° U0] ='0>(Z0, у0, z0). Следовательно, никакая допустимая стратегия U не может обеспечить преследователю встречу движения у It] с движением z It] раньше, чем к моменту времени Ф = Ф^»^, у0, z0). В то же время стратегия Ue обеспечивает встречу не позже, чем к моменту времени О = ti>(f0, j/0> zo)- Отсюда и вытекает минимаксность этой стратегии по отношению к плате у (38.4). Обратимся теперь к задаче об уклонении движения z [t] (38.2) от движения у It] (38.1). Случай однотипных объектов (38.1), (38.2) при ограничениях (38.3) является регулярным также и в том смысле, как это требовалось в § 37. Более того, оказывается, что в этом случае выполняется и условие (37.18). В самом деле, вычислим производную (dkltydfjuw, v^ Для функции к [t] = = M*i У М» z Ms ос, £0, i/0, z0) при управлениях и = и It],
332 ЗАДАЧА ОЁ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII v= vlt]. Учитывая (37.14), (37.12), (37.13), получим &<&> (*Э, УоМ—CL + (1-9) *« s' [*, у, ж, ft] р] dtf - —-± . (38.20) Очевидно из (38.20), что maxminf^r) <0f (38.21) и г? \at /uiV откуда и следует выполнение условия (37.18). Но при этом условии согласно лемме 37.1 существует смешанная экстремальная стратегия Ve {£, у, z\ a, £0, у0, z0}, которая охраняет преследуемого от встречи с преследователем, по крайней мере, на полуинтервале t0^ t< O^ (t0l y0, z0)— —а. Эта стратегия Ve {t, у, z\ a, £0, yQ, z0) характеризуется контингенциями v It] е ^е(*, у Ul, z [й; а, у0, z0f *0), (38.22) где множества 2^е(£, у It], z \t]\ ос, £0, j/0, z0) складываются из всех векторов ve, удовлетворяющих смешанному условию максимума 7 (t) ve = max ? (t) и, (38.23) где "«"(О» J -^-М*. У, *,*]<«> (38.24) и 5 [т, у, z, О] (* < t <; Ф*(£ 0> У о» *о) — а) — решение уравнения (38.11) при краевых условиях \l\lt, у, z, Ф)1 *(*,»,*,<>) = [ J ]■ (38-25) Итак, мы видим, что в рассматриваемом случае существуют стратегии Ue и Ve , которые удовлетворяют
1 I 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ 333 соотношениям minsup (Ъ(Л) -tQ\&[U,V; t0f у0, z0]) = и v = max (*(JC) -t0\S[Ue, V; t0, */„, *o]) = v = sup inf (*<•*> -to\&lU, Vf\ t0, и,, zQ}) = a>0 C7 = sup inf (*<•*> - *013D [U, V; tQ9 j/o, *o])- (38.26) Стратегии C7e {£, y, z, *} и F<a) {*, y, z; a, *0, y0, s0}, описанные только что и обеспечивающие условие (38.26), весьма близкое к условию седловой точки, носят характер формальных математических конструкций. Однако эти стратегии мы можем по известным уже нам рецептам (см. выше, §§ 19, 36) заменить на реализуемые практически аппроксимационные стратегии UiA) и ViA\ которые в случае %t = % и Wt = Р* будут характеризоваться кон- тингенциями и It) ЕЕ %е (Tif у [*f ], z fa], О [т4]) (38.27) и i; [t] ЕЕ W (tif у [т4], 2 [т4]; a, *0, Уо, *0) (38.28) при т. < * < ti+1, Тгн-i — ^| = Д» а = а (А). Здесь %е и 2^а) — те же самые множества, которые задавали и стратегии Ue и V$aK Стратегии (38.27), (38.28) аппроксимируют стратегии Ue и Vf\ Справедливо следующее утверждение, которое мы предлагаем доказать в качестве упражнения читателю. Теорема 38.1. Можно подобрать такую функцию a (A) (lim a (А) = 0 при А т-> 0), что пара экстремальных аппроксимационных стратегий UiA) (38.27) и V^ (38.28) будет доставлять игре преследования и уклонения однотипных объектов (38.1), (38.2) аппроксимационную седловую точку в том смысле, что будут выполнены со- отношения Г(Д) =minr ,лч = maxг[у(А)] = = Г ^ = Ф* (t0, Vo. «о) - *о, (33.29)
334 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИЙ tl\JI. VUt где ^rrrfAh ^ SUP limSUP SUP *^Д, г), (38.30) WW] £>o Д->о v[t] rlvW] = limlim inf inf d£, уд » (38.31) s-Ю Д-И) u[t] причем символ fl^,» означает момент времени '&, когда гсргг данных управлениях и и v впервые выполняется условие &№-у[Щ}ш£ЕЗ>€ (38.32) (5s e есть е-окрестность множества 3*). Иначе говоря, Фгци — момент Ф, когда при данных управлениях и и v точка {z [Ф] }т впервые оказывается в le-окрестности области влияния *М{{у[$]}т) точки {i/['&]}m. Символы Uа и Уд в (38.30) и (38.31) обозначают тактики, содержащиеся в стратегиях £ДД> и У<А). Итак, из теоремы 38.1 мы заключаем, что для игры преследования и уклонения однотипных объектов (38.1), (38.2) при ограничениях (38.3) справедливо утверждение. Какова бы ни была исходная позиция {t0, у0, z0}, если для нее существует момент поглощения $&(t0, у0, z0) << оо, то для любого г ^> 0 преследователь имеет возможность выбрать управление и (38.27), которое обеспечивает ему захват точки {z[t]}m в г-окрестности ife({j/ [/]}m) области влияниям ({у lt]}m) точки {у lt]}m не позже, чем к моменту времени d ^$&>(t0, у0, z0). Напротив, преследуемый всегда имеет возможность для любого а ]> 0 указать е ^> 0 и выбрать управление v (38.28), которое охранит точку {z[t\}m от захвата ее г-окрестностью Л&г{{у 1Й}т) области влияния Jt({yli\}m) точки {у [t]}m, по крайней мере, на полуинтервале времени t0^ t <^ <С*М*о» У о» zo) ~ а- В заключение параграфа приведем решение примера из § 31. Пример 38.1. Рассмотрим уже хорошо знакомую нам систему 2, состоящую из двух материальных точек т(1) и ml2\ перемещающихся в вертикальной плоскости (см. примеры 21.1 и 31.1). Поскольку рассматриваемые объекты т^ и т(2), описываемые дифференциальными уравнениями (31.10) и (31.11), однотипны, то поставленную в примере 31.1 задачу преследования можно репшть, используя результаты настоящего параграфа.
§ 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ 335 Пусть областью влияния преследователя Ж ({у [t]}2) будет точка {у [t]}2. Выпишем тогда для нашего примера уравнение (38.9), играющее основную роль при решении задачи преследования. В примере 21.1 было вычислено, что v (О - О2 = h (xi + (d — t) a*) + h (*2 + (* — *) *i\ где #j = 2/г- — zt (i = 1, 2, 3, 4). Учитывая характер области влияния М, имеем р^ (I) = 0 и окончательно получаем шах ]U-^r) V(°~°2 1^1f+T| — Zx (« + (О — 0 Жд) — - Z2 («2 + (ft — 0 а*) ] = 0. (38.33) Очевидно, что максимум выражения, стоящего в левой части (38.33), при [(*! + (#-*) *3)2 + (х2 + (* - t) xtff* ф 0 достигается на векторе 1° с компонентами (xi + (ft - t) *3) (38.34) /0___ 1 [(*1 + (♦ ~ t) Xbf + (** + (♦-*) *4)2]1/2 ' /0==__ (*» + (О - *) Xj) 2 [(*1 + (ft - *) *з)2 + (Х2 + (ft - 0 *4)2]1/2 ' Если же 1(ХХ + (ft - 0 *3)2 + (*2 + (» - t)Xi)*P* = О, то максимум будет достигаться на произвольном векторе 1° единичной длины. Подставляя вектор 1° в левую часть (38.33), получаем уравнение для определения переменной ft в завершенном виде <° W{*. vm, z[*]> = К*1 + (*-') *J* + (*» + № - ') *«)4Vi ~ (0 — г)2 — ft* - v) v 2 = 0. (33.35) Нам известно (см. § 14), что области достижимости G^ (£, у, ft) и G(2) (£, z, '0') объектов т(1) и т(2) суть круги радиусов г(1)= (ft-*)2 (2) (О- О2 = \л 9 » r = v 2 центрами в точках q(01)=={yi + ^-t)ySi y2 + ($-t)Vt- g№2"y|, ?(02)-fl + (^^3, *2 + (ft-*)*4- g(^4'}.
336 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII Учитывая строение областей G^ и G^\ полезно для дальнейшего заметить, что величина ©(О), фигурирующая в левой части уравнения (38.35), есть не что иное, как расстояние между точками q^ и д?2) (рис. 38.1), равное расстоянию между центрами кругов д^ и q(^\ Рис. 38.1. уменьшенному на величину разности их радиусов (г^ — г^), то есть <° (% vM. *М> = И $' - <2) И - (r(1) ~ г(2))- (38.36) Теперь осталось вычислить, пользуясь условием максимума (38.10), экстремальные стратегии Ue и Ve, Эти вычисления уже были проделаны со всеми подробностями в § 14, в результате чего там было получено следующее: если величина со (ОЬ , (38.36) строго больше нуля, то для таких позиции {t, у [*], 2 [*]} экстремальные воздействия определяются единственным образом и имеют вид ие = ^°» ^ = v/°> (38-37) где вектор Iй определен соотношениями (38.34). Если же со (®ht vm zmi ^ ®' Т0 вектоРы ие и ve Для т^ких позиций суть про-
§ 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ №7 извольно направленные векторы, но не превосходящие своей длиной чисел fi и v. Покажем теперь, как в дискретной схеме реализуется найденная экстремальная стратегия Ue, если, например, мы желаем смоделировать процесс преследования на ЭЦВМ. Пусть t = xk (к = 0, 1, ...; т0 = f0, т^ — %k = А) — дискретные моменты времени, в которые на ЭЦВМ происходит формирование экстремального управления ид [xk]. Опишем для рассматриваемого примера алгоритм построения этого управления. Пусть в момент времени t = xh в системе 2 реализовалась некоторая позиция игры {тд, у [tjj, г [TjJ}. Для определения управления ид [tjj прежде всего надлежит определить вспомогательную невозрастающую переменную Фд [tjj, которая в соответствии с материалом § 34 находится из равенства #А fTft] = min l*A [ Vlb **> [Tfcl>» ^A tT°] = **> [T°b где Ъдэ [тй1 — момент поглощения процесса г процессом у, то есть в рассматриваемом случав наименьший положительный корень уравнения (38.35) [(*1 [**] + (• - *») *3 [tfc])a + («» It,] + (О - tt) *4 [*fc])2]1/2 - — (I* - v) 2"JL—= 0. (38.38) Этот наименьший положительный корень в нашем примере существует, как это следует из свойств функции со (Ф) (38.36), для любой позиции (rft, у [TfcJ, г [тл]>, если только ц > v, что мы и предполагаем. Таким образом, величина Од [xk] не возрастает, то есть ^д ITft] ^^a fTfr-ib причем равенство Од [xk] ='и,д [t^J имеет место в том случае, если момент поглощения 0^ [%к] не меньше, чем величина Од [t^J, вычисленная на предыдущем шаге, а неравенство ^а fTftl <^a fT/c-il реализуется, когда процесс z в момент t = xk поглощается процессом у раньше, чем к моменту t = дд [т/£_1]. Теперь выпишем соотношения, определяющие в рассматриваемом случае управление иА [xh]. В соответствии с материалом § 34 вектор ид1хк] определяется следующим образом. Если наименьший корень Ъ&> [xk] уравнения (38.38) удовлетворяет неравенству ^> [TftK^AlvJ, то есть *д[тк] = ^[тк1 и то в качестве мд [tjJ выбираем любой вектор и из множества %. В частности, для определенности в этом случае можно полагать uAfrjJ = 0. Рассмотрим теперь второй случай: пусть d^>[Tft] > >0A[rftJ. Тогда обязательно будем иметь ^AM(vv[^],ztV>=e°[Ts]>0,
338 ЗАДАЧА ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII ибо fi)(Tk){v^k].^fc]}>° и O^tT/J — наименьший положительный корень уравнения (38.38) (рис. 38.2). Следовательно, в этом случае надлежит определить экстремальное управление ид [tfe], прицеливающее движение у [t] в точку касания границ областей достижимости 0%х1}{ггу[хк]^А[хк]) и G<»(Tk, *[тк], Од [tfc]). Это управляющее воздействие здесь определяется равенством (38.37), а>№ <Ь,ИЫ,гМ> 4/W Рис. 38.2. где вектор 1° находится из формулы (38.34), в которой только положено t = Tfcf О = Ф д [rft], «| [т*] = у4 [ть] — zj [xfe]. Приведенное построение продолжается до тех пор, пока оказывается О д [хк] > > xfe + Д. С целью иллюстрации на рис. 38.3 представлены некоторые реализации процесса преследования для объектов т^ и т^2\ смоделированные на ЭЦВМ по указанному алгоритму. В исходный момент t0 = О объекты т^ и т^ находились в позиции t0 = 0, Уо- 0 о о L0J о 15 5 -5 -1 (34.39)
§ 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ 339 При этом было выбрано \i = 60, v = 60 — 101^5, g = 10. Пунктирными линиями на рис. 38.3 изображены траектории- объектов в случае использования ими экстремальных стратегий Uе и V'е. Встреча происходит тогда в момент Ь^ [*0] = 1. Точечные кривые отвечают траекториям объектов, когда соответствующий партнер отклоняется от экстремальной стратегии. Если же партнер придерживается экстремальной стратегии Ue или Vei то соответствующая траектория изображается на рис. 38.3 сплошной линией. Так, пара Рис. 38.3. траекторий, идущих вверх, отвечает стратегиям U — Uey V = V где последняя означает, что уклоняющийся объект направляет вектор максимального управляющего воздействия по прямой, соединяющей точки т№ и mS2\ в сторону от преследующей точки т^К Такой способ действия убегающего приводит к встрече в момент t = 0,97 <#,#> [t0] == 1- Пара траекторий, идущих влево, соответствует стратегиям U = Ue и V = V . Последняя здесь означает, что преследуемый объект все время направляет вектор максимальной силы влево, параллельно горизонту. В этом случае встреча происходит еще раньше, а именно в момент t = 0,73. И, наконец, оставшаяся пара траекторий соответствует случаю, когда преследуемый руководствуется экстремальной стратегией Ve, а преследователь в каждый момент времени t направляет вектор управляющей силы
340 ЗАДАЧА ОВ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. VIII наибольшей величины по прямой, соединяющей точки то*1* и т^ на убегающую точку. Здесь встреча не осуществляется во время 0 = t0 < t < u^Uol = 1« Однако этот факт не означает, как мы уже знаем из § 36, что экстремальная стратегия V е и есть стратегия уклонения, обеспечивающая преследуемому возможный наилучший результат. Способ построения возможной наилучшей стратегии уклонения — смешанной экстремальной стратегии — приведен в эффективной форме для однотипных объектов в настоящем параграфе. Сейчас мы как раз и продемонстрируем на рассматриваемом примере этот способ построения. Выпишем для вашего примера соотношения, определяющие смешанную экстремальную стратегию Ve{tt у, г\ a, f0, у0, z0}. Как показано выше,эта;стратегия характеризуется контингенциями (38.22), где V* е (t, у, г\ а, £0» 2/о> zo) — множества векторов ^удовлетворяющих условию максимума (38.23). Таким образом, для определения множества V*е надлежит прежде всего найти вектор ~s (t) (38.24). Все величины, входящие в правую часть равенства (38.24), были получены выше: функция ® 0&)/*, г/[*1, z[m определена соотношением (38.36), вектор s (t) задается равенством (см. (14.13)) •[*, У.*.*] = ч (3S.40) где /J, #> вычисляются по формулам (38.34), наконец, напомним, что ^#> (*о> 2/о» zo) — наименьший корень уравнения (38.35) при {*! yU], г [t]} = {*0, у0, г0}, и а > 0 сколь угодно мало. Подставляя все эти величины в формулу (38.24), получим интересующие нас компоненты вектора £«/-(*., Го, Zo—а) «£(*)= \ (»-*)(ж1+(*-0^8)х X [(XI + (О - t) xzf + (хг + (*-«) **)TV* X X {[On + (♦ - *) хъ? + (** + (•-*) *)*]1/в - (|i - V) (%*)2 }~2« *(*) = \ (0 — 9(а* + (Ф —*)ж*)Х X [(*i + (*■ - 0 *з)2 + (а* + (*-*) «4)2]"Vi {[(*i + (* -.0 *з)2 + + (Х2 + (♦-«) *.«*'• — (I* —v) ii^lj"2 d Д>,
§ 38] СЛУЧАЙ ОДНОТИПНЫХ ОБЪЕКТОВ 341 Учитывая далее, что множество V в рассматриваемом случае задается соотношениями (14.4) , из равенства (38.28) имеем €?в(*. У, 2; a, tQ,y0, z0)-- если = 0,0,-7= vs3 (t) vs* (t) Y~4 w +4 w' A2 <*> +75 wIf ^3 (*) +~*l (0^0 и tf^ (t, г/, *; a, *0f y0f z0) = ^, если Найденная таким образом в нашем примере смешанная экстре- мальная стратегия Vе была реализована на ЭЦВМ в паре с тем самым управлением м7^(36.6), которое было использовано в § 36 в паре с экстремаль- J/гф -0,75 -0,5 -0,25 t=0[ ной стратегией Vе в целях дискредитации правила экстремального прицеливания как способа наилучшего уклонения преследуемого объекта. Процесс преследования был смоделирован для той же самой исходной позиции (36.4), что и в § 36. при тех же значениях \i и v. Было положено a = 0,01. Реализовавшиеся траекто рии точек т(1) и т^ изо бражены на рис. 38.4. Теперь уже (сравни с рис. 36.4) встреча не происходит во всяком случае Д' момента t — 1,47=d^>[ t0]—a. Для того чтобы процесс преследования все-таки завершился встречей, первый партнер, начиная с момента t = 1,31, перешел на экстремальное управление ue[t]; второй партнер при t > t также придерживается экстремального управления ие [t]. Момент t характеризуется тем, что функция со = ~®(®)г , * приг=£ впервые становится монотонной функ- цией переменной О. Между прочим, заметим здесь, что управление ГЩ>^ (36.6), смысл которого в § 36 оставался в тени, получается Рис. 38.4.
342 ЗАДАЧА. ОБ ОПТИМАЛЬНОМ УКЛОНЕНИИ [ГЛ. Vllt как и управление^, диктуемое смешанной экстремальной стратегией Vе, из условия максимума (38.23). Итак, мы получили полное решение рассматриваемого примера как с точки зрения интересов преследователя, так и с позиций уклоняющегося объекта. Заметим, наконец, что найденные стратегии Ue n Ve доставляют аппроксимационную седловую точку рассматриваемой игры в смысле выполнения соотношений (38.29). Упражнение 33.1. Доказать теорему 311. Упр аж^ение 38.2. Рассмотреть задачу преследования и уклонения для объектов, описываемых уравнениями У\ = */з> Уг = Ун Уз = <*Уз + uv Ш — <**/4 + Щ* ii = 23, i2 = z4, z3 = Pz3 + *>з> i\ - Pz4 + t>4> при условии, что область влияния Ж ({у}2) точки у задана неравенствами U ~ Уг)2 + [9, - У,Р <12 (1> 0). (38.41) а управления и и v стеснены условиями и% + и\ < (i", v\ + v\ < v». (38.42) Проверить работоспособность стратегий Ue, Uei U^\ U\ ^ для преследователя и стратегий Ve, V^ для преследуемого. Упражнение 38.3. Рассмотреть задачу уклонения для объектов, описываемых уравнениями Ух = Уз' Уъ = J/4» У* = из> Ш = и4, ^1 === V3> Z2 = У4> при условии, что управления и и v стеснены неравенствами (38.42), а область влияния Ж ({у})2 точки у задана неравенством (38.41). Упражнение 38.4. Рассмотреть задачу об уклонении для однотипных объектов при значении коэффициента подобия Р > 1. Для позиции {t0J x0}, для которой не существует конечного момента поглощения Ф^, проверить возможность построения смешанной экстремальной стратегии Ve, которая обеспечила бы уклонение движения z [t] от встречи при всех t > t0.
ГЛАВА IX РАЗНЫЕ ЗАДАЧИ § 39. Стабильная игра преследования В этом параграфе мы снова рассмотрим задачу о преследовании, поставленную в § 31, и укажем некоторые новые (по форме) достаточные условия, при выполнении которых преследование завершается вполне удовлетворительно к моменту поглощения t = ft^{t0,y0, zo) процесса z It] процессом у It]. Итак, рассмотрим управляемые движения у It] и z[t], описываемые уравнениями (31.1) и (31.2), причем управления и и v стеснены стандартными ограничениями u[t]&<U, v[t\^V (39.1) (для упрощения полагаем, что % и V в (39.1) не зависят от t и параметры уравнений (32,1) и (31.2) — постоянны). Задача преследователя (у [t]) опять будет состоять в том, чтобы захватить точку {zU]}m в область влияния М ({у[Щт) точки {у [t]}m (см. § 31, стр. 274—275). При этом область влияния М({у lt]}m) мы снова зададим при помощи некоторого ограниченного выпуклого множества SP (см. выше § 31, стр. 274—275). В §§31—35 были описаны способы построения управления и, которые обеспечивали сохранение области достижимости GW(t, z It], ft) движения z[t] в произвольно малой е-окрестности G^ области «^-достижимости» G*$ (t, у It], fl>) движения y[t]. (Здесь ft = <6> (tQ, y0, z0) — момент поглощения процесса z (31.2) процессом у (31.1) (см. § 33, стр. 294).) Был выделен регулярный случай игры, когда такое сохранение вложения G(2)(*, z [*], О*) с G™*(t, у [*], M (39.2) действительно, можно осуществить для всех t^ft^ за счет экстремального прицеливания щ It]. Тем самым в
344 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX регулярном случае была проверена возможность ^-сближения движения {у lt]}m с движением (zM}m к моменту t = ft < fl>. Теперь мы также будем конструировать управление и, руководствуясь желанием сохранить упомянутое вложение (39.2), однако подойдем к делу несколько иначе, чем в §§ 31—35. Именно, в число аргументов, определяющих управление ц, мы включим теперь еще одну величину £, имеющую смысл некоторого запаздывания (или опережения) по времени. (Смысл этой величины £ станет ясен из дальнейшего изложения.) В этом параграфе мы на базе упомянутого сдвига по времени £ построим подходящую аппроксимационную стратегию UiA) {t, у, z, ft, £}, а в следующем параграфе формализуем аналогичный способ управления в рамках дифференциальных уравнений в кон- тингенциях. Введем сначала одно определение. Пусть для какой-то реализовавшейся позиции {^, у UJ, z It J} при некотором значении ft ^> £# выполняется включение G(2) (*., * [U, О) с G^(*., у [*.], ft). (39.3) Предположим, что преследуемый объявил преследователю свое будущее движение z It] на некотором отрезке времени ^ ^ t <! t0 + А (А > 0) и, следовательно, пре-. следователь может определить в момент t = t0 заранее, какой окажется область GW (t0 + A, zlt, + A], ft). Тогда возможны два случая: либо преследователь может подобрать допустимое управление u^(t) ЕЕ %t (t^^t^ t^+ A), которое переведет движение y(t) (31.1) из состояния у UJ в состояние у^ (t# + А), удовлетворяющее условию G(2) (t. + A, * [*. + А], Ф) с G^ (t. + А, ^ (*, + А), О) (39.4) при том же е, что и в (39.3), либо такой возможности у преследователя не окажется. Если всякий раз при А ^ ft — tm будет иметь место первый случай, то скажем, что процесс z поглощается процессом у стабильно. Итак, условимся о следующем наименовании. Определение 39.1. Скажем, что процесс z поглощается процессом у стабильно, если для всех доста-
§ 39] . СТАБИЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 345 точно малых значений А > О выполняется условие: каковы бы ни были t0, У UX *[**]> * > **» 0 < е < а0, удовлетворяющие условию (39.3), для любой возможной реализации z It] (^ < t < tm + А <! &) движения zlt] среди допустимых управлений и (t) ^% {t^^t^ < tn + А) можно найти управление^ (t), которое переводит движение y(t) из состояния у UJ в состояние уД^ + А), удовлетворяющее условию (39.4) (при том же самом значении е). Из результатов §§ 31—35 следует, что условие стабильности поглощения процесса z процессом у обязательно выполняется в регулярном случае игры. Мы рекомендуем читателю проверить в качестве упражнения, существуют ли такие случаи стабильного поглощения процесса z процессом у, которые тем не менее не являются регулярными случаями игры. Теперь перейдем к построению обещавдой в начале параграфа аппроксимационной стратегии ?7еЛ){£, у, z,®, £}, которая окажется работоспособной в случае стабильного поглощения процесса z процессом у. Следуя известной уже нам схеме построения аппроксимационных стратегий СДА) (см. §§19 и 35), мы будем рассматривать реализации и It] управления и, сохраняющие постоянное значение на полуинтервалах т. <! t<C*i+i (t0 = £0, Тщ — т.= = А > 0) ид [t] = uA [т4] (t4<*<ti+l). (39.5) Будем говорить, что некоторый способ выбора уцрав- ления ua (39.5), оговоренный для всех достаточно малых значений А ^> 0, обеспечивает ^-сближение движений у It] и zlt] к моменту WA> (из позиции {t0, z/0, z0}), если при этом способе управления обеспечивается неравенство suplimsupsupdf'^<<&(A). (39.6) е>0 А-*0 v A Здесь O^i* —- момент времени t > t0, когда при данных реализациях управлений и и v впервые точка {z[*]}m попадает в замкнутую е-окрестность ,Жг ({у lt]}m) области влияния М({у lt]}m) точки {у Ш}т. • Искомая стратегия £ЛЛ) будет определять изменение величины Ф [т.] следующим рекуррентным образом
346 РАЗНЫЕ ЗАДАЧИ £ГЛ. IX (см. для сравнения §§ 34, 35). При т0= tQ полагаем д [т0] = = $&>(t0, £/о> zo)> гДе19> — момент поглощения процесса ^процессом у для исходной позиции {*0, у0, z0). Пусть далее в момент t = xt реализовались величины у [т.] и z [т.]. Определим для позиции {т., у [т.], z [т.]} момент поглощения ч9>(т., у [т.], z [т.]). Если окажется, что &&> (*р У W» 2 [т.])<& [tij, то полагаем * [т.] = = 'fl>(t., 2/ [т.], z[t.]), в противном случае ft [т.] =0 [tw]. Таким образом, стратегия ЕЛД> {£, i/, z,^, ^назначает описанное только что изменение переменной <Ит.], и это изменение, как мы видели, таково, что О [т.] не возрастает с ростом т. и, следовательно, справедливо неравенство #[т.]<^('о, V» *о). (39-7) Далее нам надлежит оговорить выбор значения £, которое назначает стратегия £ДД). При выбранном постоянном значении А ^> 0 величину £ будем также полагать постоянной и примем, что значение £ определяется некоторой функцией | (А), которая удовлетворяет двум условиям lim£(A) = 0 и |(А)>А при Д>0. (39.8) А-Ю Теперь осталось описать построение управляющего воздействия ггд It] (39.5), назначаемого нашей стратегией £/<л>. Пусть реализовались величины у [т.], z[xA, 0[тг]. Среди допустимых программных управлении u(t) (т. <! t< <тг + £ (Л))> стесненных условием u(t)EE:%u найдем такое управление ut (t), которое обеспечивает минимум е% [т.] для величины е, удовлетворяющей условию G(2) (tlf z [tj, d [т*]) c: G^ (t|, yu (t* + g (A)), * [t,]). (39.9) Здесь символ yu(t) обозначает движение y(t), получающееся при каком-то из упомянутых выше программных управлений и (t) и при исходной позиции уи (т.) = = у [т.]. Управление ua [т.] (39.5) мы определим равенством т4+Д ид[т*1 = 4- 5 И*(*)Л" (39Л0)
§ 39] СТАБИЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 347 Итак, мы полностью описали стратегию £ДА) {t, у, z, Ф, £}, ибо указали назначаемые ею значения £ (Д), Ф [т.] и управление uaU] (39.5), (39.10), которое определяет изменение переменной у It] в соответствии с уравнением (31.1) (при и = иА [t]). Справедливо следующее утверждение. Теорема 39.1. Если процесс z поглощается процессом у стабильно, то управление и± (39.10), назначаемое аппроксимационной стратегией UA {t, у, z, Ф, £}, обеспечивает ^-сближение движений у [t] и z [t] не позже, чем к моменту t = О^ (t0, у0, z0). (Предполагается, что при данных у [t0] = у0 и z [t0] = = z0 момент поглощения $&>(t0, y0, z0)< °° действительно существует). Для доказательства теоремы достаточно проверить, что величина е#[т.], которая дает минимум величины е в условиях (39.9), при всех т£^>т0 в случае управления и± U] (39.5), (39.10) остается меньше" любого наперед выбранного числа 80^>0, если шаг схемы А достаточно мал. В самом деле, если ejTj ^е0, to по определению величины е. [т.] (см. (39.9)) заключаем о справедливости вложения Gffl (ть z [х%], О [т4]) с G*\*. (tlf у*. (т, +1 (А)), О [т<]). (39.11) Но вследствие ограниченности функции иф (t) (т. ^ ^ t ^ т. + £ (А)) справедлива оценка где X — постоянная, зависящая лишь от t0, y0, z0 и от параметров уравнения (31.1) и множества % в условиях (39.1). При непрерывном изменении параметра у область G& (t, у, Ф) изменяется непрерывно. Поэтому из (39.8), (39.11) и (39.12) следует, что справедливо вложение G(2)(т„ z [tj,e [т,]) c= G?.\*(tif у [rj, fl [т,]), (39.13) где е* = 8° + а (А), причем а (А) -> 0 при Д-* 0. Моменты Tf возрастают по закону xi+1 = т. + А, а переменная Ф [Т|] не возрастает. Отсюда следует, что наступит такой
348 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX момент времени t = ть когда выполнится неравенство Ф [тч] — т1 <; А. Тогда область G& (т*, у [xj], <Нтч1) окажется лежащей целиком в некоторой е-окрест- ности Л* ({у [ч*]}т) области влияния Л {{yh\]}m) точки {у [Ti;]}m, причем величина е будет сколь угодно мало отличаться от величины 8*, если только шаг схемы А достаточно мал. В то же время область G(2)(ti» z [rll, ЭДтг]) окажется лежащей в произвольно малой окрестности точки {z [ti]}m. Сопоставляя все сказанное, приходим к выводу, что действительно при достаточно малом шаге схемы А наступит такой момент времени t — х% ^ ^'O'ltil, когда точка {z Ы]}т оказывается в произвольно малой выбранной наперед (е0 + е)-окрестности области влияния Л ({i/[Ti]}m) точки {*/[т*]}т, если только e.[*iK*o. (39.14) Вследствие неравенства (39.7) данное утверждение означает, что при осуществлении неравенства (39.14) с произвольно малым е0 теорема справедлива. Итак, для доказательства теоремы 39.1 остается проверить осуществление неравенства (39.14) для выбранного наперед произвольно малого е0. Докажем это неравенство. По выбору Ф [х0] = д^> (£0, 1/0, z0) заключаем, что для любого е0 можно указать достаточно малое А0 так, что будет выполнено неравенство (проверку неравенства предоставляем читателю) e.[T0]<-l-8o- (39-15) Оценим теперь изменение величины е [т.] за один шаг т. -►■ xi+1. Если бы на данном полуинтервале времени т. ^ t < Ti+1 работало управление ищ (t), минимизирующее величину е в (39.9) и доставляющее, таким образом, значение e^lt.] (и переводящее систему (31,1) в некоторое состояние j/ДТг+х)), то из условия стабильности поглощения (39,4) мы вывели бы неравенство MViKM^iJ (39.16)
§ 39] СТАБИЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 349 (при. условии О [т.] = d [т4+1], ибо только этот случай нам достаточно обсудить (установление этого факта предоставляем читателю)). Здесь е^ (Х{+х) — минимальное значение е, возможное в соотношении G(2)(ti+ifz[Tul]f*[Ti+1])cz с G% (т1+1, уи (ri+1 + Б (A))f * [ti+1]), (39.17) где г/м (ti+1) = J/, (xi+1) (см. выше стр. 348). Проверим справедливость неравенства (39.16). В самом деле, пусть осуществилась какая-то реализация z [t] (т4 ^ t <! ti+1), и пусть уп (т. + Б (Д)) — то значение фазового вектора у, которое реализовалось бы в системе (31.1) при управлении ит (t), доставляющем величину е^ [т.], иначе говоря, Уф (тг + Б (А)) удовлетворяет условию G(2) (tlf % [rj, О [т,]) cz G%,.^ (xu y, (tf + g(Д)), О [tj). (39.18) Следовательно, по условиям стабильного поглощения процесса z процессом у (39.3) и (39.4) можно найти такое управление и„ (t) (xt + Б (А) < * < tf + Б (A) + А), которое переведет движение i/ (£) (31.1) из состояния У = Уф (т* + Б (А)) в состояние у = у„ (хг + | (А) + А), удовлетворяющее условию С(2)(т4 + Д,*[т4 + Д],А[т,])с= с G^.],^(т, + Д, у„ (т4 + Б(А) + А), * [т,]). (39.19) Но ведь состояние у = j/## (tf + | (А) + А) можно получить из состояния у = j/# (xf + А), выбирая на отрезке xi+1 <^ t < т4+1 + Б (А) управление т-1и*® при Т^1 = Т1 + Д<^<Т£ + Б(А), uW~W„(*) ДРИ т4 + Б(А)<«<т4 + Б(А) + А. (39.20) Итак^з (39.19) мы заключаем, что для любой возможной реализации z [т;П1 можно подобрать управление и (0 Ы+г < t <I Ti+X + I (А)) (39.20), которое переводит
350 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX систему (31.1) из состояния у = у* (ti+1) в состояние У = У** (Ti+i + £ (А))> удовлетворяющее вложению (39.19). Но при условии Ь [%i+1] = Ф [т.] вышеизложенное означает, что е# (*ti+1) = min e в условии (39.17) удовлетворяет неравенству (39.16). Таким образом, неравенство (39.16) действительно справедливо. Однако на деле у нас вместо управления и^ (t) на полуинтервале %i ^ t < xi+1 работает управление ид [t] = = #д [т.] (39.10). Но нетрудно проверить, что замена управления и^ (t) на управление ид It] изменяет значение 8* (Ti+i) лишь на величину о (А), порядок малости которой выше, чем порядок малости величины А. Следовательно, действительное значение е^ hi+1] удовлетворяет неравенству k(Ti+1)-e.[*i+ili = o(A), (39.21) и важно подчеркнуть, что оценка (39.21) равномерна по i> 0. Но тогда из (39.15) и (39.21) сразу следует нужное нам неравенство (39.14), справедливое при всех достаточно малых значениях А. Тем самым теорему 39.1 можно считать доказанной. Для осуществления управления uaU] (39.5), (39.10) надлежит уметь вычислять управление и^ (t), которое доставляет минимум величине е в условиях (39.9). Но это есть обычная задача о программном управлении и^ (t) на отрезке xt ^ t ^ т* + ?• (А), которое минимизирует величину г(у(т{ + £(А))) на движениях системы (31.1) при ограничении и (t) ЕЕ %t и при заданном исходном состоянии у (т|) = у [т|1. Здесь символом г (у) обозначено наименьшее значение е, которое удовлетворяет условию G(2) (т«, zIt,], в [т,]) с G&. (т4, у, О [т,]) (39.22) при каком-либо фиксированном значении у. Мы знаем (см. равенство (23.21) в § 23), что величина е (у) изображается равенством е (у) = max(pW (tt, * [т«], I) -pW (tlf * [т<],J) - . - р(*> «- V ({Y. (0, tt) y}m - {Z (О, т{) z [T,]U). (39.23)
^ 40] ОБОБЩЕННОЕ ЭКСТРЕМАЛЬНОЙ УПРАВЛЕНИЙ 351 Таким образом, задача определения ид [т$] сводится к задаче о минимуме функции е (y(%i + I (Д)))> заданной равенством (39.23). Решение этой задачи известно (см., например, [7*], стр. 313—318). Оно существенно облегчается тем обстоятельством, что поверхности уровня 8 (у) = = А, = const функции (39.23) отграничивают выпуклые множества Жх в пространстве^}. (Проверку этого утверждения мы предоставляем читателю.) Сделаем окончательные выводы: мы дали определение стабильности поглощения процесса z (31.2) процессом у (31.1) и показали, что при этом условии стабильности существует аппроксимационная стратегия UiA\ которая обеспечивает ^-сближение движений y[t] и z[t], как бы ни действовал второй игрок. Эта стратегия назначает управление ид [t] (39.5), (39.10), значение которого определяется путем решения задач о некоторых программных управлениях гг# (г), минимизирующих функцию е (уи (т. + £ (А))) (39.23), поверхности уровня которых выпуклы. Упражнение Г 9.1. Доказать или опровергнуть утверждение: всякий случай стабильного поглощения процесса г процессом у является одновременно регулярным случаем игры преследования. Упражнение 39.2. Исследовать предельные значения управления иА [t] (39.5), (39.10) при Д->0в регулярных случаях рассматриваемой игры преследования и сопоставить эти значения с экстремальным управлением ue[t]. Упражнение 39.3. Исследовать предложенную схему формирования управления иА [t] при ослабленном условии стабильности, когда требования определения 39.1 выполнено лишь при 8 = 0. § 40. Обобщенное экстремальное управление В этом параграфе мы проведем формализацию в рамках дифференциальных уравнений в контингенциях той аппроксимационной стратегии Ui , которая была построена в предыдущем параграфе. Для разнообразия мы сделаем это уже не для игры преследования одного объекта (z [t]) другим (у Ш), а для игры наведения фазовой точки х [t] на заданное выпуклое многообразие Л в пространстве {#}. Уже неоднократно отмечалось (см. выше §§ 8, 23), что задачи эти различаются лишь по форме их постановки и при желании легко сводятся одна к другой.
352 разные задачи [гл. ix Итак, рассмотрим динамическую систему 2, которая описывается дифференциальным уравнением ± = A (t) х + и — у, (40.1) где управления и и v стеснены стандартными ограничениями И*]е%-, И^еП (40.2) Кроме того, в fe-мерном фазовом пространстве {х} задано выпуклое замкнутое множество Л. Задача первого игрока — вывести точку x[t] на множество Л. Задача второго игрока — препятствовать выведению точки х It] на множество Л. Выше уже отмечалось, что без существенного ограничения общности множество Л можно полагать ограниченным (см. § 23), что мы и примем в дальнейшем. Наша задача — указать стратегию Ul {t, x\ t0l x0), которая гарантировала бы успешное окончание игры для преследователя к моменту t = Ф <! $&(t0, x0), то есть указать стратегию Ue{t, x\ t0, #0}, которая обеспечивала бы приведение точки х [t] на многообразие Л к моменту t = Ф ^ 0> (£0, х0) в стабильном случае игры. Здесь <)>• (£0, х0) — момент поглощения множества Л процессом х (40.1). В Соответствии с определением 33.1, перенесенным на случай игры наведения, величина д*> (£0, х0) имеет следующий смысл. Определение 40.1. Рассмотрим движения х (т) (х (t0) = x0)s подчиненные уравнениям : *L = A{x)x + u-v, ■■ (40.3) где управления или стеснены условием и(т)ё% ^(t)Gf,. (40.4) Назовем момент Ф = Ф^о, аг0) (первым) моментом поглощения множества Л процессом х (40.1), если Ф = = $&> fa, х0) — наименьшее из значений Ф > £0, удовлетворяющих условию: для любого допустимого управления КтО^о^т^Ф)* удовлетворяющего условию (40.4), можно указать допустимое управление и (т) ,(*о ^ т ^ Ф), также удовлетворяющее условию (40.4) и такое, что данная
§ 40] ОБОБЩЕННОЕ ЭКСТРЕМАЛЬНОЕ УПРАВЛЕНИЕ 353 пара управлений и (т) и v (x) приводит движение х (т) (40.3) к моменту т = Ф в состояние х (Ф) ЕЕ «i£. Далее в соответствии с определением 39.1 нам надлежит определить стабильный случай игры наведения. Пусть W (*,, #) (^ ^ О) — множество в пространстве {#}, заданное условием: х = х^ G W (*,, О), тогда и только тогда, когда для любого допустимого управления v (т) (40.4) (£„ ^ т ^ Ф) можно подобрать допустимое управление и (т) (40.4) (t0 ^ т ^ 'в') такое, что данная пара управлений и (т) и v(r) приводит движение oc(x)(x(ti)=xJ (40.3) к моменту т = д в состояние я('б') ЕЕ JL. Очевидно, W(0, d) = Ж Определение 40.2. Скажем, что множествоМ поглощается процессом х стабильно, если для всех достаточно малых значений А >• 0 выполняется условие: каковы бы ни были ^ и x[i0] = #, (А* ^ £ф + А), удовлетворяющие условию *фе«Г(*.,Ф), (40.5) для любой возможной реализации v [t] ЕЕ W% (tf, ^ t ^ <! ^ + А ^ д) среди допустимых управлений и (£) е Е^(^<К^ + А) можно найти управление и(£) такое, что данная пара управлений u(t) и у[£] переводит движение x(t) (40.1) из состояния x[tj = x^ (40.5) в состояние x(tt + А), удовлетворяющее условию *(*. + A)eW(*. + A,0). (40.6) Теперь перейдем к построению обещанной стратегии Ue {t, x] t0l x0}, которая оказывается работоспособной в случае стабильного поглощения множества М процессом х [t]. Эта стратегия, как и экстремальные стратегии из §§ 23, 24, обобщением которых она является, будет задавать управление u[t] в форме контингенций ult] ^%l{t, x[t]\ t0, x0). (40.7) Множества %l (t, x\ t0, x0) в принципе строятся весьма просто следующим образом. Определим для начальной позиции {t0, х0} момент поглощения fl>(£0 »#<>)• (Мы предполагаем, что момент этот $> (t0, х0) << ©о 12 H. Н. Красовский
354 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX существует.) Далее мы можем:выполнить неособое линейное преобразование х* = X (fl>, t) x* которое преобразует уравнение (40.1) к виду. где управления и* и v* стеснены условием причем %twVt суть множества, составленные из векторов и* и v* вида и* = X [<fl>, t] и, v* = X [fl>, t] v, где и ее %t и v Ez Wf Будем полагать в дальнейшем, что такое преобразование выполнено, однако во избежание излишних знаков сохраним для переменных и, v и множеств %t и Wt старые обозначения без звездочек, полагая, таким образом, что в уравнениях (40.1) матрица A (t) = = 0. Строение множеств Це (г, х\ t0, Xq) определится теперь положением позиции {£, х} относительно множеств W (*, ^ (to, %o))- Именно, если *е^(*,<М*о,*о)), то %l(t,x;t0,x0) = %t. (40.8) Если же х не содержится во множестве W (t, $&> (*0» #о))> то поступаем следующим образом: рассмотрим наименьшую замкнутую е-окрестность Wz*(t, ^(^о? #о)) множества W(t, -в1^ (t0, x0)), которая содержит точку х, лежащую, следовательно, на границе области W8o(£, $&> (t0, x0)). Важно заметить, что множества W(t, §&) суть множества выпуклые (см. ниже лемму 40.1). Поэтому через точку х можно провести единственную гиперплоскость X (s°), касательную к границе множества W&, {t, ®&> (t0,x0)) (рис. 40.1). Здесь символом s° обозначен вектор внутренней нормали к границе области W4 в точке х. Теперь в качестве множества %Qe (t, x\ t0, x0) мы выберем совокупность всех к -мерных векторов и = иЦееЭД*, которые удовлет-
§ 40] ОБОБЩЕННОЕ ЭКСТРЕМАЛЬНОЕ УПРАВЛЕНИЕ 355 воряют следующему условию максимума: sQ'u°e = max 5°'гг. (40.9) Условие (40.9) мы будем называть обобщенным условием экстремального прицеливания (см. ниже упражнение 40.1). Рис. 40.1. Таким образом, построение множеств %\ (t, х\ t0, x^n определяющих стратегию U°e {t, x; t0, x0}, оговорено нами для всех t < d^> (t0, х0). Строить эти множества для t > -в1^ (г*0, х0) нет нужды, так как согласно доказываемой ниже теореме 40.1 данная стратегия U^{t, x\ t0lx0\ обеспечивает выведение точки x[t] на множество Л, при t = Ф ^ -6> (t0, x0). Однако, прежде чем обратиться к упомянутой теореме, мы обсудим некоторые свойства множеств W (t, #). Лемма 40.1. Множества W{t, d) суть ограниченные замкнутые и выпуклые множества. Докажем лемму. Из материала §§ 24 и 39 мы знаем, что множество W (t, ft) можно определить следующим условием: точка содержится во множестве W (t, $) тогда и только тогда, когда для нее выполнено условие 12*
356 РАЗНЫЕ ЗАДАЧИ СГЛ. IX (см. стр. 215, 350) max(p<2>(*,<M) —pW^O, /)-р<*>(Z)-/'*)<0 (40.10) Ц11И1 или, иначе, условие р(«) (*, д, 0 - p(D (*, *, Z) - р<^> (0 - Г х < 0 (40.11) при всех I. Однако ясно, что если условие (40.11) выполняется для х = #(1) я х = х&\ то оно будет выполнено и для любого х = Ы^ + (1 — Х)х^ (0 < Я < 1). Этим устанавливается выпуклость множеств W* Ограниченность и замкнутость множеств W мы предлагаем проверить читателю в качестве упражнения. Далее нас будет интересовать зависимость множеств W(t,fH) от аргумента t (при t^ft^,). Будем говорить, что множества W(t, $>) непрерывны в точке t = ^ справа, если для любого е > 0 можно указать число Д(^,е)]>0 так, что справедливы вложения W (*., М с: Шг (К + Д. **) (40.12) и W (*ф + А, Ф*) с: <Ге (*., ф*) (40.13) при всех 0 ^ А ^ А (£„,, е). Если при этом еще выполняются вложения W (*, -A,^)cf£ (*., **) (40.14) при всех 0^А^А(^, е), то будем говорить, что множества W (£, $&») монотонно не убывают в разрывах. Справедливо следующее утверждение. Лемма 40.2. Множества W (t, Ф^) при всех t0 ^ ^ t <С $&> (*о> #о) непрерывны по t справа и монотонно не убывают в разрывах. Для доказательства леммы прежде всего надлежит заметить, что в нашем случае множества W {t, fl>) не пусты при всех t0 ^ t ^ #&>. В самом деле, множество W {t0l Ф^) непусто, ибо оно содержит исходную точку х0. (Напомним, что мы предполагаем существование момента поглощения $> < оо.) Далее из условия стабильности
§ 40] ОБОБЩЕННОЕ ЭКСТРЕМАЛЬНОЕ УПРАВЛЕНИЕ 357 поглощения (а это условие мы также предполагаем выполненным) следует, очевидно (см. определение 40.2), что если непусто множество W (t^, f)>), то не пусто и множество W (t+ + А, *0>) при любом А е [0, А0]. Отсюда и вытекает, что все множества W (£, $<&>) при t0 ^ t ^ $& непусты. Далее, исходя снова из условия стабильности поглощения, нетрудно проверить, что для любого е ^> 0 можно указать А(е) > 0 такое, что обязательно будут справедливы вложения (40.12), (40.14) каково бы ни было t^EE. lt0, fl>] и 0 ^ А ^ А (е). При этом важно подчеркнуть, что число А (г) можно выбрать не зависящим от t^. Но теперь при условиях (40.12) и (40.14) непрерывность W(t, •{)>) в какой-либо точке t = tm справа может нарушиться только тогда, когда найдется последовательность чисел Д. > 0 (i == 1, 2,...), сходящаяся к нулю и такая, что справедливы соотношения ^ (*. +А*, д*)(£<Г. (*.,**.) (40.15) для какого-то положительного е. Обсудим эту возможность. При выполнении (40.15) можно указать подпоследовательность точек х№ G= Е? W (*„ + А{., "А>), сходящуюся к какой-то точке х^ не лежащей в W {t^ ty^). Но согласно условиям (40.11) точки #(V будут удовлетворять неравенствам р<« {tm + Aip О^, I) - p(D (*. + At., ^, Z) - Pw (Z) - — *'я(9<0 (40.16) при всех Z. Вследствие непрерывности всех функций в левой части (40.16) по t из (40.16) заключаем, что предельная точка будет удовлетворять условию Р(2)(^, W)-P(1)(*.,<U Z)-p(^)(Z)-ZX<0 (40.17) также при всех Z. Но последнее неравенство означает, что ^Gf '(**» •в1^»). Полученное противоречие и доказывает невозможность (40.15), а отсюда в свою очередь вытекает непрерывность множеств W (t, 'Ov) по аргументу t справа. Скажем теперь, что множества W {t, <)>) в точке t = ^ непрерывны слева, если для любого е ^> 0 можно указать
358 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX число Д^, s)^>0 так, что справедливы вложения (40.14) и W (*„ <Ы с: <ЮГ« (*. - Д, <М (40.18; при всех 0 ^ А <! Д(^, г). Справедливо следующее утверждение, которое мы рекомендуем проверить читателю: множества W (£, ч9>) при всех to^t^^it^ х0) непрерывны слева. Итак, мы видим, что множества W (t, 'flv) зависят от аргумента t непрерывно при всех t ЕЕ lt0, fl>]. Однако в таком случае мы должны заключить, что и вектор s° из условия (40.9) в области 8° (£, х; t0l x0) > 0 при всех t зависит непрерывно от позиции {t, х} (доказательство предоставляем читателю). Но тогда согласно лемме 15.3 заключаем, что множества %l(t, x\ £0, х0) при всех t e ltQ, ^1 полунепрерывны сверху по включению относительно изменения t и х. Отсюда вытекает, что стратегия Ue допустима в области t <C ^» так как можно доказать существование абсолютно непрерывной функции х It] (x[t0] = х0, f0 ^ t <; $>), которая удовлетворяет уравнению (40.1) при почти всех t е= U0, Ф^], где и = ult] выбрано в соответствии с контингенцией (40.7), какова бы ни была допустимая реализация v It]. Справедливо следующее утверждение. Теорема 40.1. Если процесс х (40.1) поглощает множество Л стабильно, то обобщенная экстремальная стратегия Ul {t, х\ t0J х0} обеспечивает приведение движения x[t] (40.1) на множество JI не позже, чем к моменту времени t = Ф ^ ^о (t0, х0). Для доказательства теоремы достаточно проверить, что функция е°Ы = е° (t, х It]; t0, x0) не возрастает вдоль движения x[t], порожденного контингенцией(40.7), какова бы ни^была допустимая реализация vlt]. Здесь символ 8° (t, х; t0J x0) обозначает евклидово расстояние от точки х до множества W (t, $). Но из свойств множеств W (t, Ф), установленных выше, вытекает, что функция e°[t] непрерывна. Действительно, множества W (t, O^) с изменением t меняются непрерывно и функция х It] абсолютно непрерывна. Нам надлежит доказать, что данная непрерывная функция 8° [t] удовлетворяет равенству е° [t] = 0 (£0 *С ^£*СО^о). Предположим от противного, что в кацой-то
§ 40] ОБОБЩЕННОЕ ЭКСТРЕМАЛЬНОЕ УПРАВЛЕНИЕ 359 момент t = t* имеем е° It*] > 0. Так как е° [t0] = 0, ибо x[t0]£W (to,$<£p), то найдется интервал тв< t< t*, на котором все время е° [t] ^> 0, причем 8° [тJ = 0. Однако, как показано ниже, на таком интервале функция е° [t] должна быть функцией невозрастающей. Но это противоречит условиям е° [Г] ^> 0 и е° [tj = 0. Противоречие доказывает нужное нам равенство е° [t] = 0 (t0 <^ ^ t <[ $&>), Таким образом, осталось проверить, что функция е° [t] не может возрастать на тех интервалах, где она положительна. Для этого достаточно показать, что ее правое верхнее производное число при условии е° [t] ^> ^> 0 является величиной неположительной. Рассмотрим поэтому какую-нибудь точку t= t^ где функция в0 It] положительна. Покажем, что в этой точке действительно справедливо неравенство (^Т-)Ц<«. .<«■"> которое является прямым следствием условия стабильности поглощения множества Ж процессом х. (Символ (de° Itydt)^* означает правое верхнее производное число функции e°U] в точке t = t^.) Итак, пусть е° It J ^> 0. Составим приращение функции Ae°UJ=e°[^ + Д] — е° It J за время А при условии, что на отрезке t0 ^ t ^ t + A работало управление и It] — ul It], порожденное контин- генцией (40.7), и какое-то допустимое управление v It]. Мы знаем, что расстояние e°[t] отточки xlt] до выпуклого множества W (t, $>) изображается равенством е° [t] = max (l'x It] — p# (t, Z)), (40.20) IIMNi где p% (t, I) — опорная функция множества W (t, $&>). Таким образом, Де<> [tj = Z°' [^ +. A] x [tt + Д] - p. (t. + A, Z<> [K + + A]) - W IK] x [tj - p. (*., Z<> [K])i (40.21) где символ l°[t] обозначает вектор Z, максимизирующий правую часть в (40.20). Наряду с функцией z°[t] мы рассмотрим еще функцию г° (t) = е° (t, x (t)), порожденную тем движением х (t) (x (tj = x \tj) (40.1), которое вынуждается на отрезке t^ < t ^ tm + А тем же самы*
360 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX управлением v [t] и таким управлением и (t), которое по условиям стабильного поглощения сохраняет точку х (tm + А) в области Wtyj (*„ + А, 0^>). Имеем ео (t, + A) «max (l'x(h + A) - Р* (*. + А, 0) = >/о'^ + А]^(^4-Д)-рЛ^ + А,/о^ + Д]).(40.22) Так как по смыслу функции &°(t) справедливо неравенство в°(*. + Д)< е° (О = е° [*,], то из (40.22) выводим следующее неравенство: /о' [t, + А] х(t, + А) - р. (*. + A, I» [t, + А]) - - [Р It.] х [*.] - р, (*., /о [*.!)] < 0. (40.23) Оценим теперь разность | - F {tt + Д] ж р< + А] - *»' [^ + Д] ж ^ + Д) = = 1°' [t, + А] (х [t, -Ь А] - х (t, + A)). (40.24) В силу уравнений движения имеем *[*. + Д]-а:(*ф + Д)= $ (и5[*1-и(*))Л. (40.25) К Учитывая, что функция и° It] удовлетворяет условию максимума — Z°' [t] u°e [t] = max (— Z0' [t] и) (ибо l°ltV= —s°) в соответствии с (40.9)), а также учитывая непрерывность вектора l°[t] в точке t=t0, можно из (40.24) и (40.25) получить оценку I < о (А), (40.26) где о (А) — бесконечно малая более высокого порядка, чем А. Но из (40.26), (40.23) и (40.21) вытекает неравенство Де° UJ < о (А),
§ 40] ОБОБЩЕННОЕ ЭКСТРЕМАЛЬНОЕ УПРАВЛЕНИЕ 361 из которого и следует нужное нам неравенство (40.19). Итак, неравенство (40.19) мы проверили. Но функция e°U], обладающая установленными нами свойствами, возрастать не может. Отсюда и следует справедливость теоремы. Доказательством данной теоремы и завершим этот параграф. Рис. 40.2. Примечание 40.1. Геометрический смысл условия (40.7) состоит в следующем. Управление и® выбирается из того условия, чтобы вектор скорости £ [t] имел наибольшую возможную проекцию на внутреннюю нормаль s° к поверхности Se (см. рис. 40.2). Как показывает теорема 40.1, в случае стабильного поглощения это условие оказывается достаточным для сохранения траектории x[t] внутри области Wг (t, Ф^), ограниченной поверхностью ££. Упражнение 40.1. Доказать ограниченность и замкнутость множества W (f, Ф). .Упражнение 40.2. Доказать, что при условии стабильности поглощения множества Ж процессом х множества W{t, ф^) непрерывны по t. Упражнение 40.3. Показать, что в регулярном случае игры условие (40.9) превращается в условие экстремального прицеливания»
362 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX Упражнение 40.4. Показать, что стратегия U] {t, х\ t0l х0} может быть построена несколько иначе, чем у нас, а именно множество У,\ можно снова определить соотношениями (40.9), не прибегая, однако, предварительно к преобразованию х* = X (ф^, t) х. Показать, что и такой способ управления и [t] 6E <U\ (t, x [t], t0l x0) можно истолковать как экстремальное прицеливание (в регулярном случае), однако теперь при условии, что 8-окрестности области G (t, х, ft; и (•)) строятся уже не в евклидовой метрике, а * другой, зависящей от t метрике. § 41. Сближение нелинейных объектов В этом параграфе мы рассмотрим игру преследования при условии, что собственная динамика объектов описывается нелинейными дифференциальными уравнениями. Дать эффективное правило для действительного осуществления наилучшего поведения каждого из партнеров мы не сможем и ограничимся поэтому лишь общими теоретическими соображениями, которые будут характеризовать это поведение. При этом основное внимание будет уделено тем задачам, которые встают перед преследователем. Обсуждение рационального поведения для преследуемого мы предоставим в качестве упражнения читателю. Заметим, наконец, что рассматриваемые ниже построения переносят на нелинейные объекты те построения, которые были описаны выше для линейных систем. Хотя большинство подобных построений в принципе возможно и для линейных и для нелинейных систем, однако в нелинейном случае более или менее эффективное описание элементов соответствующих экстремальных конструкций (областей достижимости G(l\ области прицеливания Q0 и т. д.) трудно достижимо, и поэтому-то соответствующие правила экстремального прицеливания и оказываются очень трудно реализуемыми. Итак, рассмотрим преследующее {y(t)) и преследуемое (z(t)) движения, описываемые соответственно уравнениями У = /Х) (*, У, и), (41.1) ? = /(2)(<, ?, v), (41,2)
§ 41] СБЛИЖЕНИЕ НЕЛИНЕЙНЫХ ОБЪЕКТОВ 363 где функции /<*> мы будем предполагать непрерывными при всех возможных значениях их аргументов tQ Ц^ t, -00 < #г < °°> — °° < zt < °°> и&% yGf, (41.3) причем % и V суть ограниченные и замкнутые множества в r-мерном векторном пространстве ({и} или {v} соответственно). Переменные у и z суть гс-мерные векторы. Кроме того, функции /<1> мы будем еще предполагать непрерывно дифференцируемыми по аргументам у и z и удовлетворяющими следующим оценкам: | хр(*, *, в») |< 41 + II*|12) (< = 1. 2), (41.4) где X — постоянная. Оценки (41.4) обеспечат нам в дальнейшем ограниченность решений у It] и z It] уравнений (41.1), (41.2) на каждом конечном отрезке времени t0 ^ <; t ^ &. Как и раньше в аналогичных случаях (см. §§ 31 и 38), задача преследователя будет состоять в том, чтобы захватить точку {z[£]}m в область влияния <M({ylt]}m) точки {у [t]}т (т ^ п), задача преследуемого — избежать этого захвата. Область влияния M({yU]}m) мы снова определим условием {*[*]>м-{»[*]},» = pes», (41.5) где «Э5 — некоторое ограниченное, выпуклое и замкнутое множество m-мерных векторов р (см. § 23). Как и выше в линейных случаях, мы будем работать дальше с дифференциальными уравнениями в контин- генциях с тем, чтобы охватить типичные в подобных задачах скользящие режимы. Поэтому прежде всего нам надлежит оговорить, как строятся эти уравнения в контин- генциях для рассматриваемых нелинейных объектов (41.1) и (41.2) и что мы будем понимать здесь под допустимыми стратегиями. Ограничимся при этом лишь формальными определениями, содержательный смысл которых должен быть ясен читателю, разобравшемуся в тех пояснениях, которые давались выше в аналогичных случаях при обсуждении линейных систем (см. § 6). Зафиксируем в уравнении (41.1) какие-нибудь значения t и у и заставим вектор и пробежать все множество %.
364 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX Тогда вектор /<l) (t, у, и) пробежит какое-то замкнутое множество f(i)(t, у). Обозначим символом f<l> (t, у) выпуклую оболочку множества f ц) (t, у). Иначе говоря, f 0) (t, у) — есть наименьшее выпуклое множество, содержащее множество f\o(£, у). Очевидно, множества fW(t, у) изменяются непрерывно с изменением аргументов t и у. Аналогичным образом строятся множества f(2)(t, z), также меняющиеся непрерывно с изменением аргументов t и z. Допустимые стратегии U {t, у, z) -~ -=~ V' (U Уч z)vlV {t, у, z}h-26 {t, у, z) мы определим теперь контингенциями y[ilt=&(t, у It], zlt]), (41.6) Нй'е=2б(*, yltl zlt]), (41.7) где множества ^ и 35 должны быть выпуклыми, замкнутыми, полунепрерывными сверху относительно включения при изменении аргументов t, у и z и удовлетворяющими включениям ^(t,y,z)df^(t,y), (41.8) °6(t,y,z)czfW(t,z). (41.9) Из общей теории дифференциальных уравнений в кон- тингенциях известно (см. [17* б], стр. 111; [17*а]), что при указанных нами условиях система уравнений (41.6), (41.7) для любого начального условия y[t0] = у0, z lt0] = = zQ обладает решением {у It], zlt]}, которое продолжи- мо на любой конечный отрезок времени t0 ^ t <! О. Это решение {уIt], z[t]} складывается из абсолютно непрерывных функций^ у It] и zlt], которые удовлетворяют соотношениям (41.6), (41.7) при почти всех значениях t ЕЕ GE U0> *]• Таким образом, мы снова можем сказать, что любая пара допустимых стратегий U {t, у, z} и V {t, у, z} порождает семейство движений 90 (U, V, t0, y0, z0) системы (41.1), (41.2). Теперь, следуя общей схеме наших рассуждений при построении экстремальной конструкции, мы должны составить программные движения у{х) и z (т) (^ <; т <; $), выходящие из какой-либо зафиксированной позиции {t^ у [tj = у^, z [tj = zj и формирующие области достижимости G(1)(^, y^, Ф) и 6?(2) (ty z4, ft). В качестве таких движений мы выберем всевозможные абсолютно
§ 411 СЁЛИЖЕНЙЁ НЕЛИНЕЙНЫХ ОБЪЕКТОВ Вб5 непрерывные функции у (т) и z (т), которые удовлетворяют контингенциям 1/(т)е Я1* (*,*/(*)), (41.10) z(t)G^(t,2(t)) (41.11) при почти всех значениях t £ [/0, ft]. Таким образом, областью достижимости G(1)(**> J/*» ft) (областью достижимости C№(t^ z^ ft)) в m-мерном пространстве будет множество, состоящее из тех и только тех точек д, которые удовлетворяют условию: существует решение у(х) системы (41.10) (решение z (т) системы (41.11)), подчиненное краевым условиям у (tm) = у^ {у (ft)}m = Я (или условиям z (О = z*> {z (ft)}m = Я соответственно). Опираясь на известную теорию оптимальных процессов, можно показать, что области G(i) суть замкнутые множества в пространстве {q} (см., например, [17* а]). (Тем более нетрудно проверить, что области G^> суть множества ограниченные.) Определив обычным образом замкнутую ^-окрестность 6?$ области G( , мы снова назовем моментом поглощения ft^ (^, у^ zj такое наименьшее значение ft ^ t0, для которого будет выполняться вложение GW(«„Z.,*)cGg?(f.,y.,*). (41.12) Зафиксируем теперь какие-нибудь значения t=t^ z = zm, ft = ft* ^ ^ и обозначим символом W {t^ z^ ft J множество всех тех значений у, для которых справедливо вложение GM{t.,z,,b,)ciG$ (tt,y,*t). (41.13) Разумеется, это множество W (^, z^ ft) может оказаться пустым.) Теперь мы сделаем основное предположение о свойствах множеств W, опирающееся на следующее определение. Определение 41.1. Скажем, что процесс z поглощается процессом у стабильно, если ограниченные замкнутые множества W (t, z, ft) выпуклы и если для всех достаточно малых значений А0 j> 0 выполняется условие:
366 РАЗНЫЕ ЗАДАЧИ (ГЛ. IX каковы бы ни были t^ z^ $ > t# + А0 и у [fj = у^ удовлетворяющие условию ?,Е^(«^Ф,«) (41.14) для любого возможного движения z (t)(z (tj = zm), отвечающего контингенции z(t)Gf&(ttz(t)) (41.15) (при почти всех t GE U,, *, + А0]), среди допустимы^ движений y{t), (y(tj = yj, удовлетворяющих контингенции y(t)£Ef(1)(t,y(t)) (41.16) (при почти всех t ЕЕ U*, tm + А01), найдется такое, которое будет отвечать условию ^ + Д0)еЕ^(*, + Ло,*(^ + Ао),й). (41.17) Нужная нам стратегия lfe {t, у, z; t0, y0, я0}, которая в случае стабильного поглощения процесса z процессом у обеспечивает преследователю успешное, завершение игры к моменту t ^ $&> (t0l j/0, z0), строится следующим образом (сравни с материалом из § 40 на стр. 354—355). Множества ^°e(t, у, z; t0, y0, z0), которые определяют контингенции yU]^yl(t, у It], zlt]; t01 y0, z0), (41.18) задающие стратегию U]{t, j/, z; t0 y0, z0}, будут таковы: °${t, У, z\ t0, i/o, *0) = f{1) (t, y), (41.19) если ytEW{t, z, **(f01 y0, z0)). (41.20) Г |Если же у не содержится во множестве W(t, z, $>), то поступаем следующим образом. Рассмотрим наименьшую замкнутую е-окрестность We0 (t, z, ftjp) множества W {t, z, Ф^), которая содержит точку г/, лежащую, следовательно, на границе области Wz° (t, z, Ф^). По условиям стабильного поглощения процесса z процессом у множества Ws° суть множества выпуклые. Поэтому че-
§ 41J СЁЛЙЖЁ11ЙЁ НЕЛИНЕЙНЫХ ОБЪЕКТОВ 367 рез точку у можно провести единственную гиперплоскость 55 (s°), касательную к границе множества Wz° (t, z, fl>) (см. аналогичный случай на рис. 40.1). Здесь символ s° обозначает вектор внутренней нормали к границе области We0 в точке у. В качестве множества ®$ (t, у, z\ £0, у01 z0) мы выберем совокупность всех тг-мерных векторов / = fe£=z f№ (t, г/), которые удовлетворяют следующему условию максимума: *°7?= max я0'/. (41.21) Условие (41.21) будем именовать обобщенным условием экстремального прицеливания. Мы примем еще для упрощения рассуждений, что множества W (t, z, <)>) с изменением t и z изменяются непрерывно (см. ниже упражнение 41.1). Справедливо следующее утверждение, аналогичное теореме 40.1. Теорема 41.1. Если процесс z поглощается процессом у стабильно, то обобщенная экстремальная стратегия Ui {t, у, z; tQ, у о, z0} -т- У% (*, у, z\ t0, у0, z0) обеспечи- вает захват точки {z lt]}m в область влияния JC ({у lt]}m) точки {у [t]}m не позже, чем к моменту времени t = Ф ^ ^®&>(t0, yQ, z0), какой бы ни оказалась реализация z[t] движения 2, удовлетворяющего контингенции *[*]еЯ2>(МШ). . (41.22) Для доказательства теоремы прежде всего надлежит заметить, что с изменением позиции {t, у, z] вектор s° в условии (41.21) будет изменяться непрерывно (при условии 8° (£, у, z) ^> 0). Но отсюда, как мы знаем (см. лемму 15.3), вытекает, что множества у?е (t, у, z; t0, y0, z0) полунепрерывны сверху по включению относительно изменения позиции {t, у, z}. Значит, пара стратегий Ul -ь -4-^2 и 7 ч- f(2)(t, z) есть пара допустимых стратегий. Далее можно проверить следующее утверждение. Лемма 41.1. Если процесс у поглощает процесс z стабильно, то для всех достаточно малых значений А0 > ]> 0 и 8° ]> 0 выполняется условие: каковы бы ни были t^
368 РАЗНЫЕ ЗАДАЧИ [ГЛ. IX zm, ■& ^ ^ + А0 и yltj = уф, удовлетворяющие условию У^ШАК^.Л) (41.23) для любого возможного движения z (t) (z (tj = zj (41.15) среди допустимых движений y(t) (y{tj) = yj (41.16) найдется такое, которое будет удовлетворять условию 0(<. + До)<=ИГ«(*. + До, *(t. + Ao),4>), (41.24) причем 8<ео^Ао, (41.25) где р — положительная постоянная, не зависящая от позиции {£, у, z} в каждой ограниченной области & пространства {t, у, z). Опираясь на лемму 41.1, которую мы предлагаем доказать в качестве упражнения читателю, можно рассуждениями, подобными приведенным выше при доказательстве теоремы 40.1, проверить справедливость неравенства (при 8° It) > 0) (^)Ц<^°ш. (41-26) Здесь символ е° [t] обозначает функцию е° (t, y[t], z tih *o, Vq, zo)' гДе У\1Ъ z V] — решения систем (41.18), (41.15) и е° (Z, z/,z; t0, уц, z0) есть евклидово расстояние от точки у до множества W (£, z, Ф^); символ (de/cfc)^ означает правое верхнее производное число функции е° [t] при t = tm. Но непрерывная в нашем случае функция 8° U], удовлетворяющая условию (41.26) и начальному условию 8°U0] = 0, очевидно, возрастать не может, то есть имеем равенство в [*] = 0 (*0 <*<#*), (41.27) которое означает, что все время при t !> t0 выполнено включение G<*> (*, z [t], О**) с Gx2?(*, j/ [t], <b). (41.28) Включение (41.28) и доказывает теорему. Упражнение 41.1. Мы предположили, что множества W (t, z, Ф^) непрерывны по t и z. Требуется выяснить, возможно ли, как и в линейном случае из § 40, доказать здесь теорему, анало-
§ 41] СБЛИЖЕНИЕ НЕЛИНЕЙНЫХ ОБЪЕКТОВ 369 гпчную теореме 41.1, но без априорного предположения о непрерывной зависимости множеств W (t, 2, §J) от аргументов t и г. Упражнение 41.2. Доказать лемму 41.1. Упражнение 41.3. Провести подробное доказательство теоремы 41.1. Упражнение 41.4. Рассмотреть систему, описываемую уравнением х = / (t, х, и, v) (в частности, уравнением x = A(t)X X/ (t, и, и)) при стандартных ограничениях и €Е ^, v€bV, где множества ^ и V* ограничены и замкнуты. Ввести смешанные программные управления и (*)-*- jj /М</и)*, »(*) + \ МАО* и смешанные аппроксимационные стратегии U^ \ которые задаются множествами {\i(du)}i( x\, сопоставляемыми позициям {t, x}. Стратегия £/(Л) формирует движение х [t] по закону /(дИШ=$ f(t, x[t]> и, v[t])\i{du){Xi x[x^ при Т| ^ t < Т| 1. Здесь ц. (da) и v (dv) — меры, нормированные на (U\\V' соответственно. Заменяя в определениях 40.1 и 41.1 v (т) на v (т), дать подходящее определение момента поглощения 0^, замкнутого множества J/L процессом х и изучить свойсгва множеств поглощения W (г, О^о). Ввести соответствующее условие стабильности поглощения (подбор х (т) для и (т), /<т<£+ А). Определить множества мер {\i€ (du)} t x} из условия min (\ \ «°' (*» я) / (t, х, и> v) ^e (du) v (с?г>) J = v V^» = max mm \ \ s0' (*, ж) / («, xt u, v) u. (-/■/) v (dv) и доказать или опровергнуть утверждение: каким бы ни было управление и [/], стратегия U^\ заданная множествами {\ле (du)}^ обеспечивает е-сближение точки х [t] с JH к моменту t = 0^ (где f — произвольно малое положительное число), если только х \t0] €E €Е ^ (г0, ^) и шаг А =-- t^i — ri достаточно мал. Здесь вектор s° пмеет тот же смысл, что и в (40.9). lU 13 Н. И. КрасонскиИ"
ПРИЛОЖЕНИЕ § 42. Формула Коши Рассмотрим управляемую систему, описываемую векторным линейным дифференциальным уравнением £ = A(x)z + w + f(i), (42.1) где х — тг-мерный фазовый вектор объекта; w — n-мерный вектор управления; / — ^-мерный вектор дополнительных внешних воздействий; А — (п X п)-матрица, которая описывает динамические свойства системы. Строчная греческая буква т всюду будет обозначать текущее время. Если не будет оговорки, то векторы, обозначаемые строчными латинскими буквами, будем трактовать как векторы-столбцы. Верхний индекс «штрих» будет означать транспонирование. Следовательно, малые латинские буквы с верхним индексом ' будут означать векторы-строки. Наконец, если не оговорено противное, функции А (т) и / (т) будут предполагаться ограниченными и интегрируемыми. Решением х (т) уравнения (42.1) на отрезке (т^ ^ <! т ^ т*) назовем абсолютно непрерывную вектор-функцию (короче — функцию) х (т), которая удовлетворяет уравнению (42.1) при почти всех значениях т ЕИ [т+, т*]. Это решение, найденное для т = Ф при заданном начальном состоянии х (t), определяется формулой Коши ([И*], стр. 173) x{0)==X(i>,t)x(t) + \x($,T)f(x)dx + t + $X(0,t)m?(t)<Zt. (42.2)
§ 42] ФОРМУЛА КОШЙ 371 Здесь /xn(u,t)...xln(Q,t)\ — фундаментальная матрица решений, столбцами которой являются векторы-решения х$) (т, /) однородного уравнения £=А(х)х. (42.3) Матрица X (т, t) удовлетворяет матричному дифференциальному уравнению ■i£giiL = .4(T)*(T,0 (42.4) и начальному условию 1 0 ... О у X(t,t) = E = \ ??••'? |. (42.5) к6 6 ... 1 Напротив, рассматриваемая как функция от переменной t (при постоянном т) матрица X (т, t) удовлетворяет уравнению **Sh±=-.X(T,t)A(t) (42.6) или, после транспонирования, уравнению **gH=-A'(t)X'(T,t), (42.7) сопряженному к уравнению (42.4). Учитывая уравнение (42.7), формулу Коши (42.2) можно также изобразить равенством x(#) = S'(t,Q)x(t) + J *S'(t, «•) / (т) dt + J Л" (т, Щ w (x)dx, t (42.8) 14 Н. H. Красовский
372 ПрйЛо&ёййё где S (т, t) — фундаментальная матрица решений векторного дифференциального уравнения dx ==_ A'(x)s, (42.9) сопряженного к уравнению (42.3), удовлетворяющая, таким образом, равенству Х(Ф, т) = S' (т, Ф). (42.10) Распишем векторное равенство (42.2) в координатах. Получим хк (Ф) = xW (Ф, 0 а; (0 + \ №' (*, т) / (т) dt + +Ja?W/(01T)ii;(T)dT. (42.11) * Здесь #[i]/ суть г-е строки матрицы Х^т). Рассмотрим в правой части равенств (42.11) последние слагаемые, определяющие зависимость координат xt (Ф) от управления w (т) (t ^ т < Ф). Обозначим gi==Ja?m' (*,t)M?(t)dt (i = l,...,n). (42.12) Величину qt при каждом фиксированном значении Ф можно трактовать, как результат линейной операции Фг»(-)1^(")Ь которая порождена вектор-функцией и; (т) (t <! т < Ф), изображается интегралом ^(.)[*(-)] = Sft/(^)^w^ (42-13) t и выполняется над вектор-функцией h (т) = аДО ('О1, т) (t ^ т <С Ф). Здесь и ниже в аналогичных случаях замена аргумента т точкой • подчеркивает, что речь идет не о значении функции w (или К) в той или иной точке т, но «вся» эта функция w (т) (или h (т)) (t ^ т < Ф), трактуется как единое целое — как элемент некоторого функциональ-
§ 43] ЗАДАЧА ОЁ УПРАВЛЕНИЙ 373 ного пространства. Символы w (-),h (•) и т. д. будем применять в тех случаях, когда соответствующая функция будет играть роль аргумента в записи какого-либо функционала или когда данная функция будет изображаться как элемент какого-либо множества. Операции q>W(.)[h (-)], имеющие своим результатом числа i = фш(.) [к (•)], суть линейные функционалы ([8*], стр. 143). Таким образом, зависимость координат xt (Ф) от управления w (т) определяется линейным функционалом (42.13), порожденным функцией w (т) и вычисляемым на функциях h (.) = fc[i](.)= яШ(Ф, .). § 43. Задача об управлении Простейшая задача об управлении системой (42.1) формулируется следующим образом. Задача 43.1. Указано множество SB управлений w (т) (t ^ т < Ф). Надлежит определить такое допустимое управление w (т), которое переводит объект (42.1) из заданного начального состояния х (t) = xW (43.1) в желаемое конечное состояние {*(0)}т = *(Э). (43.2) (Здесь и далее символ {#(Ф)}т будет означать вектор, составленный из первых т компонент вектора х. Точно так же символ {Q}m будет означать матрицу, составленную из первых т строк некоторой матрицы Q.) Иначе говоря, требуется найти допустимую функцию w (т) (t ^ т <[ д), которая удовлетворяет системе из первых т равенств (42.11), где х (t) = x(CL) и xt (Ф) = qf^ (i = = 1, ..., т). Сформулированная задача является функциональной проблемой моментов: найти функцию м?(-)е® (43.3) 14*
3?4 ПРИЛОЖЕНИЕ так, чтобы удовлетворить системе равенств q = ^hW(x)w(x)dr t (W« (t) = a?M (0, t); i = 1, . . . , m). (43.4) Здесь с — m-мерный вектор, определенный согласно (42.2), (43.1) и (43.2) равенством ■е- с = qw _ {Z(#, *)*<»> + 5 Х(», t)/(T)dt}m. (43.5) § 44. Оценка ресурсов управления Задача об управлении должна решаться при известных ограничениях на множество допустимых функций w (т) {t ^ т < Ф)- Эти ограничения, которые мы обозначили символически в виде соотношения (43.3), вытекают из реальных особенностей процесса управления. Они оценивают ресурсы управляющих органов и задаются, как правило, в форме условий на теоретико-функциональные свойства (кусочная непрерывность функций w(x), интегрируемость их и т. д.) и в форме «геометрических» неравенств, стесняющих возможные значения w (т). Примером последнего условия может служить неравенство \\w (т) |] < (л при t < т < * (44.1) или неравенство J||u;(T)pdt<|i2. (44.2) t (Символ || w\ означает евклидову норму вектора т.) Однако описание ресурсов управления возможно не только в виде неравенств, стесняющих явно значения и;, но и в форме «функциональной» оценки максимального возможного влияния допустимых управлений w (т) на некоторую совокупность эталонных управляемых объектов. Поясним смысл этой оценки, удобной для нас по ряду соображений.
§ 44] ОЦЕНКА РЕСУРСОВ УПРАВЛЕНИЯ 375 Итак, мы рассмотрим эталонные системы, описываемые дифференциальными уравнениями i = h' (т) w (т). (44.3) Здесь £ — скалярная переменная, h' (т) — тг-мерный вектор-строка, w — тг-мерный вектор-столбец, функции h (т) (t ^ т < Ф) выбираются из некоторого множества фс Примем, что I (t) = 0. Тогда l(ft) = \h'(x)w(x)d%. (44.4) I Величина р [h' (•)] = sup Г U' (т) w(т) dt] (44.5) ш=2В L ^ J для каждой функцииh (•) ЕЕ ф характеризует «максимальное влияние», которое можно оказать на соответствующую эталонную систему (44.3) за счет выбора управления w из множества 933. Таким образом, условие (44.5) определяет функцию р W (•)] (точнее говоря, функционал), заданную на элементах h («) ЕЕ ф. Естественно задаться вопросом о том, при каких условиях знание функционала р W (•)] позволяет восстановить исходное ограничение (43.3). Иначе говоря, можно поставить задачу. Пусть величина р \Ъ! (•)] определена равенством (44.5). Требуется указать условия, при которых из неравенства §Л'(т)и?*(т)Л<р[А'(-)Ь (44.6) i справедливого для всех h (•) G§, следует, что м>* е= 2В. Очевидно, искомые условия должны свестись к достаточно «хорошим» функциональным и геометрическим свойствам ограничения (43.3) при разумной полноте множества S}. Эти условия оказываются не слишком стеснительными и выполняются для широкого круга задач. Геометрические условия сводятся к выпуклости множества 2В, функциональные условия проявляются в подходящей замкнутости этого множества, а должная полнота ф осуществ-
376 ПРИЛОЖЕНИЕ ляется за счет выбора в качестве этого множества подходящего функционального пространства. В данной монографии встречаются только такие случаи, когда условия (43.3) и (44.6) эквивалентны. Охарактеризуем класс 2В допустимых управлений w(x) подробнее. Прежде всего мы примем, что ограничение (43.3) стесняет множество допустимых функций w(x)(t^:x<i'd>) условием интегрируемости этих функций вместе с квадратом их нормы ||г#(т)р на полуинтервале [t, •&•). Таким образом, допустим лишь функции iv(x), которые являются элементами функционального пространства X§\){w}, где норма х [w(-)] определена равенством ([8*], стр. 69) * Чг *[w{-)]=[\\\w{x)fdx] . (44.7) t Предположим далее, что множество ЗЕВ, фигурирующее в условии (43.3), есть выпуклое, ограниченное и замкнутое подмножество элементов го(-) из Х$]&){ги}. Это означает, что выполнены условия: (1°) Из иДОеЯВ и ivW(=%$ следует [%idO+(l—X)wW] ЕЕ ^ЗВ, каково бы ни было число X из отрезка [0,1]. (2°) Нормы и[ю(«)] функций гр(-)е=5Ш в пространстве Х^ равномерно ограничены, то есть существует постоянная %0, для которой справедливо неравенство хМ-)]<Ь0. (44.8) какова бы ни была функция w(-)^2B. (3°) Из условий и**>е® и Итн[мХ*)(.) —м/*(-)] = 0 (44.9) к-юо следует w*( •) ЕЕ 9S3. В качестве множества ф, элементы которого h (•) = = {fe(t), J^t^O} определяют эталонные системы (44.3), мы также выберем все пространство %$!&) {Щ функций h(x) с интегрируемые квадратом нормы |Л(т)||.
§ 44] ОЦЕНКА РЕСУРСОВ УПРАВЛЕНИЯ 377 Описанный только что случай ограничения (43.3), сопровождаемый выбором ф = Х&\ будем называть обыкновенным случаем. Справедливо утверждение. Лемма 44.1. В обыкновенном случае условия (43.3) и (44.6), где величина р определена равенством (44.5), эквивалентны. Условие (44.6) есть следствие условия (43.3) по определению величины р (44.5). Таким образом, для доказательства леммы достаточно проверить, что обратно условие (43.3) оказывается следствием соотношения (44.6). Предположим от противного, что это не так. Иначе говоря, примем, что существует функция w* (т), которая не содержится в 2В, но которая тем не менее удовлетворяет условию (44.6), какова бы ни была функция h (•) е= £• Согласно условию (3°) выбранная функция w* (т) удовлетворяет неравенству x[w(.) -и>*(.)] >е (44.10) (е ]> 0 — постоянная) для любой функции w (•) Ez 933. Однако при условии (44.10) ее гласно теореме Мазура ([4*], стр. 498) в пространстве %$]&) {и?} можно провести «гиперплоскость» 31, которая описывается уравнением 9A.C)I«'(-)] = S^(t)w(t)dt = £o (44.11) t и строго разделяет «точку» w* (•) и множество ЗЕВ. Здесь К(') ~~~ фиксированный элемент из 5?[?|в) {h}, ортогональный к гиперплоскости 31, w (•) — произвольный переменный элемент из 31. Геометрическое выражение «гипер плоскость 31 строго разделяет w* (•) и SB» означает, что справедливы неравенства lK(xW(T)dx-r>t°, (44.12) S $ь;(т)ю(т)А<£° при и>(.) е® (44.13) (см. рис. 44.1, который, естественно, имеет условный смысл).
378 ПРИЛОЖЕНИЕ Иначе говоря, при нашем предположении можно указать функцию h^ (•) ЕЕ ф, удовлетворяющую таким условиям (44.12), (44.13), которые противоречат условиям (44.5) и (44.6), если w* (•) не содержится во множестве 8В. Полученное противоречие доказывает лемму 44.1. fKCc)wtc)dT*Z° %$у {w} Z fK(*)w(z)dz>£° t Рис. 44.1. Полезно отметить следующее важное обстоятельство. Пусть множество SB составляет сферу х* [w (•)] ^ \i в какой-либо метрике, определенной некоторой нормой х* [w (•)]. Предположим, что эта норма х* [w (•)] для допустимого класса функций w (т) может трактоваться как норма линейного функционала ф^(.> [h (•)] (44.11), порождаемого функцией w (') ЕЕ SB на элементах h (•) из некоторого функционального пространства ф. Пусть далее в этом пространстве $} метрика определена нормой х, [h (•)]. Тогда оказывается, что Р №'(.)] «ja*. !*(•)]. (44-14) х
§ 44] ОЦЕНКА РЕСУРСОВ УПРАВЛЕНИЯ 379 При этом условия (43.3) и (44.5), (44.6) снова эквивалентны; разумеется, если только допустимы все функции w (т), определяющие линейные функционалы фги(.) [h (О1 на$ с нормой х* [cpw ] = х* [w] <! ц,. Заметим, наконец, что в обыкновенном случае верхняя грань в правой части равенства (44.5) для каждой функции h (•) ЕЕ Si обязательно достигается на некоторой функции wh(>) из 2В (доказательство этого утверждения приведено ниже на стр. 400). Таким образом, для любой функции h (•) ЕЕ ЕЕ ф = Ж(2) справедливо равенство р [hf] = max Г ty' (t) гг; (t) dfr] - \h' (t) M?h (t) Jr. (44.15) Пример обыкновенного случая для условия (43.3) доставляет ограничение vrai max || w (т) || <; \х, (44.16) причем оказывается $• p[h'(-)]=^\Ht)idx. (44.17) t Напомним, что символ vraimax \\w (т) | обозначает максимум функции \\w (т) || на интервале t <! т < Ф по существу (см. [8*], стр. 22). Это означает, что верхняя грань функции ||и? (т) | в левой части (44.16) вычисляется не по всем значениям тЕЕ [£,$), а только почти по всем таким значениям, за исключением некоторого несущественного для данной функции множества нулевой меры. (Множество нулевой меры определяется ([6*], стр.271) как совокупность точек т, которую можно поместить внутри системы интервалов, суммарная длина которых не превышает произвольного наперед заданного числа е ^> 0). Более общий пример обыкновенного случая доставляет ограничение] w (т) е Wx (при почти всех т из [*,ф]), ] (44.18) где Wx — ограниченные, выпуклые и замкнутые множества в тг-мерном векторном пространстве {w}.
380 приложение § 45. Проблема моментов В § 43 было показано, что задача об управлении, сформулированная там, является математической проблемой моментов (43.3), (43.4). Далее в § 44 мы установили, что ограничение w (•) ЕЕ 28 (43.3) в обыкновенном случае можно представить в эквивалентной форме (44.6), где функционал р W (•)] определен равенством (44.5). Итак, для решения задачи об управлении надлежит разрешить проблему моментов i\Mir{x)w(x)dx = cit (45.1) «. t ЛИ (т) = агП1 (О, т) (i' = lf...fiH) при условии $fc'(T)u?(T)dT<p[fc'(-)l» (45-2) t которое должно выполняться для искомой функции w (т) на каждой функции h (•) ЕЕ ft. Однако известно, что условия разрешения этой математической проблемы являются прямым следствием фундаментальной в функциональном анализе теоремы Хана — Банаха о распространении линейного функционала ([4*], стр. 100; [8*], стр. 173). Покажем это. Интеграл в правой части (42.13) определяет линейный функционал фю(.) [Л(-)Ь порождаемый функцией w (т) е= 5?{?!«) и заданный на элементах h (т) Е= 5?^)- Теорема Рисса ([8*], стр. 193) утверждает справедливость и обратного заключения: всякий ограниченный функционал ср [h (•)] в <2!(2) может быть изображен в виде интеграла (pW(-)[h{-)] (42.13), где w (•) —некоторая подходящая функция из £$]&){w}. Отсюда заключаем, что проблема моментов (45.1), (45.2) эквивалентна задаче: найти функционал фю(.) [h (•)], который удовлетворяет условиям ф.(.) [№'(•)] = сь (fcW(.) - *М(0.0) (г - 1, • • • • го), (45.3) Ф^()[^(-)]<Р[/г',(-)] ПРИ всех A(.)eft. (45.4) Напомним, что функционал р [А' (•)] определен при этом равенством (44.5), или, что то .же самое, равенством
§ 451 ПРОБЛЕМА МОМЕНТОВ 381 (44.15). Полезно заметить, что этот функционал удовлетворяет условиям p[A(i)'(.) + «a)'(-)]<p[A(l)'(-)] + P[A(2)'(-)], (45-5) р[а-й'(-)] = «Р [*'(•)], (45.3) каковы бы ни были h (•), A<1> (•) и W2) (•) из ф и каково бы ни было число а ^ 0. (Справедливость этих условий проверяется непосредственно, исходя из определения (44.5) (или (44.15)) величины р [hr (-)].) Пусть, в частности, выбрана некоторая (к X ^-матрица Н (т) (t <c: т < < д) и символ Z обозначает некоторый яг-мерный вектор. Рассмотрим семейство вектор-функций h (х) = Н (т) J и обозначим Р №'(•)] = Р(*,0, *)• Тогда из (45.5) и (45.6) для введенной нами величины р (t, Ф, t) будут следовать соотношения р (*, О, №> +- Щ < р (*, *, 1<х>) + Р (*, *, Щ, (45.7) Р (*, Ф, а*) = ар (*, О, Q (а > 0). (45.8) Справедливо утверждение. Лемма 45.1. Задача (45.3), (45.4) имеет решение Фш°(.) №(•)] тогда и только тогда, когда для каждого т- мерного вектора I = {/*} выполнено условие т т p[2jAM'(-)iJ-2^i>0. (45.9) 1=1 1=1 Проверим сначала необходимость неравенства (45.9). Пусть w = w° (т) — решение задачи. При фш = ср^о в (45.3) перенесем числа ct влево, умножим каждое из полученных равенств на произвольное число Ц и просумми-* руем новые равенства по i. Получим т т Ф«.[2'Л-)]-2*А = 0. (45.10) i=l i=*l
382 ПРИЛОЖЕНИЕ Однако, вследствие соотношений (45.5), (45.6) справедливо неравенство т т <Мо[2 lihl%)]< p[S lihV]'(-)\ , (45.11) i=l i=i из которого в совокупности с равенством (45.10) и вытекает выполнение условия (45.9). Теперь надлежит проверить достаточность условия (45.9). Итак, пусть это условие выполнено. Построим функционал фм>о[Л(-)1» разрешающий задачу (45.3), (45.4). Для этой цели рассмотрим сначала подпространство 35т в Х$]ъ) {ft}, составленное из функций ft (т) вида fc(T) = 2*i*[ilO0 ('<*<<>). (45.12) Определим на этом подпространстве Э5т линейный функционал срт [ft (•)], который зададим равенством т Фт №(•)] = 2 *А. (*(•)€= ®т). (45.13) г=1 Для того чтобы такое определение имело смысл, надлежит убедиться, что равенство (45.13) действительно задает однозначную функцию, определенную на элементах ft (•) ЕЕ 35т. Предположим от лротивного, что это не так, то есть примем, что один и тот же элемент ft^ (•) из 95m имеет два различных представления m (45.14) причем 2#Ч-2#Ч>о. (45.15)
§ 45) ПРОБЛЕМА МОМЕНТОВ 383 Но из (45.9), (45.14) и из соотношения р [h'd (•)] = О при h0 (т) = ft, (т) — \ (т) = 0 (£ < т <#) следует неравенство т т 2 W - Ф) с,<Р [2 (^ - 4VW' (•)] - 0, (45.16) г—1 г=1 которое противоречит неравенству (45.15). Полученное противоречие доказывает однозначность функций cpm [h (•)] (45.13). Итак, равенство (45.13) действительно задает линейный функционал фт [h (.)] для h (•) е= 35т- Более того, условие (45.9) означает, что на элементах h (•) из 95m этот функционал удовлетворяет неравенству Фт [А(ОКР [*'(*•)]• (45.17) Теперь мы воспользуемся упомянутой выше теоремой Хана — Банаха ([4*], стр. 100; [8*], стр. 173) и распространим функционал фт [h (•)] на все пространство ф. Эта теорема утверждает, что при условиях (45.17) существует функционал qv(.) [h (•)], который определен уже на всем пространстве S} = %§]&) {h}, при всех h (•) е § удовлетворяет условию (45.4), а на подпространстве 35т совпадает с Фт Ш. Такой функционал ф^.) [h (•)] и разрешает задачу, так как из (45.13) и из равенства фт [&(•)] = Ф™°() [&(•)] при й(-)Е=35т следует (при l\ = i, l3 = 0 для г^=/) Фш«с)[^](-)] = с{. (45.18) Таким образом лемма 45.1 доказана. Функционал фгу«»(.) [^(")1 изображается интегралом «Mo [/*(■)]= $7*'(т)и;0 (т) Л, (45.19) t где функция г#°(т) и является, следовательно, решением задачи (45.1), (45.2). Условие (45.9) должно выполняться при любых значениях вектора /. Очевидно, это условие можно записать
384 ПРйлоЖеййё и иначе, а именно в форме неравенства т т S^-P[2^ti]'(-)1<0, (45.20) которое также должно выполняться для всех векторов L Однако достаточно (и необходимо), чтобы условие (45.20) выполнялось лишь для значений I из какого-либо множества £\ охватывающего точку 1=0 (проверку этого факта предоставляем читателю); Из последнего утверждения вытекает, что условие (45.20) можно записать и в такой эквивалентной форме: т т max(2 hci- p[S *,*1Ч'(.)])< 0 (45.21) 1 г=1 г=1 ' при \11 = 1 (или при условии \11 ^ 1), а из неравенства (45.9) следует, что это условие можно записать и так: т т mm (p[2 ^W'(-)]-2 hCi)> 0 (45.22) 1 г=1 г=1 при |{| = 1 (или|/|<1). Наконец, нетрудно сообразить, что в случае, когда Р №',(•)] > 0 при всех fe(*)£^ Hc=f 0, условие (45.9) можно представить и в такой эквивалентной форме (доказательство предоставляем читателю): т т . minp[2 hh[iY (•)]>! Щ>и 2 Z*c* = le (45-23) (Условие р > 0 выполняется, очевидно, если множество ЯВ содержит функцию w (т) = 0 (£^т<СФ). Этого всегда можно добиться подходящей заменой и^ = w + + у переменной и?.) Если условие (45.21) (условие (45.22) или условие (45.23)) выполняется со знаком неравенства, то для определения функции w° (т), разрешающей задачу, остается еще довольно большой произвол. В дальнейшем, однако, мы будем встречаться главным образом с такими случаями, когда эти условия выполняются со знаком равенства. Тогда управление w° (г) должно удовлетворять условию
I 453 ЙРОЁЛЁМА МОМЁН^ОЁ 385 максимума, являющемуся здесь конкретным выражением общего принципа .максимума [13*]. Данное условие существенно сужает множество тех функций, среди которых может содержаться искомая функция w° (т). Более того, это условие часто определяет искомую функцию единственным образом. Правило максимума гласит, что в случае т т max(2*iCi-p[2*ifcW'(-)]) = 1141=1 г=1 г=1 т т = 2&i-p[2*°t*I4'(-)]=0 (45.24) г=1 г=1 (или в случае т т min [р [2 Шц'(-)]] = р[2 /?Л1Ч'(-)] = * (45.25) * г=1 г=1 m при 2 ^А = 1» когда р Jfc] > О, с =£ 0) функция и?0 (т), i=l разрешающая задачу (45.1), (45.2), осуществляет максимум & -9. ^ /г0' (т) w° (т) dx = max [ ^ /г0' (т) и? (t) drl, (45.26) где экстремальная функция h° (т) есть вектор-функция т hQ(T) = %l°ihm(T)9 (45.27) причем 1° — вектор, разрешающий задачу (45.24) (или задачу (45.25) соответственно). Для доказательства данного утверждения^ (в случае (45.24), например) надлежит в правом равенстве (45.24) заменить вектор с = {ct} равным ему вектором
386 ПРИЛОЖЕНИЕ hi%y (t) w° (t) dx\ {так как w°(x) есть решение задачи t т (45.1)), а величину p[2^W'(')J по определению ее г=1 (44.15) надлежит заменить выражением & т msix\\(21l0ih[i](x)Yw(x)dx]. w^<b Li xi=1 J Лемма 45.1 и условие максимума (45.26) доставляют обычно достаточное количество информации для определения функции w° (т). § 46. Решение задачи 43.1 об управлении Решение данной задачи вытекает из решения эквивалентной ей проблемы моментов, изученной в § 45. В настоящем параграфе мы придадим этому решению новую форму. Вспоминая выражения для функций ШУ (т) = = xW(&, т), являющихся строками матрицы Хф, т) т (см. стр. 374), величину 2 h^(т) можно изобразить г=1 в виде матричного произведения т 2*,Ьга'(т) = г'{Х(д,т)}т. (46.1) г=1 Таким образом, необходимое и достаточное условие (45.9) для разрешимости задачи об управлении принимает вид Vc-plV {X(0, .)}m]<0 (46.2) (илирИ' {Х«К .)}ml -Гс>0), и это условие должно выполняться при любом выборе т мерного вектора Z. Выражение V {Х}т полезно еще несколько преобразовать. Для этой цели введем тг-мерный
§ 46] РЕШЕНИЕ ЗАДАЧИ 43.1 ОБ УПРАВЛЕНИИ 387 вектор 7* ^= I I 0 Г 10 J Тогда можно записать равенство {*(#, т)}'т/ = Г(#, х)г. (46.3)# Далее, так как матрица 5 (т, ф) = X' (О, т) есть фу г- даментальная матрица решений дифференциального уравнения (42.9), то Г (ф, т) • г = S (т, О) • г - 5 (т), (46.4) где 5 (т) (£ <! т «СО) — вектор-решение уравнения (42.9), удовлетворяющее краевому условию s($) = S (Ф, Ф) X Хг = г. Из (46.3) и (46.4) вытекает нужное нам равенство *'{*(*. *)}т = S' {%), (46.5) которое позволяет переформулировать лемму 45.1 в следую цее утверждение. Лемма 46.1. Задача 43.1 об управлении в обыкновенном случае имеет решение тогда и только тогда, когда всякое решение s (т) (t ^ т <0) уравнения (42.9), стесненное краевым условием •ro-[J]-г. удовлетворяет неравенству I'c- pW ( )I<0 . * (46.6) (или р [5' ( )] - 1'с > 0). Точно так же и правило максимума (45.26) (при условиях (45.24) или (45.25)) часто удобно'записывать в форме следующего утверждения.
388 ПРИЛОЖЕНИЕ Пусть решения s (т) уравнения (42.9), стесненные краевым условие:*! удовлетворяют соотношению max (Ус - р [5' (•)]) = 1°'с - р [5°' (.)] = 0 (46.7) 1141=1 (или соотношению ттр[*'(.)] = р[«°Ч-)] = 1 (46-8) • <•) при 1°'с = 1, когда р W (•)! > 0, c=j= 0). Тогда управление w° (т), разрешающее задачу 43.1, удовлетворяет условию максимума ^ s0' (т) w° (т) dt = max К s0' (т) w (t) dx] , (46.9) где s° (т) — экстремальное решение уравнения (42.9), разрешающее задачу (46.7) (или задачу (46.8) соответственно). С задачей, рассмотренной в настоящем параграфе, тесно связана так называемая задача о предельном быстродействии, к краткому обсуждению которой мы и перейдем (подробнее см. [7*]). Задача 46.1 (о предельном быстродействии). Заданы управляемая система (42.1), начальное х (t) = x^ и. конечное {х($)}т — q^ состояния объекта. Указано множество 2В$ управлений w (т) (t <I т <0) !0(-)еЮ*. (46.10) Требуется найти момент времени t = 0° и соответст* вующее ему управление w° (x) (t ^ т <0°), удовлетворяющее следующим условия l: 1) управление г#° (т) решает задачу 43.1 при t ^ 2) выполняется условие ^°(.)^®^>;
§ 46] РЕШЕНИЕ ЗАДАЧИ 43.1 ОБ УПРАВЛЕНИИ 389 3) каковы бы ни были другой момент времени т = Ф и управление w (т) {t <! т <ф), решающее задачу 43.1 при условии (46.10), выполняется неравенство 0° ^Ф. Будем предполагать, что при каждом Ф множество 33^ является выпуклым, ограниченным и замкнутым в пространстве %$,щ {w} (см. выше стр. 376). Пусть Ь ]> t — некоторый фиксированный момент времени. Тогда для системы (42.1) может быть поставлена и решена задача 43.1 об управлении w (т), переводящем систему (42.1) из состояния х (t) = atfa> в положение {х($)}т = #(Э) за время Т =Ь — L Условие разрешимости этой задачи может быть записано в форме (46.6) 1тст — 9 1st (•)]= max (Z'cT-p [*'(.)])<О (46.11) IWNi (р [*г (•)] = minp [*(-)] >1 при l'cT = i). i Здесь индекс Т подчеркивает, что движение системы (42.1) происходит на отрезке t ^ т ^0 = t + Г. Очевидно» наименьшее положительное значение Т = Г°, при котором еще выполняется условие (46.11), и есть время предельного быстродействия. Искомое оптимальное управление w° (т) (t <! т <0° = = t + Т°) удовлетворяет принципу максимума [ 4о СО w° (t) dt - max f [ 40 (t) w (t) dx\ (46.12) Заметим в заключение, что в наших случаях при наличии ограничения (46.10) функция <о(Т) = р[80т(:)}-1°Т-С является непрерывной по Т и, следовательно, число Т° может быть определено как наименьший положительный корень уравнения р[*0г(-)]-/г-ст = 0. (46.13) 15 Н. Н. Красовский
390 ПРИЛОЖЕНИЕ Пусть, в частности, условие (46.10) имеет вид (см. выше условие (44.18)) w (т) ЕЕ Wx при почти всех т, (46.14) причем множества Wx зависят от % непрерывно (см. стр. 55). В этом частном случае условие максимума (46.12) равносильно условию ... „ 4'о (*) w° (т) = max 5°' (т) и?9 (46.15) которое должно выполняться при почти всех т£[/, £ + + Т°]. Обоснование этого утверждения будет приведено ниже в § 49 (см. стр. 405). § 47. Пример решения задачи об управлении Рассмотрим материальную точку с массой т, движущуюся по оси т) и подверженную силе притяжения / к неподвижной точке с координатой г\ = 0. Примем, что сила притяжения / пропорциональна отклонению точки m от центра притяжения, то есть / = — рг). Пусть, кроме того, на точку m действует управляющая сила а, также направленная вдоль оси т) (рис. 47.1). f m б о < , =а =.> *- У=0 ' т](г) V Рис. 47.1. Если а (т) = 0, то точка га будет, очевидно, совершать гармонические колебания с периодом Т = 2я ]/т/р. За дача состоит в следующем: при заданном исходном состоянии точки т, то есть при известных начальных значениях Л (*) = rlia) и Л (*) = Л2*\ требуется распорядиться силой а (т) так, чтобы в течение времени t *^ % ^ft = t + Т, равного одному периоду собственных колебаний системы, успокоить эту систему, то есть привести точку m в состояние т] (ф) = 0 и зафиксировать ее в этом состоянии с нулевой скоростью f] {&) = 0. При этом сила а (т) не должна
I 47j ПРИМЕР РЕШЕНИЯ ЗАДАЧИ ОБ УПРАВЛЕНИИ 391 превосходить по модулю заданную величину v ^> 0 и желательно выбрать функцию о (т) (^^т^Ф) так, чтобы суммарный импульс искомой силы p = l\a(x)\dx (47.1) был минимальным. Приведем сначала эту задачу к такой форме, которая соответствует материалу из § 42—46. Уравнение движения точки т в соответствии со вторым законом Ньютона имеет вид тг\ = -— рт] + а. (47.2) Полагая г) = хъ ц = х2, запишем уравнение (47.2) в нормальной форме системы из двух уравнений первого порядка. Получим : Хъ #2 = 771 х ' 771 Изменяя масштабы переменных т, xt и а, можно добиться равенств $/т = 1 и 1/т = 1. Будем предполагать в дальнейшем, что такой выбор масштабов сделан. При этом, чтобы не вводить новых буквенных знаков, сохраним старые обозначения т, xt и w. Тогда рассматриваемые уравнения в матричной форме (42.1) запишутся так: "1-1 oJUJ где, следовательно, А -(-?!)• W = + щ щ. » го [о (47.3) Нам требуется выбрать управление — двумерный вектор w таким образом, чтобы привести систему в состояние #(&) = 0 и притом минимизировать величину (47.1), соблюдая ограничения wx (т) г 0, | wz (т) | < v (* < т <*). (47.4) 15*
392 приложение (В избранном масштабе времени % период Г собственных колебаний системы (47.3) равен, очевидно, 2я» Полагая тогда без ограничения общности t = О, мы должны выбрать ft = 2jt. Для решения данной исходной проблемы об оптимальном управлении рассмотрим сначала вспомогательную задачу: выберем некоторое число (1>0и проверим возможность разрешения для системы (47.3) задачи 43.1 об управлении при краевых условиях х^а) = {r]ia), т]^}, х (h) = 0 и при ограничении w(-)EE SB^, которое здесь выберем в виде системы условий (47.4) и неравенства $K(T)|dt<|i. (47.5) i Наименьшее значение \i ~\i0 среди тех величин ^, при которых эта вспомогательная задача будет иметь решение, и доставит, очевидно, нужное нам минимальное значение импульса р (47.1), характеризующее искомую силу w° (т). Итак, обсудим сначала высказанную выше вспомогательную задачу. К сожалению, ограничения на w (т), записанные в форме условий (47.4) и (47.5), строго говоря, не дают нам права трактовать данный случай как случай обыкновенный (см. стр. 377): множество ШЗр. функций w(-), определенное неравенствами (47.4) и (47.5), не является множеством замкнутым в пространстве 55[?|в). (Например, функция w* (т) = {wL (т), w2 (т)}, где и?1 ~ О, w*2 (t) = 2v, w*2 (т) = 0, при t < т <Ф не удовлетворяет неравенству (47.4) и, следовательно, не содержится в 2В^. Однако в метрике пространства 55[?| &) эта функция w* (•) является предельной точкой для ЗВ^, так как к [w* (•) — w^ (•)] = 0, где ит, (•) = 0 и, следовательно, ю#(-) ЕЕ ЗВр..) Чтобы не возникало такого неудобства, мы добавим во множество 95J? все те функции w (т), которые отличаются от функций w (т) из (47,4) лишь на совокупностях значений т с нулевой мерой (см. выше стр. 379). Иначе говоря, потребуем, чтобы допустимые функции w (т) (t^XK^ft) удовлетворяли условию (47.4) не при всех (*<т<Ф), но потребуем
§ 47] ПРИМЕР РЕШЕНИЯ ЗАДАЧИ ОБ УПРАВЛЕНИИ 393 лишь, чтобы ограничение на w (т) было наложено по существу, то есть для каждой функции w (т) только при почти всех т из отрезка U, ф]. (Более того, мы вообще можем не различать две какие-либо функции w^ (т) и ц?<2> (т), если они отличаются друг от друга несущественно, то есть, если они принимают различные значения лишь на множестве точек нулевой меры.) Очевидно, такая трансформация задачи с практической точки зрения происходит совершенно безболезненно и незаметно для конечного результата, а с точки зрения общей теории это весьма удобно. Итак, множество ЯВ^ допустимых функций w (т) мы будем описывать неравенством (47.5) и условием ^x(t) = 0, vraimax|w2(T) |^v, (4=7.6) которым одновременно должны удовлетворять допустимые функции w (*) ЕЕ ЗВ^. Теперь уже множество ЗЗЗу, удовлетворяет всем условиям (1°) — (3°) обыкновенного случая (см. стр. 376), и мы можем воспользоваться леммой 46.1. Но для этой цели нам потребуется общий вид решения s (т) уравнения (42.9), выражения для вектора с (43.5) и для величины р [$'(•)), которую мы будем дальше обозначать символом pp. [$'(•)] с тем, чтобы подчеркнуть, что задача 43.1 рассматривается нами при каком-то определенном выборе \х в условии (47.5). Найдем сначала выражение для s (т). Для этого следует записать соответствующее уравнение (42.9) и найти его фундаментальную матрицу решений S (т,^). Уравнение (42.9), сопряженное к однородной части уравнения (47.3), имеет в данном случае вид -и» то есть $г = s2, s2 = — $i, и фундаментальная матрица S (т,ф) для этой системы такова; $<t,*W(t,2«)-( cosTsinT V—sint cost •
394 ПРИЛОЖЕНИЕ Итак, s(t) = (г)=ИТ)1 = ( cost sinТ\Г81(2Я)| (478) Ls2 (*)} \— sin t cos t / [.sz (2л)J В рассматриваемом нами случае задачи 43.1 требуется привести к заданному состоянию обе координаты хг{&) их2('&), так что та = п — 2. Следовательно, фигурирующее в лемме 46.1 краевое условие для s (Ф) принимает здесь вид s{ft) = s (2л) = I. Функции h (т) = s (т) из (45.27) являются здесь векторами где sinPx = А(т) = /^(2я) + ^(2я) s2 (2я) - cos (т + РО sin (т+ р^ J (47.9) 1/\2(2я)+4(2я) ' cos px — si(2n) Ysl(2jt)+sl(2n)* Теперь можно найти величину р^ [$' (•)]. Согласно (44.15), (47.9) имеем М*'(01~ шах[^(2л) + ^(2л) X X $ (- wx (т) cos (т + Рх) + w2 (т) sin (т + рх)) Л). (47.10) о Так как условие w ЕЕ 5Ш^ означает выполнение неравенств (47.5) и (47.6), то нетрудно сообразить, что максимум в правой части (47.10) достигается на функциях wk (•) вида (см. рис. 47.2) wlh (т) = 0, t при [х ;> 2ttv: H>2h (т) = v • sign [sin (т + Pi)], при \х <. 2nv: [v-signfsin^ + Pi)], если | лА:/2 — Px — t|< jx/4v, u>*(t) = | 0<т<2л,/с = 1,3,5,7, (О для остальных те[0, 2л). т <#; 0<т<2л; (47.11)
§ 47] ПРИМЕР РЕШЕНИЯ ЗАДАЧИ ОБ УПРАВЛЕНИИ 395 Следовательно, Pli|у (.)] = 4v /«J.(2ji) -h s\(2л) при p,>2rtv, (47.12) Pil[*'(•)] = 4v- Vs;(2я) + ej(2rt)|sin^- при |i<2nv. Вектор с (43.5) в данном случае определяется равенством .-*>]• <4713) так как а*а> = {r[[a\ r\[*)}, jtf) = {0,0} и X(2я, 0) = I 0" с = а- Обозначим через y(v, \i) функцию {4v при p,>2icv, / * -%, (47Л4) 4v-sin~— при p,<^2jtv. Условие (46.6), при котором рассматриваемая задача (43.1) разрешима, теперь можно записать в виде неравенства у (v, [х)/*2(2я) + *;(2я) + т^ (2я) + л(2а)-52(2я)>0. Это неравенство должно выполняться при любых sx (2л)t s2 (2я). Поэтому данное условие можно записать и в таком виде (см. (45.22)): min [у (v, \i) /в«(2я) + *|(2я) + г}?\ (2я) + т|(«)*а (2я)] >0 (47.15) при У**(2я) 4-«;(2я) = 1. Решение задачи (47.15) доставляют, очевидно, числа — п<а) — Ti(a) (47.16)
396 ПРИЛОЖЕНИЕ Условие разрешимости задачи 43.1 принимает, следовательно, вид v(vlti)>|/[T|<«)]» + [Ti<«)]». (47.17) WZ=-V кЪъ VJrV Отсюда заключаем (см. (47.14)), что рассматриваемая вспомогательная задача 43.1 разрешима, если числа v, \x,
§ 47] ПРИМЕР РЕШЕНИЯ ЗАДАЧИ ОБ УПРАВЛЕНИИ 397 фигурирующие в (47.4), (47.5), удовлетворяют неравенствам v>|fhp]MTnfT2' (47.18) ji>4varcsin(l/'[Ti(ia)]2 + [^(2a)]2/4v). Из (47.18) следует, что минимальный импульс р (47.1) силы о (t), потребный для успокоения рассматриваемого нами движения х\ (£), равен ]1 = lA0 = 4varcsin(]A[Y|(1a)]2+ [Л(2а)]2/4^). (47.19) Так как при \х = \1Ь в условии (47.15) достигается равенство, искомое управление w° (т) надлежит искать, опираясь на правило максимума (46.9). В нашем случае экстремальное движение 5° (т) = S (т, 2n)s° (2я) согласно (47.8), (47.16) имеет вид cos(t + P2) s° (t) -[■ (47.20) sin(T+(Ja)J' где cosP2 = fiiaV/h№+TW, Sinp2 = - n^iYi^i^+Wf. Поэтому условие максимума (46.9) здесь означает, что J [—w?(t)cos (т + Ра) + ^(t)sin (т 4- Ра)1 dx - о = max \ [~ wx (t) cos (t + p2) + w2 (t) sin (t + p2)] dx (47.21) при vraimax|^2(t)|^v, ^(tJeO, \\wt(x)\dx^\x0.
398 ПРИЛОЖЕНИЕ Из (47.21) заключаем, что оптимальное управление w° = (w°u wl) — (О, о0) определяется равенством (сравни с (47.11)) ^° = 0, ( vsign[sin(T+p2)], если | л/с/2 — р2 — х | < [x0/4v, 0<т<2я,& = 1,3,5,7, 1 0 для остальных х ее [0, 2я] (см. рис, 47.3, где для v = У2/2 и начальных условий w\ = о° = 1 жг 1 0 <| ^ <fg^7 ( <Г*=0 ' 1* #* #* ^2# 12 0°=-l/2/2 2% Т TIV> = Рис. 47.3. 1' r\(^\ = 1 изображены экстремальная функция ^W = $5 (т) = sin (т + р2) и оптимальное управление а0 (т)).
I 4SJ ofiJiAfitfi йо&гйткШосШ Ш»аёЯЙёМо£о дЬй&ёййй 秧 § 48. Область достижимости управляемого движения Областью достижимости в пространстве {х}^ для движения х (т) (42.1) (t ^ т <ф ) (из состояния # (£) = #<") к моменту т = ft и при ограничении w (•) ЕЕ9В) называется множество G тех и только тех точек q = {х}т, в которые можно перевести движение х (т) из состояния х (t) = = #<а) за счет выбора допустимого управления w (т) (t ^ ^Ст^Ф), удовлетворяющего указанному ограничению. Такие области достижимости мы будем обозначать символами G (t, x(a\ft , SB), опуская в этой записи тот или иной аргумент, если значение этого аргумента ясно из контекста, и такой пропуск его не сможет вызвать недоразумения. По данному выше определению область G складывается из всех точек q = q&\ для которых разрешима задача 43.1 об управлении. Следовательно, из условия (46.2), учитывая выражение (43.5) для вектора с, заключаем, что в обыкновенном случае область достижимости G (t, л**>, д, ЗВ) описывается неравенством р [V {X (д, •)}»] + Г К (*, аК«), &)}„ -l'q>0 (48.1) и это неравенство должно выполняться для каждой точки , q ЕЕ G, каков бы ни был вектор Г. Здесь символ х° означает вектор sfi (*, я<а>, Ф) = X (О, 0 *(«> + ^ X (ft, т)/ (т) Л. (48.2) Этот вектор описывает состояние, в которое к моменту ft пришел бы объект (42.1) при отсутствии управления, то есть при w (т) = 0. Из условия (48.1) немедленно вытекает справедливость следующего утверждения. Лемма 48.1. В обыкновенном случае область G является ограниченным, выпуклым и замкнутым множеством. В самом деле, первые два утверждения леммы следуют совершенно очевидным образом из условия (48.1), а замкнутость области G выводится из того замечания, что левая часть (48.1) при каждом значении I есть непрерывная функция от q. Поэтому условие (48.1) не может нарушаться
400 ПРИЛОЖЕНИЕ для точки д*, являющейся предельной для точек gW gs ЕЕ G, удовлетворяющих, следовательно, условию (48.1). Опираясь на свойство замкнутости области достижимости, нетрудно теперь показать, что максимум в (44.15) действительно достигается на некоторой функции wh (•) €Е ЕЕ ЗВ. В самом деле, каждая функция ft (т) из (44.15) порождает эталонную систему (44.3). Обозначим через Gh область достижимости этой системы из состояния % (t) = . — 0 к моменту т = Ф и при ограничении w (•) ЕЕ ЗВ. Область <7h в силу леммы 48.1 — замкнутое множество. По определению точной верхней грани числового множества существует последовательность {itf(fe)(')} элементов из ЗВ, удовлетворяющая условию lim \ ft' (т) u*k> (т) dt = sup \ ft' (t) и; (t) dr. k-юо f шезй f Этой последовательности отвечает последовательность {g(fc)} точек в<*> = J ft' (T) w<*> (т) dt t области достижимости Gh; сходящаяся в силу замкнутости Gh к некоторой точке q ЕЕ Gh. По определению множества Gh существует управление wh (•) ЕЕ ЗВ такое, что ■9- Очевидно, функция wh (•) и доставляет максимум в (44.15). Запишем условие (48.1) в форме (см. выше (45.21), стр. 384) max (l'q - V {a* (*, *<«>, *)}m - р [V {X (О,. )}m]) < 0. (48.3) IIHNi Для каждой точки q = q&\ лежащей на границе области G, условие (48.3) должно выполняться со знаком равенства. Иначе это условие выполнялось бы для всех точек q из некоторой малой окрестности точки qW и точка
148] область Достижимости управляемого движения 401 эта не была бы граничной для множества G. Но в таком случае управление и;0 (т) (t <I т < Ф), которое переводит объект (42.1) в состояние {х {$)}т = д(Э), лежащее на границе области G (t, х^\ Ф, 2В), должно удовлетворять правилу максимума (46.9). Рассматриваемые соотношения, определяющие область достижимости G, имеют ясный геометрический смысл. В самом деле, рассмотрим в пространстве {х}^ гиперплоскость Х{1°) Р [*>' {X (df • )}то] + Z0' {*° (*, *<*>, 0)}т - *°'<? = 0, (48.4) где 1° — некоторый фиксированный вектор, ортогональный к гиперплоскости (48.4), величина р [1°' {X (d, -)}m] + + Р' {*<>(*, *(«>, #)}т торое постоянное число а[/°], а символ q обозначает произвольную переменную точку, лежащую на данной гиперплоскости. Условие (48.1) означает поэтому, что область G лежит в полупространстве, которое ограничивается гиперплоскостью (48.4) и описывается неравенством (рис. 48.1) о [Р] - l°'q > 0. (48.5) Рассматриваемая гиперплоскость (48.4) называется опорной к области G, а полупространство (48.5) называется опорным полупространством для G. Известно ([5*], стр. 781), что выпуклое замкнутое множество G есть пересечение его опорных полупространств, отвечающих всевозможным значениям I. Именно этот геометрический смысл и имеет, очевидно, условие (48.3). Важно заметить при этом, что на гиперплоскости (48.4) обязательно найдется точка q&\ лежащая на границе замкнутой области G (доказательство предоставляем читателю). Век- есть, таким образом, неко Рис. 48.1.
402 й№ЛО&ЁЙЙЁ тор £°, определяющий рассматриваемую rniiepiiji&cttocfi», будет как раз таким вектором, для которого в условии (48.3) прид = <f& достигается максимум, равный нулю. Наконец, экстремальное движение 5° (т), которое фигурирует в условии максимума (46.9) и которое согласно этому условию определяет управление w° (т), переводящее систему (42.1) в состояние {х ($)}т = q@\ задается, следовательно, краевым условием *(*) = [?]• Обозначим £[И = р [F {X {&, • )}т]. Зная форму поверхностей £ [I] = X = const (48.6) в пространстве {#}, можно составить известное представление о форме области достижимости G (£, ata\ Ф, ЙВ) в пространстве {х}^, так как граница Я области G есть поверхность, двойственная к поверхности (48.6). Поясним эту двойственность на примере случая, когда ограничение w e 9B стесняет некоторую норму уС [ю (•)] функции и? (т) (см. выше стр. 378). Итак, пусть задано ограничение и* М-)!<!*■ (48-7) Тогда необходимое и достаточное условие для того, чтобы точка q содержалась в области G, представляется в виде неравенства min£[Z]>l при Z'c = l i (см. (45.23)). Для точек q = q№\ лежащих на границе Н области G, данное условие выполняется со знаком равенства. Поэтому, учитывая (43.5) и (48.2), приходим к выводу, что поверхность Н описывается уравнением min£[*] = ! при Z'-c(jr) = l, (48.8) i где с (q) = q — {х° (t, х^а\ $)}т- Итак, точка q = g<P> €Е ЕЕ Н тогда и только тогда, когда выполнено условие (48.8). Геометрически это условие означает (при фиксированном
§ 48] ОБЛАСТЬ ДОСТИЖИМОСТИ УПРАВЛЯЕМОГО ДВИЖЕНИЯ 403 q = g(0)), что в пространстве {Ц гиперплоскость Ж (13), заданная уравнением V . с (д<*>) = 1 (48.9) и ортогональная к вектору с (^Э)), касается поверхносги К, описываемой уравнением (48.6) (рис. 48.2). Рис. 48.2. Пусть это касание происходит в точке I — 1°. Тогда согласно предыдущему материалу из этого параграфа заключаем, что вектор 1° в свою очередь определяет в пространстве {х}^ гиперплоскость Х{1°) р>* . [q_ {,,o(*, *<a)?#)}w]== lf (48.10) которая ортогональна к вектору ?\° и касается поверхности Я в точке д<0> (рис. 48.3). Таким образом, поверхности К и Н оказываются связанными следующим двойственным соотношением: каждой точке qW>EEH отвечаете пространстве {1} некоторая гиперплоскость Ждо> (48.9), касательная (точнее говоря, опорная) к поверхности К в точке Z0, при этом в свою очередь гиперплоскость X (Z0) (48.10) в пространстве {q} есть
404 ПРИЛОЖЕНИЕ касательная (опорная) к поверхности Н в точке q = q&K Верно и обратное утверждение. Отсюда сразу выводятся также, например, следующие заключения. (1) Граница Н области G имеет в точке q = q* не одну опорную плоскость, то есть точка q* на Н является конической (см. рис. 48.3) тогда и только тогда, когда гиперплоскость V -с (q*) = 1 касается поверхности К не в одной точке Z* (см. рис. 48.2). (2) Граница Н области G имеет с гиперплоскостью (48.10) не одну точку касания тогда и только тогда, когда поверхность К имеет в точке 1° не одну опорную плоскость. Если функция w° (т) удовлетворяет условию максимума (46.9), то управление w° (т) обязательно выводит движение х (т) на опорную гиперплоскость (48.10). Обратно, всякое допустимое управление w (т), выводящее движение на гиперплоскость (48.10), должно удовлетворять условию максимума (46.9) (доказательство предоставляем читателю). Отсюда вытекает заключение: условие максимума (46.9) вполне определяет управление w° (т), приводящее систему в заданную точку q^\ тогда и только тогда, когда граница Н и гиперплоскость (48.10) имеют единственную общую точку q = q&\ Учитывая двойственность между К и Ну данному утверждению можно придать форму следующего заключения. Лемма 48.2. Условие максимума (46.9) тогда и только тогда вполне определяет управление w° (т), приводящее систему в заданное состояние q&\ когда точка 1°, где гипер- Рис. 48.3.
§ 48] ОБЛАСТЬ ДОСТИЖИМОСТИ УПРАВЛЯЕМОГО ДВИЖЕНИЯ 405 плоскость (48.9) касается поверхности К, не является точкой заострения, то есть когда в точке 1° нет опорных к К гиперплоскостей, отличных от (48.9). Полезно еще заметить следующее. Пусть функции xW(ft, т) в (42.11) линейно независимы. Тогда при ограничении х* [w] ^ (я, где %* — некоторая норма функции w (т), область достижимости G (t, rta\ ■&, 2В) можно трактовать как сферу в пространстве {х}т с центром в точке х° ш с радиусом р = \i в некоторой метрике, определенной нормой у* [х], которая сопряжена с нормой у [I] = = р[{Х(0, .)}««• В заключение параграфа заметим следующее. Пусть управления w (т) выбираются из услЪвия (44.18), где множество Wi непрерывно меняется с изменением параметра т (см. стр. 379). В этом случае условие максимума \sy(t)wQ(т)dx = max \s*'(x)w(x)~dx, (48.11) которому удовлетворяет управление w° (т), переводящее систему (42.1) из положения х (t) = #<а> в состояние {х (Ф)}т== = qW на границе области достижимости G (t, дКа>, Ф; ?^т), принимает вид s°'(t)w°(t) = maxs°'(T)w(T) (48.12) при почти всех Т ЕЕ U, Ф). Для доказательства этого утверждения достаточно показать, что существует измеримая на полуинтервале [£, 'О1) функция w° (т), удовлетворяющая условию (48.12). (В самом деле, если такая измеримая функция существует, то она, очевидно, удовлетворяет соотношению (48.11).) С этой целью рассмотрим множество W^ векторов m\>(tJ ЕЕЭД^, определяемых равенством s°' (*.) Щ (*.) - max s*' (т.) w (tj, т* где х# ЕЕ [t, Ф). Множество W\* является выпуклым и замкнутым при каждом хт ее It, $) (в силу выпуклости и замкнутости Wx)- В силу непрерывности по т множества Wn
406 ПРИЛОЖЕНИЕ и вектор-функции s° (т) это множество W? полунепрерывно сверху по включению в каждой точке т^ ЕЕ It, Ф) (см. лемму 15.3 на стр. 146). Отсюда вытекает [17*], что на отрезке [t, ■&] уравнение в контингенциях имеет решение, то есть существует такая абсолютно непрерывная вектор-функция у0 (т), что ее производная иР (т) = = j ' при почти всех т ЕЕ It, Ф) удовлетворяет включению w° (т) ЕЕ W*- Функция w° (т), являющаяся производной абсолютно непрерывной функции и по построению удовлетворяющая нужному нам условию (48.12), измерима ([61, стр. 338). § 49. Обобщение задачи q6 управлении В условиях задачи 43.1 фигурировало требование привести объект (42.1) в заданное состояние [х (Ф)}т = q@\ где qW — фиксированная точка в пространстве {х}т. Однако возможны такие ситуации, когда достаточно привести объект лишь в одну из точек q$ из некоторого заданного множества М$ таких точек. Условие разрешимости такой задачи в обыкновенном случае ограничения (43.3) следует немедленно из условия (45.9) (или из условия (45.22)). Это условие принимает, например, вид шах [тт(р[Г{Х(#,.)}т]-Г.с(Л)]>0, (49.1) д(«е=.*р1ИК1 где символ с (q№) подчеркивает, что согласно (43.5) вектор с есть функция от значения вектора q@\ который может выбираться из условия qW Е= М$. Если множество М$ является ограниченным, выпуклым и замкнутым, то в левой части (49.1) операции minr и тах?(|3) можно переставить местами (см. [5*], стр. 42) и условие (49.1) тогда принимает вид min [max (p [Г{Х(*,.)}т]-''-c(j<«))] >0. (49.2) IIHK1 яФ)<=Лр
149J oeofeiitEHtife задали оё ViiPABjiMHii Ш В частности, если множество Jt$ есть замкнутая е-ок- рестность некоторой точки q*, то есть если множество М$ описывается неравенством |«<»-Л<в. (49-3) то условие (49.2) с учетом выражения для вектора с изображается в форме min [max (p \V {X (*, • )}m] - l'p -f HKi IIpK« = min (p [/' {X (Ф, • )}m] + e || 11 + I' {*« (t, *<«>, *)}m - lUIKi -ZV)>0 (49.4) (;> = «<»-«•). Отсюда в свою очередь следует, что замкнутая е-окрест- ность Gs(t, x(*\ д, 2В) области достижимости G(t, x^\ ft, 2В) описывается неравенством р[ПХ(Ф,-)}т] -bB||Zl+Z'{^O(^^a),O)}m-^>0, (49.5) и это неравенство должно выполняться для каждой точки g из Ge (£, х(а\ Ф, 2В), каков бы ни был вектор L Геометрический смысл этих соотношений читатель может установить самостоятельно по аналогии с материалом из § 48. Итак, соотношение (49.5) определяет замкнутую е-ок- рестность GB (t, #<а>, Ф, Щ области достижимости G (t, х(*\ Ф, Щ. Это соотношение можно получить и другими по форме рассуждениями, если трактовать область Ge (t, з*а), d, 5B) в свою очередь как область достижимости для движения х (т) (42.1) из состояния х (t) = я<а) к моменту т = Ф, но теперь уже при допустимых управлениях wp (т) = w (т) + рб (т - О), (49.6) где по-прежнему w (•) е SB, a /? есть произвольный вектор, стесненный только условием |р|| ^ е; символ 6 (т — — О) обозначает дельта-функцию Дирака. Такая трактовка принята в книге, поэтому поясним ее подробнее. Пусть выбрано выпуклое замкнутое множество $>, складывающееся из m-мерных векторов р. Будем говорить,
408 ПРИЛОЖЕНИЕ что точка q из m-мерного подпространства {q} содержится в ^-окрестности G&> (£, а*а>, Ф, SB) области G (t, Ж*\ д, 5В) тогда и только тогда, когда можно подобрать точку q* ЕЕ G (t, х(*\ Ф, SB) такую, что вектор q - q. = РЕЕЭ5. Напомним теперь, что по определению дельта-функцией б (т — Ф) называется такая обобщенная функция, которая удовлетворяет условию §г).(т)д(т —ft)rfT=: х\{Ъ\, t какова бы ни была непрерывная функция г\ (т). Следовательно, если мы выберем управление wp (т) (49.6), то согласно формуле Коши (42.2) получим х(Ъ) =--=я°(*,я<а>,д) + $Х(Ф, x)w(x)dx + t ■f $Х(Ф,т)рд(т —ft)dt = t - afi (t, x(*\ *) f J X (*, r) w (x) dx + p. t Иначе говоря, дополнительное слагаемое рб (т — О) в выражении (49.6) для управления wp (т) порождает дополнительное смещение точки х (д) на вектор р. Но отсюда и следует, что область G& можно трактовать как область достижимости для движения х (т) при управлениях Wp (т) (49.6), стесненных условием u?(-)e», реЭ6. (49.7) Назовем случай /^-управления wp (т) обыкновенным, если в (49.7) множество SB есть ограниченное, выпуклое и замкнутое множество в пространстве 52[?)я) {w}, a SP есть ограниченное, выпуклое и замкнутое в я-мерном пространстве {/?} множество. Теперь можно повторить
I 40] ОЁОБЩЕНЙЕ ЗАДАЧИ ОБ УПРАВЛЕНИЙ 409 все те рассуждения, которые были проведены выше в §§ 42—48 для управления w (т) в обыкновенном случае. Для того чтобы сделать это достаточно строго, поступим следующим образом. Рассмотрим пространство ^[?,)^]{^}1»,= = фу, вектор-функций h (т), заданных на отрезке [t, Щ и интегрируемых с квадратом величины \h (т)|| 2 на этом отрезке, где мера d\i (т) задана следующим образом: на полуинтервале U, Ф) мера d\x (т) есть обычная мера Лебега, а мера точки т = д принимается равной единице. Тогда норму Ир, ^ [h (•)] удобно задать равенством ^л№(-)1=Е|Л(т)Р£г|1(т)] 2 = = (jlfe(T)fdT + ||fe(*)f)V2. Далее равенства ft = $Лга'(*)и>р(*И* = Г «I & ' -- J №]' (т) w (т) dt + W4' (Ф) р -= J №' (т) м; (т) dt + ft '(Л[Ч(Т) = «С*3(*,Т)) теперь удобно трактовать в виде ?i = J №]' (t) u?<p>(t) d^Ji (t), (49.8) ? где ц?<р> (т) (^ ^ т ^ 'О1) — отвечающий управлению wp (т) (49.6) элемент пространства <Х[?|&] такой, что iMp) (т) = = w (т) при t ^ 1? < д и и;^ ("б1) = р. Но тогда правая часть (49.8) есть не что иное, как функционал <pw(p)/#) 1№]( •)], вычисленный на элементе Ь\11 (•) = h (•) из 5?[?, а] {й}^ — = фу, и порожденный функцией w^ (•)> также являющейся элементом из 5?[?,&] {^}i»" Дальнейшие рассуждения из §§ 42—48 повторяются совершенно автоматически, ибо и теорема Рисса (см. стр. 380) и теорема Мазура (см. •
Ш ПРИЛОЖЕНИЕ стр. 377) сохраняет свою силу и для пространства ^[?N] W\h: При этом лишь величина р (44.5) будет теперь изображаться равенством р = р^[Л'(.)] = ma.x\\h'{x)wW(x)dii(x)} = ic(P)(.) t = max \ К(x)w (x)dx\ + maxft'($)•/> = = P №'(•)] +maxfe'(#)./?. (49.9) pe<^ Таким образом, повторяя рассуждения из §§ 42—48, мы увидим, что область достижимости G&> (t, x^\ ft, 50?) описывается следующим соотношением: Р*[*'{Х(*.-)}«i] Н^*^ *»«•'-''flf>0. (49.10) аналогичным неравенству (49.1). Из (49.10) вследствие (49.9) получаем, наконец, соотношение Р {V {X (О, • )}т] + шах V {р}т + V {*<>(*, *»>, 0)}m - Z'?>0, ре<#> (49.11) описывающее область G&> (t, #a, d, Щ. При условии, что 3> есть сфера J/? J ^ е, неравенство (49.11), как и следовало ожидать, совпадает с неравенством (49.5). Повторяя теперь дословно рассуждения из §§ 46, 48, получаем, что управление w% (Т) = и;0 (т) + p*b (t - О), переводящее объект (42.1) из положения х (t) = #<a> в состояние {х (Ф)}т = q°, принадлежащее границе Н&> области G^>, (t, х(*\ О, SB), удовлетворяет принципу максимума в- $• \s0'(x)u/>(x)dx = max Ь°'(т) w(x)dx, (49.12) г1 we© ? 5°/(«)p0 = max5°/(0)pf (49.13) ре^°
§ 49] ОБОБЩЕНИЕ ЗАДАЧИ ОБ УПРАВЛЕНИИ 411 где s° (т) — движение системы (42.9), стесненное краевым условием «•<*) = [о]. вектор Z0 — решение задачи на условный экстремум l*'q - р [Г {X (ф, • )}т] - max /о' {р}т -[l°'{x°(t, x<«\ #)}т = = max[ZV-p[r{X(d,.)U- - max l'\p}m -l'{ifi(t,«(«), *)}т]. (49.14) Заметим, наконец, что в случае ограничения (44.18) u;(t)Gf: (49.15) при почти всех т ЕЕ U, Ф), где WT непрерывно меняется с изменением т, соотношение (49.12) из принципа максимума (49.12), (49.13) принимает вид s°' (т) vfi (т) = max 5°' (т) w (49.16) wescsT при почти всех т S U, Ф) (см. подробнее § 48, стр. 405). С материалом данного параграфа тесно связана также следующая задача о программном оптимальном управлении. Задача 49.1. Заданы управляемая система (42.1), отрезок времейи [t, d] и начальное состояние х (t) = #<a> объекта. Указано множество ЗВ управлений w (т) (t ^ ^т^Ф). Среди управлений w (т), стесненных условием u?(.)eSBf (49.17) найти управление w° (т), доставляющее минимум величине е = |{*(Ф)}т|. (49.18) Управление w° (t), решающее задачу 49.1, будем называть оптимальным.
412 ПРИЛОЖЕНИЕ Как и выше (см. стр. 376—408), предполагается, что множество 2В является выпуклым, ограниченным и замкнутым в пространстве Обсудим совсем кратко решение задачи 49.1. Зафиксируем „число е > 0. Тогда может быть поставлена задача о переводе системы (42.1) из заданного начального х (t) = = х№ состояния за время d — t на многообразие Жф) конечных состояний {х ($)}т= q@\ определяемое неравенством !?<»!< е. Эта задача уже рассматривалась в данном параграфе (см. стр. 406—407). Необходимое и достаточное условие разрешимости ее состоит в выполнении неравенства (49.4), где следует положить q* = 0. Очевидно, наименьшее неотрицательное число 8°, при котором еще выполняется условие (49.4), и есть искомое для задачи 49.1. Это число, как нетрудно видеть, определяется равенством ео = _ р [Г {X(fl,.)}J - P'{*f>(t9 **>,<>)}« = = max [- р [V {X (*,. )}J - V {х* (t, **\ Ф)}да], (49.19) II г INi если правая часть его неотрицательна. В противном случае 8° = 0. Пусть 8° ]> 0. Искомое оптимальное управление w° (т) удовлетворяет тогда принципу максимума (46.9), гдея0 (т) — решение сопряженной системы (42.9), стесненное краевым условием *•(*) = [о]. Заметим, наконец, что в частном случае ограничения (46.14) условие максимума (46.9), которому удовлетворяет управление w° (т), решающее задачу 49.1, имеет вид (см. стр. 411) 5°' (т) w° (т) == max s0' (t) w (t) W£TT при почти всех т е U, Ф),
ЛИТЕРАТУРА Учебная литература 1*. Айзеке Р. Дифференциальные игры. М., «Мир»^ 1967. 2*. Б е л л м а н Р. Процессы регулирования с адаптацией. М., «Наука», 1964. 3*. Гантмахер Ф. Р. Теория матриц. М., «Наука», 1966. 4*. Данфорд Н., Шварц Дж. Т. Линейные операторы, т. 1. ИЛ, 1962. 5*. К а р л и н С. Математические методы в теории игр, программировании и экономике, М., «Мир», 1964. 6*, Колмогоров А. Н., Фомин СВ. Элементы теории функций и функционального анализа. М., «Наука», 1968. 7*. Красовский Н.Н. Теория управления движением. М., «Наука», 1968. 8*. Л ю с т е р н и к Л. А., С о б о л е в В. И. Элементы функционального анализа. М., «Наука», 1965. 9*. Мак-Кинси Дж. Введение в теорию игр. М., Физматгиз, 1960. 10*. М а л к и н И. Г. Теория устойчивости движения. М., «Наука», 1965. И*. Немыцкий В. В., Степанов В. В. Качественная теория дифференциальных уравнений. М., Гостехиздат, 1949. 12** Понтрягин Л. С. Обыкновенные дифференциальные уравнения. М., Физматгиз, 1965. 13*. Понтрягин Л. С, Болтянский В. Г., Гамкре- лидзеР. В., Мищенко Е. Ф. Математическая теория . оптимальных процессов. М., Физматгиз, 1961. 14*. Р у д и н У. Основы математического анализа. М., «Мир», 1966. 15*. Степанов В. В. Курс дифференциальных уравнений. М., Гостехиздат, 1950. 16*. Суслов Г. К. Теоретическая механика. М.,Гостехиздат,1946. 17*. Филиппов А. Ф. (а) О некоторых вопросах теории оптимального регулирования. Вестн. МГУ, сер. матем., механ., физ., хим. 1959, № 2. (б) Дифференциальные уравнения с разрывной правой частью. Математический сборник, 1960, т. 51 (93), вып. 1 . 18*. Фихтенгольц Г. М. Курс дифференциального и интегрального исчисления, тт. I—III, Физматгиз, 1962. 19*. X а л м о ш П. Конечномерные векторные пространства. М., Физматгиз, 1963. 20*. Шилов Г. Е. Математический анализ. Специальный курс. М., Физматгиз, 1960.
414 ЛИТЕРАТУРА Специальная литература 1. Айзеке Р. Дифференциальные игры. М., «Мир», 1967. 2. Александров В.М. Минимаксный подход к решению задачи обработки информации. Изв. АН СССР. Техн. кибернетика, 1966, № 5. 3. Б е й к о И. В. а) Численный метод решения задачи оптимального преследования по максимину времени. Укр. матем. журн., 1966, 18, № 1. б) Розвъязування нелшшной задачи оптимального переслиду- вання. Друга наукова конференция молодих математиков Украини. Шив, «Наукова думка», 1966. 4. Биллик Б. Некоторые оптимальные маневры встречи с малым ускорением. «Ракетная техника и космонавтика», 1964, 3. 5. Блакьер А., Жерар Ф. О геометрии оптимальных стратегий в играх качества двух игроков. Механика. Период сб. перев. ин. статей, 1968, № 5. 6. Болдырев В.И. Существование решения «минорантной» дифференциальной игры в случае двух функционалов. В сб.: «Управляемые системы». Новосибирск, «Наука», 1968, Вып. 1. 7. Болтянский В. Г. Математические методы оптимального управления. М., «Наука», 1966. 8. ВайсбордЭ.М.О принципе оптимальности для минимаксных задач. В сб.: «Оптимальн. системы автомат, упр.». М., «Наука», 1967. 9. Габасов Р., Кириллова Ф. М. О некоторых применениях функционального анализа в теории оптимальных процессов. Изв. АН СССР. Техн. кибернетика, 1966, № 4. 10. Г ад жиев М. Ю. а) Применение теории игр к некоторым задачам автоматического управления. I. Автоматика и телемеханика, 1962, 23, № 8. б) Применение теории игр к некоторым задачам автоматического управления. II. Автоматикаи телемеханика, 1962, 23, № 9. И. Гиндес В. Б. Оптимальное конфликтное управление линейной системой. Изв. высш. учеб. заведений. Математика, 1966, № 3» 12. Г н о е н с к и й Л. С. К задаче преследования. Прикл. матем. и механ., 1962, 26, № 5. 13. Гусятников П. Б. и Никольский М. С. Об оптимальности времени преследования. Докл. АН СССР, 1969, 184, № 3. 14. Демьянов В.Ф. К решению нелинейных задач преследования. Ж. вычислит, матем и матем. физики, 1967, № 5. 15. ЗеликинМ. И. и ТынянскийН. Т. Детерминированные дифференциальные игры. Успехи матем. наук, 1965, 20, № 4. 16. 3 е л и к и н М. И. Об одной дифференциальной игре. Успехи матем. наук, 1966, 21, № 4 (130). 17. 3 е л и к и н М. И., С и м а к о в а Э. Н. Обзор некоторых результатов по теории дифференциальных игр. В кн.: А й- з е к с Р. Дифференциальные игры. М., «Мир», 1967.
ЛИТЕРАТУРА 415 18. К а р в о в с к и й Г. С, Кузнецов А. Д. Принцип максимума в теории дифференциальных игр. N лиц. Изв. АН СССР. Техн. кибернетика, 1966, № 6. 19. Келенджеридзе Д. Л. а) К теории оптимального преследования. Докл. АН СССР, 1961, 138, № 3. б) Об одной задаче оптимального преследования. Автоматика и телемеханика, 1962, 23, № 8. 20. Кириллова Ф. М., Полетаева И. А. О некоторых задачах преследования. «Тезисы кратких научных сообщений. Секция 6. Междунар. конгресс матем.», М., 1966. 21. Кочетков Ю. А. Применение метода Понтрягина к исследованию минимаксных задач процессов управления. Изв. АН СССР. Техн. кибернетика, 1965, № 5. 22. К р а с о в с к и й Н. Н. а) Об одной задаче преследования. Прикл. матем. и механ., 1963, 27, № 2. б) К задаче о преследовании в случае линейных однотипных объектов. Прикл. матем. и механ., 1966, 30, № 2. в) К задаче об игровой встрече движений. Докл. АН СССР, 1967, 173, № 3. г) Об игровой встрече движений. Докл. АН СССР, 1968, 181, № 5. д) К задаче об игровой встрече движений. Прикл. матем. и механ., 1968, 32, № 5. е) Регуляризация задачи об игровой встрече движений. Прикл. матем. и механ., 1968, 32, № 6. ж) Регуляризация задачи о встрече движений. Докл. АН СССР, 1968, 179, № 2. з) О дифференциальной игре на сближение. Докл. АН СССР, 1968, 182, № 6. 23. КрасовскийН. Н., Репин Ю. М.,Третья ков В. Е. О некоторых игровых ситуациях в теории управляемых систем. Изв. АН СССР. Техн. кибернетика, 1965, № 4. 24. К р а с о в с к и й Н. Н., С у б б о т и н А. И. Оптимальное уклонение в дифференциальной игре. Дифференц. уравнения, 1968, 4, № 12. 25. Красовский Н. Н., Третьяков В. Е. а) К задаче о преследовании в случае ограничений на импульсы управляющих сил. Дифференц. уравнения, 1966, 2, № 5. б) К задаче о встрече движений. Докл. АН СССР, 1967,173,№ 2. в) О регуляризации одной задачи об игровой встрече движений. Прикл. матем. и механ., 1968, 32, № 1. 26. Лагунов В. Н. а) Об условиях существования преследующего управления. В сб. «Дискретный анализ», Новосибирск, 1967, вып. 11. б) Об управлении преследуемого объекта. В сб.: «Дискретный анализ», Новосибирск, 1968, вып. 13. в) Игра преследования при наличии трения. В сб.: «Управляемые системы», Новосибирск, «Наука», 1968, выи. 1,
416 ЛИТЕРАТУРА 27. Л е й т м а н Г., М о н Г. Об одном классе дифференциальных игр. Кибернетика, 1968, № 1. 28. Мищенко Е. Ф., ПонтрягинЛ. С. Линейные дифференциальные игры. Докл. АН СССР, 1967, 174, № 1. 29. МурзовН.В. О решении некоторых динамических игр перетягивания и преследования. Литов. матем. сб., 1967, 7, № 1. 30. М у р з о в Н. В., П е т р о с я н Л. А. Дифференциальная игра на перетягивание. Вестн. Ленинград, ун-та, сер. матем., механ., астрон., 1967, № 1, вып. 1. 31. Н и к о л ь с к и й М. С. Об одном классе дифференциальных игр. В сб. «Теория оптимальных решений». Тр. семинара, Киев, 1968, вып. 2. 32. Пацюков В. П. а) Методы решения некоторых дифференциальных игр. Изв. АН СССР. Техн. кибернетика, 1968, № 5. б) Оценки оптимальности управляемых антагонистических систем. Изв. АН СССР. Техн. кибернетика, 1968, № 6. 33. П е т р о с я н Л. А. а) Одна игра преследования на полуплоскости. Докл. АН Арм. ССР, 1965, 40, № 5. б) О сведении решения одной игры преследования на выживание к решению задачи Коши для уравнения в частных производных первого порядка. Докл. АН Арм. ССР, 1965, 40, № 4. в) Две антагонистические игры преследования. «Тезисы кратких научных сообщений. Секция 6. Междунар. конгресс матем.», М., 1966. г) Дисперсионные поверхности в одном семействе игр преследования. Докл. АН Арм, ССР, 1966, 43, № 4. д) Динамическая игра преследования при наличии сил трения. Докл. АН Арм. ССР, 1967, 44, № 1. е) Игры преследования «с линией жизни». Вестн. Ленинград, ун-та, сер. матем., механ., астрон., 1967, № 13, вып. 3. ж) Дифференциальные игры с независимыми движениями. Литов. матем. сб. 1968, 8, № 1. з) Инвариантный центр преследования в одном классе нелинейных дифференциальных игр. Изв. АН Арм. ССР. Математика, 1968, 3, № 4-5. и) Одно отображение на семействе дифференциальных игр преследования. Докл. АН СССР, 1968, 178, № 1. к) О применимости техники решения «в малом» Айзекса для решения «в малом» некоторых игр преследования. Вестн. Ленинград, ун-та, сер. матем., механ., астрон., 1968, № 7, вып. 2. 34. П е т р о с я н Л. А., М у р з о в Н. В. а) Теоретико-игровые задачи механики. Литов. матем. сб., 1966, 6, № 3. б) Динамическая игра преследования. Докл. АН СССР, 1967, 172; М 6.
ЛИТЕРАТУРА 417 35. ПодиновскийВ.В. О существовании решений минимаксных задач оптимизации процессов. Изв. АН СССР. Техн. кибернетика, 1968, № 1. 36. П о ж а р и ц к и й Г. К. а) Импульсные преследования в случае линейных однотипных объектов второго порядка. Прикл. матем. и механ., 1966, 30, № 5. б) Оптимальные импульсные преследования в однотипных системах второго порядка. «Тезисы кратких научных сообщений». Секция 13. Междунар. конгресс матем. М. 37. Понтряги н Л. С. а) О некоторых дифференциальных играх. Докл. АН СССР, 1964, 156, № 4. б) К теории дифференциальных игр. Успехи матем. наук, 1966, 21, № 4. в) О линейных дифференциальных играх. 1. Докл. АН СССР, 1967, 174, № 6. г) О линейных дифференциальных играх. 2. Докл. АН СССР, 1967, 175, № 4. 38. Пшеничный Б. Н. а) О задаче преследования. Кибернетика, 1967, № 6. б) О линейных дифференциальных играх. Кибернетика, 1968, № 1. в) Линейные дифференциальные игры. Автоматика и телемеханика, 1968, № 1. г) Структура дифференциальных игр. Докл. АН СССР, 1969, 184, № 2. 39. Пшеничный Б.Н., О н о п ч у к Ю. Н. а) О задаче преследования с интегральными ограничениями на управления. Теория оптимальных решений. Семинар. Киев, 1967, вып. 1. б) Линейные дифференциальные игры с интегральными ограничениями. Изв. АН СССР. Техн. кибернетика, 1968, № 1. 40. С а г а й д а к М. Об одной дифференциальной игре. В сб.: «Теория оптимальных решений». Тр. семинара. Киев, 1968, вып. 2. 41. СатимовН. Об одной дифференциальной игре. Изв. АН Уз. ССР, Сер. физ.-матем. наук, 1968, № 6. 42. С и м а к о в а Э. Н. а) Дифференциальные игры. Автоматика и телемеханика, 1966, № И. б) Об одной дифференциальной игре преследования. Автоматика и телемеханика, 1967, № 2. в) Об одной нелинейной дифференциальной игре. Кибернетика, 1968, № 1. г) Об одной задаче преследования на плоскости. Автоматика и телемеханика, 1968, № 7. 43. С у б б о т и н А. И. а) К задаче об игровой встрече движений. Прикл. матем. и механика, 1967, 31, № 5. б) Регуляризация одной задачи о встрече движений. Дифферент уравнения, 1968, 4, Яв 5.
418 ЛИТЕРАТУРА 44. Третьяков В. Е. Регуляризация одной задачи о преследовании. Дифферент;, уравнения, 1967, 3, № 1. 45. Ш е л е м е н т ь е в Г. С. Об одной задаче коррекции движения. Прикл. матем. и механика, 1969, 33, № 2. 46. Ячаускас И. П. Одна игра преследования на полуплоскости. Литов. матем. сб., 1967, 7, № 1. 1. Antosiewitz H. A. Linear control systems. Arch. Rat. Mech. and Analysis, 1963, 12, № 4. 2. AppelgrenL. An Attrition Game. Operat. Res. 1967r 15, № 1. 3. Baron S. Differential games and manual control. IEEE Trans. Human Factors Electron, 1966, 7, № 4. 4. В ehn R. D. and Ho Y. C. On a class of linear stochastic differential games. IEEE Trans. Aut. Control. 1968, 13, № 3. 5. В e r k о v i t z L. D. a) A variational approach to differential games. Ann. Math. Studies, 1964, № 52. b) A differential game without pure strategy solutions in the open set. Adv. in game theory. Ann. Math. Studies, 1964, № 52. c) Necessary conditions for optimal control strategies in a class of differential games and control problems. SI AM J. Control, 1967, 5, № 1. d) A survey of differential games. Math, theory of control, Academic Press, 1967. 6. Berkovitz L D., F 1 e m i n g W. H. On differential games with integral payoff. Contrib. to the Theory of Games. Ann. Math. Studies, 1957, № 3. 7. Bresson M.M. Les problemes de poursuite et d'evasion: quelques travaux Sovietiques et suedois recents; leur liens avec les recherches effectuees aux Etats Unis. Theory of Games. London, Engl. Univ. Press, 1967. 8. BryllG., DulewiczZ. Gry poscigowe ze zmiennymi pred kosciami. Zesz. nauk. Wyszej szkoly ped. Opolu, Mat.,1965, 4. 9. Chattopadhyay R. a) On the Hamilton — Jacobi Equation of Differential Games. Intern. J. Control, 1968, 7, № 2. b) On differential games. Intern. Journ. Control, 1967, 6, № 3. c) Functional analytic analysis of a pursuit problem. J. Optimization theory and appl., 1968, 2, № 4. 10. Cockayne E. Plane pursuit with curvature constraints. SIAM J. Appl. Math., 1967, 15, № 6. 11. Eaton J.H. Improper solutions under existence assumptions: an example. IEEE Trans. Automat. Control, 1965, 10, № 2. 12. Fleming W. H. a) A note on differential games of prescribed duration. Contrib. to the theory of games. Princeton Univ. Press, 1957, 3. b) The convergence problem for differential games. J. Math. Anal. Appl., 1961, 3. c) The convergence problem for differential games. II. Adv. in Game Theory. Ann. Math. Studies, 1964.
ЛИТЕРАТУРА 419 13. Guinn T. Boundary arcs for a class of differential games. J. Optimization Theory and Appl., 1968, № 4, 2. 14. H о V. С, В г у s о n A. E., Jr., Baron S. Differential games and optimal pursuit-evasion strategies. IEEE Trans. Aut. Control, 1965, 10, № 4. 15. Isaacs R. a) Differential games of kind. Recent adv. in Game Theory, Princeton, 1961. b) Differential Games. New York, Wiley, 1965. c) Differential Games and their role in warfare. Theory Games. London, Engl. Univ. Press. 1966. d) On bang-bang surfaces in differential games. Report on the ICM CONGRESS, Moscow, 1966. 16. I s b e 11 J. R. Pursuit around a Hole. Naval Res. Logist. Quart., 1967, 14, № 4. 17. J a cob J. P., Pol а к Е. a) On a class pursuit-evasion problems. IEEE Trans. Aut. Control, 1967, 12, № 6. b) On finite-dimensional approximations to a class of games. J. Math. Anal. Appl., 1968, 21, № 2. 18. К i r i 11 о v a F. M. Applications of functional analysis to the theory of optimal processes. SIAM Journ. Ser. Control., 1967, 5, № 1. 19. К r e i n d 1 e r E. Contributions to time-optimal control. J. Franklin Inst. 1963, 275. 20. L e i t m a n G., M о n G. a) On a class of differential games. Colloq. Adv. Problems and Methods for space flight optimization. Liege, Belgium, 1967. b) Some geometric aspects of differential games. J. Astron. Sci., 1967, 14, № 2. 21. Leitmann G. A simple differential game. J. Optimization Theory and Appl., 1968, 2, № 4. 22. Marcus L., S e 11 G. Capture and Control in Conservative Dynamical Systems. Arch. Ration. Mech. and Anal., 1968, 31, № 4. 23. M e s с h 1 e r P. A. a) Time-optimal rendezvous strategies. IEEE Trans. Aut. Control, 1963, 8, № 4. b) Differential game-theoretic analysis of maneuvring threats. Defense Res. Corp. Santa Barbara Calif. Tech. Memorandum, March 1966, 346. c) On a goal-keeping differential game. IEEE Trans. Aut. Control, 1967, 12, № 1. 24. M e s с h 1 e г Р. А., В а г о n S., H о L. Comments on linear pursuit-evasion game. IEEE Trans. Aut. Control, 1967, AC-12, 25. Mycielski J. Continuous games with perfect information. Ann. Math. Studies, 1964, № 52. 26. M у s 1 i с к i A. Theory of pursuit in gravitational and electro- magnetical fields. Roczn. Polsk. towarz. mat., 1967, ser. 1, 10, № 2.
420 литература 27. Nardzewski С. R. A theory of pursuit and evasion. Adv. in Game theory. Ann. Math. Studies, 1964. 28. N e u s t a d t L. W. Time optimal control systems with position and integral limits. Journ. Math. Anal, and Appl. 1961, 3, № 3. 29. О g u z t о r e 11 i M. N. Optimal pursuit strategy processes in retarded control systems. J. Soc. Industr. and Appl. Math., 1964, A2, № 1. 30. P о n t г у a g i n L. S. On some differential games. J. Soc. Industr. and Appl. Math., 1965; Appl. Math., 1965, A3, № 1. 31. P о r t e r W. A. On Function Space Pursuit — Evastion Games. SI AM J. Control, 1967, 5, № 4. 32. R a g a d e R. K., S a r m a I. G. a) Some considerations in formulating optimal control problems as differential games. Intern. J. Control, 1966, 4, № 3. b) A game theoretic approach to optimal control in the presence of uncertainty. IEEE Trans. Aut. Control, 1967, 12, № 4. 33. RennaeS.C. A note on continuous games, the notion of strategies and Zermelo's axiom. Notre Dame J. Form. Log., 1965, 6, № 3. 34. Scarf H. E. On differential games with survival payoff. Contrib. to the theory of games, Princeton N. J., Princeton Univ. Press, 1957, 3, (Ann. Math. Studies, № 3). 35. S p e у e r J. L. A stochastic differential game with controllable Statistical parameters. IEEE Trans, on Sys. Sci. and Cybernetics, 1967, SSC-3, № 1. 36. V a r a i у a P. P. On the existence of solutions to a differential game. SIAM J. Control, 1967, 5, № 1. 37. WitsenhausenH. S. A minimax control problem for sampled linear systems. IEEE Trans. Aut. Control., 1968, 13, № l. 38. W о n g R. E. Some aerospace differential games. J. Spacecraft and Rockets, 1967, 4, № 11. 39. Z i e b a A. a) Elementary theory of pursuit. Zastosowania Mat. 1954. 1. b) Continuous games with perfect information. Bull. Acad. Polon. Sci. CI. Ill, 1955. c) Fundamental equations of the theory of pursuit. Trans, of the second Prague conf. on Math. Statistics, 1959.